Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Ещё в копилку происходящего с регулированием данных в России, одна из причин почему я лично перестал как-либо пытаться влиять на госполитику в этой области в том что весь GR в цифре свёлся к "защитному GR'. А то есть он не про продвижение каких-то инициатив выгодных бизнесу, типа открыть какие-то данные, а про снижение вреда от нового регулирования и совсем уж людоедских законопроектов.

Вот и со сдачей данных ровно точно также. Тот же цифровой крупняк в ассоциации толстых котов больших данных хотел бы чтобы этой инициативы вообще не существовало, но вместо этого предлагают модель дата брокеров по обезличиванию данных. Хотя всем прекрасно понятно что главный бенефициар госрегулирования это спецслужбы и пара госов которые получат монополию на частные данные. А обезличивание тут - это дело такое, необезличенные данные кому надо всегда будут доступны. Поэтому история с дата брокерами - это как самих себя высечь небольно, чтобы барин сильно не высек.

А как оно в мире? А в мире всё наоборот. Бизнес обсуждает с государством о том как получать доступ к госданным через дата брокеров, когда не госорганы раздают права, а госорганы дают чувствительные данные сертифицированным дата брокерам и те обезличивают их и передают бизнесу для коммерческих продуктов.

Почувствуйте, что называется, задницу разницу.


#data #government #regulation #russia
В рубрике *как это устроено в России* о том что должно было бы быть открытыми данными, но ими не является. У почти всех российских регионов есть инвестиционные карты. Это, либо отдельные геопорталы, либо разделы на инвестиционных порталах которые точно есть у всех. Например, инвестиционная карта Курганской области [1] или инвестиционная карта Волгоградской области [2]. Можно убедиться что на них есть слои карт и их от десятков до полутора сотен. Другие подобные инвестиционные карты легко находятся по ссылкам с портала инвестпроектов Минэка РФ [3].

Что можно о них сказать? Они все содержат то или иное недокументированное API. Там всего несколько вендоров геоинформационных систем и у них всё довольно стандартизировано. При очень небольших усилиях то же Минэкономразвития могло бы добавить на нацпортал открытых данных более 1000 датасетов и/или стандартизированных API по стандарту WFS. Очень небольшие расходы на всё это нужно, я бы даже сказал мизерные, а вероятность что эти данные были бы небесполезны, конечно, есть.

Но в России нет уже давно нацпортала открытых данных, деятельность в этой области на федеральном уровне, если не свернута, то подзабили на неё изрядно, особенно в Минэкономразвития.

Кстати, к примеру в Казахстане национальный геопортал [4] сделан довольно прилично и там публикуют открытые данные. Не со всех региональных геопорталов они их агрегируют, но и 571 слой карт - это неплохо.

Возвращаясь к ситуации в РФ. Мне бы вот, например, хотелось агрегировать данные с российских геопорталов в Dateno и даже недокументированность их API решается. У типовых систем, типовые API. Но тут уже другое ограничение, российские госсайты в большинстве своём недоступны с зарубежных IP адресов. Краулер работающий не изнутри страны не сможет достучасться до большого числа сайтов. Это, конечно, тоже решается, но требует больше времени и усилий.

В этом смысле поразительна ситуация с европейскими открытыми данными и открытыми данными в других развитых странах где именно геоданные составляют большую часть всего раскрываемого и опубликовано.

Ссылки:
[1] https://invest45.ru/investmap
[2] https://investmap.volgograd.ru
[3] https://invest.economy.gov.ru
[4] https://map.gov.kz

#opendata #data #geodata #russia #api
В рубрике закрытых данных в России Минэнерго закрыло статистику о производстве бензина, в РБК подробности [1] а формулировки то там какие «будет способствовать укреплению надежности обеспечения внутренних потребителей и повышению энергетической безопасности страны в целом»

С такими формулировками можно всё закрыть вообще. У нефтяной компании есть сайт? Его закрытие тоже «будет способствовать укреплению надежности обеспечения внутренних потребителей и повышению энергетической безопасности страны в целом» .

АЗС публикуют цены? И их надо закрыть. А цены на бензин запретить обсуждать. 😠

Ссылки:
[1] https://www.rbc.ru/economics/29/05/2024/66574a469a79471b5a6f192e

#opendata #closeddata #russia #energy
Смешная картинка про российскую ГосТехИИзацию. 😂 Но вместо того чтобы говорить что не так с ГосТех'ом в РФ, я скажу что так с ГосТехом в Сингапуре. В основе ГосТеха в Сингапуре много открытого исходного кода и открытых продуктов созданных командой разработчиков их технологического государственного агентства Продукты живые, исходный код доступен https://github.com/opengovsg

Ответить на вопрос что не так с ГосТехом в РФ каждый может самостоятельно😜

#govtech #singapore #russia #opensource
Кстати, вот эта история про то что в РФ Роскомнадзор начал продавливать блокировку поисковых ботов для всех ресурсов в российской юрисдикции [1] , а не только для государственных - это совсем не безболезненная история и весьма неприятная долгосрочно.

Во первых актуальных архивов контента на русском языке больше не будет. Уже сейчас в Archive.org нет архивов российских госсайтов за 2 года, дальше будет хуже. То же самое с Common Crawl, останется только не самое свежее.

Во вторых для обучения российских ИИ используют эти же базы Archive.org и Common Crawl. Кроме разве что Яндекса у которого есть свой индекс. По этому из разработчиков ИИ менее всего пострадает Яндекс, но в целом пострадают все.

В третьих от блокировки поисковых ботов до блокировки поисковиков один шаг. Заблокируют ли когда-либо в РФ Google и Bing, к примеру? Врядли скоро, но могут. И это будет неприятно. Неприятнее лишь если только сам Google заблокирует все российские IP к своей инфраструктуре, вот это будет просто таки даже болезненно. Многие впервые узнают от чего зависят их сайты, продукты и устройства.

Ссылки:
[1] https://www.kommersant.ru/doc/6679719

#digitalpreservation #webarchives #closeddata #russia #search
В *рубрике закрытых данных в РФ* в январе я писал о том что исчезли отчёты Системного оператора единой энергетической системы [1] по состоянию энергетики, но обнаружил недавно что написал там не всё. Кроме отчётов исчезли ещё и ежесуточные индикаторы такие как:
- План генерации и потребления
- Факт генерации и потребления
- Генерация и потребление (сут)

И так по каждому из ОЭС в рамках ЕЭС.

Данные остались только в Интернет архива [2].

В разрезе отдельных энергокомпаний мне недавно необходимо было найти данные по электрогенерации и только в паре случаев удалось найти помесячные данные по электрогенерации за 2023 год, а за 2024 год уже ничего не нашлось.

Ссылки:
[1] https://t.me/begtin/5359
[2] https://web.archive.org/web/20211107094307/https://www.so-ups.ru/functioning/ees/oes-center/oes-center-indicators/

#statistics #russia #opendata #closeddata #energy
Давайте я для разнообразия напишу про что-нибудь хорошее с открытыми данными в РФ
- похоже что жив и даже перезапущен портал справочников Минздрава (nsi.rosminzrav.ru), это 1797 наборов данных справочной информации в виде датасетов в XML, JSON, XLS и CSV форматах для экспорта
- всё ещё живы и активны многие региональные порталы открытых данных таких как портал данных Республики Коми (opendata.rkomi.ru) и портал данных города Новосибирска (opendata.novo-sibirsk.ru). Таких обновляющихся порталов около десятка.
- всё ещё доступен и обновляется портал открытых данных Минкульта РФ (opendata.mkrf.ru) , наборов данных новых там нет, но старые продолжают обновлять.
- Пушкинский дом продолжает публиковать открытые данные в своём репозитории (dataverse.pushdom.ru)
- некоторые университеты в РФ начали публиковать открытые данные о своей деятельности, например раздел с данными в формате CSV на сайте РНИМУ им. Пирогова и раздел данных Нижегородского НГТУ . А также научные данные публикуются как отдельные проекты, как это делает СГМУ в репозитории клинических данных
- некоторые датасеты для машинного обучения публикует ВНИИАС / РЖД в рамках проекта RailDataSets

#opendata #russia #datasets
Похоже что Большая российская энциклопедия на грани закрытия, не могу сказать что мне она когда-либо вызывала симпатию, но, похоже, сотрудников даже не предупреждали что финансирования больше нет. В комментариях к посту очень много критики в адрес руководства.

Похоже что сайт bigenc.ru придётся архивировать.

С одной стороны такова судьба всех классических энциклопедий ибо создавать контент очень дорого.

А с другой стороны, а зачем вообще на неё тратили средства?

Впрочем вангую что судьба всех остальных российских википедиезаменителей будет аналогична.

Любые энциклопедические проекты должны быть открытыми, с открытыми данными, открытым кодом, API, краудсорсингом и _без любой идеологии_.

Людей жалко, конечно.

#wikipedia #bigenc #closeddata #russia
В Ведомостях (которые уже совсем не торт) за пэйволом [1] статья о том что Минэкономразвития РФ такие зайки большие молодцы и выпустили циркуляр о том что всем госорганам можно открывать данные для компаний создающие ИИ.

Как человек погруженный в тематику открытых данных очень много лет могу сказать что правильно читать эту новость так:
1. Минэкономразвития продолбало портал data.gov.ru
2. Минэкономразвития не смогло создать новую версию data.gov.ru на Гостехе
3. Министерства продалбывают системное централизованное раскрытие данных и единые стандарты.
4. Методические рекомендации отвратно написаны и давно уже писать их просто некому.

Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2024/06/17/1044118-kompanii-poluchat-otkritie-dannie-vedomstv-dlya-obucheniya-ii


#opendata #russia #closeddata
РБК пишут что Росавиация перестала публиковать сведения [1] о структуре авиапарков самолетов в реестре эксплуатантов самолетов. Причём сделали они это под таким экзотическим предлогом как "оптимизация размещения информации". Было бы очень смешно, не будь противно от таких отговорок.

Решение то причём не основанное ни на одном нормативном документе, не припомню чтобы Правительство РФ или Минтранс РФ требовали закрытия этих сведений. Во всяком случае официально.

Как и во многих других подобных случаях возникает вопрос. Что если нужны эти сведения и в официальной публикации их более нет?

Я не буду упоминать существующие альтернативные источники данных внутри РФ, их тоже могут закрыть. Зачем же помогать закрывающим;)

Самый очевидный косвенный источник этих данных - это Flight Radar, OpenSKY, ADS Exchange и другие проекты по краудсорсингу наблюдения за полетами воздушных судов. До тех пор пока в России не преследуют тех кто ставил их, то оперативная информация по взлётам и посадкам (действующим самолётам) будет доступна. Её будет дороже собирать, но мало что изменится. А преследовать тех кто ставил ADS-B ресиверы крайне сложно, сами они не передают информацию, только получают.

У многочисленных проектов слежки за самолётами есть базы самих самолётов. Крупнейшая мне известная находится в сервисе OpenSKY [3], а также в проекте Open Aviation Data [4].

Спасибо "оптимизаторам" из Росавиации что напомнили про все эти проекты. Давно хотел об этом написать, да всё откладывал.

Это наглядный пример как раз решения задачи по data discovery с поиском альтернативных источников закрываемой статистики.

Ссылки:
[1] https://www.rbc.ru/business/25/06/2024/667b00219a7947de5642ddfe
[2] https://favt.gov.ru/dejatelnost-aviakompanii-reestr-komercheskie-perevozki/
[3] https://opensky-network.org/aircraft-database
[4] https://atmdata.github.io/sources/

#opendata #data #russia #aviation #closeddata #statistics #alternativedata