Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Кстати, вот эта история про то что в РФ Роскомнадзор начал продавливать блокировку поисковых ботов для всех ресурсов в российской юрисдикции [1] , а не только для государственных - это совсем не безболезненная история и весьма неприятная долгосрочно.

Во первых актуальных архивов контента на русском языке больше не будет. Уже сейчас в Archive.org нет архивов российских госсайтов за 2 года, дальше будет хуже. То же самое с Common Crawl, останется только не самое свежее.

Во вторых для обучения российских ИИ используют эти же базы Archive.org и Common Crawl. Кроме разве что Яндекса у которого есть свой индекс. По этому из разработчиков ИИ менее всего пострадает Яндекс, но в целом пострадают все.

В третьих от блокировки поисковых ботов до блокировки поисковиков один шаг. Заблокируют ли когда-либо в РФ Google и Bing, к примеру? Врядли скоро, но могут. И это будет неприятно. Неприятнее лишь если только сам Google заблокирует все российские IP к своей инфраструктуре, вот это будет просто таки даже болезненно. Многие впервые узнают от чего зависят их сайты, продукты и устройства.

Ссылки:
[1] https://www.kommersant.ru/doc/6679719

#digitalpreservation #webarchives #closeddata #russia #search
В *рубрике закрытых данных в РФ* в январе я писал о том что исчезли отчёты Системного оператора единой энергетической системы [1] по состоянию энергетики, но обнаружил недавно что написал там не всё. Кроме отчётов исчезли ещё и ежесуточные индикаторы такие как:
- План генерации и потребления
- Факт генерации и потребления
- Генерация и потребление (сут)

И так по каждому из ОЭС в рамках ЕЭС.

Данные остались только в Интернет архива [2].

В разрезе отдельных энергокомпаний мне недавно необходимо было найти данные по электрогенерации и только в паре случаев удалось найти помесячные данные по электрогенерации за 2023 год, а за 2024 год уже ничего не нашлось.

Ссылки:
[1] https://t.me/begtin/5359
[2] https://web.archive.org/web/20211107094307/https://www.so-ups.ru/functioning/ees/oes-center/oes-center-indicators/

#statistics #russia #opendata #closeddata #energy
Давайте я для разнообразия напишу про что-нибудь хорошее с открытыми данными в РФ
- похоже что жив и даже перезапущен портал справочников Минздрава (nsi.rosminzrav.ru), это 1797 наборов данных справочной информации в виде датасетов в XML, JSON, XLS и CSV форматах для экспорта
- всё ещё живы и активны многие региональные порталы открытых данных таких как портал данных Республики Коми (opendata.rkomi.ru) и портал данных города Новосибирска (opendata.novo-sibirsk.ru). Таких обновляющихся порталов около десятка.
- всё ещё доступен и обновляется портал открытых данных Минкульта РФ (opendata.mkrf.ru) , наборов данных новых там нет, но старые продолжают обновлять.
- Пушкинский дом продолжает публиковать открытые данные в своём репозитории (dataverse.pushdom.ru)
- некоторые университеты в РФ начали публиковать открытые данные о своей деятельности, например раздел с данными в формате CSV на сайте РНИМУ им. Пирогова и раздел данных Нижегородского НГТУ . А также научные данные публикуются как отдельные проекты, как это делает СГМУ в репозитории клинических данных
- некоторые датасеты для машинного обучения публикует ВНИИАС / РЖД в рамках проекта RailDataSets

#opendata #russia #datasets
Похоже что Большая российская энциклопедия на грани закрытия, не могу сказать что мне она когда-либо вызывала симпатию, но, похоже, сотрудников даже не предупреждали что финансирования больше нет. В комментариях к посту очень много критики в адрес руководства.

Похоже что сайт bigenc.ru придётся архивировать.

С одной стороны такова судьба всех классических энциклопедий ибо создавать контент очень дорого.

А с другой стороны, а зачем вообще на неё тратили средства?

Впрочем вангую что судьба всех остальных российских википедиезаменителей будет аналогична.

Любые энциклопедические проекты должны быть открытыми, с открытыми данными, открытым кодом, API, краудсорсингом и _без любой идеологии_.

Людей жалко, конечно.

#wikipedia #bigenc #closeddata #russia
В Ведомостях (которые уже совсем не торт) за пэйволом [1] статья о том что Минэкономразвития РФ такие зайки большие молодцы и выпустили циркуляр о том что всем госорганам можно открывать данные для компаний создающие ИИ.

Как человек погруженный в тематику открытых данных очень много лет могу сказать что правильно читать эту новость так:
1. Минэкономразвития продолбало портал data.gov.ru
2. Минэкономразвития не смогло создать новую версию data.gov.ru на Гостехе
3. Министерства продалбывают системное централизованное раскрытие данных и единые стандарты.
4. Методические рекомендации отвратно написаны и давно уже писать их просто некому.

Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2024/06/17/1044118-kompanii-poluchat-otkritie-dannie-vedomstv-dlya-obucheniya-ii


#opendata #russia #closeddata
РБК пишут что Росавиация перестала публиковать сведения [1] о структуре авиапарков самолетов в реестре эксплуатантов самолетов. Причём сделали они это под таким экзотическим предлогом как "оптимизация размещения информации". Было бы очень смешно, не будь противно от таких отговорок.

Решение то причём не основанное ни на одном нормативном документе, не припомню чтобы Правительство РФ или Минтранс РФ требовали закрытия этих сведений. Во всяком случае официально.

Как и во многих других подобных случаях возникает вопрос. Что если нужны эти сведения и в официальной публикации их более нет?

Я не буду упоминать существующие альтернативные источники данных внутри РФ, их тоже могут закрыть. Зачем же помогать закрывающим;)

Самый очевидный косвенный источник этих данных - это Flight Radar, OpenSKY, ADS Exchange и другие проекты по краудсорсингу наблюдения за полетами воздушных судов. До тех пор пока в России не преследуют тех кто ставил их, то оперативная информация по взлётам и посадкам (действующим самолётам) будет доступна. Её будет дороже собирать, но мало что изменится. А преследовать тех кто ставил ADS-B ресиверы крайне сложно, сами они не передают информацию, только получают.

У многочисленных проектов слежки за самолётами есть базы самих самолётов. Крупнейшая мне известная находится в сервисе OpenSKY [3], а также в проекте Open Aviation Data [4].

Спасибо "оптимизаторам" из Росавиации что напомнили про все эти проекты. Давно хотел об этом написать, да всё откладывал.

Это наглядный пример как раз решения задачи по data discovery с поиском альтернативных источников закрываемой статистики.

Ссылки:
[1] https://www.rbc.ru/business/25/06/2024/667b00219a7947de5642ddfe
[2] https://favt.gov.ru/dejatelnost-aviakompanii-reestr-komercheskie-perevozki/
[3] https://opensky-network.org/aircraft-database
[4] https://atmdata.github.io/sources/

#opendata #data #russia #aviation #closeddata #statistics #alternativedata
Оказывается НИУ ВШЭ опубликовали Декларацию этических принципов использования ИИ [1]. Я бы сказал что полезный документ и всё такое, но у этого удивительного документа нет вообще никаких ссылок на то что могло бы быть его основой. Ни на глобальные принципы ООН, ни на принципы ОЭСР, ни на даже на российский кодекс этики в сфере ИИ [2]. Не говоря уже про принципы научной этики.

Удивительная вещь в себе, зато со ссылкой на указ президента.

Кто ещё его читал? Какие ещё косяки там есть?

Ссылки:
[1] https://www.hse.ru/news/expertise/937054242.html
[2] https://ethics.a-ai.ru/

#ai #russia #readings
В Форбс статья про то что Минцифры переписало законопроект об обезличенной информации и то что ключевые положения там остались о том что цель законопроекта в том чтобы забрать данные у бизнеса и сконцентрировать в одной госсистеме.

Я по прежнему не перестаю говорить что единственными бенефициарами проекта являются:
- спецслужбы - доступ к данным для профилирования граждан и слежки
- госкомпании - приближенные к центрам принятия решений, доступ к данным бесплатно
- правительство - создание доп. инструмента давления на цифровой бизнес

Говоря откровенно, этот закон людоедский. Правительство оказалось неспособным собрать данные для ИИ из государственных информационных систем, хотя там их не просто много, а бесконечно много. У российского гос-ва есть такие данные как:
- медицинские данные (снимки рентгена, томографов и тд);
- спутниковые данные (структуры Роскосмоса);
- данные фото и видеофиксации (дороги, стройки и тд)
- языковые данные
- научные данные

И ещё много чего. Но вместо того чтобы привести в порядок эти данные, открыть их, сделать датасеты для ИИ, правительство пошло по пути ультранасилия и под соусом доступности данных для бизнеса на ИИ (хотя покажите мне хоть один бизнес которые просил именно этого и именно так), так вот правительство просто отнимает у бизнеса данные о клиентах.

В общем это один из самых худших законопроектов в РФ за последние если не десятилетия, то годы. Затрагивает он не только граждан, но всех чьи данные находятся в информационных системах и компаниях в российской юрисдикциях.

#regulation #russia #closeddata #data
К вопрос о том как исчезают данные в РФ, и не только в РФ. Многие операторы баз данных онлайн - это коммерческие компании которые особенно в последнее время активно удаляют свой контент из поисковиков и агрегаторов. Какой-нибудь energybase.ru. В какой-то момент они прописали блокировку большей части поисковых и архивных ботов. Теперь все ссылки в gem.wiki, которую я только что упоминал, протухли потому что многие сайты, например, вместо ссылок на сайты давали и дают ссылки на Интернет архив. Например, https://www.gem.wiki/Nizhne-Bureyskaya_hydroelectric_plant и теперь ссылки эти протухли(

Если, в какой-то момент, Правительство РФ решит что размещение информации о критической инфраструктуре недопустимо и заставит все такие сайты удалить информацию то и в интернет архиве ничего не останется.

Все такие случаи не отследить( К сожалению и архивация коммерческих сайтов осложнена многим, в первую очередь, тем что они особенно оберегают свои права на контент.

#data #russia #dataavailability
Ещё один пример закрытия данных Банк России приостанавливает публикацию статистики внебиржевого валютного рынка [1].

А ведь совсем недавно, в апреле, эту статистику стали публиковать расширенно [2].

Этого раздела больше нет на сайте ЦБ РФ [3], причем удалили даже архив, что непохоже на ЦБ РФ которые, к примеру, после прекращения публикации данных по экспорту в 2022 году архивные данные не удаляли.

Некоторые данные всё ещё доступны в Интернет-Архиве [4], но в целом событие печалит ещё и тем что ЦБ РФ теперь подчищает архивы и нужна регулярная архивация их сайта. В последний раз мы делали это для Национального цифрового архива [5] в 2021 году и это была веб архивация, она не охватывала данные закрытые формами и POST запросами

Ссылки:
[1] https://cbr.ru/press/pr/?file=638566558563054550DKP.htm
[2] https://www.cbr.ru/press/pr/?file=638489599567862726DATABASES.htm
[3] https://www.cbr.ru/hd_base/vko/
[4] https://web.archive.org/web/20240706093400/https://cbr.ru/hd_base/vko/
[5] https://ruarxive.org

#opendata #closeddata #cbrf #statistics #russia #webarchive #digitalpreservation
В рубрике закрытых данных в РФ Мосбиржа приостановила публикацию статистики по валютному рынку [1] на неопределённый срок. Эти данные более не публикуются в регулярных ежемесячных пресс-релизах биржи.

Ссылки:
[1] https://quote.rbc.ru/news/article/66acf1439a79476d6256d6c6

#closeddata #opendata #russia #finances
У Михаила Емельяниникова в блоге публикация Уполномоченные операторы обработают персональные данные для вас и за вас? Точно?
о новой инициативе российских депутатов по формированию перечня уполномоченных операторов персональных данных которые умеют защищеннее/лучше/больше/быстрее обрабатывать персональные данные среднего и малого бизнеса.

Статья полезная могу порекомендовать её почитать и кое что добавить. Наделение специальных организаций полномочиями операторов персональных данных в мире есть и даже есть такое понятие как Data Custodians. Например, оно есть в Австралии и называется Data scheme.

Казалось бы лучшие практики? Но, в чём разница между российскими и австралийскими практиками. В том что в Австралии эти Data Custodians уполномочены на работу с персональными данными которыми трам-парам-парам владеет Правительство Австралии. А то есть, это те операторы которым Правительство страны доверяет и даёт им доступ и через них доступ к данным внутри государственных информационных систем.

В РФ всё это имеет нюанс, в том что депутаты обсуждают не доступ к госданным, а операторов для работы с данными бизнеса.

Чувствуете разницу?

В первом случае - это защищённый доступ бизнеса к госданным, во втором случае это дополнительное обременение на средний и малый бизнес.

Второй немаловажный нюанс этого регулирования - это попытка крупных владельцев персональных данных уйти от требований сдачи всех данных в государственную информационную систему. Это уже не столько про выгоду для цифровых олигополий, хотя и она есть, сколько про их попытку защитить собственные данные. Можно относится к инициативе как к одной из попыток "защитного GR" от наиболее худших последствий сдачи данных государству для "обезличивания".

#privacy #russia #regulation
В качестве регулярного напоминания, в России уже 16 месяцев как отсутствует федеральный портал открытых данных data.gov.ru. Он был "закрыт на ремонт" Минэкономразвития РФ в марте 2023 года [1] и с тех пор не возвращён к жизни, несмотря на то что его "перенос на Гостех" должен был завершиться к январю 2024 года.

В истории Минэка - это не последняя плохая история в их информатизации и зоной ответственности, но очень показательная поскольку закрыли старую версию портала до того как открыли новую. В общем-то всем понятно что просто хотели закрыть.

Ссылки:
[1] https://t.me/begtin/4714

#opendata #closeddata #russia
В рубрике закрытых данных в РФ у геопортала Архангельской области на базе ArcGIS закончилась лицензия [1] и слои данных и сервисы с этого сервера более недоступны. Хотя они всё ещё перечислены в их каталоге геоданных [2]. Похоже что геопортал уже, или перевели, или переводят на российскую ГИС Orbis, у которой открытых слоёв с данными нет и в каталоге они не перечислены, но есть недокументированные API. Не совместимые с ArcGIS или с протоколами OGC.

А каталог геоданных в Архангельской области не обновляли уже 3 года.

Ссылки:
[1] http://maps1.dvinaland.ru/arcgis/rest/services/AdressnPlan/Kadastr/FeatureServer/0
[2] https://maps29.ru/catalog/#
[2] https://maps29.ru

#opendata #closeddata #datasets #russia #geodata
Ранее Notion, а теперь ещё и Coda. Но Notion писали в стиле "мы теперь не принимаем платежи из РФ", а Coda сразу пишут что из РФ будут недоступны.

#russia #sanctions
Пишут что Looker, сервис от Google более не работает в России для российских аккаунтов. Я сам проверить никак не могу, мой аккаунт там к РФ не был привязан, но если у вас такой есть, то проверьте на всякий случай. Всё таки Looker был и остаётся весьма качественным продуктом по визуализации данных.

#sanctions #russia #dataviz
В рубрике доступных, но недокументированных открытых данных которые. по хорошему, российское Минэкономразвития должно было бы публиковать на портале открытых данных если бы он был, геоданные инвестиционной карты РФ [1] хотя никак не обозначены и не документированы публично тем не менее доступны через интерфейсы API опенсорс продукта GeoServer который используется внутри этого портала. Разработчики закрыли интерфейс самого геосервера, но закрыть интерфейсы API невозможно без глубокой переделки сайта, поскольку именно с сайта слои автоматически подгружаются. Поэтому и рассказать об этом можно без опасений, API исчезнут только если исчезнет сам портал.

- https://investmapapi.economy.gov.ru/geoserver/ows?service=WMS&version=1.1.1&request=GetCapabilities - WMS 1.1.1
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WMS&version=1.3.0&request=GetCapabilities - WMS 1.3.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WFS&version=1.0.0&request=GetCapabilities - WFS 1.0.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WFS&version=1.1.0&request=GetCapabilities - WFS 1.1.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WFS&version=2.0.0&request=GetCapabilities - WFS 2.0.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=1.0.0&request=GetCapabilities - WCS 1.0.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=1.1.0&request=GetCapabilities - WCS 1.1.0
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=1.1.1&request=GetCapabilities - WCS 1.1.1
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=1.1&request=GetCapabilities - WCS 1.1
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WCS&version=2.0.1&request=GetCapabilities - WCS 2.0.1
- https://investmapapi.economy.gov.ru/geoserver/ows?service=WPS&version=1.0.0&request=GetCapabilities - WPS 1.0.0
- https://investmapapi.economy.gov.ru/geoserver/gwc/service/tms/1.0.0 - TMS. 1.0.0
- https://investmapapi.economy.gov.ru/geoserver/gwc/service/wms?request=GetCapabilities&version=1.1.1&tiled=true - WMTS 1.1.1
- https://investmapapi.economy.gov.ru/geoserver/gwc/service/wmts?REQUEST=GetCapabilities - WMTS 1.0.0

Этот пример не единственный, в России общедоступных инсталляций GeoServer 12 штук, на сегодняшний день. Это немного, но они есть.

Ссылки:
[1] https://invest.gov.ru

#opendata #russia #datasets #geodata #spatial
В рубрике закрытых и открытых данных в России
Росстат перестал публиковать ежемесячную статистику по миграции и по общей численности населения России.[1] - об этом пишет демограф Алексей Ракша со ссылками на последние публикации на сайте ведомства. Эти данные никогда не были открытыми в смысле машиночитаемости, но были открыты в форме текста/картинок/таблиц в докладе.
Роскосмосу разрешили продавать снимки ДЗЗ [2] хотя он и раньше их продавал, но теперь может продавать их и госорганам. Это очень противоположная тенденция тому что происходит в мире, там наоборот, в геопространственных проектах ЕС и США всё больше общедоступных спутниковых снимков охватывающих весь мир.
В России приготовились засекретить работу правительства в случае военного положения [3] Минюст РФ предложил закрывать часть общедоступных сведений об органах власти в случае военного положения. Ну, хотя бы не предложили интернет отключать, но в остальном без комментариев.
ФНС России опубликовали новый набор открытых данных, сведения о специальных налоговых режимах [4]. На сегодняшний день это чуть ли не единственный российский ФОИВ публикующий регулярно и обновляющий осмысленные наборы данных.

Ссылки:
[1] https://t.me/RakshaDemography/3911
[2] https://www.pnp.ru/social/a-iz-nashego-okna-zemlya-v-illyuminatore-vidna.html
[3] https://www.moscowtimes.ru/2024/10/22/yuzhnaya-koreya-zadumalas-opostavkah-letalnogo-vooruzheniya-ukraine-iz-za-privlecheniya-rossiei-soldat-kndr-a145553
[4] https://t.me/nalog_gov_ru/1529

#opendata #closeddata #russia
Please open Telegram to view this post
VIEW IN TELEGRAM
Примерно с апреля 2024 года Минздрав РФ более не публикует открытые данные на своём официальном сайте [1] и сейчас данные также недоступны.

При этом ещё в марте этот раздел был открыт [2] хотя данные и не обновлялись. Например, данные реестра
лекарственных средств не обновлялись с марта 2017 года [3], как и оставшиеся датасеты, их также прекратили обновлять в 2017 году.

Ссылки:
[1] https://minzdrav.gov.ru/opendata
[2] https://web.archive.org/web/20240328094829/https://minzdrav.gov.ru/opendata
[3] https://web.archive.org/web/20240520083814/https://minzdrav.gov.ru/opendata

#opendata #datasets #data #russia #closeddata