Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Европейский доклад о гомогенизации особо ценных наборов данных (Report on Data Homogenisation for High- value Datasets) [1] вышел ещё 5 декабря. Небольшой по объёму и посвящён тому как в странах ЕС публикуют реестры компаний, данные по мобильности населения и официальную статистику. А также о том как можно было бы унифицировать публикацию таких данных. Можно уже ожидать что в 2024 году, или отдельно, или как часть существующего, но будет рейтинг/индекс/сравнение стран ЕС именно по публикации данных особой ценности.

Если кто-то пропустил, то эти наборы данных должны публиковаться в ЕС в рамках директивы 2023/138 [2] и, в принципе, европейское регулирование открытости данных идёт в направлении не только "открытости по умолчанию", но и гарантированной доступности данных по которым подтверждён общественный и коммерческий запрос. В частности - это данные реестров компаний, статистики, геоданные, метеоданные и многое другое.

Ссылки:
[1] https://data.europa.eu/en/doc/report-data-homogenisation-high-value-datasets
[2] https://eur-lex.europa.eu/eli/reg_impl/2023/138/oj

#opendata #eu #readings #reports
В рубрике как это устроено у них и о разнице между подходами к регулированию деперсонализации данных в Евросоюзе и в России.

Amnesia [1] продукт с открытым кодом [2] в рамках европейского проекта OpenAIRE позволяет анонимизировать научные данные прежде чем их публиковать в научных репозиториях.

Базовый сценарией его применения:
1. Скачать код или дистрибутив к себе локально во внутреннюю сеть или рабочий компьютер.
2. Запустить Amnesia
3. Выбрать режим анонимизации
4. Проделать все необходимые операции по деперсонализации данных.

Работает только с табличными данными вроде TXT и CSV, имеет API, может использоваться как исследователями лично, так и лабораториями, интегрирован с Zenodo и Dataverse.

Финансируется в рамках European Union's Horizon 2020 Research and Innovation programme.

Всё это к вопросу о том что если бы российское Минцифры реально хотело бы получить анонимизированные данные для ИИ, то могло бы выдать гранты на создание продуктов на открытом коде или дать субсидии коммерческим компаниям /стартапам в рамках ФСИ на создание таких коммерческих продуктов, а не централизованно собирать персональные данные от бизнеса и внутри этого оператора эти данные анонимизировать.

Всё это к тому что есть другие решения, гораздо более безопасные. А от решения по централизации всех персональных данных в России выиграют только спецслужбы, продающие перс. данные инсайдеры и хакеры которые через инсайдеров эти данные получат.

Ссылки:
[1] https://amnesia.openaire.eu/
[2] https://github.com/dTsitsigkos/Amnesia

#privacy #opensource #eu #regulation
На Новый год всем хочу пожелать много данных
Больших, небольших, интересных и странных
Открытости по умолчанию везде где возможно
И мира хотелось бы, а то как-то тревожно
В рубрике как это устроено у них открытые научные данные в такой, далеко не всем известной научной дисциплине как материаловедение.

Как и ряд других дисциплин она активно сдвигается в сторону открытости науки и открытости исследовательских данных.

Вот пример, 4-х научных проектов:
- AFlow [1] - база из 3.5 миллионов компонентов материалов и более чем 734 миллионов их свойств, под Public Domain для научного использования
- OQDM [2] база рассчитанных термодинамических и структурных характеристик более чем 1.2 миллионов материалов. Под Creative Commons
- The Materials Project [3] база по более чем 320 тысячам молекулам и материалам, а также проекты по машинному обучению предсказания свойств материалов
- NOMADS [4] база из 13 миллионов записей о материалах, как теоретических, так и полученных из экспериментов

У всех проектов лицензии на распространение материалов или Creative Commons или Public Domain, есть API на получение и на загрузку данных. Их наборы данных и отдельные записи индексируются научными поисковиками и агрегаторами. Ко всем есть API, библиотеки на Python для автоматической работы с данными, открытый код и сформировавшаяся экосистема.

Общий объём раскрываемых данных измеряется в сотнях теребайт. Начиная с 100 GB в OQMD и до 119 TB в NOMAD.

Ссылки:
[1] http://aflowlib.org/
[2] https://oqmd.org/
[3] https://next-gen.materialsproject.org/
[4] https://nomad-lab.eu/nomad-lab/

#opendata #openaccess #openscience #science #research #materials #molecules
Подводить итоги 2023 года сложно, можно коротко описать как "ещё один плохой год", а я попробую себя в жанре предсказаний на 2024 г.:
1. Всё что касается регулирования интернета, данных и ИТ в целом будет ухудшаться в мире. Цензура в авторитарных странах продолжит ужесточаться вплоть до постепенному приходу к работе по белым спискам, а в демократических введут механизмы блокировок по аналогии с авторитарными режимами. Регулирование ИИ будет ужесточаться, но не в России, в России ключевые ИИ компании выторгуют, если ещё не выторговали, послабления, под страхами "потери лидерства", "утечки мозгов" и тд. Регулирование приватности и управления данными будет ухудшаться в России, в первую очередь из-за инициативы по централизованной деперсонализации данных госоператором.

2. Тема открытых данных в мире продолжится, основные данные будут раскрываться научными организациями. Открытый доступ (open access) продолжит своё развитие, в том числе в развивающихся странах. Фактически открытые научные данные будут везде где есть живая наука интегрированная в мировую. Но и основные другие инициативы никуда не исчезнут. Будет больше проектов связанных с доступностью данных машинного обучения.

3. Хайп вокруг ИИ продолжится и начнёт стихать только к концу 2024 года, когда станет понятно что все "сливки" снимут ограниченное число очень крупных игроков. Но для инвесторов сохранится приоритет на инвестиции в "поумневшие" сервисы, самого разного толка. Будет как минимум 2-3 крупных скандала вокруг ИИ игроков, регулирования, инвестиций и тд.

#opendata #predictions #2024 #ai #regulation #data #privacy
Forwarded from Open Data Armenia
Для тех кто ищет идей для вдохновения для визуализации данных, по Армении доступен огромный набор данных
Armenia: High Resolution Population Density Maps + Demographic Estimates [1] созданный компанией Meta в рамках инициативы Data for Good в апреле 2023 года.

Набор данных включает:
- общую число жителей
- распределение населения по возрастным когортам: женщины, мужчины, дети, старики

Все данные доступны в форматах CSV, JSON и GeoTIFF и позиционируются компанией как наиболее точные данные по населению в мире, с детализацией до 30 метров. Подробнее о методологии
можно прочитать на сайте инициативы [2].

На Population Density Explorer [3], доступна интерактивная визуализация этих данных.

Ссылки:
[1] https://data.humdata.org/dataset/armenia-high-resolution-population-density-maps-demographic-estimates
[2] https://dataforgood.facebook.com/dfg/tools/high-resolution-population-density-maps
[3] https://populationexplorer.org/

#opendata #datasets #armenia #population #dataviz
Немного отвлекаясь от темы данных, хотя и отчасти соприкасаясь с темой открытости данных, есть такое явление в России, как минимум, последние 6 лет, как снижение институциональной прозрачности. Оно касается доступности информации о ключевых решениях властей всех уровней, в особенности нормативных документов, бюджетов, государственных программ, планов, дорожных карт и много-го другого. Всё то что позволяет принимать осмысленные решения всем кто с государством взаимодействует.

Это снижение происходило, как в данных, например, исчезновение реестра субсидий, закрытие отчётов об исполнении бюджетов или учредителей НКО, так и в сведениях которых может быть открытыми данными не были, но имели значение. Например, я много писал о том что главное всех новых инициатив Пр-ва и Национальных проектов в их запредельной непрозрачности. Некоторые документы, например, структуру фед.проекта по Искусственному интеллекту можно найти только в базе Консультант Плюс, но не на сайте Правительства РФ или в официальных базах законодательства, Да и у самого документа нет статуса нормативного документа, а "всего лишь" он решение президиума правкомиссии. Зато есть множество пропагандистских проектов расхваливающих инициативы Пр-ва, есть аккаунты в министерств в соцсетях, причём даже "приближенных к народу", постящих гороскопы, как в соцсетях Минфина РФ.

К этим же событиям можно отнести и засекречивание крайне значительного числа указов и распоряжений Президента РФ и очень многое другое. На фоне активной цифровизации государственного патернализма, вроде госуслуг, и других "тяжёлых" госсистем, полностью замерло всё что касалось повышению прозрачности. Не появилось единого портала по прозрачности гос-ва с централизованной публикацией всех деклараций, портал открытых данных ещё до исчезновения был в замороженно-мусорном состоянии, был закрыт портал Госрасходы (spending.gov.ru) да и даже такое банальное явление как публикация нормативных текстов в виде текстов до сих пор не решена, официальное опубликование документов на publication.pravo.gov.ru до сих пор осуществляется сканами. Да, для справки, это единственный сайт официального опубликования, а не сайт Пр-ва, Пр-та или ГД.

А недавно я искал такую банальщину как состав экспертного совета по ИИ при РКН (ещё вернее при ГРЧС, но новости о нём только на РКН) и ничего нет.

Такого много, это не измеряется внешними или внутренними индексами и рейтингами, а все СМИ и НКО которые подобное отслеживали признаны иноагентами или нежелательными организациями.

Нет, это началось задолго до военных действий и не закончится когда эти военные действия закончатся. Оно началось когда окончательно стало понятно что РФ не вернётся в G8 и не вступит в ОЭСР.

Всё это при том что изначально уровень институциональной прозрачности был достаточно высок чтобы казалось что процесс её снижение идёт очень медленно. Но важное отличие не только в уровне, но и в тренде.

#thoughts #transparency #openness #opengov #opendata
Неожиданная и прекрасная карта Средиземья в 2D и 3D [1] причём автор не поленился и закодировал слои для ArcGIS Server и всё на карте отображается через FeatureServer и MapServer на серверах ArcGIS. При желании данные можно скачать посмотрев на код или просто попросив у автора. Если бы туда добавить стилизации, шрифтов, таймлайн, текстов, больше мест на карте и тд., то можно было бы превратить в произведение искусства.

Ссылки:
[1] https://www.micahvanderlugt.com/middle-earth

#dataviz #geodata #maps #middleearth #tolkien
Росреестр открыл портал пространственных данных [1], впрочем, глядя на портал можно обнаружить что данных то там и нет. Есть сервисы, есть карта, а выгрузить всё каким-либо образом не предусмотрено.

Но, это не совсем так. Простое обследование показывает что внутри портала всё построено на какой-то кастомизированной GIS системе в основе которой лежит open-source продукт Geoserver который и находится довольно быстро [2] с более чем 384 слоями к которым можно подключаться разного рода стандартными картографическими инструментами.

Все точки подключения у Geoserver открыты, кроме точек к сервисам WFS, но, подскажу что ключ для авторизации встроен в JS код сайта, так что авторизация весьма условна. Пытливым умам это не помеха.

Параллельно с этим WMS интерфейсы реализованы в GIS портала в привязке к отдельным слоям, например, [3] [4], а списки номеров слоёв через точку подключения API.

По итогу, открытых данных нет, общедоступные данные есть.

А я не могу в очередной раз не поразится попыткам прятать шило в мешке без особой на то нужды. Что мешало и мешает Росреестру опубликовать все спецификации API?

Ссылки:
[1] https://nspd.rosreestr.gov.ru
[2] https://nspd.rosreestr.gov.ru/geoserver
[3] https://nspd.rosreestr.gov.ru/api/aeggis/v2/6/wms?SERVICE=WMS&VERSION=1.3.0&REQUEST=GetCapabilities
[4] https://nspd.rosreestr.gov.ru/api/aeggis/v2/36049/wms?SERVICE=WMS&VERSION=1.3.0&REQUEST=GetCapabilities
[5] https://nspd.rosreestr.gov.ru/map_api/workset/list/forMap

#opendata #data #geodata #spatial #russia #rosreestr #api
Из открытого доступа исчез портал открытых данных города Казани data.kzn.ru [1], последний раз он индексировался Интернет архивом в феврале 2023 года [2], при этом он всё ещё упоминается на сайте мэрии города в разделе "Проекты" [3]. На портале было опубликовано несколько сотен наборов данных, а также было доступно несколько API.

Событие неприятное, очередной шаг к снижению открытости, на сей раз в одном из крупнейших городов РФ.

Если Вы контактируете с мэрией Казани или видели анонс, спросите у них о причине закрытия. По хорошему, они должны были официально вывести информационную систему из эксплуатации.

Ссылки:
[1] https://data.kzn.ru
[2] https://web.archive.org/web/20230201014645mp_/http://data.kzn.ru/
[3] https://kzn.ru/meriya/ispolnitelnyy-komitet/uits/proekty/

#opendata #data #closeddata #tatarstan #kazan #russia
В качестве регулярных напоминаний для тех кто ищет данные по России и постсоветским странам, каталоги/источники данных собраны в проекте Datacatalogs.ru [1] поддерживаемом Инфокультурой (@infoculture)

Там кроме порталов данных собраны, также, ссылки на значимые списки наборов данных и порталы открытого бюджета. А также небольшое число каталогов данных по Казахстану, Узбекистану и ряду других пост-советских стран. Плюс - удобный поиск и наглядная визуализация.

Другой источник - реестр каталогов данных всего мира Common Data Index и каталоги из России в нём [2].Тут только порталы открытых данных и геопорталы, он полнее по метаданным, но не включает, например, порталы бюджетной системы. Сейчас здесь 142 каталога данных, частично лишь пересекаясь. Не всё что есть здесь есть в Datacatalogs.ru, поскольку первый наполнялся вручную, а этот реестр полуавтоматически.

А также сильно меньший по объёму, но удобный для редактирования всем и каждым Russian awesome open data list [3] на Github. Достаточно просто добавить новые источники данных через Pull request. Он очень давно создан (9 лет назад) и редко обновляется. Очень нехватает контрибьюторов.

К этому я лишь добавлю что сейчас работаю над проверкой доступности порталов данных по РФ. Потому что не только сайты органов власти недоступны за пределами российских подсетей, но и сайты региональных и муниципальных властей, региональных ГИС и тд. Без использования прокси внутри РФ невозможно теперь проверить жив ли тот или иной российский сайт блокирующий не-российский трафик.

Ссылки:
[1] https://www.datacatalogs.ru
[2] https://registry.commondata.io/country/RU
[3] https://github.com/infoculture/awesome-opendata-rus

#opendata #russia #datacatalogs