Ivan Begtin
8.09K subscribers
1.61K photos
3 videos
100 files
4.33K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Рейтинг открытости данных в Германии Open Data Ranking от OKF Germany [1].

На первом месте регион Schleswig-Holstein, на последнем Saxony-Anhalt, а ключевые оценки по юридической обязательности публикации данных.

Если посмотреть на рейтинг то кажется что всё не так уж хорошо, хотя, ИМХО, они игнорируют порталы геоданных которых в Германии немало, особенно на региональном и городском уровне.

В реестре Dateno сейчас 378 каталогов данных в Германии [2] из которых 211 - это геопорталы.

При этом почти наверняка в каталоге собрано далеко не всё, как минимум у каждой из земель в Германии есть собственный статистический офис и много муниципальных порталов данных.

Поэтому этот рейтинг скорее про качество госполитики чем про доступность данных, хотя авторы и пытаются это смешать и добавили туда оценку по доступности документов парламентов. Что, несомненно, важно, хотя и методически странно. Тогда надо бы разделять на меньшее число крупных блоков: законодательство, технологии, прозрачности власти.

В любом случае рейтинг полезен и любопытен.

Ссылки:
[1] https://opendataranking.de
[2] https://dateno.io/registry/country/DE

#opendata #data #germany #ratings
Зима близко, "зима данных" статья
Are we entering a Data Winter? On the urgent need to preserve data access for the public interest [1] от Stefaan Verhulst
и исследование Consent in Crisis: The Rapid Decline of the AI Data Commons [2] от учёных из MIT.

И там, и там на тему того что данные которые используются для обучения ИИ стремительно исчезают из открытого доступа.

В том числе
5% всех данных и 25% данных высокого качества для обучения ИИ (C4, RefinedWeb, Dolma) теперь ограничены в доступе
45% данных в наборе C4 ограничены условиями сервиса
Многие контентные сайты теперь устанавливают пэйволы или меняют условия использования.
Массово блокируются краулеры от таких компаний как OpenAI, Anthropic, и Google.
Ряд компаний начинают требовать плату за доступ к данным (напр. Reddit, Inc., StackOverflow).
Активно предпринимаются юридические действия такие как иск The New York Times’ против OpenAI и Microsoft.

Список можно продолжать, фрагментация Интернета может стремительно нарастать уже в ближайшие месяцы. Как минимум многие владельцы крупных сайтов могут пойти на дальнейшее исключение их из поисковых систем, только чтобы их контент не был бы заменён ИИ который вообще трафика на их сайты не принесёт.

Отдельная история в этом всём в том что будет с открытостью данных. Пока ещё базовая концепция открытости не меняется, данные созданные на общественные средства должны быть общедоступны. Но соблазн у многих правительств по ограничению "чужих" ИИ к доступу к чувствительным данным может только нарастать.

Ссылки:
[1] https://policylabs.frontiersin.org/content/commentary-are-we-entering-a-data-winter
[2] https://www.dataprovenance.org/consent-in-crisis-paper

#opendata #data #ai #readings