Ivan Begtin
8.03K subscribers
1.72K photos
3 videos
101 files
4.42K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике как это устроено у них, 3 репозитория открытых научных данных созданные Варшавским университетом в 2017-2021 годах в рамках проекта Dziedzinowe Repozytoria Otwartych Danych Badawczych [1] переводится как Открытые репозитории доменных исследовательских данных.

В рамках проекта созданы репозитории:
- RepOD https://repod.icm.edu.pl - репозиторий открытых данных
- RDS https://rds.icm.edu.pl/ репозиторий социологических данных
- MX-RDR http://mxrdr.icm.edu.pl/ - репозиторий первичных данных в области макромолекулярной кристаллографии.

В общей сложности на них опубликовано около 1300 наборов данных. Данные в разных форматах: CSV, Excel, Nb, Ods, Tab и другие. Научные наборы данных также, часто отличаются тем что содержат первичные данные на которых проводилось исследование: тексты или изображения, например.

Общая стоимость проекта 4 998 889 злотых, по текущему курсу - это 95 миллионов рублей, всё это на 4 года.

Ссылки:
[1] https://drodb.icm.edu.pl/opis-projektu/

#opendata #openaccess #openscience #poland #eu #datasets
Тем временем в Испании 3 мая приняли первую национальную стратегию открытой науки [1] и собираются тратить по 23.8 миллионов евро ежегодно до 2027 года на развитие открытой науки и интеграции в мировую и европейскую инфраструктуру, в частности в European Open Science Cloud (EOSC). Учитывая что в Испании довольно развиты порталы открытых данных и не так много открытых репозиториев научных данных, я предполагаю что они пойдут французским путём и интегрируют открытые научные данные в нац портал datos.gob.es, но может быть и пойдут польским путем и вложатся в обучение работе с научными репозиториями и создании репозиториев научных данных в ведущих университетах.

Ссылки:
[1] https://www.universidades.gob.es/el-gobierno-aprueba-la-primera-estrategia-nacional-de-ciencia-abierta/

#opendata #openaccess #openscience #spain #eu
В рубрике как это устроено у них Български портал за отворена наука [1], портал открытой науки Болгарии созданный в НАЦИД (Национален център за информация и документация), государственным учреждением Болгарии подведомственным местному Министерству образования и науки. На портале собираются и публикуются данные из 8 репозиториев публикации результатов научной деятельности [3] большая часть которых являются научными статьями в открытом доступе.

По сути портал выступает в качестве поисковика по метаданным, перенаправляя на открытые репозитории содержащие тексты публикаций, в этом смысле он более похож на OpenAIRE чем, к примеру, на Dataverse. В то же время, портал был сертифицирован CoreTrustSeal [4], а то есть его создатели как минимум продумали достаточно важные системные вопросы организации его работы.

В принципе, национальные порталы открытости науки не редкость, их становится всё больше. Конкретно на этом портале открытые научные данные почти не представлены, во всяком случае их почти нет в болгарских институциональных репозиториях, можно предполагать что болгарские исследователи скорее используют напрямую общеевропейские порталы вроде Zenodo.

Ссылки:
[1] https://bpos.bg
[2] https://nacid.bg
[3] https://bpos.bg/bg/repositories
[4] https://www.coretrustseal.org/wp-content/uploads/2022/03/20220307-Bulgarian-Portal-for-Open-Science_final.pdf

#openaccess #openscience #bulgaria #eu
Свежий список компаний [1] попадающих под регулирование Евросоюза Digital Markets Act включает:
Alphabet
Amazon
Apple
ByteDance
Meta
Microsoft

А также список их продуктов. Список интересен тем что охватывает не все продукты компаний, а лишь те что значимы. Например, поиск Google там есть, а поиска Bing там нет. Также интересно что компании Маска и Twitter'а там тоже нет.

Правда этот список на 6 сентября и явно будет расти постепенно.

Учитывая что многие смотрят на регуляторов в ЕС как на пример для подражания я бы не удивился появлению схожего регулирования в Китае, не идентичного, а именно схожего по смыслу регулирования крупнейших цифровых игроков. И, с какой-то вероятностью, в России, со схожей риторикой, но достаточно жёсткими обременениями произвольного применения.

Ссылки:
[1] https://ec.europa.eu/commission/presscorner/detail/en/qanda_20_2349

#regulation #eu #datamarket #digital
Свежий европейский доклад Mapping the landscape of data intermediaries [1] о таких посредниках в работе с данными как: системы управления персональной информацией (PIMS), информационные кооперативы, трасты данных, профсоюзы данных, рынки данных и пулы обмена данными.

Много примеров из европейской практики, включая разбор бизнес моделей каждого из 6 типов посредников.

Например, малоизвестные мне ранее, профсоюзы данных (data unions) объединяющие людей предоставляющих свои данные, их примеры: TheDataUnion [2] и Unbankx [3].

А также многое другое. Полезно всем кто хочет знать как изнутри устроены _некоторые_, не все, рынки данных.

Ссылки:
[1] https://publications.jrc.ec.europa.eu/repository/handle/JRC133988
[2] https://thedataunion.eu
[3] https://www.unbanx.me

#data #research #readings #eu
Свежий стандарт по публикации результатов научной деятельности в открытом доступе Cross Domain Interoperability Framework (CDIF): Discovery Module [1] создан в рамках проекта WorldFAIR [2] и охватывает самые разнообразные объекты, но, что важнее, он описывает их публикацию используя schema.org что существенно повышает их находимость для поисковиков, в первую очередь, Google, но не только. Существенная часть стандарта про публикацию наборов данных, с отсылками в другим стандартам, включая DCAT, DataCite, ISO19115, EML, FGDC CSDGM, CERIF и DDI. Странно разве что отсутствие упоминания OAI-PHM. Как бы то ни было, потенциально это новый стандарт, который может быть вскоре одобрен в ЕС.

Ссылки:
[1] https://zenodo.org/records/10252564
[2] https://worldfair-project.eu/2023/12/05/cross-domain-interoperability-framework-cdif-discovery-module-v01-draft-for-public-consultation/

#opendata #datastandards #eu #standards #data #openaccess
Тем временем в Евросоюзе чиновники и законодатели согласовали свежий "Закон о ИИ" [1] который уже скоро примут и туда войдут многие положения по весьма жёсткому регулированию создания, применения и эксплуатации ИИ.

В частности будет запрещена эксплуатация ИИ следующих категорий:
- системы биометрической категоризации, использующие чувствительные характеристики (например, политические, религиозные, философские убеждения, сексуальная ориентация, раса);
- нецелевое извлечение изображений лиц из Интернета или записей с камер видеонаблюдения для создания баз данных для распознавания лиц;
- распознавание эмоций на рабочем месте и в учебных заведениях;
- социальный рейтинг, основанный на социальном поведении или личных характеристиках;
- системы искусственного интеллекта, которые манипулируют поведением людей, чтобы обойти их свободную волю;
- ИИ используемый для эксплуатации уязвимостей людей (из-за их возраста, инвалидности, социального или экономического положения).

За исключением таких задач как:
- целевые поиски жертв (похищение, торговля людьми, сексуальная эксплуатация),
- предотвращение конкретной и существующей террористической угрозы или
- локализация или идентификация лица, подозреваемого в совершении одного из конкретных преступлений

А также будут установлены требования к прозрачности ИИ продуктов и создание "песочниц" по контролем национальных властей для разработки ИИ малым и средним бизнесом без влияния глобальных корпораций.

Штрафы за нарушение могут достигать 7% от глобального оборота компании, так что последствия нарушений будут серьёзными, для многих компаний на кону может стоять принципиальное решение присутствовать или нет на рынке ЕС. Многое будет зависеть от того когда те или иные требования закона будут запланированы к исполнению.

Надо сказать что европейское регулирование резко контрастирует с отсутствием регулирования во многих странах или, к примеру, с российским регулированием в котором нет даже намёка на публичное раскрытие информации за исключением регулирования рекомендательных систем.

Ссылки:
[1] https://www.europarl.europa.eu/news/en/press-room/20231206IPR15699/artificial-intelligence-act-deal-on-comprehensive-rules-for-trustworthy-ai

#ai #eu #legislation #regulation
Незаслуженно упущенный мной документ GENERATIVE ARTIFICIAL INTELLIGENCE. OPPORTUNITIES, RISKS AND POLICY CHALLENGES [1] отчет European Parliamentary Technology Assessment о генеративном ИИ с точки зрения регуляторов в Евросоюзе и немного в Японии в контексте влияния ИИ на демократию. В целом весьма полезный обзорный документ.

И туда же вдогонку публикация про норвежский бюджет 2024 года [2] и упоминания расходов на ИИ в нём.

Ссылки:
[1] https://teknologiradet.no/en/publication/epta-report-2023-generative-artificial-intelligence-opportunities-risks-and-policy-challenges/
[2] https://medium.com/ethical-ai-resources/artificial-intelligence-in-the-norwegian-national-budget-for-2024-4f4d5bdde6fc

#ai #readings #eu #norway
Европейский доклад о гомогенизации особо ценных наборов данных (Report on Data Homogenisation for High- value Datasets) [1] вышел ещё 5 декабря. Небольшой по объёму и посвящён тому как в странах ЕС публикуют реестры компаний, данные по мобильности населения и официальную статистику. А также о том как можно было бы унифицировать публикацию таких данных. Можно уже ожидать что в 2024 году, или отдельно, или как часть существующего, но будет рейтинг/индекс/сравнение стран ЕС именно по публикации данных особой ценности.

Если кто-то пропустил, то эти наборы данных должны публиковаться в ЕС в рамках директивы 2023/138 [2] и, в принципе, европейское регулирование открытости данных идёт в направлении не только "открытости по умолчанию", но и гарантированной доступности данных по которым подтверждён общественный и коммерческий запрос. В частности - это данные реестров компаний, статистики, геоданные, метеоданные и многое другое.

Ссылки:
[1] https://data.europa.eu/en/doc/report-data-homogenisation-high-value-datasets
[2] https://eur-lex.europa.eu/eli/reg_impl/2023/138/oj

#opendata #eu #readings #reports
В рубрике как это устроено у них и о разнице между подходами к регулированию деперсонализации данных в Евросоюзе и в России.

Amnesia [1] продукт с открытым кодом [2] в рамках европейского проекта OpenAIRE позволяет анонимизировать научные данные прежде чем их публиковать в научных репозиториях.

Базовый сценарией его применения:
1. Скачать код или дистрибутив к себе локально во внутреннюю сеть или рабочий компьютер.
2. Запустить Amnesia
3. Выбрать режим анонимизации
4. Проделать все необходимые операции по деперсонализации данных.

Работает только с табличными данными вроде TXT и CSV, имеет API, может использоваться как исследователями лично, так и лабораториями, интегрирован с Zenodo и Dataverse.

Финансируется в рамках European Union's Horizon 2020 Research and Innovation programme.

Всё это к вопросу о том что если бы российское Минцифры реально хотело бы получить анонимизированные данные для ИИ, то могло бы выдать гранты на создание продуктов на открытом коде или дать субсидии коммерческим компаниям /стартапам в рамках ФСИ на создание таких коммерческих продуктов, а не централизованно собирать персональные данные от бизнеса и внутри этого оператора эти данные анонимизировать.

Всё это к тому что есть другие решения, гораздо более безопасные. А от решения по централизации всех персональных данных в России выиграют только спецслужбы, продающие перс. данные инсайдеры и хакеры которые через инсайдеров эти данные получат.

Ссылки:
[1] https://amnesia.openaire.eu/
[2] https://github.com/dTsitsigkos/Amnesia

#privacy #opensource #eu #regulation
В рубрике как это устроено у них новый каталог открытых данных Словакии data.slovensko.sk заменил предыдущий портал data.gov.sk (более недоступен). Новый портал переписали на CSharp и его код доступен [1]. Из его особенностей - это ориентация на SPARQL, доступность возможности работы со SPARQL эндпоинтом, а также то что краулит из 12 каталогов открытых данных страны и подлерживает каталоги датасетов по стандартам DCAT-AP, SPARQL и CKAN API.

Выглядит любопытно, но эта картина была бы неполной если бы:
1. Разработчики не поломали бы все ссылки на data.gov.sk которые были в европейском data.europe.eu где новый портал даже не зарегистрирован, а старый уже недоступен и ссылки "протухли"
2. Нет общедоступной документации API нового каталога
3. Нет экспорта DCAT AP или CKAN API у нового каталога.

В целом очень неаккуратно. Про SPARQL я скажу так, у него и Semantic Web есть очень много сторонников в европейских проектах за госсчёт, но к современной дата инженерии он имеет смутное отношение. Вообще никакого, если честно. Экспорт данных в Parquet, удобное REST API и, может быть, даже GraphQL эндпоинт куда важнее.

Ссылки:
[1] https://github.com/slovak-egov/nkod-portal

#opendata #slovakia #eu #standards #data #datasets
В рубрике как это устроено у них, Пражский проект по доступу к городским данным Golemio [1] существует в виде команды занимающеся дата продуктами такими как портал открытых данных Праги [2] и открытые API к системам Праги [3].

Технологически ничего феноменального, собственная BI платформа, разного рода дата продукты в активе. Но, во первых это модель по созданию открытой инсорсинговой команды внутри мэрии достаточно крупного города, во вторых исходный код их платформы открыт [4] и в третьих тут нет госпатернализма, наоборот акцент на платформе данных и государства / мэрии как структур предоставляющих данные.

Ссылки:
[1] https://golemio.cz/english
[2] https://opendata.praha.eu/datasets
[3] https://api.golemio.cz/docs/openapi/#/
[4] https://gitlab.com/operator-ict/golemio

#opendata #dataportals #czechia #praha #eu
В Нидерландах Министерство внутренних дел и по делам королевства опубликовало Handleiding Herziene Who nav de Wet implementatie open data richtlijn [1], Пересмотренное руководство для тех следует за Законом о реализации Директивы по открытым данным [2]

Руководство на голландском языке, но ничего сложного там нет и для тех кому будет сложно читать можно воспользоваться одним из онлайн переводчиков.

Если вкратце то руководство определяет политику обязательной открытости данных и кода всех государственных структур таких как:
- органы и организации федеральной власти (de staat);
- органы и организации региональной власти (zijn territoriale lichamen);
- организации учреждённые по закону (publiekrechtelijke instellingen)
- ассоциации учреждённые одним или более органов/организаций власти или организаций учрежденных по закону (verenigingen gevormd door een of meer van deze lichamen of een of meer van deze publiekrechtelijke instellingen)

Сюда попадают все органы власти, бюджетные учреждения, государственные исследовательские центры, любые организации которые они учреждали.

В руководстве определены приоритеты открытости по таким направлениям как:
- исследовательские данные
- динамические данные, такие как трафик, движение общественного транспорта и тд.
- особо ценные наборы данных (как это определено в директиве Евросоюза)
- программное обеспечение и открытый код

Из интересного:
- соблюдение принципов FAIR для открытых научных данных
- требование по использованию Metagegevens Duurzaam Toegankelijke Overheidsinformatie (MDTO) стандарта по устойчивой доступности государственной информации [2]. Разработано Национальным Архивом Нидерландов
- требование Archivering by design по предусматриванию обязательной архивации всего публикуемого и для этого использование стандарта DUTO [4], также от Национального Архива

И там ещё много всего.

В итоге можно обратить внимание на два фактора:
1. Сильный акцент на обязательное раскрытие научных данных. Это не удивительно зная сколько их создаётся и раскрывается в Нидерландах.
2. Переход к обязательности раскрытие ПО и открытого кода
3. Стандартизация с акцентом на архивацию. Роль национального архива в этом процессе.

И, чтобы два раза не вставать, нидерландский веб-архив всех государственных сайтов [5], несколько тысяч, может быть, десяток тысяч сайтов и госучреждений.

Ссылки:
[1] https://openrijk.nl/artikel/5c0e86d8-bc47-48c0-99f5-4306dea73b6d/nieuwe-wet-voor-open-data-in-nederland
[2] https://minbzk.github.io/publicatie/hl/hwho/#wat-is-de-status-van-deze-handleiding
[3] https://www.nationaalarchief.nl/archiveren/mdto/stappenplan-toepassen-mdto
[4] https://www.nationaalarchief.nl/archiveren/kennisbank/duto-raamwerk
[5] https://www.archiefweb.eu/


#opendata #netherlands #eu #policy #opensource #digitalpreservation #webarchives