Ivan Begtin
8.09K subscribers
1.62K photos
3 videos
100 files
4.34K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике как это устроено у них новый каталог открытых данных Словакии data.slovensko.sk заменил предыдущий портал data.gov.sk (более недоступен). Новый портал переписали на CSharp и его код доступен [1]. Из его особенностей - это ориентация на SPARQL, доступность возможности работы со SPARQL эндпоинтом, а также то что краулит из 12 каталогов открытых данных страны и подлерживает каталоги датасетов по стандартам DCAT-AP, SPARQL и CKAN API.

Выглядит любопытно, но эта картина была бы неполной если бы:
1. Разработчики не поломали бы все ссылки на data.gov.sk которые были в европейском data.europe.eu где новый портал даже не зарегистрирован, а старый уже недоступен и ссылки "протухли"
2. Нет общедоступной документации API нового каталога
3. Нет экспорта DCAT AP или CKAN API у нового каталога.

В целом очень неаккуратно. Про SPARQL я скажу так, у него и Semantic Web есть очень много сторонников в европейских проектах за госсчёт, но к современной дата инженерии он имеет смутное отношение. Вообще никакого, если честно. Экспорт данных в Parquet, удобное REST API и, может быть, даже GraphQL эндпоинт куда важнее.

Ссылки:
[1] https://github.com/slovak-egov/nkod-portal

#opendata #slovakia #eu #standards #data #datasets
В рубрике очень больших датасетов (хотя с чем сравнивать😏) проект The Web Data Commons [1] я о нём писал несколько раз, но всегда можно и повториться. Это проект по сбору и извлечению смысловых данных из поискового индекса Common Crawl. Common Crawl - это бесплатная и открытая альтернатива поисковому индексу Гугла и на его основе делают много чего, датасетов, исследований, продуктов.

В данном случае делают датасеты. Из интересного мне:
- датасеты разметки Schema.org [2]
- датасеты и анализ корпуса таблиц [2]

И там же ещё много датасетов на гигабайты и терабайты данных. Областей применения много, коммерческих и не очень.

Ссылки:
[1] https://webdatacommons.org
[2] https://webdatacommons.org/structureddata/schemaorg/
[3] http://webdatacommons.org/structureddata/schemaorgtables/2023/index.html

#opendata #datasets #web #entityrecognition
ОЭСР (Организация экономического сотрудничества и развития) в которой состоят практически все развитые страны обновила свой сайт oecd.org и, наконец-то, они перевели в открытый доступ все свои материалы, а публикации стали дата-ориентированными. Для тех кто не сталкивался ранее поясню, ОЭСР публиковали довольно много интересных докладов и данных о странах, но большая их часть ими продавалась и данные были неудобны в использовании. Учитывая что они сами промоутировали открытость государств, но оставались вот такими полузакрытыми то и получали немало критики. Наконец-то у них это изменилось, может быть нашли другие источники финансирования, но важно что материалы теперь их открыты. Ну и данные, конечно там много датасетов.

#opendata #datasets #datacatalogs #data #oecd
В рубрике интересных наборов данных наборы с данными по измерению скорости интернета от Measurement Lab [1] где их много и разных и почти все архивные датасеты доступны через Google Cloud.

А также датасеты OOKLA [2] по скорости сетей, которые они собирали краудсорсингом и публикуют в рамках своей Open Data Initiative. Заметим что раскрытие идёт от коммерческой компании.

Данные можно использовать самым разным образом, от измерения проникновения 5G, до мониторинга деградации качества связи или поиска мест человеческого обитания там где может показаться что людей не должно быть (шутка).

Ссылки:
[1] https://www.measurementlab.net/data/
[2] https://www.ookla.com/ookla-for-good/open-data


#opendata #datasets #networks
Forwarded from Open Data Armenia
(EN) Even more data about Armenia outside Armenia. Dataset from Global Energy Monitor and it's dashboard
and map.

There are first datasets released and available after registration under CC-BY 4.0 International license.

(RU) Еще больше данных об Армении за пределами Армении. Набор данных из Global Energy Monitor и его информационной панели
и карта.

Появились первые наборы данных , они выпущены и доступны после регистрации по международной лицензии CC-BY 4.0.

#opendata #datasets #energy
В рубрике интересных наборов геоданных, данные по зданиям в КНР, Японии и обеих Кореях в виде датасета на 23GB в сжатом виде. Внутри SHP файлы и другие стандартизированные геоформаты, а сами данные разделены по городам. Опубликовали на Zenodo 7 китайских исследователей. Источник данных непонятен, подробностей о происхождении данных нет, но сам датасет очень интересен и изза масштаба и размера и области охвата.

Данные можно отнести к научным и, одновременно, полезным не только учёным.

По моему с ним связана вот эта научная статья, но это не точно.


#opendata #data #datasets
К вопросу о каталогах данных, которые я изучаю вот уже много лет, в особенности каталоги общедоступных и открытых данных, чем больше я наблюдаю рынок, экосистему и тд. в том числе относительно больших каталогов данных, тем больше убеждаюсь что весь этот рынок за очень короткое время может перемешать Microsoft или, с меньшей вероятностью, Gitlab, реализовав в Github/Gitlab такое понятие как репозиторий данных.

По сути и так огромное число датасетов публикуют через Git, особенно научные репозитории выкладывают на Github, а на размещённое там уже дают ссылки с какого нибудь Zenodo.

Причём сделать дата репозитории Microsoft может сделать очень дешёвым образом.
1. Добавить атрибут data к репозиториям с данными, чтобы их можно было бы выделить в поиске.
2. Добавить спецификацию в YAML с метаданными датасета/датасетов в этом репозитории. За основу можно взять DCAT.

К счастью или к сожалению, ничего такого они не делают и, как следствие, своего поиска по данным у Microsoft нет. Но если бы сделали то Github было бы проще индексировать с помощью Dateno.

#opendata #datasets #microsoft #github #thoughts
В рубрике как это устроено у них публикация данных высокой ценности в Испании.

Ожидаемо очень много данных о земле, много геоданных, очень много статистики всех уровней и другое. В принципе идея с публикацией ценных данных в ЕС - это очень разумный подход про приоритеты. Не во всех странах ЕС этих данных уже много, но вот пример Испании весьма показателен.

Самое сложное в Испании связано с публикацией сведений о юр. лицах, там очень коммерциализированная область и прозрачность даётся с трудом, но постепенно публикуют и эти данные. На всё это можно смотреть задаваясь вопросом: "А почему в моей стране гос-во не раскрывает данные также?"

#opendata #datasets #europe #spain
В рубрике интересных наборов данных 3D модель города Цюриха конца 1500 года опубликованная на их портале открытых данных [1] и доступная для просмотра интерактивно онлайн [2].

Опубликовано в форматах dxf, shp, gpkg и в виде веб сервисов OGC.

Кроме этого датасета в Цюрихе езё 15 датасетов с 3D моделями современных и исторических видов города [3].

Это интересная комбинация доступных данных и их исторического значения. Для тех кто изучает 3D моделирование и ищет готовые материалы это будет интересным подспорьем.

Сам портал открытых данных города включает 812 наборов данных из которых он на 50% состоит из геоданных, где-то на 30% из времянных рядов и оставшееся попадает во всё остальное.

Ссылки:
[1] https://data.stadt-zuerich.ch/dataset/geo_3d_stadtmodell_stadt_zuerich_jahresendstand_1500
[2] https://3d.stzh.ch/appl/3d/zuerich_4d_extern/#hintergrundkarte=Basiskarte%201500&easting=2683365.1302425126&northing=1246414.2127628734&blickhoehe=235.77&blickrichtung=359.35582275055935&blickwinkel=75.25719137722423&
[3] https://data.stadt-zuerich.ch/dataset?tags=3d

#opendata #datasets #switzerland #zurich #geodata #3d
Но есть и хорошие новости, Stats Bomb, консалтеры и разработчики дата продуктов по спортивным данным выложили под свободными лицензиями датасеты распознанных событий по Euro 2024 [1]. Всего 3400 события по 51 матчу.

Скачать данные можно у них на Github [2], при использовании и распространении просят упоминать их и использовать их лого.

Вообще это хороший пример пиара на полезных для аудитории/сообщества данных. Даже меня при очень небольшой аудитории моего телеграм канала регулярно просят что-то прорекламировать, не обязательно коммерческое, но сколь редко то что просят упомянуть является общественным благом.

Ссылки:
[1] https://statsbomb.com/news/statsbomb-release-free-euro-2024-data/
[2] https://github.com/statsbomb

#opendata #datasets #euro2024 #data