Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике интересных продуктов для публикации данных малоизвестный pycsw [1] движок с открытым кодом для публикации метаданных для геоданных. Поддерживает стандарты STAC API, CSW, OpenAPI, OGC Collections, OpenSearch, OAI-PMH и даже SRU, который, скорее, для библиотечных систем.

Имеет немного внедрений, около 50 по всему миру [2] во всяком случае тех что известны самим разработчикам.

Сильно менялся от версии к версии. До версии 3.0 был просто движком для публикации CSW каталогов, а с версии 3.0 чем-то стал конкурировать с геосервером или дополнять, тут уж как посмотреть.

С точки зрения архитектуры штука не то чтобы сильно современная, но открытый код, но расширяется плагинами и, в целом, функции индексации геоданных может выполнять неплохо если прикрутить к нему интерфейс, API для управления и тд.

Ссылки:
[1] https://pycsw.org
[2] https://raw.githubusercontent.com/geopython/pycsw.org/gh-pages/live-deployments.geojson

#opendata #geodata #datacatalogs #opensource
В рубрике интересных малоизвестных проектов по публикации данных WMO Information System (WIS) 2.0 [1] проект Всемирной метеорологической организации по стандартизированному и систематизированному сбору данных о местной погоде от национальных метеорологических агентств. WIS 2.0 представляет собой набор стандартов по предоставлению данных и для упрощения работы по стандартам WMO предоставляет открытое и бесплатное ПО WIS 2 in a box [2] в которое поступает данные со станций метеонаблюдения и данные предоставляются в виде OGC API (стандарт геоданных) через встроенный внутрь движок pygeoapi [3].

Все публикуемые в WIS 2.0 in a box стандартизированы, там всего несколько коллекций: метаданные, станции, уведомления о данных и ежечасные синоптические наблюдения.

Большая часть инсталляций WIS 2.0 in a box общедоступны, но и не очевидно может быть где найти, но и это не так сложно, если захотеть.

Вот примеры серверов с WIS 2 in a box:
- США https://wis2node.nws.noaa.gov
- Белиз https://wis.nms.gov.bz
- Казахстан https://wis2box.kazhydromet.kz
- Россия http://wis2box.mecom.ru
- Китай https://wis2node.wis.cma.cn/

И так далее, таких инсталляций довольно много, что делает pygeoapi одним из довольно популярных движков для публикации геоданных.

P.S. Мне так и не удалось найти инсталляции WIS 2.0 in a box в Армении, возможно его там и нет, а данные передаются каким-то другим образом. Как я помню, синоптические данные в странах СНГ собирались через Росгидромет.

Ссылки:
[1] https://community.wmo.int/en/activity-areas/wis
[2] https://docs.wis2box.wis.wmo.int/en/1.0b7/index.html
[3] https://pygeoapi.io/

#opendata #datacatalogs #geodata #datasets #synoptic #weather
К вопросу о наличии данных о странах, есть два взгляда на это. Первый есть ли вообще какие-то данные о стране в структурированном или неструктурированном виде, не обязательно из источников внутри страны. И второй в том есть ли структурированные источники данных внутри страны. В Dateno идёт агрегация структурированных источников и данные по странам, находятся, или в глобальных агрегаторах вроде индикаторов Всемирного банка, BIS, WHO и других, либо из самих стран, либо, реже, из глобальных и региональных систем раскрытия научных или статистических данных.

И сейчас есть 24 страны по которым нет источников структурированных данных внутри страны. Фактически, ни одного каталога данных: открытые данные, геопорталы, индикаторы, ничего нет.

Страны можно разделить на 3 типа:
- совсем небольшие развитые: Монако, Сан Марино. Их данные агрегируются странами их окружающими
- страны в длительном политическом / экономическом кризисе
- совсем бедные страны

По последним двум группам минимальные инфраструктурные данные есть на Humanitarian Data Exchange [1].

А про развитые страны где тоже маловато данных я ранее писал. Но мало, не значит нет.

В любом случае в Dateno есть уже полное покрытие всех стран именно за счёт данных из глобальных агрегаторов.

┏━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━┓
┃ Alpha-2 ┃ Name ┃ Internet TLD ┃
┡━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━┩
│ NE │ Niger (the) │ .ne │
│ TM │ Turkmenistan │ .tm │
│ AF │ Afghanistan │ .af │
│ SD │ Sudan (the) │ .sd │
│ SL │ Sierra Leone │ .sl │
│ KN │ Saint Kitts and Nevis │ .kn │
│ ER │ Eritrea │ .er │
│ KM │ Comoros (the) │ .km │
│ SM │ San Marino │ .sm │
│ SY │ Syrian Arab Republic (the)   │ .sy │
│ CF │ Central African Republic (the) │ .cf │
│ GQ │ Equatorial Guinea │ .gq │
│ GA │ Gabon │ .ga │
│ GW │ Guinea-Bissau │ .gw │
│ VC │ Saint Vincent and the Grenadines │ .vc │
│ GN │ Guinea │ .gn │
│ SZ │ Eswatini   │ .sz │
│ TD │ Chad │ .td │
│ GD │ Grenada │ .gd │
│ MC │ Monaco │ .mc │
│ KP │ Korea (the Democratic People's Republic of)   │ .kp │
│ ST │ Sao Tome and Principe │ .st │
│ DJ │ Djibouti │ .dj │
│ TL │ Timor-Leste   │ .tl │
├─────────┼────────────────────────────────────────────────┼──────────────┤
│ Total │ 24 │ │
└─────────┴────────────────────────────────────────────────┴──────────────┘



Ссылки:
[1] https://data.humdata.org

#opendata #nodata #datacatalogs
Одна из стран по которой пока в Dateno мало датасетов, всего 58 тысяч, это Индия. 58 тысяч датасетов на страну в более чем 1 млрд человек это очень мало хотя объективно причины и понятны.

В Dateno сейчас 46 каталогов данных связанных с Индией [1], они сейчас обновляются и не все доступны и не все включены.

Итак что с открытыми данными в Индии:
1. В Индии сильная централизация данных на национальном портале data.gov.in Это самописный продукт где заявляется 500+ тысяч дата ресурсов. У его создателей свое восприятие мира и по факту, эти 500+ тысяч ресурсов - это файлы, а то что принято в мире называть датасетами они называют каталогами. Их всего 12.6+ тысяч. Примерно по 40 файлов на один каталог. Поэтому, с одной стороны индийский портал данных кажется огромным, а с другой, совсем нет. Это всего +12.6 тысяч наборов данных для поискового индекса. А это уже не так много и не так масштабно. Что ещё показательно на нац портале не указываются объёмы хранимых данных, а это один из верных признаков что физического объёма там немного. В любом случае стандартизированного API там нет, надо делать парсер их API/веб страниц

2. Индия страна большая, но сравнительно небогатая. Не у всех регионов есть свои информационные системы, геопорталы и тд. Они постепенно появляются, но в общем то есть не у каждого штата.

3. Официальная статистика тоже не отдаётся стандартизированными интерфейсами, а отдельный портал открытых данных [2] и ещё несколько публичных ресурсов о которых я ранее писал.

В принципе же Индию я лично отношу пока к категории стран со своей большей спецификой в работе с данными. Сейчас это: Китай, Россия, Индия.

У меня пока ключевой вопрос в том как измерять качество покрытия поиска Dateno по странам. В пропорции к населению, к ВВП, индексу развития цифровой инфраструктуры (ООН), индексу демократизации или ещё чему-то? Или всем сразу?

При этом понятно что это, одновременно, оценка, и качество наполнения реестра и поискового индекса Dateno, и развитости культуры работы с данными в стране.

Можно свой индекс "забабахать" World data discovery index;)

Ссылки:
[1] https://dateno.io/registry/country/IN
[2] https://esankhyiki.mospi.gov.in

#opendata #india #datasets #datacatalogs
В рубрике как это устроено у них, открытые данные Палестинской Автономии. В реестр Dateno на сегодня 15 каталогов данных из Палестины [1] из которых 12 каталогов - это геопорталы на базе ArcGIS Server или ArcGIS Hub, 1 каталог микроданных и 2 каталога открытых данных. Основной opendata.ps можно сказать официальный портал открытых данных страны и и второй с наборами данных связанными с последними гуманитарными событиями https://data.techforpalestine.org/docs/datasets/ от Tech for Palestine.

Как и по многим других развивающимся странам гораздо больше данных о Палестине в международных организациях, в виде статистики или данных по гуманитарной инфраструктуре.

Многие из каталогов данных уже проиндексированы в Dateno, но не все. Сказывается ситуация с отсутствием сетевой нейтральности и того что не все источники данных индексируются из всех стран( Рано или поздно придётся приходить к использованию распределённых краулеров и тестированию доступности из разных стран.

Ссылки:
[1] https://dateno.io/registry/country/PS

#opendata #datacatalogs #palestine #datasets
В рубрике как это устроено у них портал открытых данных провинции Центральная Ява в Индонезии [1]. Отличается каким-то неимоверным числом опубликованных датасетов, там их чуть менее 200 тысяч что, конечно, очень много. Для сравнения на портале открытых данных США Data.gov всего опубликовано 300 тысяч датасетов. А тут всего одна провинция, да ещё и в Индонезии.

При этом, там почти нет геоданных или научных данных, зато бесконечное число файлов статистики и Excel файлов. Такое ощущение что они просто обыскали все компьютеры и выложили все найденные Excel файлы, сконвертировав некоторые из них в CSV.

Это пример того почему я говорил что сделать национальный портал открытых данных и быстро его наполнить вообще несложно. Сложно сделать его полезным.

Ссылки:
[1] https://data.jatengprov.go.id/dataset/

#opendata #indonesia #centraljava #datacatalogs
Ivan Begtin
В рубрике как это устроено у них портал открытых данных провинции Центральная Ява в Индонезии [1]. Отличается каким-то неимоверным числом опубликованных датасетов, там их чуть менее 200 тысяч что, конечно, очень много. Для сравнения на портале открытых данных…
Крупнейшие порталы открытых данных в мире, по критерию количества (не физического объёма) открытых данных и с более чем 100 тысячами наборов данных.

Открытые данные

- data.europe.eu - портал открытых данных Евросоюза, данные структур ЕС и агрегатор данных входящих в ЕС стран
- data.gov - национальный портал открытых данных США
- data.jatengprov.go.id портал открытых данных провинции Центральная Ява, Индонезия
- datos.gob.es - портал открытых данных Испании
- www.govdata.de - портал открытых данных Германии

Научные данные
- explore.openaire.eu - портал раскрытия результатов исследований в Европейском союзе, разные формы результатов, включая наборы данных
- zenodo.org - портал для раскрытия научных данных от CERN
- data.mendeley.com - портал агрегатор научных данных от Elsevier. Лукавят с числами, реально наборов данных значительно меньше заявленных 31 миллиона, поскольку за датасеты выдают, в том числе, отдельные машиночитаемые записи. Но несколько миллионов наборов данных точно есть.
- figshare.com - платформа и агрегатор научных данных от Digital Science

Геоданные

- data.amerigeoss.org - портал геоданных сообщества AmeriGEO, включающего все страны северной, центральной и южной америк
- hub.arcgis.com - платформа и агрегатор открытых данных от компании ArcGIS
- metadaten.geoportal-bw.de портал геоданных земли Baden-Wurttemberg в Германии
- geo.btaa.org - большой геопортал альянса университетов в США, чуть-чуть недотягивает до 100 тысяч датасетов
- atom.cuzk.cz - портал геоданных Чешского кадастра
- catalogue.geo-ide.developpement-durable.gouv.fr - каталог геоданных Франции


Данные для обучения ИИ
- www.kaggle.com - крупнейший каталог наборов данных для обучения ИИ
- huggingface.co - второй после Kaggle и стремительно набирающий популярность (и данные) каталог данных для обучения ИИ

Статистика
- data.worldbank.org - более 4-х миллионов индикаторов в системе Всемирного Банка, если рассматривать их в привязке к странам и территориям. Неочевидно если смотреть индикаторы на сайте, выясняется при использовании их API
- data.bis.org - многочисленные индикаторы банка международных расчётов
- data.ecb.europa.eu - огромное число индикаторов Европейского центрального банка


#opendata #datacatalogs #bigdata
В рубрике как это устроено у них открытые данные в Великобритании. Самый очевидный опыт когда дело касается открытых данных. Один из эпицентров движухи про открытые данные в мире был именно в Великобритании и один из первых порталов государственных открытых данных data.gov.uk также появился именно там.

Сейчас там 67 тысяч наборов данных и сам портал выглядит если не запущенным, то точно не развивающимся уже несколько лет. Особенно если сравнить с общеевропейским порталом data.europe.eu или порталом открытых данных Франции data.gouv.fr.

Малоизвестная широкой публике особенность открытости данных в Великобритании - это огромное число академических порталов раскрытия данных. Фактически данные публикуются всеми исследовательскими центрами и университетами, либо в общих порталах открытого доступа и раскрытия research outputs, либо на специальных порталах с research data.

Параллельно с этим в Великобритании существует множество порталов открытых данных городов и отдельных графств, множество геопорталов и тд. В реестре Dateno сейчас 382 каталога данных страны и почти наверняка есть ещё неучтённые. Из каталогов которые можно выделить:

Открытые данные
- Resource Data https://www.resourcedata.org

Геоданные
- NERC Geonetwork https://csw-nerc1.ceda.ac.uk/geonetwork/
- CEDA Geonetwork https://csw.ceda.ac.uk/geonetwork

Научные данные
- British Antarctic Survey Data https://data.bas.ac.uk

#opendata #datasets #uk #datacatalogs
17-18 сентября я буду в Алма-Ата, в Казахстане, какое-то число встреч встреч уже запланировано, если задумаете со мной там пересечься, напишите.

А пока об открытых данных в Казахстане я неоднократно тут писал, в стране довольно контрастная ситуация когда одновременно есть портал данных data.egov.kz который хоть и называется порталом открытых данных, но по факту ничего открытого там нет. И параллельно существует геопортал НИПД где как раз именно открытые данные, но только пространственные и в отличие от data.egov.kz он сделан на типовом ПО GeoNode как раз предназначенном для раскрытия геоданных.

А главная особенность Казахстана в большом числе региональных геопорталов сделанных местными компаниями и, соответственно, на которых слои карт отдаются в каких-то собственных форматах вместо общепринятых.

И отдельно, важная тема, в Казахстане практически нет практики публикации научных данных. Либо эта культура ещё не сформировалась, либо публикация данных идёт только на зарубежных ресурсах

В целом ощущения что данных много, систематизации мало, а проекты вроде data.egov.kz правильнее было бы закрыть или радикально переделать.

#opendata #datasets #datacatalogs #kazakhstan
В рубрике как это устроено у них, поисковик по биомедицинским датасетам DataMed [1], создан в Университете Калифорнии, Сан Диего, на грант 10 миллионов USD [2] от Национального института здравоохранения США и других грантодающих организаций.

С одной стороны, это действительно поисковик, с 49 проиндексированными репозиториями, 4-мя фасетами и 1.2 миллионами датасетов, а с другой стороны...

Из этих репозиториев топ 4 содержат 1 миллион датасетов, более 83% и, в целом, если пройтись по сайтам этих топ 4 репозиториев: ClinicalTrials, Gene Expression Omnibus, NeuroMorpho, Zenodo то их поиск содержит гораздо больше возможностей.

Кроме того сами особенности индексируемых данных учитываются, как бы сказать, никак.

Не выглядит, конечно, как продукт за 10 миллиона долларов, но даже в таком виде любопытен и потенциально полезен.

И конечно, это не поисковик, а по сути агрегатор репозиториев. Главное отличие поисковика по данным и агрегатора, в том что агрегатор создан быть проиндексированным поисковыми системами и у каждого датасета есть отдельная индексируемая страница. А поисковик не предполагает что его будут индексировать другие поисковики.

Ссылки:
[1] https://datamed.org
[2] https://reporter.nih.gov/project-details/1U24AI117966-01

#opendata #datasets #datasearch #datacatalogs #healthcare #bioinformatics