Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике как это устроено у них специализированные OpenDAP Hyrax порталы для публикации океанографических и климатических данных. Развивается одноимённой НКО [1], изначально создано в научных центрах NOAA и поддерживается 3-мя агентствами в США: NOAA, NSF и NASA, а также Австралийским метеорологическим бюро.

Поддерживает множество стандартов публикации данных таких как HDF4, HDF5, NetCDF3, NetCDF4, FITS, NcML, THREDDS и другие.

Применяется, как минимум, в паре десятков проектов связанных с данными об океанах и климате по всему миру. Например:
- http://servdap.legi.grenoble-inp.fr/opendap/hyrax/
- https://ladsweb.modaps.eosdis.nasa.gov/opendap/hyrax/
- https://ppdb.us.edu.pl/opendap/

Как правило, раскрываемые в этих серверах данные большого объёма, по несколько терабайт на каждой инсталляции и содержат преимущественно численные значения.

Другие продукты в этой области это ERDDAP [2] и THREDDS Data Server (TDS) [3], также имеют только это узкое применение.

В принципе особенность развития работы с данными в климатологии и наук о Земле в наличие большого числа каталогов данных, открытых данных, но по собственным стандартам, в специализированном ПО, не пересекающимися, ни с наиболее популярными инструментами в data science, ни с открытыми данными.

Ссылки:
[1] https://www.opendap.org
[2] https://www.ncei.noaa.gov/erddap/index.html
[3] https://www.unidata.ucar.edu/software/tds/

#opendata #climate #meteorology #datacatalogs #thredds #opendap
В рубрике как это устроено у них раскрытие данных в штате Нью Джерси, США. Раскрытие данных в штате осуществляется в рамках
NJ Geographic Information Network [1] проекте основанном NJOGIS (New Jersey Office of GIS).

В рамках этого проекта публикуются геоданные штата, начиная с информации о дорогах, кадастровых участках и иных данных большая часть которых доступна через портал в облаке ArcGIS [3], а также на сайте проекта публикуются изображения аэрофотосъёмки c 1920 по 2020 годы [4] доступные, как в виде сервисов по стандарту WMS, так и данных для массовой выгрузки.

Что может показаться необычным, но, на самом деле, уже становится стандартным способом раскрытия многих данных, так это то что все крупные датасеты предоставляются не только для выгрузки по прямым ссылкам, но и изнутри инфраструктуры Amazon AWS с помощью их утилиты для командной строки.

Общий объём данных измеряется десятка терабайт, начиная от простых CSV таблиц, до большого числа GeoTIFF файлов оптимизированных для облаков.

Ссылки:
[1] https://njgin.nj.gov
[2] https://njgin.nj.gov/njgin/about/ogis/
[3] https://njogis-newjersey.opendata.arcgis.com/
[4] https://njgin.nj.gov/njgin/edata/imagery/index.html

#opendata #usa #datasets #geodata #datacatalogs
В продолжение размышлений о поиске геоданных и связанных с этим сложностей. Я ранее писал про GeoSeer, единственный известный мне поисковик геоданных в мире, но и он сравнительно небольшой. А вот в качестве альтернатив ему выступают уже не поисковики, а каталоги георесурсов. В первую очередь поисковики в экосистеме ArcGIS по их каталогам открытых данных и георесурсов и некоторое, небольшое число альтернатив.

Например, Spatineo Directory [1] от финских геоконсалтеров Spatineo. Там более 87 тысяч георесурсов, в виде точек API по стандартам WFS, WMS, WMTS, но без сбора информации о слоях, поэтому это не поисковик, а именно каталог. Его существенный минус в то что более менее там систематизированы только точки API из развитых стран.

Другой, неожиданно, государственный проект это FGDS Status Checker [2] гигантский каталог геовебсервисов созданный как сервис проверки их доступности. Список вебсервисов там огромный, но почти полностью ориентированный на США и почти не охватывающий морские территории. Есть подозрение что Spatineo делали свой каталог с оглядкой именно на этот продукт, поскольку функции схожи.

Но ещё больше каталогов которые прекратили своё существование. К примеру WFS Geodata Catalog от германского GeoClub. Сейчас можно найти только скриншот.

Ещё был Pyxis crawler с каталогом из 29+ тысяч датасетов, вот он ближе к GeoSeer, но индексировал всего 1572 источника и его тоже больше нет. Тоже остался тоже скриншот.

И был ещё такой поисковик Geometa, но теперь даже его скриншот найти оказалось непросто.

Фактических попыток систематизировать и сделать доступными геоданные и геосервисы было много. Можно сказать что у Dateno тоже есть подзадача в части геоданных.

В каталоге Dateno сейчас 4.4 миллиона наборов геоданных извлеченных из 3127 геопорталов. При этом в реестре Dateno всего 5955 геопорталов и после индексации оставшихся объём геоданных существенно вырастет, кроме того много геоданных в других типах дата каталогов: порталах открытых данных, научных репозиториях и тд., это тоже добавит число геоданных.

Но пока приходится держать в голове что в части геоданных относительно сравнимой референсной базой является GeoSeer.

Ссылки:
[1] https://directory.spatineo.com
[2] https://statuschecker.fgdc.gov

#opendata #geodata #datasets #datacatalogs #dateno
Кстати, помните я расхваливал китайский портал/агрегатор научных данных SciDb [1].

Так вот его можно не только хвалить. После некоторого исследования его содержания он на 100% соответствует подходу "главное не быть, а казаться". Из заявленных 10 миллионов наборов данных лишь 18 тысяч имеют присоединённые файлы и загружены через сам портал, ещё 754 тысячи собраны из нескольких больших открытых порталов научных данных таких как Zenodo и PANGAEA, а всё остальное - это просто слепок поискового индекса по данным DataCite, сильно замусоренного и, объективно, без значимых метаданных, да и не факт что ссылки на сами данные.

С одной стороны, как обидно, так мало данных. С другой стороны, очередное подтверждение приоритетов индексирования и то что из SciDB можно собирать только те данные что туда были загружены. Другой вопрос что отфильтровать их непросто.

В любом случае удивительно то что вместо индексации тех же геномных данных китайцы пошли по этому пути.

Ссылки:
[1] https://www.scidb.cn

#opendata #china #datasets #datacatalogs
На днях я накатывал очередной обновление реестра каталогов данных, Dateno registry [1] тот самый который раньше был Common Data Index, а потом стал ядром поисковика по данным.

Важно то что он сам по себе также является продуктом, открытым, бесплатным, под свободной лицензией как база источников открытых и общедоступных данных. Самое очевидное применение его разработчиками национальных порталов открытых данных для агрегации на них данных с региональных, муниципальных и других порталов своей страны.

Некоторые цифры реестра видны на сайте, а некоторые можно подсчитать поработав в этим датасетом напрямую. Такие цифры на сегодня.

По типам каталогов данных
- 10 099 каталогов данных всего, из них:
— 5944 каталога геоданных
— 2732 портала открытых данных
— 871 репозиторий научных данных
— 276 каталогов индикаторов
— 276 всех остальных каталогов данных

По точкам подключения к API
- 35 404 точек подключения к API 99 различных типов API

По внешним идентификаторам:
- 777 идентификаторов каталогов данных в других источниках таких как re3data, datacatalogs.org, roar, wikidata и других

По используемому ПО:
- 119 типов ПО каталогов зарегистрировано
- 89% каталогов внесены с идентификацией типа ПО и только 11 процентов как отдельная разработка

По предметным областям
- 2158 каталогов имеют тематическую привязку в виде хотя бы одной темы, это около 21% всех каталогов данных

Это самый крупный каталог источников данных на сегодняшний день, сравнимый только с re3data и fairsharing, но они используются только для научных баз данных.

А наибольшие ограничения у реестра сейчас в том что у 66% каталогов данных не указан тип владельца и у 15% не идентифицирована страна к которой каталог относится. Если страну ещё можно идентифицировать по доменной зоне, то тип владельца каталога определяется, пока, только вручную. А приоритет ручной проверки проставлен от числа наборов данных в каталоге. Если в поисковый индекс Dateno попадает источник где есть более 1000 наборов данных то он становится кандидатом для ручной проверки и обновления метаданных.

И это, напомню, цифры именно по реестру каталогов данных. Потому что по индексируемым датасетам статистика совсем другая.

Ссылки:
[1] https://dateno.io/registry

#opendata #data #datasets #datacatalogs
В рубрике интересных продуктов для публикации данных малоизвестный pycsw [1] движок с открытым кодом для публикации метаданных для геоданных. Поддерживает стандарты STAC API, CSW, OpenAPI, OGC Collections, OpenSearch, OAI-PMH и даже SRU, который, скорее, для библиотечных систем.

Имеет немного внедрений, около 50 по всему миру [2] во всяком случае тех что известны самим разработчикам.

Сильно менялся от версии к версии. До версии 3.0 был просто движком для публикации CSW каталогов, а с версии 3.0 чем-то стал конкурировать с геосервером или дополнять, тут уж как посмотреть.

С точки зрения архитектуры штука не то чтобы сильно современная, но открытый код, но расширяется плагинами и, в целом, функции индексации геоданных может выполнять неплохо если прикрутить к нему интерфейс, API для управления и тд.

Ссылки:
[1] https://pycsw.org
[2] https://raw.githubusercontent.com/geopython/pycsw.org/gh-pages/live-deployments.geojson

#opendata #geodata #datacatalogs #opensource
В рубрике интересных малоизвестных проектов по публикации данных WMO Information System (WIS) 2.0 [1] проект Всемирной метеорологической организации по стандартизированному и систематизированному сбору данных о местной погоде от национальных метеорологических агентств. WIS 2.0 представляет собой набор стандартов по предоставлению данных и для упрощения работы по стандартам WMO предоставляет открытое и бесплатное ПО WIS 2 in a box [2] в которое поступает данные со станций метеонаблюдения и данные предоставляются в виде OGC API (стандарт геоданных) через встроенный внутрь движок pygeoapi [3].

Все публикуемые в WIS 2.0 in a box стандартизированы, там всего несколько коллекций: метаданные, станции, уведомления о данных и ежечасные синоптические наблюдения.

Большая часть инсталляций WIS 2.0 in a box общедоступны, но и не очевидно может быть где найти, но и это не так сложно, если захотеть.

Вот примеры серверов с WIS 2 in a box:
- США https://wis2node.nws.noaa.gov
- Белиз https://wis.nms.gov.bz
- Казахстан https://wis2box.kazhydromet.kz
- Россия http://wis2box.mecom.ru
- Китай https://wis2node.wis.cma.cn/

И так далее, таких инсталляций довольно много, что делает pygeoapi одним из довольно популярных движков для публикации геоданных.

P.S. Мне так и не удалось найти инсталляции WIS 2.0 in a box в Армении, возможно его там и нет, а данные передаются каким-то другим образом. Как я помню, синоптические данные в странах СНГ собирались через Росгидромет.

Ссылки:
[1] https://community.wmo.int/en/activity-areas/wis
[2] https://docs.wis2box.wis.wmo.int/en/1.0b7/index.html
[3] https://pygeoapi.io/

#opendata #datacatalogs #geodata #datasets #synoptic #weather
К вопросу о наличии данных о странах, есть два взгляда на это. Первый есть ли вообще какие-то данные о стране в структурированном или неструктурированном виде, не обязательно из источников внутри страны. И второй в том есть ли структурированные источники данных внутри страны. В Dateno идёт агрегация структурированных источников и данные по странам, находятся, или в глобальных агрегаторах вроде индикаторов Всемирного банка, BIS, WHO и других, либо из самих стран, либо, реже, из глобальных и региональных систем раскрытия научных или статистических данных.

И сейчас есть 24 страны по которым нет источников структурированных данных внутри страны. Фактически, ни одного каталога данных: открытые данные, геопорталы, индикаторы, ничего нет.

Страны можно разделить на 3 типа:
- совсем небольшие развитые: Монако, Сан Марино. Их данные агрегируются странами их окружающими
- страны в длительном политическом / экономическом кризисе
- совсем бедные страны

По последним двум группам минимальные инфраструктурные данные есть на Humanitarian Data Exchange [1].

А про развитые страны где тоже маловато данных я ранее писал. Но мало, не значит нет.

В любом случае в Dateno есть уже полное покрытие всех стран именно за счёт данных из глобальных агрегаторов.

┏━━━━━━━━━┳━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━┳━━━━━━━━━━━━━━┓
┃ Alpha-2 ┃ Name ┃ Internet TLD ┃
┡━━━━━━━━━╇━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━━╇━━━━━━━━━━━━━━┩
│ NE │ Niger (the) │ .ne │
│ TM │ Turkmenistan │ .tm │
│ AF │ Afghanistan │ .af │
│ SD │ Sudan (the) │ .sd │
│ SL │ Sierra Leone │ .sl │
│ KN │ Saint Kitts and Nevis │ .kn │
│ ER │ Eritrea │ .er │
│ KM │ Comoros (the) │ .km │
│ SM │ San Marino │ .sm │
│ SY │ Syrian Arab Republic (the)   │ .sy │
│ CF │ Central African Republic (the) │ .cf │
│ GQ │ Equatorial Guinea │ .gq │
│ GA │ Gabon │ .ga │
│ GW │ Guinea-Bissau │ .gw │
│ VC │ Saint Vincent and the Grenadines │ .vc │
│ GN │ Guinea │ .gn │
│ SZ │ Eswatini   │ .sz │
│ TD │ Chad │ .td │
│ GD │ Grenada │ .gd │
│ MC │ Monaco │ .mc │
│ KP │ Korea (the Democratic People's Republic of)   │ .kp │
│ ST │ Sao Tome and Principe │ .st │
│ DJ │ Djibouti │ .dj │
│ TL │ Timor-Leste   │ .tl │
├─────────┼────────────────────────────────────────────────┼──────────────┤
│ Total │ 24 │ │
└─────────┴────────────────────────────────────────────────┴──────────────┘



Ссылки:
[1] https://data.humdata.org

#opendata #nodata #datacatalogs
Одна из стран по которой пока в Dateno мало датасетов, всего 58 тысяч, это Индия. 58 тысяч датасетов на страну в более чем 1 млрд человек это очень мало хотя объективно причины и понятны.

В Dateno сейчас 46 каталогов данных связанных с Индией [1], они сейчас обновляются и не все доступны и не все включены.

Итак что с открытыми данными в Индии:
1. В Индии сильная централизация данных на национальном портале data.gov.in Это самописный продукт где заявляется 500+ тысяч дата ресурсов. У его создателей свое восприятие мира и по факту, эти 500+ тысяч ресурсов - это файлы, а то что принято в мире называть датасетами они называют каталогами. Их всего 12.6+ тысяч. Примерно по 40 файлов на один каталог. Поэтому, с одной стороны индийский портал данных кажется огромным, а с другой, совсем нет. Это всего +12.6 тысяч наборов данных для поискового индекса. А это уже не так много и не так масштабно. Что ещё показательно на нац портале не указываются объёмы хранимых данных, а это один из верных признаков что физического объёма там немного. В любом случае стандартизированного API там нет, надо делать парсер их API/веб страниц

2. Индия страна большая, но сравнительно небогатая. Не у всех регионов есть свои информационные системы, геопорталы и тд. Они постепенно появляются, но в общем то есть не у каждого штата.

3. Официальная статистика тоже не отдаётся стандартизированными интерфейсами, а отдельный портал открытых данных [2] и ещё несколько публичных ресурсов о которых я ранее писал.

В принципе же Индию я лично отношу пока к категории стран со своей большей спецификой в работе с данными. Сейчас это: Китай, Россия, Индия.

У меня пока ключевой вопрос в том как измерять качество покрытия поиска Dateno по странам. В пропорции к населению, к ВВП, индексу развития цифровой инфраструктуры (ООН), индексу демократизации или ещё чему-то? Или всем сразу?

При этом понятно что это, одновременно, оценка, и качество наполнения реестра и поискового индекса Dateno, и развитости культуры работы с данными в стране.

Можно свой индекс "забабахать" World data discovery index;)

Ссылки:
[1] https://dateno.io/registry/country/IN
[2] https://esankhyiki.mospi.gov.in

#opendata #india #datasets #datacatalogs
В рубрике как это устроено у них, открытые данные Палестинской Автономии. В реестр Dateno на сегодня 15 каталогов данных из Палестины [1] из которых 12 каталогов - это геопорталы на базе ArcGIS Server или ArcGIS Hub, 1 каталог микроданных и 2 каталога открытых данных. Основной opendata.ps можно сказать официальный портал открытых данных страны и и второй с наборами данных связанными с последними гуманитарными событиями https://data.techforpalestine.org/docs/datasets/ от Tech for Palestine.

Как и по многим других развивающимся странам гораздо больше данных о Палестине в международных организациях, в виде статистики или данных по гуманитарной инфраструктуре.

Многие из каталогов данных уже проиндексированы в Dateno, но не все. Сказывается ситуация с отсутствием сетевой нейтральности и того что не все источники данных индексируются из всех стран( Рано или поздно придётся приходить к использованию распределённых краулеров и тестированию доступности из разных стран.

Ссылки:
[1] https://dateno.io/registry/country/PS

#opendata #datacatalogs #palestine #datasets