Ivan Begtin
8.04K subscribers
1.72K photos
3 videos
101 files
4.41K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике как это работает у них, один из источников геоданных и их каталогизации - это геопорталы. Продуктов для их создания довольно, но есть наиболее популярные и типовые и один из них - это QGIS Web Client 2 (QWC2) [1], на его основе создано немало европейских и не только геопорталов. Например, геопорталы некоторых кантонов (регионов) Швейцарии работают на QWC2 [2] и слои карты используемые в его работе доступны онлайн через специальный файл themes.json [3]

Сами слои могут быть разным образом опубликованы, не всегда самыми очевидными геопродуктами. Получается что для их индексирования как раз эти файлы и являются наиболее удобным источником метаданных.

Слоёв данных там не так уж много, десятки, в среднем, но данные хорошо локализованы и удобно доступны.

А ещё у швейцарцев есть серия каталогов геоданных с дата моделями по их стандарту INTERLIS. Но о нём как-нибудь в другой раз. А пока в реестр Dateno вношу ряд каталогов на QWC2.

Ссылки:
[1] https://qwc-services.github.io/master/
[2] https://map.geo.gl.ch
[3] https://map.geo.gl.ch/themes.json

#opendata #datacatalogs #dateno
Уникальная фича Dateno [1] - это сужение поиска датасетов до субрегионального уровня, городов и регионов стран. Например, можно в фасете SubRegion где для многих стран можно найти данные сразу в региональном разрезе. Не просто по Франции, к примеру, а сразу по Парижу. В классическом поиске для этого обычно используют комбинации слов, вроде "COVID Paris" или "COVID Berlin", но на порталах данных часто неочевидно к какому города или регионы они относятся.

Такой фасет возможен самым банальным образом, автоматизированной и ручной разметкой каталогов в реестре каталогов Dateno [2]. В файлах YAML описания каталогов регионы прописываются явным образом в блоге coverage и построено это на основе стандарта ISO 3166-2, к примеру, код Берлина DE-BE.

Указание регионов есть только для каталогов которые отмечены как Regional government и Local government и тех по которым тип владельца ещё неизвестен (Unknown). Таких каталогов более 7989 и из них 1041 имеет привязку к subregion.

Это самый простой и очевидный способ дать геопривязку к данным. Аннотирование каталогов данных действенная штука для таких задач. Более сложный сценарий когда региональных каталогов мало, всё централизовано, а на центральном портале региональные данные есть. Что делать в этом случае? Тут есть два решения/подхода.

1-й - это машинное обучение и идентификация геопривязки наборов данных по ключевым словам в заголовке и в описании. Тут, правда, будет много ошибок потому что, к примеру, есть страна Armenia, а есть муниципалитет Armenia в Колумбии.

2-й - это ручное или автоматическое аннотирование публикаторов данных. На порталах данных, как правило, есть инфа о том кто данные опубликовал и по ней можно идентифицировать регион.

Это будет работать на некоторых крупных порталах данных вроде США с data.gov, но даже там на национальный уровень выводится относительно немного данных и нужен хороший матчер названий организаций и их территорий.

Эта фича ещё будет развиваться, пока же можно искать по тем данным которые уже размечены и их число будет пополнятся с каждым проходом краулера и обновлением реестра каталогов данных.

Ссылки:
[1] https://dateno.io
[2] https://dateno.io/registry

#opendata #datacatalogs #datasets #dateno
Пополнение в каталоге каталогов данных Dateno, +40 репозиториев научных данных на базе Weko3 [1], все они относятся к Японии и в совокупности содержат около 50 тысяч наборов данных. Не очень много по глобальным меркам, но хорошо индексируется и имеет стандартизированное API. Прежде чем данные таких каталогов индексируются в Dateno, они описываются и размещаются в реестре, идентифицируются их точки подключения к API и тд.

Ссылки:
[1] https://dateno.io/registry/country/JP

#opendata #dateno #datacatalogs
В рубрике как это устроено у них TERN Data Discovery Portal [1] в Австралии, портал открытых исследовательских данных созданный в рамках проекта Terrestrial Ecosystem Research Network на базе Университета Квинсленда и поддерживаемый в рамках National Collaborative Research Infrastructure Strategy.

На портале не так много данных как на других государственных порталах данных страны, всего 2724 набора данных, но важное его отличие - это проработка профиля метаданных, высокое качество описания всех датасетов и их доступность в специальных научных форматах. Так на портале присутствует 13 фильтров для фасетного поиска, фасетный поиск вообще хорошо годится для поиска по данным и тут он неплох. А также все датасеты публикуются по спецификации Research Object Crate (RO-Crate) [2], похожей на стандарт Frictionless Data, но используемый для научных данных.

Ссылки:
[1] https://portal.tern.org.au
[2] https://www.researchobject.org/ro-crate/

#opendata #data #earthsciences #datacatalogs #australia #tern #geodata
Составляю внутренний список стран по которым очень мало данных, нет каталогов данных, геопорталов, недоступна или минимально доступна статистика и тд.

Лидеры списка кажутся вполне очевидными: Северная Корея, Туркменистан, Йемен, Венесуэла, Зимбабве, Ирак, Иран, но есть и более удивительные случаи.

Например, Кувейт. Нет портала открытых данных, несколько геосерверов на ArcGIS и всё. Открытые данные как открытые данные скорее экзотика. Научных открытых данных практически нет несмотря на наличие значимых университетов. В целом это противоречит тренду того что богатые арабские страны активно "прокачивают" открытость своих данных.

Похожая картина в Египте. Есть несколько геокаталогов данных, есть портал микроданных и совсем нет открытых данных.

И, наконец, Пакистан, где есть большой портал открытых данных провинции Khyber Pakhtunkhwa и нет ничего на национальном уровне или в других провинциях. В этом смысле Пакистан страна удивительная, населения много, данных мало.

И такое ещё много где. В статистике Dateno это сейчас частично отражается в каталоге каталогов данных [1], частично потому что не все каталоги данных проиндексированы и цифры датасетов по стране складываются из датасетов из каталогов данных внутри страны и международной статистики Банка международных расчётов, Мирового банка и других.

Однако по закрытым странам всегда немало данных которые удаётся собирать из международных источников, их много, очень много. Большая их часть уже собирается в Dateno. Тут важнее скорее правильно уметь их идентифицировать, определять по ключевым словам и другим признакам что данные относятся к определённым территориям.

Ссылки:
[1] https://dateno.io/registry/countries

#opendata #data #datacatalogs
В рубрике как это устроено у них каталог каталогов данных и иных знаний созданный ЮНЕСКО для систематизации источников информации об океанах, ODIS [1]. В общей сложности это 3135 источников, существенная часть которых - это каталоги данных, базы данных и другие дата продукты.

Это хорошо систематизированный каталог, с возможностью фасетного поиска по стандартам публикации информации, темам, политикам, странам. Например, есть 25 источников из РФ и даже есть источники данных по Ирану.

Ссылки:
[1] https://catalogue.odis.org/

#opendata #data #oceans #datacatalogs
В рубрике как это устроено у них раскрытие государственных данных в Таиланде, в основном осуществляется на Национальном портале открытых данных [1] где уже опубликовано более 15 тысяч наборов данных.

Одна из особенностей Таиланда в том что раскрытие данных полу-централизовано, у регионов и органов власти существуют свои порталы, но все они являются поддоменами Национального портала, например ranong.gdcatalog.go.th [2], и buengkan.gdcatalog.go.th [3] и созданы на базе движка CKAN. Из всех этих порталов данные автоматически и стандартизировано агрегируются на центральный портал.

Кроме того геоданные с портала отображаются на геопортале страны [4] работающем на базе TerriaJS

Всего в Таиланде порядка 134 порталов открытых данных и каталогов геоданных [5].

У ODI недавно был отчет на тему Таиланда [6] к слову, хорошо оформленный, но довольно слабый поскольку про сам Таиланд там очень мало, а кейсы все по другим странам: Великобритания, Франция, Словакия и тд. В общем-то, возникает вопрос, причём тут Таиланд?

А в целом в Таиланде, как и в большинстве стран Юго-Восточной Азии в последние годы бум раскрытия данных и модернизации раскрытия официальной статистики.

Ссылки:
[1] https://gdcatalog.go.th
[2] https://buengkan.gdcatalog.go.th
[3] https://ranong.gdcatalog.go.th
[4] https://geo.gdcatalog.go.th
[5] https://dateno.io/registry/country/TH
[6] https://theodi.org/insights/reports/empowering-thailands-digital-government-with-open-data/

#opendata #thailand #data #datacatalogs #geodata
К вопросу о состоянии открытости данных в РФ, я не очень верю что в ближайшие месяцы (годы?) случится чудо и оживёт государственный портал data.gov.ru. Пока не проглядывается сценарий при котором внутри гос-ва тренд на систематическую открытость вернулся. Больше шансов что мы в Dateno соберём больше данных чем когда-то было в data.gov.ru. Там уже сейчас проиндексировано много разного и можно больше.

Но есть посмотреть профиль РФ в Dateno, то там проиндексировано только около 15 каталогов данных из 154. Почему так? Можно ли лучше?

Конечно можно, и ограничения тут очень понятные:
1. Большая часть российских госресурсов сейчас не индексируются с зарубежных датацентров. Это преодолевается развертыванием прокси в РФ и индексация через прокси. И РФ не единственная страна где есть такие ограничения.
2. Значительная часть открытых данных в России публикуется по метод рекомендациям Минэка. Они очень плохо написаны, индексировать сайты публикующие данные по ним сложно, но возможно. Только этот парсер будет только под российские госпорталы, и то не все. И, по большей части, с устаревшими данными.
3. Очень много в РФ своих геопродуктов, самописных порталов данных и тд. Это также требует написания множества парсеров. Штук 40-50. Более менее стандартизированы только порталы NextGIS, Bitrix и Орбис, но их не так много.
4. Часть порталов с данными используют известное ПО типа Ipt, Pure, Figshare и до них пока ещё не дошли руки, но как только дойдут они добавятся в общий индекс.

В итоге, если специально не заморачиваться российской спецификой получится проиндексировать ещё 20-40 каталогов данных через прокси и за счёт парсеров для универсального софта, а в остальном надо приложить существенные усилия чтобы проиндексировать оставшиеся.

В этом смысле, собрать данные, например, по Финляндии гораздо проще. Там уже большая часть каталогов данных проиндексирована, да и не проиндексированные работают на типовом ПО которое тоже скоро будет индексироваться.

Вся эта национальная специфика очень сильно снижает видимость и находимость данных. И в Dateno ещё можно более-менее, но измерить эту доступность, а, к примеру, в Google Dataset Search невозможно даже посмотреть сколько датасетов и источников есть по странам.

#opendata #dateno #datasets #datacatalogs
В рубрике как это устроено у них открытые и общедоступные данные тихоокеанских островных государств.
Большая часть тихоокеанских государств входят в сообщество Pacific Community которое ведёт несколько проектов по сбору данных. Один из них - это геопорталы на базе ПО PopGIS которые были созданы для 14 стран [1] и которые совмещают раскрытие статистики и геопорталы [2].

Другой пример, это Pacific Environment Data Portal [3] созданный в Secretariat of the Pacific Regional Environment Programme (SPREP) и содержащий 19 тысяч наборов данных об окружающей среде и включающий подпорталы по каждой стране [4].

А также, конечно стоит упомянуть Pacific Data Hub [5] портал открытых данных всё того же Pacific Community и PHD.Explorer [6] одно окно доступа к статистики всех государств Тихого океана входящих в Pacific Community.

Это не весь список, есть и инициативы в отдельных странах и есть другие порталы в Pacific Community, но при поиске данных по этим странам стоит начинать именно с этих порталов.

Ссылки:
[1] https://sdd.spc.int/mapping-popgis
[2] https://fiji.popgis.spc.int
[3] https://pacific-data.sprep.org
[4] https://tonga-data.sprep.org
[5] https://pacificdata.org

#opendata #oceania #polynesia #data #datasets #datacatalogs