В рубрике как устроены научные репозитории данных, проект DataOne [1]. Это каталог и сервис поиска данных и организации собственных каталогов данных для исследовательских центров о Земле (Earth sciences), по таким темам как։ метеорология, изучение океанов, гидрография, геология, биология, география и другие. Проект изначально был профинансирован Национальным научным фондом США на $21 миллион на 4 года с 2009 по 2013, получателем гранта был Университет Нью Мексико, сейчас он называется Университет Калифорнии, Санта Барбара. Этот университет и сейчас развивает этот проект и связанные с ним продукты.
В общей сложности DataOne агрегирует данные из более чем 60 порталов, часть из которых работают на его же движке в что и DataOne. В проекте сочетается его модель существования как открытого проекта и коммерческие сервисы через продукт для университетов по созданию հօsted repository когда сотрудники университета могут гибко управлять своим каталогом онлайн.
Важная особенность в том что собираются не только данные, но и метаданные которые специфичны для геонаук.
Например։
- методы исследования
- перечень исследователей с их идентификаторами (ORCID)
- георегион(-ы)
- временной диапазон
- информация о проекте
- источник финансирования
А также детальные метаданные по каждому полю в таблицах CSV, XML, XLS и др.
Это далеко не единственный портал данных в науках о Земле, существует немало национальных и тематических порталов данных.
Ссылки։
[1] https://dataone.org
[2] https://search.dataone.org/data
#opendata #datasets #dataportals #openaccess #openscience
В общей сложности DataOne агрегирует данные из более чем 60 порталов, часть из которых работают на его же движке в что и DataOne. В проекте сочетается его модель существования как открытого проекта и коммерческие сервисы через продукт для университетов по созданию հօsted repository когда сотрудники университета могут гибко управлять своим каталогом онлайн.
Важная особенность в том что собираются не только данные, но и метаданные которые специфичны для геонаук.
Например։
- методы исследования
- перечень исследователей с их идентификаторами (ORCID)
- георегион(-ы)
- временной диапазон
- информация о проекте
- источник финансирования
А также детальные метаданные по каждому полю в таблицах CSV, XML, XLS и др.
Это далеко не единственный портал данных в науках о Земле, существует немало национальных и тематических порталов данных.
Ссылки։
[1] https://dataone.org
[2] https://search.dataone.org/data
#opendata #datasets #dataportals #openaccess #openscience
Я регулярно рассказываю про порталы данных и другие госпроекты по открытости в странах мира. Можно уже создать такую отдельную регулярную рубрику и в этот раз про портал открытых данных Республики Киргизия data.gov.kg
Портал создан в 2019 году и содержит 646 наборов данных включающих 1167 файлов общим объёмом около 570Мб. Более всего наборов данных опубликовано статистическим комитетом, а наибольший набор данных это - Сведения по рецептам по Дополнительной программе ОМС, в общей сложности 229МБ.
Из плюсов։
- портал существует (это уже редкость для многих стран, например, в Армении его нет)
- есть несколько любопытных наборов данных
- портал работает на CKAN и предоставляет стандартизованное API
Из минусов։
- портал уже несколько лет заброшен, новые данные на нём почти не публикуют, последнее небольшое обновление в середине 2022 г.
- данных мало, даже только на сайте статкомитета Киргизии опубликовано более 10 тысяч Excel файлов статпоказателей
- геоданные полностью отсутствуют, хотя эти данные доступны на других государственных геопорталах
- информация о продуктах на базе этого портала не собирается, новости не публикуются, есть ощущение что ничего не происходит
- машиночитаемых форматов практически нет, работы над переводом Excel файлов хотя бы в CSV не наблюдается
Общее итоговое ощущение что портал "висит в воздухе", без потребителей, мотивации госорганов к раскрытию данных, методик его работы, ответственных и тд. И всё это за довольно короткий срок, буквально в 3 года.
Поэтому приходится рассматривать его скорее как антипример госпортала открытых данных. При том что довести его до ума не требует ни больших сил, ни ресурсов, ни много людей.
#opendata #kyrgyzstan #dataportals
Портал создан в 2019 году и содержит 646 наборов данных включающих 1167 файлов общим объёмом около 570Мб. Более всего наборов данных опубликовано статистическим комитетом, а наибольший набор данных это - Сведения по рецептам по Дополнительной программе ОМС, в общей сложности 229МБ.
Из плюсов։
- портал существует (это уже редкость для многих стран, например, в Армении его нет)
- есть несколько любопытных наборов данных
- портал работает на CKAN и предоставляет стандартизованное API
Из минусов։
- портал уже несколько лет заброшен, новые данные на нём почти не публикуют, последнее небольшое обновление в середине 2022 г.
- данных мало, даже только на сайте статкомитета Киргизии опубликовано более 10 тысяч Excel файлов статпоказателей
- геоданные полностью отсутствуют, хотя эти данные доступны на других государственных геопорталах
- информация о продуктах на базе этого портала не собирается, новости не публикуются, есть ощущение что ничего не происходит
- машиночитаемых форматов практически нет, работы над переводом Excel файлов хотя бы в CSV не наблюдается
Общее итоговое ощущение что портал "висит в воздухе", без потребителей, мотивации госорганов к раскрытию данных, методик его работы, ответственных и тд. И всё это за довольно короткий срок, буквально в 3 года.
Поэтому приходится рассматривать его скорее как антипример госпортала открытых данных. При том что довести его до ума не требует ни больших сил, ни ресурсов, ни много людей.
#opendata #kyrgyzstan #dataportals
В продолжение анализа про портал открытых данных Кыргызстана я в форме большого лонгрида написал в рассылку заметку "Что не так с порталом открытых данных Узбекистана?"․ Лонгрид получился потому что и сам портал казался больше, анализ его должен был быть куда более кропотливым.
Продублирую тут итоги.
Выводы очень неутешительны. 6623 набора данных в итоге оказываются всего лишь 40 мегабайтами данных, а фактическое число наборов данных оказывается искусственно раздутым. Мониторинг наборов данных выполняет даже не декоративную, а скорее манипулятивную функцию не давая реальной картины, но показывая обновлёнными данные которые совершенно точно не обновлялись. Даже портал открытых данных Киргизии, при всего лишь 646 наборах данных в Excel оказывается больше по объёму, не говоря уже о многих других порталах открытых данных других стран.
#opendata #uzbekistan #dataportals #government
Продублирую тут итоги.
Выводы очень неутешительны. 6623 набора данных в итоге оказываются всего лишь 40 мегабайтами данных, а фактическое число наборов данных оказывается искусственно раздутым. Мониторинг наборов данных выполняет даже не декоративную, а скорее манипулятивную функцию не давая реальной картины, но показывая обновлёнными данные которые совершенно точно не обновлялись. Даже портал открытых данных Киргизии, при всего лишь 646 наборах данных в Excel оказывается больше по объёму, не говоря уже о многих других порталах открытых данных других стран.
#opendata #uzbekistan #dataportals #government
В рубрике как это работает у них портал открытых данных Шанхая (Китай) data.sa.gov.cn [1]. Я ранее уже рассказывал об открытых данных в Китае, но не рассказывал именно про этот портал.
Первая особенность портала в большом объёме данных. На нём опубликовано 4490 наборов данных. Это довольно много даже для национальных порталов открытых данных, а тут портал только города. Впрочем города с 25 миллионами населения, что немало.
Почти все данные публикуются в форме данных для структурированного хранилища и экспортируются сразу в форматах XML, XLS, JSON, CSV и RDF. По поводу RDF сразу те же сомнения что с порталом открытых данных Узбекистана, никакой привязки к онтологиям нет - это, конечно, минус.
Плюс - объём данных и частота обновления. 929 наборов данных предоставляются через API и обновляются ежесуточно.
Для полноты картины осталось посмотреть на их инструкции для разработчиков.
Ссылки:
[1] https://data.sh.gov.cn
[2] https://t.me/begtin/4470
#opendata #dataportals #china #shanghai
Первая особенность портала в большом объёме данных. На нём опубликовано 4490 наборов данных. Это довольно много даже для национальных порталов открытых данных, а тут портал только города. Впрочем города с 25 миллионами населения, что немало.
Почти все данные публикуются в форме данных для структурированного хранилища и экспортируются сразу в форматах XML, XLS, JSON, CSV и RDF. По поводу RDF сразу те же сомнения что с порталом открытых данных Узбекистана, никакой привязки к онтологиям нет - это, конечно, минус.
Плюс - объём данных и частота обновления. 929 наборов данных предоставляются через API и обновляются ежесуточно.
Для полноты картины осталось посмотреть на их инструкции для разработчиков.
Ссылки:
[1] https://data.sh.gov.cn
[2] https://t.me/begtin/4470
#opendata #dataportals #china #shanghai
В рубрике как это работает у них, государственный портал открытых данных Чехии data.gov.cz [1].
Содержит 142 тысяч наборов данных из которых 137 тысяч наборов данных - это данные кадастровой службы страны.
Обладает рядом весьма интересных особенностей, специфичных только для него.
1. Портал построен на базе связки генератора статических страниц Jekyll + Github. В результате у него феноменальная скорость открытия страниц, лучше чем у любого известного мне портала с данными.
2. Внутри движок который работает на связанных данных (Linked Data), API портала, также, доступно в виде SPARQL и интеграционный движок тоже на базе связанных данных
3. Есть целый каталог стандартов раскрытия написанных в W3C стиле [2]
4. Значительная часть наборов данных обновляется ежедневно
5. На портал ничего не загружается, все данные представлены прямыми ссылками на оригинальные госсайты
6. У многих наборов данных есть сведения о временном и географическом покрытии в привязке к справочникам.
В целом это один из лучших порталов открытых данных которые я видел, по логике, организации и подозреваю что и стоимости. Из недостатков - это отсутствие данных большого объёма для задач по data science и отсутствие среза научных данных открытого доступа, которых в Чехии тоже много
Ссылки:
[1] https://data.gov.cz
[2] https://data.gov.cz/ofn/
#opendata #czech #dataportals #linkeddata #datacatalogs #europe
Содержит 142 тысяч наборов данных из которых 137 тысяч наборов данных - это данные кадастровой службы страны.
Обладает рядом весьма интересных особенностей, специфичных только для него.
1. Портал построен на базе связки генератора статических страниц Jekyll + Github. В результате у него феноменальная скорость открытия страниц, лучше чем у любого известного мне портала с данными.
2. Внутри движок который работает на связанных данных (Linked Data), API портала, также, доступно в виде SPARQL и интеграционный движок тоже на базе связанных данных
3. Есть целый каталог стандартов раскрытия написанных в W3C стиле [2]
4. Значительная часть наборов данных обновляется ежедневно
5. На портал ничего не загружается, все данные представлены прямыми ссылками на оригинальные госсайты
6. У многих наборов данных есть сведения о временном и географическом покрытии в привязке к справочникам.
В целом это один из лучших порталов открытых данных которые я видел, по логике, организации и подозреваю что и стоимости. Из недостатков - это отсутствие данных большого объёма для задач по data science и отсутствие среза научных данных открытого доступа, которых в Чехии тоже много
Ссылки:
[1] https://data.gov.cz
[2] https://data.gov.cz/ofn/
#opendata #czech #dataportals #linkeddata #datacatalogs #europe
По поводу российского государственного портала открытых данных data.gov.ru который недавно был закрыт Минэкономразвития [1] и как пишет Ольга Пархимович у себя в канале там ещё и чудеса с обратной связью с представителями этого министерства [2], так вот ещё до появления госпортала открытых данных мы командой Инфокультуры делали портал hubofdata.ru [3] куда загружали данные которые госорганы "забывали" опубликовать как открытые и который подзабросили когда российские госорганы начали создавать свои порталы открытых данных, поскольку было, какое-то время, впечатление что данные госорганы будут публиковать.
Так вот я большого секрета не открою сказав что сделать большой негосударственный портал открытых данных можно и даже не феноменально сложно. И если Минэкономразвития собирается запускать новую версию data.gov.ru на Гостехе и за 50 млн. руб, то без министерства и без Гостеха общественный проект с большим числом наборов данных и их объёмом можно сделать в 5 раз дешевле.
Больше того, поскольку мы кроме общественного портала Hubofdata делали ещё и полу-коммерческий Datacrafter [4] то заполнить такой общероссийский портал можно сразу данными большого объёма и в хорошем качестве. Кстати, Datacrafter никуда не исчез, может быть будет перезапущен в России, может быть мигрирован в другую страну и с другими акцентами. В любом случае значительная часть собранных там данных может быть перенесена в общественный проект.
В чем же сложность тогда? На самом деле ключевая сложность в России вот уже много лет в отсутствии доступных инвестиций/грантов/средств на цифровые гражданские проекты, особенно по доступности данных. Это министерства могутсжечь любое количество потратить 50 миллионов рублей в довесок к уже потраченным без гарантии результата. Объяснить из чего складывается разница? Из того что порталы открытых данных во всём мире делают на готовых опенсорс решениях, чаще всего на CKAN, реже на DKAN, uData, Dataverse, а для геоданных Geonetwork. Развертывание любого из них в разы дешевле и практичнее разработки с нуля, если только нет плана по созданию мегафич из-за которых опенсорс продукты не подходят. А разработка с нуля на Гостехе - это удовольствие не для слабонервных, учитывая что там никаких готовых решений. Нельзя вот так просто взять и развернуть готовое решение из коробки и неизвестно можно ли будет когда-либо. Например, Datacrafter делался не на CKAN'е потому что в нём внутри структурированное NoSQL хранилище, разметчик семантических типов данных и экспорт всех данных в parquet по умолчанию. CKAN этого не умеет, пока что.
Когда есть амбиции делать национальные порталы открытых данных, то стоит ли делать их в России? Поэтому я через какое-то время анонсирую общественный портал открытых данных, пока небольшой, создаваемый для другой страны и я уже рассказывал ранее про проект Common Data Index [5] который начинается с общего реестра каталогов и порталов открытых данных в мире, а продолжится поисковой системой по всем наборам данных в общедоступных каталогах данных.
Ссылки:
[1] https://t.me/begtin/4714
[2] https://t.me/ahminfin/541
[3] https://hubofdata.ru
[4] https://datacrafter.ru
[5] https://t.me/begtin/4764
#opendata #russia #opengov #dataportals
Так вот я большого секрета не открою сказав что сделать большой негосударственный портал открытых данных можно и даже не феноменально сложно. И если Минэкономразвития собирается запускать новую версию data.gov.ru на Гостехе и за 50 млн. руб, то без министерства и без Гостеха общественный проект с большим числом наборов данных и их объёмом можно сделать в 5 раз дешевле.
Больше того, поскольку мы кроме общественного портала Hubofdata делали ещё и полу-коммерческий Datacrafter [4] то заполнить такой общероссийский портал можно сразу данными большого объёма и в хорошем качестве. Кстати, Datacrafter никуда не исчез, может быть будет перезапущен в России, может быть мигрирован в другую страну и с другими акцентами. В любом случае значительная часть собранных там данных может быть перенесена в общественный проект.
В чем же сложность тогда? На самом деле ключевая сложность в России вот уже много лет в отсутствии доступных инвестиций/грантов/средств на цифровые гражданские проекты, особенно по доступности данных. Это министерства могут
Когда есть амбиции делать национальные порталы открытых данных, то стоит ли делать их в России? Поэтому я через какое-то время анонсирую общественный портал открытых данных, пока небольшой, создаваемый для другой страны и я уже рассказывал ранее про проект Common Data Index [5] который начинается с общего реестра каталогов и порталов открытых данных в мире, а продолжится поисковой системой по всем наборам данных в общедоступных каталогах данных.
Ссылки:
[1] https://t.me/begtin/4714
[2] https://t.me/ahminfin/541
[3] https://hubofdata.ru
[4] https://datacrafter.ru
[5] https://t.me/begtin/4764
#opendata #russia #opengov #dataportals
Telegram
Ivan Begtin
Свежая новость [1] и заметка в Коммерсанте [2] о том что "временно" приостанавливается работа федерального портала открытых данных data.gov.ru и что будет через какое-то время новая/лучшая версия портала, надо только подождать.
Мне так много есть что сказать…
Мне так много есть что сказать…
В рубрике как это работает у них репозитории [больших] научных данных в области биоинформатики и не только.
GigaDB [1] репозиторий научных данных созданный командой журнала GigaScience. Создан и развивается в Гонконге, содержит 2339 наборов данных, 410263 файла общим размером около 47 ТБ (на начало мая 2023 г). Данные регулярно обновляются, а метаданные доступны по протоколу OAI-PMH используемому для обмена метаданными между репозиториями научных документов
BioStudies [2] база результатов биологических исследований включая их взаимосвязь с исследованиями в рамках работы EMBL-EBI. 2 миллиона 395 тысяч исследований и 9 миллионов 584 тысячи файлов. Данные раздаются, в том числе, через FTP и через систему обмена научными данными Globus [3]. Объём данных оценить сложно, цифры они не приводят, но он явно очень большой, сравнимый с GigaDB и, скорее всего, его превосходящий.
CSIRO Data Access portal [4] портал данных австралийского агентства CSIRO, в общем объёме чуть менее 7.5 тысяч наборов данных, все посвящены исследованиям проводимым CSIRO или в котором исследователи CSIRO принимают участие. Многие наборы данных - это большие коллекции файлов первичного наблюдения, не машиночитаемые, но также являющиеся результатом исследований.
Существует множество более узкоспециализированных репозиториев, их списки публикуют агентства финансирующие исследования и журналы принимающие научные работы:
- PLOS One recommended Repositories [5]
- The Royal Society Data Sharing [6]
И многие другие. Даже один крупный репозиторий данных в области биоинформатики по объёму хранимых данных может превосходить все национальные и региональные порталы открытых данных.
Ссылки:
[1] http://gigadb.org
[2] https://www.ebi.ac.uk/biostudies/
[3] https://www.globus.org/
[4] https://data.csiro.au/
[5] https://journals.plos.org/plosone/s/recommended-repositories
[6] https://royalsociety.org/journals/ethics-policies/data-sharing-mining/
#opendata #openaccess #openscience #datacatalogs #dataportals
GigaDB [1] репозиторий научных данных созданный командой журнала GigaScience. Создан и развивается в Гонконге, содержит 2339 наборов данных, 410263 файла общим размером около 47 ТБ (на начало мая 2023 г). Данные регулярно обновляются, а метаданные доступны по протоколу OAI-PMH используемому для обмена метаданными между репозиториями научных документов
BioStudies [2] база результатов биологических исследований включая их взаимосвязь с исследованиями в рамках работы EMBL-EBI. 2 миллиона 395 тысяч исследований и 9 миллионов 584 тысячи файлов. Данные раздаются, в том числе, через FTP и через систему обмена научными данными Globus [3]. Объём данных оценить сложно, цифры они не приводят, но он явно очень большой, сравнимый с GigaDB и, скорее всего, его превосходящий.
CSIRO Data Access portal [4] портал данных австралийского агентства CSIRO, в общем объёме чуть менее 7.5 тысяч наборов данных, все посвящены исследованиям проводимым CSIRO или в котором исследователи CSIRO принимают участие. Многие наборы данных - это большие коллекции файлов первичного наблюдения, не машиночитаемые, но также являющиеся результатом исследований.
Существует множество более узкоспециализированных репозиториев, их списки публикуют агентства финансирующие исследования и журналы принимающие научные работы:
- PLOS One recommended Repositories [5]
- The Royal Society Data Sharing [6]
И многие другие. Даже один крупный репозиторий данных в области биоинформатики по объёму хранимых данных может превосходить все национальные и региональные порталы открытых данных.
Ссылки:
[1] http://gigadb.org
[2] https://www.ebi.ac.uk/biostudies/
[3] https://www.globus.org/
[4] https://data.csiro.au/
[5] https://journals.plos.org/plosone/s/recommended-repositories
[6] https://royalsociety.org/journals/ethics-policies/data-sharing-mining/
#opendata #openaccess #openscience #datacatalogs #dataportals
www.ebi.ac.uk
BioStudies < The European Bioinformatics Institute < EMBL-EBI
BioStudies – one package for all the data supporting a study
В рубрике как это работает у них портал данных для машинного обучения AI Hub в Южной Корее [1]
На портале размещено 100 наборов данных, относительно большого размера (крупнейший в 20ТБ). Все наборы данных созданы именно под машинное обучение и обучение ИИ, например, включают размеченные данные распознавания голоса, видео, текстов, изображений лидаров и так далее.
Они же проводят конкурсы по улучшению алгоритмов распознавания образов [2].
Из важных особенностей:
a) Это не открытые данные, доступ к ним только после регистрации и авторизации, для многих наборов данных стоит пометка (Only Koreans can apply for data.), иначе говоря "только для корейцев"
b) Некоторые наборы данных связанные с медициной доступны только в режиме Safe Zone, специальной среде без интернета, доступ к которой надо отдельно запрашивать.
с) По всем наборам данных очень подробное описание/документация. Это должно значительно упрощать их использование. Например, для набора данных Hearing loss test voice data [3]
Ссылки:
[1] https://aihub.or.kr
[2] https://aihub.or.kr/cpthb/cpthb/list.do?currMenu=125&topMenu=102
[3] https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71393
#datasets #datacatalogs #dataportals #korea #ai #ml
На портале размещено 100 наборов данных, относительно большого размера (крупнейший в 20ТБ). Все наборы данных созданы именно под машинное обучение и обучение ИИ, например, включают размеченные данные распознавания голоса, видео, текстов, изображений лидаров и так далее.
Они же проводят конкурсы по улучшению алгоритмов распознавания образов [2].
Из важных особенностей:
a) Это не открытые данные, доступ к ним только после регистрации и авторизации, для многих наборов данных стоит пометка (Only Koreans can apply for data.), иначе говоря "только для корейцев"
b) Некоторые наборы данных связанные с медициной доступны только в режиме Safe Zone, специальной среде без интернета, доступ к которой надо отдельно запрашивать.
с) По всем наборам данных очень подробное описание/документация. Это должно значительно упрощать их использование. Например, для набора данных Hearing loss test voice data [3]
Ссылки:
[1] https://aihub.or.kr
[2] https://aihub.or.kr/cpthb/cpthb/list.do?currMenu=125&topMenu=102
[3] https://aihub.or.kr/aihubdata/data/view.do?currMenu=115&topMenu=100&aihubDataSe=realm&dataSetSn=71393
#datasets #datacatalogs #dataportals #korea #ai #ml
Часть 2 из 2.
—
4) Во многих африканских странах нет никаких других открытых данных кроме порталов микроданных (явно созданных при поддержке Всемирного банка и других институтов развития) и порталов геоданных, многие из которых также созданы на деньги международной помощи.
5) Количественно открытых государственных данных более всего в Европейском союзе, по объёму в США. При этом стремительный рост порталов открытых данных в Азии, в Китае с акцентом на инновации и бизнес, в других странах на открытость гос-ва, подотчетность и тд.
6) Порталы данных создают даже министерства обороны некоторых стран. В Чехии есть [3] и в США [4]. Немного, но есть.
7) Есть какая-то понятная корреляция между развитием экономики стран и доступностью их данных, но это надо изучать подробнее.
8) Есть очень большая проблема с отсутствием сетевой нейтральности. Например, российские сайты с данными не открываются не из России, многие сайты с госданными США не открываются не из США (даже IP в Германии или Франции не срабатывает), аналогично с некоторыми бразильскими сайтами и тд. Реже, но так бывает когда на сайте прямо сказано что блокируется всё не из их страны. Например, такое сообщение есть на портале данных спутниковых снимков Нидерладов [5]. А также на корейском портале AI Hub [6] открытым текстом пишут что только для корейцев
--
И ещё довольно много всего, я буду рассказывать об этом время от времени
Ссылки:
[1] https://begtin.substack.com
[2] https://github.com/commondataio/dataportals-registry
[3] https://data.army.cz
[4] https://data.defense.gov
[5] https://www.satellietdataportaal.nl
[6] https://aihub.or.kr
#opendata #commondataindex #datacatalogs #dataportals #datasets
—
4) Во многих африканских странах нет никаких других открытых данных кроме порталов микроданных (явно созданных при поддержке Всемирного банка и других институтов развития) и порталов геоданных, многие из которых также созданы на деньги международной помощи.
5) Количественно открытых государственных данных более всего в Европейском союзе, по объёму в США. При этом стремительный рост порталов открытых данных в Азии, в Китае с акцентом на инновации и бизнес, в других странах на открытость гос-ва, подотчетность и тд.
6) Порталы данных создают даже министерства обороны некоторых стран. В Чехии есть [3] и в США [4]. Немного, но есть.
7) Есть какая-то понятная корреляция между развитием экономики стран и доступностью их данных, но это надо изучать подробнее.
8) Есть очень большая проблема с отсутствием сетевой нейтральности. Например, российские сайты с данными не открываются не из России, многие сайты с госданными США не открываются не из США (даже IP в Германии или Франции не срабатывает), аналогично с некоторыми бразильскими сайтами и тд. Реже, но так бывает когда на сайте прямо сказано что блокируется всё не из их страны. Например, такое сообщение есть на портале данных спутниковых снимков Нидерладов [5]. А также на корейском портале AI Hub [6] открытым текстом пишут что только для корейцев
--
И ещё довольно много всего, я буду рассказывать об этом время от времени
Ссылки:
[1] https://begtin.substack.com
[2] https://github.com/commondataio/dataportals-registry
[3] https://data.army.cz
[4] https://data.defense.gov
[5] https://www.satellietdataportaal.nl
[6] https://aihub.or.kr
#opendata #commondataindex #datacatalogs #dataportals #datasets
Substack
Ivan’s Begtin Newsletter on digital, open and preserved government | Ivan Begtin | Substack
Digital government can't be without openness, preservation, plain language and data, for sure. Click to read Ivan’s Begtin Newsletter on digital, open and preserved government, by Ivan Begtin, a Substack publication with hundreds of subscribers.
В рубрике как это работает у них Платформа геоданных Малави [1] африканской страны с 16 миллионным населением и довольно небольшой экономикой.
Портал создан на базе open source движка Geonode [2] том же самом на котором сделан, к примеру, Портал открытых пространственных данных Республики Казахстан (map.gov.kz) [2] и ещё пара сотен государственных, муниципальных и научных порталов открытых геоданных.
На портале размещено 547 наборов данных в виде слоёв карт из разных источников, внутренних и внешних, например OSM.
И как и все порталы на базе GeoNode включает доступное по умолчанию API для доступа к данным в разделе "Developers" [3].
Особенность доступа к данным в Малави как и в большинстве африканских стран в том что национальные порталы открытых данных у них отсутствуют, а вот порталы открытых геоданных имеются и активно развиваются.
Ссылки:
[1] https://www.masdap.mw
[2] https://map.gov.kz
[3] https://www.masdap.mw/developer/
#opendata #geodata #malawi #africa #dataportals
Портал создан на базе open source движка Geonode [2] том же самом на котором сделан, к примеру, Портал открытых пространственных данных Республики Казахстан (map.gov.kz) [2] и ещё пара сотен государственных, муниципальных и научных порталов открытых геоданных.
На портале размещено 547 наборов данных в виде слоёв карт из разных источников, внутренних и внешних, например OSM.
И как и все порталы на базе GeoNode включает доступное по умолчанию API для доступа к данным в разделе "Developers" [3].
Особенность доступа к данным в Малави как и в большинстве африканских стран в том что национальные порталы открытых данных у них отсутствуют, а вот порталы открытых геоданных имеются и активно развиваются.
Ссылки:
[1] https://www.masdap.mw
[2] https://map.gov.kz
[3] https://www.masdap.mw/developer/
#opendata #geodata #malawi #africa #dataportals
В качестве регулярного напоминания, если Вы ищите данные по России и постсоветским странам, то в каталоге каталогов данных DataCatalogs.ru [1] они как раз собраны.
В проекте сейчас 322 каталога данных, из которых 294 по России, ещё 28 по Казахстану, Кыргызстану, Узбекистану, Армении и тд.
В данном случае открытые данные трактуются расширительно, исходя из того что в каталоге каталогов собраны и источники не только открытых данных в строгом определении, но и другие общедоступные источники данных которые что называется "недооткрыты", например, порталы открытого бюджета или геопорталы.
Этот проект был одним из источников для создаваемого сейчас Common Data Index [2] реестра каталогов данных по всему миру, где их уже более 2000+ тысяч и о котором я, также, регулярно пишу.
Ссылки:
[1] https://www.datacatalogs.ru/
[2] https://github.com/commondataio/dataportals-registry
#opendata #datacatalogs #dataportals #metadata
В проекте сейчас 322 каталога данных, из которых 294 по России, ещё 28 по Казахстану, Кыргызстану, Узбекистану, Армении и тд.
В данном случае открытые данные трактуются расширительно, исходя из того что в каталоге каталогов собраны и источники не только открытых данных в строгом определении, но и другие общедоступные источники данных которые что называется "недооткрыты", например, порталы открытого бюджета или геопорталы.
Этот проект был одним из источников для создаваемого сейчас Common Data Index [2] реестра каталогов данных по всему миру, где их уже более 2000+ тысяч и о котором я, также, регулярно пишу.
Ссылки:
[1] https://www.datacatalogs.ru/
[2] https://github.com/commondataio/dataportals-registry
#opendata #datacatalogs #dataportals #metadata
Среди малоизвестных продуктов для публикации открытых данных есть такой продукт как Open Data Cube [1]. Можно перевести его как "куб открытых данных", но скорее он является "Открытым кубом данных". Это ПО с открытым кодом [2] для создания каталогов спутниковых данных. Продукт достаточно давний и его первые версии распространялись CEOS [3] (The Committee on Earth Observation Satellites) и до сих пор развёрнуты во многих странах, но работают, в основном, в закрытом режиме.
Последняя версия Open Data Cube, именно про открытые данные. Причём помимо возможности работать с данными и скачивать данные привычным образом, эта версия ПО по умолчанию поддерживает протокол по спецификации STAC [4].
Уже есть некоторое число общедоступных инсталляций, часть из которых зарегистрирована в реестре STAC, а часть надо искать, впрочем я облегчу задачу и приведу примеры тут:
- Digital Earth Africa - https://explorer.digitalearth.africa
- Digital Earth Australia - https://explorer.nci.dea.ga.gov.au
- Common Sensing Ltd. - https://cubeexplorer.csopenportal.co.uk
- Maynooth University - https://tai-odc.terrainai.com
- Thai Geo and space agency - https://datacube.gistda.or.th
В Open Data Cube своя терминология которую важно учитывать. Например, термин dataset, который по сути является срезом наблюдения на определённую дату и время, поэтому, например, в каком-нибудь Digital Earth Africa может быть до 1 миллиона датасетов. А то что датасетом считают в других порталах тут называют product. Например, именно product является объектом лицензионных рассмотрений и публикуется под какой-то конкретной лицензией, например, CC-BY 4.0.
Ссылки:
[1] https://www.opendatacube.org
[2] https://github.com/opendatacube
[3] https://www.opendatacube.org/ceos
[4] https://stacspec.org/en
#opensource #opendata #geodata #dataportals
Последняя версия Open Data Cube, именно про открытые данные. Причём помимо возможности работать с данными и скачивать данные привычным образом, эта версия ПО по умолчанию поддерживает протокол по спецификации STAC [4].
Уже есть некоторое число общедоступных инсталляций, часть из которых зарегистрирована в реестре STAC, а часть надо искать, впрочем я облегчу задачу и приведу примеры тут:
- Digital Earth Africa - https://explorer.digitalearth.africa
- Digital Earth Australia - https://explorer.nci.dea.ga.gov.au
- Common Sensing Ltd. - https://cubeexplorer.csopenportal.co.uk
- Maynooth University - https://tai-odc.terrainai.com
- Thai Geo and space agency - https://datacube.gistda.or.th
В Open Data Cube своя терминология которую важно учитывать. Например, термин dataset, который по сути является срезом наблюдения на определённую дату и время, поэтому, например, в каком-нибудь Digital Earth Africa может быть до 1 миллиона датасетов. А то что датасетом считают в других порталах тут называют product. Например, именно product является объектом лицензионных рассмотрений и публикуется под какой-то конкретной лицензией, например, CC-BY 4.0.
Ссылки:
[1] https://www.opendatacube.org
[2] https://github.com/opendatacube
[3] https://www.opendatacube.org/ceos
[4] https://stacspec.org/en
#opensource #opendata #geodata #dataportals
Open Data Cube
Open Data Cube | Open Source
An Open Source Geospatial Data Management & Analysis Platform
Я давненько не писал про работу над моим пэт-проектом Common Data Index по созданию поисковой системы по всем общедоступным открытым данным который по мере развития получит институциализацию. Пока же о текущем состоянии. В каталоге сейчас 2027 каталогов данных из которых большая часть это порталы открытых данных. Ещё 824 каталога данных найдены, но ещё не включены в каталог, большая их часть - это геопорталы. После обновления, скорее всего, число геопорталов будет больше числа порталов открытых данных.
Реестр теперь можно увидеть наглядно на сайте registry.commondata.io и у каждого каталога есть отдельная страница, уникальный идентификатор с префиксом cdi, а также можно увидеть статистику реестра целиком и профили по странам и, конечно, скачать сам реестр целиком.
#opendata #datasets #dataportals #datacatalog
Реестр теперь можно увидеть наглядно на сайте registry.commondata.io и у каждого каталога есть отдельная страница, уникальный идентификатор с префиксом cdi, а также можно увидеть статистику реестра целиком и профили по странам и, конечно, скачать сам реестр целиком.
#opendata #datasets #dataportals #datacatalog
Я, кстати, кажется не писал про PortalJS [1] это относительно недавняя разработка с открытым кодом компании Datopian, той же команды что стоит за поддержкой ПО CKAN используемого повсеместно для каталогов открытых данных.
Те кто видел CKAN в деле знают что выглядит он, в целом, непрезентабельно. Приемлимо, и у нас он много где используется, но слишком уж визуально неэстетично, особенно его тема по умолчанию и поэтому очень многие команды в госорганах используют CKAN как систему управления данными DMS (Data management system) и поверх его API писали свои обёртки. Так было с канадским национальным порталом данных, частично так в США где несколько интерфейсов у data.gov и так сейчас в Великобритании с их порталом data.gov.uk.
Так вот PortalJS - это попытка бьютификации CKAN'а так сказать от разработчиков. Их предложение взять эту надстройку вместо того чтобы клепать свою.
Это выглядит очень резонно, потому что всё что я знаю и вижу про существующий рынок порталов открытых данных и научных репозиториев там коммерческие игроки с облачными порталами уже сильно CKAN превосходят по возможностям из коробки, хотя и пока не по всему спектру возможностей вообще.
На базе PortalJS, например, работает портал открытых данных ОАЭ [2] и портал открытых данных Северной Ирландии [3].
Впрочем особенность PortalJS в том что там заявляется что бэкэндом может быть не только CKAN и это не совсем продукт, а скорее фреймворк для донастройки со множеством примеров.
Продукт интересный, обязательно надо опробовать на одном из наших открытых порталов с данными.
Ссылки:
[1] https://portaljs.org
[2] https://opendata.fcsc.gov.ae
[3] https://www.opendatani.gov.uk
#opendata #datacatalogs #opensource #dataportals
Те кто видел CKAN в деле знают что выглядит он, в целом, непрезентабельно. Приемлимо, и у нас он много где используется, но слишком уж визуально неэстетично, особенно его тема по умолчанию и поэтому очень многие команды в госорганах используют CKAN как систему управления данными DMS (Data management system) и поверх его API писали свои обёртки. Так было с канадским национальным порталом данных, частично так в США где несколько интерфейсов у data.gov и так сейчас в Великобритании с их порталом data.gov.uk.
Так вот PortalJS - это попытка бьютификации CKAN'а так сказать от разработчиков. Их предложение взять эту надстройку вместо того чтобы клепать свою.
Это выглядит очень резонно, потому что всё что я знаю и вижу про существующий рынок порталов открытых данных и научных репозиториев там коммерческие игроки с облачными порталами уже сильно CKAN превосходят по возможностям из коробки, хотя и пока не по всему спектру возможностей вообще.
На базе PortalJS, например, работает портал открытых данных ОАЭ [2] и портал открытых данных Северной Ирландии [3].
Впрочем особенность PortalJS в том что там заявляется что бэкэндом может быть не только CKAN и это не совсем продукт, а скорее фреймворк для донастройки со множеством примеров.
Продукт интересный, обязательно надо опробовать на одном из наших открытых порталов с данными.
Ссылки:
[1] https://portaljs.org
[2] https://opendata.fcsc.gov.ae
[3] https://www.opendatani.gov.uk
#opendata #datacatalogs #opensource #dataportals
Я ранее несколько раз писал про портал открытых данных Казахстана data.egov.kz [1] и то что на портале есть множество ограничений по выгрузке данных (не более 100 записей за один раз, каптча), а ранее неграждане страны вообще не могли ничего оттуда выгружать. Теперь, пересмотрев несколько тысяч порталов с данными по всему миру могу сказать что вот этот казахстанский пример абсолютно уникален, ни на одном национальном портале данных в мире нет таких ограничений.
Другое удивительное явление в Казахстане - это то что несмотря на то что страна богатая деньгами, ресурсами и развитой ИТ средой, тем не менее практически нет тематических и региональных порталов с данными. Во многих странах всё скорее наоборот, может национального портала не быть, но городские и региональные повсеместны.
Параллельно неработающему национальному порталу открытых данных есть немалое число доступных геоданных и даже научных данных.
Например, в Университете Назарбаева открытые данные публикуются на двух ресурсах:
- https://issai.nu.edu.kz/issai-datasets/ коллекция наборов данных под свободными лицензиями от ISSAI - Институт Умных Систем и Искусственного Интеллекта. Множество наборов данных для машинного обучения
- https://research.nu.edu.kz/en/publications/ - наборы данных среди результатов исследований университета, фильтруются по "Type" - "Dataset". Пока там всего один набор данных, правда [2]
Научных данных пока немного, как и инфраструктуры для работы с ними, но что-то есть. Впрочем, как я понимаю, большая часть учёных в Казахстане также как и многие другие публикуют свои данные в Zenodo [3]
А вот с геопорталами интересно, мне лично за час удалось найти несколько десятков открытых геопорталов и в общей сложности в Казахстане их найдено 33. Так много геопорталов появилось относительно недавно и практически все они работают на базе ArcGIS Enterprise или Geoserver или на базе ГИС разабатываемых вендорами внутри страны, но во всех геопорталах есть развитое недокументированное API.
Все каталоги данных и геопорталы Казахстана собраны в профиле страны в Common Data Index [4]. Если Вы знаете какие-то порталы данных и гепорталы которые там не указаны, напишите в личку, обязательно их добавлю в следующих обновлениях.
Ссылки:
[1] https://t.me/begtin/4464
[2] https://research.nu.edu.kz/en/publications/kazakhstan-soil-microbiome-scientific-data-mendeley-data-v1
[3] https://zenodo.org/record/7749411
[4] https://registry.commondata.io/country/KZ
#opendata #datasets #dataportals #datacatalogs
Другое удивительное явление в Казахстане - это то что несмотря на то что страна богатая деньгами, ресурсами и развитой ИТ средой, тем не менее практически нет тематических и региональных порталов с данными. Во многих странах всё скорее наоборот, может национального портала не быть, но городские и региональные повсеместны.
Параллельно неработающему национальному порталу открытых данных есть немалое число доступных геоданных и даже научных данных.
Например, в Университете Назарбаева открытые данные публикуются на двух ресурсах:
- https://issai.nu.edu.kz/issai-datasets/ коллекция наборов данных под свободными лицензиями от ISSAI - Институт Умных Систем и Искусственного Интеллекта. Множество наборов данных для машинного обучения
- https://research.nu.edu.kz/en/publications/ - наборы данных среди результатов исследований университета, фильтруются по "Type" - "Dataset". Пока там всего один набор данных, правда [2]
Научных данных пока немного, как и инфраструктуры для работы с ними, но что-то есть. Впрочем, как я понимаю, большая часть учёных в Казахстане также как и многие другие публикуют свои данные в Zenodo [3]
А вот с геопорталами интересно, мне лично за час удалось найти несколько десятков открытых геопорталов и в общей сложности в Казахстане их найдено 33. Так много геопорталов появилось относительно недавно и практически все они работают на базе ArcGIS Enterprise или Geoserver или на базе ГИС разабатываемых вендорами внутри страны, но во всех геопорталах есть развитое недокументированное API.
Все каталоги данных и геопорталы Казахстана собраны в профиле страны в Common Data Index [4]. Если Вы знаете какие-то порталы данных и гепорталы которые там не указаны, напишите в личку, обязательно их добавлю в следующих обновлениях.
Ссылки:
[1] https://t.me/begtin/4464
[2] https://research.nu.edu.kz/en/publications/kazakhstan-soil-microbiome-scientific-data-mendeley-data-v1
[3] https://zenodo.org/record/7749411
[4] https://registry.commondata.io/country/KZ
#opendata #datasets #dataportals #datacatalogs
Nazarbayev University
Find Research outputs
— Nazarbayev University
— Nazarbayev University