В рубрике как это устроено у них
Reproducible Research Repository [1] проект Всемирного банка по публикации кода и данных при проведении исследований, в основном социологических, по всему миру.
Отличается тем что это не портал открытых данных, а репозиторий для размещения метаданных, кода и данных для перепроверки проведенного исследования. Соответственно данные могут быть как полностью доступные и опубликованы так и ограниченные в доступе и только в виде метаданных с описанием процедуры доступа.
Хотя на сайте это нигде не указано, но в основе ПО для публикации метаданных NADA Data Catalog [2] на котором также работает портал микроданных Всемирного банка [3].
Сейчас в репозитории немного данных, всего 163 записи и не все из них содержат данные, иногда только код.
P.S. У Всемирного банка и структур ООН появляется всё больше порталов открытых данных и других дата каталогов. Я вскоре напишу про них подробнее
Ссылки:
[1] https://reproducibility.worldbank.org
[2] https://nada.ihsn.org
[3] https://microdata.worldbank.org
#opendata #datasets #openaccess #datacatalogs
Reproducible Research Repository [1] проект Всемирного банка по публикации кода и данных при проведении исследований, в основном социологических, по всему миру.
Отличается тем что это не портал открытых данных, а репозиторий для размещения метаданных, кода и данных для перепроверки проведенного исследования. Соответственно данные могут быть как полностью доступные и опубликованы так и ограниченные в доступе и только в виде метаданных с описанием процедуры доступа.
Хотя на сайте это нигде не указано, но в основе ПО для публикации метаданных NADA Data Catalog [2] на котором также работает портал микроданных Всемирного банка [3].
Сейчас в репозитории немного данных, всего 163 записи и не все из них содержат данные, иногда только код.
P.S. У Всемирного банка и структур ООН появляется всё больше порталов открытых данных и других дата каталогов. Я вскоре напишу про них подробнее
Ссылки:
[1] https://reproducibility.worldbank.org
[2] https://nada.ihsn.org
[3] https://microdata.worldbank.org
#opendata #datasets #openaccess #datacatalogs
В рубрике интересных каталогов и поисковиков по данным проект WorldEx [1] каталог данных и поисковик геоданных привязанных к хексагонам.
Кодирование через хексагоны стало популярным относительно недавно, авторы используют библиотеку H3 [2] от Uber.
Подход любопытный, благо в Dateno у нас миллионы датасетов с геоданными и было бы любопытно разметить их по хексагонам. Очень любопытно.
Сам проект worldex с открытым кодом [3], хранят данные в PostGIS и Elasticsearch.
Жаль не удалось найти код конвейеров данных по геокодированию в H3, но и без него такое можно повторить.
Ссылки:
[1] https://worldex.org
[2] https://h3geo.org
[3] https://github.com/worldbank/worldex
#opendata #data #search #datasearch #datacatalogs #dataviz #geodata
Кодирование через хексагоны стало популярным относительно недавно, авторы используют библиотеку H3 [2] от Uber.
Подход любопытный, благо в Dateno у нас миллионы датасетов с геоданными и было бы любопытно разметить их по хексагонам. Очень любопытно.
Сам проект worldex с открытым кодом [3], хранят данные в PostGIS и Elasticsearch.
Жаль не удалось найти код конвейеров данных по геокодированию в H3, но и без него такое можно повторить.
Ссылки:
[1] https://worldex.org
[2] https://h3geo.org
[3] https://github.com/worldbank/worldex
#opendata #data #search #datasearch #datacatalogs #dataviz #geodata
Forwarded from Open Data Armenia
Для тех кто ищет данные об Армении в мире, обновился поисковый индекс проекта Dateno [1] и теперь он включает более 25 тысяч наборов данных о стране, большая часть данных это статистические индикаторы Всемирного банка, ВТО, Банка международных расчётов и других. А также иные статистические показатели и геоданные.
Ещё можно найти немало датасетов с упоминанием Еревана [2] как крупнейшего города страны
А также тысячи наборов данных доступны при поиске по слову Armenia [3], но иногда возникают пересечения с одноимённым городом в Колумбии [4]🇨🇴
Dateno доступен через веб интерфейс и через API, получить ключ можно после регистрации и проверить его с помощью утилиты командной строки [5].
P.S. Основатели Open Data Armenia также являются основателями Dateno, данные по Армении можно будет использовать на хакатонах по открытым данным, а самые интересные датасеты мы будем копировать на портал открытых данных Open Data Armenia.
Ссылки:
[1] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Armenia
[2] https://dateno.io/search?query=Yerevan
[3] https://dateno.io/search?query=Armenia
[4] https://en.wikipedia.org/wiki/Armenia,_Colombia
[5] https://github.com/datenoio/datenocmd
#opendata #data #armenia #datasearch
Ещё можно найти немало датасетов с упоминанием Еревана [2] как крупнейшего города страны
А также тысячи наборов данных доступны при поиске по слову Armenia [3], но иногда возникают пересечения с одноимённым городом в Колумбии [4]🇨🇴
Dateno доступен через веб интерфейс и через API, получить ключ можно после регистрации и проверить его с помощью утилиты командной строки [5].
P.S. Основатели Open Data Armenia также являются основателями Dateno, данные по Армении можно будет использовать на хакатонах по открытым данным, а самые интересные датасеты мы будем копировать на портал открытых данных Open Data Armenia.
Ссылки:
[1] https://dateno.io/search?refinementList%5Bsource.countries.name%5D%5B0%5D=Armenia
[2] https://dateno.io/search?query=Yerevan
[3] https://dateno.io/search?query=Armenia
[4] https://en.wikipedia.org/wiki/Armenia,_Colombia
[5] https://github.com/datenoio/datenocmd
#opendata #data #armenia #datasearch
В рубрике крупнейших наборов данных в мире GenBank [1] база геномной информации о человеке от Национального центра биотехнологической информации США. В общей сложности размер последней 263 версии базы GenBank составляет около 6.4 ТБ первичных данных и около 2.7 ТБ данных закодированных по ASN.1 [2]. Все эти данные доступны на сайте через веб интерфейс и для скачивания через FTP сервер.
В общей сложности база GenBank включает 5.13 миллиардов записей и 36.5 триллионов атрибутов/значений.
Много ли это? Да, безусловно это большие данные требующие существенных ресурсов для их обработки и анализа. И в мире геномной информации это далеко не единственный крупный архив данных.
Если сравнить его с открытыми данными публикуемыми на госпорталах открытых данных, то GenBank будет больше их всех вместе взятых, за исключением порталов с геоданными.
Ссылки:
[1] https://www.ncbi.nlm.nih.gov/genbank/
[2] https://ncbiinsights.ncbi.nlm.nih.gov/2024/10/24/genbank-release-263/
#opendata #datasets #openaccess #genetics
В общей сложности база GenBank включает 5.13 миллиардов записей и 36.5 триллионов атрибутов/значений.
Много ли это? Да, безусловно это большие данные требующие существенных ресурсов для их обработки и анализа. И в мире геномной информации это далеко не единственный крупный архив данных.
Если сравнить его с открытыми данными публикуемыми на госпорталах открытых данных, то GenBank будет больше их всех вместе взятых, за исключением порталов с геоданными.
Ссылки:
[1] https://www.ncbi.nlm.nih.gov/genbank/
[2] https://ncbiinsights.ncbi.nlm.nih.gov/2024/10/24/genbank-release-263/
#opendata #datasets #openaccess #genetics
Подборка ссылок про данные, технологии и не только:
- OpenSeaMap [1] аналог OpenStreetMap для морей, открытая краудсорсинговая карта морей и морской инфраструктуры. Нигде не видел сравнений масштабов проекта с коммерческими, но может быть есть шанс повторить судьбу OSM ?
- Data Formulator [2] инструмент по автоматизации визуализации данных с помощью ИИ. Создан исследователями из Microsoft в рамках научной работы. Впервые опубликовали в январе 2024, а в октябре добавили возможность запускать его локально
- 30DayMapChallenge [3] глобальный конкурс для GIS специалистов с ежедневными задачками по визуализации геоданных. В этот раз задачки на ноябрь 2024. Для тех кто хочет показать что умеет визуализировать данные - это очень хороший конкурс чтобы показать себе и другим уровень своих навыков.
- A Business Analyst’s Introduction to Business Analytics [4] книга по бизнес аналитике в открытом доступе. Все примеры на языке R, для тех кто интересуется первым и знает второе - самое оно.
- First aid for figures [5] добротная подборка ресурсов о том как учёным лучше оформлять их работы, научные иконки для замены текстов, оформление таблиц, оформление изображений и тд.
- Chart.css [6] один из самых простых инструментов рисования графиков с помощью элементов HTML и CSS стилей. Поддерживает много видов графиков, очень просто настраивается и очень легковесен.
- A vision for public sector data in Scotland [7] в Шотландии моделируют стратегию региона по работе с госданными. Для этого там создали группу экспертов из 30 человек и под названием Horizon Scan Group после чего те разработали вот такой документ долгосрочного видения
- Using Rust in Non-Rust Servers to Improve Performance [8] большой гайд о том как оптимизировать выполнение задач с помощью Rust для проектов не на Rust. Ваш код медленно работает? Так его можно переписать на Rust, во много как альтернатива переписывания его на C++.
Ссылки:
[1] http://openseamap.org
[2] https://github.com/microsoft/data-formulator
[3] https://30daymapchallenge.com/
[4] https://www.causact.com/
[5] https://helenajamborwrites.netlify.app/posts/24-10_linkcollection/
[6] https://chartscss.org/
[7] https://community.thedatalab.com/news/2187703
[8] https://github.com/pretzelhammer/rust-blog/blob/master/posts/rust-in-non-rust-servers.md
#opensource #gis #dataviz #opendata
- OpenSeaMap [1] аналог OpenStreetMap для морей, открытая краудсорсинговая карта морей и морской инфраструктуры. Нигде не видел сравнений масштабов проекта с коммерческими, но может быть есть шанс повторить судьбу OSM ?
- Data Formulator [2] инструмент по автоматизации визуализации данных с помощью ИИ. Создан исследователями из Microsoft в рамках научной работы. Впервые опубликовали в январе 2024, а в октябре добавили возможность запускать его локально
- 30DayMapChallenge [3] глобальный конкурс для GIS специалистов с ежедневными задачками по визуализации геоданных. В этот раз задачки на ноябрь 2024. Для тех кто хочет показать что умеет визуализировать данные - это очень хороший конкурс чтобы показать себе и другим уровень своих навыков.
- A Business Analyst’s Introduction to Business Analytics [4] книга по бизнес аналитике в открытом доступе. Все примеры на языке R, для тех кто интересуется первым и знает второе - самое оно.
- First aid for figures [5] добротная подборка ресурсов о том как учёным лучше оформлять их работы, научные иконки для замены текстов, оформление таблиц, оформление изображений и тд.
- Chart.css [6] один из самых простых инструментов рисования графиков с помощью элементов HTML и CSS стилей. Поддерживает много видов графиков, очень просто настраивается и очень легковесен.
- A vision for public sector data in Scotland [7] в Шотландии моделируют стратегию региона по работе с госданными. Для этого там создали группу экспертов из 30 человек и под названием Horizon Scan Group после чего те разработали вот такой документ долгосрочного видения
- Using Rust in Non-Rust Servers to Improve Performance [8] большой гайд о том как оптимизировать выполнение задач с помощью Rust для проектов не на Rust. Ваш код медленно работает? Так его можно переписать на Rust, во много как альтернатива переписывания его на C++.
Ссылки:
[1] http://openseamap.org
[2] https://github.com/microsoft/data-formulator
[3] https://30daymapchallenge.com/
[4] https://www.causact.com/
[5] https://helenajamborwrites.netlify.app/posts/24-10_linkcollection/
[6] https://chartscss.org/
[7] https://community.thedatalab.com/news/2187703
[8] https://github.com/pretzelhammer/rust-blog/blob/master/posts/rust-in-non-rust-servers.md
#opensource #gis #dataviz #opendata
В рубрике больших интересных наборов данных Annual National Land Cover Database (NLCD) [1] датасет с измерениями покрытия почвы в США с 1985 по 2023 годы, почти 40 лет.
Распространяется в виде GeoJSON, GeoTIF, SHP файлов и с помощью разных инструментов выгрузки и онлайн доступа.
В общей сложности это десятки гигабайт геоданных.
Ранее этот датасет охватывал только период 2001-2021 годов с шагом в 3 года, а теперь охватывает 38 лет с шагом в один год.
Для любых практических исследований в области сельского хозяйства и изменения климата - это бесценный датасет. Жаль лишь что он не охватывает весь мир, а только одну страну.
Ссылки:
[1] https://www.usgs.gov/news/national-news-release/usgs-releases-new-products-map-four-decades-land-cover-change
#opendata #datasets #geodata
Распространяется в виде GeoJSON, GeoTIF, SHP файлов и с помощью разных инструментов выгрузки и онлайн доступа.
В общей сложности это десятки гигабайт геоданных.
Ранее этот датасет охватывал только период 2001-2021 годов с шагом в 3 года, а теперь охватывает 38 лет с шагом в один год.
Для любых практических исследований в области сельского хозяйства и изменения климата - это бесценный датасет. Жаль лишь что он не охватывает весь мир, а только одну страну.
Ссылки:
[1] https://www.usgs.gov/news/national-news-release/usgs-releases-new-products-map-four-decades-land-cover-change
#opendata #datasets #geodata
В поиска крипто-датасетов по блокчейну, биткоину, Ethereum и тд. Вот наглядный пример поиска в Google Dataset Search, в Perplexity, в AI помощнике Quora и в Dateno при поиске по слову "Ethereum".
ИИ помощники выдают неплохие результаты, но очень ограниченные основными первоисточниками. Google Dataset Search выдаёт разное, делая акцент на Kaggle и свои продукты, но сразу после первой страницы идут разного рода коммерческие и недоступные источники.
В Dateno сейчас всего 34 результата по слову "Ethereum" и часть ссылок уже не работает, удалены в первоисточнике.
Это один из примеров запросов и тем где требуется больше усилий чем просто собрать метаданные откуда попало.
Я на днях анализировал почему датасетов по крипте в Dateno мало и следующие выводы:
1. Открытые датасеты по крипте чаще всего большие и чаще встречаются в каталогах данных для машинного обучения. Их будет сильно больше после индексирования Kaggle, Hugging Face и др.
2. Многие крипто данные доступны только как открытые и коммерческие API, надо индексировать их описание.
3. Криптодатасеты есть в маркетплейсах данных Amazon, Google BigQuery, Azure и тд. Там не так много датасетов всего, но объёмы датасетов и востребованность велики.
Собирать данные по криптодатасетам не похоже на многие другие, но мы вскоре начнём их загружать в Dateno.
#opendata #crypto #cryptodata
ИИ помощники выдают неплохие результаты, но очень ограниченные основными первоисточниками. Google Dataset Search выдаёт разное, делая акцент на Kaggle и свои продукты, но сразу после первой страницы идут разного рода коммерческие и недоступные источники.
В Dateno сейчас всего 34 результата по слову "Ethereum" и часть ссылок уже не работает, удалены в первоисточнике.
Это один из примеров запросов и тем где требуется больше усилий чем просто собрать метаданные откуда попало.
Я на днях анализировал почему датасетов по крипте в Dateno мало и следующие выводы:
1. Открытые датасеты по крипте чаще всего большие и чаще встречаются в каталогах данных для машинного обучения. Их будет сильно больше после индексирования Kaggle, Hugging Face и др.
2. Многие крипто данные доступны только как открытые и коммерческие API, надо индексировать их описание.
3. Криптодатасеты есть в маркетплейсах данных Amazon, Google BigQuery, Azure и тд. Там не так много датасетов всего, но объёмы датасетов и востребованность велики.
Собирать данные по криптодатасетам не похоже на многие другие, но мы вскоре начнём их загружать в Dateno.
#opendata #crypto #cryptodata
В рубрике закрытых и открытых данных в России
❌ Росстат перестал публиковать ежемесячную статистику по миграции и по общей численности населения России.[1] - об этом пишет демограф Алексей Ракша со ссылками на последние публикации на сайте ведомства. Эти данные никогда не были открытыми в смысле машиночитаемости, но были открыты в форме текста/картинок/таблиц в докладе.
❌ Роскосмосу разрешили продавать снимки ДЗЗ [2] хотя он и раньше их продавал, но теперь может продавать их и госорганам. Это очень противоположная тенденция тому что происходит в мире, там наоборот, в геопространственных проектах ЕС и США всё больше общедоступных спутниковых снимков охватывающих весь мир.
❌ В России приготовились засекретить работу правительства в случае военного положения [3] Минюст РФ предложил закрывать часть общедоступных сведений об органах власти в случае военного положения. Ну, хотя бы не предложили интернет отключать, но в остальном без комментариев.
✅ ФНС России опубликовали новый набор открытых данных, сведения о специальных налоговых режимах [4]. На сегодняшний день это чуть ли не единственный российский ФОИВ публикующий регулярно и обновляющий осмысленные наборы данных.
Ссылки:
[1] https://t.me/RakshaDemography/3911
[2] https://www.pnp.ru/social/a-iz-nashego-okna-zemlya-v-illyuminatore-vidna.html
[3] https://www.moscowtimes.ru/2024/10/22/yuzhnaya-koreya-zadumalas-opostavkah-letalnogo-vooruzheniya-ukraine-iz-za-privlecheniya-rossiei-soldat-kndr-a145553
[4] https://t.me/nalog_gov_ru/1529
#opendata #closeddata #russia
Ссылки:
[1] https://t.me/RakshaDemography/3911
[2] https://www.pnp.ru/social/a-iz-nashego-okna-zemlya-v-illyuminatore-vidna.html
[3] https://www.moscowtimes.ru/2024/10/22/yuzhnaya-koreya-zadumalas-opostavkah-letalnogo-vooruzheniya-ukraine-iz-za-privlecheniya-rossiei-soldat-kndr-a145553
[4] https://t.me/nalog_gov_ru/1529
#opendata #closeddata #russia
Please open Telegram to view this post
VIEW IN TELEGRAM
Написал краткий обзор новых возможностей [1] в Dateno, включая открытую статистику, расширенный поисковый индексы, фасеты и API.
Лонгриды буду и далее разворачивать на Substack на русском языке, а на английском языке на Medium [2]
Ссылки:
[1] https://open.substack.com/pub/begtin/p/dateno?r=7f8e7&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true
[2] https://medium.com/@ibegtin/just-recently-we-updated-our-dateno-dataset-search-dateno-io-065276450829
#opendata #datasearch #dateno #datadiscovery
Лонгриды буду и далее разворачивать на Substack на русском языке, а на английском языке на Medium [2]
Ссылки:
[1] https://open.substack.com/pub/begtin/p/dateno?r=7f8e7&utm_campaign=post&utm_medium=web&showWelcomeOnShare=true
[2] https://medium.com/@ibegtin/just-recently-we-updated-our-dateno-dataset-search-dateno-io-065276450829
#opendata #datasearch #dateno #datadiscovery
Ivan’s Begtin Newsletter on digital, open and preserved government
Обновления в Dateno
Статистика, API, новые фасеты и ещё больше данных.