Ivan Begtin
8.09K subscribers
1.61K photos
3 videos
100 files
4.33K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Продолжу рассказывать про новые каталоги данных в реестре Common Data Index и тому какие данные и где доступны. Сейчас в реестре [1] уже 2304 портала/каталога данных из которых:
- 1086 порталы открытых данных
- 670 геопорталов/геокаталогов
- 342 репозитория научных открытых данных
- 85 каталогов с индикаторами
- 66 каталогов микроданных (переписи, соцопросы)
- 24 сайта со списками наборов данных (в реальности их тысячи, отбираются только самые крупные),
- 12 каталогов данных для машинного обучения
- 7 каталогов API
- 7 поисковых систем по данным
- 5 маркетплейсов с данными

Ещё около 700 порталов в ожидании добавления и ещё около 500-1000 в списках собранных другими и ещё какое-то большое число не найденных ещё .
В добавление к прошлым публикациям о том что удаётся найти, вот ещё несколько мыслей про научные порталы с данными:
1. Более 92 университетских порталов публикации научных результатов на базе Elsevier Pure включают разделы с открытыми данными. Это не так много количественно как Zenodo или SciDb, но уже заметно. В общей сложности там десятки тысяч наборов данных.
2. Университетских порталов на базе Figshare меньше, но многие исследователи сами публикуют данные на этой платформе, поэтому там в общей сложности собрано уже более 1 миллиона наборов данных.
3. Figshare и Elsevier два основных конкурента в этой области и оба конкурируют с бесплатными открытыми репозиториями и тем что университеты разворачивают открытые продукты вроде Dataverse или InvenioRDM. Также у многих университетов остаются ранее используемые системы публикаций на базе DSpace или EPrints в которых изначально публиковались только статьи, но с той поры некоторые стали туда добавлять и датасеты.
4. Есть прямая корреляция между "живостью" науки и открытыми данными. Во всех странах где научная работа ведётся активно есть масштабное раскрытие данных: США, Китай, Европа, Япония, Австралия и тд. Чем далее тем это более заметно. И выбор между тем чтобы создавать свой научный репозиторий или использовать один из глобальных сервисов руководства университетов делают по критериям цены/возможности сбора метрик по публикациям. Собственно измеримость научной деятельности и аутсорс управления инфраструктурой и есть две главных функции у Figshare и Elsevier Pure.


Ссылки:
[1] https://registry.commondata.io

#opendata #datacatalogs #openaccess
Я всё долго искал какие есть альтернативы поиску Google по наборам данных, и так чтобы не на коленках сделанные. И нашёл findata.cn [1] поисковик созданный Computer Network Information Center, Chinese Academy of Sciences, той же структуры что сделала китайский открытый национальный репозиторий научных данных SciDb [2]

Findata.cn также про открытые научные данные, но кроме SciDb агрегирует ещё и Zenodo, DRYAD, GBIF, USGS, IEEEDataPort и множество других.

При этом сам Findata.cn довольно упрощённо позволяет искать с фасетами только по году и источнику.

Всё больше поисковиков агрегаторов по открытым данным, и большая их часть создаются для научной инфраструктуры.

Ссылки:
[1] https://findata.cn
[2] https://www.scidb.cn/en

#opendata #data #datasearch #china #openscience #openaccess
Я регулярно пишу про то как устроена публикация научных данных в мире, напомню о том как она сейчас устроена в России.
В отличие от многих развитых и развивающихся стран в России отсутствует национальный репозиторий/каталог научных данных по аналогии с Zenodo (EU), ScienceDb (China) и многими другими. Впрочем аналогичная ситуация со всеми результатами научных исследований, статьями, диссертациями, конференциями и т.д., отсутствует централизованная система поиска по ним.

В то же время если не у всех, то у многих университетов и исследовательских центров есть порталы научной публикации, как правило они построены на базе DSpace, реже других видах ПО, но почти всегда open source. Ещё реже это какие-то собственные разработки или какие-то отдельные платформы.

Относительно недавно я упоминал 4 таких репозитория [1] в котором есть явное указание на наборы данных. Но, конечно, они не единственные. К системе научного раскрытия данных можно отнести систему ЕСИМО [2], но она относится не к институциональным, а скорее к функциональным системам публикации данных. Наборы данных из ЕСИМО плохо индексируются поисковиками, у них отсутствуют уникальные идентификаторы типа handle или DOI, даже просто прямые пермалинки отсутствуют.

В то же время, часть научных наборов данных рассеяны и не систематизированы по каталогам публикаций университетов, всё те же инсталляции DSpace,

Например, есть вот такой набор данных в репозитории СПбГУ [3] или вот такой [4], их можно найти вперемешку со статьями с ключевым словом "Dataset" [5], но в отдельную коллекцию или фильтр они не выделены. При том что внутри системы они достаточно чётко классифицированы по типу "dc:dataset", но фильтр по типу контента в этом репозитории не выставлен поэтому одним кликом их не отфильтровать. Надо выгружать все меданные с портала и искать уже по ним.

А иногда и даже тип контента указан недостаточно. К примеру, публикация в Электронном архиве УГЛТУ [6] включает данные в Excel файле, но тип её "Book" или же публикации данных Тихоокеанского океанологического института им. В.И. Ильичева выделены в специальную коллекцию Research data [7], но сами публикации имеют тип "Article".

Всё это о том что, по факту, скрытый пласт публикуемых научных данных в России далеко не нулевой, но из-за того что нет систематизации их публикации, то и находить их сложно. Фактически, делать это можно более-менее точно лишь по типам публикуемых файлов относящихся к данным.

В мире такой методической работой по публикации научных данных занимаются, или местные академии наук (Китай), или правительства/министерства науки (ЕС, Аргентина, США и др) и организации вроде Research Data Alliance в части систематизации метаданных и разработки стандартов.

И это же, кстати, то что можно отнести к базовой цифровой научной инфраструктуре. Когда, де факто, государства напрямую или через субсидии научным институтам создают инфраструктуру распространения научных знаний, упрощая учёным популяризацию их работ и облегчая доступ к данным сделанных другими.

Ссылки:
[1] https://t.me/begtin/4912
[2] http://portal.esimo.ru/portal/
[3] https://dspace.spbu.ru/handle/11701/19623
[4] https://dspace.spbu.ru/handle/11701/17279
[5] https://dspace.spbu.ru/simple-search?query=Dataset+
[6] https://elar.usfeu.ru/handle/123456789/3059?locale=en
[7] https://data.poi.dvo.ru:8443/jspui/handle/123456789/13

#opendata #openresearch #openaccess #russia #datasets
В рубрике как это работает у них польская платформа для медицинских исследований PPMR [1] включает множество открытых реестров публикаций, тезисов, исследователей, лабораторий, исследовательских подразделений, патентов, инфраструктуры и, конечно же, исследовательских данных коих там 407 наборов данных. Предоставляют API на базе REST API, GraphQL и OAI-PMH. Работает на базе ПО Omega-PSIR [2] разработанного Варшавским университетом и используемое более чем 40 научными институтами в Польше. Например, тем же Варшавским университетом [3].

Ссылки:
[1] https://ppm.edu.pl
[2] https://www.omegapsir.io/
[3] https://repo.pw.edu.pl

#opendata #datasets #openaccess #openresearch #poland
К вопросу о каталогах научных данных, я писал про многие инициативы, а про одну всё не упоминал. В научной среде существуют продукты которые называются CRIS (Current Research Information System) которые также называют RIMS (Research Information Management System) [1].

В отличие от систем публикации статей или каталогов научных данных эти системы создаются для учёта всей научной деятельности научной организации/отрасли (научной дисциплины) или страны. Например, в CRIS вносятся данные по исследовательским центрам, исследователям, научным публикациям, данным, лабораториям, оборудованиям и так далее.

Такие системы могут быть как внутренними, так и открытыми. В последние годы эти системы почти все являются открытыми, или по большей части открытыми, но есть они далеко не у всех исследовательских центров и университетов, но их становится всё больше. Большая их часть создаётся на базе примерно десятка коммерческих продуктов и некоторого числа продуктов с открытым кодом.

Для университетов у которых есть такие системы, публикация данных является частью таких систем.

Реестр таких систем ведёт НКО euroCRIS [2] существующая при поддержке Евросоюза, этот реестр называется DRIS [3], там 1387 репозиториев по всему миру, большая часть из которых находятся в Индии и Норвегии, но, в принципе, рассеяны по всему миру.

Данные из систем CRIS собираются в глобальные агрегаторы такие как OpenAIRE, для чего разработан стандарт CERIF [4] для описания метаданных и для их предоставления через REST API, а у OpenAIRE есть ещё и подробное руководство для работы CRIS систем [5].

Большая часть CRIS систем - это университетские системы, но есть и крупные национальные CRIS системы в: Австралии, Испании, Финляндии и многих других странах. В реестре DRIS упомянуто 24 такие системы национального уровня, о каждой из них можно рассказывать долго и по отдельности.

Так вот CRIS системы можно также рассматривать как каталоги открытых научных данных, с оговоркой что данные там не приоритет, а скорее сопутствующий результат, а основное - это функции предоставления информации о всех результатах и инструментах исследований.

И, напоследок, можно посмотреть как это устроено на примерах националных CRIS систем, в Бразилии BrCRIS [6], в Словакии [7], в Латвии [8], в Норвегии [9].

Ссылки:
[1] https://en.wikipedia.org/wiki/Current_research_information_system
[2] https://eurocris.org/
[3] https://dspacecris.eurocris.org/cris/explore/dris
[4] https://eurocris.org/services/main-features-cerif
[5] https://guidelines.openaire.eu/en/latest/cris/index.html
[6] https://brcris.ibict.br
[7] https://www.skcris.sk/portal/
[8] https://sciencelatvia.lv
[9] https://www.cristin.no/

#openaccess #openresearch #opendata #research
В рубрике как это работает у них о публикации открытых научных данных в Финляндии. В Финляндии Министерство образования и культуры создало и поддерживает портал Fairdata.fi [1] для распространения подхода принципов FAIR при публикации научных данных [2].

Помимо руководств и обучения инициатива включает 5 проектов помогающих исследователям:
- IDA Research Data Storage
- Etsin Research Dataset Finder
- Qvain Research Dataset Description Tool
- Digital Preservation Service for Research Data
- AVAA Open Data Publishing Platform

Например, система Etsin позволяет искать по более чем 5 тысячам наборам данных и размещать там свои наборы. А в системе AVAA доступны каталоги геоданных.

Кроме всего прочего данные из Etsin доступны на иследовательском портале страны Research.fi [3]. В свою очередь Research.fi был создан в 2020 году как CRIS (Current Research Information System) страны и включает, как открытые научные данные, так и базу публикаций, исследователей, исследовательских центров.

Ссылки:
[1] https://www.fairdata.fi/en/
[2] https://www.go-fair.org/fair-principles/
[3] https://research.fi/en/results/datasets

#finland #research #openaccess #opendata #openscience
Одна из крупнейших и малоизвестных поисковых систем по научным публикациям это BASE [1], проект немецкого Bielefeld University в котором собрано более 338 миллионов научных публикаций из более чем 11 тысяч источников.

В том числе в поисковом индексе BASE есть более 18.5 миллионов записей с исследовательскими данными, большая их часть, конечно, из систем выдачи DOI таких как Datacite и Crossref.

У проекта есть REST API и интерфейс доступа по протоколу OAI-PMH,

Ссылки:
[1] https://www.base-search.net

#opendata #openaccess #openscience #researchdata #datasearch
Возвращаюсь из недельной командировки совмещённой с отпуском, надеюсь что читатели не заскучали по материалам про данные. И сразу же интересный свежий доклад The State of Open Data 2023 [1] от команды Digital Science, стартапа/компании предоставляющих Figshare и другие порталы и сервисы для открытой инфраструктуры для научных публикаций.

Доклад не про то что вы можете подумать публикуется на порталах открытых данных, а про то как исследователи публикуют свои данные. В каких дисциплинах чаще, с какой мотивацией, что они об этом думают, помогают ли им и так далее. Тем кто хочет знать как развивается открытость науки в головах исследователей - это полезный документ. Он составлен через опросы как и большая часть докладов жанра "The State of ...", и главный вывод который можно сделать в том что открытость данных в науке - это долговременный постепенно развивающийся и не останавливающийся тренд.

Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2023/24428194

#opendata #openaccess #research #science
В рубрике как это устроено у них центры научных данных и другие проекты распространения научных данных Китайской республики.

Центры научных данных
- National Basic Sciences Public Science Data Center [1] - центр данных по базовым дисциплинам: физика, химия, астрономия, биология и т.д.
- National Marine Science Data Center [2] - центр данных о море и водных объектах
- National Earthquake Science Data Center [3] - центр данных о землетрясениям
- National Meteorological Science Data Center [4] - центр данных по метеорологии
- National Forestry and Grassland Science Data Center [5] - центр данных о лесе и зеленых насаждениях
- National Agricultural Science Data Center [6] - центр данных о сельском хозяйстве
- National Population Health Science Data Center [7] - центр данных о здоровье граждан
- National Metrological Science Data Center [8] - центр данных по метрологии
- National Cryosphere Desert Data Center [9] - центр данных о засушливых и холодных территориях

Другие ресурсы
- CSDB [10] центр научных данных академии наук Китая. Действует с 1987 года, включает более 45 тысяч наборов данных
- Science Data Bank [11] портал для публикации данных исследователями Китая. Интегрирован с большинством поисковых систем, сервисов цитирования и иными глобальными сервисами открытой науки
- CSData [12] научный журнал посвящённый доступности научных данных Китая и для китайских исследователей
- FinData [13] поисковик по научным данным Китая и данным используемых китайскими исследователями

Не все из научных порталов данных предоставляют открытые данные, через многие доступны данные только по запросу или авторизации, в некоторых случаях существуют градации режимов доступа, в ряде случаев есть требования/рекомендации поделиться Вашими исследованиями на этих данных. Однако широко распространены свободные лицензии и большая часть данных общедоступны и не требуют никаких усилий кроме как скачать их напрямую и знать китайский язык.

Ссылки:
[1] http://www.nsdata.cn
[2] http://mds.nmdis.org.cn
[3] https://data.earthquake.cn
[4] http://data.cma.cn/en
[5] http://www.forestdata.cn
[6] http://www.agridata.cn
[7] http://www.geodata.cn
[8] https://www.nms.org.cn
[9] http://www.ncdc.ac.cn/portal/?lang=en
[10] https://www.casdc.cn
[11] https://www.scidb.cn/en
[12] http://www.csdata.org/en/
[13] https://findata.cn

#opendata #datasets #china #datacatalogs #openaccess #openresearch
В рубрике как это работает у них о том как публикация данных для обучения ИИ и медицинских исследований в США. На портале CDC Data Platform от National Cancer Institute опубликовано более миллиона изображений объёмом более чем 6.7 Петабайт [1] их которых 20 Терабайт (около 30% по числу файлов) являются полностью открытыми, а остальные в режиме регламентированного доступа, предоставляются по запросу после авторизации. Для доступа используется специальное ПО для выгрузки данных. У портала с данными есть открытое API и открытый код [2].

В целом это один из наиболее крупных порталов научных данных, из его особенностей это то что он имеет предметную, а не общетематическую природу и набором данных на нём называется "коллекция" (collection) случаев (case) включающая множество файлов изображений. Это особенность научных порталов в том что для превращения в порталы открытых данных или просто порталы данных в нём имеющиеся тематические понятия приводятся к понятиям набора данных.

Ссылки:
[1] https://portal.gdc.cancer.gov/repository?facetTab=files&files_sort=%5B%7B%22field%22%3A%22file_size%22%2C%22order%22%3A%22desc%22%7D%5D&searchTableTab=files
[2] https://github.com/NCI-GDC/gdc-docs

#opendata #datasets #genomics #cancer #openaccess #data #usa