Ivan Begtin
8.03K subscribers
1.73K photos
3 videos
101 files
4.43K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
К вопросу о каталогах научных данных, я писал про многие инициативы, а про одну всё не упоминал. В научной среде существуют продукты которые называются CRIS (Current Research Information System) которые также называют RIMS (Research Information Management System) [1].

В отличие от систем публикации статей или каталогов научных данных эти системы создаются для учёта всей научной деятельности научной организации/отрасли (научной дисциплины) или страны. Например, в CRIS вносятся данные по исследовательским центрам, исследователям, научным публикациям, данным, лабораториям, оборудованиям и так далее.

Такие системы могут быть как внутренними, так и открытыми. В последние годы эти системы почти все являются открытыми, или по большей части открытыми, но есть они далеко не у всех исследовательских центров и университетов, но их становится всё больше. Большая их часть создаётся на базе примерно десятка коммерческих продуктов и некоторого числа продуктов с открытым кодом.

Для университетов у которых есть такие системы, публикация данных является частью таких систем.

Реестр таких систем ведёт НКО euroCRIS [2] существующая при поддержке Евросоюза, этот реестр называется DRIS [3], там 1387 репозиториев по всему миру, большая часть из которых находятся в Индии и Норвегии, но, в принципе, рассеяны по всему миру.

Данные из систем CRIS собираются в глобальные агрегаторы такие как OpenAIRE, для чего разработан стандарт CERIF [4] для описания метаданных и для их предоставления через REST API, а у OpenAIRE есть ещё и подробное руководство для работы CRIS систем [5].

Большая часть CRIS систем - это университетские системы, но есть и крупные национальные CRIS системы в: Австралии, Испании, Финляндии и многих других странах. В реестре DRIS упомянуто 24 такие системы национального уровня, о каждой из них можно рассказывать долго и по отдельности.

Так вот CRIS системы можно также рассматривать как каталоги открытых научных данных, с оговоркой что данные там не приоритет, а скорее сопутствующий результат, а основное - это функции предоставления информации о всех результатах и инструментах исследований.

И, напоследок, можно посмотреть как это устроено на примерах националных CRIS систем, в Бразилии BrCRIS [6], в Словакии [7], в Латвии [8], в Норвегии [9].

Ссылки:
[1] https://en.wikipedia.org/wiki/Current_research_information_system
[2] https://eurocris.org/
[3] https://dspacecris.eurocris.org/cris/explore/dris
[4] https://eurocris.org/services/main-features-cerif
[5] https://guidelines.openaire.eu/en/latest/cris/index.html
[6] https://brcris.ibict.br
[7] https://www.skcris.sk/portal/
[8] https://sciencelatvia.lv
[9] https://www.cristin.no/

#openaccess #openresearch #opendata #research
В рубрике как это работает у них о публикации открытых научных данных в Финляндии. В Финляндии Министерство образования и культуры создало и поддерживает портал Fairdata.fi [1] для распространения подхода принципов FAIR при публикации научных данных [2].

Помимо руководств и обучения инициатива включает 5 проектов помогающих исследователям:
- IDA Research Data Storage
- Etsin Research Dataset Finder
- Qvain Research Dataset Description Tool
- Digital Preservation Service for Research Data
- AVAA Open Data Publishing Platform

Например, система Etsin позволяет искать по более чем 5 тысячам наборам данных и размещать там свои наборы. А в системе AVAA доступны каталоги геоданных.

Кроме всего прочего данные из Etsin доступны на иследовательском портале страны Research.fi [3]. В свою очередь Research.fi был создан в 2020 году как CRIS (Current Research Information System) страны и включает, как открытые научные данные, так и базу публикаций, исследователей, исследовательских центров.

Ссылки:
[1] https://www.fairdata.fi/en/
[2] https://www.go-fair.org/fair-principles/
[3] https://research.fi/en/results/datasets

#finland #research #openaccess #opendata #openscience
Одна из крупнейших и малоизвестных поисковых систем по научным публикациям это BASE [1], проект немецкого Bielefeld University в котором собрано более 338 миллионов научных публикаций из более чем 11 тысяч источников.

В том числе в поисковом индексе BASE есть более 18.5 миллионов записей с исследовательскими данными, большая их часть, конечно, из систем выдачи DOI таких как Datacite и Crossref.

У проекта есть REST API и интерфейс доступа по протоколу OAI-PMH,

Ссылки:
[1] https://www.base-search.net

#opendata #openaccess #openscience #researchdata #datasearch
Возвращаюсь из недельной командировки совмещённой с отпуском, надеюсь что читатели не заскучали по материалам про данные. И сразу же интересный свежий доклад The State of Open Data 2023 [1] от команды Digital Science, стартапа/компании предоставляющих Figshare и другие порталы и сервисы для открытой инфраструктуры для научных публикаций.

Доклад не про то что вы можете подумать публикуется на порталах открытых данных, а про то как исследователи публикуют свои данные. В каких дисциплинах чаще, с какой мотивацией, что они об этом думают, помогают ли им и так далее. Тем кто хочет знать как развивается открытость науки в головах исследователей - это полезный документ. Он составлен через опросы как и большая часть докладов жанра "The State of ...", и главный вывод который можно сделать в том что открытость данных в науке - это долговременный постепенно развивающийся и не останавливающийся тренд.

Ссылки:
[1] https://digitalscience.figshare.com/articles/report/The_State_of_Open_Data_2023/24428194

#opendata #openaccess #research #science
В рубрике как это устроено у них центры научных данных и другие проекты распространения научных данных Китайской республики.

Центры научных данных
- National Basic Sciences Public Science Data Center [1] - центр данных по базовым дисциплинам: физика, химия, астрономия, биология и т.д.
- National Marine Science Data Center [2] - центр данных о море и водных объектах
- National Earthquake Science Data Center [3] - центр данных о землетрясениям
- National Meteorological Science Data Center [4] - центр данных по метеорологии
- National Forestry and Grassland Science Data Center [5] - центр данных о лесе и зеленых насаждениях
- National Agricultural Science Data Center [6] - центр данных о сельском хозяйстве
- National Population Health Science Data Center [7] - центр данных о здоровье граждан
- National Metrological Science Data Center [8] - центр данных по метрологии
- National Cryosphere Desert Data Center [9] - центр данных о засушливых и холодных территориях

Другие ресурсы
- CSDB [10] центр научных данных академии наук Китая. Действует с 1987 года, включает более 45 тысяч наборов данных
- Science Data Bank [11] портал для публикации данных исследователями Китая. Интегрирован с большинством поисковых систем, сервисов цитирования и иными глобальными сервисами открытой науки
- CSData [12] научный журнал посвящённый доступности научных данных Китая и для китайских исследователей
- FinData [13] поисковик по научным данным Китая и данным используемых китайскими исследователями

Не все из научных порталов данных предоставляют открытые данные, через многие доступны данные только по запросу или авторизации, в некоторых случаях существуют градации режимов доступа, в ряде случаев есть требования/рекомендации поделиться Вашими исследованиями на этих данных. Однако широко распространены свободные лицензии и большая часть данных общедоступны и не требуют никаких усилий кроме как скачать их напрямую и знать китайский язык.

Ссылки:
[1] http://www.nsdata.cn
[2] http://mds.nmdis.org.cn
[3] https://data.earthquake.cn
[4] http://data.cma.cn/en
[5] http://www.forestdata.cn
[6] http://www.agridata.cn
[7] http://www.geodata.cn
[8] https://www.nms.org.cn
[9] http://www.ncdc.ac.cn/portal/?lang=en
[10] https://www.casdc.cn
[11] https://www.scidb.cn/en
[12] http://www.csdata.org/en/
[13] https://findata.cn

#opendata #datasets #china #datacatalogs #openaccess #openresearch
В рубрике как это работает у них о том как публикация данных для обучения ИИ и медицинских исследований в США. На портале CDC Data Platform от National Cancer Institute опубликовано более миллиона изображений объёмом более чем 6.7 Петабайт [1] их которых 20 Терабайт (около 30% по числу файлов) являются полностью открытыми, а остальные в режиме регламентированного доступа, предоставляются по запросу после авторизации. Для доступа используется специальное ПО для выгрузки данных. У портала с данными есть открытое API и открытый код [2].

В целом это один из наиболее крупных порталов научных данных, из его особенностей это то что он имеет предметную, а не общетематическую природу и набором данных на нём называется "коллекция" (collection) случаев (case) включающая множество файлов изображений. Это особенность научных порталов в том что для превращения в порталы открытых данных или просто порталы данных в нём имеющиеся тематические понятия приводятся к понятиям набора данных.

Ссылки:
[1] https://portal.gdc.cancer.gov/repository?facetTab=files&files_sort=%5B%7B%22field%22%3A%22file_size%22%2C%22order%22%3A%22desc%22%7D%5D&searchTableTab=files
[2] https://github.com/NCI-GDC/gdc-docs

#opendata #datasets #genomics #cancer #openaccess #data #usa
В рубрике как это работает у них реестр исследовательской инфраструктуры в Австрии [1]. Всего 2300 объектов среди которых десятки банков данных, порталов данных, научных репозиториев (статей, данных и тд.), тестовых лабораторий, специализированных лабораторий и устройств, обсерваторий и другой инфраструктуры.

Во многих странах такая инфраструктура существует, не во всех это столь тщательно систематизировано.

С точки зрения данных интересен список из 127 научных дата архивов, репозиториев и баз данных.

Из любопытного, по каждому объекту научной инфраструктуры присутствуют:
- условия использования
- ссылки на проводимые проекты
- ссылки на научные публикации с упоминанием.

Ссылки:
[1] https://forschungsinfrastruktur.bmbwf.gv.at/en

#openscience #openaccess #austria
Свежий стандарт по публикации результатов научной деятельности в открытом доступе Cross Domain Interoperability Framework (CDIF): Discovery Module [1] создан в рамках проекта WorldFAIR [2] и охватывает самые разнообразные объекты, но, что важнее, он описывает их публикацию используя schema.org что существенно повышает их находимость для поисковиков, в первую очередь, Google, но не только. Существенная часть стандарта про публикацию наборов данных, с отсылками в другим стандартам, включая DCAT, DataCite, ISO19115, EML, FGDC CSDGM, CERIF и DDI. Странно разве что отсутствие упоминания OAI-PHM. Как бы то ни было, потенциально это новый стандарт, который может быть вскоре одобрен в ЕС.

Ссылки:
[1] https://zenodo.org/records/10252564
[2] https://worldfair-project.eu/2023/12/05/cross-domain-interoperability-framework-cdif-discovery-module-v01-draft-for-public-consultation/

#opendata #datastandards #eu #standards #data #openaccess
Неожиданная новость, Университет Парижа (Сорбонна) с 2024 года отказывается от подписки на проприетарный библиометрический продукт Web of Science и библиометрических продуктов от компании Clarivate в пользу открытого OpenAlex [1].

Это очень хорошая новость для проекта OpenAlex в котором собрано уже более 247 миллионов научных работ [2], а теперь и подключаются ведущие университеты.

А я не могу не напомнить что это одна из крупнейших открытых баз данных научных исследований, доступная в виде полных дампов.

Ссылки:
[1] https://www.sorbonne-universite.fr/en/news/sorbonne-university-unsubscribes-web-science
[2] https://openalex.org/stats

#openaccess #opendata #biblography