Ivan Begtin
7.98K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Четыре ведущих исследовательских организации в Великобритании объявили соглашение которое предлагает серию ясных и практических принципов по работе с исследовательскими данными [1]. Этот договор (конкордат) [2], Concordat on Open Research Data был подписан 28 июля такими организациями как: HEFCE, Research Councils UK, Universities UK, Wellcome Trust.

В договоре даётся определение открытым исследовательским данным данным (Open Research Data): Open research data are those research data that can be freely accessed, used, modified, and shared, provided that there is appropriate acknowledgement if required;

Договор включает следующие 10 принципов. Привожу их без перевода:

Principle #1
Open access to research data is an enabler of high quality research, a facilitator of innovation and safeguards good research practice.

Principle #2
There are sound reasons why the openness of research data may need to be restricted but any restrictions must be justified and justifiable.

Principle #3
Open access to research data carries a significant cost, which should be respected by all parties.

Principle #4
The right of the creators of research data to reasonable first use is recognised.

Principle #5
Use of others’ data should always conform to legal, ethical and regulatory frameworks including appropriate acknowledgement.

Principle #6
Good data management is fundamental to all stages of the research process and should be established at the outset.

Principle #7
Data curation is vital to make data useful for others and for long-term preservation of data

Principle #8
Data supporting publications should be accessible by the publication date and should be in a citeable form.

Principle #9
Support for the development of appropriate data skills is recognised as a responsibility for all stakeholders.

Principle #10
Regular reviews of progress towards open research data should be undertaken.

Что интересно, документ (вступление к нему) подписан Министром университетов и науки Великобритании, однако там подчёркнуто что это _не государственный документ, а соглашение между несколькими равными сторонами_ .

Само соглашение является развитием UK Open Research Data Forum [3], а черновик конкордата был доступен для обсуждения с сентября 2015 года [4].
Теперь я бы ожидал появления этой инициативы на международном уровне.

Из других стран можно выделить Австралию где в ноябре 2014 года публиковался отчёт об открытых исследовательских данных [5], а также в рамках ANDS (Australian National Data Service) [6] существует проекта Research Data Australia [7] где раскрываются результаты исследований созданных за общественные (государственные) средства.

Ссылки:
[1] http://www.rcuk.ac.uk/media/news/160728/
[2] http://www.rcuk.ac.uk/documents/documents/concordatonopenresearchdata-pdf/ (PDF)
[3] https://royalsociety.org/science-events-and-lectures/2014/01/open-data-forum/
[4] http://www.rcuk.ac.uk/research/opendata/
[5] http://www.ands.org.au/working-with-data/articulating-the-value-of-open-data/open-research-data-report
[6] http://www.ands.org.au/
[7] https://researchdata.ands.org.au/


#opendata #opengov #openscience #openresearch #openresearchdata
Для тех кто, возможно, это упустил, Информационная культура @infoculture ведёт много проектов о НКО, для НКО. Среди них такие проекты как:
- Открытые НКО https://openngo.ru большая база сведений о некоммерческих организациях, их бюджетах, контрактах, грантах, субсидиях, бюджетах и так далее
- Данные НКО https://ngodata.ru - портал для публикации данных некоммерческими организациями

И вот открылся ещё один проект - Исследования НКО https://ngo-research.ru, как цикл мероприятий для некоммерческих организаций о том как и почему нужны исследования и как их проводить.

2 мероприятия уже прошло, ещё 2 запланированы на ближайшие дни. На них исследователи расскажут как выявлять и решать реальные проблемы, с чего начинать и так далее. На сайте есть ссылки и регистрация на мероприятия.

#opendata #openresearch #ngo
В рубрике как это устроено у них Единый портал научных данных Республики Корея DataOn [1].

Объединяет систему публикации научных данных и поисковую систему по наборам данных в мире.

Включает более 37 тысяч наборов данных опубликованных корейскими учёными в 14 отраслевых репозиториях и более чем 1.6 миллионов наборов данных из репозиториев научных данных других стран.

Репозиторий был создан в декабре 2018 года и с той поры активно развивается.

Ссылки:
[1] https://dataon.kisti.re.kr/

#opendata #datasets #openaccess #openresearch #datacatalogs #korea
Я регулярно пишу про то как устроена публикация научных данных в мире, напомню о том как она сейчас устроена в России.
В отличие от многих развитых и развивающихся стран в России отсутствует национальный репозиторий/каталог научных данных по аналогии с Zenodo (EU), ScienceDb (China) и многими другими. Впрочем аналогичная ситуация со всеми результатами научных исследований, статьями, диссертациями, конференциями и т.д., отсутствует централизованная система поиска по ним.

В то же время если не у всех, то у многих университетов и исследовательских центров есть порталы научной публикации, как правило они построены на базе DSpace, реже других видах ПО, но почти всегда open source. Ещё реже это какие-то собственные разработки или какие-то отдельные платформы.

Относительно недавно я упоминал 4 таких репозитория [1] в котором есть явное указание на наборы данных. Но, конечно, они не единственные. К системе научного раскрытия данных можно отнести систему ЕСИМО [2], но она относится не к институциональным, а скорее к функциональным системам публикации данных. Наборы данных из ЕСИМО плохо индексируются поисковиками, у них отсутствуют уникальные идентификаторы типа handle или DOI, даже просто прямые пермалинки отсутствуют.

В то же время, часть научных наборов данных рассеяны и не систематизированы по каталогам публикаций университетов, всё те же инсталляции DSpace,

Например, есть вот такой набор данных в репозитории СПбГУ [3] или вот такой [4], их можно найти вперемешку со статьями с ключевым словом "Dataset" [5], но в отдельную коллекцию или фильтр они не выделены. При том что внутри системы они достаточно чётко классифицированы по типу "dc:dataset", но фильтр по типу контента в этом репозитории не выставлен поэтому одним кликом их не отфильтровать. Надо выгружать все меданные с портала и искать уже по ним.

А иногда и даже тип контента указан недостаточно. К примеру, публикация в Электронном архиве УГЛТУ [6] включает данные в Excel файле, но тип её "Book" или же публикации данных Тихоокеанского океанологического института им. В.И. Ильичева выделены в специальную коллекцию Research data [7], но сами публикации имеют тип "Article".

Всё это о том что, по факту, скрытый пласт публикуемых научных данных в России далеко не нулевой, но из-за того что нет систематизации их публикации, то и находить их сложно. Фактически, делать это можно более-менее точно лишь по типам публикуемых файлов относящихся к данным.

В мире такой методической работой по публикации научных данных занимаются, или местные академии наук (Китай), или правительства/министерства науки (ЕС, Аргентина, США и др) и организации вроде Research Data Alliance в части систематизации метаданных и разработки стандартов.

И это же, кстати, то что можно отнести к базовой цифровой научной инфраструктуре. Когда, де факто, государства напрямую или через субсидии научным институтам создают инфраструктуру распространения научных знаний, упрощая учёным популяризацию их работ и облегчая доступ к данным сделанных другими.

Ссылки:
[1] https://t.me/begtin/4912
[2] http://portal.esimo.ru/portal/
[3] https://dspace.spbu.ru/handle/11701/19623
[4] https://dspace.spbu.ru/handle/11701/17279
[5] https://dspace.spbu.ru/simple-search?query=Dataset+
[6] https://elar.usfeu.ru/handle/123456789/3059?locale=en
[7] https://data.poi.dvo.ru:8443/jspui/handle/123456789/13

#opendata #openresearch #openaccess #russia #datasets
В рубрике как это работает у них польская платформа для медицинских исследований PPMR [1] включает множество открытых реестров публикаций, тезисов, исследователей, лабораторий, исследовательских подразделений, патентов, инфраструктуры и, конечно же, исследовательских данных коих там 407 наборов данных. Предоставляют API на базе REST API, GraphQL и OAI-PMH. Работает на базе ПО Omega-PSIR [2] разработанного Варшавским университетом и используемое более чем 40 научными институтами в Польше. Например, тем же Варшавским университетом [3].

Ссылки:
[1] https://ppm.edu.pl
[2] https://www.omegapsir.io/
[3] https://repo.pw.edu.pl

#opendata #datasets #openaccess #openresearch #poland
К вопросу о каталогах научных данных, я писал про многие инициативы, а про одну всё не упоминал. В научной среде существуют продукты которые называются CRIS (Current Research Information System) которые также называют RIMS (Research Information Management System) [1].

В отличие от систем публикации статей или каталогов научных данных эти системы создаются для учёта всей научной деятельности научной организации/отрасли (научной дисциплины) или страны. Например, в CRIS вносятся данные по исследовательским центрам, исследователям, научным публикациям, данным, лабораториям, оборудованиям и так далее.

Такие системы могут быть как внутренними, так и открытыми. В последние годы эти системы почти все являются открытыми, или по большей части открытыми, но есть они далеко не у всех исследовательских центров и университетов, но их становится всё больше. Большая их часть создаётся на базе примерно десятка коммерческих продуктов и некоторого числа продуктов с открытым кодом.

Для университетов у которых есть такие системы, публикация данных является частью таких систем.

Реестр таких систем ведёт НКО euroCRIS [2] существующая при поддержке Евросоюза, этот реестр называется DRIS [3], там 1387 репозиториев по всему миру, большая часть из которых находятся в Индии и Норвегии, но, в принципе, рассеяны по всему миру.

Данные из систем CRIS собираются в глобальные агрегаторы такие как OpenAIRE, для чего разработан стандарт CERIF [4] для описания метаданных и для их предоставления через REST API, а у OpenAIRE есть ещё и подробное руководство для работы CRIS систем [5].

Большая часть CRIS систем - это университетские системы, но есть и крупные национальные CRIS системы в: Австралии, Испании, Финляндии и многих других странах. В реестре DRIS упомянуто 24 такие системы национального уровня, о каждой из них можно рассказывать долго и по отдельности.

Так вот CRIS системы можно также рассматривать как каталоги открытых научных данных, с оговоркой что данные там не приоритет, а скорее сопутствующий результат, а основное - это функции предоставления информации о всех результатах и инструментах исследований.

И, напоследок, можно посмотреть как это устроено на примерах националных CRIS систем, в Бразилии BrCRIS [6], в Словакии [7], в Латвии [8], в Норвегии [9].

Ссылки:
[1] https://en.wikipedia.org/wiki/Current_research_information_system
[2] https://eurocris.org/
[3] https://dspacecris.eurocris.org/cris/explore/dris
[4] https://eurocris.org/services/main-features-cerif
[5] https://guidelines.openaire.eu/en/latest/cris/index.html
[6] https://brcris.ibict.br
[7] https://www.skcris.sk/portal/
[8] https://sciencelatvia.lv
[9] https://www.cristin.no/

#openaccess #openresearch #opendata #research
В рубрике как это устроено у них центры научных данных и другие проекты распространения научных данных Китайской республики.

Центры научных данных
- National Basic Sciences Public Science Data Center [1] - центр данных по базовым дисциплинам: физика, химия, астрономия, биология и т.д.
- National Marine Science Data Center [2] - центр данных о море и водных объектах
- National Earthquake Science Data Center [3] - центр данных о землетрясениям
- National Meteorological Science Data Center [4] - центр данных по метеорологии
- National Forestry and Grassland Science Data Center [5] - центр данных о лесе и зеленых насаждениях
- National Agricultural Science Data Center [6] - центр данных о сельском хозяйстве
- National Population Health Science Data Center [7] - центр данных о здоровье граждан
- National Metrological Science Data Center [8] - центр данных по метрологии
- National Cryosphere Desert Data Center [9] - центр данных о засушливых и холодных территориях

Другие ресурсы
- CSDB [10] центр научных данных академии наук Китая. Действует с 1987 года, включает более 45 тысяч наборов данных
- Science Data Bank [11] портал для публикации данных исследователями Китая. Интегрирован с большинством поисковых систем, сервисов цитирования и иными глобальными сервисами открытой науки
- CSData [12] научный журнал посвящённый доступности научных данных Китая и для китайских исследователей
- FinData [13] поисковик по научным данным Китая и данным используемых китайскими исследователями

Не все из научных порталов данных предоставляют открытые данные, через многие доступны данные только по запросу или авторизации, в некоторых случаях существуют градации режимов доступа, в ряде случаев есть требования/рекомендации поделиться Вашими исследованиями на этих данных. Однако широко распространены свободные лицензии и большая часть данных общедоступны и не требуют никаких усилий кроме как скачать их напрямую и знать китайский язык.

Ссылки:
[1] http://www.nsdata.cn
[2] http://mds.nmdis.org.cn
[3] https://data.earthquake.cn
[4] http://data.cma.cn/en
[5] http://www.forestdata.cn
[6] http://www.agridata.cn
[7] http://www.geodata.cn
[8] https://www.nms.org.cn
[9] http://www.ncdc.ac.cn/portal/?lang=en
[10] https://www.casdc.cn
[11] https://www.scidb.cn/en
[12] http://www.csdata.org/en/
[13] https://findata.cn

#opendata #datasets #china #datacatalogs #openaccess #openresearch
В рубрике как это устроено у них La Referencia [1] портал агрегатор научных работ в Латинской Америке + Испания. В боле более 5.2 миллионов научных работ большая часть которых - это статьи, магистерские и докторские тезисы и многое другое. В том числе наборы данных в объёме 10 тысяч штук. Что очень немного по сравнению с общим числом других работ, около 0.2%, но немало для разного рода каталогов данных.

Правда, большая часть данных там из испанских научных репозиториев, но тем не менее.

Проект интегрирован с европейским проектом OpenAIRE и его материалы доступны через поиск в OpenAIRE.

#opendata #openaccess #openresearch