Ivan Begtin
7.99K subscribers
1.76K photos
3 videos
101 files
4.47K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
К вопросу о каталогах научных данных, я писал про многие инициативы, а про одну всё не упоминал. В научной среде существуют продукты которые называются CRIS (Current Research Information System) которые также называют RIMS (Research Information Management System) [1].

В отличие от систем публикации статей или каталогов научных данных эти системы создаются для учёта всей научной деятельности научной организации/отрасли (научной дисциплины) или страны. Например, в CRIS вносятся данные по исследовательским центрам, исследователям, научным публикациям, данным, лабораториям, оборудованиям и так далее.

Такие системы могут быть как внутренними, так и открытыми. В последние годы эти системы почти все являются открытыми, или по большей части открытыми, но есть они далеко не у всех исследовательских центров и университетов, но их становится всё больше. Большая их часть создаётся на базе примерно десятка коммерческих продуктов и некоторого числа продуктов с открытым кодом.

Для университетов у которых есть такие системы, публикация данных является частью таких систем.

Реестр таких систем ведёт НКО euroCRIS [2] существующая при поддержке Евросоюза, этот реестр называется DRIS [3], там 1387 репозиториев по всему миру, большая часть из которых находятся в Индии и Норвегии, но, в принципе, рассеяны по всему миру.

Данные из систем CRIS собираются в глобальные агрегаторы такие как OpenAIRE, для чего разработан стандарт CERIF [4] для описания метаданных и для их предоставления через REST API, а у OpenAIRE есть ещё и подробное руководство для работы CRIS систем [5].

Большая часть CRIS систем - это университетские системы, но есть и крупные национальные CRIS системы в: Австралии, Испании, Финляндии и многих других странах. В реестре DRIS упомянуто 24 такие системы национального уровня, о каждой из них можно рассказывать долго и по отдельности.

Так вот CRIS системы можно также рассматривать как каталоги открытых научных данных, с оговоркой что данные там не приоритет, а скорее сопутствующий результат, а основное - это функции предоставления информации о всех результатах и инструментах исследований.

И, напоследок, можно посмотреть как это устроено на примерах националных CRIS систем, в Бразилии BrCRIS [6], в Словакии [7], в Латвии [8], в Норвегии [9].

Ссылки:
[1] https://en.wikipedia.org/wiki/Current_research_information_system
[2] https://eurocris.org/
[3] https://dspacecris.eurocris.org/cris/explore/dris
[4] https://eurocris.org/services/main-features-cerif
[5] https://guidelines.openaire.eu/en/latest/cris/index.html
[6] https://brcris.ibict.br
[7] https://www.skcris.sk/portal/
[8] https://sciencelatvia.lv
[9] https://www.cristin.no/

#openaccess #openresearch #opendata #research
Я, кстати, не забыл про обещание вернуться к лонгридам и по результатам голосования [1] ближайшей темой напишу про Data discovery в корпоративном секторе, скорее всего до конца недели.
Однако тема эта большая и сразу всё не напишешь, можно сделать акцент на поиске данных для собственных продуктов, можно на инвентаризации личных данных, а можно, например, про разницу в инвентаризации данных бизнесом и государством и сквозная тема во всём "зачем всё это нужно". поэтому давайте сделаю второй опрос, он будет следующим сообщением,

Ссылки:
[1] https://begtin.substack.com/p/fde

#readings #blogging #data
В рубрике "как это устроено у них" Oskari [1] продукт с открытым кодом по созданию геопорталов на базе существующих геоданных/геокаталогов, например, каталогов созданных в рамках инициативы INSPIRE.

Продукт создан National Land Survey of Finland, государственной организацией в подчинении Министерства сельского и лесного хозяйства Финляндии.

Его можно привести в качестве успешной государственной работы над открытым кодом, поскольку проект был создан за счёт госбюджета Финляндии, выделен в открытый код, а теперь находится на инкубации в OS Geo.

На базе созданы как минимум 21 геопортал [3], в основном в Финляндии, но и в других странах Северной Европы тоже.

Формально в нем не публикуются открытые данные, но активно используются через интеграцию с Geoserver/Geonetwork/Geonode, а также реализовано собственное документированное API с экспортом картографических слоёв.

Хотя мне не встречались измерения экономического эффекта, наверняка его можно несложно подсчитать сравнив разницу внедрения Oskari с закупкой корпоративного сервера ArcGIS, к примеру.

Ссылки:
[1] https://www.oskari.org
[2] https://wiki.osgeo.org/wiki/Oskari_Incubation_Status
[3] https://www.oskari.org/gallery

#opensource #geospatial #geodata #data #finland
Ivan Begtin
На чём сделать акцент в рассказе про Data discovery в корпоративном секторе? (можно несколько ответов)
Написал текст в рассылку на тему того зачем создаются корпоративные каталоги данных [1]. Это часть скорее теоретическая чем практическая, в неё мало практических примеров, зато много подробностей о том зачем и в какой ситуации компании, в принципе, задумываются о внедрении каталогов данных. В следующих текстах я уже подробнее разберу случаи когда точно не надо усложнять себе жизнь и заводить каталог данных который бы перестал быть актуальным и расскажу о выборе инструментов, там уже много особенностей технологических и разные инструменты решают разные задачи. А ещё точнее с разным качеством решают одни и те же задачи.

Ссылки:
[1] https://begtin.substack.com/p/corporate-data-discovery-1

#data #datacatalogs #dataengineering #dataanalytics #compliance
Хотелось бы написать что-то хорошее про доступность геоданных в России, но пока только новость о том что в третьем чтении приняли закон о запрете использования иностранных геоинформационных систем [1]. В основном это, как я понимаю, ESRI ArcGIS, по крайней мере в публичном пространстве есть некоторое количество, около десятка в реестре Common Data Index [2].

Хорошо хоть не запретили бизнесу и университетам. В целом же весь этот поток ограничений, когда любое новое регулирование не разрешает что-то, а запрещает - всё это довольно утомительно. Хотя в реестре российского ПО и много продуктов "российских ГИС", однако в мире, за некоторым исключением, всё иначе.

В большинстве стран где не хотят зависеть от "зарубежного" (по факту проприетарного ПО) используют комбинации open source продуктов. Каталоги данных создают на базе Geonetwork, порталы геоданных на базе Geonode, сервера с геоданными на базе Geoserver и геопорталы на множестве продуктов.

И только в России и в Китае штампуют геоинформационные системы только для внутреннего применения.

P.S. Из большей части "российских ГИС" получить данные сильно сложнее по причине отсутствия стандартных API, вроде ArcGIS REST API, CSW и тд. Так что это тоже в минус открытости

Ссылки:
[1] https://www.tadviser.ru/a/53581
[2] https://registry.commondata.io/country/RU

#geodata #spatialdata #opensource
В рубрике как это устроено у них портал геоданных Африки [1] создан на базе ArcGIS Hub и поддерживается компанией Esri. Включает 579 наборов данных [2] и 914 карт [3]

А также включает множество подпорталов сообществ по странам, например, Морокко [4], а также всего 11 стран [5]

Портал включает данные из OpenStreetMap и иных открытых источников и сфокусирован на обучении и формировании сообщества вокруг продуктов Esri.

Это пример когда открытые каталоги данных компании создают для продвижения их коммерческих продуктов добавляя им дополнительную ценность.

Все данные можно скачать используя API ArcGIS Hub или с использованием дампов каталога в формате DCAT.

Ссылки:
[1] https://www.africageoportal.com
[2] https://www.africageoportal.com/search?collection=Dataset
[3] https://www.africageoportal.com/search?collection=App%2CMap
[4] https://morocco.africageoportal.com/
[5] https://www.africageoportal.com/pages/GeoPortal%20Initiatives

#opendata #africa #geodata #geospatial
6 сентября я буду рассказывать про Common Data Index на конференции Smart Data 2023 в Москве. Приходите все кто интересуется глобальным поиском по данным в мире и открытыми данными в частности. Специально для моих подписчиков организаторы предоставили промокод IBegtin2023JRGpc для получения 25% скидки.

Я подозреваю что я один из немногих кто будет рассказывать про свой пэт-проект, даже при том что он весьма немалый. Это будет моё первое выступление именно о нём, я буду рассказывать о том как работают поисковые системы на данных, почему они все фасетные, как собрать все каталоги данных, какие они бывают, о недокументированных API и о том как создать большой поисковый индекс.

Если успею к конференции, то может быть и интерфейс поиска успею показать.

#opendata #datasearch #smartdata #datasets #events
Большое обновление порталов данных в Common Data Index. Теперь их 3692, это в 1.5. раза больше чем было ещё совсем недавно. Выбирая между качеством метаданных и широтой охвата я выбрал широту и в итоге записи в реестре разделены на две ветви: обычные записи и записи с ограниченными метаданными с временными идентификаторами. Для первых почти все метаданные заполнены и курируются, для вторых есть только те метаданные что можно получить автоматически: ссылка, тип ПО, точки подключения к API, язык и страна. По некоторым странам таких временных записей более половины и чаще всего это записи каталогов с геоданными, на базе ArcGIS server или Geoserver. Напомню что реестр доступен на registry.commondata.io

А также в реестре огромное обновление всех доступных документированных и недокументированных точек подключения к API, почти для каждой записи все возможные API. Многие каталоги данных одновременно поддерживают многие режимы доступа DCAT, CSW, OAI-PMH и другое.

Одна из целей реестра каталогов данных достигнута, охвачены каталоги данных практически всех стран мира и практически всех видов данных и типов каталогов.

#opendata #datacatalogs #commondataindex
В рубрике интересных проектов на данных и около финский стартап Spatineo [1] специализирующийся на продаже продукта и услуг для мониторинга использования гео API таких как открытые точки подключения к WFS, WMS и другим. В 2023 году они вошли в топ 100 геокомпаний мира [2], но интересно не только и не столько это.

Spatineo поддерживают каталог из 87700+ точек подключения к API к геоданным по всему миру [3]. По сути это агрегатор геоинтерфейсов и у них же есть полезный гайд о том как заполнять метаданные в своих сервисах [4].

В то же время все что касается данных за пределами Европы и Северной Америки у них не очень. Всего пара точек API в Таиланде, по России почти ничего нет кроме неработающих сервисов wdcb.ru, аналогично по всем постсоветским странам, Китаю и тд.

Поэтому сервис и каталог одновременно интересный из-за огромного числа API для мониторинга и содержит огромные пробелы по странам где геосервисов, не меньше.

В любом случае этот каталог можно рассматривать как ещё один поисковик по данным, в этом случае по геоданным.

Ссылки:
[1] https://www.spatineo.com
[2] https://geoawesomeness.com/global-top-100-geospatial-companies-2023-edition/
[3] https://directory.spatineo.com
[4] https://www.spatineo.com/service-metadata-guide/

#opendata #geodata #spatial #datasearch
Я как могу сдерживаюсь чтобы не комментировать последние законодательные инициативы в РФ, во первых чтобы не портить себе аппетит, во вторых чтобы запасы иронии не исчерпались. Обращу лишь внимание на законопроекты №346588-8, №346769-8 и №346750-8, запрещающие участие граждан РФ в незарегистрированных в специальном реестре иностранных некоммерческих организациях. Об этом совсем недавно писали в OpenNET [1] и о том что большая часть опенсорс разработок как раз делают НКО зарегистрированные в США и в Европе, пример, Linux Foundation и потому что российские правоприменители могут, с лёгкостью предположить, что эти организации деятельность в России ведут.

Я вот лично являюсь до сих пор членом НКО Clarity International посвящённой развитию простого языка [2], если меня ещё не исключили за неуплату членских взносов, конечно. Какова вероятность что она будет зарегистрирована в этом реестре? Нулевая

В общем-то в зоне риска все кто хоть какой-то профессиональной деятельностью в мире занимается. А законопроекты эти, как бы намёк, мол валите отсюда и от гражданства отказывайтесь.

Другой законопроект, про "запрет использования иностранных почтовых сервисов для регистрации в российских" звучит даже не странно, а очень странно. Что такое иностранные почтовые сервисы? Вот у меня есть почта в зоне .com, она иностранная? А если почтовые сервера в зоне .ru, тогда российская? А если эти почтовые сервера в зоне .ru хостятся в Китае, тогда не российские? Или если у меня почта в зоне .ru, а почтовый сервис от Google для домена, тогда что? И это только сугубо технические вопросы, а есть ещё и вопросы смысловые, в том зачем же всё это нужно?

Чувствую что недалёк уже тот момент когда создадут ещё и "реестр разрешений на доступ к иностранным ресурсам", как это уже есть в Китае. Нужно тебе, например, в исследовательских или коммерческих целях поработать с Google или Youtube, изволь запросить разрешение через Госуслуги. Так и будет, так и будет

Ссылки:
[1] https://www.opennet.ru/opennews/art.shtml?num=59517
[2] https://www.clarity-international.org

#regulation #russia #nocomments
В рубрике как это работает у них о публикации открытых научных данных в Финляндии. В Финляндии Министерство образования и культуры создало и поддерживает портал Fairdata.fi [1] для распространения подхода принципов FAIR при публикации научных данных [2].

Помимо руководств и обучения инициатива включает 5 проектов помогающих исследователям:
- IDA Research Data Storage
- Etsin Research Dataset Finder
- Qvain Research Dataset Description Tool
- Digital Preservation Service for Research Data
- AVAA Open Data Publishing Platform

Например, система Etsin позволяет искать по более чем 5 тысячам наборам данных и размещать там свои наборы. А в системе AVAA доступны каталоги геоданных.

Кроме всего прочего данные из Etsin доступны на иследовательском портале страны Research.fi [3]. В свою очередь Research.fi был создан в 2020 году как CRIS (Current Research Information System) страны и включает, как открытые научные данные, так и базу публикаций, исследователей, исследовательских центров.

Ссылки:
[1] https://www.fairdata.fi/en/
[2] https://www.go-fair.org/fair-principles/
[3] https://research.fi/en/results/datasets

#finland #research #openaccess #opendata #openscience