Ivan Begtin
7.98K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Ivan Begtin
На чём сделать акцент в рассказе про Data discovery в корпоративном секторе? (можно несколько ответов)
Написал текст в рассылку на тему того зачем создаются корпоративные каталоги данных [1]. Это часть скорее теоретическая чем практическая, в неё мало практических примеров, зато много подробностей о том зачем и в какой ситуации компании, в принципе, задумываются о внедрении каталогов данных. В следующих текстах я уже подробнее разберу случаи когда точно не надо усложнять себе жизнь и заводить каталог данных который бы перестал быть актуальным и расскажу о выборе инструментов, там уже много особенностей технологических и разные инструменты решают разные задачи. А ещё точнее с разным качеством решают одни и те же задачи.

Ссылки:
[1] https://begtin.substack.com/p/corporate-data-discovery-1

#data #datacatalogs #dataengineering #dataanalytics #compliance
Хотелось бы написать что-то хорошее про доступность геоданных в России, но пока только новость о том что в третьем чтении приняли закон о запрете использования иностранных геоинформационных систем [1]. В основном это, как я понимаю, ESRI ArcGIS, по крайней мере в публичном пространстве есть некоторое количество, около десятка в реестре Common Data Index [2].

Хорошо хоть не запретили бизнесу и университетам. В целом же весь этот поток ограничений, когда любое новое регулирование не разрешает что-то, а запрещает - всё это довольно утомительно. Хотя в реестре российского ПО и много продуктов "российских ГИС", однако в мире, за некоторым исключением, всё иначе.

В большинстве стран где не хотят зависеть от "зарубежного" (по факту проприетарного ПО) используют комбинации open source продуктов. Каталоги данных создают на базе Geonetwork, порталы геоданных на базе Geonode, сервера с геоданными на базе Geoserver и геопорталы на множестве продуктов.

И только в России и в Китае штампуют геоинформационные системы только для внутреннего применения.

P.S. Из большей части "российских ГИС" получить данные сильно сложнее по причине отсутствия стандартных API, вроде ArcGIS REST API, CSW и тд. Так что это тоже в минус открытости

Ссылки:
[1] https://www.tadviser.ru/a/53581
[2] https://registry.commondata.io/country/RU

#geodata #spatialdata #opensource
В рубрике как это устроено у них портал геоданных Африки [1] создан на базе ArcGIS Hub и поддерживается компанией Esri. Включает 579 наборов данных [2] и 914 карт [3]

А также включает множество подпорталов сообществ по странам, например, Морокко [4], а также всего 11 стран [5]

Портал включает данные из OpenStreetMap и иных открытых источников и сфокусирован на обучении и формировании сообщества вокруг продуктов Esri.

Это пример когда открытые каталоги данных компании создают для продвижения их коммерческих продуктов добавляя им дополнительную ценность.

Все данные можно скачать используя API ArcGIS Hub или с использованием дампов каталога в формате DCAT.

Ссылки:
[1] https://www.africageoportal.com
[2] https://www.africageoportal.com/search?collection=Dataset
[3] https://www.africageoportal.com/search?collection=App%2CMap
[4] https://morocco.africageoportal.com/
[5] https://www.africageoportal.com/pages/GeoPortal%20Initiatives

#opendata #africa #geodata #geospatial
6 сентября я буду рассказывать про Common Data Index на конференции Smart Data 2023 в Москве. Приходите все кто интересуется глобальным поиском по данным в мире и открытыми данными в частности. Специально для моих подписчиков организаторы предоставили промокод IBegtin2023JRGpc для получения 25% скидки.

Я подозреваю что я один из немногих кто будет рассказывать про свой пэт-проект, даже при том что он весьма немалый. Это будет моё первое выступление именно о нём, я буду рассказывать о том как работают поисковые системы на данных, почему они все фасетные, как собрать все каталоги данных, какие они бывают, о недокументированных API и о том как создать большой поисковый индекс.

Если успею к конференции, то может быть и интерфейс поиска успею показать.

#opendata #datasearch #smartdata #datasets #events
Большое обновление порталов данных в Common Data Index. Теперь их 3692, это в 1.5. раза больше чем было ещё совсем недавно. Выбирая между качеством метаданных и широтой охвата я выбрал широту и в итоге записи в реестре разделены на две ветви: обычные записи и записи с ограниченными метаданными с временными идентификаторами. Для первых почти все метаданные заполнены и курируются, для вторых есть только те метаданные что можно получить автоматически: ссылка, тип ПО, точки подключения к API, язык и страна. По некоторым странам таких временных записей более половины и чаще всего это записи каталогов с геоданными, на базе ArcGIS server или Geoserver. Напомню что реестр доступен на registry.commondata.io

А также в реестре огромное обновление всех доступных документированных и недокументированных точек подключения к API, почти для каждой записи все возможные API. Многие каталоги данных одновременно поддерживают многие режимы доступа DCAT, CSW, OAI-PMH и другое.

Одна из целей реестра каталогов данных достигнута, охвачены каталоги данных практически всех стран мира и практически всех видов данных и типов каталогов.

#opendata #datacatalogs #commondataindex
В рубрике интересных проектов на данных и около финский стартап Spatineo [1] специализирующийся на продаже продукта и услуг для мониторинга использования гео API таких как открытые точки подключения к WFS, WMS и другим. В 2023 году они вошли в топ 100 геокомпаний мира [2], но интересно не только и не столько это.

Spatineo поддерживают каталог из 87700+ точек подключения к API к геоданным по всему миру [3]. По сути это агрегатор геоинтерфейсов и у них же есть полезный гайд о том как заполнять метаданные в своих сервисах [4].

В то же время все что касается данных за пределами Европы и Северной Америки у них не очень. Всего пара точек API в Таиланде, по России почти ничего нет кроме неработающих сервисов wdcb.ru, аналогично по всем постсоветским странам, Китаю и тд.

Поэтому сервис и каталог одновременно интересный из-за огромного числа API для мониторинга и содержит огромные пробелы по странам где геосервисов, не меньше.

В любом случае этот каталог можно рассматривать как ещё один поисковик по данным, в этом случае по геоданным.

Ссылки:
[1] https://www.spatineo.com
[2] https://geoawesomeness.com/global-top-100-geospatial-companies-2023-edition/
[3] https://directory.spatineo.com
[4] https://www.spatineo.com/service-metadata-guide/

#opendata #geodata #spatial #datasearch
Я как могу сдерживаюсь чтобы не комментировать последние законодательные инициативы в РФ, во первых чтобы не портить себе аппетит, во вторых чтобы запасы иронии не исчерпались. Обращу лишь внимание на законопроекты №346588-8, №346769-8 и №346750-8, запрещающие участие граждан РФ в незарегистрированных в специальном реестре иностранных некоммерческих организациях. Об этом совсем недавно писали в OpenNET [1] и о том что большая часть опенсорс разработок как раз делают НКО зарегистрированные в США и в Европе, пример, Linux Foundation и потому что российские правоприменители могут, с лёгкостью предположить, что эти организации деятельность в России ведут.

Я вот лично являюсь до сих пор членом НКО Clarity International посвящённой развитию простого языка [2], если меня ещё не исключили за неуплату членских взносов, конечно. Какова вероятность что она будет зарегистрирована в этом реестре? Нулевая

В общем-то в зоне риска все кто хоть какой-то профессиональной деятельностью в мире занимается. А законопроекты эти, как бы намёк, мол валите отсюда и от гражданства отказывайтесь.

Другой законопроект, про "запрет использования иностранных почтовых сервисов для регистрации в российских" звучит даже не странно, а очень странно. Что такое иностранные почтовые сервисы? Вот у меня есть почта в зоне .com, она иностранная? А если почтовые сервера в зоне .ru, тогда российская? А если эти почтовые сервера в зоне .ru хостятся в Китае, тогда не российские? Или если у меня почта в зоне .ru, а почтовый сервис от Google для домена, тогда что? И это только сугубо технические вопросы, а есть ещё и вопросы смысловые, в том зачем же всё это нужно?

Чувствую что недалёк уже тот момент когда создадут ещё и "реестр разрешений на доступ к иностранным ресурсам", как это уже есть в Китае. Нужно тебе, например, в исследовательских или коммерческих целях поработать с Google или Youtube, изволь запросить разрешение через Госуслуги. Так и будет, так и будет

Ссылки:
[1] https://www.opennet.ru/opennews/art.shtml?num=59517
[2] https://www.clarity-international.org

#regulation #russia #nocomments
В рубрике как это работает у них о публикации открытых научных данных в Финляндии. В Финляндии Министерство образования и культуры создало и поддерживает портал Fairdata.fi [1] для распространения подхода принципов FAIR при публикации научных данных [2].

Помимо руководств и обучения инициатива включает 5 проектов помогающих исследователям:
- IDA Research Data Storage
- Etsin Research Dataset Finder
- Qvain Research Dataset Description Tool
- Digital Preservation Service for Research Data
- AVAA Open Data Publishing Platform

Например, система Etsin позволяет искать по более чем 5 тысячам наборам данных и размещать там свои наборы. А в системе AVAA доступны каталоги геоданных.

Кроме всего прочего данные из Etsin доступны на иследовательском портале страны Research.fi [3]. В свою очередь Research.fi был создан в 2020 году как CRIS (Current Research Information System) страны и включает, как открытые научные данные, так и базу публикаций, исследователей, исследовательских центров.

Ссылки:
[1] https://www.fairdata.fi/en/
[2] https://www.go-fair.org/fair-principles/
[3] https://research.fi/en/results/datasets

#finland #research #openaccess #opendata #openscience
Одна из крупнейших и малоизвестных поисковых систем по научным публикациям это BASE [1], проект немецкого Bielefeld University в котором собрано более 338 миллионов научных публикаций из более чем 11 тысяч источников.

В том числе в поисковом индексе BASE есть более 18.5 миллионов записей с исследовательскими данными, большая их часть, конечно, из систем выдачи DOI таких как Datacite и Crossref.

У проекта есть REST API и интерфейс доступа по протоколу OAI-PMH,

Ссылки:
[1] https://www.base-search.net

#opendata #openaccess #openscience #researchdata #datasearch