Ivan Begtin
8.03K subscribers
1.72K photos
3 videos
101 files
4.42K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
6 сентября я буду рассказывать про Common Data Index на конференции Smart Data 2023 в Москве. Приходите все кто интересуется глобальным поиском по данным в мире и открытыми данными в частности. Специально для моих подписчиков организаторы предоставили промокод IBegtin2023JRGpc для получения 25% скидки.

Я подозреваю что я один из немногих кто будет рассказывать про свой пэт-проект, даже при том что он весьма немалый. Это будет моё первое выступление именно о нём, я буду рассказывать о том как работают поисковые системы на данных, почему они все фасетные, как собрать все каталоги данных, какие они бывают, о недокументированных API и о том как создать большой поисковый индекс.

Если успею к конференции, то может быть и интерфейс поиска успею показать.

#opendata #datasearch #smartdata #datasets #events
В рубрике интересных проектов на данных и около финский стартап Spatineo [1] специализирующийся на продаже продукта и услуг для мониторинга использования гео API таких как открытые точки подключения к WFS, WMS и другим. В 2023 году они вошли в топ 100 геокомпаний мира [2], но интересно не только и не столько это.

Spatineo поддерживают каталог из 87700+ точек подключения к API к геоданным по всему миру [3]. По сути это агрегатор геоинтерфейсов и у них же есть полезный гайд о том как заполнять метаданные в своих сервисах [4].

В то же время все что касается данных за пределами Европы и Северной Америки у них не очень. Всего пара точек API в Таиланде, по России почти ничего нет кроме неработающих сервисов wdcb.ru, аналогично по всем постсоветским странам, Китаю и тд.

Поэтому сервис и каталог одновременно интересный из-за огромного числа API для мониторинга и содержит огромные пробелы по странам где геосервисов, не меньше.

В любом случае этот каталог можно рассматривать как ещё один поисковик по данным, в этом случае по геоданным.

Ссылки:
[1] https://www.spatineo.com
[2] https://geoawesomeness.com/global-top-100-geospatial-companies-2023-edition/
[3] https://directory.spatineo.com
[4] https://www.spatineo.com/service-metadata-guide/

#opendata #geodata #spatial #datasearch
Одна из крупнейших и малоизвестных поисковых систем по научным публикациям это BASE [1], проект немецкого Bielefeld University в котором собрано более 338 миллионов научных публикаций из более чем 11 тысяч источников.

В том числе в поисковом индексе BASE есть более 18.5 миллионов записей с исследовательскими данными, большая их часть, конечно, из систем выдачи DOI таких как Datacite и Crossref.

У проекта есть REST API и интерфейс доступа по протоколу OAI-PMH,

Ссылки:
[1] https://www.base-search.net

#opendata #openaccess #openscience #researchdata #datasearch
Как и где искать данные? Я несколько раз ранее писал про разные поисковые системы по открытым / доступным данным и список поисковиков у меня постоянно обновляется так что в этом посте их актуализированная подборка:

- Google Dataset Search - единственный поиск от крупного игрока поисковых систем, в данном случае Google. Ищет по датасетам найденным поисковой системой на веб страницах где размечен объект DataSet из Schema.org. Это, с одной стороны делает его одним из крупнейших поисковых индексов по данным в мире (45 миллионов наборов данных из 15 тысяч источников на начало 2023 года), а с другой очень сильно поиск отравлен сеошниками, даже если искать бесплатные данные. Также результаты этого поиска теперь подмешиваются в основной поиск Google при релевантных запросах

- OpenAIRE - это не в чистом виде поиск по данным, но поиск по результатам научной деятельности, Данных там тоже много, от 5 до 17 миллионов наборов данных, смотря как классифицировать объекты поиска поскольку кроме машиночитаемых таблиц там к данным отнесены ещё и изображения, видео и аудио записи. Тем не менее, даже со всеми оговорками, это один из крупнейших поисковиков по данным в мире.

- DataCite Search - поисковик от компании DataCite выдающей DOI исследователям публикующим данные. Плюс в том что их база наборов данных весьма обширна, это фактически все наборы данных публикуемые исследователями официально. Минус в том что контроля за назначением DOI нет и многочисленные ссылки там ведут просто на статьи и другие объекты, но не данные. Тем не менее база объектов поиска там обширна, более 20 миллионов записей и работа над качеством продолжается. Это один из наиболее крупных поисковиков по научным данным.

- BASE - Bielefeld Academic Search Engine, академическая поисковая система от Билефельдского университета в Германии. Охватывает более чем 339 миллионов результатов научной деятельности из которых не менее 18.5 миллионов составляют наборы данных. Конечно надо делать оговорку на то что в основе поиска по данным там индекс DataCite

- FindData - поисковая система по научным данным от Компьютерного сетевого информационного центра при Китайской академии наук. Тесно интегрирован с другим их проектом, ScienceDb. Преимущественно ищет по китайским и связанным с Китаем источникам научных данных.

- Research Data Australia - поисковик по данным как часть научной инфраструктуры Австралии. Более 200 тысяч наборов данных, только из местных каталогов данных, причём охватывает как государственные, так и научные каталоги, а также каталоги геоданных. Поддерживает поиск по территориям на карте, достаточно выделить участок карты Австралии и он выдаст все связанные наборы данных.

- Data.europe.eu - общеевропейский портал открытых данных постепенно вбирающий в себя все наборы данных из национальных порталов Евросоюза и из геопорталов в рамках инициативы INSPIRE и не только. Крупнейший наднациональный портал открытых данных в мире.

- Zenodo - крупнейший репозиторий научных данных в Европейском союзе и крупнейшая инсталляция открытого ПО для ведения коллекций цифровых объектов Invenio. Используется учёными по всему миру для публикации своих данных из-за бесплатности и автоматической выдачи DOI.

#opendata #datasets #data #datasearch
В список поисковых систем по данным, который я ранее публиковал, можно добавить GeoSeer [1] единственный известный мне поисковик по точкам подключения к гео API по всему миру. Охватывает точки подключения к WFS, WMS, WCS, WMTS и около 3.5 миллионов таких точек.

Существует в подписочной бизнес модели с оплатой за тарифы доступа к API.

При этом сам поисковик выглядит слегка кустарно и с 2022 года в нём не обновляется статистика, а с 2020 года автор(-ы) перестал публиковать посты в блоге. Тем не менее, даже с учётом этих ограничений, это один из немногих существующих поисковиков по геоданным в мире.

Ссылки:
[1] https://www.geoseer.net

#opendata #datasearch #geodata #spatial
Для тех кто будет сегодня в Москве или в онлайне на конференции Smart Data 2023 напоминаю что я буду там выступать в 11:30 с докладом Common Data Index. Как построить поисковую систему по открытым данным такую же, как Google Dataset Search, но проще и быстрее [1]

Тема будет довольно необычной, систем поиска общедоступных данных в мире не так много, я буду рассказывать как про предметные, так и про технические сложности в её построении. Через какое-то время будет доступна и презентация, но, конечно, я в выступлении рассказываю значительно больше того что остаётся в слайдах.

Ссылки:
[1] https://smartdataconf.ru/talks/6d6d864c6f5840a491d1f7921e7b79c7/

#opendata #events #datasearch
Что такое наборы данных ? (1/2)

Есть такой важный вопрос которым я задаюсь в последнее время особенно, который звучит банально, а ответ на него не так прост. А что такое данные? Что такое набор данных/датасет? Есть множество формальных определений, самое базовое это "dataset is a collection of data" , но на практике возникает множество нюансов.

Например, является ли изображение набором данных? Скорее всего нет, например, изображение обложки книги точно не набор данных. А если это карта? Или если это WMS сервис отдающий изображения? По сути - это метаданные + изображение. Он ближе к датасету, по крайней мере из практики использования. А если у нас изображение картины будет вместе с метаданными о нём? Это датасет ? Скорее нет чем да, но можно поспорить. А вот если это будет коллекция из тысяч изображений и метаданные к ним это уже точно набор данных. Возможно даже для машинного обучения. Точно также как и одна аудиозапись - это не набор данных, а тысячи аудиозаписи + метаданные + аннотации вполне себе типичный набор данных для ML.

#data #datasearch #datafragmentation #thoughts
Что такое наборы данных ? (2/2)

А от ответа на вопросы "что есть набор данных?" очень часто зависит реальная оценка их числа. К примеру, в Mendeley Data пишут что содержат 2,35 миллиона наборов данных из GBIF [1], но в GBIF реально лишь 91 тысяча наборов данных [2] так откуда остальные 2,24 миллиона ? На самом деле в Mendeley Data индексируют не только датасеты, но и "occurencies" (случаи, встречаемость) видов животных их там 2,66 миллионов и миллионы наборов данных имеют одно название Occurance Dowload.

Другой пример в виде Кэмбриджской базы молекул [4] по которой каждую молекулу в Mendeley показывают как датасет, хотя это, по факту, лишь отдельный записи единой базы данных. И такого там много, очень много. Это и фрагментация данных и подмена понятия набора данных другими. У OpenAIRE, европейского поисковика/графа по научным результатам, есть похожий поиск, но он выдаёт всего 2 миллиона наборов данных [5], потому что в какой-то момент его создатели разделили наборы данных сами по себе и остальные типы Research Data и, к примеру, там есть поиск по клиническим исследованиям, но сами исследования считаются отдельными типом Research Data. Как и изображения, звуки или 3D модели которые выделены как отдельные подтипы.

Поэтому Mendeley Data хотя и важный научный ресурс, но "подвирающий" про реальные объёмы данных которые
в нём охвачены.

А ответ на вопрос что такое набор данных всё ещё не так однозначен.

Ссылки:
[1] https://data.mendeley.com/research-data/?type=DATASET&source=gbif.gbif
[2] https://www.gbif.org/dataset/search
[3] https://www.gbif.org/occurrence/search
[4] https://data.mendeley.com/research-data/?type=DATASET&source=ccdc.csd
[5] https://explore.openaire.eu/search/find?type=%22datasets%22&resultbestaccessright=%22Open%2520Access%22&instancetypename=%22Dataset%22

#data #datasearch #datafragmentation #thoughts
Завтра в День открытых данных я буду в 12:15 по Москве рассказывать про поисковую систему по датасетам над которой работал весь прошлый год. Сейчас подробностей рассказывать не буду, иначе неинтересно будет слушать, но могу сказать что целью было и есть создать альтернативу Google Data Search и собрать так много данных как только возможно и сделать удобный поисковик по ним всем. Полгода назад я рассказывал о том как шла работа над проектом на конференции Smart Data, там было много технических подробностей, но ещё не готовый продукт. А теперь продукт готов для бета пользователей.

Это будет второе публичное представление, первое было на ODD в Армении 2 марта, в оффлайне, для совсем небольшой аудитории. А это будет уже с записью и, можно сказать, как финальная тренировка перед представлением на весь мир.

#opendata #data #datasets #datacatalogs #datasearch
Моя презентация с сегодняшнего дня открытых данных , а также можно уже посмотреть работающую версию поисковика Dateno.

Он пока ещё в режиме работающей беты, а то есть ошибок много, дубликатов много, метаданные в оригинальных источниках часто кривые и ещё много чего, лучше посмотреть презентацию чтобы понять.

Но... им уже можно пользоваться. Можно задавать вопросы, можно присылать мне фидбек, можно зарегистрироваться в Discord'е чтобы задавать вопросы разработчикам. Главное помнить что в дискорде проекта рабочий язык английский.

Всего в Dateno сейчас 10M наборов данных из 4.9 тысяч каталогов. До когда 2024 года планы достигнуть 30M наборов данных, значительно улучшить веб интерфейс, добавить ещё много интересных возможностей.

У проекта есть API, оно скоро будет открытым также. Много доступно как открытый код тут. А в основе проекта реестр каталогов данных о котором я писал весь прошлый и этот годы.

#opendata #datasets #projects #datasearch #data