Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Вчера команда Твиттера выложила в открытый доступ описание [1] их рекомендательного алгоритма с подробностями и описанием его работы. И, более того, они выложили два репозитория открытого кода их рекомендательной системы и модели для машинного обучения [2] [3].

Здесь важно понимать правильно этот шаг, это не открытые библиотеки кода для совместной разработки или проект с открытым кодом передаваемый сообществу, это явно именно раскрытие кода для разговоров с регуляторами которые спят и видят всерьёз рассматривают введение требований к социальным сетям именно в части формирования рекомендательных списков для чтения.

Кто последует в след за Twitter'ом? Увидим ли мы исходный код формирования ленты в Facebook'е, например?

Ссылки:
[1] https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
[2] https://github.com/twitter/the-algorithm
[3] https://github.com/twitter/the-algorithm-ml

#opensource #twitter #machinelearning
Для тех кто ищет данные, в том числе не всегда документированные, оказывается у Роскосмоса есть точка подключения к геоданным [1] по спецификации STAC. Он внесён в STAC Index как ERS open data [3] и, похоже, нигде в русскоязычных/российских ресурсах и каталогах данных не упомянут.

Условия использования там проприетарные, тем не менее сам по себе этот факт интересен, о доступности подобных данных и в стандартизированных форматах удаётся узнать из международных инициатив, а не российских.

Причём, судя по метаданным, STAC каталог Роскосмоса добавили в глобальный в октябре 2022 года.


Ссылки:
[1] https://s3ext.gptl.ru/stac-web-free/catalog.json
[2] https://stacspec.org/
[3] https://stacindex.org/catalogs/ers-open-data#/

#opendata #roscosmos #datasets
Существенный элемент открытой инфраструктуры геопространственных данных в Европейском союзе - это каталоги геоданных стран входящих в ЕС, где в последние годы появились каталоги данных и метаданных на базе движка с открытым кодом Geonetwork [1]. Geonetwork - это каталог геоданных с открытым кодом [2] созданный Open Source Geospatial Foundation, поддерживаемый компанией GeoCat [3] и доступный, как для самостоятельной установки и использования, так и с поддержкой по типичной бизнес модели продуктов с открытым кодом.

Geonetwork приобрёл существенную популярность в последние годы и именно его используют разработчики многие национальных порталов открытых геоданных в развитых странах. В частности большая часть национальных каталогов геоданных в Европейском союзе созданных или развивающихся в рамках программы INSPIRE работают на Geonetwork [4]. Например, на Geonetwork работает портал геоданных Новой Зеландии [5] и Эстонии [6].

Хотя разработчики продукта и собирают информацию о его установках и есть список из 65 порталов данных, на самом деле их больше, поскольку многие устанавливают самостоятельно. Например, там не перечислены порталы геоданных на базе Geonetwork в Армении:
- The Armenian Soil Information System (ArmSIS) [8]
- The Center for Ecological-Noosphere Studies NAS RA Data Portal [9]

или в Киргизии:
- Каталог метаданных [10]

или в России
- Каталог ГГМ РАН [11]

Таких примеров множество. Geonetwork постепенно становится, а может быть уже и стал стандартом де-факто для публикации геоданных, по аналогии с CKAN, API которого стало стандартом для публикации открытых данных. При том что продукту уже 19 лет, он активно развивается.

Данные из серверов Geonetwork активно агрегируются наднациональными порталами данных, таких как data.europe.eu и видны и находимы в основном благодаря именно этому, поскольку сами сервера Geonetwork никогда не оптимизировались под поисковые системы и не попадают, например, в поиск наборов данных Google.

Ссылки:
[1] https://geonetwork-opensource.org
[2] https://github.com/geonetwork
[3] https://www.geocat.net
[4] https://inspire-geoportal.ec.europa.eu/overview.html?view=thematicEuOverview&theme=none
[5] https://geodata.nz
[6] https://metadata.geoportaal.ee
[7] https://github.com/geonetwork/doc/blob/develop/source/annexes/gallery/gallery-urls.csv
[8] https://armsis.cas.am
[9] http://gn.cens.am:8080/geonetwork
[10] http://nsdi.kg:8070/geonetwork/
[11] https://maps.geologyscience.ru/geonetwork/

#opendata #geodata #datasets #opensource #likbez
Новости закрытия открытых данных в России

Портал открытых данных http://opendata25.primorsky.ru отключен, вместо него Администрация области запустила портал https://opendata.primorsky.ru. Впрочем если на первом публиковалось 7 наборов административных данных, то на новом не сильно больше, 13 наборов данных. Все про инфраструктуру, ничего существенного.

Портал открытых данных города Перми https://opendata.perm.ru более недоступен, ранее там публиковалось более 480 наборов данных. Вместо него власти города разместили одностраничный лендинг https://opendata.gorodperm.ru с двумя наборами данных: режим работы и телефонный справочник. Последнее выглядит как форменное издевательство если честно.

В остальном открытые данные не исчезают с российских госпорталов только по той причине что это довольно бессмысленные административные данные с общими сведениями об учреждениях, но даже они не обновляются, некоторые по 5-6, а некоторые и по 9 лет.

#opendata #closeddata #russia
В рубрике как это работает у них

Я где-то год назад рассказывал том что правительства многих стран создают специализированные порталы для разработчиков в виде каталогов API [1]. Это такие страны как Великобритания, Франция, Австралия, Арабские Эмираты, например.

А вот и свежий пример, портал API Домиканской республики [2]. API там пока немного, всего 5, зато систематизировано.

Во Франции тем временем теперь уже крупнейший каталог госAPI в api.gouv.fr, более 100 задокументированных точек подключения [3]

Причём во всех странах практически есть API у правительственных информационных систем даже если те кто их эксплуатируют об этом не знают, то всё равно будут недокументированные API. Но такое незнание может быть только об необразованности, обычно всё знают, и обычно всё совершенно не систематизировано.

Порталы каталогов API - это, по сути, работы исключительно по документированию того что уже и так есть.

Через API часто предоставляют доступ к данным, особенно данным реального времени, сервисам требующим авторизации, иным сервисам необходимым для взаимодействия с государственными системами.

Ссылки:
[1] https://t.me/begtin/4608
[2] https://developer.digital.gob.do
[3] https://api.gouv.fr

#opendata #apis #government #dominicana
Команда Meltano, ETL/ELT продукта вышедшего из инженерной команды Gitlab, преданонсировали запуск Meltano Cloud [1], облачной версии их продукта, пока без цен, что чуть ли не самое важное, так что ждём.

А также они полностью обновили интерфейс хаба коннекторов Meltano Hub [2] где можно подобрать коннектор для специфичных сервисов и подключить его в свой экземпляр Meltano.

Облачные продукты на базе open source довольно распространены, это чуть ли не основная бизнес модель сейчас для новых СУБД и инфраструктурных продуктов. В этом смысле Meltano один из продуктов за которыми я давно слежу, от активного использования их ETL лично меня сдерживают те же ограничения что у большинства ETL/ELT продуктов - это ориентация на модель SQL-only и преимущественно на работу с плоскими таблицами. Не для всех задач с которыми лично я сталкиваюсь это годится.

В остальном, Meltano один из продуктов и стартапов по работе с данными за которыми я лично наблюдаю. Как-нибудь сделаю список из всех о которых я писал и за которыми слежу. Они преимущественно с открытым кодом, таких дата продуктов немало.

Ссылки:
[1] https://meltano.com/cloud/
[2] https://hub.meltano.com/

#opensource #etl #startups #data #elt
В Великобритании Центральный офис по цифре и данным анонсировал появление Data Maturity Assessment for Government (DMA) [1] руководство по оценке дата-зрелости органов власти и государственных организаций. Подробный документ с критериями уровней зрелости по 97 пунктам.

Там, конечно, есть и про открытые данные, но важнее не это а блок Topic 9: Setting your data direction в котором по умолчанию принимается что у организации есть стратегия работы с данными и далее лишь вопрос качества этой стратегии и коммуникации.

Что характерно в России ни на национальном уровне, ни на уровне отдельных органов и правительств субъектов федерации таких стратегий нет. Поэтому оценка по уровням зрелости будет невысокой.

А вот для многих постсоветских стран ещё раздумывающих над созданием офисов по цифре и данным стоит обратить внимание на этот документ, по сути он является руководством о том как системно организуется работа с данными в госсекторе.

Ссылки:
[1] https://cddo.blog.gov.uk/2023/03/27/strengthening-outcomes-for-the-public-through-better-data-maturity/
[2] https://www.gov.uk/government/publications/data-maturity-assessment-for-government-framework/data-maturity-assessment-for-government-framework-html

#opendata #data #government #regulation #policies #uk
Когда пишешь про любое недокументированное API, неочевидные данные и тд. всегда есть риск что прочитают об этом ответственные за ту систему откуда это API или данные доступны и всё исчезнет. Поэтому я приведу несколько примеров недокументированных API и данных которые не очень жалко, но они иллюстративны.

В качестве примеров порталы геоданных:
- сайт Новые инвестиционные проекты от Минэкономразвития России работает на базе GeoServer [1] и экспортирует 25 слоёв геоданных. Удивительное дело, их не было на портале data.gov.ru, наверное потому что сотрудники Минэка России про него и не знают;)
- сайт Транспорт Москвы тоже на базе GeoServer [2], но московских данных там нет, только какие-то международные
- открытое и документированное API есть у геопортала Ульяновской области [3], но о том что оно есть надо знать, поскольку оно мало где упоминается, если вообще упоминается

Всё это вдогонку к огромному числу сайтов с CMS позволяющими экспортировать данные, геосерверам ArcGIS, сайтам с REST API и graphql на бэкэнде.

В этом смысле в России много данных просто потому что в создание этих информационных систем вбуханы огромные деньги. Если поискать по сайтам большей части среднеазиатских стран или Армении, то данных там гораздо меньше просто из-за меньших затрат на информатизацию.

Зато могу сказать что в Иране тоже есть общедоступные геоданные в рамках национальной инфраструктуры геопространственных данных и тоже на GeoServer [4]. От открытых данных эти данные отличаются только отсутствием свободных лицензий.

Ссылки:
[1] https://mnp.economy.gov.ru/geoserver
[2] https://transport.mos.ru/geoserver/
[3] http://geo.ulgov.ru/docs/developer/api
[4] https://iransdi.ncc.gov.ir/geoserver

#opendata #datasets #undocumentedapi #apis #russia #iran #geodata
В рубрике как это работает у них, инфраструктура научных данных в Германии включает большое число исследовательский и университетских репозиториев данных и других результатов научной деятельности. Многие репозитории работают на без open-source ПО каталога научных данных Dataverse, например, DaRUS [1] университета Штудгарта или HeiData [2] Университета Хельдельберга. Всего в Германии мне известно 10 репозиториев научных данных именно на базе Dataverse.

Одновременно с Dataverse активно используется относительно новый open-source продукт каталога данных InvenioRDM, на нём работает репозиторий научных данных Университета Гамбурга [3] и архив данных RODARE [4]

Но гораздо более популярными являются репозитории данных на базе таких продуктов как DSpace и специфичного для Германии MyCore. DSPace - это распространённый продукт в академической и архивной среде для хранения условно любого контента с метаданными, в Германии DSpace весьма распространён и на его базе публикуются, в том числе наборы данных. К примеру, архив OpARA [5] Технического университета Дрездена.

И отдельно про MyCore [6], это аналог DSpace особенно распространённый в Германии. На нём созданы десятки порталов раскрытия научных результатов университетов по всей стране [7] и как и DSpace он создан для сохранения и поиска любого контента с расширяемыми наборами метаданных, что особенно актуально в научной среде. В MyCore часто сохраняют данные о статьях, научных тезисах, диссертациях, архивах, изображениях и, в том числе, исследовательских данных. А некоторые репозитории изначально создаются на MyCore чтобы сохранять только данные. Например, реестр научных данных Университета Киель [8]

И, дополнительно, необходимо отметить такие проекты как PANGAEA [9], огромный репозиторий научных данных о земле и поисковик по научным данным Германии [10] на базе сервиса da|RA по выдаче DOI.

Данные германских исследовательских центров практически все в значительном объёме проиндексированы в общеевропейском проекте OpenAIRE.

Ссылки:
[1] https://darus.uni-stuttgart.de
[2] https://heidata.uni-heidelberg.de/
[3] https://www.fdr.uni-hamburg.de
[4] https://rodare.hzdr.de/
[5] https://opara.zih.tu-dresden.de/xmlui/
[6] https://www.mycore.de/
[7] https://www.mycore.de/site/applications/list/
[8] https://opendata.uni-kiel.de
[9] https://pangaea.de/
[10] https://www.da-ra.de/search

#opendata #germany #datasets #openaccess #openscience
Где искать большие данные для исследований? Машинного обучения? Тренировки алгоритмов?

Источников много, я упомяну сейчас те о которых ранее не писал:

- Academic Torrents https://academictorrents.com/ - торрент-трекер для исследователей для публикации данных особо большого объёма. Более 14ТБ данных, большая часть для машинного обучения

- Archive.org datasets https://archive.org/details/datasets - наборы данных собранные в коллекции Интернет архива. Наборов данных более 9 тысяч и данные большого объёма

- Hyper.ai Datasets https://hyper.ai/datasets наборы данных китайской компании Hyper.AI. Тоже большого объёма и раздают данные через torrent'ы

- Toloka Datasets https://toloka.ai/datasets/ - открытые наборы данных компании Toloka, все про машинное обучение, варьируются от очень небольших, до десятков гигабайт

- The SpaceNet Datasets https://spacenet.ai/datasets/ - коллекция наборов данных проекта SpaceNet, открытые наборы данных от компании Maxar, поставщика данных спутникового мониторинга

- Granular Datasets https://granular.ai/datasets - много наборов данных для машинного обучения на данных спутниковых снимков и иных снимков

- Наборы данных Центра диагностики и телемедицины https://mosmed.ai/datasets/ - один из немногих открытых источников больших и открытых данных для машинного обучения в России, большая часть данных открыты или доступны по запросу. Публикуется профильным ГБУ при правительстве Москвы

#opendata #datasets #data #machinelearning
Bloomberg (компания) анонсировали создание FOSS Contributor Fund (Фонда поддержки свободного программного обеспечения) [1] и обещают каждый квартал отбирать по 3 проекта с открытым кодом и раздавать им по $10 000 каждому. В первый раз поддержали такие проекты как: Apache Arrow, curl и Celery. Причём, Apache Arrow - это проект про данные точно, curl - скорее про базовое ПО используемое повсюду, а Celery про цифровую инфраструктуру.

Кстати, фонд поддержки открытого кода был у Salesforce, но потом они его заменили на прямую поддержку тех проектов которые им нравятся [2], а также FOSS fund есть у Microsoft [3], они раздают по $500, а в Indeed опубликовали книжку Investing in Open Source: The FOSS Contributor Fund [4] в 2019 году.

Ещё FOSS fund есть у компании Prisma [5] и многих других.

Фонды поддержки открытого ПО - это хорошая форма корпоративной социальной ответственности. Жаль лишь что их так немного, и хорошо что становится больше.

Ссылки:
[1] https://www.bloomberg.com/company/stories/bloomberg-ospo-launches-foss-contributor-fund/
[2] https://engineering.salesforce.com/open-source/
[3] https://github.com/microsoft/foss-fund
[4] https://opensource.indeedeng.io/Investing-in-Open-Source/
[5] https://www.prisma.io/blog/prisma-foss-fund-announcement-XW9DqI1HC24L

#opensource #funding #fundrising
Возможно ИИ не так сильно угрожает рынку труда как многие говорят, но инвестиции в генеративный ИИ сейчас огромны. И взрывной их рост произошел всего за полгода.

#ai #startups
Я ранее рассказывал про каталог API правительства Доминиканской республики [1], а ещё ранее про примеры каталогов API в других странах.
А вот и дополнительные примеры.

Портал для разработчиков Правительства Нидерландов developer.overheid.nl [2]. Включает каталог репозиториев правительственного открытого кода (на Github и Gitlab), всего более 1300 репозиториев [3] и каталог из 100 API со спецификациями и документацией [4]

Более же всего порталов для разработчиков существует в США, они есть у многих, почти всех, центральных органов власти и отдельных штатов, например, портал для разработчиков в рамках Medicaid [5] или портал для разработчиков Департамента труда [6].

Ссылки:
[1] https://t.me/begtin/4750
[2] https://developer.overheid.nl/
[3] https://developer.overheid.nl/repositories
[4] https://developer.overheid.nl/apis
[5] https://developer.cms.gov/
[6] https://developer.dol.gov/

#opensource #apis #netherlands #government
В рубрике как это устроено у них, 3 репозитория открытых научных данных созданные Варшавским университетом в 2017-2021 годах в рамках проекта Dziedzinowe Repozytoria Otwartych Danych Badawczych [1] переводится как Открытые репозитории доменных исследовательских данных.

В рамках проекта созданы репозитории:
- RepOD https://repod.icm.edu.pl - репозиторий открытых данных
- RDS https://rds.icm.edu.pl/ репозиторий социологических данных
- MX-RDR http://mxrdr.icm.edu.pl/ - репозиторий первичных данных в области макромолекулярной кристаллографии.

В общей сложности на них опубликовано около 1300 наборов данных. Данные в разных форматах: CSV, Excel, Nb, Ods, Tab и другие. Научные наборы данных также, часто отличаются тем что содержат первичные данные на которых проводилось исследование: тексты или изображения, например.

Общая стоимость проекта 4 998 889 злотых, по текущему курсу - это 95 миллионов рублей, всё это на 4 года.

Ссылки:
[1] https://drodb.icm.edu.pl/opis-projektu/

#opendata #openaccess #openscience #poland #eu #datasets
В профессиональных сообществах сейчас активно обсуждают Stanford Alpaca [1] языковую модель, по некоторым признакам сравнимую с ChatGPT, но созданной за какие-то маленькие средства в $600.

В издании New Atlas автор Loz Blain пишет о том что это как выпустить джина из бутылки [2] потому что ИИ могут разрабатывать теперь буквально хоть школьники потому что обучить Alpaca можно за ночь и на посредственном оборудовании (вспомним про расходы менее $600). Для сравнения ChatGPT обучали на 1 023 видео процессорах A100 в течении 34 дней.

Что это значит? Это означает массовость и неистребимость новых разработок в области ИИ. Даже если какая-нибудь ядерная страна изменила бы ядерную доктрину для превентивного нанесения ядерного удара по датацентрам используемых для обучения ИИ - это бы не сработало. Если создавать и развивать новые языковые модели станет столь дешево, то и законодательные ограничения будут малоэффективны.

В любом случае нас ждёт новый неизвестный мир, возможно очень неожиданный.

Ссылки:
[1] https://crfm.stanford.edu/2023/03/13/alpaca.html
[2] https://newatlas.com/technology/stanford-alpaca-cheap-gpt/

#ai #opensource #languagemodels
В рубрике как это устроено у них портал раскрытия данных о переписях в Индии Census Digital Library [1] создан на базе открытого ПО NADA для публикации микроданных, я писал о нём совсем недавно [2].

Этот портал включает более 29 тысяч наборов данных и охватывает данные переписей начиная с 1901 года. Это больше чем на российском госпортале открытых данных о его закрытия.
А это лишь один из порталов публикации открытых данных в Индии.
Например, на портале data.gov.in опубликовано более 600 тысяч ресурсов, большая часть в форме машиночитаемых данных под свободными лицензиями.

А портал раскрытия данных переписей интересен крайне подробными метаданными по каждому набору данных и существенной гранулярностью, данные переписи там представлены с детализацией до округов (districts) и на их основе можно анализировать и визуализировать данные на довольно детальном уровне.

Такой способ публикации данных тоже не идеален, ведь большая часть файлов на портале в Excel формате, там не менее масштаб раскрытия данных и их использование весьма значительны.

Ссылки:
[1] https://censusindia.gov.in/nada/index.php
[2] https://t.me/begtin/4710

#opendata #datasets #india
Полезное чтение про данные, технологии и не только:
- Microsoft Intelligence platform data integration plan [1] план обновлений сервисов в Microsoft Intelligence platform на апрель-сентябрь 2023 года. Там много изменений полезных для тех кто пользуется их платформой

- Life after orchestrators [2] автор делится мыслями о том как работать с оркестраторами данных и без них. Автор рекламирует сервис Popsink [3], но сам пост содержит и вполне здравые мысли (не рекламу). Действительно оркестраторы нужны не везде и не всегда.

- Introducing Segment Anything: Working toward the first foundation model for image segmentation [4] - модель и данные по сегментации изображений от Meta AI, набор данных, кстати большой, более 11 миллионов изображений

- Datasets for Advancing AI Research [5] другие наборы данных для машинного обучения от Facebook. С ручной разметкой, большого объёма и тд. Не полноценный каталог данных, а интегрировано в их сайт по ИИ, но в целом оформлено неплохо и, главное!, это содержание.

- Data Modeling – The Unsung Hero of Data Engineering: An Introduction to Data Modeling (Part 1) [6] про моделирование данных в блоге Airbyte, хороший текст как вводный и явно с продолжением.

- Vicuna: An Open-Source Chatbot Impressing GPT-4 with 90%* ChatGPT Quality [7] просто какая-то эпидемия (шутка) языковых моделей которые делаются маленькими ресурсами и приближающимися по качеству к ChatGPT и GPT-4. Вот и свежий открытый продукт. Похож на Alpaca, обучали его ещё дешевле, всего за $300.


Ссылки:
[1] https://learn.microsoft.com/en-us/power-platform/release-plan/2023wave1/data-integration/
[2] https://stkbailey.substack.com/p/life-after-orchestrators
[3] https://www.popsink.com/
[4] https://ai.facebook.com/blog/segment-anything-foundation-model-image-segmentation/
[5] https://ai.facebook.com/datasets/
[6] https://airbyte.com/blog/data-modeling-unsung-hero-data-engineering-introduction
[7] https://vicuna.lmsys.org/

#readings #data #ai #datatools #machinelearning #dataengineering
В рубрике как это работает у них Research Resource Identifiers (RRIDs) [1] научный проект по систематизации общедоступных научных ресурсов изначально в области биоинформатики, а далее и для научных дисциплин. Создаётся FAIR Data Informatics Lab в рамках инициативы SciCrunch [2] организованной для повышения доступности ресурсов, баз данных, инструментов для исследователей в их дисциплинах.

В сентябре 2022 года объём RRID составил 500 тысяч записей [3] и включает не только реестры инструментов и данных, но и организмов, плазмидов и других объектов интегрированных из других баз данных. Этот проект как и проект Fairsharing можно сказать является экспансией из управления данными в мире биоинформатики в остальные научные дисциплины. Оба они изначально построены на банках данных в области наук о жизни (life sciences), но позиционируемые как универсальные.

Многие национальные порталы открытых данных также отмечены в RRIDs, например, это портал открытых данных США Data.gov с идентификатором RRID:SCR_004712 [4]. Кстати, портал открытых данных США один из немногих пока национальных порталов данных включённых именно в каталоги научных репозиториев, таких как Re3Data [5]. Таких порталов немного, к ним можно отнести ещё Data.gov.au в Австралии и data.gov.uk в Великобритании, в остальном же обычно национальные порталы скорее агрегируют часть данных из некоторых репозиториев исследовательских данных.

Кстати, если бы власти США решили бы закрыть свой портал открытых данных как это сделало Минэкономразвития в России, то именно учёные там отреагировали бы первыми массовыми запросами, потому что их портал является заметным инструментом распространения открытых данных научных исследований. А то есть перед чиновниками не стоит вопрос зачем он нужен, ответ тут очевиден.

RRID - это пример одного из десятков проектов по систематизации инструментов, результатов, процессов, баз данных и любых элементов научных исследований. Проект существует уже 10 лет, ссылки идентификаторы в нём присутствуют, например, в статьях в PubMed [6].

Ссылки:
[1] https://scicrunch.org/resources
[2] https://scicrunch.org/page/scicrunch
[3] https://scicrunch.org/scicrunch/about/blog/2486
[4] https://scicrunch.org/resources/data/record/nlx_144509-1/SCR_004712/resolver?q=data.gov&l=data.gov&i=rrid:scr_004712
[5] https://www.re3data.org/repository/r3d100010078
[6] https://pubmed.ncbi.nlm.nih.gov/36793799/

#opendata #openaccess #openscience
Я регулярно пишу тут в канале про порталы открытых данных , научные каталоги и другие каталоги данных, а за всем этим стоит пока небольшой проект создания общедоступного поискового индекса по всем доступным данным, открытый аналог Google Search. Он так и называется Common Data Index.
Причём этот проект 4-х этапный, где каждый этап отдельный под проект.

Чтобы создать поисковую систему нужно:
1. Создать реестр большинства каталогов данных
2. Собрать описания наборов данных в первичные индексы
3. Создать единый поисковый индекс и веб интерфейс над ним
4. Создать систему архивации ключевых данных и обогащение поискового индекса информацией из сохранённых наборов данных

Вот так это выглядит в майндмапе.

А вот так выглядит первая часть этого проекта, каталог каталогов данных [1] пока в виде репозитория где каждому каталогу соответствует отдельный YAML файл с метаданными и единый набор данных каталога каталогов собирается в JSONL файл.

Сейчас в этом каталоге каталогов 1736 записей, часть из них надо вычищать как уже недоступные, а многие просто ещё не найдены. потенциально их около 2500-3000. Чем-то проект похож на datacatalogs.ru который мы в @infoculture делали в прошлые годы и тоже как потенциальную основу для поисковика по данным в России.

Сейчас есть понимание что делать поисковик только по российским данным - это недостаточные амбиции, если делать то сразу глобально.

Пока об этом проекте я пишу только тут в телеграм канале, он в стадии проектирования и я его только начал выводить из собственного pet проекта в активную фазу, но что могу сказать сразу так это то что есть большое желание сделать поисковую систему по данным используя технологии о которых я ранее писал - идентификацию семантических типов данных, а также инструменты автоматизации data discovery.

Ссылки:
[1] https://github.com/commondataio/dataportals-registry

#opendata #opensource #projects