Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Google выложили в открытый доступ локальную версию СУБД AlloyDB [1] которую в прошлом году сделали доступной как сервис в своём облаке. Теперь можно скачать бесплатную версию для разработчиков и экспериментировать на своём локальном компьютере. Из заявленных фич AlloyDB - это совместимость с PostgreSQL с более чем 2-х кратным ускорением и колоночные таблицы для ускорения ряда типов запросов. Звучит достаточно интересно чтобы попробовать, насколько интересно чтобы делать на это ставку лично я пока сомневаюсь, потому что бесплатная девелоперская версия означает что в продакшн всё равно надо разворачивать на инфраструктуре Google, а это лишь очередная модель облачного vendor lock-in, лично я не люблю такие ограничения, даже при очень интересных технологиях. К тому же исходный код AlloyDB закрыт, контрибьюта в исходный код PostgreSQL также не планируется.

Не могу не напомнить что совместимых с Postgres баз данных множество и многие - это весьма активные стартапы. У Hasura есть перечень таких СУБД с которыми они работают [2], например, Neon, о которых я писал в июле 2022 г. [3], но у Neon переписанный бэкэнд с открытым кодом [4] как и у ряда других Postgres совместимых СУБД.

А вот реализация колоночных таблиц очень напоминает про Clickhouse, StarRocks и др. подобным продуктам и, быть может, в этой фиче Гугл позиционируют AlloyDB как их альтернативу. Но, опять же, выбирая между близкими по производительности продуктами с открытой лицензией и открытым кодом и без оной, с vendor lock-in и без него, выбор очевиден.

Мне лично особенно не нравится облачный vendor lock-in, потому что одно дело если ты можешь купить корпоративную лицензию, но у тебя потом есть время на миграцию, и другое дело когда ты зависишь от создателя продукта не только разрешением на его использование, но и инфраструктурно.

Поэтому возвращаясь к альтернативам, напомню про Citus [5] которые также реализовали колоночное хранилище для Postgres и с открытым кодом, именно его использует Microsoft в Azure Cosmos DB [6].


Ссылки:
[1] https://cloud.google.com/blog/products/databases/run-alloydb-anywhere
[2] https://hasura.io/docs/latest/databases/postgres/index/
[3] https://t.me/begtin/4113
[4] https://github.com/neondatabase/neon
[5] https://www.citusdata.com/
[6] https://learn.microsoft.com/en-us/azure/cosmos-db/postgresql/concepts-columnar

#opensource #dbms #google
Как развивается цифровая инфраструктура научных данных во Франции. С 2022 года действует проект Un écosystème au service du partage et de l’ouverture des données de recherche (Экосистема на службе обмена и открытия данных исследований ) в виде сайта recherche.data.gouv.fr [1] которая является, с одной стороны частью национального портала открытых данных data.gouv.fr [2], а с другой реализуется Ministère de l'Enseignement Supérieur et de la Recherche (Министерством управления образованием и наукой) в рамках Le deuxième plan national pour la science ouverte (Второго национального плана по открытости науки 2021-2024 включающего темы открытости публикаций, открытости научных данных и открытости программного кода созданного в результате научных исследований.

Особенность французской научной экосистемы в большом числе автономных исследовательских центров которые в рамках этого проекта объединены через специальный комитет Министерства и как участники проекта в ролях кластеров данных (междисциплинарных центров) [4], центром компетенций, ресурсных центров и других участников.

Один из уже доступных результатов проектов - это национальный репозиторий открытых научных данных Recherche Data Gouv Génération datapaper (entrepot.recherche.data.gouv.fr) [5] созданный на базе продукта Dataverse. Там уже опубликованы 2413 наборов данных и 30 тысяч файлов из которых часть данных будет собираться из других научных репозиториев, сейчас подключен SciencesPo [6] и явно будут подключаться другие в течение 2023 года, благо Dataverse это позволяет без особых сложностей.

Одна из целей проекта в том чтобы стать службой европейского открытого научного облака (EOSC) [7], а то есть расширить интеграцию французских исследовательских центров в Европейскую цифровую научную инфраструктуру и, хотя это явно не заявляется, но кажется очень логичным, спозиционировать национальный портал исследовательских данных как один из универсальных репозиториев рекомендуемых ведущими научными изданиями для размещения данных.

В конце концов у китайцев же получается с SciDb [8], так может получится и во Франции, хотя это и выглядит слегка необычно поскольку в Евросоюзе есть наднациональные универсальные репозитории.

Интересно как будет развиваться дальнейшая интеграция раскрываемых государством данных и этого исследовательского портала, рискну предположить появление единого французского поисковика по всем открытым порталам данных, научным и государственным, потому что их много и не все собраны только в федеральных источниках и не все туда агрегируются.

Ссылки:
[1] https://recherche.data.gouv.fr/fr
[2] https://data.gouv.fr
[3] https://cache.media.enseignementsup-recherche.gouv.fr/file/science_ouverte/20/9/MEN_brochure_PNSO_web_1415209.pdf
[4] https://recherche.data.gouv.fr/fr/page/ateliers-de-la-donnee-des-services-generalistes-sur-tout-le-territoire
[5] https://entrepot.recherche.data.gouv.fr
[6] https://data.sciencespo.fr
[7] https://recherche.data.gouv.fr/fr/page/a-propos-de-recherche-data-gouv
[8] https://scidb.cn

#likbez #france #openaccess #opensciences #datasets #datacatalogs #opendata
Вдогонку к рассказу о том французской инфраструктуре открытых научных данных, ещё один французский проект по мониторингу открытости науки. Он так и называется the French Open Science Monitor [1] и построен на мониторинге публикаций открытого доступа с Crossref DOI. Очень удобно когда все исследователи в стране публикуют статьи только с DOI и отмечают какие публикации открытые, а какие нет.

А также отдельно они мониторят упоминания наборов данных и программных продуктов в научных статьях. Например, по наборам данных, упоминания выросли с 13% до 22% всех статей.

Чуть ли не самый знаковый показатель - это число статей в которых есть отметка о доступности данных, звучит как Data Availability Statement. Так вот число таких статей выросло с 1% в 2013 году, до 21% в 2021 году. О том что это такое можно почитать например в разделе открытых исследований ЕС [2]

Французский опыт наблюдения за открытостью науки весьма неплохо даёт представление о KPI которые может/должно ставить профильное министерство в реализациях программ по открытости науки, в странах где такие планы есть или предполагаются.

Ссылки:
[1] https://frenchopensciencemonitor.esr.gouv.fr/
[2] https://open-research-europe.ec.europa.eu/for-authors/data-guidelines#dataavailabilitystatement

#opendata #openscience #openaccess #france #europe
Меня сильно меньше в последнее время интересует состояние госинформатизации в России, слишком много антипримеров, слишком очевидны причины провалов и ещё много чего. Поэтому пишу я всё реже по этой теме и вот только сейчас не сдержусь, но опять же в контексте не только российской информатизации.

РБК пишут [1] про то что у Счетной палаты возникли претензии с порталу Работа для всех [2] с логичными вопросами о том что же так получается, столько денег потрачено, а работает хреноватенько, по сравнению с коммерческими порталами. Вопросы все, наверное, справедливые, претензии правильные и всё такое.

Вот только проблема в другом, проблема, я бы сказал, куда серьёзнее. Проблема в том что государство в лице Роструда вышло на создание продукта для массового потребителя в ситуации активного, конкурентного и состоявшегося рынка. Кроме HH и SuperJob существуют десятки если не сотни сервисов поиска вакансий и специалистов формирующих довольно успешные экосистемы с хантерами, работодателями, другими сервисами и игроками на рынке.

Так вот, ключевое в том что на этом рынке государству с самого начала делать нечего, портала Труд Всем просто не должно было существовать потому что трата денег на него - это бессмысленное сжигание средств налогоплательщиков. Я подозреваю что если аудиторы СП заглянули не только в статистику посещаемости, а ещё и опросили бы HR'ов компаний нужен ли им такой портал, оказались бы выводы куда плачевнее.

Но ведь есть Роструд скажете вы, есть центры занятости, они же там не собачий censored censored, а делом занимаются, им же нужны аналитика и данные. Так вот что я скажу, государство должно регулировать и обеспечивать мониторинг, сложившийся активный рынок продукты создаст сам. Если центры занятости хоть зачем-то ещё нужны (а есть сомнения) то всё что должен был сделать Роструд - это предоставлять собираемые из центров данные порталам поиска работы как открытые данные, через дампы и через API.

Второе что должен был Роструд делать - это собирать аналитику, статистику и ещё многие данные от коммерческих игроков для мониторинга рынка труда, публикуя хоть еженедельно аналитику по зарплатам, ожиданиям работников, востребованности профессий и так далее.

Вышло бы дешевле и было бы эффективнее. Но дешевле это не про российские ФОИВы.

А теперь у ТрудВсем одна судьба, переходить на Гостех как можно скорее. Почему? Потому что все тухлые яйца в одной корзине ронять проще!

Ссылки:
[1] https://www.rbc.ru/technology_and_media/30/03/2023/64242ef19a7947e130ede9d4
[2] https://trudvsem.ru/

#government #russia
Целенаправленный поиск данных в мире привычно называется data discovery (или "обнаружение данных") и его применение можно разделить на корпоративное и общедоступное.

Корпоративное применение этого термина - это про корпоративные каталоги данных, специальные внутренние инструменты для идентификации всех используемых баз данных, таблиц в них и сопровождающей информации. Корпоративные задачи data discovery - это идентификации персональных данных и соответствие требованиям законодательства, это систематизация данных для работы аналитиков, инженеров и разработчиков и, реже, но набирающее популярность применение - это идентификация данных для машинного обучения.
Всё это решается коммерческими или открытыми продуктами вроде Open Metadata, Datahub и им подобным. О том что это подробнее на английском можно легко нагуглить, или прочитать, например, тут [1]. Как-нибудь я напишу об этом этом подробнее в лонгрид в рассылку

Параллельно этом data discovery среди общедоступных данных - это поиск данных необходимых для исследовательских или рабочих задач. Как правило, это поиск открытых данных, либо данных имеющих какой-либо регламентированный доступ или возможность их запросить. Наиболее очевидный способ поиска - это привычные поисковые системы где вбиваешь что ищешь и добавляешь слова "data" или "dataset', чуть менее очевидный, но специализированный - это воспользоваться поиском Google для наборов данных он всё ещё экспериментальный, сильно зашумлённый SEOшниками коммерческих продуктов [3], но пока ничего другого сравнимого нет. Ни в Bing, ни в Ya[ndex] ничего подобного нет.

Есть ли альтернативы? Какие ещё системы поиска по данным существуют? Они есть, их не так много и они чаще всего специализированы.
Итак:
- ArcGIS Hub search https://hub.arcgis.com/search - поисковая система по наборам данных опубликованных клиентами сервиса ArcGIS Hub, используемом широко в мире (в основном в США) для публикации геоданных и открытых данных. Это один из крупных поисковиков именно по разным геоданным.
- OpenAIRE explore.openaire.eu - поисковая система по результатам научной деятельности (research output) в Евросоюзе, в первую очередь, но не только. Наборы данных подпадают под научную деятельность и OpenAIRE крупнейший индексатор и поисковик по подобным данным.
- Datacite Commons commons.datacite.org - DataCite является одним из сервисов выдачи DOI со специализацией на данных. Их поиск работает по всем работам получавшим DOI через их сервис. Являются одним из источников для OpenAIRE
- Da | Ra www.da-ra.de - поисковая система по открытым научным данным Германии
- DANS EASY easy.dans.knaw.nl - поисковая система по открытым научным данным Нидерландов
- DataMed datamed.org поисковая система по наборам данных в медицине

Этот список неполон, я постарался указать лишь наиболее известные поисковые системы и обращаю внимание что в основном они создаются вокруг данных открытости науки. Исключение лишь ArcGIS Hub, но сколь долго он будет существовать неизвестно, поскольку коммерческая польза для него для компании неочевидна.

А вот в сторону всё большего ухода в концепцию о том что open data = open research data уходят очень многие системы инфраструктуры открытости. Google Datasets в документации и дорожной карте показывают всё более тесную интеграцию с научными дата репозиториями, индексацию ORCID, DOI, ROR, связывание научных статей и цитируемых ими научных данных. Я лично не удивлюсь если в какой-то момент Google объединят поиск по наборам данных и Google Scholar. Во всяком случае в этом будет некая существенная логика.

Ссылки:
[1] https://snowplow.io/blog/data-discovery/
[2] https://datasetsearch.research.google.com/
[3] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d

#opendata #datadiscovery #datasearch #datasets #likbez
Не обещаю часто пересылать сюда стихи, но уже почти 1е апреля, так что раз в год можно;)
Forwarded from ministryofpoems
Я тот кто думает таблицами
Я считаю таблицы, рисую таблицы, проектирую таблицы
Когда я пишу текст, я начинаю его с таблицы
Я превращаю в таблицы чужие тексты
Даже раздевая глазами красивых женщин я свожу все в таблицу в голове
Я хорош в своем деле
И только глубокими темными ночами я распеваю матерные частушки
Негромко
Вчера команда Твиттера выложила в открытый доступ описание [1] их рекомендательного алгоритма с подробностями и описанием его работы. И, более того, они выложили два репозитория открытого кода их рекомендательной системы и модели для машинного обучения [2] [3].

Здесь важно понимать правильно этот шаг, это не открытые библиотеки кода для совместной разработки или проект с открытым кодом передаваемый сообществу, это явно именно раскрытие кода для разговоров с регуляторами которые спят и видят всерьёз рассматривают введение требований к социальным сетям именно в части формирования рекомендательных списков для чтения.

Кто последует в след за Twitter'ом? Увидим ли мы исходный код формирования ленты в Facebook'е, например?

Ссылки:
[1] https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
[2] https://github.com/twitter/the-algorithm
[3] https://github.com/twitter/the-algorithm-ml

#opensource #twitter #machinelearning
Для тех кто ищет данные, в том числе не всегда документированные, оказывается у Роскосмоса есть точка подключения к геоданным [1] по спецификации STAC. Он внесён в STAC Index как ERS open data [3] и, похоже, нигде в русскоязычных/российских ресурсах и каталогах данных не упомянут.

Условия использования там проприетарные, тем не менее сам по себе этот факт интересен, о доступности подобных данных и в стандартизированных форматах удаётся узнать из международных инициатив, а не российских.

Причём, судя по метаданным, STAC каталог Роскосмоса добавили в глобальный в октябре 2022 года.


Ссылки:
[1] https://s3ext.gptl.ru/stac-web-free/catalog.json
[2] https://stacspec.org/
[3] https://stacindex.org/catalogs/ers-open-data#/

#opendata #roscosmos #datasets
Существенный элемент открытой инфраструктуры геопространственных данных в Европейском союзе - это каталоги геоданных стран входящих в ЕС, где в последние годы появились каталоги данных и метаданных на базе движка с открытым кодом Geonetwork [1]. Geonetwork - это каталог геоданных с открытым кодом [2] созданный Open Source Geospatial Foundation, поддерживаемый компанией GeoCat [3] и доступный, как для самостоятельной установки и использования, так и с поддержкой по типичной бизнес модели продуктов с открытым кодом.

Geonetwork приобрёл существенную популярность в последние годы и именно его используют разработчики многие национальных порталов открытых геоданных в развитых странах. В частности большая часть национальных каталогов геоданных в Европейском союзе созданных или развивающихся в рамках программы INSPIRE работают на Geonetwork [4]. Например, на Geonetwork работает портал геоданных Новой Зеландии [5] и Эстонии [6].

Хотя разработчики продукта и собирают информацию о его установках и есть список из 65 порталов данных, на самом деле их больше, поскольку многие устанавливают самостоятельно. Например, там не перечислены порталы геоданных на базе Geonetwork в Армении:
- The Armenian Soil Information System (ArmSIS) [8]
- The Center for Ecological-Noosphere Studies NAS RA Data Portal [9]

или в Киргизии:
- Каталог метаданных [10]

или в России
- Каталог ГГМ РАН [11]

Таких примеров множество. Geonetwork постепенно становится, а может быть уже и стал стандартом де-факто для публикации геоданных, по аналогии с CKAN, API которого стало стандартом для публикации открытых данных. При том что продукту уже 19 лет, он активно развивается.

Данные из серверов Geonetwork активно агрегируются наднациональными порталами данных, таких как data.europe.eu и видны и находимы в основном благодаря именно этому, поскольку сами сервера Geonetwork никогда не оптимизировались под поисковые системы и не попадают, например, в поиск наборов данных Google.

Ссылки:
[1] https://geonetwork-opensource.org
[2] https://github.com/geonetwork
[3] https://www.geocat.net
[4] https://inspire-geoportal.ec.europa.eu/overview.html?view=thematicEuOverview&theme=none
[5] https://geodata.nz
[6] https://metadata.geoportaal.ee
[7] https://github.com/geonetwork/doc/blob/develop/source/annexes/gallery/gallery-urls.csv
[8] https://armsis.cas.am
[9] http://gn.cens.am:8080/geonetwork
[10] http://nsdi.kg:8070/geonetwork/
[11] https://maps.geologyscience.ru/geonetwork/

#opendata #geodata #datasets #opensource #likbez
Новости закрытия открытых данных в России

Портал открытых данных http://opendata25.primorsky.ru отключен, вместо него Администрация области запустила портал https://opendata.primorsky.ru. Впрочем если на первом публиковалось 7 наборов административных данных, то на новом не сильно больше, 13 наборов данных. Все про инфраструктуру, ничего существенного.

Портал открытых данных города Перми https://opendata.perm.ru более недоступен, ранее там публиковалось более 480 наборов данных. Вместо него власти города разместили одностраничный лендинг https://opendata.gorodperm.ru с двумя наборами данных: режим работы и телефонный справочник. Последнее выглядит как форменное издевательство если честно.

В остальном открытые данные не исчезают с российских госпорталов только по той причине что это довольно бессмысленные административные данные с общими сведениями об учреждениях, но даже они не обновляются, некоторые по 5-6, а некоторые и по 9 лет.

#opendata #closeddata #russia
В рубрике как это работает у них

Я где-то год назад рассказывал том что правительства многих стран создают специализированные порталы для разработчиков в виде каталогов API [1]. Это такие страны как Великобритания, Франция, Австралия, Арабские Эмираты, например.

А вот и свежий пример, портал API Домиканской республики [2]. API там пока немного, всего 5, зато систематизировано.

Во Франции тем временем теперь уже крупнейший каталог госAPI в api.gouv.fr, более 100 задокументированных точек подключения [3]

Причём во всех странах практически есть API у правительственных информационных систем даже если те кто их эксплуатируют об этом не знают, то всё равно будут недокументированные API. Но такое незнание может быть только об необразованности, обычно всё знают, и обычно всё совершенно не систематизировано.

Порталы каталогов API - это, по сути, работы исключительно по документированию того что уже и так есть.

Через API часто предоставляют доступ к данным, особенно данным реального времени, сервисам требующим авторизации, иным сервисам необходимым для взаимодействия с государственными системами.

Ссылки:
[1] https://t.me/begtin/4608
[2] https://developer.digital.gob.do
[3] https://api.gouv.fr

#opendata #apis #government #dominicana
Команда Meltano, ETL/ELT продукта вышедшего из инженерной команды Gitlab, преданонсировали запуск Meltano Cloud [1], облачной версии их продукта, пока без цен, что чуть ли не самое важное, так что ждём.

А также они полностью обновили интерфейс хаба коннекторов Meltano Hub [2] где можно подобрать коннектор для специфичных сервисов и подключить его в свой экземпляр Meltano.

Облачные продукты на базе open source довольно распространены, это чуть ли не основная бизнес модель сейчас для новых СУБД и инфраструктурных продуктов. В этом смысле Meltano один из продуктов за которыми я давно слежу, от активного использования их ETL лично меня сдерживают те же ограничения что у большинства ETL/ELT продуктов - это ориентация на модель SQL-only и преимущественно на работу с плоскими таблицами. Не для всех задач с которыми лично я сталкиваюсь это годится.

В остальном, Meltano один из продуктов и стартапов по работе с данными за которыми я лично наблюдаю. Как-нибудь сделаю список из всех о которых я писал и за которыми слежу. Они преимущественно с открытым кодом, таких дата продуктов немало.

Ссылки:
[1] https://meltano.com/cloud/
[2] https://hub.meltano.com/

#opensource #etl #startups #data #elt