Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Вдогонку к рассказу о том французской инфраструктуре открытых научных данных, ещё один французский проект по мониторингу открытости науки. Он так и называется the French Open Science Monitor [1] и построен на мониторинге публикаций открытого доступа с Crossref DOI. Очень удобно когда все исследователи в стране публикуют статьи только с DOI и отмечают какие публикации открытые, а какие нет.

А также отдельно они мониторят упоминания наборов данных и программных продуктов в научных статьях. Например, по наборам данных, упоминания выросли с 13% до 22% всех статей.

Чуть ли не самый знаковый показатель - это число статей в которых есть отметка о доступности данных, звучит как Data Availability Statement. Так вот число таких статей выросло с 1% в 2013 году, до 21% в 2021 году. О том что это такое можно почитать например в разделе открытых исследований ЕС [2]

Французский опыт наблюдения за открытостью науки весьма неплохо даёт представление о KPI которые может/должно ставить профильное министерство в реализациях программ по открытости науки, в странах где такие планы есть или предполагаются.

Ссылки:
[1] https://frenchopensciencemonitor.esr.gouv.fr/
[2] https://open-research-europe.ec.europa.eu/for-authors/data-guidelines#dataavailabilitystatement

#opendata #openscience #openaccess #france #europe
Меня сильно меньше в последнее время интересует состояние госинформатизации в России, слишком много антипримеров, слишком очевидны причины провалов и ещё много чего. Поэтому пишу я всё реже по этой теме и вот только сейчас не сдержусь, но опять же в контексте не только российской информатизации.

РБК пишут [1] про то что у Счетной палаты возникли претензии с порталу Работа для всех [2] с логичными вопросами о том что же так получается, столько денег потрачено, а работает хреноватенько, по сравнению с коммерческими порталами. Вопросы все, наверное, справедливые, претензии правильные и всё такое.

Вот только проблема в другом, проблема, я бы сказал, куда серьёзнее. Проблема в том что государство в лице Роструда вышло на создание продукта для массового потребителя в ситуации активного, конкурентного и состоявшегося рынка. Кроме HH и SuperJob существуют десятки если не сотни сервисов поиска вакансий и специалистов формирующих довольно успешные экосистемы с хантерами, работодателями, другими сервисами и игроками на рынке.

Так вот, ключевое в том что на этом рынке государству с самого начала делать нечего, портала Труд Всем просто не должно было существовать потому что трата денег на него - это бессмысленное сжигание средств налогоплательщиков. Я подозреваю что если аудиторы СП заглянули не только в статистику посещаемости, а ещё и опросили бы HR'ов компаний нужен ли им такой портал, оказались бы выводы куда плачевнее.

Но ведь есть Роструд скажете вы, есть центры занятости, они же там не собачий censored censored, а делом занимаются, им же нужны аналитика и данные. Так вот что я скажу, государство должно регулировать и обеспечивать мониторинг, сложившийся активный рынок продукты создаст сам. Если центры занятости хоть зачем-то ещё нужны (а есть сомнения) то всё что должен был сделать Роструд - это предоставлять собираемые из центров данные порталам поиска работы как открытые данные, через дампы и через API.

Второе что должен был Роструд делать - это собирать аналитику, статистику и ещё многие данные от коммерческих игроков для мониторинга рынка труда, публикуя хоть еженедельно аналитику по зарплатам, ожиданиям работников, востребованности профессий и так далее.

Вышло бы дешевле и было бы эффективнее. Но дешевле это не про российские ФОИВы.

А теперь у ТрудВсем одна судьба, переходить на Гостех как можно скорее. Почему? Потому что все тухлые яйца в одной корзине ронять проще!

Ссылки:
[1] https://www.rbc.ru/technology_and_media/30/03/2023/64242ef19a7947e130ede9d4
[2] https://trudvsem.ru/

#government #russia
Целенаправленный поиск данных в мире привычно называется data discovery (или "обнаружение данных") и его применение можно разделить на корпоративное и общедоступное.

Корпоративное применение этого термина - это про корпоративные каталоги данных, специальные внутренние инструменты для идентификации всех используемых баз данных, таблиц в них и сопровождающей информации. Корпоративные задачи data discovery - это идентификации персональных данных и соответствие требованиям законодательства, это систематизация данных для работы аналитиков, инженеров и разработчиков и, реже, но набирающее популярность применение - это идентификация данных для машинного обучения.
Всё это решается коммерческими или открытыми продуктами вроде Open Metadata, Datahub и им подобным. О том что это подробнее на английском можно легко нагуглить, или прочитать, например, тут [1]. Как-нибудь я напишу об этом этом подробнее в лонгрид в рассылку

Параллельно этом data discovery среди общедоступных данных - это поиск данных необходимых для исследовательских или рабочих задач. Как правило, это поиск открытых данных, либо данных имеющих какой-либо регламентированный доступ или возможность их запросить. Наиболее очевидный способ поиска - это привычные поисковые системы где вбиваешь что ищешь и добавляешь слова "data" или "dataset', чуть менее очевидный, но специализированный - это воспользоваться поиском Google для наборов данных он всё ещё экспериментальный, сильно зашумлённый SEOшниками коммерческих продуктов [3], но пока ничего другого сравнимого нет. Ни в Bing, ни в Ya[ndex] ничего подобного нет.

Есть ли альтернативы? Какие ещё системы поиска по данным существуют? Они есть, их не так много и они чаще всего специализированы.
Итак:
- ArcGIS Hub search https://hub.arcgis.com/search - поисковая система по наборам данных опубликованных клиентами сервиса ArcGIS Hub, используемом широко в мире (в основном в США) для публикации геоданных и открытых данных. Это один из крупных поисковиков именно по разным геоданным.
- OpenAIRE explore.openaire.eu - поисковая система по результатам научной деятельности (research output) в Евросоюзе, в первую очередь, но не только. Наборы данных подпадают под научную деятельность и OpenAIRE крупнейший индексатор и поисковик по подобным данным.
- Datacite Commons commons.datacite.org - DataCite является одним из сервисов выдачи DOI со специализацией на данных. Их поиск работает по всем работам получавшим DOI через их сервис. Являются одним из источников для OpenAIRE
- Da | Ra www.da-ra.de - поисковая система по открытым научным данным Германии
- DANS EASY easy.dans.knaw.nl - поисковая система по открытым научным данным Нидерландов
- DataMed datamed.org поисковая система по наборам данных в медицине

Этот список неполон, я постарался указать лишь наиболее известные поисковые системы и обращаю внимание что в основном они создаются вокруг данных открытости науки. Исключение лишь ArcGIS Hub, но сколь долго он будет существовать неизвестно, поскольку коммерческая польза для него для компании неочевидна.

А вот в сторону всё большего ухода в концепцию о том что open data = open research data уходят очень многие системы инфраструктуры открытости. Google Datasets в документации и дорожной карте показывают всё более тесную интеграцию с научными дата репозиториями, индексацию ORCID, DOI, ROR, связывание научных статей и цитируемых ими научных данных. Я лично не удивлюсь если в какой-то момент Google объединят поиск по наборам данных и Google Scholar. Во всяком случае в этом будет некая существенная логика.

Ссылки:
[1] https://snowplow.io/blog/data-discovery/
[2] https://datasetsearch.research.google.com/
[3] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d

#opendata #datadiscovery #datasearch #datasets #likbez
Не обещаю часто пересылать сюда стихи, но уже почти 1е апреля, так что раз в год можно;)
Forwarded from ministryofpoems
Я тот кто думает таблицами
Я считаю таблицы, рисую таблицы, проектирую таблицы
Когда я пишу текст, я начинаю его с таблицы
Я превращаю в таблицы чужие тексты
Даже раздевая глазами красивых женщин я свожу все в таблицу в голове
Я хорош в своем деле
И только глубокими темными ночами я распеваю матерные частушки
Негромко
Вчера команда Твиттера выложила в открытый доступ описание [1] их рекомендательного алгоритма с подробностями и описанием его работы. И, более того, они выложили два репозитория открытого кода их рекомендательной системы и модели для машинного обучения [2] [3].

Здесь важно понимать правильно этот шаг, это не открытые библиотеки кода для совместной разработки или проект с открытым кодом передаваемый сообществу, это явно именно раскрытие кода для разговоров с регуляторами которые спят и видят всерьёз рассматривают введение требований к социальным сетям именно в части формирования рекомендательных списков для чтения.

Кто последует в след за Twitter'ом? Увидим ли мы исходный код формирования ленты в Facebook'е, например?

Ссылки:
[1] https://blog.twitter.com/engineering/en_us/topics/open-source/2023/twitter-recommendation-algorithm
[2] https://github.com/twitter/the-algorithm
[3] https://github.com/twitter/the-algorithm-ml

#opensource #twitter #machinelearning
Для тех кто ищет данные, в том числе не всегда документированные, оказывается у Роскосмоса есть точка подключения к геоданным [1] по спецификации STAC. Он внесён в STAC Index как ERS open data [3] и, похоже, нигде в русскоязычных/российских ресурсах и каталогах данных не упомянут.

Условия использования там проприетарные, тем не менее сам по себе этот факт интересен, о доступности подобных данных и в стандартизированных форматах удаётся узнать из международных инициатив, а не российских.

Причём, судя по метаданным, STAC каталог Роскосмоса добавили в глобальный в октябре 2022 года.


Ссылки:
[1] https://s3ext.gptl.ru/stac-web-free/catalog.json
[2] https://stacspec.org/
[3] https://stacindex.org/catalogs/ers-open-data#/

#opendata #roscosmos #datasets
Существенный элемент открытой инфраструктуры геопространственных данных в Европейском союзе - это каталоги геоданных стран входящих в ЕС, где в последние годы появились каталоги данных и метаданных на базе движка с открытым кодом Geonetwork [1]. Geonetwork - это каталог геоданных с открытым кодом [2] созданный Open Source Geospatial Foundation, поддерживаемый компанией GeoCat [3] и доступный, как для самостоятельной установки и использования, так и с поддержкой по типичной бизнес модели продуктов с открытым кодом.

Geonetwork приобрёл существенную популярность в последние годы и именно его используют разработчики многие национальных порталов открытых геоданных в развитых странах. В частности большая часть национальных каталогов геоданных в Европейском союзе созданных или развивающихся в рамках программы INSPIRE работают на Geonetwork [4]. Например, на Geonetwork работает портал геоданных Новой Зеландии [5] и Эстонии [6].

Хотя разработчики продукта и собирают информацию о его установках и есть список из 65 порталов данных, на самом деле их больше, поскольку многие устанавливают самостоятельно. Например, там не перечислены порталы геоданных на базе Geonetwork в Армении:
- The Armenian Soil Information System (ArmSIS) [8]
- The Center for Ecological-Noosphere Studies NAS RA Data Portal [9]

или в Киргизии:
- Каталог метаданных [10]

или в России
- Каталог ГГМ РАН [11]

Таких примеров множество. Geonetwork постепенно становится, а может быть уже и стал стандартом де-факто для публикации геоданных, по аналогии с CKAN, API которого стало стандартом для публикации открытых данных. При том что продукту уже 19 лет, он активно развивается.

Данные из серверов Geonetwork активно агрегируются наднациональными порталами данных, таких как data.europe.eu и видны и находимы в основном благодаря именно этому, поскольку сами сервера Geonetwork никогда не оптимизировались под поисковые системы и не попадают, например, в поиск наборов данных Google.

Ссылки:
[1] https://geonetwork-opensource.org
[2] https://github.com/geonetwork
[3] https://www.geocat.net
[4] https://inspire-geoportal.ec.europa.eu/overview.html?view=thematicEuOverview&theme=none
[5] https://geodata.nz
[6] https://metadata.geoportaal.ee
[7] https://github.com/geonetwork/doc/blob/develop/source/annexes/gallery/gallery-urls.csv
[8] https://armsis.cas.am
[9] http://gn.cens.am:8080/geonetwork
[10] http://nsdi.kg:8070/geonetwork/
[11] https://maps.geologyscience.ru/geonetwork/

#opendata #geodata #datasets #opensource #likbez
Новости закрытия открытых данных в России

Портал открытых данных http://opendata25.primorsky.ru отключен, вместо него Администрация области запустила портал https://opendata.primorsky.ru. Впрочем если на первом публиковалось 7 наборов административных данных, то на новом не сильно больше, 13 наборов данных. Все про инфраструктуру, ничего существенного.

Портал открытых данных города Перми https://opendata.perm.ru более недоступен, ранее там публиковалось более 480 наборов данных. Вместо него власти города разместили одностраничный лендинг https://opendata.gorodperm.ru с двумя наборами данных: режим работы и телефонный справочник. Последнее выглядит как форменное издевательство если честно.

В остальном открытые данные не исчезают с российских госпорталов только по той причине что это довольно бессмысленные административные данные с общими сведениями об учреждениях, но даже они не обновляются, некоторые по 5-6, а некоторые и по 9 лет.

#opendata #closeddata #russia
В рубрике как это работает у них

Я где-то год назад рассказывал том что правительства многих стран создают специализированные порталы для разработчиков в виде каталогов API [1]. Это такие страны как Великобритания, Франция, Австралия, Арабские Эмираты, например.

А вот и свежий пример, портал API Домиканской республики [2]. API там пока немного, всего 5, зато систематизировано.

Во Франции тем временем теперь уже крупнейший каталог госAPI в api.gouv.fr, более 100 задокументированных точек подключения [3]

Причём во всех странах практически есть API у правительственных информационных систем даже если те кто их эксплуатируют об этом не знают, то всё равно будут недокументированные API. Но такое незнание может быть только об необразованности, обычно всё знают, и обычно всё совершенно не систематизировано.

Порталы каталогов API - это, по сути, работы исключительно по документированию того что уже и так есть.

Через API часто предоставляют доступ к данным, особенно данным реального времени, сервисам требующим авторизации, иным сервисам необходимым для взаимодействия с государственными системами.

Ссылки:
[1] https://t.me/begtin/4608
[2] https://developer.digital.gob.do
[3] https://api.gouv.fr

#opendata #apis #government #dominicana
Команда Meltano, ETL/ELT продукта вышедшего из инженерной команды Gitlab, преданонсировали запуск Meltano Cloud [1], облачной версии их продукта, пока без цен, что чуть ли не самое важное, так что ждём.

А также они полностью обновили интерфейс хаба коннекторов Meltano Hub [2] где можно подобрать коннектор для специфичных сервисов и подключить его в свой экземпляр Meltano.

Облачные продукты на базе open source довольно распространены, это чуть ли не основная бизнес модель сейчас для новых СУБД и инфраструктурных продуктов. В этом смысле Meltano один из продуктов за которыми я давно слежу, от активного использования их ETL лично меня сдерживают те же ограничения что у большинства ETL/ELT продуктов - это ориентация на модель SQL-only и преимущественно на работу с плоскими таблицами. Не для всех задач с которыми лично я сталкиваюсь это годится.

В остальном, Meltano один из продуктов и стартапов по работе с данными за которыми я лично наблюдаю. Как-нибудь сделаю список из всех о которых я писал и за которыми слежу. Они преимущественно с открытым кодом, таких дата продуктов немало.

Ссылки:
[1] https://meltano.com/cloud/
[2] https://hub.meltano.com/

#opensource #etl #startups #data #elt
В Великобритании Центральный офис по цифре и данным анонсировал появление Data Maturity Assessment for Government (DMA) [1] руководство по оценке дата-зрелости органов власти и государственных организаций. Подробный документ с критериями уровней зрелости по 97 пунктам.

Там, конечно, есть и про открытые данные, но важнее не это а блок Topic 9: Setting your data direction в котором по умолчанию принимается что у организации есть стратегия работы с данными и далее лишь вопрос качества этой стратегии и коммуникации.

Что характерно в России ни на национальном уровне, ни на уровне отдельных органов и правительств субъектов федерации таких стратегий нет. Поэтому оценка по уровням зрелости будет невысокой.

А вот для многих постсоветских стран ещё раздумывающих над созданием офисов по цифре и данным стоит обратить внимание на этот документ, по сути он является руководством о том как системно организуется работа с данными в госсекторе.

Ссылки:
[1] https://cddo.blog.gov.uk/2023/03/27/strengthening-outcomes-for-the-public-through-better-data-maturity/
[2] https://www.gov.uk/government/publications/data-maturity-assessment-for-government-framework/data-maturity-assessment-for-government-framework-html

#opendata #data #government #regulation #policies #uk
Когда пишешь про любое недокументированное API, неочевидные данные и тд. всегда есть риск что прочитают об этом ответственные за ту систему откуда это API или данные доступны и всё исчезнет. Поэтому я приведу несколько примеров недокументированных API и данных которые не очень жалко, но они иллюстративны.

В качестве примеров порталы геоданных:
- сайт Новые инвестиционные проекты от Минэкономразвития России работает на базе GeoServer [1] и экспортирует 25 слоёв геоданных. Удивительное дело, их не было на портале data.gov.ru, наверное потому что сотрудники Минэка России про него и не знают;)
- сайт Транспорт Москвы тоже на базе GeoServer [2], но московских данных там нет, только какие-то международные
- открытое и документированное API есть у геопортала Ульяновской области [3], но о том что оно есть надо знать, поскольку оно мало где упоминается, если вообще упоминается

Всё это вдогонку к огромному числу сайтов с CMS позволяющими экспортировать данные, геосерверам ArcGIS, сайтам с REST API и graphql на бэкэнде.

В этом смысле в России много данных просто потому что в создание этих информационных систем вбуханы огромные деньги. Если поискать по сайтам большей части среднеазиатских стран или Армении, то данных там гораздо меньше просто из-за меньших затрат на информатизацию.

Зато могу сказать что в Иране тоже есть общедоступные геоданные в рамках национальной инфраструктуры геопространственных данных и тоже на GeoServer [4]. От открытых данных эти данные отличаются только отсутствием свободных лицензий.

Ссылки:
[1] https://mnp.economy.gov.ru/geoserver
[2] https://transport.mos.ru/geoserver/
[3] http://geo.ulgov.ru/docs/developer/api
[4] https://iransdi.ncc.gov.ir/geoserver

#opendata #datasets #undocumentedapi #apis #russia #iran #geodata
В рубрике как это работает у них, инфраструктура научных данных в Германии включает большое число исследовательский и университетских репозиториев данных и других результатов научной деятельности. Многие репозитории работают на без open-source ПО каталога научных данных Dataverse, например, DaRUS [1] университета Штудгарта или HeiData [2] Университета Хельдельберга. Всего в Германии мне известно 10 репозиториев научных данных именно на базе Dataverse.

Одновременно с Dataverse активно используется относительно новый open-source продукт каталога данных InvenioRDM, на нём работает репозиторий научных данных Университета Гамбурга [3] и архив данных RODARE [4]

Но гораздо более популярными являются репозитории данных на базе таких продуктов как DSpace и специфичного для Германии MyCore. DSPace - это распространённый продукт в академической и архивной среде для хранения условно любого контента с метаданными, в Германии DSpace весьма распространён и на его базе публикуются, в том числе наборы данных. К примеру, архив OpARA [5] Технического университета Дрездена.

И отдельно про MyCore [6], это аналог DSpace особенно распространённый в Германии. На нём созданы десятки порталов раскрытия научных результатов университетов по всей стране [7] и как и DSpace он создан для сохранения и поиска любого контента с расширяемыми наборами метаданных, что особенно актуально в научной среде. В MyCore часто сохраняют данные о статьях, научных тезисах, диссертациях, архивах, изображениях и, в том числе, исследовательских данных. А некоторые репозитории изначально создаются на MyCore чтобы сохранять только данные. Например, реестр научных данных Университета Киель [8]

И, дополнительно, необходимо отметить такие проекты как PANGAEA [9], огромный репозиторий научных данных о земле и поисковик по научным данным Германии [10] на базе сервиса da|RA по выдаче DOI.

Данные германских исследовательских центров практически все в значительном объёме проиндексированы в общеевропейском проекте OpenAIRE.

Ссылки:
[1] https://darus.uni-stuttgart.de
[2] https://heidata.uni-heidelberg.de/
[3] https://www.fdr.uni-hamburg.de
[4] https://rodare.hzdr.de/
[5] https://opara.zih.tu-dresden.de/xmlui/
[6] https://www.mycore.de/
[7] https://www.mycore.de/site/applications/list/
[8] https://opendata.uni-kiel.de
[9] https://pangaea.de/
[10] https://www.da-ra.de/search

#opendata #germany #datasets #openaccess #openscience
Где искать большие данные для исследований? Машинного обучения? Тренировки алгоритмов?

Источников много, я упомяну сейчас те о которых ранее не писал:

- Academic Torrents https://academictorrents.com/ - торрент-трекер для исследователей для публикации данных особо большого объёма. Более 14ТБ данных, большая часть для машинного обучения

- Archive.org datasets https://archive.org/details/datasets - наборы данных собранные в коллекции Интернет архива. Наборов данных более 9 тысяч и данные большого объёма

- Hyper.ai Datasets https://hyper.ai/datasets наборы данных китайской компании Hyper.AI. Тоже большого объёма и раздают данные через torrent'ы

- Toloka Datasets https://toloka.ai/datasets/ - открытые наборы данных компании Toloka, все про машинное обучение, варьируются от очень небольших, до десятков гигабайт

- The SpaceNet Datasets https://spacenet.ai/datasets/ - коллекция наборов данных проекта SpaceNet, открытые наборы данных от компании Maxar, поставщика данных спутникового мониторинга

- Granular Datasets https://granular.ai/datasets - много наборов данных для машинного обучения на данных спутниковых снимков и иных снимков

- Наборы данных Центра диагностики и телемедицины https://mosmed.ai/datasets/ - один из немногих открытых источников больших и открытых данных для машинного обучения в России, большая часть данных открыты или доступны по запросу. Публикуется профильным ГБУ при правительстве Москвы

#opendata #datasets #data #machinelearning
Bloomberg (компания) анонсировали создание FOSS Contributor Fund (Фонда поддержки свободного программного обеспечения) [1] и обещают каждый квартал отбирать по 3 проекта с открытым кодом и раздавать им по $10 000 каждому. В первый раз поддержали такие проекты как: Apache Arrow, curl и Celery. Причём, Apache Arrow - это проект про данные точно, curl - скорее про базовое ПО используемое повсюду, а Celery про цифровую инфраструктуру.

Кстати, фонд поддержки открытого кода был у Salesforce, но потом они его заменили на прямую поддержку тех проектов которые им нравятся [2], а также FOSS fund есть у Microsoft [3], они раздают по $500, а в Indeed опубликовали книжку Investing in Open Source: The FOSS Contributor Fund [4] в 2019 году.

Ещё FOSS fund есть у компании Prisma [5] и многих других.

Фонды поддержки открытого ПО - это хорошая форма корпоративной социальной ответственности. Жаль лишь что их так немного, и хорошо что становится больше.

Ссылки:
[1] https://www.bloomberg.com/company/stories/bloomberg-ospo-launches-foss-contributor-fund/
[2] https://engineering.salesforce.com/open-source/
[3] https://github.com/microsoft/foss-fund
[4] https://opensource.indeedeng.io/Investing-in-Open-Source/
[5] https://www.prisma.io/blog/prisma-foss-fund-announcement-XW9DqI1HC24L

#opensource #funding #fundrising
Возможно ИИ не так сильно угрожает рынку труда как многие говорят, но инвестиции в генеративный ИИ сейчас огромны. И взрывной их рост произошел всего за полгода.

#ai #startups
Я ранее рассказывал про каталог API правительства Доминиканской республики [1], а ещё ранее про примеры каталогов API в других странах.
А вот и дополнительные примеры.

Портал для разработчиков Правительства Нидерландов developer.overheid.nl [2]. Включает каталог репозиториев правительственного открытого кода (на Github и Gitlab), всего более 1300 репозиториев [3] и каталог из 100 API со спецификациями и документацией [4]

Более же всего порталов для разработчиков существует в США, они есть у многих, почти всех, центральных органов власти и отдельных штатов, например, портал для разработчиков в рамках Medicaid [5] или портал для разработчиков Департамента труда [6].

Ссылки:
[1] https://t.me/begtin/4750
[2] https://developer.overheid.nl/
[3] https://developer.overheid.nl/repositories
[4] https://developer.overheid.nl/apis
[5] https://developer.cms.gov/
[6] https://developer.dol.gov/

#opensource #apis #netherlands #government