Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
О том как развивается научная инфраструктура, на примере, Австралии где с 1 января 2023 года начался полугодовой проект Australian National Persistent Identifier (PID) Strategy and Roadmap [1] по разработке дорожной карты и стратегии внедрения постоянных идентификаторов (PID) ко всем результатам, процессам, объектам, субъектам и вообще всему значимому в научной деятельности.

Этому проекту предшествовал доклад Incentives to Invest in Identifiers [2] о том как сейчас постоянные идентификаторы используются австралийскими исследовательскими центрами и, если вкратце, то там сложилась уже весьма зрелая инфраструктура с использованием DOI (Crossref, Datacite), Handle, PURL, ORCID, RoR, RaiD, IGSN и ещё многих других идентификаторов.

В исследовании есть отсылка к тому что подобная же работа идёт в Великобритании.

Похожий системный подход к постоянным идентификаторам есть в Китае, где наряду с DOI используют свой национальный идентификатор CSTR, но китайский опыт, почему-то, австралийцы в исследовании не упоминают.

Почему это важно? Для анализа любых научных данных критично иметь возможность "связывать данные" многочисленных систем учёта и управления научной деятельностью. В публичном доступе используются открытые и коммерческие графы знаний которые построены на такой связности идентификаторы, в непубличном доступе есть возможность связывать с другими данными.

Что интересно в австралийской инициативе - это взгляд на весь этот процесс с точки зрения экономии времени исследователей и средств государства, и в докладе, и в стратегии закладывается финансово-экономическое обоснование всего проекта.

Ссылки։
[1] https://ardc.edu.au/project/australian-national-persistent-identifier-pid-strategy-and-roadmap/
[2] https://ardc.edu.au/resource/incentives-to-invest-in-identifiers-report/
[3] https://www.cstr.cn/en/

#openaccess #science #persistentidentifier #scientificifrastructure
Свежая новость [1] и заметка в Коммерсанте [2] о том что "временно" приостанавливается работа федерального портала открытых данных data.gov.ru и что будет через какое-то время новая/лучшая версия портала, надо только подождать.

Мне так много есть что сказать по этому поводу что короткого текста может не получится, но я постараюсь․ Начну же с того что предвидя такое развитие событий мы в Инфокультуре сделали полный слепок данных портала 2 февраля 2022 года [3], это 13ГБ в сжатом виде и 29ГБ в распакованном виде. За год данных на портале появилось и обновилось немного, так что дамп можно считать вполне полным.

Про качество данных на портале я писал неоднократно [4], но важно не только это. Важнее то что вот уже более 7 лет большинство порталов открытых государственных данных в России перестали обновляться и наполняться, Данные всё ещё публиковались на некоторых государственных информационных системах и отдельными органами власти, но, в целом, тему открытости начали "сливать" давно, вначале приведя к формальному исполнению требований и публикацией потока бессмысленных сверхмелких административных данных, а далее, при последнем российском правительстве, даже на это стали забивать.

Собственно и в этом событии важен уровень принятия решения. Это уровень не председателя Пр-ва, не вице-премьера, и даже не министра. Просто руководитель департамента в Минэкономразвития завил что мол мы портал закроем и когда-нибудь сделаем другой. В общем, портал не стал часть национальной цифровой инфраструктуры, а Минэкономразвития лишь одно из министерств без особых полномочий указывать другим органам власти что им публиковать в открытом доступе. Я, опять же, не про бессмысленный поток административных данных (вакансий, инфы по учреждениям и тд), а про реальные реестры, ведомственную статистику, крупные базы данных в управлении ФОИВов и их подведов.

Казалось бы что мешало Минэкономразвития создавать новую версию портала параллельно и анонсировать его замену после эксплуатации бета версии? Я вот не знаю что, я вижу что текущая ситуация больше похожа на заметание мусора под ковёр, чтобы никто их за руку не поймал с тем как плохо сопровождался этот портал.

В любом случае, проблема не только в словах о временном закрытии, которое с лёгкостью может стать постоянным. И даже не в анонсе переноса портала на несуществующий Гостех, а в том что даже если новый портал создать и даже не таким плохим технически как предыдущий, то чем его наполнять.

За многие годы не были видны никакие усилия Минэкономразвития в том чтобы была доступна детальная статистика по качеству жизни։ уровню преступности, загрязнении, качеству образования, здравоохранению, заболеваемости с детальностью до районов (да даже детальность до регионов не вся!). За все эти годы на портале даже не начинали публиковать наиболее востребованные данные по судебным производствам (привет Судебному Департаменту создавшему рядом коммерческую монополию) или свежезакрытым данным госфинансов или почти полностью отсутствующим в открытом пространстве геоданным, которые как раз более всего раскрываются по всем миру?

Эти риторические вопросы имеют лишь один ответ, блок на реальную открытость государства не только и не столько в этом портале. Он в отсутствии повестки открытости у текущего федерального правительства.

В качестве завершения я напомню что в мире сейчас нет развитых стран без порталов открытых данных. Даже в Китае такой есть, с акцентом на публикацию научных данных, зато неимоверного количества и объёма. Порталов открытых данных нет только у некоторых африканских стран, стран третьего мира иными словами. Стремление российского правительства руками Минэкономразвития, в данном случае, войти в список третьих стран лично у меня вызывает лишь недоверие ко всей остальной политической риторике о том "как тут всё хорошо" и как замечательно идут нацпроекты и поддержка бизнеса.

Никак не идут.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Портал открытых данных РФ закрыт на ревизию

Федеральный портал открытых данных (data.gov.ru) с сегодняшнего дня недоступен, т.к. «закрыт на ревизию». По информации Минэка, портал планируют развивать «в рамках перехода системы на платформу «Гостех». О Гостехе хорошо пишет Циникс, который уже успел прокомментировать недоступность портала [1].

Пока сложно предположить, когда портал и данные станут снова доступными (и будут ли данные открытыми, бесплатными и доступными для скачивания без регистрации и смс), т.к. конкретные сроки не указаны (но планируют завершить работы «как можно скорее»), да и каких-либо содержательных комментариев по развитию портала не было.

Еще в феврале уточняла у Минэка, будет ли доступен портал в формате архива, сохранятся ли текущие ссылки на наборы данных, но, к сожалению, единственное, что сейчас доступно в открытом доступе, - это PDF-список с адресами сайтов госорганов, наборы которых были размещены на портале [2]. Но, как обычно, Иван Бегтин сделал копию сайта, ссылки на которую можно найти в его комментариях по порталу [3].

Что больше всего удивляет в данной ситуации:

- непонятно, зачем нужно закрывать сайт, и почему нельзя разрабатывать новую версию на тестовом сервере параллельно с доступностью текущей или хотя бы разместить архив/дамп с текущими наборами открытых данных?
- непонятно, почему перечень порталов публикуется в формате pdf, который не относится к открытым данным, не является пригодным для автоматической обработки и анализа?
- почему публикуются только списки госорганов и их главных страниц сайтов, если можно было выгрузить из БД портала и опубликовать весь реестр наборов данных и все ссылки на первоисточники? Почему перечень госорганов не разбит хотя бы по уровню власти?
- и больше всего удивляет недоступность открытых данных Минэкономразвития. Раньше я уже поднимала вопрос отсутствия полноценного раздела Открытых данных на сайте Минэка, но всегда получала ответ о том, что данные Минэк публикует только на портале ОД, а с его работой и доступностью проблем нет. Теперь же мы видим сообщение о том, что «все данные, которые ранее автоматически предоставлялись, вы можете получить на ресурсах, перечисленных в PDF-файле», находим в этом списке сайт Минэка, и не можем скачать данные с сайта Минэка, потому что их там и не было [2].
- и еще один важный вопрос, а доступны ли данные 3-летней или 7-летней давности на порталах госорганов? Ведь мы часто сталкиваемся с тем, что исторические данные удаляют, или, например, не переносят на новый портал при разработке новых версий сайтов.

Пока много вопросов и мало ответов.

[1] https://t.me/CynExp/4149
[2] https://economy.gov.ru/material/open_data/informaciya_dlya_polzovateley_informacionnoy_sistemy_portal_otkrytyh_dannyh_datagovru.html
[3] https://t.me/begtin/4714
Один из лучших порталов открытых данных с акцентом на статистические данные совершенно неожиданно для меня обнаружился в Малайзии. OpenDOSM [1] проект Департамента статистики Малайзии (аналог российского Росстата) сделали портал с открытым кодом [2] в котором учли что среди пользователей портала есть ещё и дата сайентисты и отдают данные сразу в формате parquet, и в оригинальном csv и приводят пример кода на Python.

И дашборды, нормальные дашборды как это принято в BI системах совмещённых с каталогами данных. Вообще, конечно, хочется чтобы наконец обновлённые технологические инструменты пришли в официальную статистику потому что все эти многичисленные древние и узкоотраслевые системы вроде pxweb и им подобным кажутся архаичными.

Ссылки։
[1] https://open.dosm.gov.my
[2] https://github.com/dosm-malaysia?tab=repositories

#opendata #malaysia #datasets
Полезное чтение про данные, технологии и не только։
- Apache Arrow nanoarrow [1] библиотека на С от создателей Apache Arrow для работы с форматом Arrow, звучит как масло-масляное, а реально нужная библиотека для создания надстроек для других языков. Напомню, Apache Arrow теперь используют во второй версии Pandas для значительно ускорения работы с датафреймами

- How fast is DuckDB really? [2] обзор производительности DuckDB от одного из ангельских инвесторов в MotherDuck и CEO Fivetran. Результаты ожидаемые - DuckDB работает быстрее многого, а ещё интересный вывод что MacBook Pro существенно обгоняет даже производительные сервера.

- Unified Streaming And Batch Pipelines At LinkedIn: Reducing Processing time by 94% with Apache Beam [3] о том как команда LinkedIn существенно ускорила производительность в обработке данных используя Apache Beam. Признаюсь я Apache Beam нигде ещё не применял и не знаю живых примеров рядом, но продукт интересный, может и надо присмотреться подробнее

- DragonflyDB reels in $21M for its speedy in-memory database [4] DragonflyDB - это эдакая замена Redis, с тем что обещают лучшую скорость для задач для key-value баз данных. В мае они же выпустили версию 1.0 [5] и декларировали 25-кратное ускорение по сравнению с Redis. Продукт с открытым кодом, а инвестиции они получают под развитие облачной версии DragonflyDB cloud

- The Right To Be Free From Automation [6] статья в Noema с рассуждениями о том обладают ли люди правом отказа от автоматизации работы, там упоминается история компании Pick n Pay которая попыталась в Южной Африке внедрить терминалы самооплаты и столкнулась с бойкотом профсоюзов и была вынуждена эти терминалы демонтировать.


Ссылки:
[1] https://arrow.apache.org/blog/2023/03/07/nanoarrow-0.1.0-release/
[2] https://www.fivetran.com/blog/how-fast-is-duckdb-really
[3] https://engineering.linkedin.com/blog/2023/unified-streaming-and-batch-pipelines-at-linkedin--reducing-proc
[4] https://siliconangle.com/2023/03/21/dragonflydb-reels-21m-speedy-memory-database/
[5] https://dragonflydb.io/blog/dragonfly-production-ready
[6] https://www.noemamag.com/the-right-to-be-free-from-automation/

#opensource #data #readings
Ivan Begtin
Полезное чтение про данные, технологии и не только։ - Apache Arrow nanoarrow [1] библиотека на С от создателей Apache Arrow для работы с форматом Arrow, звучит как масло-масляное, а реально нужная библиотека для создания надстроек для других языков. Напомню…
Вдогонку к тексту об исчезновении портала открытых данных data.gov.ru [1] прокомментирую желание сотрудников Минэка "проконсультироваться с рынком". Я могу сказать однозначно - это глубочайшее заблуждение что рынку нужен именно портал открытых данных.

Бизнесу нужны очень конкретные данные. Базы индикаторов, законов, юр. лиц, госзакупок, геоподосновы, реестров и так далее. Зависит от отрасли и задач, зависит от применения и так далее, но почти всегда это нечто очень конкретное. Порталы открытых данных - это лишь одна из форм представления этих данных которые чаще всего публикуются самими органами власти и иными госструктурами на своих сайтах или в своих информационных системах.

Для бизнеса гораздо важнее наличие госинициативы по раскрытию данных и возможность взаимодействовать с Пр-вом по доступу к тем данным которые ему нужны. В этом смысле порталы открытых данных - это лишь форма/инструмент, и не факт что лучший, для такого доступа.

Так зачем нужны порталы открытых данных и кому?

В мире такие порталы выполняют три основных функции:
- поисковая система/агрегатор для удобного поиска по данным
- сообщество и инструмент вовлечения пользователей
- система управления и распространения данными гос-ва

В форме поисковой системы существуют порталы большинства крупных стран - Франции, США, Индии, Австралии и других. Внутри портал является агрегатором в котором собираются метаданные из десятков и сотен других систем раскрытия данных. Особенно в Австралии яркий пример, где разработали специальный движок Magda работающий поисковиком поверх десятка федеральных порталов с данными.

В форме сообщества особенно заметны порталы открытых данных Индии и Франции, где изначально были предусмотрены и обсуждения наборов данных, и команды явно работали над вовлечением аудитории в дискуссии. Во Франции на госпортале открытых данных публикуются не только госданные, но, например, там есть данные Open Food Facts [2]

И третье применение, когда тема открытых данных является ключевой и значимой в государстве и портал оказывается ещё и инструментом распространения справочных данных и с самого начала разрабатывается как часть цифровой инфраструктуры государства. В этих случаях меньше акцентов на политической ответственности транспарентности и больше на практических задачах государственных информационных систем. Таких примеров тоже много.

Так кто аудитория порталов открытых данных? Их аудитория - это потребители государственной информации из самых разных групп. Это НКО решающие социальные проблемы, это журналисты пишущие статьи на данных, это аналитики, это исследователи и учёные ссылающиеся на данных в своих статьях и это географы/геоинформатики и все остальные работающие с геоданными и, конечно, это разработчики программных продуктов и сервисов.

У них гораздо чаще возникают задачи именно поиска и обсуждения конкретных наборов данных и потребность в использовании порталов открытых данных как поисковиков, в тех случаях когда те сделаны достаточно хорошо и хорошо собирают метаданные о наборах данных и сами наборы данных.

Задачи бизнеса в этом смысле иные. Единожды найдя первоисточник, подключится к нему и иметь канал связи с его разработчиками если что-то идёт не так. Это не значит что предприниматели не пользуются порталами открытых данных, это означает что их модель потребления данных существенно отличается.

Всё это о том что наличие действующей государственной инициативы по раскрытию данных, публикация данных по запросу бизнеса, НКО, отраслевых ассоциаций и специалистов, значительно важнее чем наличие портала открытых данных за 50 миллионов рублей.

Можно сделать портал хоть за 100 тысяч рублей на каком-нибудь движке с открытым кодом типа JKAN [3] или ещё с десяток простых решений за копейки, гораздо важнее то чем Вы его наполняете, с какими аудиториями работаете, и раскрываете ли ключевые данные.

Ссылки:
[1] https://t.me/begtin/4714
[2] https://www.data.gouv.fr/fr/organizations/open-food-facts/
[3] https://github.com/OpenDataScotland/jkan

#opendata #russia #thoughts
К вопросу о публикации данных, госполитике в этой области и тд. В прошлом году страховые компании в США начали публиковать данные о ценах на услуги в рамках требований так называемого Health Plan Transparency in Coverage Rule [1] регулирования в США обязывающего страховые компании раскрывать сведения о стоимости медицинских услуг.

Согласно этому регулированию ряд страховые компании начали выкладывать данные размером ... до 50 терабайт в сжатом виде! Пример, компании Humana [2] и United Healthcare [3]. В общей сложности там более 100ТБ в сжатом виде и более 600ТБ в распакованном и ещё и с ежемесячным обновлением, об этом писали ребята из DoltHub ещё в сентябре 2022 г. [4]

Очень много данных тоже может быть проблемой, потому что нужно ну очень много ресурсов чтобы такое не только хранить и скачать, но и обработать.

А сейчас эти же ребята из Dolthub их дообработали и начали публиковать расхождения между ценами страховщиков и ценами которые госпитали указывают на сайтах [5].

Очень интересно, хотя и Dolthub не правозащитники, а просто стартап создателей одноимённой платформы а ля Git-для-данных, с хранением данных довольно большого объёма.

Но ведь интересен масштаб, не правда ли? Всё таки 600ТБ - это очень много данных, причём по социально значимой теме.

Роль государства в этом - роль регулятора, государство имеет все необходимые механизмы принуждения к открытости естественные монополии и социально значимые компании олигопольных рынков к раскрытию данных в машиночитаемых форматах. Такие действия усиливают не госконтроль, а влияние граждан. Открытость данных и информации - это всегда, в принципе, про усиление граждан .

Ссылки:
[1] https://www.cms.gov/healthplan-price-transparency
[2] https://developers.humana.com/syntheticdata/healthplan-price-transparency
[3] https://transparency-in-coverage.uhc.com/
[4] https://www.dolthub.com/blog/2022-09-02-a-trillion-prices/
[5] https://www.dolthub.com/blog/2023-03-23-illusion-of-transparency/

#opendata #usa #healthcare #datasets
Forwarded from 42 секунды
Politico: Франция будет использовать камеры наблюдения на базе ИИ для Олимпийских игр 2024

– Франция создает прецедент в сфере наблюдения для ЕС
– Камеры на основе ИИ будут работать в реальном времени
– ИИ определит странное поведение, брошенные вещи и др.
– Власти одобрили инициативу после 7 часов жарких дебатов
– При этом 40 чиновников ЕС просили их голосовать против
– Также против выступают разные защитники цифровых прав
– Еще решение противоречит новому законопроекту ЕС об ИИ
– Оно также может потом стать постоянным, как было в Китае

@ftsec
Пока идёт опрос в котором пока явно лидирует интерес к тому где найти значимые источники данных, подборка каталогов данных для машинного обучения

- Kaggle kaggle.com/datasets - крупнейший по числу наборов данных каталог на платформ Kaggle
- Hagging Face huggingface.co/datasets/ - не такой большой количественно, но хорошо структурированный каталог на платформе Hagging Face
- Registry of Open Data on AWS registry.opendata.aws - данных особенно большого объёма в специальном каталоге открытых данных расположенных на платформе Amazon AWS
- Azure Open Datasets https://learn.microsoft.com/en-us/azure/open-datasets/dataset-catalog - данные особенно большого объёма на платформе Azure, тоже открытые
- OpenML Datasets openml.org - много данных - каталог данных на платформе OpenML
- UCL Machine learning repository archive-beta.ics.uci.edu - академический репозиторий данных для машинного обучения
- Radiant ML Hub mlhub.earth - каталог геоданных для машинного обучения

Я добавлю также что помимо каталога данных по России и ряде постсоветских стран datacatalogs.ru у нас есть пока непубличный каталог каталогов по всему миру. Но если datacatalogs.ru был сверхдетальным, с долгим поиском не только региональных каталогов данных, но и, например, реестров данных на сайтах городов и муниципалитетов, то каталог международных данных выглядит иначе и включает информацию о ПО на котором он сделан и фокус сбора на каталогах открытых данных, статистических базах, геопорталах с данными (почти все или на Geonetwork, или на ArcGIS Hub), каталогах микроданных и ещё много всего.

Итоговый результат - это не только сам каталог, но и постепенное приближение к созданию открытого глобального индекса доступных данных и поисковой системы поверх него.

Сам каталог каталогов будет доступен сильно позже, после сборки хотя бы 1000+ таких каталогов, будет собрано.

#opendata #datasets #machinelearning
Миром правят кровь, любовь и риторика... с негативной эмоциональной нагрузкой

C 2000 года идёт рост использования слов связанных с негативными эмоциями в заголовках наиболее популярных (англоязычных) СМИ [1]

Ссылки:
[1] https://twitter.com/george__mack/status/1640010316468858880

#media
Думаю что дня достаточно чтобы подвести итоги. Совершенно неожиданно для меня:
- менее всего всем интересно про открытие и закрытие данных в России (видимо потому что всё и так очевидно, а ведь мне немало что есть рассказать об этом). Не обещаю об этом не писать, но мнение учту
- более всего интересно про то где какие интересные и значимые данные есть. Что для меня скорее неожиданно, но по этой теме есть что написать и немало.

Далее по значимости научные данные, больше про технологии с конкретными примерами и про приватность и регулирование. Мне и самому интересно об этом читать, жаль что не так много источников как хотелось бы и приходится читать и писать самому об этом чаще.

Всем спасибо за обратную связь!

#blogging #thoughts #polls
Подборка регулярного чтения про данные, технологии и не только:
- A Eulogy for Dark Sky, a Data Visualization Masterpiece [1] о визуализации данных в погодном приложении The Dark Sky для iOS и там же про наглядные решения контекстуализации данных. Я бы добавил этот термин в словарь "констектуализация данных" - это когда данные у Вас есть, но Вы подаёте их в том виде в каком они наиболее информативны и наглядны именно в том контексте/приложении/среде в которой их смотрят. А это приложение погоды отличный пример

- The Beginner's Guide to Databases [2] для новичков желающих разобраться в базах данных отличное руководство, оно не покрывает очень много чего, но одновременно даёт все нужные вводные для старта работы

- Meet Alpaca: Stanford University’s Instruction-Following Language Model that Matches GPT-3.5 Performance [3] новый интересный продукт как альтернатива GPT-3.5 под названием Альпака, главные отличия в открытости и меньших требованиях к железу. Открытый код главное преимущество [4]

- Finding Undocumented APIs [5] автор пишет про мою любимую тему, обнаружение недокументированных API. Я несколько выступлений и лекций проводил за эти годы про поиск и нахождение недокументированных API и ещё немало трюков могу рассказать о том как API находить, помимо перехвата запросов браузера к серверу. Так вот два самых очевидных способа часто срабатывающих:
* 1) Поискать API поиском Гугла на сайте явным образом вроде "REST API site:roskachestvo.gov.ru" и результат может удивить
* 2) Выяснить на каком программном продукте работает сайт и проверить не сохранилось ли в нём API идущее по умолчанию, у многих продуктов такое есть. Пример: Архив оцифрованных материалов Национальной электронной детской библиотеки РФ arch.rgdb.ru работает на движке DSpace, а у DSpace по умолчанию API доступно по ссылке /rest, проверяем, ага, вот и оно https://arch.rgdb.ru/rest/
Я могу не то что презентацию, а целый курс прочитать только по этой теме. Тем не менее ту статью рекомендую, часто информацию о API приходится выковыривать из сессий браузера.

- Data wrangling essentials: comparisons in JavaScript, Python, SQL, R, and Excel [6] сравнение функций преобразований данных в Excel, Python, R, SQL и Javascript. Полезно для тех кто вынужден пользоваться 2-3 языками/синтаксисами. Python там, правда, это не совсем Python, а конкретно Pandas, но текст от этого ценности не теряет.

Ссылки:
[1] https://nightingaledvs.com/dark-sky-weather-data-viz/
[2] https://technically.substack.com/p/the-beginners-guide-to-databases
[3] https://pub.towardsai.net/meet-alpaca-stanford-universitys-instruction-following-language-model-that-matches-gpt-3-5-490a38114a7e
[4] https://github.com/tatsu-lab/stanford_alpaca
[5] https://inspectelement.org/apis.html
[6] https://observablehq.com/@observablehq/data-wrangling-translations

#opensource #readings #api #data #guides
Один из важнейших элементов научной инфраструктуры данных - это так называемые универсальные репозитории (Generalist data repositories), хранилища научных данных не привязанные ни к одной из научных дисциплин и при этом дающие возможность сохранять данные условно любого объёма и с метаданными/описанием пригодным для интеграции в другие цифровые продукты и элементы цифровой научной инфраструктуры.

У журнала Nature есть неплохая подборка со списком всех хранилищ данных по их темам и, в том числе, список универсальных хранилищ [1], это:
- Dryad Digital Repository http://datadryad.org/
- figshare https://figshare.com
- Harvard Dataverse https://dataverse.harvard.edu
- Open Science Framework https://osf.io
- Zenodo https://zenodo.org
- Science Data Bank https://scidb.cn

Можно обратить внимание что тут есть китайский SciDb и китайские научные власти приложили немало усилий чтобы превратить SciDb в полноценный открытый репозиторий с интеграцией, например, с OpenAIRE. В то же время тут нет Mendeley Data от Elsevier потому что его как открытый репозиторий не рассматривает как минимум редакция Nature.

Подобные списки есть и в других изданиях, а также у многих университетов в специальных руководствах в статьях "Choosing a data repository' или "Selecting a data repository".

Помимо универсальных репозиториев есть ещё и тысячи узкодисциплинарных, привязанных к конкретным отраслям и часто включающим не только/не столько наборы данных в чистом виде, но добавления к существующим базам структурированных объектов. Например, репозиторий Vivli [2] для хранения исследовательских данных клинических исследований построен вокруг исследований (study), а не наборов данных, а исследования, в свою очередь, включают специфичные атрибуты для данной дисциплинарной области.

Ещё один подвид научных репозиториев данных - это университетские репозитории данных, чаще от одного университета, реже, но бывает, от их группы/ассоциации. Но и в этом случае создатели таких репозиториев стараются создавать профили на портале Re3Data [3] поскольку за последние годы многие издания стали рекомендовать выбирать репозиторий именно из этого каталога, при соблюдении ряда условий, таких как публикация на принципах FAIR [4].

Научные репозитории данных можно рассматривать как один из "индикаторов жизни" научных дисциплин в странах, наряду с числом публикаций, патентов, цитирований, активных исследователей и т.д.

Одним из важнейших трендов в современной цифровой научной инфраструктуре в распространении принципов открытости данных. Они касаются не только новых исследований, но и существующих архивов ранее доступных учёным только по запросу.

Открытость научных данных является одним из важнейших трендов в развитии открытости данных в мире, в ряде стран национальные порталы открытых данных уже интегрируются в научную инфраструктуру (США, Франция), в других это есть в планах.

Ссылки:
[1] https://www.nature.com/sdata/policies/repositories
[2] https://vivli.org/
[3] https://www.re3data.org
[4] https://www.go-fair.org/fair-principles/

#likbez #openscience #openaccess #data #datacatalogs
Forwarded from Weekly Charts
Реестр иностранных агентов в CSV

По мотивам поста Ивана Бегтина. Минюст публикует единый реестр иностранных агентов в виде PDF файла (на момент написания поста 18 страниц и 559 записей). При этом сам реестр, судя по метаданным, ведется в MS Excel 2013, но сохраняется в формате PDF. Написал на R скрипт для скачивания PDF файл с сайта Минюста и извлечения данных с помощью пакета
tabulizer
. Результат сохраняется в csv и google-таблицы. Скрипт выполняется по расписанию на моем сервере. Автоматическое обновление – каждую пятницу в 20.00 МСК. В google-таблицах размещается исходная таблица реестра, а также дополнительные поля:
• Физлицо (1 – да, 0 – нет)
• Возраст ФЛ на дату обновления данных
• Возраст ФЛ на дату включения
• Возраст ФЛ на дату исключения
• Дней в реестре
• Исключен (1 – да, 0 – нет)
• Год включения
• Год исключения

#opendata #dataset #R
Google выложили в открытый доступ локальную версию СУБД AlloyDB [1] которую в прошлом году сделали доступной как сервис в своём облаке. Теперь можно скачать бесплатную версию для разработчиков и экспериментировать на своём локальном компьютере. Из заявленных фич AlloyDB - это совместимость с PostgreSQL с более чем 2-х кратным ускорением и колоночные таблицы для ускорения ряда типов запросов. Звучит достаточно интересно чтобы попробовать, насколько интересно чтобы делать на это ставку лично я пока сомневаюсь, потому что бесплатная девелоперская версия означает что в продакшн всё равно надо разворачивать на инфраструктуре Google, а это лишь очередная модель облачного vendor lock-in, лично я не люблю такие ограничения, даже при очень интересных технологиях. К тому же исходный код AlloyDB закрыт, контрибьюта в исходный код PostgreSQL также не планируется.

Не могу не напомнить что совместимых с Postgres баз данных множество и многие - это весьма активные стартапы. У Hasura есть перечень таких СУБД с которыми они работают [2], например, Neon, о которых я писал в июле 2022 г. [3], но у Neon переписанный бэкэнд с открытым кодом [4] как и у ряда других Postgres совместимых СУБД.

А вот реализация колоночных таблиц очень напоминает про Clickhouse, StarRocks и др. подобным продуктам и, быть может, в этой фиче Гугл позиционируют AlloyDB как их альтернативу. Но, опять же, выбирая между близкими по производительности продуктами с открытой лицензией и открытым кодом и без оной, с vendor lock-in и без него, выбор очевиден.

Мне лично особенно не нравится облачный vendor lock-in, потому что одно дело если ты можешь купить корпоративную лицензию, но у тебя потом есть время на миграцию, и другое дело когда ты зависишь от создателя продукта не только разрешением на его использование, но и инфраструктурно.

Поэтому возвращаясь к альтернативам, напомню про Citus [5] которые также реализовали колоночное хранилище для Postgres и с открытым кодом, именно его использует Microsoft в Azure Cosmos DB [6].


Ссылки:
[1] https://cloud.google.com/blog/products/databases/run-alloydb-anywhere
[2] https://hasura.io/docs/latest/databases/postgres/index/
[3] https://t.me/begtin/4113
[4] https://github.com/neondatabase/neon
[5] https://www.citusdata.com/
[6] https://learn.microsoft.com/en-us/azure/cosmos-db/postgresql/concepts-columnar

#opensource #dbms #google
Как развивается цифровая инфраструктура научных данных во Франции. С 2022 года действует проект Un écosystème au service du partage et de l’ouverture des données de recherche (Экосистема на службе обмена и открытия данных исследований ) в виде сайта recherche.data.gouv.fr [1] которая является, с одной стороны частью национального портала открытых данных data.gouv.fr [2], а с другой реализуется Ministère de l'Enseignement Supérieur et de la Recherche (Министерством управления образованием и наукой) в рамках Le deuxième plan national pour la science ouverte (Второго национального плана по открытости науки 2021-2024 включающего темы открытости публикаций, открытости научных данных и открытости программного кода созданного в результате научных исследований.

Особенность французской научной экосистемы в большом числе автономных исследовательских центров которые в рамках этого проекта объединены через специальный комитет Министерства и как участники проекта в ролях кластеров данных (междисциплинарных центров) [4], центром компетенций, ресурсных центров и других участников.

Один из уже доступных результатов проектов - это национальный репозиторий открытых научных данных Recherche Data Gouv Génération datapaper (entrepot.recherche.data.gouv.fr) [5] созданный на базе продукта Dataverse. Там уже опубликованы 2413 наборов данных и 30 тысяч файлов из которых часть данных будет собираться из других научных репозиториев, сейчас подключен SciencesPo [6] и явно будут подключаться другие в течение 2023 года, благо Dataverse это позволяет без особых сложностей.

Одна из целей проекта в том чтобы стать службой европейского открытого научного облака (EOSC) [7], а то есть расширить интеграцию французских исследовательских центров в Европейскую цифровую научную инфраструктуру и, хотя это явно не заявляется, но кажется очень логичным, спозиционировать национальный портал исследовательских данных как один из универсальных репозиториев рекомендуемых ведущими научными изданиями для размещения данных.

В конце концов у китайцев же получается с SciDb [8], так может получится и во Франции, хотя это и выглядит слегка необычно поскольку в Евросоюзе есть наднациональные универсальные репозитории.

Интересно как будет развиваться дальнейшая интеграция раскрываемых государством данных и этого исследовательского портала, рискну предположить появление единого французского поисковика по всем открытым порталам данных, научным и государственным, потому что их много и не все собраны только в федеральных источниках и не все туда агрегируются.

Ссылки:
[1] https://recherche.data.gouv.fr/fr
[2] https://data.gouv.fr
[3] https://cache.media.enseignementsup-recherche.gouv.fr/file/science_ouverte/20/9/MEN_brochure_PNSO_web_1415209.pdf
[4] https://recherche.data.gouv.fr/fr/page/ateliers-de-la-donnee-des-services-generalistes-sur-tout-le-territoire
[5] https://entrepot.recherche.data.gouv.fr
[6] https://data.sciencespo.fr
[7] https://recherche.data.gouv.fr/fr/page/a-propos-de-recherche-data-gouv
[8] https://scidb.cn

#likbez #france #openaccess #opensciences #datasets #datacatalogs #opendata