Ivan Begtin – Telegram

Ivan Begtin

7.99K subscribers

1.82K photos

3 videos

101 files

4.53K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Download Telegram

About

Blog

Apps

Platform

7.99K subscribers

Комментарии к происходящим российским новостям про рынок данных։
- о докладе ЦБ РФ про использование данных в фин. рынке [1] если вкратце, то проблема с качеством данных неизбежна потому что решать её можно только за счёт того чтобы все собираемые данные использовались бы для аналитики, как минимум. Если данные не используют, то их и не чистят и не верифицируют, и они как бы есть, но, как бы, непроверенные.

- о том что в Минцифре создаётся департамент больших данных и искусственного интеллекта. Я бы сказал так, у Минцифры большие провалы в системной, стратегической и нормативной работе и, при этом, если некоторые успехи в проектной работе и существенные успехи в антикризисной, кто бы что там говорил, на фоне других ФОИВов конечно. Вот этот департамент оказывается опять про проектную работу, а не про стратегии и про регулирование. Хорошо ли это? Я лично считаю что стратегии первичны, проекты вторичны.

- о слухах что Минэкономразвития собираются переносить портал открытых данных на платформу Гостех. Я скажу так, минус на минус плюсом не будет. Лично меня уже давно попустило то что российский федеральный портал открытых данных оказался настолько плох, я уже не вижу смысла объяснять тем кто его ведёт почему они делают это плохо и как делать это нормально, потому что это вопрос не технологий, а политической воли к раскрытию ключевых наборов данных и последовательной госполитики в открытости. И того и того сейчас есть достаточно острый дефицит.

Ссылки:
[1] https://www.cbr.ru/Content/Document/File/145403/Consultation_Paper_14032023.pdf

#opendata #itmarket #data #regulation

1.9K viewsIvan Begtin, 10:04

В рубрике интересного чтения про данные, технологии и не только։
- Reproducible Analytical Pipelines [1] методология построения воспроизводимых труб данных используемая командами правительства Великобритании. Например, с помощью такого подхода их статистическая служба сейчас создаёт так называемые быстрые индикаторы (fast indicators) в виде оперативных показателей реального времени с частотой обновления от 1 недели до 1 часа. [2]

- The Past, Present, and Future of Data Architecture [3] обзор современной архитектуры работы с данными, по сути краткое введение в Data Mesh. Мне многое нравится в этом подходе, data mesh дает акцент на хранении первичных данных и на систематизации/каталогизации данных, однако есть много усложняющих практических аспектов в том что все любят работать с данными и мало кто любит их документировать.

- How Ahrefs Saved US$400M in 3 Years by NOT Going to the Cloud [4] с одной стороны ничего нового, а с другой стороны очень конкретное напоминание что крупнейшие облачные сервисы - это очень удобно и очень дорого, если можно ими не пользоваться, то нужно ими не пользоваться.

Ссылки:
[1] https://analysisfunction.civilservice.gov.uk/support/reproducible-analytical-pipelines/
[2] https://dataingovernment.blog.gov.uk/2023/02/14/using-data-science-for-next-gen-statistics/
[3] https://medium.com/@diogo22santos/the-past-present-and-future-of-data-architecture-bd23dea0654b
[4] https://tech.ahrefs.com/how-ahrefs-saved-us-400m-in-3-years-by-not-going-to-the-cloud-8939dd930af8

#readings #data #dataengineering #uk #government

dataingovernment.blog.gov.uk

Using Data Science for Next-Gen Statistics

As the 21st century progresses, using data effectively has become a priority for many organisations, including the Office for National Statistics (ONS). The ONS's unique focus, however, goes beyond just utilising data effectively. The organisations ultimate…

1.8K viewsIvan Begtin, 07:16

Интересное чтение про данные, технологии и не только, подборка научных статей։
- Open data-set identifier for open innovation and knowledge management [1] авторы рассуждают о создании OpenDatId, уникального идентификатора для открытых данных. Сама статья, к сожалению, не к открытом доступе.

- Towards a Common Definition of Open Data Intermediaries [2] статья вокруг нового понятия open data intermediaries или по-русски "посредники открытых данных". Любопытно, но слегка наукообразно, а не практично. Статья в открытом доступе

- Open science: Scientists are in favor, what about the librarians? [3], по-русски Открытая наука: учёные – «за», а библиотекари? автор Людмила Шевченко из ГПНТБ СО РАН [4]. О том что библиотекарям необходимо пересмотреть отношение к открытой науке. Статья в открытом доступе

- How the Digital Transformation Changed Geopolitics [5] о том как цифровая трансформация (гос-ва и не только) поменяло геополитику. Статья политизирована насквозь, но отражает один из взглядов последствий развития дата-экономики (data-driven economy).

Ссылки։
[1] https://www.emerald.com/insight/content/doi/10.1108/JKM-07-2022-0514/full/html
[2] https://dl.acm.org/doi/10.1145/3585537
[3] https://ntb.gpntb.ru/jour/article/view/1081
[4] http://www.spsl.nsc.ru/professionalam/bibliosfera/avtorskij-ukazatel/shevchenko-lyudmila-borisovna/
[5] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4378419

#opendata #data #readings #articles

Open data-set identifier for open innovation and knowledge management
| Emerald Insight

Open data-set identifier for open innovation and knowledge management - Author: Marta Ortiz-de-Urbina-Criado, Alberto Abella, Diego García-Luna

1.8K viewsIvan Begtin, 08:24

Authoritarian Privacy [1] свежая научная статья в открытом доступе о том как развиваются законы о приватности в авторитарных режимах. Нет, не в России, но в Китае.

Статья ориентирована на читателя знакомого с законами о приватности в демократических странах и рассказывает о разнице в регуляторных подходах, природе самого регулирования и в ней же хорошо систематизированы и множественно приведены примеры проблем с приватностью. Например, там наглядные примеры торговли биометрическими данными и госрегулирование распознавания лиц, но не только.

При этом, судя по примерам в статье, само китайское общество гораздо более активно чем российское, к примеру, самоорганизуется для защиты приватности. Например, история с профессором Guo Bing в 2019 году который потребовал чтобы его биометрические данные (изображение лица) были удалены из системы сафари-парка где от него потребовали такой идентификации и есть немало других подобных примеров.

Ссылки։
[1] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4362527

#privacy #china #facerecognition

3.7K viewsIvan Begtin, 05:09

Я ранее писал про сервис ExplainPaper [1] который генерировал сжатое изложение научных статей понятным языком. С той поры сервис быстро коммерциализировался, так что, очень похоже, что услуга эта востребована, а с появлением ChatGPT, GPT-4 и других языковых моделей ещё не раз реинкарнирует.

Из свежих подобных продуктов стартап OpenRead [2]. Сервис автоматически генерирует краткое изложение, так называемое Paper Expresso и позволяет естественным языком задать вопросы по научной статье и получить развернутые ответы. Я проверил на нескольких статьях которые сам читаю, перечитываю, учитываю в своей работе и результаты вполне практичные. Я, правда, не считаю что такие сервисы должны быть сами по себе, гораздо естественнее они будут как часть платформ вроде Google Scholar, Semantic Scholar или Arxive.org и др.

Например, будучи подписанным на рассылки Semantic Scholar по нескольким научным темам могу сказать что главное неудобство в отсутствии кратких понятных аннотаций к статьям. Но это только самое очевидное применение, более интересные модели в уже более серьёзном применении ИИ с предобучением на научных статьях по направлениям, почти наверняка такие AI ассистенты появятся (уже появились?) в ближайшем будущем.

Ссылки։
[1] https://t.me/begtin/4346
[2] https://www.openread.academy

#startups #ai #science #papers #readings

2.0K viewsIvan Begtin, 05:49

По поводу новости о том что российский портал открытых данных собираются переносить на Гостех и потратить на это всё 50 миллионов рублей [1] мне много что есть сказать, в первую очередь анекдотом «Когда в борделе продажи падают, надо работниц(-ков) менять, а не кровати переставлять».

Российский портал открытых данных, хотя и сделан очень криво, на довольно идиотских методических рекомендациях (нигде такого в мире нет), без нормального API и ещё много чего, но кривых национальных порталов открытых данных в мире какое-то количество есть. Сделан он плохо, но проблемы с доступностью данных даже не в нём, а в том он не является частью госполитики ни коим образом. Нет ни одного действующего плана по открытости органов власти, нет раскрытия данных по ключевым общественным событиям, достаточно вспомнить тот же ковид, нет ответственных ни на уровне органов власти, ни на уровне пр-ва РФ за развитие открытости гос-ва и тд.

С учётом этого всего портал оказывается огромной цифровой помойкой, забитый наборами данных в 3 строки, от муниципалитетов и без практического применения где бы то ни было. Я могу от себя сказать что за всё время существования портала открытых данных не было ни одного случая когда я и моя команда в Инфокультуре использовала бы на практике данные публикуемые на data.gov.ru. Потому что, либо данные там отсутствовали, либо устарели, либо автоматизированный доступ к ним был невозможен (бессмысленное и непригодное для работы API) и во всех случаях можно и предпочтительнее было работать с первоисточниками данных.

Ссылки։
[1] https://t.me/CynExp/4126

#opendata #closeddata #russia

Координация профанации

Рубрика "Циничный анекдот"
Портал открытых данных РФ, над которым уже много лет издевается Минэкономразвития и который в соответствии с издевательской Методикой учета, выдуманной десять лет назад тогдашним Минкомсвязи, считается федеральной ГИС (хотя, на…

2.0K viewsIvan Begtin, 09:10

Forwarded from Как мы делаем Яндекс

Яндекс выкладывает в опенсорс одну из основных инфраструктурных BigData-систем собственной разработки — YTsaurus. Это платформа, предназначенная для распределённого хранения и обработки больших данных.

Максим Бабенко, руководитель отдела технологий распределённых вычислений в Яндексе, рассказал историю возникновения YT, а также зачем нужна YTsaurus и где её можно применять.

В Github-репозитории — серверный код YTsaurus, инфраструктура развёртывания с использованием k8s, а также веб-интерфейс системы и клиентский SDK для распространённых языков программирования — C++, Java, Go и Python.

Ссылки на посты на Хабре и Медиуме.

1.7K viewsIvan Begtin, 11:07

В рубрике как это работает у них проект Sciencebase.gov [1], каталог публикаций, материалов, карт и геоданных Геологической службы США (USGS). В каталоге содержится более 50 тысяч наборов данных связанных только с геологическими исследованиями, там же публикуются выпуски данных геологической службы и данные полученные исследователями и научными службами финансируемыми USGS.

Интересно и то что этот репозиторий лишь один из нескольких десятков аккредитованных USGS как рекомендуемых к публикации научных данных [2], все они, либо государственные, либо академические, либо от консорциумов университетов/научных центров.

В случае Sciencebase у всех записей большой объём метаданных включающий геокоординаты набора данных, уникальные идентификаторы, информацию о авторах, организации и многое другое.

Ссылки։
[1] https://www.sciencebase.gov/catalog/
[2] https://www.usgs.gov/office-of-science-quality-and-integrity/acceptable-digital-repositories-usgs-scientific

#opendata #openaccess #openscience

1.9K viewsIvan Begtin, 14:27

Из интересного про YTsaurus от Яндекса
- полноценный продукт для операций MapReduce, замена Hadoop'а для тех кто ещё его использовал
- внутри работа с ClickHouse, YDB и Apache Spark, ИМХО, интереснее всего использование ClickHouse, хотя и было бы интересно посмотреть на бенчмарки
- собственный аналог виртуальной файловой системы и хранилища метаданных Cypress
- собственные форматы хранения данных YSON и Skiff. YSON как замена JSON с несколькими дополнительными типами данных и Skiff как бинарный формат похожий на Protobuff.
- в опубликованном коде нет UI кроме командной строки и примеров кода, потенциальная возможность для стартапов по созданию онлайн сервисов с веб уи и настройкой под себя, как это со многими другими опен сорс продуктами по модели։ открытый код + облачная подписка? просто предположение
- особенность в том что он реально про данные большого объёма, условно от десятков терабайт, хотя в Success Stories приведены примеры с сотнями терабайт. Если работа идёт с меньшим объёмом данных, то скорее всего это будет overkill, а вот если объём и инфраструктура разумно велики, то надо пробовать.

По всем ощущениям продукт очень интересный, хочется в будущем увидеть более подробные его разборы на конкретных кейсах применения и сравнениями.

#opensource #datatools #dataops #dataengineering

2.1K viewsIvan Begtin, 15:20

Написал в рассылку текст #32. Открытые данные в мире, в фактах и тезисах [1] о том как развиваются открытые данные в мире, в науке, в рамках политической подотчетности, в корпорациях и не только. Фактически это ответ вопросы "что не так с порталом открытых данных моей страны?" и "А как там у других?", а у других вот так.

А также не могу не напомнить об одном из недавних текстов #26. Открытость как признак жизни [2] о том что открытость данных, государства и не только - это один из признаков жизнеспособности какой-либо области/темы. Если нет науки, то и нет открытости науки, если нет журналистики, то и данные для журналистов не раскрываются, если нет политики, то и политическая подотчетность сводится к минимуму.

Ссылки:
[1] https://begtin.substack.com/p/d4f
[2] https://begtin.substack.com/p/26

#opendata

Ivan’s Begtin Newsletter on digital, open and preserved government

#32. Открытые данные в мире, в фактах и тезисах

"Метафизик от теории идёт к фактам, учёный от фактов — к теории." - Джек Лондон «Железная пята»

1.8K viewsIvan Begtin, 09:36

В Китае в состав правительства войдёт новая структура National Data Administration создаваемая для контроля за приватностью и безопасностью данных [1]. Подробностей всё ещё мало, но показательно что это именно структура в составе правительства, а то есть с достаточно серьёзными полномочиями. Есть эксперты кто считают что создание этой структуры - это кульминация китайской национальной стратегии данных [2], а также нельзя не упомянуть бюро по большим данным которые создавались в китайских провинциях с 2015 года [3], правда было немало сомнений выживет ли эта инициатива в принципе [4].

В любом случае создание специальной правительственной структуры - это серьёзный шаг на который могут обратить внимание и регуляторы других стран. Будет ли такая практика воспроизводится? Думаю что мы узнаем об этом до конца 2023 года.

Ссылки։
[1] https://www.technologyreview.com/2023/03/15/1069814/china-new-bureau-data-economiy/
[2] https://twitter.com/freefader/status/1633070438766239745
[3] https://merics.org/en/short-analysis/china-activates-data-national-interest
[4] https://thechinaproject.com/2022/10/11/the-chinese-government-wants-a-data-trading-market-but-it-may-never-happen/

#privacy #data #regulation #government #china

MIT Technology Review

China just set up a new bureau to mine data for economic growth

Details on China's new National Data Administration are still to come, including how much control it will have over data security and privacy.

2.6K viewsIvan Begtin, 17:35

Команда проекта Если быть точным сделала неплохой обзор того что исчезает с сайтов органов власти. Почитайте, там всё хорошо систематизировано и многое описано, есть о чём подумать.
Я также регулярно пишу про закрываемые в России данные здесь в телеграм канале по тэгу #closeddata.

При этом закрывается данных гораздо больше, просто трудно отследить все изменения. Многое из закрываемого никогда как открытые данные и не публиковалось, это могут быть доклады, отчеты, статистика и открытые контуры информационных систем. Часто о их закрытии знают только отраслевые специалисты, часто закрывается не всё, а только самое главное что делает остальное бессмысленным.

При этом, поскольку изначально в России уровень открытости государства был довольно велик, хотя и специфичен (госфинансы - открыты, а данные о качестве жизни нет), то до сих пор может казаться что не всё так плохо. Но не надо обманываться, важнее всего то что у государства в России внятной национальной стратегии работы с данными нет.

1.7K viewsIvan Begtin, 09:44

Forwarded from Если быть точным

Правительство теперь официально может засекречивать любую статистику. Как минимум 14 ведомств уже это сделали – причем еще до принятия нового закона

В конце февраля Госдума приняла закон, позволяющий правительству приостанавливать публикацию любой государственной статистики. По факту этот процесс идет уже давно: мы рассказывали, что за первые полгода с начала военного конфликта с Украиной как минимум 10 ведомств закрыли свою статистику.

Теперь их стало еще больше. Мы насчитали 14 органов власти, которые частично или полностью ограничили доступ к своим данным. Некоторые полностью закрыли разделы со статистикой, другие – частично ограничили доступность.

Например, Минфин закрыл доступ к оперативным данным о доходах и расходах бюджета, но их все еще можно вытащить обходными путями – через виджет на сайте.

Из хороших новостей: в экономической статистике наметилась небольшая оттепель. ФТС частично возобновила публикацию данных по внешней торговле (которые и так можно было собрать), о планах вернуть обязательную отчетность банков заявил Центробанк.

С другой стороны, среди закрытых показателей больше всего было именно экономических. Так что сломить тренд на снижение доступности данных это не сможет.

👉 подробнее – на нашем сайте

1.6K viewsIvan Begtin, 09:44

В рубрике как это работает у них, существует такой тип порталов и каталогов данных как каталоги микроданных. Это не про данные малого размера, но про данные создаваемые при работе социологов и конкретно при опросах граждан и бизнеса. Эти опросы проводятся регулярно на уровне стран и некоторые межгосударственные и международные организации. Особенность микроданных в том что они часто содержат сведения прямо или косвенно идентифицирующие конкретного опрашиваемого человека, поэтому чаще данные результатов опросов доступны не полностью, а только в виде метаданных с описанием и их надо запрашивать у владельца, но часто, опять же, данные проходят анонимизацию и всё же доступны для всех. В любом случае каталоги микроданных создаются с открытыми метаданными описывающими содержание собранных данных.

Наиболее популярным в мире ПО для ведения таких каталогов это NADA Microdata Cataloging Tool [1], продукт с открытым кодом разработанный за счёт Всемирного Банка и поддерживаемый организацией International Household Survey Network которые поддерживают централизованный каталог микроданных подобных опросов [2] по огромному числу стран и включающий как открытые данные, так и данные по запросу.

А также на базе NADA работают каталоги микроданных Всемирного банка [3], FAO [4], UNCHR [5], а на пост-советском пространстве в Армении [6]. В отличие от геокаталогов данных и порталов открытых данных, в каталогах микроданных используются другие стандарты метаданных. В частности, основным стандартом является DDI [7], стандарт публикации статистических данных.

В России микроданные также публикуются Росстатом, но на совершенно другом ПО, не обновлявшемся более 9 лет [8]. Данные в системе obdx.gks.ru последний раз актуализировались в 2021 году.

А ранее многие статистические службы публиковали данные через ПО Nesstar Web View, но с 2022 года развитие продукта прекратилось, а редактор данных для стандарта Nesstar также передан в IHSN [9]. В этом стандарте/формате Nesstar публиковались и российские микроданные и до сих пор публикуются во многих странах.

Ссылки:
[1] https://nada.ihsn.org/
[2] http://catalog.ihsn.org
[3] https://microdata.worldbank.org
[4] https://microdata.fao.org
[5] https://microdata.unhcr.org
[6] https://microdata.armstat.am
[7] https://ddialliance.org/
[8] https://obdx.gks.ru/
[9] http://www.ihsn.org/software/ddi-metadata-editor

#opendata #microdata #statistics #knowhow

DDI Metadata Editor (Nesstar Publisher 4.0.10) | IHSN

The IHSN Metadata Editor, also known as the Nesstar Publisher, is a specialized XML editor compliant with the Data Documentation Initiative (DDI) 2.n and the Dublin Core metadata standards

1.8K viewsIvan Begtin, 17:47

По поводу того что в Минцифре анонсировали создание "российского ~~Pornhub~~ (простите - Github)" и то что на это будет направлено 1,3 млрд. рублей, это примерно 16 миллионов долларов США) [1] все уже по десять раз обсудили. А я вот, честно говоря, не считаю её глупой или бессмысленной, я выражу сомнения иначе. С момента запуска Github привлёк $350 миллионов долларов США [2], а его ближайший конкурент Gitlab и того больше, $413.5 миллионов долларов США [3].

Поэтому, скажу так, сравнивать национальные страновые репозитории для раскрытия кода связанного с госпроектами и компании формирующие глобальную цифровую инфраструктуру - некорректно. Корректнее сравнивать с некоторыми национальными инициативами по раскрытию государственного кода с такими как Чешский портал code.gov.cz [4], хотя в большинстве стран репозитории кода разворачиваются на базе Gitlab отдельными органами власти и синхронизуются с открытыми репозиториями на Github.

Как бы то ни было, раскрытие кода созданного по госзаказу и в рамках создания госпроектов на централизованном репозитории - это идея скорее здравая, главное чтобы тут политической воли хватило это реализовать.

Поэтому если кратко то я готов поверить что можно сделать систему раскрытия кода, но у меня есть сомнения что вот так просто получится создать сообщества разработчиков которыми являются Github и Gitlab, для этого и среда не та, и ресурсы не те.

Но я обращу внимание на другое, ведь важно не только то о чём пишут, а то что не упоминают. В истории с национальным репозиторием кода не упоминается что? Правильно, Гостех.
Хотя, казалось бы, национальный репозиторий кода - это как раз базовая государственная цифровая инфраструктура, но Гостеха тут нет, что лично для меня в очередной раз означает что Гостех сейчас, либо сливают, либо "локализуют в отдельную зону чтобы не мешал"․

Ссылки։
[1] https://www.forbes.ru/tekhnologii/486349-zamglavy-mincifry-maksim-parsin-ne-hotim-izolacii-no-nam-nuzen-svoj-repozitorij
[2] https://www.crunchbase.com/organization/github/company_financials
[3] https://www.crunchbase.com/organization/gitlab-com/company_financials
[4] https://code.gov.cz

#opensource #russia #regulation #government #code

Замглавы Минцифры Максим Паршин: «Не хотим изоляции, но нам нужен свой репозиторий»

21 марта стартует прием заявок на участие в эксперименте по созданию национального репозитория — хранилища открытого кода. На работу репозитория будут направлены 1,3 млрд рублей, лежащие на счетах «Росинфокоминвеста» с 2007 года. Forbes поговорил с з

2.8K viewsIvan Begtin, edited 20:04

В рубрике как это работает у них GeoPlatform.gov [1] единая платформа федеральных властей США по работе с геоданными, удобному поиску данных для учёных, разработчиков, аналитиков и тд.

Включает более115 тысяч записей о метаданных наборов геоданных из нескольких сотен государственных источников данных федеральных служб.

Важные особенности платформы на которые стоит обратить внимание։
- совмещение портала геоданных и портала научных данных, акцент на принципах FAIR
- использование портала Data.gov как базовой инфраструктуры. В GeoPlatform.gov выгружаются метаданные только тех наборов данных что загружены в Data.gov
- интеграция с ArcGIS для отображения данных (это вообще в США популярно использовать ArcGIS, а вот европейцы предпочитают OSM)
- наличие работающей стратегии развития этой платформы․ Называется National Spatial Data Infrastructure (NSDI) Strategic Plan [2]

Интересно расширят ли они проект до геоданных уровня штатов и городов, тогда число наборов данных может превысить миллионы количественно и очень много по физическому объёму, впрочем в самой гео платформе ничего не хранится кроме поискового индекса.

Это из тех проектов которые можно относить к проектам по поиску и обнаружению данных data search and discovery, причём сделанному довольно неплохо.

Ссылки:
[1] https://www.geoplatform.gov/
[2] https://www.fgdc.gov/nsdi-plan/index_html

#opendata #geodata #usa #datasets

2.4K viewsIvan Begtin, 10:33

О том как развивается научная инфраструктура, на примере, Австралии где с 1 января 2023 года начался полугодовой проект Australian National Persistent Identifier (PID) Strategy and Roadmap [1] по разработке дорожной карты и стратегии внедрения постоянных идентификаторов (PID) ко всем результатам, процессам, объектам, субъектам и вообще всему значимому в научной деятельности.

Этому проекту предшествовал доклад Incentives to Invest in Identifiers [2] о том как сейчас постоянные идентификаторы используются австралийскими исследовательскими центрами и, если вкратце, то там сложилась уже весьма зрелая инфраструктура с использованием DOI (Crossref, Datacite), Handle, PURL, ORCID, RoR, RaiD, IGSN и ещё многих других идентификаторов.

В исследовании есть отсылка к тому что подобная же работа идёт в Великобритании.

Похожий системный подход к постоянным идентификаторам есть в Китае, где наряду с DOI используют свой национальный идентификатор CSTR, но китайский опыт, почему-то, австралийцы в исследовании не упоминают.

Почему это важно? Для анализа любых научных данных критично иметь возможность "связывать данные" многочисленных систем учёта и управления научной деятельностью. В публичном доступе используются открытые и коммерческие графы знаний которые построены на такой связности идентификаторы, в непубличном доступе есть возможность связывать с другими данными.

Что интересно в австралийской инициативе - это взгляд на весь этот процесс с точки зрения экономии времени исследователей и средств государства, и в докладе, и в стратегии закладывается финансово-экономическое обоснование всего проекта.

Ссылки։
[1] https://ardc.edu.au/project/australian-national-persistent-identifier-pid-strategy-and-roadmap/
[2] https://ardc.edu.au/resource/incentives-to-invest-in-identifiers-report/
[3] https://www.cstr.cn/en/

#openaccess #science #persistentidentifier #scientificifrastructure

1.8K viewsIvan Begtin, 06:26

Свежая новость [1] и заметка в Коммерсанте [2] о том что "временно" приостанавливается работа федерального портала открытых данных data.gov.ru и что будет через какое-то время новая/лучшая версия портала, надо только подождать.

Мне так много есть что сказать по этому поводу что короткого текста может не получится, но я постараюсь․ Начну же с того что предвидя такое развитие событий мы в Инфокультуре сделали полный слепок данных портала 2 февраля 2022 года [3], это 13ГБ в сжатом виде и 29ГБ в распакованном виде. За год данных на портале появилось и обновилось немного, так что дамп можно считать вполне полным.

Про качество данных на портале я писал неоднократно [4], но важно не только это. Важнее то что вот уже более 7 лет большинство порталов открытых государственных данных в России перестали обновляться и наполняться, Данные всё ещё публиковались на некоторых государственных информационных системах и отдельными органами власти, но, в целом, тему открытости начали "сливать" давно, вначале приведя к формальному исполнению требований и публикацией потока бессмысленных сверхмелких административных данных, а далее, при последнем российском правительстве, даже на это стали забивать.

Собственно и в этом событии важен уровень принятия решения. Это уровень не председателя Пр-ва, не вице-премьера, и даже не министра. Просто руководитель департамента в Минэкономразвития завил что мол мы портал закроем и когда-нибудь сделаем другой. В общем, портал не стал часть национальной цифровой инфраструктуры, а Минэкономразвития лишь одно из министерств без особых полномочий указывать другим органам власти что им публиковать в открытом доступе. Я, опять же, не про бессмысленный поток административных данных (вакансий, инфы по учреждениям и тд), а про реальные реестры, ведомственную статистику, крупные базы данных в управлении ФОИВов и их подведов.

Казалось бы что мешало Минэкономразвития создавать новую версию портала параллельно и анонсировать его замену после эксплуатации бета версии? Я вот не знаю что, я вижу что текущая ситуация больше похожа на заметание мусора под ковёр, чтобы никто их за руку не поймал с тем как плохо сопровождался этот портал.

В любом случае, проблема не только в словах о временном закрытии, которое с лёгкостью может стать постоянным. И даже не в анонсе переноса портала на несуществующий Гостех, а в том что даже если новый портал создать и даже не таким плохим технически как предыдущий, то чем его наполнять.

За многие годы не были видны никакие усилия Минэкономразвития в том чтобы была доступна детальная статистика по качеству жизни։ уровню преступности, загрязнении, качеству образования, здравоохранению, заболеваемости с детальностью до районов (да даже детальность до регионов не вся!). За все эти годы на портале даже не начинали публиковать наиболее востребованные данные по судебным производствам (привет Судебному Департаменту создавшему рядом коммерческую монополию) или свежезакрытым данным госфинансов или почти полностью отсутствующим в открытом пространстве геоданным, которые как раз более всего раскрываются по всем миру?

Эти риторические вопросы имеют лишь один ответ, блок на реальную открытость государства не только и не столько в этом портале. Он в отсутствии повестки открытости у текущего федерального правительства.

В качестве завершения я напомню что в мире сейчас нет развитых стран без порталов открытых данных. Даже в Китае такой есть, с акцентом на публикацию научных данных, зато неимоверного количества и объёма. Порталов открытых данных нет только у некоторых африканских стран, стран третьего мира иными словами. Стремление российского правительства руками Минэкономразвития, в данном случае, войти в список третьих стран лично у меня вызывает лишь недоверие ко всей остальной политической риторике о том "как тут всё хорошо" и как замечательно идут нацпроекты и поддержка бизнеса.

Никак не идут.

Инфокультура

Новости Информационной культуры. https://infoculture.ru

8.3K viewsIvan Begtin, edited 08:32

Ссылки։
[1] https://economy.gov.ru/material/open_data/informaciya_dlya_polzovateley_informacionnoy_sistemy_portal_otkrytyh_dannyh_datagovru.html
[2] https://www.kommersant.ru/doc/5889649
[3] https://hubofdata.ru/dataset/datagovru-20220202
[4] https://t.me/begtin/3508

#opendata #government #itmarket #closeddata #russia

Коммерсантъ

Открытые данные закрыли

Портал data.gov.ru ждет пересборка

2.5K viewsIvan Begtin, 08:32