Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике интересных проектов на данных OSS Insight [1] открытая аналитическая платформа по репозиториям в Github с аналитикой по каждому репозиторию, пользователям, языкам разработки и ещё много чему извлеченному из Github. Полезно для вылавливания новых продуктов и понимания их популярности и построения своих дашбордов по продуктам с открытым кодом.

Что интересно - так это всё является ничем иным как демкой работы облачного движка TiDB [2] в виде распределённой SQL базы данных. Причём демки достаточно живой, с демонстрацией конкретных SQL запросов построенных по этой базе, возможностью преобразовывать текст в SQL запросы и тд. В общем-то какое-то количество хайповых фич, но при этом и открытый продукт как демка коммерческого.

Это всё к вопросу о том, например, почему так полезны открытые данные в том числе. Потому что на их основе можно делать вот такие продукты.

Причём понятно почему выбраны данные именно Github'а. Потому что это открытая экосистема понятная всем разработчикам. Это к вопросу о создании его альтернатив, потому что настоящих альтернатив почти нет.

Ссылки:
[1] https://ossinsight.io
[2] https://www.pingcap.com/tidb-serverless/

#opensource #analytics #dataviz #github
В рубрике интересных наборов данных Data Citation Corpus [1] от Datacite появился в рамках проекта Make Data Count. Сами данные владельцы пока не отдают в свободный оборот, надо заполнить форму запроса на использование [2], но для исследовательских проектов это не должно быть помехой.

Также, у набора данных есть дашборд с визуализацией [3].

Проект любопытный, на нём можно построить гораздо более интересную аналитику чем то что сейчас предоставляет DataCite.

Ссылки:
[1] https://makedatacount.org/data-citation/
[2] https://docs.google.com/forms/d/e/1FAIpQLSd1l7ovTQs3EMw9mz4HFaVB2SuUQ8Z8FldoCDgvD74GV-vh0Q/viewform
[3] http://corpus.datacite.org/dashboard

#opendata #data #openaccess #researchdata
В рубрике как это устроено у них Правительство Бразилии обновило план действий по открытости государства на 2023-2027 годы, он есть на сайте Open Government Partnership [1]. Он включает список сделанного за 2023 год и перечень следующих шагов.

Что было сделано:
- Появилась процедура партисипаторного планирования когда граждане участвуют в принятии решения по долгосрочным государственным программам. Это как партисипаторное бюджетирование, но долгосрочное
- Произошло расширение Transparency, Integrity, and Anti-Corruption Council (CTICC), специального совета из граждан и чиновников по обеспечению прозрачности. Решено расширить его включением большего числа представителей гражданского общества и НКО
- Был создан Social Participation Office (Офис по социальному участию) при Президенте - содействует вовлечению граждан в деятельность гос-ва. Начиная с партисипаторного бюджетирования и продолжая другими подобными инициативами

Что планируется:
- Разработку Open Government Strategy единой стратегии, которая охватит все стороны открытости гос-ва в стране
- Внедрение партисипаторного бюджетирования в бюджетный процесс
- Множество континентальных мероприятий по открытости таких как: Open Region, Condatos и др

И ещё множество обязательств (commitments) по открытости и по доступности данных. В Бразилии открытость данных имеет чёткий акцент на противодействии коррупции. В целом же очень много усилий по вовлечению граждан во все стороны деятельности гос-ва.

Ссылки:
[1] https://www.opengovpartnership.org/es/documents/brazil-action-plan-2023-2027-december/

#opendata #opengov #brazil
Первый день открытых данных в Армении пройдёт 2 марта в Loft Yerevan, в форме митапа, если Вы тут находитесь или будете проездом - заходите. Будут мастер-классы, рассказ про то что мы делаем в Open Data Armenia, разговоры о проектах на открытых данных в Армении. А также на ODD Армения я расскажу, наконец-то, про поисковик по открытым данным над которыми мы работали почти год (спойлер - более 10 миллионов датасетов, моментальный поиск). Это будет оффлайн, без трансляции, но точно интересно.


6 марта пройдет виртуальный Open Data Day в России (Москве) https://opendataday.ru/msk, запишите его себе в календарь и присоединяйтесь онлайн. Российский ODD будет целиком из докладов сообщества и его программа скоро будет доступна. После него обязательно будут видеозаписи и вот тут я также расскажу про поисковик на данных и это уже будет на более широкую аудиторию. Следите на сайте и в ТГ канале Инфокультуры @infoculture.

#opendata #opengov #vents #opendataday
Forwarded from Open Data Armenia
Join us in celebrating Open Data Day in Armenia!

Date and time: March 2, 2024, 11:00 AM
📍Location: Loft at 3 Moskovyan Street, Yerevan, Armenia

The Open Data Day event will be for the first time in Armenia.

The program of the event includes:
- Discussion “Open data projects landscape. View in Armenia”
- Open Data Armenia Contest Ceremony (https://contest.opendata.am/)
- Presentation “Open Data Armenia Data Citizen Portal”
- Discussion “Government Open Data in Armenia”
- Master class “Armenia Data Discovery”
- Master class “Data Scraping”
- Master class “Government Finances Open Data”

This event is part of the International Open Data Day initiative, which helps to promote the concept of open data and information transparency in the activities of public authorities, businesses, non-profit organizations and other participants. The events are held all over the world. In Armenia, this event is organized by Open Data Armenia Project Team.

The event may be of interest for developers, data researchers and analysts, digital humanities specialists, data journalists, and other engaged specialists and students.

Don't miss the opportunity to be inspired by projects, make new contacts and contribute to the development of open data in Armenia. Join us and be part of the open data community in Armenia!

More information about the event on the website: https://odd.opendata.am.

Registration Form: https://forms.gle/EZqvXg9zAAF5zade7

Organizer: Public Organization “Open Data Development Center”.
Я давно не писал про некоторые базовые принципы работы с данными, хотя регулярно о них задумываюсь в практическом контексте применения концепций и принципов инженерии данных к открытым и общедоступным данным. Например, про data lineage, которое на русский язык коллеги переводят как генеалогию данных. Я буду использовать термин data lineage, как более употребимое.

Так вот интересное тут то что в корпоративном мире с густой аналитикой (когда аналитические команды есть и они сильные, и запрос на аналитику есть), так вот в корпоративном мире data lineage - это понятное явление, если не привычное, то активно обсуждаемое и применяемое. Потому что decision maker'ы часто задают вопросы о том как та или иная цифра вышла и надо иметь ответ о том, а как же это оно есть. А вот в мире общедоступных данных, статистики и, отчасти, науки, с data lineage всё, скажем там, плоховато или очень специфично.

В случае научных данных общего типа, происхождение данных, обычно, описано текстом, неструктурировано и, частично, выявляется из ссылок на данные которые использовались. Иногда по этим ссылкам можно определить быстро первоисточник и способы обработки, иногда сложнее. Для хорошо структурированных научных областей вроде биоинформатики это должно быть проще, для других наук сложнее и тд.

В других случаях это сложнее, иногда реально сложно. Ещё сложнее со статистикой, при том что там источники данных указываются практически всегда, но это указание может быть не на первоисточник, а на глобальный источник. Простой пример, какой-нибудь агрегатор данных статистики вроде портала данных ООН (data.un.org) может собирать данные из портала данных Международного валютного фонда (IMF) data.imf.org, а тот из первоисточника, страницы раскрытия данных на сайте резервного банка или статслужбы страны. А кто-то коммерческий может, опять же, собирать данные с портала ООН и выдавать в своём сервисе.
Будем ли он при этом рисовать полноценный data lineage от портала данных ООН до сайта статслужбы ? Вообще-то нет, источником будет указан портал ООН.

С открытыми данными данными ещё хуже, там даже приближения к генеалогии данных нет, даже если в первоисточнике базы из которой создан датасет он есть.

Потому что есть огромное немаловажное явление - это технологический разрыв между порталами раскрытия и системами управления данными.
Он особенно остро ощущается теми кто работает в обоих мирах, с корпоративными данными, и с общедоступными данными.

Лично я его ощущаю довольно сильно и проекты и инициативы которые создаются дата инженерами и, условно, идеологами и активистами отличаются очень сильно.

Первые продвинуты технологически и сразу ориентированы на разработчиков (API, структурированное хранилище, преобразование данных в удобные форматы JSON, Parquet и др.), но, часто, забывая про базовые принципы открытости.

Вторые, наоборот, ориентированы на государственную или корпоративную прозрачность, но технологическая реализация всегда оставляет ощущение архаики.

Как выглядят идеальные порталы/сайты индикаторов или порталы публикации геоданных? Лично я считаю что главное в них это максимальная ориентация на использование дата-инженерами и дата-аналитиками владеющими современными инструментами. Даже, если не суперсовременными, но хотя бы актуальными.

Это реализация data lineage, это проектирование по принципу API First, это современные форматы предоставления данных для data science, это _всегда_ наличие bulk download, это концепция в основе что data as a product, а не данные как производный продукт от чего то ещё.

#opendata #data #dataengineering #thoughts
Я тут читаю про российский Евразийский IT-форум (ссылки давать не буду, легко гуглится) и мнение имею что в общем-то российским госИТ продавать там нечего. Есть ли что продавать негосударственным ИТ ничего не скажу, скорее всего есть, но поможет ли им в этом российское гос-во есть некоторые, немалые сомнения.

Что могу сказать точно, так это то что результаты более чем скромные. Внедрение того же Гостеха или Госуслуг в Беларуси, если оно когда-либо, случится, то будет исключительно за деньги российского бюджета. Во внедрения в странах АСЕАН я просто не верю, там есть те кто сами могут много что продавать другим. Так же как и в случае арабских стран.

Меня, признаться, удивило отсутствие представителей Талибана в участниках, они как-то естественно бы там смотрелись вместе с представителями Ирана и КНДР😜😱

Но физически меня там не было, так что если у кого-то есть интересные инсайды, то было бы интересно послушать тех кто знает больше/лучше. Можно анонимно, источники раскрывать не буду 🙊

#government #it
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from Инфокультура
Программа Дня открытых данных 2024: открытые данные для науки, статистика внешней торговли, госфинансы и многое другое

🗓 Дата и время: 6 марта, 11:00-14:30
💻 Формат: онлайн-трансляция

Опубликована программа российского Дня открытых данных. Темы выступлений:

1. Открытые данные для управления российской наукой: проблемы и возможности. Спикер Иван Стерлигов, советник проректора по науке НИУ ВШЭ.
2. Открыть нельзя закрыть: особенности работы со статистикой внешней торговли России. Спикер Алина Владимирова, руководитель направления сетевого анализа, Институт востоковедения РАН.
3. Презентация проекта Dateno — поисковика по открытым и общедоступным данным по всему миру. Спикер Иван Бегтин, директор АНО «Инфокультура».
4. Открытость госфинансов: вчера, сегодня, завтра. Спикер Ольга Пархимович, руководитель проекта «Госзатраты».
5. Презентация проекта ДумаБинго: Что мы можем сказать о работе Государственной думы, используя открытые данные. Спикер Александр Верещагин, аналитик проекта.
6. Тендерскоп: инструмент общественного контроля публичных закупок. Спикер Ирина Чарикова, руководитель проекта.

📍Регистрируйтесь на мероприятие и добавляйте его себе в календарь. Подробности на сайте: https://opendataday.ru/msk

Организатором Дня открытых данных в России выступает АНО «Информационная культура».
В рубрике как это работает у них о том как публикует статистические данные Европейский Центральный Банк (ECB).

На сайте ECB есть специальный раздел с данными "Browse data" [1] с возможностью просмотра их по категориям, концептам, географии и в виде наборов данных [2]. Особенность публикации в виде набора данных в том что каждый набор - это коллекция связанных/тематических показателей которых может быть от нескольких единиц до сотен тысяч и все данные публикуются сразу для массовой выгрузки (bulk download). Иначе говоря можно скачать разом (107 файлами) в форматах CSV и SDMX (XML) данные по сразу более чем 3.3 миллиона временных рядов, а по каждому ряду до нескольких десятков значений.

Одновременно с этим данные можно искать, причём единицей поиска представлен временной ряд привязанный к конкретной территории [3], фактически показатели фрагментированы по странам/территориям и такая фрагментация оправдана поскольку чаще всего пользователи ищут данные в привязке к конкретной стране. Это очень похоже на организацию данных в портале данных Банка международных расчётов (BIS) [4].

Одновременно с этим портал даёт возможность выгрузить отдельные временные ряды в CSV, XLSX, SDMX на их страницах и включает документированное API для получения данных в JSON [5] .

Достоинства:
- хороший баланс функций для тех кто работает с данными на сайте и теми кто работает с ними локально выгрузками и через API
- возможность bulk download
- хорошо документированное API
- подробные метаданные по каждому показателю

Недостатки:
- нет поддержки современных форматов вроде Parquet
- нет программной библиотеки для Python или R
- нет интеграции в "один клик", надо писать код для работы с API или использовать SDMX connector
- нет описания API в спецификации OpenAPI

Ссылки:
[1] https://data.ecb.europa.eu/data
[2] https://data.ecb.europa.eu/data/datasets
[3] https://data.ecb.europa.eu/search-results
[4] https://data.bis.org
[5] https://data.ecb.europa.eu/help/api/overview

#opendata #statistics #europe
В качестве регулярного напоминания, в России уже 11 месяцев как отсутствует федеральный портал открытых данных data.gov.ru. Он был "закрыт на ремонт" Минэкономразвития РФ в марте 2023 года [1] и с тех пор не возвращён к жизни, несмотря на то что его "перенос на Гостех" должен был завершиться к январю 2024 года.

В истории Минэка - это не последняя плохая история в их информатизации и зоной ответственности, но очень показательная поскольку закрыли старую версию портала до того как открыли новую. В общем-то всем понятно что просто хотели закрыть.

Ссылки:
[1] https://t.me/begtin/4714

#opendata #closeddata #russia
А на чешском "Хитра влада"
Рубрика "Циничная лингвистика"
"Умное правительство" на монгольском - "Ухаалаг засаг".
Вот все-таки есть что-то глубинное в языке степных кочевников!
К вопросу о инвентаризации данных, это, как ни странно, до сих пор большая-актуальная тема как в корпоративном мире, так и в задачах data discovery (поиска данных) и создания каталогов открытых данных. Нашёлся ещё один свежий ресурс, шаблон по инвентаризации данных от Open Contracting [1].

Честно говоря, у меня лично он не вызывает какого-то восторга, довольно простой гайд и простая форма для заполнения. Даже карточки регистрации датасетов в CKAN и других каталогах данных выглядят куда обстоятельнее, а в корпоративных каталогах данных всё ещё интереснее.

Кроме того то что они называют Dictionary, по факту это схема данных и заполнять это вручную, скажем так, непрофессионально. Сбор структуры полей из файлов с данными вполне автоматизируем.

Тем не менее, для какого-то упрощённого подхода в инвентаризации это применимо.

А я напомню про разницу в инвентаризации данных между открытыми каталогами, госкаталогами и бизнес потребностями:

Для бизнеса ключевое:
- максимально полный охват внутренних ресурсов (баз данных)
- фиксация всех режимов доступа (кто имеет право доступа к чему)
- прослеживаемость данных, data lineage и тд.
- автоматизация измерения качества данных
- инвентаризация не только данных, но и всех data flows (процессов и потоков обработки данных)
- автоматически/автоматизированно актуализируемая документация

Для государства:
- сведения о информационной системе
- нормативный статус данных
- идентификация ответственного/владельца данных
- режим доступа к данным
- не только базы данных, но и все дата файлы и то что должно быть превращено в дата файлы

Для открытых и общедоступных данных:
- условия повторного использования
- контакты ответственного лица
- общедоступная документация
- сведения о повторном использовании и публикациях на основе данных


Ссылки:
[1] https://www.open-contracting.org/resources/data-inventory-template/

#opendata #data #datainventory #readings
Интересные open source проекты про данные и не только:
- pipelined query language [1] - Спецификация и реализация компилятора из языка PQL в диалекты SDQL. Идеологически вдохновлён Kusto Query Language [2] от Microsoft, выглядит любопытно, особенно если проект проживёт долго и будет применяться.
- FileQL [3] - очередная реализация принципа "всё SQL", обёртка для SQL запросов в отношении операций с файловой системой.
- Magika [4] - программный модуль для Python и утилита по определению типа файла на основе модели обученной с помощью ML. Обещают лучшую точность и всё такое. Фактически замена программы magic для аналогичных целей в Unix/Linux.
- Gatus [5] продвинутый монитор доступности и статуса серверов/сервисов, ориентирован на разработчиков, управляется через YAML файлы конфигурации
- SSH3 [6] эволюция протокола SSH2 для дистанционного подключения к терминалам на удалённых серверах. Обещают большую производительность и большую безопасность. Может быть полезно для проксирования трафика тем кому это нужно.

Ссылки:
[1] https://github.com/runreveal/pql
[2] https://learn.microsoft.com/en-us/azure/data-explorer/kusto/query/
[3] https://github.com/AmrDeveloper/FileQL
[4] https://github.com/google/magika
[5] https://github.com/google/magika
[6] https://github.com/francoismichel/ssh3

#opensource #datatools
К вопросу о современных дата продуктах, один из способов работы с данными сейчас - это комбинация DuckDB и Polars. Например, DuckDB так стремительно набирает популярность что я не удивлюсь что скоро данные начнут распространять и публиковать как базы DuckDB, примерно как много лет назад публиковали DBF файлы и файлы MS Access [1] и также как иногда сейчас публикуют sqlite файлы [2].

В общем и целом за этим хайпом есть реальные продукты которые стоит посмотреть своими глазами.


P.S. Картинка из блога Christophe Blefari

Ссылки:
[1] https://catalog.data.gov/dataset/municipal-fiscal-indicators-2014-2018-ms-access-database
[2] https://catalog.data.gov/dataset/x-ray-properties-database-in-sqlite-format

#opensource #datatools