Ivan Begtin – Telegram

Ivan Begtin

7.98K subscribers

1.8K photos

3 videos

101 files

4.51K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Download Telegram

About

Blog

Apps

Platform

7.98K subscribers

Forwarded from Ах, этот Минфин (Olya Parkhimovich)

Результаты России в Global Data Barometer (https://globaldatabarometer.org/country/russian-federation/)

1.5K viewsIvan Begtin, 14:25

На сайте Минцифры России новость про создание госДатаХаба [1]. Пока кратко, я к этому проекту никакого отношения не имею, но подозреваю кто его делает и за него отвечает.

Пока лишь обращу внимание на фразу Государство будет мотивировать бизнес предоставлять обезличенные данные по отдельным направлениям, которые критически важны для системы госуправления.

Это именно то что делает этот проект плохим. Потому что вначале придумают позитивную мотивацию, потом окажется что она не работает, перейдут к негативной мотивации и заставят сдавать данные, а вместо открытия новых данных, начнут переводить имеющиеся в платный режим.

Чуть позже я напишу об этом подробнее.

Ссылки:
[1] https://digital.gov.ru/ru/events/41556/

#data #government

Министерство цифрового развития, связи и массовых коммуникаций Российской Федерации

В России приступили к реализации проекта по созданию национального озера данных

1.8K viewsIvan Begtin, 15:43

Если у Вас есть что рассказать про цифровую архивацию, пишите нам - есть слоты для докладов! Я бы лично хотел послушать доклады про архивации данных, а не только про них говорить самому. Найдутся желающие?

1.6K viewsIvan Begtin, 16:05

Forwarded from Национальный цифровой архив

Серия докладов в программу конференции по цифровым архивам: принимаем заявки

Продолжается прием заявок на участие в секции коротких докладов по теме цифровой архивации. Это могут быть презентации:
— кейсов веб-архивирования и сохранения какого-либо ресурса;
— о разработанных инструментах с открытым исходным кодом по сохранению веб-контента;
— технических обзоров и гайдов по работе с какими-либо инструментами веб-архивирования.

Не обязательно на момент выступления иметь готовый и успешно завершенный проект — не менее интересны живые проекты, находящиеся в разработке, для реализации которых вы сможете запросить помощи у сообщества.

Формат участия: очно или онлайн.

Если вы хотите принять участие в секции, напишите нам подробнее о вашем докладе на эл. почту infoculture@infoculture.ru.

Подробнее о конференции и регистрация: https://conference.ruarxive.org.

1.6K viewsIvan Begtin, 16:05

По результатам голосования https://t.me/begtin/3846 с отрывом лидирует сделать результаты анализа реестра аккредитованных ИТ компаний общедоступными с данными, аналитикой (и лунным модулем).

А пока, чтобы поддержать интригу, предлагаю назвать единственные два органа власти органа власти в России зарегистрированные как аккредитованные ИТ компании (сотрудники тоже хотят льготную ипотеку, отнесемся с пониманием).

Ваши варианты в комментариях, подсказка, это не Минцифра РФ.

#it #questions

Как лучше публиковать данные, находки и результаты анализа реестра аккредитованных ИТ компаний?
Максимально подробно, с данными, аналитикой и выявленными странностями / Опубликовать аналитику, отправить находки в Минцифру / Опубликовать только данные, пусть…

1.8K viewsIvan Begtin, 06:35

Какие два органа власти зарегистированы как аккредитованные ИТ компании? (надо выбрать два ответа)

Anonymous Poll

ФНС России

Минобороны России

ДИТ Москвы

Минцифры Республики Татарстан

Минцифры Оренбургской области

Минприроды РФ

Счетная палата РФ

ФСТЭК России

Роскомнадзор

Управление делами Президента РФ

467 voters1.8K viewsIvan Begtin, 07:02

Про новость про госДатаХаб (Национальное озеро данных) [1] я напишу подробнее и тезисами.

1. Внутрикорпоративные (государственные) озёра данных, хабы данных уже существуют в нескольких регионах и органах власти (ФНС России, МЧС РФ и др). Они используются для агрегации отраслевых данных для внутренних аналитиков.
2. Корпоративные каталоги данных существуют во многих крупных холдингах, корпорациях. В основном они созданы для инвентаризации собственных данные, работы команд дата-сайентистов.
3. Национальное озеро данных - это идея, на сегодняшний день, у которой нет закрепления в какой-либо стратегии или ином концептуальном документе. Она проговаривалась непублично или не проговаривалась вовсе, не проходила обсуждения с экспертами и стейкхолдерами.
4. Идея объединения данных органов власти разумна для снижения издержек для аналитической работы, но несёт этические риски нарушения приватности даже на деперсонализированных данных. (см. Re-Identification). Именно поэтому проектирование такой системы требует вначале разработки концепции и далее уже определения пути её реализации.
5. Передача данных от бизнеса - это некоторая полу-насильственная форма изъятия данных у крупных компаний. Сейчас госорганы покупают агрегированные данные у сотовых операторов, крупных коммерческих компаний и тд. данные на коммерческих условиях. Давно идёт речь о снижении этих расходов, были разговоры о централизации закупок или что эти данные федеральная власть будет закупать для органов власти субъектов федерации.
6. Бизнесу в обмен предлагают данные которые находятся внутри государственных информационных систем и предполагается их предоставление за деньги. Не у всякого бизнеса, особенно малого и микро, будут ресурсы на покупку данных.
7. Очень велика вероятность что через госДата.хаб могут начать торговать теми данными которые сейчас открыты, аппелируя к выпадающим дохода бюджета.
8. Открытые данные - с коммерческой точки зрения, в первую очередь, предоставление данных для развития рынков, поддержки малого и среднего предпринимательства. Эта поддержка может значительно сократиться если данные будут переводить на платную основу.
9. Эти действия идут против тренда во всём мире, где коммерциализация госданных наоборот уступает подходу по их открытости. Постепенно открывают реестры недвижимости, конечных собственников, госконтрактов и тд., то что в России постепенно закрывается. Несмотря на то что текущий уровень открытости в России по многим направлениям, пока ещё, высокий.
10. Важно помнить что с точки зрения информационной безопасности, требования к которой будут только нарастать, многие данные не будут доступны вообще ни в какой форме. Ни бесплатно, ни открыто, ни платно. Потому что платность никак не защищает от их покупки вероятными геополитическими противниками. В этом смысле даже госДата.хаб не настолько плох, как полное закрытие всего и вся.
11. Проблема в непредсказуемости дальнейших действий могла бы быть решена созданием национальной стратегии работы с данными, как это сделано во многих странах. Там можно было бы определить и место национального озера данных. Но пока нет даже намёка что такую стратегию предполагается разрабатывать.
12. Увы нет ни слова кто за разработкой такого проекта стоит и кто проектирует и тд. В отрасли есть некоторое количество специалистов в работе с данными, с уклоном в данные в ИИ, или в данные в корп аналитику, но рядом с этим проектом никого из них нет. Почему так - это отдельный вопрос и касается не только отраслей работы с данными.
13. Что с этим всем делать ? Я ещё раз подчеркну что стратегия важнее тактики. То что вместо проектирования и продумывания опять "бегом-бегом", "быстро-быстро" потратить деньги на новую информационную систему - это выглядит как очередной бег на месте.

Ссылки:
[1] https://t.me/begtin/3854

#policy #it #government #digital #data #datastrategy

На сайте Минцифры России новость про создание госДатаХаба [1]. Пока кратко, я к этому проекту никакого отношения не имею, но подозреваю кто его делает и за него отвечает.

Пока лишь обращу внимание на фразу Государство будет мотивировать бизнес предоставлять…

1.7K viewsIvan Begtin, 08:43

Публикуют ли библиотеки данные? Если, да, то зачем? Британская библиотека (The British Library) опубликовала 274 набора данных [1] в основном в формате CSV и XML. Эти данные включают, например, базу диссертаций в Великобритании [2] или тексты из оцифрованных карт Африки.

Эти наборы данных публикуются как часть работ исследователей библиотеки на портале The British Library's Research Repository [4] где всего размещено 1663 научных материала, включая эти наборы данных.

Многие библиотеки, музеи, исследовательские центры публикуют данные как часть политики открытого доступа, либо создавая отдельные репозитории, либо на централизованных ресурсах таких как Zenodo.

Ссылки:
[1] https://iro.bl.uk/catalog?f%5Bresource_type_label_ssim%5D%5B%5D=Dataset&locale=en&q=&search_field=all_fields
[2] https://bl.iro.bl.uk/concern/datasets/23ac0382-d423-4686-885b-4930040d3ed5
[3] https://bl.iro.bl.uk/concern/datasets/117ed6c1-d9ba-481a-bae6-74d389f6a441
[4] https://bl.iro.bl.uk

#opendata #datasets #libraries

British Library

UK Doctoral Thesis Metadata from EThOS

2.0K viewsIvan Begtin, 09:21

Low code добралось и до инженерии данных. Стартап Prophecy.io [1] поднял в общей сложности $38.5M за 5 раундов инвестиций создавая платформу с минимальным программированием на базе Apache Spark и Apache Airlow. Эдакий подход - антихардкор, никакой командной строки, только работа мышкой.

Интересно до чего ещё докатится волна создания low-code продуктов?

Ссылки:
[1] https://www.prophecy.io/

#startups #dataengineering #tools

1.8K viewsIvan Begtin, 09:26

Не могу не поделиться мыслями о том тяжкий груз незавершённого - это то что лично меня, и наверняка, не только меня преследует регулярно. Из 20 проектируемых проектов, до создания доходит 5, а до публикации 1-2 и так регулярно, во всяком случае когда жизнь чаще построена не в продуктовом, а в проектном смысле.

За эти годы я сам и наша команда чего только не проектировала:
- многочисленные порталы данных
- систему сбора муниципальной статистики из всевозможных источников
- систему аналитически и мониторинга некоммерческого сектора
- агрегатор новостных лент из источников где нет новостных лент
- систему сбора информации о деятельности и площадках работы лоббистов
- систему сбора активности и голосований депутатов
- мониторинг нефтегазовых доходов бюджета, компаний и тд
- аналитику по государственным информационным системам и их структуре
- систему сбора данных из неструктурированных источников
- систему мониторинга принятых НПА и проектов НПА

И ещё многое другое.

Проблема в том что многие из проектов не переживает стадию проектирования и почти всегда упираются в отсутствие ключевых данных или отсутствие институциональной среды. К примеру, доходы нефтегазового бюджета и прозрачность этой сферы - это тема любой нормальной политической партии. Но, в России, как бы сейчас нет политики в общепринятом (нормальном) понимании.

Или мониторинг НПА, очень понятная и нужная задача для любых лоббистких задач, не обязательно дурных. Проблема в том что её невозможно сделать хорошо без рисков вскрытия коррупции и много чего другого. И так далее. Общественные проекты на данных находятся между Сциллой резкой оппозиционности, Харибдой прогосударственной обессмысленности. Проекты вроде Госзатрат существуют скорее как исключение, с кучей ограничений, например, отсутствия реальной подсветки коррупции и нарушений, хотя делать это и возможно, но сложно управлять возникающей от этого публичной ситуацией.

Приведу пример, есть проект Открытые НКО, сейчас недоступен, мы скоро его восстановим, с базой по всем НКО, на базе ЕГРЮЛ, реестра субсидий, госконтрактов и их отчетности.

В реальности у нас примерно в 5-6 раз больше данных по тем же НКО. Как внешних источников данных, так и аналитики на имеющихся. Например, НКО холдинги (РПЦ, ДОСААФ и др.), гендерная структура, помощь от гос.ва во всех формах, образовательные и иные лицензии и ещё много чего. Но, в итоге, кто аудитория? Минюст с карательными функции в отношении НКО? Оппозиционные СМИ признанные инагентами? НКО сообщество?

Нет, увы, главный кризис использования открытых данных в общественных целях и, отчасти это и кризис журналистики данных, выборе между политизацией и бессмысленностью (жёсткой самоцензурой).

Вот такие мысли, пока без ответов что делать в сложившейся ситуации.

#thoughts #datajournalism #russia #dataprojects

ГосЗатраты

ГосЗатраты - Общественный мониторинг госзакупок в Рф

Автоматизированный мониторинг и аналитика по заключенным госконтрактам – инструменты для общественного анализа, выявления злоупотреблений, борьбы с коррупцией и неэффективным расходованием государственных средств.

1.7K viewsIvan Begtin, edited 10:16

Forwarded from Национальный цифровой архив

Неприятная новость в том что Интернет Архив может быть заблокирован в России. Роскомсвобода пишет что

Мировой суд Москвы зарегистрировал административный протокол, составленный Роскомнадзором в отношении американской организации Internet Archive из-за ее отказа удалить запрещенный в РФ контент. Дело будет рассматриваться 16 июня текущего года всё в том же 422 участке, где уже было вынесено множество штрафов в отношении Facebook, Google, Twitter, Telegram, TikTok и других интернет-компаний. [1]

Будем надеяться что интернет архив останется доступен из России или нам всем придётся пользоваться VPN.

Ссылки:
[1] https://roskomsvoboda.org/post/shtraf-webarchive-za-neudalionku/

#archiveorg #internetarchive

Роскомсвобода

«Архиву Интернета» грозит крупный штраф за неудаление запрещённых материалов

По данным суда, речь идёт об информации, признанной судами экстремистской на территории РФ, в том числе — о способах изготовления взрывчатых веществ и взрывных устройств.

2.0K viewsIvan Begtin, 10:33

Ответ на вопрос о двух органах власти аккредитованных как ИТ компании [1] - это ДИТ Москвы и Минцифры Оренбургской области.

Остальные предположения про ФНС России, Роскомнадзор и даже Минцифру РФ или Росреестр очень близкие, но, эти и другие органы власти регистрировали как ИТ компании свои подведы.

А именно органов власти как органов власти (орган власти никогда не может показать "выручку от ИТ") только два и совершенно непонятно как их смогли аккредитовать.

Ссылки:
[1] https://t.me/begtin/3859

#government #it #itcompanies

Какие два органа власти зарегистированы как аккредитованные ИТ компании? (надо выбрать два ответа)
ФНС России / Минобороны России / ДИТ Москвы / Минцифры Республики Татарстан / Минцифры Оренбургской области / Минприроды РФ / Счетная палата РФ / ФСТЭК России…

2.1K viewsIvan Begtin, edited 04:05

Про доступность данных о качестве воздуха, я просто проиллюстрирую это наглядно как это всё сейчас происходит.

Есть федеральный проект "Чистый воздух" в национальном проекте "Экология", есть Единая информационная система мониторинга загрязнения атмосферного воздуха (ЕИС МЗА) [1] которую разрабатывают в НПО Тайфун (подвед Росгидромета). Типовое отражение данных из их системы представлено вот так на примере Красноярска [2]. Данные не публикуются, только картинки, и те с оговоркой что Данные наблюдений не проконтролированы, не могут применяться для официальных целей

Если очень захотеть, то можно, конечно, извлечь данные из недокументированного API и тд. Чтобы хотя бы попробовать проверить их достоверность, сопоставлять с общественными проектами вроде nebo.live.

Но вот оно дело, данные не публикуются, методических документов нет и публично это даже не обсуждалось.

Ссылки:
[1] http://www.feerc.ru/uisem/portal/
[2] http://www.feerc.ru/uisem/portal/ad/krasnoyarsk-1

#opendata #data #lifequality

4.0K viewsIvan Begtin, 04:38

В рубрике интересных инструментов работы с данными
- mitmproxy [1] интерактивный прокси для https трафика
- mitmproxy2swagger [2] инструмент поиска недокументированных API и описание их по стандарту Swagger/OpenAPI
- mitm_postman [3] похожий инструмент по созданию коллекций API в Postman через перехват вызовов, не обновлялся 4 года

Ссылки:
[1] https://mitmproxy.org/
[2] https://github.com/alufers/mitmproxy2swagger
[3] https://github.com/viraja1/mitm_postman

#api #opensource #data

GitHub - alufers/mitmproxy2swagger: Automagically reverse-engineer REST APIs via capturing traffic

Automagically reverse-engineer REST APIs via capturing traffic - alufers/mitmproxy2swagger

2.1K viewsIvan Begtin, 06:27

Интересное чтение про данные

Обзор баз данных для временных рядов [1] полезное чтение для тех кто уже решил что им нужно хранить данные для визуализации, но ещё не определился каким способ.
—
Финский стартап Aiven поднял $210M инвестиций в серии Д [2]. Для европейского стартапа - это очень много. Интересна его специализация - это развертывание и управление инфраструктурой работы с данными на 5 облачных провайдерах: AWS, DigitalOcean, Microsoft Azure, Google Cloud, UpCloud.

Кто бы сделал такое в России поверх облаков Яндекса, VK и Selectel ?
—

AlloyDB [3] свежая облачная база от Google совместимая с Postgres. Помните я писал про то что самое странное в недавно открытой Яндексом базе YDB в том что она ни с Postgres, ни с MySQL не совместима. Потому что совместимость из коробки сильно упрощает миграцию. В Google это понимают, многие облачные и не облачные продукты идут таким путём. Кстати, вот идея для продукта - делать обёртки Postgres'совместимости для существующих СУБД.
Рынок не жирный, но реальный.
—
Looker продолжают продвигать Malloy их data exploration language [4]

Ссылки:
[1] https://towardsdatascience.com/the-landscape-of-timeseries-databases-95cd7f7ee64d
[2] https://aiven.io/press/Aiven-raises-210M-to-invest-in-sustainable-open-source-cloud
[3] https://io.google/2022/program/0a894aa7-755b-478d-9553-e9c828deb885/
[4] https://docs.google.com/presentation/d/18KUl_rrz2K-hbsiKJYS3rtTcYxZMXKklyPllLmTtIYY/edit#slide=id.g1269816dcbe_0_140

#data #datatools #readings #startups

The Landscape of Timeseries Databases

A short survey of the timeseries databases of today

2.1K viewsIvan Begtin, 17:52

Я ранее много писал и рассказывал про то что внутри нашего проекта DataCrafter [1] находится несколько движков: распознавания данных, извлечения данных, каталогизации и ведения реестра и так далее и обещал часть продукта выложить в открытый код.

Эта задача несколько затянулась, вначале в открытом коде вышел metacrafter [2] движок по идентификации семантических типов данных и смысловых полей в наборах данных и СУБД (например, для идентификации персональных данных).

А теперь в режиме альфа версии доступен движок ETL, одноименно названный datacrafter [3]. Это NoSQL движок для работы с данными и с API для извлечения обработки и их сохранения. Движок выделен через миграцию кода в проекте, отделение его от остальной монолитной части и с переписыванием части кода для большей универсальности.

В чём особенность этого движка он изначально создавался только для загрузки любых данных в MongoDB и заточен под открытые данные, условно, любого размера. Он используется для обработки данных ФНС публикуемых гигабайтными XML файлами, для чего используется универсальный SAX парсер. Он создаёт файлы BSON которые можно грузить в MongoDB без дополнительных преобразований и так далее.

Как ещё он даёт возможности:
- настраивать извлечение данных из JSON, CSV, XML, JSONl файлов
- осуществлять преобразование данных: переименование полей, назначение типов полей, выполнение произвольного кода
- сохранять результаты в форматах BSON, JSON lines, CSV, в том числе сразу сжимая их в xz, gz, zip архивы
- умеет извлекать данные из API с помощью инструмента apibackuper [4]

В режиме альфа версии потому что большей части ключевог опока нет:
- нет готовой документации, только примеры.
- нет режима серверной работы, с агентами выполнения задач
- не перенесена интеграция с metacrafter и автодокументирование
- нет интеграции с HTML скрейперами

Поскольку документации пока мало, основной в примерах datacrafter-examples [5]. Например, можно посмотреть пример обработки больших XML файлов ФНС России внутри ZIP архивов с преобразованием в BSON [6] или сертификатов удостоверяющих центров где данные извлекаются из API и включен скрипт преобразования каждой записи.

Примеры запускаются командой "datacrafter run" в директории каждого примера.

В перспективе, по очередности:
1. Добавить документацию к движку и примерам и к рекомендациям как движок расширять.
2. Включить поддержку подключения к СУБД
3. Подключить загрузку данных в NoSQL
4. Добавить режим агентской работы (в режиме сервера)
5. Добавить режим UI
6. Добавить или подключить планировщик задач

Пока же можно начать его использовать, задавать вопросы и запросы на расширение в issues.

Ссылки:
[1] https://datacrafter.ru
[2] https://github.com/apicrafter/metacrafter
[3] https://github.com/apicrafter/datacrafter
[4] https://github.com/ruarxive/apibackuper
[5] https://github.com/apicrafter/datacrafter-examples
[6] https://github.com/apicrafter/datacrafter-examples/tree/main/fnspaytax
[7] https://github.com/apicrafter/datacrafter-examples/tree/main/uccertufo

#datatools #opensource #dataengineering

GitHub - apicrafter/metacrafter: Metadata and data identification tool and Python library. Identifies PII, common identifiers,…

Metadata and data identification tool and Python library. Identifies PII, common identifiers, language specific identifiers. Fully customizable and flexible rules - apicrafter/metacrafter

1.9K viewsIvan Begtin, 05:42

Те кто ищет продукты по работе с базами данных и при этом больше похожие на MS Access, но в облаке, обычно быстро находят Airtable, но это совсем далеко не единственный low-code и no-code продукт в этой области. О некоторых я ранее писал, а других ещё нет:
- NocoDB [1] альтернатива Airtable с открытым кодом.
- Rows [2] позиционируют себя как "переизобретение таблиц", стартап и онлайн сервис
- Clay [3] стартап с интеграцией с кучей онлайн сервисов, CRM, аналитики и т.д.
- Dataland [4] стартап и онлайн сервис ориентированный на удобство разработчиков, как универсальный фронтенд над базами данных. Пока в бета по запросу
- Tulr [5] бесплатная альтернатива Airtable. Платные тарифы тоже есть. Стартап, онлайн сервис
- StackBy [6] сервис ориентированный на маркетологов, с кучей шаблонов под их работу
- Basedash [7] ещё один сервис упрощения редактирования баз данных, словно не база, а таблица в Excel.
- Grist [8] довольно продвинутый инструмент с открытым кодом и облачный стартап.
- Smartsheet [9] корпоративный продукт, вернее продукт с корпоративной версией.
- Actiondesk [10] позволяет подключаться к СУБД и ещё и создавать аналитические интерфейсы.

А также большая подборка инструментов в списке Awesome NoCode/LowCode [11]

Ссылки:
[1] https://nocodb.com
[2] https://rows.com
[3] https://www.clay.com
[4] https://dataland.io/
[5] https://tulr.io/
[6] https://stackby.com/
[7] https://www.basedash.com/
[8] https://www.getgrist.com/
[9] https://www.smartsheet.com/
[10] https://www.actiondesk.io/
[11] https://github.com/kairichard/awesome-nocode-lowcode#database

#nocode #lowcode #tools #data

Instantly turn your Database into a No-Code Platform

2.3K viewsIvan Begtin, 10:46

Кстати, я тут регулярно писал про разного рода инструменты вроде Postman или Insomnia для работы с API. Их много, для разных типов API особенно, а оказалось есть ещё один в активной разработки.

Создатели утилиты httpie [1] для командной строки создают сейчас настольное и онлайн приложение для отладки API. Называется оно Httpie Web & Desktop App [2] и на это они в октябре 2021 г. подняли венчурное финансирование на $6.5M [3]. Бизнес модель пока неясна до конца, но скорее всего это будет что-то похожее на Postman с "игровой площадкой" для работы с API.

Ссылки:
[1] https://httpie.org
[2] https://httpie.io/product
[3] https://www.crunchbase.com/organization/httpie

#data #api #startups

1.8K viewsIvan Begtin, 16:32