Ivan Begtin
8.03K subscribers
1.73K photos
3 videos
101 files
4.43K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Результаты России в Global Data Barometer (https://globaldatabarometer.org/country/russian-federation/)
На сайте Минцифры России новость про создание госДатаХаба [1]. Пока кратко, я к этому проекту никакого отношения не имею, но подозреваю кто его делает и за него отвечает.

Пока лишь обращу внимание на фразу Государство будет мотивировать бизнес предоставлять обезличенные данные по отдельным направлениям, которые критически важны для системы госуправления.

Это именно то что делает этот проект плохим. Потому что вначале придумают позитивную мотивацию, потом окажется что она не работает, перейдут к негативной мотивации и заставят сдавать данные, а вместо открытия новых данных, начнут переводить имеющиеся в платный режим.

Чуть позже я напишу об этом подробнее.

Ссылки:
[1] https://digital.gov.ru/ru/events/41556/

#data #government
Если у Вас есть что рассказать про цифровую архивацию, пишите нам - есть слоты для докладов! Я бы лично хотел послушать доклады про архивации данных, а не только про них говорить самому. Найдутся желающие?
Серия докладов в программу конференции по цифровым архивам: принимаем заявки

Продолжается прием заявок на участие в секции коротких докладов по теме цифровой архивации. Это могут быть презентации:
— кейсов веб-архивирования и сохранения какого-либо ресурса;
— о разработанных инструментах с открытым исходным кодом по сохранению веб-контента;
— технических обзоров и гайдов по работе с какими-либо инструментами веб-архивирования.

Не обязательно на момент выступления иметь готовый и успешно завершенный проект — не менее интересны живые проекты, находящиеся в разработке, для реализации которых вы сможете запросить помощи у сообщества.

Формат участия: очно или онлайн.

Если вы хотите принять участие в секции, напишите нам подробнее о вашем докладе на эл. почту infoculture@infoculture.ru.

Подробнее о конференции и регистрация: https://conference.ruarxive.org.
По результатам голосования https://t.me/begtin/3846 с отрывом лидирует сделать результаты анализа реестра аккредитованных ИТ компаний общедоступными с данными, аналитикой (и лунным модулем).

А пока, чтобы поддержать интригу, предлагаю назвать единственные два органа власти органа власти в России зарегистрированные как аккредитованные ИТ компании (сотрудники тоже хотят льготную ипотеку, отнесемся с пониманием).

Ваши варианты в комментариях, подсказка, это не Минцифра РФ.

#it #questions
Про новость про госДатаХаб (Национальное озеро данных) [1] я напишу подробнее и тезисами.

1. Внутрикорпоративные (государственные) озёра данных, хабы данных уже существуют в нескольких регионах и органах власти (ФНС России, МЧС РФ и др). Они используются для агрегации отраслевых данных для внутренних аналитиков.
2. Корпоративные каталоги данных существуют во многих крупных холдингах, корпорациях. В основном они созданы для инвентаризации собственных данные, работы команд дата-сайентистов.
3. Национальное озеро данных - это идея, на сегодняшний день, у которой нет закрепления в какой-либо стратегии или ином концептуальном документе. Она проговаривалась непублично или не проговаривалась вовсе, не проходила обсуждения с экспертами и стейкхолдерами.
4. Идея объединения данных органов власти разумна для снижения издержек для аналитической работы, но несёт этические риски нарушения приватности даже на деперсонализированных данных. (см. Re-Identification). Именно поэтому проектирование такой системы требует вначале разработки концепции и далее уже определения пути её реализации.
5. Передача данных от бизнеса - это некоторая полу-насильственная форма изъятия данных у крупных компаний. Сейчас госорганы покупают агрегированные данные у сотовых операторов, крупных коммерческих компаний и тд. данные на коммерческих условиях. Давно идёт речь о снижении этих расходов, были разговоры о централизации закупок или что эти данные федеральная власть будет закупать для органов власти субъектов федерации.
6. Бизнесу в обмен предлагают данные которые находятся внутри государственных информационных систем и предполагается их предоставление за деньги. Не у всякого бизнеса, особенно малого и микро, будут ресурсы на покупку данных.
7. Очень велика вероятность что через госДата.хаб могут начать торговать теми данными которые сейчас открыты, аппелируя к выпадающим дохода бюджета.
8. Открытые данные - с коммерческой точки зрения, в первую очередь, предоставление данных для развития рынков, поддержки малого и среднего предпринимательства. Эта поддержка может значительно сократиться если данные будут переводить на платную основу.
9. Эти действия идут против тренда во всём мире, где коммерциализация госданных наоборот уступает подходу по их открытости. Постепенно открывают реестры недвижимости, конечных собственников, госконтрактов и тд., то что в России постепенно закрывается. Несмотря на то что текущий уровень открытости в России по многим направлениям, пока ещё, высокий.
10. Важно помнить что с точки зрения информационной безопасности, требования к которой будут только нарастать, многие данные не будут доступны вообще ни в какой форме. Ни бесплатно, ни открыто, ни платно. Потому что платность никак не защищает от их покупки вероятными геополитическими противниками. В этом смысле даже госДата.хаб не настолько плох, как полное закрытие всего и вся.
11. Проблема в непредсказуемости дальнейших действий могла бы быть решена созданием национальной стратегии работы с данными, как это сделано во многих странах. Там можно было бы определить и место национального озера данных. Но пока нет даже намёка что такую стратегию предполагается разрабатывать.
12. Увы нет ни слова кто за разработкой такого проекта стоит и кто проектирует и тд. В отрасли есть некоторое количество специалистов в работе с данными, с уклоном в данные в ИИ, или в данные в корп аналитику, но рядом с этим проектом никого из них нет. Почему так - это отдельный вопрос и касается не только отраслей работы с данными.
13. Что с этим всем делать ? Я ещё раз подчеркну что стратегия важнее тактики. То что вместо проектирования и продумывания опять "бегом-бегом", "быстро-быстро" потратить деньги на новую информационную систему - это выглядит как очередной бег на месте.

Ссылки:
[1] https://t.me/begtin/3854

#policy #it #government #digital #data #datastrategy
Публикуют ли библиотеки данные? Если, да, то зачем? Британская библиотека (The British Library) опубликовала 274 набора данных [1] в основном в формате CSV и XML. Эти данные включают, например, базу диссертаций в Великобритании [2] или тексты из оцифрованных карт Африки.

Эти наборы данных публикуются как часть работ исследователей библиотеки на портале The British Library's Research Repository [4] где всего размещено 1663 научных материала, включая эти наборы данных.

Многие библиотеки, музеи, исследовательские центры публикуют данные как часть политики открытого доступа, либо создавая отдельные репозитории, либо на централизованных ресурсах таких как Zenodo.

Ссылки:
[1] https://iro.bl.uk/catalog?f%5Bresource_type_label_ssim%5D%5B%5D=Dataset&locale=en&q=&search_field=all_fields
[2] https://bl.iro.bl.uk/concern/datasets/23ac0382-d423-4686-885b-4930040d3ed5
[3] https://bl.iro.bl.uk/concern/datasets/117ed6c1-d9ba-481a-bae6-74d389f6a441
[4] https://bl.iro.bl.uk

#opendata #datasets #libraries
Low code добралось и до инженерии данных. Стартап Prophecy.io [1] поднял в общей сложности $38.5M за 5 раундов инвестиций создавая платформу с минимальным программированием на базе Apache Spark и Apache Airlow. Эдакий подход - антихардкор, никакой командной строки, только работа мышкой.

Интересно до чего ещё докатится волна создания low-code продуктов?

Ссылки:
[1] https://www.prophecy.io/

#startups #dataengineering #tools
Не могу не поделиться мыслями о том тяжкий груз незавершённого - это то что лично меня, и наверняка, не только меня преследует регулярно. Из 20 проектируемых проектов, до создания доходит 5, а до публикации 1-2 и так регулярно, во всяком случае когда жизнь чаще построена не в продуктовом, а в проектном смысле.

За эти годы я сам и наша команда чего только не проектировала:
- многочисленные порталы данных
- систему сбора муниципальной статистики из всевозможных источников
- систему аналитически и мониторинга некоммерческого сектора
- агрегатор новостных лент из источников где нет новостных лент
- систему сбора информации о деятельности и площадках работы лоббистов
- систему сбора активности и голосований депутатов
- мониторинг нефтегазовых доходов бюджета, компаний и тд
- аналитику по государственным информационным системам и их структуре
- систему сбора данных из неструктурированных источников
- систему мониторинга принятых НПА и проектов НПА

И ещё многое другое.

Проблема в том что многие из проектов не переживает стадию проектирования и почти всегда упираются в отсутствие ключевых данных или отсутствие институциональной среды. К примеру, доходы нефтегазового бюджета и прозрачность этой сферы - это тема любой нормальной политической партии. Но, в России, как бы сейчас нет политики в общепринятом (нормальном) понимании.

Или мониторинг НПА, очень понятная и нужная задача для любых лоббистких задач, не обязательно дурных. Проблема в том что её невозможно сделать хорошо без рисков вскрытия коррупции и много чего другого. И так далее. Общественные проекты на данных находятся между Сциллой резкой оппозиционности, Харибдой прогосударственной обессмысленности. Проекты вроде Госзатрат существуют скорее как исключение, с кучей ограничений, например, отсутствия реальной подсветки коррупции и нарушений, хотя делать это и возможно, но сложно управлять возникающей от этого публичной ситуацией.

Приведу пример, есть проект Открытые НКО, сейчас недоступен, мы скоро его восстановим, с базой по всем НКО, на базе ЕГРЮЛ, реестра субсидий, госконтрактов и их отчетности.

В реальности у нас примерно в 5-6 раз больше данных по тем же НКО. Как внешних источников данных, так и аналитики на имеющихся. Например, НКО холдинги (РПЦ, ДОСААФ и др.), гендерная структура, помощь от гос.ва во всех формах, образовательные и иные лицензии и ещё много чего. Но, в итоге, кто аудитория? Минюст с карательными функции в отношении НКО? Оппозиционные СМИ признанные инагентами? НКО сообщество?

Нет, увы, главный кризис использования открытых данных в общественных целях и, отчасти это и кризис журналистики данных, выборе между политизацией и бессмысленностью (жёсткой самоцензурой).

Вот такие мысли, пока без ответов что делать в сложившейся ситуации.

#thoughts #datajournalism #russia #dataprojects
Неприятная новость в том что Интернет Архив может быть заблокирован в России. Роскомсвобода пишет что

Мировой суд Москвы зарегистрировал административный протокол, составленный Роскомнадзором в отношении американской организации Internet Archive из-за ее отказа удалить запрещенный в РФ контент. Дело будет рассматриваться 16 июня текущего года всё в том же 422 участке, где уже было вынесено множество штрафов в отношении Facebook, Google, Twitter, Telegram, TikTok и других интернет-компаний. [1]

Будем надеяться что интернет архив останется доступен из России или нам всем придётся пользоваться VPN.

Ссылки:
[1] https://roskomsvoboda.org/post/shtraf-webarchive-za-neudalionku/

#archiveorg #internetarchive
Ответ на вопрос о двух органах власти аккредитованных как ИТ компании [1] - это ДИТ Москвы и Минцифры Оренбургской области.

Остальные предположения про ФНС России, Роскомнадзор и даже Минцифру РФ или Росреестр очень близкие, но, эти и другие органы власти регистрировали как ИТ компании свои подведы.

А именно органов власти как органов власти (орган власти никогда не может показать "выручку от ИТ") только два и совершенно непонятно как их смогли аккредитовать.

Ссылки:
[1] https://t.me/begtin/3859

#government #it #itcompanies
Про доступность данных о качестве воздуха, я просто проиллюстрирую это наглядно как это всё сейчас происходит.

Есть федеральный проект "Чистый воздух" в национальном проекте "Экология", есть Единая информационная система мониторинга загрязнения атмосферного воздуха (ЕИС МЗА) [1] которую разрабатывают в НПО Тайфун (подвед Росгидромета). Типовое отражение данных из их системы представлено вот так на примере Красноярска [2]. Данные не публикуются, только картинки, и те с оговоркой что Данные наблюдений не проконтролированы, не могут применяться для официальных целей

Если очень захотеть, то можно, конечно, извлечь данные из недокументированного API и тд. Чтобы хотя бы попробовать проверить их достоверность, сопоставлять с общественными проектами вроде nebo.live.

Но вот оно дело, данные не публикуются, методических документов нет и публично это даже не обсуждалось.

Ссылки:
[1] http://www.feerc.ru/uisem/portal/
[2] http://www.feerc.ru/uisem/portal/ad/krasnoyarsk-1

#opendata #data #lifequality
В рубрике интересных инструментов работы с данными
- mitmproxy [1] интерактивный прокси для https трафика
- mitmproxy2swagger [2] инструмент поиска недокументированных API и описание их по стандарту Swagger/OpenAPI
- mitm_postman [3] похожий инструмент по созданию коллекций API в Postman через перехват вызовов, не обновлялся 4 года

Ссылки:
[1] https://mitmproxy.org/
[2] https://github.com/alufers/mitmproxy2swagger
[3] https://github.com/viraja1/mitm_postman

#api #opensource #data
Интересное чтение про данные

Обзор баз данных для временных рядов [1] полезное чтение для тех кто уже решил что им нужно хранить данные для визуализации, но ещё не определился каким способ.

Финский стартап Aiven поднял $210M инвестиций в серии Д [2]. Для европейского стартапа - это очень много. Интересна его специализация - это развертывание и управление инфраструктурой работы с данными на 5 облачных провайдерах: AWS, DigitalOcean, Microsoft Azure, Google Cloud, UpCloud.

Кто бы сделал такое в России поверх облаков Яндекса, VK и Selectel ?


AlloyDB [3] свежая облачная база от Google совместимая с Postgres. Помните я писал про то что самое странное в недавно открытой Яндексом базе YDB в том что она ни с Postgres, ни с MySQL не совместима. Потому что совместимость из коробки сильно упрощает миграцию. В Google это понимают, многие облачные и не облачные продукты идут таким путём. Кстати, вот идея для продукта - делать обёртки Postgres'совместимости для существующих СУБД.
Рынок не жирный, но реальный.

Looker продолжают продвигать Malloy их data exploration language [4]

Ссылки:
[1] https://towardsdatascience.com/the-landscape-of-timeseries-databases-95cd7f7ee64d
[2] https://aiven.io/press/Aiven-raises-210M-to-invest-in-sustainable-open-source-cloud
[3] https://io.google/2022/program/0a894aa7-755b-478d-9553-e9c828deb885/
[4] https://docs.google.com/presentation/d/18KUl_rrz2K-hbsiKJYS3rtTcYxZMXKklyPllLmTtIYY/edit#slide=id.g1269816dcbe_0_140

#data #datatools #readings #startups
Я ранее много писал и рассказывал про то что внутри нашего проекта DataCrafter [1] находится несколько движков: распознавания данных, извлечения данных, каталогизации и ведения реестра и так далее и обещал часть продукта выложить в открытый код.

Эта задача несколько затянулась, вначале в открытом коде вышел metacrafter [2] движок по идентификации семантических типов данных и смысловых полей в наборах данных и СУБД (например, для идентификации персональных данных).

А теперь в режиме альфа версии доступен движок ETL, одноименно названный datacrafter [3]. Это NoSQL движок для работы с данными и с API для извлечения обработки и их сохранения. Движок выделен через миграцию кода в проекте, отделение его от остальной монолитной части и с переписыванием части кода для большей универсальности.

В чём особенность этого движка он изначально создавался только для загрузки любых данных в MongoDB и заточен под открытые данные, условно, любого размера. Он используется для обработки данных ФНС публикуемых гигабайтными XML файлами, для чего используется универсальный SAX парсер. Он создаёт файлы BSON которые можно грузить в MongoDB без дополнительных преобразований и так далее.

Как ещё он даёт возможности:
- настраивать извлечение данных из JSON, CSV, XML, JSONl файлов
- осуществлять преобразование данных: переименование полей, назначение типов полей, выполнение произвольного кода
- сохранять результаты в форматах BSON, JSON lines, CSV, в том числе сразу сжимая их в xz, gz, zip архивы
- умеет извлекать данные из API с помощью инструмента apibackuper [4]

В режиме альфа версии потому что большей части ключевог опока нет:
- нет готовой документации, только примеры.
- нет режима серверной работы, с агентами выполнения задач
- не перенесена интеграция с metacrafter и автодокументирование
- нет интеграции с HTML скрейперами

Поскольку документации пока мало, основной в примерах datacrafter-examples [5]. Например, можно посмотреть пример обработки больших XML файлов ФНС России внутри ZIP архивов с преобразованием в BSON [6] или сертификатов удостоверяющих центров где данные извлекаются из API и включен скрипт преобразования каждой записи.

Примеры запускаются командой "datacrafter run" в директории каждого примера.

В перспективе, по очередности:
1. Добавить документацию к движку и примерам и к рекомендациям как движок расширять.
2. Включить поддержку подключения к СУБД
3. Подключить загрузку данных в NoSQL
4. Добавить режим агентской работы (в режиме сервера)
5. Добавить режим UI
6. Добавить или подключить планировщик задач

Пока же можно начать его использовать, задавать вопросы и запросы на расширение в issues.

Ссылки:
[1] https://datacrafter.ru
[2] https://github.com/apicrafter/metacrafter
[3] https://github.com/apicrafter/datacrafter
[4] https://github.com/ruarxive/apibackuper
[5] https://github.com/apicrafter/datacrafter-examples
[6] https://github.com/apicrafter/datacrafter-examples/tree/main/fnspaytax
[7] https://github.com/apicrafter/datacrafter-examples/tree/main/uccertufo

#datatools #opensource #dataengineering
Те кто ищет продукты по работе с базами данных и при этом больше похожие на MS Access, но в облаке, обычно быстро находят Airtable, но это совсем далеко не единственный low-code и no-code продукт в этой области. О некоторых я ранее писал, а других ещё нет:
- NocoDB [1] альтернатива Airtable с открытым кодом.
- Rows [2] позиционируют себя как "переизобретение таблиц", стартап и онлайн сервис
- Clay [3] стартап с интеграцией с кучей онлайн сервисов, CRM, аналитики и т.д.
- Dataland [4] стартап и онлайн сервис ориентированный на удобство разработчиков, как универсальный фронтенд над базами данных. Пока в бета по запросу
- Tulr [5] бесплатная альтернатива Airtable. Платные тарифы тоже есть. Стартап, онлайн сервис
- StackBy [6] сервис ориентированный на маркетологов, с кучей шаблонов под их работу
- Basedash [7] ещё один сервис упрощения редактирования баз данных, словно не база, а таблица в Excel.
- Grist [8] довольно продвинутый инструмент с открытым кодом и облачный стартап.
- Smartsheet [9] корпоративный продукт, вернее продукт с корпоративной версией.
- Actiondesk [10] позволяет подключаться к СУБД и ещё и создавать аналитические интерфейсы.

А также большая подборка инструментов в списке Awesome NoCode/LowCode [11]

Ссылки:
[1] https://nocodb.com
[2] https://rows.com
[3] https://www.clay.com
[4] https://dataland.io/
[5] https://tulr.io/
[6] https://stackby.com/
[7] https://www.basedash.com/
[8] https://www.getgrist.com/
[9] https://www.smartsheet.com/
[10] https://www.actiondesk.io/
[11] https://github.com/kairichard/awesome-nocode-lowcode#database

#nocode #lowcode #tools #data
Кстати, я тут регулярно писал про разного рода инструменты вроде Postman или Insomnia для работы с API. Их много, для разных типов API особенно, а оказалось есть ещё один в активной разработки.


Создатели утилиты httpie [1] для командной строки создают сейчас настольное и онлайн приложение для отладки API. Называется оно Httpie Web & Desktop App [2] и на это они в октябре 2021 г. подняли венчурное финансирование на $6.5M [3]. Бизнес модель пока неясна до конца, но скорее всего это будет что-то похожее на Postman с "игровой площадкой" для работы с API.

Ссылки:
[1] https://httpie.org
[2] https://httpie.io/product
[3] https://www.crunchbase.com/organization/httpie

#data #api #startups
Ivan Begtin
Кстати, я тут регулярно писал про разного рода инструменты вроде Postman или Insomnia для работы с API. Их много, для разных типов API особенно, а оказалось есть ещё один в активной разработки. Создатели утилиты httpie [1] для командной строки создают сейчас…
Я обещал дать анализ реестра аккредитованных ИТ компаний не так давно.

Первые цифры: всего компаний на 11 мая - 25208 штуки
из них:
- 1589 компаний имеют хотя бы одного зарубежного учредителя, из них 381 компании внесены в реестр в марте-апреле 2022 г.
- не менее 410 компаний являются государственными (подведы госорганов, компании госкорпораций и тд.). Из них 282 компании внесены в реестр в марте-апреле 2022 г.
- 43 организации являются государственными медицинскими учреждениями такими как больницы, стоматологические клиники и родильные дома. ВСЕ 43 из них внесены в реестр в марте-апреле 2022 г.
- 23 государственных университета, 16 внесены в реестр в марте-апреле 2022 г.
- 7 госНКО, специальных НКОшек созданных органами власти или при них. 4 из них внесены в реестр в марте-апреле 2022 г. Например, АНО "Диалог"
- 1 родовая община коренных малочисленных народов севера "Ялтын Маа" (Святая Земля). Внесена 21 марта 2022 г.

А также один аэропорт, несколько аптек, несколько компаний управляющих многоквартирными домами, более десятка заводов, множество учреждений дополнительного профессионального образований и несколько частных охранных служб.

Это всё то что было найдено на поверхности, без углублённого анализа. Совсем на поверхности. У меня пока не хватает вдохновения на лонгрид, но данные я опубликую через какое-то время.

#data #itcompanies
Новости по разрабатываемым продуктам:
- общая стратегия в перенос в открытый код корневых/ключевых компонентов и ведение их в режиме открытой разработки. Коммерческие продукты будут вынесены в облака, то есть модель open source engine + cloud services.
- приоритет будет сдвигаться на технологические сервисы и сервисные API
- через какое-то время появится общий репозиторий с архитектурой продуктов APICrafter'а как единого целого. Это будет включать ряд технологических продуктов и ряд продуктов агрегаторов данных.
- для DataCrafter'а добавлен Getting Started гайд [1], его можно почитать тут, а далее будет сайт документации
- задачи по развитию DataCrafter'а перенесены в issues продукта на Github [2] туда можно добавить предложения, проголосовать и прокомментировать. Пока добавлено основное, что в работе.
- все задачи по datacrafter'у, metacrafter'у и др. продуктам вынесены в проект с общим списком задач [3]

Ссылки:
[1] https://github.com/apicrafter/datacrafter/blob/main/docs/getting-started.md
[2] https://github.com/apicrafter/datacrafter/issues
[3] https://github.com/orgs/apicrafter/projects/1

#opensource #code #apicrafter