Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Публикуют ли библиотеки данные? Если, да, то зачем? Британская библиотека (The British Library) опубликовала 274 набора данных [1] в основном в формате CSV и XML. Эти данные включают, например, базу диссертаций в Великобритании [2] или тексты из оцифрованных карт Африки.

Эти наборы данных публикуются как часть работ исследователей библиотеки на портале The British Library's Research Repository [4] где всего размещено 1663 научных материала, включая эти наборы данных.

Многие библиотеки, музеи, исследовательские центры публикуют данные как часть политики открытого доступа, либо создавая отдельные репозитории, либо на централизованных ресурсах таких как Zenodo.

Ссылки:
[1] https://iro.bl.uk/catalog?f%5Bresource_type_label_ssim%5D%5B%5D=Dataset&locale=en&q=&search_field=all_fields
[2] https://bl.iro.bl.uk/concern/datasets/23ac0382-d423-4686-885b-4930040d3ed5
[3] https://bl.iro.bl.uk/concern/datasets/117ed6c1-d9ba-481a-bae6-74d389f6a441
[4] https://bl.iro.bl.uk

#opendata #datasets #libraries
Low code добралось и до инженерии данных. Стартап Prophecy.io [1] поднял в общей сложности $38.5M за 5 раундов инвестиций создавая платформу с минимальным программированием на базе Apache Spark и Apache Airlow. Эдакий подход - антихардкор, никакой командной строки, только работа мышкой.

Интересно до чего ещё докатится волна создания low-code продуктов?

Ссылки:
[1] https://www.prophecy.io/

#startups #dataengineering #tools
Не могу не поделиться мыслями о том тяжкий груз незавершённого - это то что лично меня, и наверняка, не только меня преследует регулярно. Из 20 проектируемых проектов, до создания доходит 5, а до публикации 1-2 и так регулярно, во всяком случае когда жизнь чаще построена не в продуктовом, а в проектном смысле.

За эти годы я сам и наша команда чего только не проектировала:
- многочисленные порталы данных
- систему сбора муниципальной статистики из всевозможных источников
- систему аналитически и мониторинга некоммерческого сектора
- агрегатор новостных лент из источников где нет новостных лент
- систему сбора информации о деятельности и площадках работы лоббистов
- систему сбора активности и голосований депутатов
- мониторинг нефтегазовых доходов бюджета, компаний и тд
- аналитику по государственным информационным системам и их структуре
- систему сбора данных из неструктурированных источников
- систему мониторинга принятых НПА и проектов НПА

И ещё многое другое.

Проблема в том что многие из проектов не переживает стадию проектирования и почти всегда упираются в отсутствие ключевых данных или отсутствие институциональной среды. К примеру, доходы нефтегазового бюджета и прозрачность этой сферы - это тема любой нормальной политической партии. Но, в России, как бы сейчас нет политики в общепринятом (нормальном) понимании.

Или мониторинг НПА, очень понятная и нужная задача для любых лоббистких задач, не обязательно дурных. Проблема в том что её невозможно сделать хорошо без рисков вскрытия коррупции и много чего другого. И так далее. Общественные проекты на данных находятся между Сциллой резкой оппозиционности, Харибдой прогосударственной обессмысленности. Проекты вроде Госзатрат существуют скорее как исключение, с кучей ограничений, например, отсутствия реальной подсветки коррупции и нарушений, хотя делать это и возможно, но сложно управлять возникающей от этого публичной ситуацией.

Приведу пример, есть проект Открытые НКО, сейчас недоступен, мы скоро его восстановим, с базой по всем НКО, на базе ЕГРЮЛ, реестра субсидий, госконтрактов и их отчетности.

В реальности у нас примерно в 5-6 раз больше данных по тем же НКО. Как внешних источников данных, так и аналитики на имеющихся. Например, НКО холдинги (РПЦ, ДОСААФ и др.), гендерная структура, помощь от гос.ва во всех формах, образовательные и иные лицензии и ещё много чего. Но, в итоге, кто аудитория? Минюст с карательными функции в отношении НКО? Оппозиционные СМИ признанные инагентами? НКО сообщество?

Нет, увы, главный кризис использования открытых данных в общественных целях и, отчасти это и кризис журналистики данных, выборе между политизацией и бессмысленностью (жёсткой самоцензурой).

Вот такие мысли, пока без ответов что делать в сложившейся ситуации.

#thoughts #datajournalism #russia #dataprojects
Неприятная новость в том что Интернет Архив может быть заблокирован в России. Роскомсвобода пишет что

Мировой суд Москвы зарегистрировал административный протокол, составленный Роскомнадзором в отношении американской организации Internet Archive из-за ее отказа удалить запрещенный в РФ контент. Дело будет рассматриваться 16 июня текущего года всё в том же 422 участке, где уже было вынесено множество штрафов в отношении Facebook, Google, Twitter, Telegram, TikTok и других интернет-компаний. [1]

Будем надеяться что интернет архив останется доступен из России или нам всем придётся пользоваться VPN.

Ссылки:
[1] https://roskomsvoboda.org/post/shtraf-webarchive-za-neudalionku/

#archiveorg #internetarchive
Ответ на вопрос о двух органах власти аккредитованных как ИТ компании [1] - это ДИТ Москвы и Минцифры Оренбургской области.

Остальные предположения про ФНС России, Роскомнадзор и даже Минцифру РФ или Росреестр очень близкие, но, эти и другие органы власти регистрировали как ИТ компании свои подведы.

А именно органов власти как органов власти (орган власти никогда не может показать "выручку от ИТ") только два и совершенно непонятно как их смогли аккредитовать.

Ссылки:
[1] https://t.me/begtin/3859

#government #it #itcompanies
Про доступность данных о качестве воздуха, я просто проиллюстрирую это наглядно как это всё сейчас происходит.

Есть федеральный проект "Чистый воздух" в национальном проекте "Экология", есть Единая информационная система мониторинга загрязнения атмосферного воздуха (ЕИС МЗА) [1] которую разрабатывают в НПО Тайфун (подвед Росгидромета). Типовое отражение данных из их системы представлено вот так на примере Красноярска [2]. Данные не публикуются, только картинки, и те с оговоркой что Данные наблюдений не проконтролированы, не могут применяться для официальных целей

Если очень захотеть, то можно, конечно, извлечь данные из недокументированного API и тд. Чтобы хотя бы попробовать проверить их достоверность, сопоставлять с общественными проектами вроде nebo.live.

Но вот оно дело, данные не публикуются, методических документов нет и публично это даже не обсуждалось.

Ссылки:
[1] http://www.feerc.ru/uisem/portal/
[2] http://www.feerc.ru/uisem/portal/ad/krasnoyarsk-1

#opendata #data #lifequality
В рубрике интересных инструментов работы с данными
- mitmproxy [1] интерактивный прокси для https трафика
- mitmproxy2swagger [2] инструмент поиска недокументированных API и описание их по стандарту Swagger/OpenAPI
- mitm_postman [3] похожий инструмент по созданию коллекций API в Postman через перехват вызовов, не обновлялся 4 года

Ссылки:
[1] https://mitmproxy.org/
[2] https://github.com/alufers/mitmproxy2swagger
[3] https://github.com/viraja1/mitm_postman

#api #opensource #data
Интересное чтение про данные

Обзор баз данных для временных рядов [1] полезное чтение для тех кто уже решил что им нужно хранить данные для визуализации, но ещё не определился каким способ.

Финский стартап Aiven поднял $210M инвестиций в серии Д [2]. Для европейского стартапа - это очень много. Интересна его специализация - это развертывание и управление инфраструктурой работы с данными на 5 облачных провайдерах: AWS, DigitalOcean, Microsoft Azure, Google Cloud, UpCloud.

Кто бы сделал такое в России поверх облаков Яндекса, VK и Selectel ?


AlloyDB [3] свежая облачная база от Google совместимая с Postgres. Помните я писал про то что самое странное в недавно открытой Яндексом базе YDB в том что она ни с Postgres, ни с MySQL не совместима. Потому что совместимость из коробки сильно упрощает миграцию. В Google это понимают, многие облачные и не облачные продукты идут таким путём. Кстати, вот идея для продукта - делать обёртки Postgres'совместимости для существующих СУБД.
Рынок не жирный, но реальный.

Looker продолжают продвигать Malloy их data exploration language [4]

Ссылки:
[1] https://towardsdatascience.com/the-landscape-of-timeseries-databases-95cd7f7ee64d
[2] https://aiven.io/press/Aiven-raises-210M-to-invest-in-sustainable-open-source-cloud
[3] https://io.google/2022/program/0a894aa7-755b-478d-9553-e9c828deb885/
[4] https://docs.google.com/presentation/d/18KUl_rrz2K-hbsiKJYS3rtTcYxZMXKklyPllLmTtIYY/edit#slide=id.g1269816dcbe_0_140

#data #datatools #readings #startups
Я ранее много писал и рассказывал про то что внутри нашего проекта DataCrafter [1] находится несколько движков: распознавания данных, извлечения данных, каталогизации и ведения реестра и так далее и обещал часть продукта выложить в открытый код.

Эта задача несколько затянулась, вначале в открытом коде вышел metacrafter [2] движок по идентификации семантических типов данных и смысловых полей в наборах данных и СУБД (например, для идентификации персональных данных).

А теперь в режиме альфа версии доступен движок ETL, одноименно названный datacrafter [3]. Это NoSQL движок для работы с данными и с API для извлечения обработки и их сохранения. Движок выделен через миграцию кода в проекте, отделение его от остальной монолитной части и с переписыванием части кода для большей универсальности.

В чём особенность этого движка он изначально создавался только для загрузки любых данных в MongoDB и заточен под открытые данные, условно, любого размера. Он используется для обработки данных ФНС публикуемых гигабайтными XML файлами, для чего используется универсальный SAX парсер. Он создаёт файлы BSON которые можно грузить в MongoDB без дополнительных преобразований и так далее.

Как ещё он даёт возможности:
- настраивать извлечение данных из JSON, CSV, XML, JSONl файлов
- осуществлять преобразование данных: переименование полей, назначение типов полей, выполнение произвольного кода
- сохранять результаты в форматах BSON, JSON lines, CSV, в том числе сразу сжимая их в xz, gz, zip архивы
- умеет извлекать данные из API с помощью инструмента apibackuper [4]

В режиме альфа версии потому что большей части ключевог опока нет:
- нет готовой документации, только примеры.
- нет режима серверной работы, с агентами выполнения задач
- не перенесена интеграция с metacrafter и автодокументирование
- нет интеграции с HTML скрейперами

Поскольку документации пока мало, основной в примерах datacrafter-examples [5]. Например, можно посмотреть пример обработки больших XML файлов ФНС России внутри ZIP архивов с преобразованием в BSON [6] или сертификатов удостоверяющих центров где данные извлекаются из API и включен скрипт преобразования каждой записи.

Примеры запускаются командой "datacrafter run" в директории каждого примера.

В перспективе, по очередности:
1. Добавить документацию к движку и примерам и к рекомендациям как движок расширять.
2. Включить поддержку подключения к СУБД
3. Подключить загрузку данных в NoSQL
4. Добавить режим агентской работы (в режиме сервера)
5. Добавить режим UI
6. Добавить или подключить планировщик задач

Пока же можно начать его использовать, задавать вопросы и запросы на расширение в issues.

Ссылки:
[1] https://datacrafter.ru
[2] https://github.com/apicrafter/metacrafter
[3] https://github.com/apicrafter/datacrafter
[4] https://github.com/ruarxive/apibackuper
[5] https://github.com/apicrafter/datacrafter-examples
[6] https://github.com/apicrafter/datacrafter-examples/tree/main/fnspaytax
[7] https://github.com/apicrafter/datacrafter-examples/tree/main/uccertufo

#datatools #opensource #dataengineering
Те кто ищет продукты по работе с базами данных и при этом больше похожие на MS Access, но в облаке, обычно быстро находят Airtable, но это совсем далеко не единственный low-code и no-code продукт в этой области. О некоторых я ранее писал, а других ещё нет:
- NocoDB [1] альтернатива Airtable с открытым кодом.
- Rows [2] позиционируют себя как "переизобретение таблиц", стартап и онлайн сервис
- Clay [3] стартап с интеграцией с кучей онлайн сервисов, CRM, аналитики и т.д.
- Dataland [4] стартап и онлайн сервис ориентированный на удобство разработчиков, как универсальный фронтенд над базами данных. Пока в бета по запросу
- Tulr [5] бесплатная альтернатива Airtable. Платные тарифы тоже есть. Стартап, онлайн сервис
- StackBy [6] сервис ориентированный на маркетологов, с кучей шаблонов под их работу
- Basedash [7] ещё один сервис упрощения редактирования баз данных, словно не база, а таблица в Excel.
- Grist [8] довольно продвинутый инструмент с открытым кодом и облачный стартап.
- Smartsheet [9] корпоративный продукт, вернее продукт с корпоративной версией.
- Actiondesk [10] позволяет подключаться к СУБД и ещё и создавать аналитические интерфейсы.

А также большая подборка инструментов в списке Awesome NoCode/LowCode [11]

Ссылки:
[1] https://nocodb.com
[2] https://rows.com
[3] https://www.clay.com
[4] https://dataland.io/
[5] https://tulr.io/
[6] https://stackby.com/
[7] https://www.basedash.com/
[8] https://www.getgrist.com/
[9] https://www.smartsheet.com/
[10] https://www.actiondesk.io/
[11] https://github.com/kairichard/awesome-nocode-lowcode#database

#nocode #lowcode #tools #data
Кстати, я тут регулярно писал про разного рода инструменты вроде Postman или Insomnia для работы с API. Их много, для разных типов API особенно, а оказалось есть ещё один в активной разработки.


Создатели утилиты httpie [1] для командной строки создают сейчас настольное и онлайн приложение для отладки API. Называется оно Httpie Web & Desktop App [2] и на это они в октябре 2021 г. подняли венчурное финансирование на $6.5M [3]. Бизнес модель пока неясна до конца, но скорее всего это будет что-то похожее на Postman с "игровой площадкой" для работы с API.

Ссылки:
[1] https://httpie.org
[2] https://httpie.io/product
[3] https://www.crunchbase.com/organization/httpie

#data #api #startups
Ivan Begtin
Кстати, я тут регулярно писал про разного рода инструменты вроде Postman или Insomnia для работы с API. Их много, для разных типов API особенно, а оказалось есть ещё один в активной разработки. Создатели утилиты httpie [1] для командной строки создают сейчас…
Я обещал дать анализ реестра аккредитованных ИТ компаний не так давно.

Первые цифры: всего компаний на 11 мая - 25208 штуки
из них:
- 1589 компаний имеют хотя бы одного зарубежного учредителя, из них 381 компании внесены в реестр в марте-апреле 2022 г.
- не менее 410 компаний являются государственными (подведы госорганов, компании госкорпораций и тд.). Из них 282 компании внесены в реестр в марте-апреле 2022 г.
- 43 организации являются государственными медицинскими учреждениями такими как больницы, стоматологические клиники и родильные дома. ВСЕ 43 из них внесены в реестр в марте-апреле 2022 г.
- 23 государственных университета, 16 внесены в реестр в марте-апреле 2022 г.
- 7 госНКО, специальных НКОшек созданных органами власти или при них. 4 из них внесены в реестр в марте-апреле 2022 г. Например, АНО "Диалог"
- 1 родовая община коренных малочисленных народов севера "Ялтын Маа" (Святая Земля). Внесена 21 марта 2022 г.

А также один аэропорт, несколько аптек, несколько компаний управляющих многоквартирными домами, более десятка заводов, множество учреждений дополнительного профессионального образований и несколько частных охранных служб.

Это всё то что было найдено на поверхности, без углублённого анализа. Совсем на поверхности. У меня пока не хватает вдохновения на лонгрид, но данные я опубликую через какое-то время.

#data #itcompanies
Новости по разрабатываемым продуктам:
- общая стратегия в перенос в открытый код корневых/ключевых компонентов и ведение их в режиме открытой разработки. Коммерческие продукты будут вынесены в облака, то есть модель open source engine + cloud services.
- приоритет будет сдвигаться на технологические сервисы и сервисные API
- через какое-то время появится общий репозиторий с архитектурой продуктов APICrafter'а как единого целого. Это будет включать ряд технологических продуктов и ряд продуктов агрегаторов данных.
- для DataCrafter'а добавлен Getting Started гайд [1], его можно почитать тут, а далее будет сайт документации
- задачи по развитию DataCrafter'а перенесены в issues продукта на Github [2] туда можно добавить предложения, проголосовать и прокомментировать. Пока добавлено основное, что в работе.
- все задачи по datacrafter'у, metacrafter'у и др. продуктам вынесены в проект с общим списком задач [3]

Ссылки:
[1] https://github.com/apicrafter/datacrafter/blob/main/docs/getting-started.md
[2] https://github.com/apicrafter/datacrafter/issues
[3] https://github.com/orgs/apicrafter/projects/1

#opensource #code #apicrafter
Forwarded from LegalTech
Упразднена подкомиссия по ИИ.

Правительство упразднило подкомиссию по развитию искусственного интеллекта правительственной комиссии по цифровому развитию, использованию информационных технологий для улучшения качества жизни и условий ведения предпринимательской деятельности.
На днях я выступал на X Васильевских чтениях организованных журналом Бюджет и как всегда говорил о том что в России средний уровень открытости, высокий в финансовой сфере, и низкий в теме качества жизни. Вот тут выложили мою презентацию [1]. В ней не так много нового как хотелось бы, конечно.

Ссылки:
[1] https://bujet.ru/action/X_chteniya/propramm_Xvch/

#opendata #opengov #budget
В рубрике интересных наборов данных, датасет о религиозных группах в разных штатах США за пару сотен лет Government Religious Preference 2.0 (GRP 2.0), Composite [1]. Датасет опубликован в ARDA [2] ассоциации религиозных архивов в США, включающем более 1200 наборов данных опросов, переписей, исследований и иных данных посвящённых религиозным группам.

Можно только позавидовать их социологам возможности работы с такими данными.

Ссылки:
[1] https://www.thearda.com/Archive/Files/Descriptions/GRPCOMP.asp
[2] https://www.thearda.com/

#opendata #datasets #research #sociology
Опубликована программа конференции по цифровым архивам

Уже завтра 19 мая в 16:00 начнется конференция по цифровым архивам. В программе:

1. Пленарная сессия «Цифровые архивы. Готовы ли мы к сохранению современного культурного наследия?»

2. Дискуссия о цифровом сохранении культурного наследия. Участники:
— Анастасия Бонч-Осмоловская, проект «Цифровой Толстой».
— Анна Буали и Алина Стуликова, отдел кино- и медиаискусства ГМИИ им. А.С.Пушкина.
— Константин Корягин и Валентин Голев, Syg.ma, проект archive.syg.ma.
— Анна Зеликова, Открытая база данных междисциплинарного искусства «Мир».
— Никита Нечаев и Анастасия Тарасова, Музей современного искусства «Гараж», проект «Хрупкий архив».

А также запланирована секция докладов на темы:
— Технологические особенности долговременного хранения в современных реалиях.
— Проблематика хранения цифровых объектов современного искусства в государственных музеях.
— Первый в России учебник по веб-истории и подготовка профессиональных исследователей веб-архивов.
— И другие!

Подробнее о программе: conference.ruarxive.org.

Организаторы: АНО «Инфокультура» и Российская государственная библиотека. Конференция пройдет в сотрудничестве с Музеем современного искусства «Гараж».

Ссылка на онлайн-трансляцию: https://youtu.be/1YAXTUOq9sI.
В рубрике инструментов работы с данными ArangoDb [1] NoSQL СУБД для хранения документов, с акцентом на графовые данные и собственный язык запросов AQL [2].

Довольно развитый продукт, сравнимый с MongoDB по многим возможностям, со своими плюсами и ограничениями.

Из плюсов:
- JSON Native
- поддержка графовых данных
- реально свободная лицензия Apache 2 в сравнении с ограниченной SSPL у MongoDB
- поддержка JOIN՛ов (редкость для NoSQL)

Из ограничений:
- поскольку внутри JSON, то нет родных типов date и datetime, работа с датами через функции
- значительно меньшее сообщество чем у MongoDB
- по некоторым тестам ArangoDB работает медленнее чем MongoDB или OrientDB [3]

Ссылки:
[1] https://www.arangodb.com
[2] https://www.arangodb.com/docs/stable/aql/
[3] https://www.diva-portal.org/smash/get/diva2:1567918/FULLTEXT01.pdf

#tools #opensource
Кстати, к вопросу об архивации сайтов, есть группа сайтов до которых у нас ещё не дошли руки, но которые уже пора архивировать - это сайты международных организаций представленных в России. Например, русскоязычные сайты структур ООН и сайты подразделений ООН в России.

Некоторые из них уже исчезли. Например, сайт УВКБ ООН www.unhcr.ru перенаправляет теперь на раздел их официального сайта www.unhcr.org/ru/. Аналогично вместо IOM Moscow moscow.iom.int теперь сайт russia.iom.int

А вот сайт ЮНФПА в России unfpa.ru уже не открывается, а материалы на сайте ООН в России www.unrussia.ru не обновлялись уже с декабря 2020 г. Сайт ЮНИСЕФ в России unicef.ru давно потерян и предлагается для регистрации, как и сайт ЮНЭИДС unaids.ru

Непонятно обновляются или нет материалы на сайте UNHabitat в России unhabitat.ru последние новости были от начала апреля, но у них в публикациях и раньше были паузы.

Активно публикуются материалы только на сайте Информационного центра ООН в Москве unic.ru и ЮНИДО в в России unido.ru

Всё это лишь косвенные признаки присутствия/отсутствия ООН в России, но то что ряд информационных ресурсов исчез за эти годы, это признак того что их сайты необходимо архивировать.

#webarchives #digitalpreservation #un
Новое регулирование в области открытых данных.
Принято Постановление Пр-ва РФ от 17.05.2022 № 894 [1] которое, в том числе, вносит изменения в Постановление Пр-ва РФ от 24.11.2009 г. № 953 "Об обеспечении доступа к информации о деятельности Правительства Российской Федерации и федеральных органов исполнительной власти" [2].

Переписан 4-й пункт постановления 953 и, если перевести его на русский язык, то там два ключевых изменения:
1. Минэкономразвития России теперь осуществляет мониторинга официальных сайтов государственных органов власти с использованием Портала открытых данных.
2. Технологическое обеспечение портала Открытых данных и системы мониторинга официальных сайтов передано Минцифры РФ.

В том же постановлении ещё несколько информационных систем передаваемых Минцифре России от Минэкономразвития.
- система мониторинга МФЦ и госуслуг
- портал regulation.gov.ru
- портал техобеспечения ГАС Управление

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202205180021?index=1&rangeSize=1
[2] http://government.ru/docs/all/70318/

#opendata #regulation #laws
В рубрике интересного чтения о данных и не только

- The Definitive Guide to Decision Intelligence [1] электронная книжка от стартапа Tellium о аналитике принятия решений
- Новый оператор match ... case в Python 3.10 [2] для выстраивания цепочки "если ... то". Выглядит любопытно, но терять совместимости с более ранними версиями Python не хотелось бы
- о том что такое хорошо смоделированные данные для аналитики [3]
- мощная критика Dbt от одного из пользователей [4], с акцентом на непрозрачности будущего продукта
- и ответ на эту критику от одного из создателей Dbt [5]

Ссылки:
[1] https://www.tellius.com/decision-intelligence-the-definitive-guide-ebook/
[2] https://medium.com/short-bits/python-3-10-match-a-new-way-to-find-patterns-8452d1460407
[3] https://towardsdatascience.com/what-is-well-modeled-data-for-analysis-28f73146bf96
[4] https://pedram.substack.com/p/we-need-to-talk-about-dbt
[5] https://roundup.getdbt.com/p/the-response-you-deserve

#reading #datasets