Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Ответ на вопрос о двух органах власти аккредитованных как ИТ компании [1] - это ДИТ Москвы и Минцифры Оренбургской области.

Остальные предположения про ФНС России, Роскомнадзор и даже Минцифру РФ или Росреестр очень близкие, но, эти и другие органы власти регистрировали как ИТ компании свои подведы.

А именно органов власти как органов власти (орган власти никогда не может показать "выручку от ИТ") только два и совершенно непонятно как их смогли аккредитовать.

Ссылки:
[1] https://t.me/begtin/3859

#government #it #itcompanies
Про доступность данных о качестве воздуха, я просто проиллюстрирую это наглядно как это всё сейчас происходит.

Есть федеральный проект "Чистый воздух" в национальном проекте "Экология", есть Единая информационная система мониторинга загрязнения атмосферного воздуха (ЕИС МЗА) [1] которую разрабатывают в НПО Тайфун (подвед Росгидромета). Типовое отражение данных из их системы представлено вот так на примере Красноярска [2]. Данные не публикуются, только картинки, и те с оговоркой что Данные наблюдений не проконтролированы, не могут применяться для официальных целей

Если очень захотеть, то можно, конечно, извлечь данные из недокументированного API и тд. Чтобы хотя бы попробовать проверить их достоверность, сопоставлять с общественными проектами вроде nebo.live.

Но вот оно дело, данные не публикуются, методических документов нет и публично это даже не обсуждалось.

Ссылки:
[1] http://www.feerc.ru/uisem/portal/
[2] http://www.feerc.ru/uisem/portal/ad/krasnoyarsk-1

#opendata #data #lifequality
В рубрике интересных инструментов работы с данными
- mitmproxy [1] интерактивный прокси для https трафика
- mitmproxy2swagger [2] инструмент поиска недокументированных API и описание их по стандарту Swagger/OpenAPI
- mitm_postman [3] похожий инструмент по созданию коллекций API в Postman через перехват вызовов, не обновлялся 4 года

Ссылки:
[1] https://mitmproxy.org/
[2] https://github.com/alufers/mitmproxy2swagger
[3] https://github.com/viraja1/mitm_postman

#api #opensource #data
Интересное чтение про данные

Обзор баз данных для временных рядов [1] полезное чтение для тех кто уже решил что им нужно хранить данные для визуализации, но ещё не определился каким способ.

Финский стартап Aiven поднял $210M инвестиций в серии Д [2]. Для европейского стартапа - это очень много. Интересна его специализация - это развертывание и управление инфраструктурой работы с данными на 5 облачных провайдерах: AWS, DigitalOcean, Microsoft Azure, Google Cloud, UpCloud.

Кто бы сделал такое в России поверх облаков Яндекса, VK и Selectel ?


AlloyDB [3] свежая облачная база от Google совместимая с Postgres. Помните я писал про то что самое странное в недавно открытой Яндексом базе YDB в том что она ни с Postgres, ни с MySQL не совместима. Потому что совместимость из коробки сильно упрощает миграцию. В Google это понимают, многие облачные и не облачные продукты идут таким путём. Кстати, вот идея для продукта - делать обёртки Postgres'совместимости для существующих СУБД.
Рынок не жирный, но реальный.

Looker продолжают продвигать Malloy их data exploration language [4]

Ссылки:
[1] https://towardsdatascience.com/the-landscape-of-timeseries-databases-95cd7f7ee64d
[2] https://aiven.io/press/Aiven-raises-210M-to-invest-in-sustainable-open-source-cloud
[3] https://io.google/2022/program/0a894aa7-755b-478d-9553-e9c828deb885/
[4] https://docs.google.com/presentation/d/18KUl_rrz2K-hbsiKJYS3rtTcYxZMXKklyPllLmTtIYY/edit#slide=id.g1269816dcbe_0_140

#data #datatools #readings #startups
Я ранее много писал и рассказывал про то что внутри нашего проекта DataCrafter [1] находится несколько движков: распознавания данных, извлечения данных, каталогизации и ведения реестра и так далее и обещал часть продукта выложить в открытый код.

Эта задача несколько затянулась, вначале в открытом коде вышел metacrafter [2] движок по идентификации семантических типов данных и смысловых полей в наборах данных и СУБД (например, для идентификации персональных данных).

А теперь в режиме альфа версии доступен движок ETL, одноименно названный datacrafter [3]. Это NoSQL движок для работы с данными и с API для извлечения обработки и их сохранения. Движок выделен через миграцию кода в проекте, отделение его от остальной монолитной части и с переписыванием части кода для большей универсальности.

В чём особенность этого движка он изначально создавался только для загрузки любых данных в MongoDB и заточен под открытые данные, условно, любого размера. Он используется для обработки данных ФНС публикуемых гигабайтными XML файлами, для чего используется универсальный SAX парсер. Он создаёт файлы BSON которые можно грузить в MongoDB без дополнительных преобразований и так далее.

Как ещё он даёт возможности:
- настраивать извлечение данных из JSON, CSV, XML, JSONl файлов
- осуществлять преобразование данных: переименование полей, назначение типов полей, выполнение произвольного кода
- сохранять результаты в форматах BSON, JSON lines, CSV, в том числе сразу сжимая их в xz, gz, zip архивы
- умеет извлекать данные из API с помощью инструмента apibackuper [4]

В режиме альфа версии потому что большей части ключевог опока нет:
- нет готовой документации, только примеры.
- нет режима серверной работы, с агентами выполнения задач
- не перенесена интеграция с metacrafter и автодокументирование
- нет интеграции с HTML скрейперами

Поскольку документации пока мало, основной в примерах datacrafter-examples [5]. Например, можно посмотреть пример обработки больших XML файлов ФНС России внутри ZIP архивов с преобразованием в BSON [6] или сертификатов удостоверяющих центров где данные извлекаются из API и включен скрипт преобразования каждой записи.

Примеры запускаются командой "datacrafter run" в директории каждого примера.

В перспективе, по очередности:
1. Добавить документацию к движку и примерам и к рекомендациям как движок расширять.
2. Включить поддержку подключения к СУБД
3. Подключить загрузку данных в NoSQL
4. Добавить режим агентской работы (в режиме сервера)
5. Добавить режим UI
6. Добавить или подключить планировщик задач

Пока же можно начать его использовать, задавать вопросы и запросы на расширение в issues.

Ссылки:
[1] https://datacrafter.ru
[2] https://github.com/apicrafter/metacrafter
[3] https://github.com/apicrafter/datacrafter
[4] https://github.com/ruarxive/apibackuper
[5] https://github.com/apicrafter/datacrafter-examples
[6] https://github.com/apicrafter/datacrafter-examples/tree/main/fnspaytax
[7] https://github.com/apicrafter/datacrafter-examples/tree/main/uccertufo

#datatools #opensource #dataengineering
Те кто ищет продукты по работе с базами данных и при этом больше похожие на MS Access, но в облаке, обычно быстро находят Airtable, но это совсем далеко не единственный low-code и no-code продукт в этой области. О некоторых я ранее писал, а других ещё нет:
- NocoDB [1] альтернатива Airtable с открытым кодом.
- Rows [2] позиционируют себя как "переизобретение таблиц", стартап и онлайн сервис
- Clay [3] стартап с интеграцией с кучей онлайн сервисов, CRM, аналитики и т.д.
- Dataland [4] стартап и онлайн сервис ориентированный на удобство разработчиков, как универсальный фронтенд над базами данных. Пока в бета по запросу
- Tulr [5] бесплатная альтернатива Airtable. Платные тарифы тоже есть. Стартап, онлайн сервис
- StackBy [6] сервис ориентированный на маркетологов, с кучей шаблонов под их работу
- Basedash [7] ещё один сервис упрощения редактирования баз данных, словно не база, а таблица в Excel.
- Grist [8] довольно продвинутый инструмент с открытым кодом и облачный стартап.
- Smartsheet [9] корпоративный продукт, вернее продукт с корпоративной версией.
- Actiondesk [10] позволяет подключаться к СУБД и ещё и создавать аналитические интерфейсы.

А также большая подборка инструментов в списке Awesome NoCode/LowCode [11]

Ссылки:
[1] https://nocodb.com
[2] https://rows.com
[3] https://www.clay.com
[4] https://dataland.io/
[5] https://tulr.io/
[6] https://stackby.com/
[7] https://www.basedash.com/
[8] https://www.getgrist.com/
[9] https://www.smartsheet.com/
[10] https://www.actiondesk.io/
[11] https://github.com/kairichard/awesome-nocode-lowcode#database

#nocode #lowcode #tools #data
Кстати, я тут регулярно писал про разного рода инструменты вроде Postman или Insomnia для работы с API. Их много, для разных типов API особенно, а оказалось есть ещё один в активной разработки.


Создатели утилиты httpie [1] для командной строки создают сейчас настольное и онлайн приложение для отладки API. Называется оно Httpie Web & Desktop App [2] и на это они в октябре 2021 г. подняли венчурное финансирование на $6.5M [3]. Бизнес модель пока неясна до конца, но скорее всего это будет что-то похожее на Postman с "игровой площадкой" для работы с API.

Ссылки:
[1] https://httpie.org
[2] https://httpie.io/product
[3] https://www.crunchbase.com/organization/httpie

#data #api #startups
Ivan Begtin
Кстати, я тут регулярно писал про разного рода инструменты вроде Postman или Insomnia для работы с API. Их много, для разных типов API особенно, а оказалось есть ещё один в активной разработки. Создатели утилиты httpie [1] для командной строки создают сейчас…
Я обещал дать анализ реестра аккредитованных ИТ компаний не так давно.

Первые цифры: всего компаний на 11 мая - 25208 штуки
из них:
- 1589 компаний имеют хотя бы одного зарубежного учредителя, из них 381 компании внесены в реестр в марте-апреле 2022 г.
- не менее 410 компаний являются государственными (подведы госорганов, компании госкорпораций и тд.). Из них 282 компании внесены в реестр в марте-апреле 2022 г.
- 43 организации являются государственными медицинскими учреждениями такими как больницы, стоматологические клиники и родильные дома. ВСЕ 43 из них внесены в реестр в марте-апреле 2022 г.
- 23 государственных университета, 16 внесены в реестр в марте-апреле 2022 г.
- 7 госНКО, специальных НКОшек созданных органами власти или при них. 4 из них внесены в реестр в марте-апреле 2022 г. Например, АНО "Диалог"
- 1 родовая община коренных малочисленных народов севера "Ялтын Маа" (Святая Земля). Внесена 21 марта 2022 г.

А также один аэропорт, несколько аптек, несколько компаний управляющих многоквартирными домами, более десятка заводов, множество учреждений дополнительного профессионального образований и несколько частных охранных служб.

Это всё то что было найдено на поверхности, без углублённого анализа. Совсем на поверхности. У меня пока не хватает вдохновения на лонгрид, но данные я опубликую через какое-то время.

#data #itcompanies
Новости по разрабатываемым продуктам:
- общая стратегия в перенос в открытый код корневых/ключевых компонентов и ведение их в режиме открытой разработки. Коммерческие продукты будут вынесены в облака, то есть модель open source engine + cloud services.
- приоритет будет сдвигаться на технологические сервисы и сервисные API
- через какое-то время появится общий репозиторий с архитектурой продуктов APICrafter'а как единого целого. Это будет включать ряд технологических продуктов и ряд продуктов агрегаторов данных.
- для DataCrafter'а добавлен Getting Started гайд [1], его можно почитать тут, а далее будет сайт документации
- задачи по развитию DataCrafter'а перенесены в issues продукта на Github [2] туда можно добавить предложения, проголосовать и прокомментировать. Пока добавлено основное, что в работе.
- все задачи по datacrafter'у, metacrafter'у и др. продуктам вынесены в проект с общим списком задач [3]

Ссылки:
[1] https://github.com/apicrafter/datacrafter/blob/main/docs/getting-started.md
[2] https://github.com/apicrafter/datacrafter/issues
[3] https://github.com/orgs/apicrafter/projects/1

#opensource #code #apicrafter
Forwarded from LegalTech
Упразднена подкомиссия по ИИ.

Правительство упразднило подкомиссию по развитию искусственного интеллекта правительственной комиссии по цифровому развитию, использованию информационных технологий для улучшения качества жизни и условий ведения предпринимательской деятельности.
На днях я выступал на X Васильевских чтениях организованных журналом Бюджет и как всегда говорил о том что в России средний уровень открытости, высокий в финансовой сфере, и низкий в теме качества жизни. Вот тут выложили мою презентацию [1]. В ней не так много нового как хотелось бы, конечно.

Ссылки:
[1] https://bujet.ru/action/X_chteniya/propramm_Xvch/

#opendata #opengov #budget
В рубрике интересных наборов данных, датасет о религиозных группах в разных штатах США за пару сотен лет Government Religious Preference 2.0 (GRP 2.0), Composite [1]. Датасет опубликован в ARDA [2] ассоциации религиозных архивов в США, включающем более 1200 наборов данных опросов, переписей, исследований и иных данных посвящённых религиозным группам.

Можно только позавидовать их социологам возможности работы с такими данными.

Ссылки:
[1] https://www.thearda.com/Archive/Files/Descriptions/GRPCOMP.asp
[2] https://www.thearda.com/

#opendata #datasets #research #sociology
Опубликована программа конференции по цифровым архивам

Уже завтра 19 мая в 16:00 начнется конференция по цифровым архивам. В программе:

1. Пленарная сессия «Цифровые архивы. Готовы ли мы к сохранению современного культурного наследия?»

2. Дискуссия о цифровом сохранении культурного наследия. Участники:
— Анастасия Бонч-Осмоловская, проект «Цифровой Толстой».
— Анна Буали и Алина Стуликова, отдел кино- и медиаискусства ГМИИ им. А.С.Пушкина.
— Константин Корягин и Валентин Голев, Syg.ma, проект archive.syg.ma.
— Анна Зеликова, Открытая база данных междисциплинарного искусства «Мир».
— Никита Нечаев и Анастасия Тарасова, Музей современного искусства «Гараж», проект «Хрупкий архив».

А также запланирована секция докладов на темы:
— Технологические особенности долговременного хранения в современных реалиях.
— Проблематика хранения цифровых объектов современного искусства в государственных музеях.
— Первый в России учебник по веб-истории и подготовка профессиональных исследователей веб-архивов.
— И другие!

Подробнее о программе: conference.ruarxive.org.

Организаторы: АНО «Инфокультура» и Российская государственная библиотека. Конференция пройдет в сотрудничестве с Музеем современного искусства «Гараж».

Ссылка на онлайн-трансляцию: https://youtu.be/1YAXTUOq9sI.
В рубрике инструментов работы с данными ArangoDb [1] NoSQL СУБД для хранения документов, с акцентом на графовые данные и собственный язык запросов AQL [2].

Довольно развитый продукт, сравнимый с MongoDB по многим возможностям, со своими плюсами и ограничениями.

Из плюсов:
- JSON Native
- поддержка графовых данных
- реально свободная лицензия Apache 2 в сравнении с ограниченной SSPL у MongoDB
- поддержка JOIN՛ов (редкость для NoSQL)

Из ограничений:
- поскольку внутри JSON, то нет родных типов date и datetime, работа с датами через функции
- значительно меньшее сообщество чем у MongoDB
- по некоторым тестам ArangoDB работает медленнее чем MongoDB или OrientDB [3]

Ссылки:
[1] https://www.arangodb.com
[2] https://www.arangodb.com/docs/stable/aql/
[3] https://www.diva-portal.org/smash/get/diva2:1567918/FULLTEXT01.pdf

#tools #opensource
Кстати, к вопросу об архивации сайтов, есть группа сайтов до которых у нас ещё не дошли руки, но которые уже пора архивировать - это сайты международных организаций представленных в России. Например, русскоязычные сайты структур ООН и сайты подразделений ООН в России.

Некоторые из них уже исчезли. Например, сайт УВКБ ООН www.unhcr.ru перенаправляет теперь на раздел их официального сайта www.unhcr.org/ru/. Аналогично вместо IOM Moscow moscow.iom.int теперь сайт russia.iom.int

А вот сайт ЮНФПА в России unfpa.ru уже не открывается, а материалы на сайте ООН в России www.unrussia.ru не обновлялись уже с декабря 2020 г. Сайт ЮНИСЕФ в России unicef.ru давно потерян и предлагается для регистрации, как и сайт ЮНЭИДС unaids.ru

Непонятно обновляются или нет материалы на сайте UNHabitat в России unhabitat.ru последние новости были от начала апреля, но у них в публикациях и раньше были паузы.

Активно публикуются материалы только на сайте Информационного центра ООН в Москве unic.ru и ЮНИДО в в России unido.ru

Всё это лишь косвенные признаки присутствия/отсутствия ООН в России, но то что ряд информационных ресурсов исчез за эти годы, это признак того что их сайты необходимо архивировать.

#webarchives #digitalpreservation #un
Новое регулирование в области открытых данных.
Принято Постановление Пр-ва РФ от 17.05.2022 № 894 [1] которое, в том числе, вносит изменения в Постановление Пр-ва РФ от 24.11.2009 г. № 953 "Об обеспечении доступа к информации о деятельности Правительства Российской Федерации и федеральных органов исполнительной власти" [2].

Переписан 4-й пункт постановления 953 и, если перевести его на русский язык, то там два ключевых изменения:
1. Минэкономразвития России теперь осуществляет мониторинга официальных сайтов государственных органов власти с использованием Портала открытых данных.
2. Технологическое обеспечение портала Открытых данных и системы мониторинга официальных сайтов передано Минцифры РФ.

В том же постановлении ещё несколько информационных систем передаваемых Минцифре России от Минэкономразвития.
- система мониторинга МФЦ и госуслуг
- портал regulation.gov.ru
- портал техобеспечения ГАС Управление

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202205180021?index=1&rangeSize=1
[2] http://government.ru/docs/all/70318/

#opendata #regulation #laws
В рубрике интересного чтения о данных и не только

- The Definitive Guide to Decision Intelligence [1] электронная книжка от стартапа Tellium о аналитике принятия решений
- Новый оператор match ... case в Python 3.10 [2] для выстраивания цепочки "если ... то". Выглядит любопытно, но терять совместимости с более ранними версиями Python не хотелось бы
- о том что такое хорошо смоделированные данные для аналитики [3]
- мощная критика Dbt от одного из пользователей [4], с акцентом на непрозрачности будущего продукта
- и ответ на эту критику от одного из создателей Dbt [5]

Ссылки:
[1] https://www.tellius.com/decision-intelligence-the-definitive-guide-ebook/
[2] https://medium.com/short-bits/python-3-10-match-a-new-way-to-find-patterns-8452d1460407
[3] https://towardsdatascience.com/what-is-well-modeled-data-for-analysis-28f73146bf96
[4] https://pedram.substack.com/p/we-need-to-talk-about-dbt
[5] https://roundup.getdbt.com/p/the-response-you-deserve

#reading #datasets
Оборотные штрафы для компаний за утечку данных могут составить 1% их годового оборота как пишут Ведомости [1] со ссылкой на слова директор департамента обеспечения кибербезопасности Минцифры Владимир Бенгина.

Кроме того компании должны будут уведомлять об утечках и штраф за неуведомление будет даже больше.

Много это или мало? Это, конечно много, и существенно больше текущих минимальных штрафов. Законодатель идёт явно по пути GDPR'изации регулирования с приданию преимущества интересам граждан, но не интересам бизнеса.

Хорошо это или плохо? Для рынка информационной безопасности - хорошо, для рядовых пользователей - лучше, для интернет компаний, конечно хуже, но никто их уже давно не идеализирует, часто, исходя из того что в гонке за сверхдоходами они жертвуют приватностью и безопасностью пользовательских данных, применяют "теневые шаблоны" (dark patterns) для манипуляции потребителями.

Но в реализации закона, если он таки будет, будут очень важны нюансы. Оборотные штрафы будут с головной компании, со всего холдинга или с того юр. лица с которым пользователь подписывает соглашение о конфиденциальности (соглашается на оферту, для онлайн сервисов) ?

Вопрос не праздный. Вот к примеру, есть какой-нибудь "Навоз Банк" со своей цифровой экосистемой из кучей интернет продуктов. Они учреждают дочернее предприятие "Оператор Доения Данных" через пару уровней подчинения и вешают на него функции оператора по управлению данными пользователей со всех других дочерних структур. "Оператор Доения Данных" может иметь годовой оборот не более 200млн руб., а весь "Навоз Банк" в несколько сотен миллиардов. Если что-то случится, то штраф наложат на этого оператора на пару миллионов, а "Навоз Банк" практически не пострадает.

Реалистичная схема? Реалистичная

P.S. Все названия выдуманы, все измышления умозрительны. Заранее извинения сотрудникам "Навоз Банка" если раскрыл какие-то их корпоративные секреты.

Ссылки:
[1] https://www.vedomosti.ru/technology/articles/2022/05/18/922625-oborotnie-shtrafi-utechku

#privacy #security #regulation
Написал очередной текст в англоязычный блог о том что поисковые системы - это глобальные инструменты для data discovery (поиска данных), недостатках DataCite Search и Google Dataset Search и о том какой могла бы быть идеальная поисковая система по данным

Dataset search engines as global data discovery tools [1]

Ссылки:
[1] https://medium.com/@ibegtin/dataset-search-engines-as-global-data-discovery-tools-a0dfc981ea9d

#opendata #datasets #search #datatools
А как насчёт того чтобы @mintsifry выложили бы полный список компаний чьи сотрудники получили отсрочки от армии в формате, хотя бы:
- название компании
- число сотрудников получивших отсрочку

Никакие персональные данные раскрыты не будут. Стратегической ценности у этих данных нет, коммерческая тайна раскрыта не будет. А вот для истории было бы крайне интересно.

#data
👨‍💻 24 года — cредний возраст ИТ-специалистов, претендующих на отсрочку от армии

Всего ИТ-компании подали заявки на оформление отсрочки от армии для 8,7 тыс. своих сотрудников.

Критериями для оформления отсрочки были:

🔹 гражданство РФ;
🔹 возраст — от 18 до 27 лет (родившиеся с 01.04.1995 по 15.07.2004);
🔹 работа по трудовому договору;
🔹 нормальная продолжительность рабочего дня;
🔹 высшее образование по специальности из перечня подпадающих под отсрочку;
🔹 работа в аккредитованных компаниях не менее 11 месяцев в период с 1 апреля 2021 по 1 апреля 2022 г. или устройство на работу в течение года после окончания учебы.

@mintsifry