Ivan Begtin
8.07K subscribers
1.69K photos
3 videos
100 files
4.38K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В качестве регулярных напоминаний, хотя и разработка кода не основное моё занятие, я довольно много публикую открытого кода, более всего для обработки данных. В первую очередь для поддержания собственных навыков в Python и для того чтобы были инструменты для того что сам же делаешь.

Работа с данными
- datacrafter - ETL движок для NoSQL данных с обработкой их с помощью конфигурационных файлов написанных на YAML. Заход на аналог Meltano или Dagster, но для NoSQL. Используется в datacrafter.ru
- apicrafter - автоматизированная оболочка для генерации REST API для доступа к данным в базах MongoDB. Используется в datacrafter.ru
- metacrafter - утилита по автоматической идентификации семантических типов данных. Используется для идентификации персональных данных в наборах данных. Поддерживает базы данных с SQL, файлы JSON, CSV, JSON lines, BSON и MongoDB
- undatum - утилита для командной строки для обработки иерархических данных в JSON lines и BSON. Поддерживает также CSV, но это не основная возможность. Позволяет считать статистику, извлекать частоты значений, уникальные значения, преобразовывать данные
- mongorefine - экспериментальная библиотека для Python по обработке данных в MongoDB как если бы MongoDB была бы колоночной, а не документальной базой. Позволяет проводить операции над коллекциями данных на колоночном уровне: добавлять, удалять, преобразовывать. Функции похожи на функции OpenRefine, известного открытого инструмента для подготовки данных
- mongo2md - утилита и библиотека для Python по автоматическому документированию коллекций для MongoDB
- diffmongo - библиотека для Python по сравнению данных в коллекциях MongoDB

Парсинг и сбор данных
- newsworker - библиотека для Python по автоматическому извлечению текстов новостей из сайтов где нет RSS лент. Работает полностью автоматически, разбирает структуру страницы, идентифицирует картинки, даты, тексты и формирует новостную ленту. Использует библиотеку qddate
- qddate - библиотека для Python для автоматической идентификации дат в любом написании. Умеет распознавать более 300 форматов на многих языках. Используется во многих других репозиториях и проектах.
- russiannames - библиотека для Python по автоматическому парсингу имён на русском языке, идентификации гендера и немножко национальных признаков. Умеет идентифицировать ФИО в форматах "Иван Петров", "Сидоров Иван Петрович", "Иванов В.А.", "Иванова А." и тд. Включает большую базу фамилий, имен и отчеств.
- docx2csv - библиотека для Python и утилита извлечения таблиц из файлов docx. Очень удобна для генерации CSV файлов из разного рода корпоративных и госотчетов. Но только для docx
- lazyscraper - утилита командной строки по быстрому извлечению таблиц и иных данных из веб-страниц с минимальными усилиями кодирования. Фактически только через написание xpath запроса. Изначально хотелось сделать её ещё более умной, но и это оказалось полезным.

Работа с веб-архивами и цифровая архивация
- metawarc - утилита для автоматизации обработки WARC файлов. Изначально создавалась в целях расследований для автоматизации извлечения свойств файлов MS Office и PDF из веб-архивов. Когда ты вначале всё архивируешь, а потом уже из веб архива собираешь метаданные. Я с её помощью проводил исследования использования пиратского ПО в российских госорганах несколько лет назад.
- apibackuper - утилита по автоматизации выгрузки данных из общедоступных API. Используется в Национальном цифровом архиве и в datacrafter.ru для формирования наборов данных
- ydiskarc - утилита для архивации данных по публичным ссылкам на Яндекс диск. Используется в Национальном цифровом архиве для архивации папок с Яндекс Диска
- wparc - утилита по архивации контента сайтов на Wordpress и медиа файлов с этих сайтов посредством встроенного в Wordpress REST API. Используется в Национальном цифровом архиве
- spcrawler - утилита по выгрузке данных из сайтов на базе Sharepoint используя их общедоступное API. Не завершена, но в работе.

#opensource #datatools #data #commandline #python
Подборка интересного чтение про данные, технологии и не только:
- Can We Use AI to Communicate With Animals? [1] может ли ИИ помочь в коммуникации с животными? заметка с материалами исследований по этой теме. Примерами когда ИИ использовался для восстановления мертвых языков и того как в 2017 году с помощью алгоритма распознали трели, чириканье и писк мартышек с 90% точностью [2]. Много ссылок, важная тема. Область где применение ИИ может дать реальное изменение в человеческой жизни (и жизни животных тоже).
- The United Nations E-Government Survey 2022 [3] свежий рейтинг развития электронного правительства от ООН. Только в PDF файлах, поэтому на оценки конкретной страны сослаться сложно. Россия там в группе Very High Tier II, то есть с довольно высоким уровнем развития. Из постсоветских стран лидируют страны Балтии и хуже ситуация в Туркменистане.
- Lawless Surveillance [4] научная статья в открытом доступе об огромном объёме слежки в США, по большей части нерегулируемой и "незаконной". Полезно для понимания как это устроено в США и то что это не ограничено только одной страной, а встречается во многих технологических развитых странах.
- The Era of Fast, Cheap Genome Sequencing Is Here [5] компания Illumina, мировой почти монополист в устройствах секвенирования генома, анонсировали новые устройства в которых обещают сокращение времени секвенирования генома вдвое и не более чем за $200 за один геном. Как это повлияет на развитие рынков? Больше компаний будут предлагать услуги расшифровки, цены за расшифровку генома должны будут снижаться, а больше данных геномов будет доступно.
- Wasabi Technologies Closes $250 Million [6] конкурент Amazon Web Services, компания Wasabi Technologies привлекла раунд в $250M инвестиций и обещают технологический стек с возможностью сокращения расходов на 80% по сравнению с Amazon. Это, в первую очередь, касается облачного хранилища аналогичного AWS S3.

Ссылки:
[1] https://lastweekin.ai/p/can-we-use-ai-to-communicate-with
[2] https://www.spectrumnews.org/news/ai-interprets-marmosets-trills-chirps-peeps/
[3] https://publicadministration.un.org/en/Research/UN-e-Government-Surveys
[4] https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4111547
[5] https://archive.ph/C5eQ2#selection-464.0-464.1
[6] https://wasabi.com/press-releases/wasabi-technologies-closes-250-million-in-new-funding-to-usher-in-the-future-of-cloud-storage/

#tech #readings #un #ai
Австралийская схема данных (DATA Scheme) [1] - это концепция доступа к данным продвигаемая их офисом национального комиссара по данным. В Российской логике наименований это звучало бы примерно как "Уполномоченный по данным", поскольку должность персонализированная.

В основе схемы модель взаимодействия с потребителями данных в части предоставления доступа к чувствительным госданным через аккредитацию сервис провайдеров и пользователей.А также определение списка "дата стражей" (data custodians), органов власти отвечающих за доступ к определенным данным.

Особенность в том что это не открытые данные, а данные доступные на определенных условиях. На каких-то ранних стадиях обсуждалось что доступ будет, также, у бизнеса, но в финальной схеме описывается модель с доступом к данным у органов власти и университетов.

Всё это можно сравнить с российской инициативой НСУД (Национальная система управления данными) с той разницей что в австралийской модели всё происходит через специальную платформу Data Place. Она, фактически, работает скорее по академической модели предоставления доступа к чувствительным данным, запросы и обоснованные отказы или согласия.

При этом, австралийское правительство явным образом обещает что если запрашиваемые данные не будут чувствительными, то они готовы публиковать их на data.gov.au, портале открытых данных Австралии [3]


Ссылки:
[1] https://www.datacommissioner.gov.au/the-data-scheme
[2] https://www.dataplace.gov.au/
[3] https://www.dataplace.gov.au/articles/KA-01031

#opendata #australia #datasharing
В рубрике интересных наборов данных, коллекции данных создаваемые из веб-индексов

Dresden Web Table Corpus (DWTC) [1] набор данных состоящий из 125 миллионов таблиц извлеченных из архива веб-индекса Common Crawl․ Последнее обновление было в 2015 году основано на базе в 266ТБ из 3.6 миллиардов веб страниц.

Web Data Commons [2] - это коллекция из многих наборов данных созданных на основе Common Crawl и развиваемая командой университета Маннхейма. В проекте множество наборов данных созданных через извлечение объектов перечисленных в Schema.org из тела веб-страниц и иной мета информации. Например, там же свежий набор данных SOTAB с аннотированными таблицами привязанными к понятиям в Schema.org [3]

ACL Anthology [4] каталог научных публикаций и наборов данных. Включает наборы данных с полной антологией публикаций и цитированием, а также включает множество работ созданных на основе наборов данных таких как Common Crawl, например Learning Word Vectors for 157 Languages [5]

Ссылки:
[1] https://wwwdb.inf.tu-dresden.de/research-projects/dresden-web-table-corpus/
[2] http://webdatacommons.org/
[3] http://webdatacommons.org/structureddata/sotab/
[4] https://aclanthology.org/
[5] https://aclanthology.org/L18-1550/

#opendata #datasets #digitalhumanities
budget2023_ved.zip
252.2 KB
Для тех кто изучает открытые данные открытой части федерального бюджета России напомню что официальное опубликование бюджета происходит в системе СОЗД Государственной Думы РФ это законопроект № 201614-8 [1]․ Внутри него 602 файла в форматах PDF и DOC и для тех кому сложно с ними работать у нас в на сайте архива мы сделали копию всех файлов, 348 мегабайт ZIP архив [2]. Содержание архива есть в списке извлеченных с веб-страницы ссылок файле dataset.csv [3] и в файле processed.csv [4] по итогам выгрузки файлов.

Как работать с этими документами ? Внутри PDF документов и DOC файлов тексты и гигантские таблицы на тысячи строк. Для извлечения текстов и таблиц из PDF документов я рекомендую использовать коммерческие продукты вроде ABBYY Finereader. А для DOC файлов таблицы извлекаются другими инструментами.

Например, таблицы из файлов DOCX извлекаются с помощью утилиты docx2csv [5] о которой я ранее писал и я же её автор. Таблицы извлекаются в командной строке командой экстракт. Например вот такая команда docx2csv extract DACE8F84-B774-4B5B-B747-F3189B25E596.docx создаст две таблицы из этого файла.

Ограничение в том DOCX файлов среди этих файлов всего 49, а файлов в формате DOC 45 и самые большие таблицы внутри DOC файлов.

Поэтому DOC надо преобразовать в DOCX. При наличии MS Office на компьютере это автоматизируется с помощью утилиты Wordconv которая идёт в его базовой поставке. Вот тут есть инструкция [6] для командной строки.

Прилагаю полученный таким образом набор данных ведомственной структуры расходов фед. бюджета.


Ссылки:
[1] https://sozd.duma.gov.ru/bill/201614-8
[2] https://cdn1.ruarxive.org/public/datacollect/budget2023/files.zip
[3] https://cdn1.ruarxive.org/public/datacollect/budget2023/dataset.csv
[4] https://cdn1.ruarxive.org/public/datacollect/budget2023/processed.csv
[5] https://github.com/ivbeg/docx2csv/
[6] https://stackoverflow.com/questions/2405417/automation-how-to-automate-transforming-doc-to-docx

#opendata #opensource #datasets #budget #russia #government
По поводу новой процедуры аккредитации ИТ компаний организованной Минцифры РФ мне много что есть сказать, поскольку несколько лет я не только изучал реестр аккредитованных компаний, но и сопоставлял его с другими реестрами, находил там аномалии разной степени необычности и публиковал тут у себя в телеграм канале и передавал сотрудникам Минцифры ещё в июне-июле месяце.

В реестре аккредитованных и сейчас осталось немало туроператоров, семейных частных отелей и иных организаций не имеющих никакого отношения к ИТ. Но, чисто по человечески, лучше уж больше непрофильных компаний получат возможность для отсрочки ИТ сотрудников от мобилизации, чем список аккредитованных сокращать. В конце то концов это сотрудники Минцифры берут на себя ответственность за аккредитацию, главное лишь понимать и всегда помнить что реестр аккредитованных компаний != реестр ИТ компаний. Там намешаны ИТ компании, технологические компании на классических рынках и вообще не относящиеся к ИТ юр. лица. Поэтому для любых аналитических задач он малопригоден.

Как писал Иван Покровский в статье с критикой Минпромторга сейчас Минцифры, при большом количестве других претензий, особенно к нормативке, ведёт себя куда приличнее того же Минпромторга.

#russia #data #digital
Не могу не упомянуть последнюю публикацию Счетной палаты РФ по поводу открытости Минстроя. Нет, Минстрой далеко не самое открытое ведомство, не надо этому верить. Как минимум в части открытых данных, большая часть открытых данных Минстроя не обновлялись 5 лет. Остальные критерии по которым оценивались органы власти - весьма надуманные. В первую очередь потому что рассматривать критерии открытости диалога в ситуации с уничтоженными независимыми СМИ в России невозможно.

В этом году мы в @infoculture не стали проводить День открытых данных этой весной считая что говорить об открытости российского государства сейчас будет двулично. Я считал и считаю вот этот последний доклад Счетной палаты не просто слабым, а просто некорректным. Открытость государства сейчас снижается довольно резко. Нельзя было проводить её оценку так словно ничего не происходит.

Поэтому нет, Минстрой не самый открытый орган власти. Сравнивать органы власти по открытости сейчас бессмысленно.

#opendata #russia #opengov
Команда Clickhouse, создателей одной из лучших аналитических СУБД, запустили бета версию облачной версии продукта [1]. Сейчас облако работает с поминутной тарификацией на базе инфраструктуры AWS․ Главное достоинство в том что продукт непосредственно от команды разработчиков Clickhouse, а значит можно надеяться на лучшую производительность и техническую поддержку.

При том что кластеры на Clickhouse существуют уже много где. Например, в Яндекс облаке [2] с ежесуточной и ежемесячной тарификацией и в самом AWS [3].

Clickhouse не единственная СУБД для аналитики в реальном времени на базе которой создаются DBAAS (database-as-a-service) продукты. Например, команда их менее популярного, но близкого по производительности, конкурента StarRocks анонсировали появление их облака в 3-м квартале 2022 г. [4]. 3-й квартал вот только что прошёл, ждём когда же можно будет увидеть обещанное.

А я напомню интересную штуку от Clickhouse по открытым замерам производительности баз данных [5] с весьма неплохим их сравнением.

Ссылки:
[1] https://clickhouse.com/blog/clickhouse-cloud-public-beta
[2] https://cloud.yandex.com/en/services/managed-clickhouse
[3] https://aws.amazon.com/ru/quickstart/architecture/clickhouse-cluster/
[4] https://starrocks.io/blog/starrocks-launches-the-industrys-fastest-cloud-native-real-time-analytics-engine
[5] https://benchmark.clickhouse.com

#opensource #startups #dbms #clickhouse
В рубрике полезного чтения про данные, технологии, программирование и не только:
- Software engineering practices [1] простые и полезные практики софтверной разработки. Лично я со всеми согласен, особенно с тем что нужно делать шаблоны для проектов.
- Self-hosting a Web scraping Farm [2] о том как организовать ферму устройств на базе Raspberry Pi для скрейпинга данных.
- Huak [3] менеджер пакетов для языка Python с благозвучным названием написанный на Rust. Слова huak huak в продакшн начинают приобретать новый смысл. Как минимум любопытная штука сама по себе.
- The Illustrated Stable Diffusion [4] о том как работает Stable Diffusion, генератор изображений на основе текстового описания. С картинками и пояснениями. Довольно доходчиво даже для неспециалистов в machine learning
- What to consider when using text in data visualizations [5] о чём думать когда подбираешь способ визуализации текста в блоге сервиса Datawrapper и с большим числом примеров


Ссылки:
[1] https://simonwillison.net/2022/Oct/1/software-engineering-practices/
[2] https://medium.com/@tp4348/self-hosting-a-web-scraping-farm-699c12bfd138
[3] https://github.com/cnpryer/huak
[4] https://jalammar.github.io/illustrated-stable-diffusion/
[5] https://blog.datawrapper.de/text-in-data-visualizations/

#opensource #readings #ai #softwareengineering
В рубрике полезных инструментов работы с данными, я выложил в открытый доступ очередную маленькую утилиту filegetter [1] для проектов цифрового архива (ruarxive.org, телеграм канал @ruarxive).

Утилита делалась когда-то для тех случаях когда в файле набора данных есть ссылки на какие-то файлы, например, PDF/DOC документы или изображения или ещё что-то что надо собрать вместе с набором данных. Такие файлы можно собирать разными способами, например, набором скриптов для командной строки или из скрипта на любом скриптовом языке. Но в какой-то момент это стало довольно неудобно каждый раз писать программу на на сто строк кода, когда можно было бы описать правила в 5 строках конфигурационного файла.

Поэтому на базе другой утилиты, apibackuper [2], созданной для архивации данных в API была быстро сделана эта утилита которая так и пролежала почти год пока у меня не нашлось немного времени сделать к ней документацию и примеры.

Так вот примеры:
- выгрузка файлов приложенных к проекту бюджета с сайта Госдумы [3]
- выгрузка отчетов политических партий с сайта ЦИК РФ [4]
- выгрузка изображений из каталога музейного фонда [5]

Всё это довольно простые примеры, когда файлы выкачиваются из первоисточников и складываются внутрь ZIP контейнера, а рядом сохраняется файл с метаданными.

Главное применение - архивация сопутствующих файлов привязанных к наборам данных.

В итоге, рано или поздно, хочется это упаковать в связанные между собой инструменты для цифровой архивации. Их по отдельности уже много: архивация Wordpress, API, файлов, веб-сайтов, телеграм и других цифровых объектов и типов источников данных и контента.

Ссылки:
[1] https://github.com/ruarxive/filegetter
[2] https://github.com/ruarxive/apibackuper
[3] https://github.com/ruarxive/filegetter/tree/main/examples/budget2023
[4] https://github.com/ruarxive/filegetter/tree/main/examples/rupolitparties
[5] https://github.com/ruarxive/filegetter/tree/main/examples/goskatalog

#opendata #digitalpreservation #webarchives #opensource
Актуальная и сейчас часто обсуждаемая инженерами тема Data contracts (дата-контракты). По своему смыслу - это создание и применение структурированных спецификаций на предоставление и получение данных, с соблюдением к контроля версий и управления кодом этих спецификаций.

В блоге Data Products хороший вводный текст пол дата-контракты в контексте современного стека данных [1]. Многое в реализации сейчас упоминается, или в контексте спецификации формата данных Avro, или через реестр схем Kafka. Он называется Confluent (Kafka) Schema Registry.

В основном разговоры про дата-контракты идут в контексте работ множества разделенных команд внутри больших компаний. Когда за разные продукты отвечают небольшие группы разработчиков и они зависят друг от друга и, в первую очередь, от тех команд которые предоставляют данные из первоисточников.

Главное не путать data contracts из инженерии данных с data contracts из Windows Communication Framework (WCF) входящем в .NET. Название совпадают, применение тоже похоже, но в в инженерии данных - это универсальное описание схемы данных, а в WCF - это узко заточенная спецификация.

Ссылки:
[1] https://dataproducts.substack.com/p/an-engineers-guide-to-data-contracts

#dataengineering
Ещё в 2018 году в Инфокультуре (@infoculture) мы делали множество карт данных, подсказок для хакатонов и тех кто делает продукты на открытых данных о том где открытые данные взять. С той поры у меня не доходили руки привести их все в порядок. Какие-то были более-менее систематизированы, какие-то ещё рассеяны по разным местам.

Наконец-то дошли руки привести их в порядок, сделать машиночитаемый формат и выложить онлайн в репозитории ru-datamaps [1].

Охватываются такие темы как:
- Авиация
- Экология
- Госфинансы
- Законотворчество
- Здравоохранение
- Нефтегазовый сектор
- Образование
- Некоммерческие организации
- Правоохранительная система

Карты в форматах Xmind, PNG, PDF и JSON.

По мере того как буду находить остальные карты, они появятся в этом же репозитории на Github.

Ссылки:
[1] https://github.com/infoculture/ru-datamaps

#opendata #opensource #datamaps #datadiscovery
Для тех кто следит наблюдает за теми организациями и лицами кто подпал под санкции ЕС, США, Канады и других стран я напомню про такой замечательный проект как OpenSanctions [1] простой и понятный агрегатор санкционных и иных списков, например, они включают списки PEPs'ов (Politically Exposed Persons) и много чего другого.

Всё это доступно в виде наборов данных и в виде API которое авторы обновили буквально 3 дня назад и сделали его многократно удобнее [2]. Внутри проекта используется графовая база Neo4J [3], а кроме открытых данных у проекта есть бизнес модель основанная на платной подписке для коммерческих сервисов. При этом, для журналистов и аналитиков исследователей все данные бесплатны и не имеют ограничений.

Проект интересный, кроме России там ещё много какие страны охвачены так что полезно для разного.

Ссылки:
[1] https://www.opensanctions.org/
[2] https://www.opensanctions.org/articles/2022-10-04-saas-api/
[3] https://neo4j.com/blog/graphs-power-opensanctions-interview-with-friedrich-lindenberg/

#opendata #datasets
В рубрике полезного чтения про данные, технологии и не только:

Технологии и данные
- Don’t make databases available on the public internet [1] прокси для безопасного доступа к базам Postgres в блоге Tailscale. Tailscale - это весьма любопытный Zero-config VPN сервис, не в смысле выйти за пределы юрисдикции страны, а в том смысле чтобы создать виртуальную защищённую локальную сеть между своими устройствами в разных местах. Я лично его использую в бесплатной версии и это очень себя оправдывает.
- Postgres: a better message queue than Kafka? [2] в блоге Dagster, системы ETL с открытым кодом о том почему они выбрали Postgres, а не Kafka для управления очередями. Вообще это считается анти-шаблоном, в последние годы было много публикаций где писалось о том насколько не рекомендуется делать очереди задач через RDBMS, и разработчики Dagster тоже об этом знали. Поэтому интересно почему они, всё таки, выбрали этот путь.
- matanolabs/matano [3] - озеро данных для инфобеза для AWS. Интересная специализация, с фокусом на сбор и обработку данных и логов и сенсоров в оперативном режиме.
- Rok create job immerok cloud [4] стартап Immerok привлекли $17m на создание облачного сервиса на базе опенсорсного продукта для потоковой обработки данных на базе Apache Flink. Альтернатив много, но интересно что нового они предложат.
- Apache Iceberg Reduced Our Amazon S3 Cost by 90% [5] о том как миграция на Apache Iceberg позволяет сократить расходы на Amazon S3. Полезное чтение и, честно говоря, уже можно отдельно выделить спектр продуктов и услуг "мы поможем Вам уменьшить расходы на инфраструктуру". Для средних и крупных компаний суперактуально, для малых чуть меньше, но тоже нужно.

Регулирование и государство
- The EU wants to put companies on the hook for harmful AI [6] - законопроект в Евросоюзе который может позволить пользователям судится с компаниями использующими "опасный ИИ". Через пару лет может стать законом, а ещё и ЕС хочет сделать его "золотым стандартом" для других стран и в нём может быть принцип экстерриториальности как в GDPR․
- Smart cities: reviewing the debate about their ethical implications [7] рассуждения в виде научной статьи об этичности создания и развития умных городов. Стоит почитать чтобы хотя бы понимать разумные доводы почему тотальная автоматизация городской инфраструктуры - это не только хорошо, но и не очень хорошо, а где-то и плохо
- Big Data and Official Statistics [8] о том почему текущие методы подготовки официальной экономической статистики устарели и что с ней надо делать с помощью больших данных. Много и по делу о изменении подходов и роли статистических органов власти в мире.

Книги
- Data Spaces [9] книга в открытом доступе посвящённая пространствам данных как концепции по объединению стандартов, онтологий, форматов, баз данных в некую общую экосистему. Имеет некоторый философский налёт, но полезно для понимания возможного будущего регулирования и академических подходов в этой области

Ссылки:
[1] https://tailscale.com/blog/introducing-pgproxy/
[2] https://dagster.io/blog/skip-kafka-use-postgres-message-queue
[3] https://github.com/matanolabs/matano
[4] https://www.immerok.io/blog/immerok-cloud-early-access
[5] https://medium.com/insiderengineering/apache-iceberg-reduced-our-amazon-s3-cost-by-90-997cde5ce931
[6] https://www.technologyreview.com/2022/10/01/1060539/eu-tech-policy-harmful-ai-liability/
[7] https://link.springer.com/article/10.1007/s00146-022-01558-0
[8] https://onlinelibrary.wiley.com/doi/full/10.1111/roiw.12617
[9] https://link.springer.com/book/10.1007/978-3-030-98636-0

#data #opensource #regulation #government
Я довольно давно не рассказывал про развитие инструментов metacrafter для выявления семантических типов данных и реестра семантических типов данных metacrafter-registry которыми давно занимаюсь.

Изменений там много, в основном в части постепенно улучшения списка типов данных, связанности с базами Schema.org и Wikidata. А есть одно изменение важное именно для инженерии данных - это экспорт реестра в формат бизнес глоссария (Business Glossary) используемого в каталоге данных Datahub.

Для тех кто не знает, бизнес глоссарий, это смысловые характеристики полей данных записываемые в каталогах данных. Не обязательно семантический/смысловой тип поля, но может быть, например, уровень его конфиденциальности, чувствительности данных и так далее.

Datahub - это опенсорсный каталог корпоративных данных [1] созданный некогда в LinkedIn и развиваемый сейчас компанией Acryl. Среди его достоинств есть импорт данных, в том числе, для бизнес глоссария.

И вот для тех кто хочет загрузить туда типы данных из Metacrafter'а теперь это можно сделать воспользовавшись файлом metacrafter.yml [2] из репозитория проекта. Выглядит результат примерно как на вот этом скриншоте.

Следующий шаг в интеграции metacrafter'а в непосредственно процесс загрузки метаданных в Datahub, так чтобы привязку поля к данным можно было бы осуществлять автоматически.

Ссылки:
[1] https://datahubproject.io
[2] https://github.com/apicrafter/metacrafter-registry/tree/main/data/datahub

#opensource #semanticdatatypes #dataengineering #apicrafter #metacrafter
Хороший обзор How Open Source is eating AI [1] о сокращении циклов разработки ИИ и о том как открытость кода в виде открытости языковых моделей, открытых инструментов машинного обучения, открытых наборов данных и так далее влияет на появление новых ИИ продуктов.

Общий посыл такой что без открытости кода развитие ИИ невозможно, и автор призывает к появлению Open source AI Institute. Идея любопытная, может быть такое и будет в каком-то обозримом времени.

Ссылки:
[1] https://lspace.swyx.io/p/open-source-ai

#opensouece #ai
В рубрике полезных инструментов для публикации данных roapi [1] фреймворк по публикации статических наборов данных, написан на Rust, а внутри использует Apache Arrow и Datafusion. Автор описывает его как то что не надо написать ни строчки кода что, не совсем так, вместо кода надо писать конфиг на YAML, но даже при этом возможности весьма немалые. Фактически, из коробки, получаем REST API, GraphQL и SQL (через HTTPS и протокол Postgres Wire) для доступа к выбранному набору данных.

Можно делать API на основе файлов CSV, JSON, NDJSON (JSON lines), Parquet, баз SQLite и MySQL.

Пока это лучший движок для таких задач, по крайней мере по описанию, конечно, ещё надо интенсивно тестировать.

Я помню как ещё 10 лет назад командой data.gov публиковался простой PHP скрипт csv-to-api [2], а я лет 9 назад писал простой движок apiready [3] генерировавший чуть более продвинутое API выделяя отдельно справочные значения.

Через много лет лично я пришёл к архитектуре:
1) Положи все данные в СУБД
2) Используй обертку вокруг данных в СУБД
и написал и опубликовал движок apicrafter [4] позволяющий такую обёртку делать вокруг базы в MongoDB.

Но, возможно, roapi - это лучший выбор из имеющихся для табличных данных. Потому что поддержка сразу многих протоколов для доступа к данным имеет значение и упрощает доступ из разных приложений и в разных сценариях использования.

Ссылки:
[1] https://github.com/roapi/roapi
[2] https://github.com/project-open-data/csv-to-api
[3] https://github.com/ivbeg/apiready
[4] https://github.com/apicrafter/apicrafter

#datatools #api #openapi
#opensource : RuLeanALBERT от Yandex Research
2.9B трансформер для русского, которая влезет в домашнюю ПеКарню ресерчера

Мало того, что это самая большая БЕРТ-подобная модель для русского языка, которая показывает крутые результаты в бенчмарках, так еще и с кодом для fine-tuning-а

GitHub

А в статье можете узнать, как обучалась эта модель (а-ля коллаборативное глубокое обучение) на фреймворке по децентрализованному обучению Hivemind
В телеграм канале Минцифры РФ новость о том что теперь доступна услуга получения выписки о наличии компании в реестре ИТ компаний [1]. Казалось бы, новая госуслуга, это хорошо? Но нет, реестры компаний как и другие данные ранее публиковались органами власти. Реестр ИТ компаний публиковался на сайте Минцифры РФ в виде Excel файла в соответствующем разделе [2]․ Теперь для получения данных надо авторизоваться на госуслугах и есть возможность получить информацию только про себя.

Безусловно это снижение открытости аккредитации ИТ организаций и, безусловно, если формальной причиной для этого является попытка избежать санкций, то это довольно бессмысленный шаг. Для санкций на ИТ сектор достаточно взять перечень всех действующих компаний из ЕГРЮЛа и наложить санкции целенаправленно на них сколько бы их там не было 5-10-20-100 тысяч, неважно. Можно наложить санкции на целый сектор.

Поэтому единственной причиной закрытия может быть только попытку избежать любой формы государственного и гражданского контроля за процессом аккредитации. Путь это сомнительный и усилия министерства по "исправлению" процесса аккредитации закрытием реестра аккредитованных дискредитируется весьма существенно. Он же не засекречен, так или иначе этот список получить можно если не через сайт Минцифры, то иным образом, сопоставляя ряд источников.

И чего опасаться то? Что там останутся реселлеры разного рода Консультант-плюса и иных систем ? Или туоператоры и семейные отели? Или заводы которым мало брони от оборонки и они ещё и ИТ аккредитацию получили?

Зря я хвалил Минцифры ранее, ох зря.

Ссылки:
[1] https://t.me/mintsifry/1580
[2] https://digital.gov.ru/ru/activity/govservices/1/#section-list-of-accredited-organizations

#openness #digital #itmarket
Команда авторов ежегодного доклада State of AI выпустила очередной доклад State of AI 2022 [1], его удобнее сразу смотреть в Google Slides [2] и скачать оттуда же.

Приводить все факты и предсказания оттуда очень долго, там 110+ слайдов на темы технологий, индустрии, исследований, политики и тд и интересного и важного немало. Для меня интересным был блок Safety поскольку он про состояние отношений учёных к развитию ИИ и ряда госстратегий вроде UK National Strategy for AI.

Но это то на что я обратил внимание, а так там очень много всего. При чтении важно помнить кто основной адресат этого обзора и кто его составляет. Он готовится людьми погруженными в венчурную индустрию для тех кто ищет финансирование, дает финансирование или думает о том или другом. Поэтому далеко не все примеры harmful AI приводятся, но примеры полезного применения многочисленны. Что, в любом случае, не обесценивает этот замечательный отчет.

Ссылки:
[1] https://www.stateof.ai/
[2] https://docs.google.com/presentation/d/1WrkeJ9-CjuotTXoa4ZZlB3UPBXpxe4B3FMs9R9tn34I/edit?usp=sharing

#ai #regulation #reports