Ivan Begtin

В последней версии Firefox 98.0.1 удалены поисковые системы Yandex и Mail.ru [1]. Это наверняка можно поменять в конфигурационных файлах, но по умолчанию их нет.

Хотя там ещё остались Ozon.ru и Price.ru, но надолго ли? Судьба российских технологических компаний и продуктов в западных экосистемах это теперь очень большой и болезненный вопрос.

Ссылки:
[1] https://www.mozilla.org/en-US/firefox/98.0.1/releasenotes/

#russia #digital

2.9K viewsIvan Begtin, 17:52

Ivan Begtin

Правительство тут регулярно вводит те или иные меры экономической поддержки в России. Иногда читаешь и думаешь, вот люди, вот молодцы, вот заботятся наконец-то о нас простых предпринимателях, но, честно говоря, все этим меры совсем не кажутся чем-то реально помогающим.

Я не могу не перечислить то что делать надо и надо было ещё очень давно, вне зависимости от степени экономической катастрофы в России:
1. Резкое сокращение госаппарата
В 2-3 раза начиная с вице-премьеров, министров и их заместителей. Как минимум необходимо:
- сократить число вице премьеров до 2-х. Сейчас их 10
- сократить число ФОИВов в 2 раза. Сейчас их более 60, а достаточно будет 20-30
- сократить число заместителей министров до 2-х. Сейчас кое-где их 9 [1], а кое-где 7 [2]
и так далее.

2. Бессрочная отмена всех контрольных и надзорных мероприятий
Не на 1-2-3 года, а бессрочно отмена вместе с ликвидацией надзорных и контрольных органов. Какое-то время будут проблемы и много жалоб на нарушения, и там где их будет много там и восстанавливать госнадзор. С нуля и только там где это будет остро необходимо.

Не буду объяснять почему эти меры не будут приняты. И так всё понятно.

У меня ещё много разных идей с тем что можно сделать чтобы выправить текущую ситуацию, но большая их часть ограничена свежими и несвежими федеральными законами о-том-о-чём-нельзя-говорить.

Ссылки:
[1] http://government.ru/gov/persons/#vice-premiers
[2] https://minfin.gov.ru/ru/ministry/
[3] https://minstroyrf.gov.ru/about/structure/

#economy #sanctions

2.9K viewsIvan Begtin, 08:51

Ivan Begtin

Forwarded from Национальный цифровой архив

Анонсировано закрытие сервиса coub.com с 1 апреля 2022 года [1]. Coub это развлекательный сервис, из зацикленных отрывков видео с наложенными на них музыкальными дорожками. С одной стороны это развлекательный контент, а с другой стороны.

Для Coub существует несколько инструментов выгрузки контента, один из самых продвинутых - это CoubDownloader [2], а также есть какое-то количество других на Github.

Мы сейчас запустили архивацию наиболее популярных Coub'ов, из категории "Hot", постараемся сохранить и другие по возможности, но в первую очередь оцениваем ожидаемые объёмы требующие сохранения. Также пока до конца неясен масштаб общественной ценности этого контента, в ближайшее время делать такую оценку.

Если у Вас есть списки Coub'ов имеющих общественную ценность, присылайте их в чат к каналу https://t.me/ruarxivechat.

А также если Вы планируете сохранить какие-либо coub'ы по категориям самостоятельно, пожалуйста, поделитесь итоговыми результатами.

Ссылки:
[1] https://coub.com
[2] https://github.com/HelpSeeker/CoubDownloader

#archives #videoarchive #coub #webarchive

Обсуждаем цифровую архивацию

Чат к каналу @ruarxive о цифровой архивации

2.7K viewsIvan Begtin, 19:33

Ivan Begtin

Важное и про данные и про необходимость заменять коммерческие продукты по работе с данными на их аналоги с открытым кодом в заметке The Rise of Open Source Challengers [1]. Акцент именно на продукты на данных и том как открытый код заменяет коммерческие продукты в принципе. Такой тренд действительно есть.

Оказывается Runa Capital ещё пару месяцев назад подготовили подробный список инструментов замены коммерческих корпоративных продуктов на open source [2]. Список полезный тем кто меняет корпоративный стек технологий прямо сейчас и в срочном порядке.

Обзор DagsHub [3] аналога Github для ML/AI, Data Science. Пока на самом раннем старте, но сделан максимально Github-like. По ощущениям может иметь перспективу в будущем как Github для данных тоже. Основан на Git и на DVC (система контроля версия для данных) [4] Применение в России весьма туманно, оплата там только в USD по картам, но это сейчас будет касаться всех стартапов без исключения.

Краткий и полезный обзор о том как собирать данные Data Collection is Hard. You Should Try It. [5] с рефлексией автора о том как правильно сбор данных организовывать. В ответ на другую заметку другого автора о проблемах сбора данных [6]

Ссылки:
[1] https://rajko-rad.medium.com/the-rise-of-open-source-challengers-4a3d93932425
[2] https://github.com/RunaCapital/awesome-oss-alternatives
[3] https://towardsdatascience.com/dagshub-a-github-supplement-for-data-scientists-and-ml-engineers-9ecaf49cc505
[4] https://dagshub.com/
[5] https://www.georgeho.org/data-collection-is-hard/
[6] https://counting.substack.com/p/go-collect-some-and-data?s=r

#startups #data #opensource

Medium

The Rise of Open Source Challengers

A look at how OSS takes over the application layer + the potential end of closed source software categories

3.5K viewsIvan Begtin, 04:36

Ivan Begtin

Мне как и многим задают вопросы о том что да как, я не могу отвечать за других, отвечу за себя, чуть разбавив личным профессиональное:
1. Я не планирую в ближайшее время уезжать из России, а если и буду, то только по медицинским показаниям в климатическую зону где нет берёз на которые у меня устойчивая аллергия, но не слишком жарко. Планы у меня такие были давно, но скорее про то чтобы жить там какую-то часть времени в некоторые сезоны. Кроме того в моих предках есть амшенские армяне и Турция и Армения для меня две давние прародины, наряду с Россией, конечно.

2. Архивация деятельность не только личная, но и профессиональная. Иногда я Чувствую себя весьма странно, так как архивирую то что воо\бще никак не вяжется с моими интересами/воззрениями, но то что несомненно является частью современной цифровой культуры. Но это скорее возрастное когда форматы вроде Coub'ов воспринимаются сложнее. Тем не менее цифровая архивация - самая актуальная некоммерческая деятельность из всего чем я лично и наша команда занималась много лет.

3. Я не могу не напомнить что у нас крутая команда с большим опытом работы с открытыми данными и данными вообще. Мы делаем от технических проектов до исследований в этой области. Особенно много знаем о том где какие данные есть и как с ними работать. А в текущей ситуации расширяем пул заказчиков и продуктов, так что пишите если есть интересные задачи на данных и с данными связанные.

#thoughts #team #archives

2.7K viewsIvan Begtin, 11:55

Ivan Begtin

Forwarded from Национальный цифровой архив

Новости проекта на 17 марта 2022 года

- Начата работа над базой знаний, вскоре анонсируем репозиторий на Github к наполнению которого можно будет присоединится.
- Мы продолжаем работать над обновлённым сайтом, пока самые актуальные новости будут в этом телеграм канале
- Идёт работа по загрузке копии материалов Эха Москвы в Интернет Архив, она займет ещё какое-то время поскольку параллельно идет архивация многих цифровых ресурсов в зоне риска.

Архивация сайтов заблокированных ресурсов

Продолжается архивация сайтов издания: Colta, Tjournal, The Insider, Бумага. Начата архивация Костромского Форума Костромских джедаев (заблокирован Роскомнадзором, закрывается). В общей сложности собрано 50GB материалов, архивация продолжается.

Сделана копия сайта издания DOXA, готовится к загрузке в общедоступное хранилище.

Архивация Coub
- отправлены письма владельцам сайтам с просьбой передать в архив накопленные у них данные. Если у Вас есть прямые контакты владельцев и Вы можете им написать/спросить, это оказало бы большую помощь.
- выгружены 1952 ролика из раздела Hot, общий объём 55GB
- идёт выгрузка данных с сайта через общедоступное API по каждой категории. Это до 5000 роликов в категории. Следующим шагом будет сбор данных о всех роликах признанных лучшими
- идет подбор дополнительного хранилища для хранения больших объёмов данных из Coub
- запланирована архивация всех роликов которые можно будет успеть сохранить до конца марта.
—
Если Вы знаете что-то о сайтах и иных цифровых ресурсах которые могут исчезнуть в ближайшее время, пишите нам в чате, поставим их на первоочередную загрузку. Также мы готовы принимать любые в дар любые жесткие диски, системы сохранения, архивы с данными на любых цифровых носителях.

#digitalpreservation #archives #news

Национальный цифровой архив

Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин

2.2K viewsIvan Begtin, 10:53

Ivan Begtin

В рубрике интересные продукты с открытым кодом Grist, открытая альтернатива Airtable, инструмент работы с таблицами [1].
Функции очень похожи:
- быстро и с нуля построить базы данных (аналог Access, только в вебе)
- гибкое управление правами доступа к данным
- визуализировать данные, строить отчеты
- делиться данными с другими

Ну и конечно замена Excel во всём что касается редактирования таблиц. Авторы также подготовили обзора сравнений в Airtable [2] и кроме открытого кода предлагают облачный сервис GetGrist [3] где можно его потестить. Конечно из России использовать облако затруднительно, оплата там в долларах США.

Из больших плюсов продукта поддержка формул на Python с полной поддержкой Python’s standard library [4]

Ссылки:
[1] https://github.com/gristlabs/grist-core
[2] https://www.getgrist.com/blog/grist-v-airtable/
[3] https://www.getgrist.com/
[4] https://support.getgrist.com/formulas/#python

#data #tools #spreadsheets #opensource

GitHub

GitHub - gristlabs/grist-core: Grist is the evolution of spreadsheets.

Grist is the evolution of spreadsheets. Contribute to gristlabs/grist-core development by creating an account on GitHub.

2.5K viewsIvan Begtin, 12:53

Ivan Begtin

Для тех кто работал/работает с данными в России и не могут найти данные портала федерального портала data.gov.ru поскольку он недоступен напомню что у нас есть полная архивная копия данных собранное на 2 февраля 2022 года [1]. 13ГБ архив и 29ГБ после распаковки. Не бог весть какие ценные там данные, но могут быть полезны тем кому они могут быть полезны.

Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202

#opendata #data #datagovru #russia

hubofdata.ru

Архив данных портала открытых данных РФ data.gov.ru на 2 февраля 2022 г - Хаб открытых данных

Слепок всех данных с портала data.gov.ru на 2 февраля 2022 г.
Включает все файлы данных опубликованных на портале
Объём данных после распаковки 29 ГБ.

4.5K viewsIvan Begtin, 14:13

Ivan Begtin

Итальянское антикоррупционное агентство опубликовало свежие наборы данных о закупках органов власти в Италии [1] в форматах JSON и CSV. А также открыли дашборд с графиками и структурой расходов [2]. Данные в формате Open Contracting Data Standard [3] который постепенно всё больше и больше распространяется по миру, как минимум в Европе и Латинской Америке.
Кстати у Open Contracting есть гайд [4] по тому как работать с данными о госконтрактах с примерами.

Краткий обзор реестров конечных бенефициаров в странах Евросоюза Ultimate Beneficial Owners Registers in the EU 2022 [5], авторы из Польши и поэтому делают акцент на том что у них есть специальный реестр и приводят несколько графиков того как это в Европе устроено. Конечно, хотелось бы ту же информацию более структурированно, но и это полезно. Для тех кто не знает, реестры бенефициарных владельцев - это не реестры юридических лиц, это сведения именно о их конечных владельцах, через все структуры и "прокладки". В России требования раскрытия бенефициаров применяются только в части банковской системы, но не в виде реестра, а неструктурированно в виде схем в PDF предоставляемых банками.

Ссылки:
[1] https://dati.anticorruzione.it/opendata/organization/anticorruzione
[2] https://dati.anticorruzione.it/superset/dashboard/appalti/
[3] https://standard.open-contracting.org/latest/en/
[4] https://docs.google.com/document/d/1YXPDn_psBVPdeV6dE21TepLW7nEUUZEWDYZixIL51MQ/edit
[5] https://medium.com/transparent-data-eng/ultimate-beneficial-owners-registers-in-the-eu-2022-acc14a3057bc

#opendata #transparency #contracts #procurement #legalentities

Google Docs

Open Contracting use cases guide #final

2.4K viewsIvan Begtin, 05:31

Ivan Begtin

Вышла свежая версия Open Metadata 0.9.0 [1], каталога метаданных собирающего сведения о данных и процессах работы с ними.

Из интересного нового:
- много новых коннекторов к базам данных, теперь их 47 [2] поддерживают почти все популярные SQL базы данных
- поддерживают глоссарий терминов (смысловую привязку) к полям с данными
- дискуcсии к данным и отдельным полям
- контроль качества в виде стандартных метрик

В целом продукт быстро нагоняет другие каталоги данных такие как Amundsen или DataHub. Главным недостатком его остаётся отсутствие поддержки NoSQL баз данных таких как MongoDB и ElasticSearch

Ссылки:
[1] https://blog.open-metadata.org/openmetadata-0-9-0-release-8e7b93ab1882?gi=a94cfb8bcb3c
[2] https://blog.open-metadata.org/openmetadata-0-9-0-release-8e7b93ab1882#8f53
[3] https://blog.open-metadata.org/openmetadata-0-9-0-release-8e7b93ab1882#a91f

#data #metadata #opensource #datacatalogs

Medium

OpenMetadata 0.9.0 Release

OpenMetadata 0.9.0 Release — Data Collaboration via Activity Feeds and Conversation Threads, Data Quality and Tests, Glossary Support …

2.4K viewsIvan Begtin, 06:41

Ivan Begtin

Вышел AI Index Report 2022 [1] с оценкой развития ИИ по странам. Отчет большой, более 230 страниц, а также к нему много сопутствующих материалов. Россия там тоже упоминается, как именно рассказывать не буду, вся эта тема не про сравнение стран, а про развитие и эффективность регулирования.

Честно скажу, сравнивать развитие ИИ в России с любой другой страной я бы не стал, поскольку режим изоляции/самоизоляции науки в России сейчас будет крайне высок. Мониторить надо отток специалистов, если ещё не все уехали

Ссылки:
[1] https://aiindex.stanford.edu/report/

#ai #reports

2.2K viewsIvan Begtin, 08:48

Ivan Begtin

В рубрике интересных инструментов по работе с данными ploomber ("сантехник") [1] движок на Python по работе с трубами данных. Главное достоинство - работа внутри notebooks (тетрадок) и примеры такой работы [2]. В январе 2022 года авторы присоединились к Y Combinator [3], так что почти наверняка продукт будет развиваться в сторону связки: бесплатный open source + платный cloud.

У проекта четкий акцент на интеграцию с инструментами для data science, так что может и через какое-то время он нарастит популярность.

Ссылки:
[1] https://github.com/ploomber/ploomber
[2] https://ploomber.io/
[3] https://ploomber.io/blog/yc/

#datascience #opensource #data #datatools

GitHub

GitHub - ploomber/ploomber: The fastest ⚡️ way to build data pipelines. Develop iteratively, deploy anywhere. ☁️

The fastest ⚡️ way to build data pipelines. Develop iteratively, deploy anywhere. ☁️ - ploomber/ploomber

2.2K viewsIvan Begtin, 11:30

Ivan Begtin

Forwarded from Национальный цифровой архив

Для тех кто думает о сохранении материалов с Coub.com, в репозиторий coub-archival-campaign [1] на Github выложены данные собранные через API Coub.com, это по 5000 роликов по всем категориям и доступные ролики тематически собранные в группы Hot и Featured. Все данные собраны с помощью утилиты APIBackuper [2] выгружающей запросы к API в формате JSON lines. Из этих файлов можно простым способом выгрузить списки роликов на выгрузку.

Сейчас проведена архивация роликов из разделов Hot. Далее запланирована выгрузка роликов по другим категориям и выгрузка списков лучших Coub'ов по годам.

Большой помощью будет если кто-то поможет:
a) Выгрузить списки лучших роликов из разделов Best https://coub.com/best/2021, https://coub.com/best/2020 и тд. в форматах JSONL по аналогии с данными выше
b) Поможет выгрузить Coub'ы по категориям или темам. Для архивации через несколько дней мы организуем сервер куда можно будет ролики залить и также их можно загружать в Интернет Архив archive.org, в раздел Community Video. Это возможно после создания аккаунта на сайте Интернет архива.

Ссылки:
[1] https://github.com/ruarxive/coub-archival-campaign
[2] https://github.com/ruarxive/apibackuper

#opendata #coub #archives #api

Coub

Best coubs of 2021

Watch the year's top videos! Selected by our community and Coub editorial team

2.0K viewsIvan Begtin, 12:57

Ivan Begtin

Полезное чтение про открытые данные

Открытый код эстонского портала открытых данных [1] [2]. Портал совместим со стандартом DCAT, разделен на компоненты код каждого из которых открыт. Всего 880 наборов данных. Всегда остаётся вопрос - зачем делать свой каталог/портал открытых данных когда есть несколько коммерческих и открытых продуктов? Но, видимо есть причина.

В ЕС анонсировали появление портала раскрытия информации о финансировании европейских проектов Kohesio.eu [4] на базе открытого кода Wikibase. Акцент там на том что это проект на открытых данных, но скорее это всё же проект по визуализации данных, датасеты там скачать нельзя, хотя недокументированное API наверняка есть. Скорее данные будут выкладывать на портале данных ЕС.

Интересные наборы данных
- набор данных твитов по теме COVID-19 [4], более 12 GB архив в сжатом виде
- набор данных для распознавания деревьев по их коре [5] для десяти видов деревьев встречающихся в умеренном климате. Небольшого объёма, десятки килобайт
- Europeana Sounds набор данных музыки и иных аудиозаписей из проекта агрегации культуры в Европе - Europeana [6] всего 21MB CSV файл с жанрами аудиозаписей

Ссылки:
[1] https://git.mkm.ee/avaandmete-portaal
[2] https://avaandmed.eesti.ee
[3] https://tech-news.wikimedia.de/en/2022/03/17/kohesio-eu-european-commission-goes-open-source/
[4] https://zenodo.org/record/6350198
[5] https://data.mendeley.com/datasets/pwfxgzz5fj/2
[6] https://zenodo.org/record/5536016

#opendata #datasets #opensource #dataportals

2.2K viewsIvan Begtin, 04:01

Ivan Begtin

Я довольно давно не писал про коммерческие продукты которые мы делаем. Какие-то из них на слуху, какие-то не очень, но рассказать есть о чём. В этот раз немного про архитектуру работы с данными и технические особенности продуктов на данных.
—
Вот сейчас мы закончили переезд нашего каталога данных Datacrafter (data.apicrafter.ru) на новый сервер. Он снова доступен и должен работать значительно быстрее. А также продолжаем миграцию основных наших продуктов API к базам данных APICrafter (apicrafter.ru), по итогам они тоже будут быстрее чем ранее.

Это продукты про предоставление доступа к API с данными, а в последние несколько месяцев прошлого года я лично был погружен в перестройку его из продукта по продаже доступа к данным, в технологический продукт помогающий публиковать свои данные. Так сложилось что изначально DataCrafter создавался как моно-продукт с унаследованным кодом включавшем сбор, регистрацию и визуализацию данных с сильной заточкой под обработку больших бэтчей, опубликованных датасетов открытых данных. Внутри него много функций и упрощённых операций которые позволяют, например, огромный XML файлы быстро превратить в базу MongoDB, создать схему данных, автодокументировать всё что только возможно и опубликовать базу данных как API.

В итоге получилась хорошая, но не гибкая штука, с унаследованным кодом от которого ряд ограничений:
- описание источников данных идёт в коде на Python вместо конфигурационных файлов YAML как это делается в Meltano, dbt, soda, ploomber и других инструментах
- работа с метаданными "размазана" по компонентам, вместо концентрации только в реестре.
- обработка больших файлов сейчас не осуществляется параллельно, хотя это точно нужно для обработки слепков данных от нескольких гигабайт.
- компоненты не до конца разделены в отдельные продукты, пока полноценно отделен только apicrafter/metacrafter с помощью которого идёт классификация полей данных. А должно быть четкое деление на сборщик, регистратор данных, регистратор схем, фронт каталога, фронт управления (админка) и тд. но это же усложняет работу с данными, довольно сильно.
- архитектура не предусматривает модели плагинов для расширения отдельных блоков, например, сейчас в качестве адресата данных используется MongoDB, хотя некоторые данные могли бы загружаться и в другие NoSQL базы и в SQL базы поддерживающие JSON объекты
- для некоторых задач анализа структуры данных можно и нужно использовать нейросети, но пока это задача в не первая в списке

В итоге технически - это система работы с NoSQL данными, в современном стеке данных таких сейчас нет, все "танцуют" вокруг SQL во всех вариациях.

И почти всё это может быть переведено в открытый код + облачный сервис. А DataCrafter сейчас это эксперимент работающий на прототипе этой платформы.

Под такую платформу я и искал и ищу инвестиции на то чтобы её завершить и довести до продуктового состояния, а пока продолжаем наполнять наш каталог большими объёмами интересных данных;)

#opendata #datatools #datacatalogs #datarchitecture

apicrafter.ru

API Crafter

2.3K viewsIvan Begtin, 05:07

Ivan Begtin

Весьма познавательное интервью [1] с George Fraser, сооснователем Fivetran, стартапа и продукта по сбору данных из многочисленных публичных источников/API и тд. В интервью он говорит про SQL, открытый код и революцию которую в это всё принесло появление dbt как продукта позволяющего создавать программные библиотеки для работы с SQL кодом.

Я уже несколько раз ранее писал что dbt стремительно набирает популярность, а создатели этого продукта уже привлекли огромные венчурные инвестиции.
При том что их облачный продукт для России уже малоактуален, а вот open source версия более чем востребована. В каком-то смысле это уникальный ренессанс работы с данными с помощью SQL, никем не ожидавшийся ещё несколько лет назад.

Ссылки:
[1] https://future.a16z.com/sql-needs-software-libraries/

#data #sql #dbt #articles #reading

Future

Why SQL Needs Software Libraries

Fivetran CEO George Fraser discusses the lack of software libraries for SQL, and how their emergence could change the nature of data analysis.

2.3K viewsIvan Begtin, 17:04

Ivan Begtin

Опять же слегка отвлекаясь от обезличенного новостного потока, сформулирую несколько мыслей тезисами о происходящем которые постараюсь развить в полноценные тексты в будущем:
1. Один из больших рисков сейчас в том что кроме блокировки многих русскоязычных/российских онлайн ресурсов, Роскомнадзор может применять процедуры вроде разделегирования доменов или давления на редакции СМИ/организаций и тогда сайты с редакциями в России или в зоне .ru могут достаточно быстро исчезнуть.
2. Я так понимаю что никто до сих пор не измерял насколько большой урон по российской/русской культуре сейчас наносится и как много цифрового культурного наследия исчезает. Государственных архивов всего этого нет и не планируется, частные архивы охватят далеко не всё.
3. Интересна и важна судьба русского языка в мире. Если всё будет продолжаться как продолжается, то его начнут убирать из официальных языков структур ООН и других межгосударственных образований. Не сразу, но постепенно. Впрочем не та тема где хочется заниматься "анализом на диване".
4. Что в итоге будет с ИТ рынком в России ? Резкий рост предложений на рынке и падение доходов у ИТшников которые работали ранее за USD/EUR на зарубежные компании и не могут уехать? Или наоборот ещё более острый дефицит в виду массовости отъезда?
5. В моей профессиональной работе санкции - это большие ограничения. В первую очередь в том что исчезает возможность использовать продукты и сервисы к которым нужен доступ и исчезают экосистемы для сбора данных и интеграции. Российский рынок - это забыть про амбиции, международный рынок невозможен изнутри страны.
6. В не-мирное время открытость разрушается. Почти все открытые данные можно отнести к критически значимым. Но меньше открытости, меньше доверия, хуже принятие решений, хуже аналитика, разрушение внутреннего рынка для сервисных ИТ и информационных компаний. Я пока не могу представить, ни масштаб, ни последствий, ни формы как это будет происходить.

3.2K viewsIvan Begtin, edited 17:58

Ivan Begtin

Продолжая рассуждения о том как устроена работа с данными - об отличиях в работе с данными в корпоративном секторе и данными публикуемыми госорганами, о том в чем заключаются ключевые отличия. Текст не претендует на полноту, скорее заготовка к большому тексту по той же теме.

Основное что важно понимать в интеграции государственных и корпоративных данных - это инертность обратной связи. При работе с корпоративными данными со многими источниками данных можно договориться, особенно если этот источник не супер-мега дата-корпорация, а частный поставщик данных за деньги. А вот случае государства даже если есть обратная связь то какие-либо изменения происходят очень долго, чаще всего проще найти альтернативные способы работы с данными чем их дождаться. Иначе говоря почти любой бизнес бизнес более клиентоориентирован чем госорганы.

Итак, государство через органы власти и разного рода учреждения собирает и кое-где предоставляет данные. Иногда за деньги, часто бесплатно, но во всех случаях это происходит по правилам которые задают сами госорганы, а не их потребители данных. Раскрываемые данные можно разделить на несколько категорий, по способу их предоставления:
- слепки данных/наборы данных ("батчи") - наборы данных выложенные большими кусками, например, XML файлами в несколько гигабайт каждый в которых содержатся все данные в этом наборе данных
- документированные API - редки, содержат описание, как правило не в привычном формате вроде OpenAPI, а в виде PDF/DOC документа с описанием всего текстом по ГОСТу или близко к ГОСТу
- недокументированные API - наиболее распространены, есть почти на любом современном государственном ресурсе. К ним можно подключаться, выгружать данные, но нет никакой гарантии что всё это не слетит при следующем обновлении их системы. Документация отсутствует в принципе.
- API в режиме запрос-ответ - когда доступа к данным в чистом виде нет, но можно запросить сведения по конкретному запросу и получить данные только по нему
- неструктурированные данные - всё то что массово публикуется на сайтах в виде HTML/PDF/DOC и реже Excel файлов. Требует навыков извлечения и распознавания этих данных разными способами. Это не так сложно, но задаёт определенный "порог входа" при доступе к данным.

Более всего неструктурированных данных, далее много данных в виде батчей опубликовано на порталах открытых данных, очень много недокументированных API, значительно меньше документированных.

Всё это отличается от корпоративного сектора и довольно сильно. В корпоративном секторе, там где есть онлайн сервисы и цифровые онлайн продукты акцент идёт на API и доступность данных через API. Какие-то сервисы дают API за деньги (почти все API распознавания образов например), какие-то бесплатно для удержания в своей экосистеме (Github, Яндекс.Метрика и др.).

Поэтому практически все сервисы интеграции корпоративных данных в облаке построены вокруг сбора данных из API и прямого подключения к базам данных. Базы данных, как правило собственные, API, как правило, чужие и к ним пишутся многочисленные коннекторы вроде стандарта Singer [1] и тех что собраны в каталоге коннекторов Meltano [2]. Но в целом, и у других инструментов тот же подход, в приоритете подключение к сервисам предоставляющим API.

Отсюда возникает ситуация когда инструменты вроде Meltano, Airbyte, Singer, Fivetran и др. очень хорошо заточены под выгрузку на регулярной основе, вплоть до реального времени, из API, и почти не умеют и не адаптированы про то о чём я писал выше - работу с батчами, неструктурированными данными и недокументированным API.

Когда я начинал только писать движок в Datacrafter'е про сбор данных - он был как раз про ситуации когда API недокументировано, описания данных нет, файлы лежат батчами или надо из HTML страниц создавать наборы данных.

Ссылки:
[1] https://www.singer.io
[2] https://hub.meltano.com

#data #datatools #opendata #apicrafter #datacrafter

Singer

Singer | Open Source ETL

Simple, Composable, Open Source ETL

2.2K viewsIvan Begtin, 06:24

Ivan Begtin

На сайте ЦБ РФ из открытого доступа исчезли сведения о лицах, под контролем либо значительным влиянием которых находится кредитная организация. Например, это можно увидеть на странице Сбербанка [1] и в её копии в Интернет архиве на 11 января 2022 г. [2].

Причём были удалены не только разделы и ссылки на файлы, но и сами файлы. Частично они теперь остались в Интернет архиве, желающие легко их найдут

У меня, также, есть слепок данных сайта ЦБ РФ на 21.12.2021, там есть все эти документы. Мы как раз готовили эти данные для загрузки в Datacrafter, так что со временем они там появятся как наборы данных и API.

А сайт ЦБ надо, похоже, проверять, не исчезли ли что-то ещё.

Ссылки:
[1] http://www.cbr.ru/banking_sector/credit/coinfo/?id=350000004
[2] https://web.archive.org/web/20220111085025/http://www.cbr.ru/banking_sector/credit/coinfo/?id=350000004

#opendata #transparency #cbrf

3.6K viewsIvan Begtin, 09:48

About

Blog

Apps

Platform