Ivan Begtin
8.01K subscribers
1.75K photos
3 videos
101 files
4.47K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Я постепенно буду возвращаться к регулярным публикациям в канале про то о чём писал раньше - данных, технологиях, государстве. Насколько возможно буду писать про открытость, хотя и места у неё теперь многократно меньше в "текущей политической ситуации".

Из общественной деятельности у меня не вызывает сомнений в востребованности и актуальности только цифровая архивация, о которой я буду писать больше здесь и в телеграм-канале @ruarxive. Цифровые архивы актуальны как никогда.

Гораздо сложнее будет рассказывать о зарубежных стартапах и коммерческих продуктах, поскольку я писал о них изучая рыночные ниши в Modern data stack, новом подходе к архитектуре приложений на данных, а сейчас, если делать дата-продукты в России то это совсем другая экосистема, другие продукты да и многое совсем другое.

Даже если делать сильный акцент на продуктах с открытым кодом - это, всё равно, совсем всё по другому.

#blogging #data
Как устроены общественные проекты по цифровой архивации в мире

В мире существует много инициатив по цифровой архивации, это могут быть целевые проекты по архивации данных и кода, библиотек сканов старинных книг и многое другое. Чаще всего такие проекты инициируются государством или являются проектами госархивов и национальных библиотек. Но есть множество проектов которые созданы волонтерами для решения срочных задач, вот некоторые из них.

Climate Mirror (http://climatemirror.org/)
Зеркало данных о изменении климата. Данные собирались сообществом после прихода к власти Трампа и анонса удаления данных с государственных сайтов в США.

DataRefuge (https://www.datarefuge.org/)
Проект по сбору данных о изменении климата и состоянию окружающей среды. Также возник после действий администраций Трампа, включает архивацию данных, каталог, хакатоны по сбору данных и многое другое

End of term web archive (http://eotarchive.cdlib.org/)

Проект The End of Term Web Archive создан в Калифорнийской цифровой библиотеке при Университете Калифорнии и включает слепки всех государственных сайтов США за каждый выборный цикл: 2008, 2013, 2017 годов.

SUCHO (https://sucho.org)
Свежий проект по архивации объектов цифрового культурного наследия Украины, создан участникам из нескольких университетов в США, работает как волонтерский проект.

А также, конечно, важный проект ArchiveTeam (https://archiveteam.org) сообщества архивистов-активистов срочно архивирующих сайты, в первую очередь, крупнейших закрываемых проектов, например, соцсетей или сервисов коротких ссылок. Это особенно большой проект, о нем ещё напишу отдельно.

Важно то что все эти проекты основаны на открытости результатов, архивы не закрыты, не спрятаны, не складированы в неизвестном месте, а доступны для выгрузки.

#ruarxive #archives #webarchives #digitalpreservation
Хорошая краткая заметка о том как использовать недокументированные API - How to use undocumented web APIs [1] в данном случае про то как это делается с помощью Chrome developer tools и curl. Довольно коротко и неплохо. Я довольно много писал ранее про недокументированные API государственных информационных систем, но и не только. Можно делать это разными способами, не только Chrome + curl, но и Firefox + httpie + Postman и многими другими инструментами. Важнее то что недокументированного API ну очень много.

Ben Stancil пишет про покупку сервиса Streamlit за 800 миллионов USD компанией Snowflake [2]. Одно из крупных поглощений на рынке данных. Особенность Streamlit в том что это сервис по созданию data apps (приложений на данных) и тут важно, конечно, помнить что Streamlit - это open source продукт и весьма успешный.

В блоге Bit.io заметка про доступ к их сервису через шаблон Jupyter Notebook [3] хорошая идея, надо бы аналогичное нам в Datacrafter. Jupyter Notebook всё таки стандарт де-факто для data science.

На сайте The Open Data Institute свежее исследование Measuring the impact of data institutions [4] о том как институты развития по помогают развитию рынков и сообществ данных. Неплохо подобранные кейсы, в основном из Великобритании.

P.S. Как я писал ранее, я постепенно буду возвращаться к регулярной ленте заметок и новостей по работе с данными. Невозможно забрасывать профессиональную деятельность даже несмотря на творящийся апокалипсис.

Ссылки:
[1] https://jvns.ca/blog/2022/03/10/how-to-use-undocumented-web-apis/
[2] https://benn.substack.com/p/the-data-app-store?s=r
[3] https://innerjoin.bit.io/automate-jupyter-notebooks-on-github-9d988ecf96a6
[4] https://theodi.org/article/measuring-the-impact-of-data-institutions-report/

#opendata #opensource #startups
A different way to "bundle" Data Platforms [1] заметка от Petr Janda о другом подходе к категоризации современного стека данных. К существующим категориям Ingestion, Storage, Transformation, Virtualization, он добавляет кросс-категории перекрывающие эти: Provisioning, Scheduling, Access Management, Logging, Alerting.
Классификация вполне полезная, покрывающая многие задачи решаемые этими инструментами и то какие возможности ожидаются от продуктов.

Команда продукта Atlan по каталогизации данных привлекла $50M инвестиций в его развитие. По многим критериям это один из наиболее интересных продуктов по data lineage, отслеживания происхождения данных и каталогизации данных и метаданных [2].

Canner, тайваньский продукт построения data mesh, получил $3.5M инвестиций [3]. Они обещают, по сути, единую платформу с интеграцией с десятком видов хранилищ данных и с инструментами для потребления данных. Странно что при этом инвестиции невелики, впрочем это серия A инвестиций. Плюс вся документация на китайском языке [4]. Общедоступного продукта у них нет, только по запросу. Но документация весьма подробна.

Ссылки:
[1] https://petrjanda.substack.com/p/data-platform-bundle
[2] https://humansofdata.atlan.com/2022/03/atlan-raises-series-b/
[3] https://cannerdata.com/product
[4] https://docs.cannerdata.com/

#data #startups #moderndatastack
Как обещал я время от времени буду писать про общественный проект который сейчас даже более остроактуален чем просто работа над открытыми данными
Новости проекта на начало недели

Начата архивация издания Бумага (paperpaper.ru) в связи с его блокировкой в России и возможной приостановкой деятельности в будущем, поскольку как минимум домен издания находится в зоне .ru и может быть разделегирован.

Идёт перенос медиа-архива записей на Эхе Москвы в облачное хранилище и дополнительных мест для его хранения. Это порядка 465GB файлов mp3 около 20тысяч записей передач. К сожалению сохранить удалось не всё.

Идет работа над обновлением сайта проекта и созданием интерфейса над последними созданными архивами. Вначале хотя бы в самом базовом виде, так чтобы можно было посмотреть архивные материалы по коллекциям и скачать файлы архивов.
Ранее собранные архивы можно посмотреть в таблице "Планы архивации" на Airtable.


Если Вы знаете сайты и иные цифровые ресурсы которые могут исчезнуть в ближайшее время, напишите в чате @ruarxhivechat или заполните форму.
Напомню что ключевые критерии сохранения сайта/цифрового ресурса в нашем архиве:
1) Цифровой ресурс представляет общественную ценность даже для небольшой группы людей
2) Цифровой ресурс имеет существенные риски исчезновения в ближайшее время, от дней до месяцев.

#ruarxive #news #archives
Я ранее писал неоднократно что с момента моего ухода из проектов Счетной палаты РФ я занимаюсь проектом Datacrafter (data.apicrafter.ru) - это крупнейший каталог данных с технологиями идентификации данных, обработки данных, их сбора, построения схем и ещё многое другое. А также проектом APICrafter через который мы предоставляем API к крупным базам данных таким как госконтракты, госзакупки, реестры юридических лиц и многое другое.

Изначально продукт создавался как сервисные API, постепенно мы его перестраивали в платформу для работы с данными.

Конечно, текущий гуманитарный апокалипсис ему также сильно повредил. Проект делался под привлечение инвестиций, а поиск инвестиций в проекты на данных в России теперь сильно усложнены. Но проект продолжается, в этом волноваться не стоит. Возможно он частично перейдет в открытый код.

А пока в ближайшее время мы переносим проект на другой хостинг, поэтому временно не будет работать обновление данных и в какие-то дни он может быть временно недоступен. Как только миграция на новый хостинг завершится, мы вернемся к регулярному обновлению данных и продолжим загрузку новых данных которых тоже много накопилось.

Больше новостей проекта в отдельном телеграм канале @apicrafter

#data #opendata #apicrafter
Прокуратура блокирует сайты быстрее чем я их архивирую (с)

А если серьёзно, то риски исчезновения цифрового контента в мире существовали всегда. Раньше главным "злодеем" была компания Yahoo, которые безжалостно закрывали огромные проекты вроде хостинга Geocites и многого другого. В чистом виде были корпоративные злодеи. Но они, как бы, распоряжались собственными проектами. И закрытие проектов цифровыми корпорациями раньше было основной причиной смерти контента, наряду с разделегированием доменов, сломанными дисками, взломом хакеров, смертью или недееспособностью создателей личных сайтов и многого другого.

Ещё очень часто сайты/контент исчезали при ликвидации организаций. Я помню как пару лет следил за тем как ЦБ ликвидирует банки. После анонса ликвидации сайта банка исчезал где-то через 2-4 часа. В 9:00 пройдет новость, а в 11:00 вместо сайта уже заглушка. Кто-то скажет что ну и что такого, но это просто пример. Эхо Москвы тоже пример одномоментного исчезновения огромного объёма контента.

А сейчас в рисках для российских медиа появилась блокировка Роскомнадзора - это риск исчезновения из сети, но есть нюансы. Издания у которых домены, адреса вне зон .ru, .рф, .su, нет рисков что их домены могут быть разделегированы. У изданий у которых нет юр лиц в России нет рисков что против этих юр. лиц могут применяться административные меры воздействия. В результате когда сейчас Роскомнадзор блокирует сайты в зоне .ru или сайты относящиеся к российским юр. лицам - риски исчезновения этих сайтов усиливаются.

Мне, как цифровому архивисту, это совершенно не нравится и, конечно, архивировать такие ресурсы надо по повышенному приоритету.

А ещё одна причина исчезновения цифрового контента сейчас - это невозможность владельцами оплачивать их хостинг в евро или долларах. Трудно пока предсказать сколько всего будет исчезать через 1-2 месяца по этой причине.

Если Вы знаете цифровые ресурсы под угрозой исчезновения и имеющие общественную ценность - пишите мне или в чат @ruarxivechat

#digitalpreservation #archives #webarchives
В последней версии Firefox 98.0.1 удалены поисковые системы Yandex и Mail.ru [1]. Это наверняка можно поменять в конфигурационных файлах, но по умолчанию их нет.

Хотя там ещё остались Ozon.ru и Price.ru, но надолго ли? Судьба российских технологических компаний и продуктов в западных экосистемах это теперь очень большой и болезненный вопрос.

Ссылки:
[1] https://www.mozilla.org/en-US/firefox/98.0.1/releasenotes/

#russia #digital
Правительство тут регулярно вводит те или иные меры экономической поддержки в России. Иногда читаешь и думаешь, вот люди, вот молодцы, вот заботятся наконец-то о нас простых предпринимателях, но, честно говоря, все этим меры совсем не кажутся чем-то реально помогающим.

Я не могу не перечислить то что делать надо и надо было ещё очень давно, вне зависимости от степени экономической катастрофы в России:
1. Резкое сокращение госаппарата
В 2-3 раза начиная с вице-премьеров, министров и их заместителей. Как минимум необходимо:
- сократить число вице премьеров до 2-х. Сейчас их 10
- сократить число ФОИВов в 2 раза. Сейчас их более 60, а достаточно будет 20-30
- сократить число заместителей министров до 2-х. Сейчас кое-где их 9 [1], а кое-где 7 [2]
и так далее.

2. Бессрочная отмена всех контрольных и надзорных мероприятий
Не на 1-2-3 года, а бессрочно отмена вместе с ликвидацией надзорных и контрольных органов. Какое-то время будут проблемы и много жалоб на нарушения, и там где их будет много там и восстанавливать госнадзор. С нуля и только там где это будет остро необходимо.

Не буду объяснять почему эти меры не будут приняты. И так всё понятно.

У меня ещё много разных идей с тем что можно сделать чтобы выправить текущую ситуацию, но большая их часть ограничена свежими и несвежими федеральными законами о-том-о-чём-нельзя-говорить.

Ссылки:
[1] http://government.ru/gov/persons/#vice-premiers
[2] https://minfin.gov.ru/ru/ministry/
[3] https://minstroyrf.gov.ru/about/structure/

#economy #sanctions
Анонсировано закрытие сервиса coub.com с 1 апреля 2022 года [1]. Coub это развлекательный сервис, из зацикленных отрывков видео с наложенными на них музыкальными дорожками. С одной стороны это развлекательный контент, а с другой стороны.

Для Coub существует несколько инструментов выгрузки контента, один из самых продвинутых - это CoubDownloader [2], а также есть какое-то количество других на Github.

Мы сейчас запустили архивацию наиболее популярных Coub'ов, из категории "Hot", постараемся сохранить и другие по возможности, но в первую очередь оцениваем ожидаемые объёмы требующие сохранения. Также пока до конца неясен масштаб общественной ценности этого контента, в ближайшее время делать такую оценку.

Если у Вас есть списки Coub'ов имеющих общественную ценность, присылайте их в чат к каналу https://t.me/ruarxivechat.

А также если Вы планируете сохранить какие-либо coub'ы по категориям самостоятельно, пожалуйста, поделитесь итоговыми результатами.

Ссылки:
[1] https://coub.com
[2] https://github.com/HelpSeeker/CoubDownloader

#archives #videoarchive #coub #webarchive
Важное и про данные и про необходимость заменять коммерческие продукты по работе с данными на их аналоги с открытым кодом в заметке The Rise of Open Source Challengers [1]. Акцент именно на продукты на данных и том как открытый код заменяет коммерческие продукты в принципе. Такой тренд действительно есть.

Оказывается Runa Capital ещё пару месяцев назад подготовили подробный список инструментов замены коммерческих корпоративных продуктов на open source [2]. Список полезный тем кто меняет корпоративный стек технологий прямо сейчас и в срочном порядке.

Обзор DagsHub [3] аналога Github для ML/AI, Data Science. Пока на самом раннем старте, но сделан максимально Github-like. По ощущениям может иметь перспективу в будущем как Github для данных тоже. Основан на Git и на DVC (система контроля версия для данных) [4] Применение в России весьма туманно, оплата там только в USD по картам, но это сейчас будет касаться всех стартапов без исключения.

Краткий и полезный обзор о том как собирать данные Data Collection is Hard. You Should Try It. [5] с рефлексией автора о том как правильно сбор данных организовывать. В ответ на другую заметку другого автора о проблемах сбора данных [6]

Ссылки:
[1] https://rajko-rad.medium.com/the-rise-of-open-source-challengers-4a3d93932425
[2] https://github.com/RunaCapital/awesome-oss-alternatives
[3] https://towardsdatascience.com/dagshub-a-github-supplement-for-data-scientists-and-ml-engineers-9ecaf49cc505
[4] https://dagshub.com/
[5] https://www.georgeho.org/data-collection-is-hard/
[6] https://counting.substack.com/p/go-collect-some-and-data?s=r

#startups #data #opensource
Мне как и многим задают вопросы о том что да как, я не могу отвечать за других, отвечу за себя, чуть разбавив личным профессиональное:
1. Я не планирую в ближайшее время уезжать из России, а если и буду, то только по медицинским показаниям в климатическую зону где нет берёз на которые у меня устойчивая аллергия, но не слишком жарко. Планы у меня такие были давно, но скорее про то чтобы жить там какую-то часть времени в некоторые сезоны. Кроме того в моих предках есть амшенские армяне и Турция и Армения для меня две давние прародины, наряду с Россией, конечно.

2. Архивация деятельность не только личная, но и профессиональная. Иногда я Чувствую себя весьма странно, так как архивирую то что воо\бще никак не вяжется с моими интересами/воззрениями, но то что несомненно является частью современной цифровой культуры. Но это скорее возрастное когда форматы вроде Coub'ов воспринимаются сложнее. Тем не менее цифровая архивация - самая актуальная некоммерческая деятельность из всего чем я лично и наша команда занималась много лет.

3. Я не могу не напомнить что у нас крутая команда с большим опытом работы с открытыми данными и данными вообще. Мы делаем от технических проектов до исследований в этой области. Особенно много знаем о том где какие данные есть и как с ними работать. А в текущей ситуации расширяем пул заказчиков и продуктов, так что пишите если есть интересные задачи на данных и с данными связанные.

#thoughts #team #archives
Новости проекта на 17 марта 2022 года

- Начата работа над базой знаний, вскоре анонсируем репозиторий на Github к наполнению которого можно будет присоединится.
- Мы продолжаем работать над обновлённым сайтом, пока самые актуальные новости будут в этом телеграм канале
- Идёт работа по загрузке копии материалов Эха Москвы в Интернет Архив, она займет ещё какое-то время поскольку параллельно идет архивация многих цифровых ресурсов в зоне риска.

Архивация сайтов заблокированных ресурсов

Продолжается архивация сайтов издания: Colta, Tjournal, The Insider, Бумага. Начата архивация Костромского Форума Костромских джедаев (заблокирован Роскомнадзором, закрывается). В общей сложности собрано 50GB материалов, архивация продолжается.

Сделана копия сайта издания DOXA, готовится к загрузке в общедоступное хранилище.

Архивация Coub
- отправлены письма владельцам сайтам с просьбой передать в архив накопленные у них данные. Если у Вас есть прямые контакты владельцев и Вы можете им написать/спросить, это оказало бы большую помощь.
- выгружены 1952 ролика из раздела Hot, общий объём 55GB
- идёт выгрузка данных с сайта через общедоступное API по каждой категории. Это до 5000 роликов в категории. Следующим шагом будет сбор данных о всех роликах признанных лучшими
- идет подбор дополнительного хранилища для хранения больших объёмов данных из Coub
- запланирована архивация всех роликов которые можно будет успеть сохранить до конца марта.

Если Вы знаете что-то о сайтах и иных цифровых ресурсах которые могут исчезнуть в ближайшее время, пишите нам в чате, поставим их на первоочередную загрузку. Также мы готовы принимать любые в дар любые жесткие диски, системы сохранения, архивы с данными на любых цифровых носителях.


#digitalpreservation #archives #news
В рубрике интересные продукты с открытым кодом Grist, открытая альтернатива Airtable, инструмент работы с таблицами [1].
Функции очень похожи:
- быстро и с нуля построить базы данных (аналог Access, только в вебе)
- гибкое управление правами доступа к данным
- визуализировать данные, строить отчеты
- делиться данными с другими

Ну и конечно замена Excel во всём что касается редактирования таблиц. Авторы также подготовили обзора сравнений в Airtable [2] и кроме открытого кода предлагают облачный сервис GetGrist [3] где можно его потестить. Конечно из России использовать облако затруднительно, оплата там в долларах США.

Из больших плюсов продукта поддержка формул на Python с полной поддержкой Python’s standard library [4]

Ссылки:
[1] https://github.com/gristlabs/grist-core
[2] https://www.getgrist.com/blog/grist-v-airtable/
[3] https://www.getgrist.com/
[4] https://support.getgrist.com/formulas/#python

#data #tools #spreadsheets #opensource
Для тех кто работал/работает с данными в России и не могут найти данные портала федерального портала data.gov.ru поскольку он недоступен напомню что у нас есть полная архивная копия данных собранное на 2 февраля 2022 года [1]. 13ГБ архив и 29ГБ после распаковки. Не бог весть какие ценные там данные, но могут быть полезны тем кому они могут быть полезны.

Ссылки:
[1] https://hubofdata.ru/dataset/datagovru-20220202

#opendata #data #datagovru #russia
Итальянское антикоррупционное агентство опубликовало свежие наборы данных о закупках органов власти в Италии [1] в форматах JSON и CSV. А также открыли дашборд с графиками и структурой расходов [2]. Данные в формате Open Contracting Data Standard [3] который постепенно всё больше и больше распространяется по миру, как минимум в Европе и Латинской Америке.
Кстати у Open Contracting есть гайд [4] по тому как работать с данными о госконтрактах с примерами.

Краткий обзор реестров конечных бенефициаров в странах Евросоюза Ultimate Beneficial Owners Registers in the EU 2022 [5], авторы из Польши и поэтому делают акцент на том что у них есть специальный реестр и приводят несколько графиков того как это в Европе устроено. Конечно, хотелось бы ту же информацию более структурированно, но и это полезно. Для тех кто не знает, реестры бенефициарных владельцев - это не реестры юридических лиц, это сведения именно о их конечных владельцах, через все структуры и "прокладки". В России требования раскрытия бенефициаров применяются только в части банковской системы, но не в виде реестра, а неструктурированно в виде схем в PDF предоставляемых банками.

Ссылки:
[1] https://dati.anticorruzione.it/opendata/organization/anticorruzione
[2] https://dati.anticorruzione.it/superset/dashboard/appalti/
[3] https://standard.open-contracting.org/latest/en/
[4] https://docs.google.com/document/d/1YXPDn_psBVPdeV6dE21TepLW7nEUUZEWDYZixIL51MQ/edit
[5] https://medium.com/transparent-data-eng/ultimate-beneficial-owners-registers-in-the-eu-2022-acc14a3057bc

#opendata #transparency #contracts #procurement #legalentities
Вышла свежая версия Open Metadata 0.9.0 [1], каталога метаданных собирающего сведения о данных и процессах работы с ними.

Из интересного нового:
- много новых коннекторов к базам данных, теперь их 47 [2] поддерживают почти все популярные SQL базы данных
- поддерживают глоссарий терминов (смысловую привязку) к полям с данными
- дискуcсии к данным и отдельным полям
- контроль качества в виде стандартных метрик

В целом продукт быстро нагоняет другие каталоги данных такие как Amundsen или DataHub. Главным недостатком его остаётся отсутствие поддержки NoSQL баз данных таких как MongoDB и ElasticSearch

Ссылки:
[1] https://blog.open-metadata.org/openmetadata-0-9-0-release-8e7b93ab1882?gi=a94cfb8bcb3c
[2] https://blog.open-metadata.org/openmetadata-0-9-0-release-8e7b93ab1882#8f53
[3] https://blog.open-metadata.org/openmetadata-0-9-0-release-8e7b93ab1882#a91f

#data #metadata #opensource #datacatalogs
Вышел AI Index Report 2022 [1] с оценкой развития ИИ по странам. Отчет большой, более 230 страниц, а также к нему много сопутствующих материалов. Россия там тоже упоминается, как именно рассказывать не буду, вся эта тема не про сравнение стран, а про развитие и эффективность регулирования.

Честно скажу, сравнивать развитие ИИ в России с любой другой страной я бы не стал, поскольку режим изоляции/самоизоляции науки в России сейчас будет крайне высок. Мониторить надо отток специалистов, если ещё не все уехали

Ссылки:
[1] https://aiindex.stanford.edu/report/

#ai #reports
В рубрике интересных инструментов по работе с данными ploomber ("сантехник") [1] движок на Python по работе с трубами данных. Главное достоинство - работа внутри notebooks (тетрадок) и примеры такой работы [2]. В январе 2022 года авторы присоединились к Y Combinator [3], так что почти наверняка продукт будет развиваться в сторону связки: бесплатный open source + платный cloud.

У проекта четкий акцент на интеграцию с инструментами для data science, так что может и через какое-то время он нарастит популярность.

Ссылки:
[1] https://github.com/ploomber/ploomber
[2] https://ploomber.io/
[3] https://ploomber.io/blog/yc/

#datascience #opensource #data #datatools