Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Продолжая рассуждения о том как устроена работа с данными - об отличиях в работе с данными в корпоративном секторе и данными публикуемыми госорганами, о том в чем заключаются ключевые отличия. Текст не претендует на полноту, скорее заготовка к большому тексту по той же теме.

Основное что важно понимать в интеграции государственных и корпоративных данных - это инертность обратной связи. При работе с корпоративными данными со многими источниками данных можно договориться, особенно если этот источник не супер-мега дата-корпорация, а частный поставщик данных за деньги. А вот случае государства даже если есть обратная связь то какие-либо изменения происходят очень долго, чаще всего проще найти альтернативные способы работы с данными чем их дождаться. Иначе говоря почти любой бизнес бизнес более клиентоориентирован чем госорганы.

Итак, государство через органы власти и разного рода учреждения собирает и кое-где предоставляет данные. Иногда за деньги, часто бесплатно, но во всех случаях это происходит по правилам которые задают сами госорганы, а не их потребители данных. Раскрываемые данные можно разделить на несколько категорий, по способу их предоставления:
- слепки данных/наборы данных ("батчи") - наборы данных выложенные большими кусками, например, XML файлами в несколько гигабайт каждый в которых содержатся все данные в этом наборе данных
- документированные API - редки, содержат описание, как правило не в привычном формате вроде OpenAPI, а в виде PDF/DOC документа с описанием всего текстом по ГОСТу или близко к ГОСТу
- недокументированные API - наиболее распространены, есть почти на любом современном государственном ресурсе. К ним можно подключаться, выгружать данные, но нет никакой гарантии что всё это не слетит при следующем обновлении их системы. Документация отсутствует в принципе.
- API в режиме запрос-ответ - когда доступа к данным в чистом виде нет, но можно запросить сведения по конкретному запросу и получить данные только по нему
- неструктурированные данные - всё то что массово публикуется на сайтах в виде HTML/PDF/DOC и реже Excel файлов. Требует навыков извлечения и распознавания этих данных разными способами. Это не так сложно, но задаёт определенный "порог входа" при доступе к данным.

Более всего неструктурированных данных, далее много данных в виде батчей опубликовано на порталах открытых данных, очень много недокументированных API, значительно меньше документированных.

Всё это отличается от корпоративного сектора и довольно сильно. В корпоративном секторе, там где есть онлайн сервисы и цифровые онлайн продукты акцент идёт на API и доступность данных через API. Какие-то сервисы дают API за деньги (почти все API распознавания образов например), какие-то бесплатно для удержания в своей экосистеме (Github, Яндекс.Метрика и др.).

Поэтому практически все сервисы интеграции корпоративных данных в облаке построены вокруг сбора данных из API и прямого подключения к базам данных. Базы данных, как правило собственные, API, как правило, чужие и к ним пишутся многочисленные коннекторы вроде стандарта Singer [1] и тех что собраны в каталоге коннекторов Meltano [2]. Но в целом, и у других инструментов тот же подход, в приоритете подключение к сервисам предоставляющим API.

Отсюда возникает ситуация когда инструменты вроде Meltano, Airbyte, Singer, Fivetran и др. очень хорошо заточены под выгрузку на регулярной основе, вплоть до реального времени, из API, и почти не умеют и не адаптированы про то о чём я писал выше - работу с батчами, неструктурированными данными и недокументированным API.

Когда я начинал только писать движок в Datacrafter'е про сбор данных - он был как раз про ситуации когда API недокументировано, описания данных нет, файлы лежат батчами или надо из HTML страниц создавать наборы данных.

Ссылки:
[1] https://www.singer.io
[2] https://hub.meltano.com

#data #datatools #opendata #apicrafter #datacrafter
На сайте ЦБ РФ из открытого доступа исчезли сведения о лицах, под контролем либо значительным влиянием которых находится кредитная организация. Например, это можно увидеть на странице Сбербанка [1] и в её копии в Интернет архиве на 11 января 2022 г. [2].

Причём были удалены не только разделы и ссылки на файлы, но и сами файлы. Частично они теперь остались в Интернет архиве, желающие легко их найдут

У меня, также, есть слепок данных сайта ЦБ РФ на 21.12.2021, там есть все эти документы. Мы как раз готовили эти данные для загрузки в Datacrafter, так что со временем они там появятся как наборы данных и API.

А сайт ЦБ надо, похоже, проверять, не исчезли ли что-то ещё.

Ссылки:
[1] http://www.cbr.ru/banking_sector/credit/coinfo/?id=350000004
[2] https://web.archive.org/web/20220111085025/http://www.cbr.ru/banking_sector/credit/coinfo/?id=350000004

#opendata #transparency #cbrf
А также продолжение хроники постепенного исчезновения и закрытия данных. С официального сайта Алросы (www.alrosa.ru) исчезли сведения о наблюдательном совете. Они есть в Интернет архиве на начало года, но с сайта они удалены.

Интересно как долго останутся публичными сайты раскрытия информации о публичных компаниях (ПАО) ? Ведь там есть дублирование всех этих сведений.

#transparency #opendata #wtf
Ivan Begtin pinned a photo
В блоге Spotify краткий пост о том как в компании команды переходят на систему управления потоками данных на базе Flyte [1], заменяя на него использовавшиеся ранее системы Luigi [2] и Flo [3]. В отличие от них Flyte [4] создавался с акцентом на задачи ML/Data science и с некоторыми особенностями которые отличают его от других движков.

1. Flyte построен на принципах что конфигурация это код. Вместо файлов YAML задачи описываются в коде на Python
2. Изначально разработан под расширение через код на Python
3. Автоматически отслеживает происхождение данных (data lineage)

И ещё много всего, продукт весьма интересный и, что немаловажно, простой в использовании.

А для тех кто ещё не определился на каком движке строить управление потоками данных, неплохая подборка в Awesome workflow engines [5]

Ссылки:
[1] https://engineering.atspotify.com/2022/03/why-we-switched-our-data-orchestration-service/
[2] https://github.com/spotify/luigi
[3] https://github.com/spotify/flo
[4] https://flyte.org/
[5] http://meirwah.github.io/awesome-workflow-engines/

#data #datatools #opensource #datapipelines
Как устроена веб-архивация в мире?

Веб-архивация - это один из видов цифровой архивации или архивации цифрового контента заключающаяся в том что архив ведет себя как поисковая система и с помощью специальной программы или набора программ называемых краулерами обходит страницы веб-сайта и сохраняет их содержимое, полностью, включая все связанные ресурсы, код Javascript, CSS и тд. или же частично сохраняя только содержимое. Веб архивы можно разделить на два подхода: ненаправленные и сфокусированные.

Ненаправленные веб архивы

Ненаправленные веб архивы ведут себя как поисковые системы эмулируя их максимально близко. Они имеют набор стартовых ссылок, а далее обходят сайты исходя из критерия числа ссылок на веб страницы. Самые известные ненаправленные архиваторы - это Common Crawl [1] и Wayback Machine [2]. Их достоинство - максимальная широта охвата, они обходят почти все известные и используемые сайты в интернете. Их недостаток - неполная глубина, они не собирают видео, аудио, сжатые файлы и далеко не все изображения.

Подобные архивы, также, практически всегда предоставляют API для получения данных и метаданных, с возможностью реконструкции исчезнувших сайтов.

Сфокусированные архивы

Кроме них существует множество инициатив по так называемой сфокусированной веб-архивации.
Самые известные:
- UKWA (UK Web Archive) [3] веб архив Великобритании совместная инициатива 6 национальных библиотек страны. Архивируют только сайты в зоне .uk и некоторые другие относящиеся напрямую к Великобритании.
- UK Government Web Archive [4] веб архив всех государственных сайтов Великобритании. Поддерживается Национальной службой архивов страны, обходит все сайты в зоне .gov.uk и ещё ряд сайтов по нескольку раз в сутки.
- Webarchiv Österreich [5] веб архив Австрии, охватывает все сайты домена .at и ещё ряда сайтов относящихся к Австрии. Поддерживается национальной библиотекой Австрии.
- Australian Web Archive [6] веб архив Австралии в рамках проекта Trove, Национальной библиотеки Австралии. Архивируют сайты по 18 категориям, не используют сплошную архивацию домена .au, но отбирают сайты по их культурной ценности

Проекты по веб архивации есть в большинстве развитых стран, как правило их создают службы национальных архивов или национальные библиотеки.

Подробнее о них можно узнать в статье в Википедии [7] где перечислены десятки подобных проектов по всему миру.

Кроме этих проектов существует ряд общественных и научных/исследовательских инициатив по архивации сайтов/данных по определенным темам; изменения климата, политические исследования, сохранение культурного наследия и т.д.

Все они возможны только при наличии технических возможностей которые для веб-архивов сопоставимы с крупными технологическими проектами. Архивы требуют больших объёмов хранения данных, хороших пропускных возможностей каналов архивации и инструментов предоставления результатов архивации гражданам.

В последние годы веб-архивация меняется, многие знания и данные уходят из веб'а в социальные сети, мобильные приложения и иные способы доступа недоступные классическим веб-краулерам. Веб-архивы оказываются неполны и недостаточны для охвата современных событий, а владельцы соцсетей всячески препятствуют сбору информации из их продуктов.

Ссылки:
[1] https://commoncrawl.org
[2] https://web.archive.org
[3] https://www.webarchive.org.uk/
[4] https://www.nationalarchives.gov.uk/webarchive/
[5] https://webarchiv.onb.ac.at/
[6] https://webarchive.nla.gov.au/collection
[7] https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives

#webarchival #digitalpreservation
Полезное чтение про modern data stack

- сравнение продуктов построения озер данных: Apache Hudi, Apache Iceberg и Delta [1]. Всё крутится вокруг экосистемы Apache Spark, со своими достоинствами и недостатками
- обработка данных в реальном времени в Grab [2]. В основе MySQL + Kafka + Kafka Connect + Debezium.
- построение современного стека работы с данными в Whatsnot [3]. У них не очень сложный стек, большая часть наблюдений за ним скорее через инфраструктурные инструменты вроде Datadog.
- Benn Stancil пишет о том что для стартапов выручка не должна быть ключевым KPI [4], лично я несогласен, но чтение полезное.
- описание свежей системы управления потоками данных DopplerTask [5] с открытым кодом. Написано на Javascript, из СУБД привязка явная к MySQL и есть low-code инструмент построения потоков задач. Больше напоминает n8, если честно

Ссылки:
[1] https://towardsdatascience.com/the-key-feature-behind-lakehouse-data-architecture-c70f93c6866f
[2] https://engineering.grab.com/real-time-data-ingestion
[3] https://medium.com/whatnot-engineering/building-a-modern-data-stack-at-whatnot-afc1d03c3f9
[4] https://benn.substack.com/p/startups-shouldnt-care-about-revenue?s=r
[5] https://medium.com/@feraswilson/dopplertask-a-revolutionary-open-source-automation-tool-b69e8167aba1

#datatools #opensource #reading #data #moderndatastack
Свежая новость, с 13 апреля Яндекс.Облако подняли цены, в среднем на +60%

Почему они вынуждены это делать, в отдельном их посте [1], в основном из-за повышения стоимости железа.

Это о том что реальная инфляция - это то как растут расходы на то что ты используешь/потребляешь.

И это ещё без учёта того что скоро в стране может быть дефицит серверов и тогда стоимость облачных сервисов и серверов будет ещё выше.

Я бы сказал, конечно, что не надо ли государству отказаться от всех этих законов Яровой, проектов вроде Безопасный город (под них и нужны куча железа), но что-то мне подсказывает что не откажутся. Но это тема для отдельного рассуждения.

Ссылки:
[1] https://cloud.yandex.ru/blog/posts/2022/03/pricing-update-march-2022

#price #clouds #inflation #economics
Тут все начали активно мигрировать в Telegram/VK, но не все понимают их отличия от *других соцсетей*.

В Telegram'е принципиально другая модель потребления контента. Тут нет "стены" со списком постов и надо подписываться на каналы, нормальный пользователь может читать до 20 каналов, но и это уже много. А больше совсем тяжело. Поэтому все очень избирательны в том что они читают, часто читают каналы агрегаторы не потому что те хорошие, а потому что так удобнее. Лично я начал вести свой канал 6 лет назад и всё это время прикладывал много сил к его продвижению, несмотря на то что пишу я на ну очень специфические для обывателя темы https://t.me/begtin . Это совсем не так просто как может показаться и это ежедневная работа.

VK был и по большей части остаётся гигантским порнокинотеатром и молодежной соцсетью. Со своей спецификой, аудиторией, сервисами и тд. Не, там конечно много других сервисов и многие начнут мне возражать что там не только это. Да-да, конечно, там много всего, но без порно и пиратского видео популярность была бы кратно ниже. В любом случае невозможно вот так просто взять и перенести сообщества из FB в VK.

#thoughts #socialnetworks
MIT Technology Review пишут о рисках отделения России, Ирана и Китая от Интернета и называют это Splinternet [1] (сеть-осколок). У них же о том что это может происходить двумя путями. Первый в появлении новых несовместимых протоколов, второй в появлении параллельно регулируемой сети с теми же протоколами, но другими органами управления.

Шутки-шутками про "чебурнет", события могут развиваться в этом направлении довольно быстро.

Ссылки:
[1] https://www.technologyreview.com/2022/03/17/1047352/russia-splinternet-risk/

#internet #russia #china #iran #regulation
Только что закончилась прямая трансляция расширенного заседания комитета по ИТ при Госдуме [1]. Я не удержался и даже посмотрел её и, честно говоря, никакой другой реакции кроме как желания долго ругаться матом оно у меня не вызывает.

Художественно-стилические моменты вроде регулярного хваления себя в стиле "посмотрите как мы со всем справились и справляемся" я комментировать не буду. Актерский состав уже давно не тот.

А вот обсуждавшиеся предложения вроде кибервойск с призывом ИТшников? А на кой хрен тогда было устраивать отсрочку для ИТ специалистов? Или эти туповатые прямо скажем шутки про ИТ шарашки. Серьёзно? Думаете с таким тонким чувством юмора удержать в стране кого-либо кто имеет хоть какую-то трудовую ценность за её пределами?

То же самое про ИТ профсоюз, надо быть очень наивным или циничным чтобы предполагать что нынешние проблемы с ИТ можно решить профсоюзом. Профсоюз - это хорошая возможность "сесть на госсубсидию" (как там говорится и рыбку съесть и... на госсубсидию сесть).

Ну так далее. Я ранее писал что сейчас та ситуация когда помогут только экстраординарные меры. Не репрессивные, а абсолютно малореалистичные в другое время.

Так что выглядело всё это удручающе.

Ссылки:
[1] http://duma.gov.ru/multimedia/video/stream/

#it #regulation #government #policy
Как можно помочь в цифровой архивации если Вы программист?

Многие умеют программировать и хотят выступить волонтерами и помочь в архивации. Как можно это сделать? Какие задачи есть?

Задач много, не все удаётся описать сразу в виде готового ТЗ, но я постараюсь описать хотя бы кратко:
1. Агрегация из нестандартных источников (не веб).
Есть разные каналы обмена информацией, например, есть каналы в Viber, открытые чаты в WhatsApp и другие сервисы. Нужны инструменты дающие возможность данные скачивать. Сейчас ничего такого нет, весь этот контент за пределы этих экосистем не выходит. Возможно есть и другие источники важных знаний которые также надо сохранить.

2. Выгрузка данных из Instagram
Для инстаграм есть несколько инструментов выгрузки данных, но соцсеть сильно сопротивляется любым попыткам их получить. Даже самый актуальный сейчас инструмент instaloader не работает без авторизации и регулярно сталкивается с блокировками. Поэтому любые инструменты сбора данных из Instagram нужны. Лучше всего работающие с командной строки

3. Переделка текущих инструментов веб-архивации
Для веб архивации есть много инструментов. От самых простых таких как httrack и wget, до довольно сложных таких как Nutch и Heritrix. А есть несколько инструментов между ними по сложности такие как wpull и grab-site. Wpull - это переделанный wget с расширениями на Python, а grab-site - это надстройка над wpull'ом для динамического мониторинга архивации сайтов. У обоих проектов есть проблема - они не поддерживаются несколько лет, не работают, например, в Python выше 3.5 и родная операционка для них устаревшая Ubuntu 18.04. Соответственно нужна помощь очень опытных программистов в том чтобы обновить их до поддержки последних версий Python и сделать их нормально портируемых на последние версии Ubuntu, чтобы работали под Windows и тд. без плясок с бубном вокруг Python 3.5.

4. Визуализация и поиск по архивам каналов и чатов в Telegram.
Есть много чатов и телеграм каналов которые мы архивируем. Данные экспортируются в JSON формате. Нужен инструмент строящий веб интерфейс для поиска по архивированным чатам, файлам и тд. Сейчас ничего такого нет, а рано или поздно создавать такой интерфейс над копиями телеграм каналов потребуется.


#tools #archives #webarchives #helpneeded
Я практически никогда не размещаю рекламу здесь в телеграм канале, а если и делаю это, то только некоммерческую.

Один из ответов на вопрос "что делать?" в текущей ситуации в мире и в России - это помогать благотворительным фондам. У многих из них исчезли институциональные доноры, у бизнеса сейчас свои проблемы и потребность в выживании на первом месте, поэтому многие благотворительные фонды лишаются финансирования. При этом президентских грантов или региональных грантов никогда не было достаточно для решения даже малой части социальных проблем. Сейчас этих проблем будет больше с каждым месяцем.

Я лично знаю Фонд Реликт, его команда занимается тем что помогает детям в трудной жизненной ситуации, детям у которых есть ограничения физические, ментальные, ситуационные (семейные обстоятельства) и иные ограничения. Фонду можно помочь прямым однократным или регулярным пожертвованием https://fond-relikt.ru/howtohelp/

#сharity #adv #howtohelp
В качестве регулярного напоминания.

Я веду телеграм канал @begtin и также пишу в телеграм каналы Национального цифрового архива @ruarxive о цифровой архивации и о проекте APICrafter @apicrafter по работе над каталогом структурированных данных. APICrafter - это коммерческий проект по предоставлению доступа данных через API.

Мои тексты здесь про работу данными, открытыми данными, устройство государства, цифровую архивацию, технологии и простой русский язык.

Также пишу в Facebook'е https://facebook.com/ibegtin и большие лонгриды публикую на своём сайте begtin.tech и в рассылке begtin.substack.com, в последнее время чаще в рассылке чем на сайте. У меня также всегда был резервный аккаунт в VK https://vk.com/ivbeg куда я пишу реже чем в телеграм.

У АНО Инфокультура которое я возглавляю есть телеграм канал @infoculture и рассылка (сейчас она переносится). О проектах Инфокультуры можно узнать на сайте https://www.infoculture.ru/projects/

Мы ведём каталог открытых данных (datacatalogs.ru), куда также можно направить ссылки на ресурсы которые туда не включены, но Вы их знаете и хотите добавить.

На Github'е:
- мой аккаунт https://github.com/ivbeg
- аккаунт Инфокультуры https://github.com/infoculture
- аккаунт Национального цифрового архива https://github.com/ruarxive/

Время сейчас такое когда многие каналы связи могут исчезать/разрушаться, поэтому остаёмся на связи.

#contacts #reminders
Я тут начал было только перечислять то какие проекты мы планировали делать до вот-этого-всего, но список получался очень грустный, и для поиска финансирования общественных проектов сложности в России уже давно. Но какие то планы можно вспомнить:
- День открытых данных - вели активную подготовку, всё было готово, отменили в последний момент потому что теперь всё это кажется малоцелесообразным. Хотя нам и надо как-то поддерживать сообщество и не терять связи с миром, но абсолютно непонятно теперь что будет дальше с открытостью государства. Вернее понятно что будет хуже.
- Прозрачный нефтегаз - проект который я проектировал ещё 3 года назад и к которому были планы вернутся, по систематизации того как добывающие компании платят налоги, поддерживают социальную инфраструктуру и тд. В мире есть несколько таких проектов, было желание сделать его и в России. Будет ли он актуален? Сомневаюсь
- Государственные НКО - у меня на руках уже с полгода лежит доклад дописанный на 80% о том как из госбюджета государство раздаёт средства госНКО для выполнения государственных функций. Важная была тема в мирное время, сейчас уже кажется неактуальным. Как бы вообще траты бюджета не закрыли.

Это не полный список. Ещё остались система мониторинга законотворчества, база муниципальных показателей, переделка нашего портала Открытые НКО (openngo.ru) с наполнением новыми данными и многое другое.

Но теперь всё это кажется проектами из другого мира. Что можно будет делать в нашей новой реальности? Самое главное мне представляется архивацией данных, сайтов, цифрового наследия которое сейчас исчезает. На всё это никогда не было финансирования в России и сейчас тоже это проблема его найти. Но в плане исторической ценности - это важнейшее направление.

По крайней мере в том что касается некоммерческих проектов.

#thoughts #projects #infoculture
Новости проекта на 23 марта 2022 года

- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.

Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.

#digest #archives #webarchival #digitalpreservation
Для тех кто интересуется цифровой архивацией, поделюсь презентацией на эту тему с которой я в разных вариациях выступал в прошлом году [1]

Там есть ответы на многие вопросы о том какие инструменты существуют, для чего они нужны, что такое формат файлов WARC, как работают веб-архивы и многое другое.


Ссылки:
[1] https://www.beautiful.ai/player/-MyrA7JYDeVnxU1lqQlA

#webarchives #digitalpreservation #archives
Полезное чтение про данные
- Hello Datasphere — Towards a Systems Approach to Data Governance [1] о системном подходе к регулировании датасферы и её отличия от других сфер регулирования. Полезный текст для тех кто думает о том "как нам жить дальше" с регулированием рынка данных
- What is Data Ingestion? | The Definitive Guide [2] что такое загрузка данных, неплохой разъясняющий текст описывающий отличия загрузки данных о событиях и данных в виде батчей.
- IATIConnect [3] свежая платформа для обсуждения работы с данными о международной помощи. Несколько оторвано от российских реалий, но неразрывно связано со всеми странами на территории которых идут военные конфликты и которым оказывается гуманитарная помощь
- GAIA-X [4] европейский проект по стандартизации управления и доступом к данным в облаках. Европейская бюрократия медленная и редко рождает инициативы быстрые к практическому применению, но польза в них бывает.

Ссылки:
[1] https://medium.com/@thedatasphere/hello-datasphere-towards-a-systems-approach-to-data-governance-d602f96c9e1d
[2] https://medium.com/operationalanalytics/what-is-data-ingestion-the-definitive-guide-97be6ed86f27
[3] https://iaticonnect.org/
[4] https://www.gaia-x.eu/

#opendata #data #dataregulation #regulation #reading
Кстати, вот вопрос, про Яндекс.Облако я уже писал что они цены повышают, недавно на CNews была статья про повышение цен Selectel и Datafort. А что с MailRu Cloud который теперь VK Cloud ?

Последний раз они что-то в своём блоге писали в сентябре 2021 г., последняя новость была в ноябре 2021 г. ну и странно что цены не повышают. Или повышают, но молчат?

Просто интересно "бобик сдох" или мы ещё от него чего то ждём? А то выбор между хостинг провайдерами в России невелик, тревожно за родину. Да и в целом с облачными сервисами обработки данных совсем негусто, хоть на китайские переходи, за юани.

#cloud #hosting #data #question