Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
На сайте ЦБ РФ из открытого доступа исчезли сведения о лицах, под контролем либо значительным влиянием которых находится кредитная организация. Например, это можно увидеть на странице Сбербанка [1] и в её копии в Интернет архиве на 11 января 2022 г. [2].

Причём были удалены не только разделы и ссылки на файлы, но и сами файлы. Частично они теперь остались в Интернет архиве, желающие легко их найдут

У меня, также, есть слепок данных сайта ЦБ РФ на 21.12.2021, там есть все эти документы. Мы как раз готовили эти данные для загрузки в Datacrafter, так что со временем они там появятся как наборы данных и API.

А сайт ЦБ надо, похоже, проверять, не исчезли ли что-то ещё.

Ссылки:
[1] http://www.cbr.ru/banking_sector/credit/coinfo/?id=350000004
[2] https://web.archive.org/web/20220111085025/http://www.cbr.ru/banking_sector/credit/coinfo/?id=350000004

#opendata #transparency #cbrf
А также продолжение хроники постепенного исчезновения и закрытия данных. С официального сайта Алросы (www.alrosa.ru) исчезли сведения о наблюдательном совете. Они есть в Интернет архиве на начало года, но с сайта они удалены.

Интересно как долго останутся публичными сайты раскрытия информации о публичных компаниях (ПАО) ? Ведь там есть дублирование всех этих сведений.

#transparency #opendata #wtf
Ivan Begtin pinned a photo
В блоге Spotify краткий пост о том как в компании команды переходят на систему управления потоками данных на базе Flyte [1], заменяя на него использовавшиеся ранее системы Luigi [2] и Flo [3]. В отличие от них Flyte [4] создавался с акцентом на задачи ML/Data science и с некоторыми особенностями которые отличают его от других движков.

1. Flyte построен на принципах что конфигурация это код. Вместо файлов YAML задачи описываются в коде на Python
2. Изначально разработан под расширение через код на Python
3. Автоматически отслеживает происхождение данных (data lineage)

И ещё много всего, продукт весьма интересный и, что немаловажно, простой в использовании.

А для тех кто ещё не определился на каком движке строить управление потоками данных, неплохая подборка в Awesome workflow engines [5]

Ссылки:
[1] https://engineering.atspotify.com/2022/03/why-we-switched-our-data-orchestration-service/
[2] https://github.com/spotify/luigi
[3] https://github.com/spotify/flo
[4] https://flyte.org/
[5] http://meirwah.github.io/awesome-workflow-engines/

#data #datatools #opensource #datapipelines
Как устроена веб-архивация в мире?

Веб-архивация - это один из видов цифровой архивации или архивации цифрового контента заключающаяся в том что архив ведет себя как поисковая система и с помощью специальной программы или набора программ называемых краулерами обходит страницы веб-сайта и сохраняет их содержимое, полностью, включая все связанные ресурсы, код Javascript, CSS и тд. или же частично сохраняя только содержимое. Веб архивы можно разделить на два подхода: ненаправленные и сфокусированные.

Ненаправленные веб архивы

Ненаправленные веб архивы ведут себя как поисковые системы эмулируя их максимально близко. Они имеют набор стартовых ссылок, а далее обходят сайты исходя из критерия числа ссылок на веб страницы. Самые известные ненаправленные архиваторы - это Common Crawl [1] и Wayback Machine [2]. Их достоинство - максимальная широта охвата, они обходят почти все известные и используемые сайты в интернете. Их недостаток - неполная глубина, они не собирают видео, аудио, сжатые файлы и далеко не все изображения.

Подобные архивы, также, практически всегда предоставляют API для получения данных и метаданных, с возможностью реконструкции исчезнувших сайтов.

Сфокусированные архивы

Кроме них существует множество инициатив по так называемой сфокусированной веб-архивации.
Самые известные:
- UKWA (UK Web Archive) [3] веб архив Великобритании совместная инициатива 6 национальных библиотек страны. Архивируют только сайты в зоне .uk и некоторые другие относящиеся напрямую к Великобритании.
- UK Government Web Archive [4] веб архив всех государственных сайтов Великобритании. Поддерживается Национальной службой архивов страны, обходит все сайты в зоне .gov.uk и ещё ряд сайтов по нескольку раз в сутки.
- Webarchiv Österreich [5] веб архив Австрии, охватывает все сайты домена .at и ещё ряда сайтов относящихся к Австрии. Поддерживается национальной библиотекой Австрии.
- Australian Web Archive [6] веб архив Австралии в рамках проекта Trove, Национальной библиотеки Австралии. Архивируют сайты по 18 категориям, не используют сплошную архивацию домена .au, но отбирают сайты по их культурной ценности

Проекты по веб архивации есть в большинстве развитых стран, как правило их создают службы национальных архивов или национальные библиотеки.

Подробнее о них можно узнать в статье в Википедии [7] где перечислены десятки подобных проектов по всему миру.

Кроме этих проектов существует ряд общественных и научных/исследовательских инициатив по архивации сайтов/данных по определенным темам; изменения климата, политические исследования, сохранение культурного наследия и т.д.

Все они возможны только при наличии технических возможностей которые для веб-архивов сопоставимы с крупными технологическими проектами. Архивы требуют больших объёмов хранения данных, хороших пропускных возможностей каналов архивации и инструментов предоставления результатов архивации гражданам.

В последние годы веб-архивация меняется, многие знания и данные уходят из веб'а в социальные сети, мобильные приложения и иные способы доступа недоступные классическим веб-краулерам. Веб-архивы оказываются неполны и недостаточны для охвата современных событий, а владельцы соцсетей всячески препятствуют сбору информации из их продуктов.

Ссылки:
[1] https://commoncrawl.org
[2] https://web.archive.org
[3] https://www.webarchive.org.uk/
[4] https://www.nationalarchives.gov.uk/webarchive/
[5] https://webarchiv.onb.ac.at/
[6] https://webarchive.nla.gov.au/collection
[7] https://en.wikipedia.org/wiki/List_of_Web_archiving_initiatives

#webarchival #digitalpreservation
Полезное чтение про modern data stack

- сравнение продуктов построения озер данных: Apache Hudi, Apache Iceberg и Delta [1]. Всё крутится вокруг экосистемы Apache Spark, со своими достоинствами и недостатками
- обработка данных в реальном времени в Grab [2]. В основе MySQL + Kafka + Kafka Connect + Debezium.
- построение современного стека работы с данными в Whatsnot [3]. У них не очень сложный стек, большая часть наблюдений за ним скорее через инфраструктурные инструменты вроде Datadog.
- Benn Stancil пишет о том что для стартапов выручка не должна быть ключевым KPI [4], лично я несогласен, но чтение полезное.
- описание свежей системы управления потоками данных DopplerTask [5] с открытым кодом. Написано на Javascript, из СУБД привязка явная к MySQL и есть low-code инструмент построения потоков задач. Больше напоминает n8, если честно

Ссылки:
[1] https://towardsdatascience.com/the-key-feature-behind-lakehouse-data-architecture-c70f93c6866f
[2] https://engineering.grab.com/real-time-data-ingestion
[3] https://medium.com/whatnot-engineering/building-a-modern-data-stack-at-whatnot-afc1d03c3f9
[4] https://benn.substack.com/p/startups-shouldnt-care-about-revenue?s=r
[5] https://medium.com/@feraswilson/dopplertask-a-revolutionary-open-source-automation-tool-b69e8167aba1

#datatools #opensource #reading #data #moderndatastack
Свежая новость, с 13 апреля Яндекс.Облако подняли цены, в среднем на +60%

Почему они вынуждены это делать, в отдельном их посте [1], в основном из-за повышения стоимости железа.

Это о том что реальная инфляция - это то как растут расходы на то что ты используешь/потребляешь.

И это ещё без учёта того что скоро в стране может быть дефицит серверов и тогда стоимость облачных сервисов и серверов будет ещё выше.

Я бы сказал, конечно, что не надо ли государству отказаться от всех этих законов Яровой, проектов вроде Безопасный город (под них и нужны куча железа), но что-то мне подсказывает что не откажутся. Но это тема для отдельного рассуждения.

Ссылки:
[1] https://cloud.yandex.ru/blog/posts/2022/03/pricing-update-march-2022

#price #clouds #inflation #economics
Тут все начали активно мигрировать в Telegram/VK, но не все понимают их отличия от *других соцсетей*.

В Telegram'е принципиально другая модель потребления контента. Тут нет "стены" со списком постов и надо подписываться на каналы, нормальный пользователь может читать до 20 каналов, но и это уже много. А больше совсем тяжело. Поэтому все очень избирательны в том что они читают, часто читают каналы агрегаторы не потому что те хорошие, а потому что так удобнее. Лично я начал вести свой канал 6 лет назад и всё это время прикладывал много сил к его продвижению, несмотря на то что пишу я на ну очень специфические для обывателя темы https://t.me/begtin . Это совсем не так просто как может показаться и это ежедневная работа.

VK был и по большей части остаётся гигантским порнокинотеатром и молодежной соцсетью. Со своей спецификой, аудиторией, сервисами и тд. Не, там конечно много других сервисов и многие начнут мне возражать что там не только это. Да-да, конечно, там много всего, но без порно и пиратского видео популярность была бы кратно ниже. В любом случае невозможно вот так просто взять и перенести сообщества из FB в VK.

#thoughts #socialnetworks
MIT Technology Review пишут о рисках отделения России, Ирана и Китая от Интернета и называют это Splinternet [1] (сеть-осколок). У них же о том что это может происходить двумя путями. Первый в появлении новых несовместимых протоколов, второй в появлении параллельно регулируемой сети с теми же протоколами, но другими органами управления.

Шутки-шутками про "чебурнет", события могут развиваться в этом направлении довольно быстро.

Ссылки:
[1] https://www.technologyreview.com/2022/03/17/1047352/russia-splinternet-risk/

#internet #russia #china #iran #regulation
Только что закончилась прямая трансляция расширенного заседания комитета по ИТ при Госдуме [1]. Я не удержался и даже посмотрел её и, честно говоря, никакой другой реакции кроме как желания долго ругаться матом оно у меня не вызывает.

Художественно-стилические моменты вроде регулярного хваления себя в стиле "посмотрите как мы со всем справились и справляемся" я комментировать не буду. Актерский состав уже давно не тот.

А вот обсуждавшиеся предложения вроде кибервойск с призывом ИТшников? А на кой хрен тогда было устраивать отсрочку для ИТ специалистов? Или эти туповатые прямо скажем шутки про ИТ шарашки. Серьёзно? Думаете с таким тонким чувством юмора удержать в стране кого-либо кто имеет хоть какую-то трудовую ценность за её пределами?

То же самое про ИТ профсоюз, надо быть очень наивным или циничным чтобы предполагать что нынешние проблемы с ИТ можно решить профсоюзом. Профсоюз - это хорошая возможность "сесть на госсубсидию" (как там говорится и рыбку съесть и... на госсубсидию сесть).

Ну так далее. Я ранее писал что сейчас та ситуация когда помогут только экстраординарные меры. Не репрессивные, а абсолютно малореалистичные в другое время.

Так что выглядело всё это удручающе.

Ссылки:
[1] http://duma.gov.ru/multimedia/video/stream/

#it #regulation #government #policy
Как можно помочь в цифровой архивации если Вы программист?

Многие умеют программировать и хотят выступить волонтерами и помочь в архивации. Как можно это сделать? Какие задачи есть?

Задач много, не все удаётся описать сразу в виде готового ТЗ, но я постараюсь описать хотя бы кратко:
1. Агрегация из нестандартных источников (не веб).
Есть разные каналы обмена информацией, например, есть каналы в Viber, открытые чаты в WhatsApp и другие сервисы. Нужны инструменты дающие возможность данные скачивать. Сейчас ничего такого нет, весь этот контент за пределы этих экосистем не выходит. Возможно есть и другие источники важных знаний которые также надо сохранить.

2. Выгрузка данных из Instagram
Для инстаграм есть несколько инструментов выгрузки данных, но соцсеть сильно сопротивляется любым попыткам их получить. Даже самый актуальный сейчас инструмент instaloader не работает без авторизации и регулярно сталкивается с блокировками. Поэтому любые инструменты сбора данных из Instagram нужны. Лучше всего работающие с командной строки

3. Переделка текущих инструментов веб-архивации
Для веб архивации есть много инструментов. От самых простых таких как httrack и wget, до довольно сложных таких как Nutch и Heritrix. А есть несколько инструментов между ними по сложности такие как wpull и grab-site. Wpull - это переделанный wget с расширениями на Python, а grab-site - это надстройка над wpull'ом для динамического мониторинга архивации сайтов. У обоих проектов есть проблема - они не поддерживаются несколько лет, не работают, например, в Python выше 3.5 и родная операционка для них устаревшая Ubuntu 18.04. Соответственно нужна помощь очень опытных программистов в том чтобы обновить их до поддержки последних версий Python и сделать их нормально портируемых на последние версии Ubuntu, чтобы работали под Windows и тд. без плясок с бубном вокруг Python 3.5.

4. Визуализация и поиск по архивам каналов и чатов в Telegram.
Есть много чатов и телеграм каналов которые мы архивируем. Данные экспортируются в JSON формате. Нужен инструмент строящий веб интерфейс для поиска по архивированным чатам, файлам и тд. Сейчас ничего такого нет, а рано или поздно создавать такой интерфейс над копиями телеграм каналов потребуется.


#tools #archives #webarchives #helpneeded
Я практически никогда не размещаю рекламу здесь в телеграм канале, а если и делаю это, то только некоммерческую.

Один из ответов на вопрос "что делать?" в текущей ситуации в мире и в России - это помогать благотворительным фондам. У многих из них исчезли институциональные доноры, у бизнеса сейчас свои проблемы и потребность в выживании на первом месте, поэтому многие благотворительные фонды лишаются финансирования. При этом президентских грантов или региональных грантов никогда не было достаточно для решения даже малой части социальных проблем. Сейчас этих проблем будет больше с каждым месяцем.

Я лично знаю Фонд Реликт, его команда занимается тем что помогает детям в трудной жизненной ситуации, детям у которых есть ограничения физические, ментальные, ситуационные (семейные обстоятельства) и иные ограничения. Фонду можно помочь прямым однократным или регулярным пожертвованием https://fond-relikt.ru/howtohelp/

#сharity #adv #howtohelp
В качестве регулярного напоминания.

Я веду телеграм канал @begtin и также пишу в телеграм каналы Национального цифрового архива @ruarxive о цифровой архивации и о проекте APICrafter @apicrafter по работе над каталогом структурированных данных. APICrafter - это коммерческий проект по предоставлению доступа данных через API.

Мои тексты здесь про работу данными, открытыми данными, устройство государства, цифровую архивацию, технологии и простой русский язык.

Также пишу в Facebook'е https://facebook.com/ibegtin и большие лонгриды публикую на своём сайте begtin.tech и в рассылке begtin.substack.com, в последнее время чаще в рассылке чем на сайте. У меня также всегда был резервный аккаунт в VK https://vk.com/ivbeg куда я пишу реже чем в телеграм.

У АНО Инфокультура которое я возглавляю есть телеграм канал @infoculture и рассылка (сейчас она переносится). О проектах Инфокультуры можно узнать на сайте https://www.infoculture.ru/projects/

Мы ведём каталог открытых данных (datacatalogs.ru), куда также можно направить ссылки на ресурсы которые туда не включены, но Вы их знаете и хотите добавить.

На Github'е:
- мой аккаунт https://github.com/ivbeg
- аккаунт Инфокультуры https://github.com/infoculture
- аккаунт Национального цифрового архива https://github.com/ruarxive/

Время сейчас такое когда многие каналы связи могут исчезать/разрушаться, поэтому остаёмся на связи.

#contacts #reminders
Я тут начал было только перечислять то какие проекты мы планировали делать до вот-этого-всего, но список получался очень грустный, и для поиска финансирования общественных проектов сложности в России уже давно. Но какие то планы можно вспомнить:
- День открытых данных - вели активную подготовку, всё было готово, отменили в последний момент потому что теперь всё это кажется малоцелесообразным. Хотя нам и надо как-то поддерживать сообщество и не терять связи с миром, но абсолютно непонятно теперь что будет дальше с открытостью государства. Вернее понятно что будет хуже.
- Прозрачный нефтегаз - проект который я проектировал ещё 3 года назад и к которому были планы вернутся, по систематизации того как добывающие компании платят налоги, поддерживают социальную инфраструктуру и тд. В мире есть несколько таких проектов, было желание сделать его и в России. Будет ли он актуален? Сомневаюсь
- Государственные НКО - у меня на руках уже с полгода лежит доклад дописанный на 80% о том как из госбюджета государство раздаёт средства госНКО для выполнения государственных функций. Важная была тема в мирное время, сейчас уже кажется неактуальным. Как бы вообще траты бюджета не закрыли.

Это не полный список. Ещё остались система мониторинга законотворчества, база муниципальных показателей, переделка нашего портала Открытые НКО (openngo.ru) с наполнением новыми данными и многое другое.

Но теперь всё это кажется проектами из другого мира. Что можно будет делать в нашей новой реальности? Самое главное мне представляется архивацией данных, сайтов, цифрового наследия которое сейчас исчезает. На всё это никогда не было финансирования в России и сейчас тоже это проблема его найти. Но в плане исторической ценности - это важнейшее направление.

По крайней мере в том что касается некоммерческих проектов.

#thoughts #projects #infoculture
Новости проекта на 23 марта 2022 года

- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.

Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.

#digest #archives #webarchival #digitalpreservation
Для тех кто интересуется цифровой архивацией, поделюсь презентацией на эту тему с которой я в разных вариациях выступал в прошлом году [1]

Там есть ответы на многие вопросы о том какие инструменты существуют, для чего они нужны, что такое формат файлов WARC, как работают веб-архивы и многое другое.


Ссылки:
[1] https://www.beautiful.ai/player/-MyrA7JYDeVnxU1lqQlA

#webarchives #digitalpreservation #archives
Полезное чтение про данные
- Hello Datasphere — Towards a Systems Approach to Data Governance [1] о системном подходе к регулировании датасферы и её отличия от других сфер регулирования. Полезный текст для тех кто думает о том "как нам жить дальше" с регулированием рынка данных
- What is Data Ingestion? | The Definitive Guide [2] что такое загрузка данных, неплохой разъясняющий текст описывающий отличия загрузки данных о событиях и данных в виде батчей.
- IATIConnect [3] свежая платформа для обсуждения работы с данными о международной помощи. Несколько оторвано от российских реалий, но неразрывно связано со всеми странами на территории которых идут военные конфликты и которым оказывается гуманитарная помощь
- GAIA-X [4] европейский проект по стандартизации управления и доступом к данным в облаках. Европейская бюрократия медленная и редко рождает инициативы быстрые к практическому применению, но польза в них бывает.

Ссылки:
[1] https://medium.com/@thedatasphere/hello-datasphere-towards-a-systems-approach-to-data-governance-d602f96c9e1d
[2] https://medium.com/operationalanalytics/what-is-data-ingestion-the-definitive-guide-97be6ed86f27
[3] https://iaticonnect.org/
[4] https://www.gaia-x.eu/

#opendata #data #dataregulation #regulation #reading
Кстати, вот вопрос, про Яндекс.Облако я уже писал что они цены повышают, недавно на CNews была статья про повышение цен Selectel и Datafort. А что с MailRu Cloud который теперь VK Cloud ?

Последний раз они что-то в своём блоге писали в сентябре 2021 г., последняя новость была в ноябре 2021 г. ну и странно что цены не повышают. Или повышают, но молчат?

Просто интересно "бобик сдох" или мы ещё от него чего то ждём? А то выбор между хостинг провайдерами в России невелик, тревожно за родину. Да и в целом с облачными сервисами обработки данных совсем негусто, хоть на китайские переходи, за юани.

#cloud #hosting #data #question
В рубрике интересных продуктов для работы с данными - Meilisearch [1] система поиска с открытым кодом написанная на Rust и чья команда в январе 2022 года получила $5M инвестиций на создание облачного продукта. Обещают поддержку любого языка использующего пробелы для разделения слов, поддерживают китайский (что сейчас особенно актуально в России) и имеют кучу интеграций. На Github у них почти 24 тысячи звезд [2] и растущая популярность. Пока ещё не обгоняют ElasticSearch, но уже показывают высокую востребованность.

У них же хорошее сравнение с другими поисковыми системами, по ощущениям весьма правдивое [3].

Ссылки:
[1] https://www.meilisearch.com/
[2] https://github.com/meilisearch/meilisearch
[3] https://docs.meilisearch.com/learn/what_is_meilisearch/comparison_to_alternatives.html

#opensource #startups #search #data