Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Честно говоря уже хочется вернуться к нормальным новостям и говорить про технологии, а не про последствия происходящего.

В качестве интересной новости - новой большой тренд в виде инвестиций в платформы обработки данных в реальном времени. Decodable [1] и Red Panda [2], стартапы в этой области, привлекли $20M и $50M соответственно. Большие инвестиции и интересные проекты.

Red Panda - это заменитель Kafka, позиционируют себя как более быстрый и продвинутый продукт, к тому же с открытым кодом и не связанный с JVM, но с Kafka совместимый.

Decodable - это движок по созданию труб данных программируемых как SQL запросы. Лично по мне так это весьма экзотичный подход, но, видимо, он работает. Kafka он не заменяет, но интегрируется.

Ссылки:
[1] https://www.decodable.co/blog/decodable-closes-20m-round
[2] https://redpanda.com/blog/redpanda-series-b-funding-future-of-streaming-data/

#datatools #datapipelines #realtimedata #startups #opensource
Моя основная некоммерческая аффилиация связана с АНО "Информационная культура" (@infoculture), я являюсь её соучредителем и руководителем вот уже много лет. От лица АНО я присоединяюсь к обращению российских НКО. Война - это гуманитарная катастрофа, она должна быть остановлена.

#nowar
Forwarded from Инфокультура
АНО "Инфокультура" присоединяется к заявлению российских НКО.

Мы выступаем против военных действий, которые наша страна осуществляет на территории Украины.

Вся наша работа – это борьба за достоинство человека, спасение жизней. Война несовместима ни с жизнью, ни с достоинством, ни с базовыми принципами человечности. Война – это гуманитарная катастрофа, которая множит боль и страдания. Её последствия сводят на нет наши многолетние усилия.

Мы считаем бесчеловечными силовые методы решения политических конфликтов и призываем вас к прекращению огня и началу переговоров.

#nowar
Ещё один инструмент по оркестрации (всё никак не могу подобрать более точное и благозвучное название) данных Kestra [1], у них в блоге история кейса использования в Leroy Merlin [2]. Точнее всего было бы его сравнить с Meltano, Dagster и Airflow. Поддерживает несколько десятков источников данных, написан на Java и доступен с открытым кодом [3].

Официальный анонс продукта был 3 недели назад [4], хотя разработка началась ещё в 2019 году.

На что стоит обратить внимание:
- внутри всё работает на Kafka
- интеграция с Terraform
- для хранения данных используется Minio или GCS Storage

Не вполне очевидно как там происходит обработка данных, видимо через разного рода программируемые задачи которые описаны в документации.

Ссылки:
[1] https://kestra.io/
[2] https://medium.com/@kestra-io/how-leroy-merlin-managed-their-cloud-data-pipelines-with-kestra-9932ea66b517
[3] https://github.com/kestra-io/kestra
[4] https://kestra.io/blogs/2022-02-01-kestra-opensource.html

#opensource #datapipelines #dataorchestration
Каков объём инвестиций в компании создающие продукты по работе с данными? За 2021 год - это около $7 миллиардов долларов США. В обзоре Fundraising by data companies in 2021 [1] компании приведены по категориям:
- Data Platform & Infra
- Database & SQL
- ETL & Reverse ETL
- Data quality & observability
- Metadata & data governance
- BI & Dataviz
- AI & ML

Более всего средств привлекли:
- Databricks универсальная платформа по сбору и обработке и хранению данных, в общей сложности $2.6 миллиарда [2]
- Fivetran [3] онлайн сервис сбора данных и их доставки привлекли $565 миллионов
- Collibra [4] корпоративный каталог данных привлекли $250 миллионов
- Dataiku [5] продукт по совместной работе дата сайентистов привлекли $400 миллионов
- Neo4J [6] графовая NoSQL база данных, $325 миллионов

В обзоре только относительно крупные инвестиции, видно что значительная их часть идет на стартапы связанные с ИИ и с облачной инфраструктурой.

Ссылки:
[1] https://adat.blog/2022/02/fundraising-by-data-companies-in-2021/
[2] https://databricks.com/
[3] https://www.fivetran.com/
[4] https://www.collibra.com/us/en
[5] https://www.dataiku.com/
[6] https://neo4j.com/

#startups #data #investments #dataproducts #cloud
О том как собирать и загружать данные, я хочу напомнить про один из важнейших проектов в этой области - Singer [1]. Singer - это open source стандарт по перемещению данных и работающий с командной строки.
Основными концепциями в Singer являются tap (на русский язык можно перевести как вентиль) и target (по-русски это будет цель).

Основная идея в том что процессы извлечения данных (extraction) и загрузки (load) являются довольно типовыми и укладываются стандартные файловые потоки. А то есть можно перенаправлять ввод вывод как между приложениями командной строки и получать результат.

Пример вызова команд в Singer выглядят примерно так: tap-exchangeratesapi | target-csv

Все цели и вентили пишутся на Python, всего их довольно много уже создано, а у проекта есть коммерческий интересант Stitch [2] которые и выложили его как открытый код. А сами Stitch предоставляют облачный сервис для работы с потоками данных.

Но используют Singer не только Stitch, его используют многие другие коммерческие и open source решения. Например, Singer лежит в основе Meltano [3] и ещё ряда инструментов. Хотя вот в случае Airbyte, другого инструмент для ETL, его создатели пишут что у Singer много недостатков и поэтому они его не используют [4].

Конечное решение можно принять самостоятельно. Лично я вижу пока ключевым недостатком Singer - в разном качестве вентилей и уровне их поддержки. А также почти полным отсутствием российские сервисов - Яндекс.Метрики, к примеру. Впрочем не факт что эти недостатки затмевают возможности.

Ссылки:
[1] https://www.singer.io/
[2] https://www.stitchdata.com
[3] https://hub.meltano.com/singer/taps/
[4] https://airbyte.com/blog/why-you-should-not-build-your-data-pipeline-on-top-of-singer

#datatools #opensource #datapipelines
Пишут что Минцифры предложили перечень мер для поддержки ИТ отрасли [1]:
- распространить действующие налоговые льготы также на IT-компании, получающие доходы от размещения рекламы или оказания допуслуг в своих приложениях и онлайн-сервисах, а также от реализации, установки, тестирования и сопровождения партнёрских отечественных IT-продуктов;
- освободить на следующие 3 года всех сотрудников IТ-компаний от уплаты НДФЛ, а сами компании от уплаты налога на прибыль, а также освободить эти компании от проверок;
- предоставить всем сотрудникам IT-компаний льготную ипотеку со ставкой 5% на время работы;
- предоставить отсрочку от призыва на военную службу для сотрудников IT-компаний на время их работы в этих компаниях;
- ввести процедуры упрощённого получения разрешения на работу и вида на жительство для иностранных граждан, привлекаемых для работы в российских компаниях;
- предоставить компаниям гранты на разработку и развитие IT-продуктов;
- обеспечить ускоренное импортозамещение ПО на объектах критической информационной инфраструктуры;
- также обеспечить целевое финансирование на создание в России «зеркала» репозитория открытого ПО GitHub.

Будем честными, поможет это не всем. То есть ничего плохого в этих предложениях нет, просто радикально ситуацию они не исправят. Главная проблема сейчас в том происходит одновременно кадровый дефицит, резкое сжатие рынков, резкое ограничение кредитования и проблемы с ликвидностью.

У меня то есть пара предложений порадикальнее, но боюсь я что их ни Минцифра, ни правительство никогда не пойдут. Не криптовалюты надо легализовывать, не криптовалюты. Взгляд совсем не туда.

Ссылки:
[1] https://kod.ru/mintsifry-podderzhka-it-rus/

#russia #digital #it #government #policies
Возвращаясь к мерам Минцифры России у меня целых два пакета мер, серьёзных и не очень серьёзных. Не буду вдаваться в подробности почему на них никогда не пойдут и какие сопутствующие риски у этого есть, просто зафиксирую.

Начну с серьёзных:
1. Обнуление отчислений в социальные фонды. Даже при сокращённых ставках для ИТ компаний, ФОТ - это основная статья расходов и отчисления с ФОТ - это основные налоги.

2. Значительное сокращение или обнуление НДФЛ для нерезидентов. Сейчас если брать на работу или по договору гражданина Казахстана или Армении и платить 30% - это очень много.

3. Легализация самозанятости в ИТ. Оно сейчас и так происходит, но все кто применяют схему с самозанятыми рискуют попасть под проверки УБЭПа, ФНС и тд. И многие уже нарываются.

4. Снижение давления правоохраны. Главные "страхи" ИТ бизнеса похожи на страхи всех остальных предпринимателей. Это не регуляторы и даже не контролёры, а правоохрана. Сюда же можно отнести Росфинмониторинг который сейчас особо внимательно следит за вновь созданными ИТ компаниями.

5. Упростить регистрацию ИТ компаний и дать возможность создавать юр. лица без помещений. Если кратко, то если нет проверок, то зачем юридическому лицу помещение когда все работают удалённо? С практикой покупки и оформления юридических адресов можно бороться, а можно узаконить. Пойти по пути разрешения регистрации юридических лиц дистанционно и без офиса и работающих только на экспорт. (Скорее всего невозможно из-за требований FATF)

6. Инфраструктурные и образовательные субсидии. После ФОТа вторые третьи по объёму расходы у ИТ бизнеса - это ИТ инфраструктура и доп. образование для сотрудников. Для первого все массово используют(-овали) зарубежные сервисы, для второго были попытки запуска обучения с господдержкой (очень неудачные). Нужны нормальные механизмы субсидирования использования ИТ инфраструктуры и обучения сотрудников.

А теперь с несерьёзных:
- легализация. Ну вы меня поняли, всего того что позволяет не сойти с ума и пропаганда легализации чего запрещена. Можно начать со стен Минцифры, технопарков, инновационных городков и тд. Сами придумайте что такого можно легализовать, чтобы все тут не посходили с ума. Продажу нарезного оружия например или частных реактивных самолётов или что-то чего-то здесь не перечисленного.
- ввести звание "заслуженного труженника" и "народного артиста" технологической отрасли. А то столько артефактов советской эпохи осталось со времен Советского союза со всеми этими заслуженными учеными и артистами, а в ИТ ничего такого нет. Так надо ввести, и медаль какую-нибудь отраслевую. А то ведь в качестве обстоятельства, смягчающего наказание выступает наличие государственных и ведомственных наград... Поэтому каждый министр и замминистра и руководитель департамента знает что госнаграда - это не только ценный мех снижение срока отсидки, возможность домашнего ареста и тд.

Если честно, даже это всё поможет нам не очень, но хоть что-то и где-то.

#policies #it #russia #digital
В Firefox выдаётся теперь сообщение что у сайта Банка России отозвали cbr.ru сертификат. Аналогично при заходе на online.vtb.ru

В остальных браузерах пока такого нет, а вот SSLTest [1] показывает что сертификат действительно отозван.

Оба сертификата были выданы Thawte, официальных заявлений компании пока не было.

При этом даже у других сайтов Банка России, вроде сайта их университета, отзыва сертификата произошло [2].

Возможно отзывы сертификатов ограничатся только организациями под санкциями.

Ссылки:
[1] https://www.ssllabs.com/ssltest/analyze.html?d=cbr.ru
[2] https://university.cbr.ru/

#tsl #ssl #bankofrussia #security
Онлайн сервис поиска по данным/сайтам Algolia позволял указывать регион при создании проекта. Например, я создавал там текстовый поисковый индекс в российском регионе. Теперь они рекомендуют перенести его в регион Германия потому что есть риски потери связи с российским сегментом.

Вот такие дела. Какой-то Цифровой обитаемый остров получается.

#sanctions #networks #networkneutrality #russia
Я накопил уже больше 20 внутренних заметок про данные и технологии но писать о них кажется сейчас несвоевременным. Хотя мой канал всегда был коллекцией личных технологических заметок. Приходится говорить и думать о тех событиях которые относятся к отрасли и затрагивают её.

1. Администрация Github'а отказалась блокировать сервис для россиян. 9 часов назад они закрыли дискуссию на эту тему [1] упомянув что следуют требованиям правительства в части санкций и эмбарго, но считают что Github должен быть открытым для всех разработчиков.

2. Структурированные открытые данные по последним санкциям есть в проекте OpenSanctions [2]. Там данные не только в отношении России или Республики Беларусь.

3. Apple приостанавливает работу в России [3]. В каком-то смысле ожидаемо.

Ссылки:
[1] https://github.com/github/feedback/discussions/12042
[2] https://www.opensanctions.org/recent/sanctions/
[3] https://www.macrumors.com/2022/03/01/apple-stops-product-sales-in-russia/

#sanctions #russia #situation #it
В сообществе Let's Encrypt обсуждают возможно ли применение санкций в отношении российских органов власти к сертификатам выданным для доменов *.gov.ru[1] [2].

Let's Encrypt - это не коммерческий провайдер, но они имеют институционализацию как проект некоммерческой организации Internet Security Research Group (ISRG) которые оформлены как юридическое лицо и которые могут быть обязаны санкции применять. Вопрос будут ли и если да то в какой форме. Пока можно предполагать что в "зоне риска" , в первую очередь, организации попавшие под санкции.

Но важно и то что на 3634 домена в зоне .gov.ru выданы сертификаты Let's Encrypt [3]. Это где-то в 25 раз больше чем все остальные удостоверяющие центры (примерно 96% всех сертификатов домены зоны .gov.ru).

Отдельный вопрос почему в России за все эти годы не появилось удостоверяющего центра включенного в доверенные на уровне операционных систем MacOSX, Windows, Android, IOS и др. В первую очередь такой сертификат позволял бы спецслужбам перехватывать трафик осуществляя атаку man-in-the-middle на HTTPS соединения.

Если массовые отзывы сертификатов у госдоменов начнутся, то в России могут попытаться распространить такой корневой сертификат с рекомендацией пользователям по его установке. Но пользователи, знающие о том что его можно использовать для перехвата трафика, могут категорически не хотеть его устанавливать.

Лично я бы точно постарался бы от этого воздержаться.

Ссылки:
[1] https://community.letsencrypt.org/t/how-will-us-eu-sanctions-on-russia-restrict-certificate-issuance/172835/4
[2] https://community.letsencrypt.org/t/help-ukrainians/172836/12
[3] https://crt.sh/?q=.gov.ru&dir=^&sort=4&group=icaid

#security #privacy #sanctions #tls #russia #https
Последние 14 лет я занимался некоммерческими проектами, в основном, в трех направлениях: открытые данные (как часть открытости гос-ва и компаний), простой язык и цифровая архивация.

Сейчас та ситуация когда открытость данных понадобиться в России уже очень нескоро. Как бы не закрыли всё что ранее открывалось. Простота языка - это важная тема для мирного времени, но мирного времени сейчас нет

Архивация

Поэтому актуальное сейчас- это сохранение новейшей истории. У Инфокультуры есть проект Национальный цифровой архив (ruarxive.org). В рамках которого идёт архивация сайтов, в первую очередь органов власти и проектов находящихся под риском исчезновения. Не всё, но многое сохранённое в рамках ruarxive.org хранится в Хабе открытых данных в разделе Архивы сайтов. Не всё потому что архивировать можно быстро, каталогизировать архивы потом долго и очень трудоёмко.

Похоже что в ближайшие месяцы - это станет основной задачей, заархивировать то что очень скоро может быть уничтожено, удалено, отключено, заблокировано. Наибольшие риски у отключения которое происходит при ликвидации организации. Например, ликвидация Мемориала или сейчас ликвидация Эха Москвы.

Мы будем архивировать всё что возможно и в ближайшее время разрабатывать инструменты которые позволяют делать эту архивации быстрее, эффективнее и лучше систематизировать собираемое.

Приоритетные задачи

Первоочередная задача сейчас - это архивация сайта Эхо Москвы (echo.msk.ru). Она уже запущена, но я не знаю есть ли у Эха Москвы другие онлайн ресурсы которые также могут быть закрыты. Если Вы знаете такие, напишите мне лично или в чате @begtinchat .

Вторая задача - составление списка и архивация иных информационных ресурсов которые могут исчезнуть в любой момент. Будь то сайты или телеграм каналы или что-либо ещё. Присылайте если Вы такие знаете. Политическая / идеологическая направленность не имеет значения, значение имеет лишь общественная ценность и риск исчезновения.

И прошу, пишите, если есть любые предложения по тому как исчезающие ресурсы лучше отслеживать, узнавать что они в зоне риска, какие критерии значимости можно использовать и всё остальное по критериям по которым можно признавать сайты и иные цифровые ресурсы значимыми.

Лично я планирую создать в ближайшее время отдельный телеграм канал для цифрового архива и перезапустить его присутствие в Интернете, как минимум в части поиска того что сохранено.

Почему это важно

Почему нельзя положится, например, на Интернет-архив archive.org ? Главная причина в том что archive.org работает как поисковая система, архивируя по критериям цитируемости. Если какая-то страница нигде не упоминается, то и вероятность что она окажется в Интернет архиве невелика. Кроме того Интернет-архив почти не сохраняет не-HTML документы. Он сохраняет часть картинок, не всегда, и совсем не сохраняет mp3, mp4 и другие мультимедиа файлы и очень ограниченно сохраняет файлы doc, xls и т.д., никогда не сохраняет архивы zip, gz и других.

В отличие от Интернет-архива мы делаем полный слепок _всего_ что есть на сайте. Это делается реже, но значительно полнее. А также архивируем каналы в Twitter, Instagram и Telegram.

И, конечно, поддержать проекты по архивации можно прямым донатом на Инфокультуру. Нас пока не признали инагентом или ещё чем-то и сколь долго сколь возможно наши проекты просуществуют. Пока это будет возможно - будем архивировать всё что важно и нужно.

#archive #ruarxive #webarchives #digitalpreservation
Темы связанные с цифровой архивацией сайтов, соц сетей и остального, я переношу в свежесозданный канал @ruarxive и обсуждение в чат @ruarxivechat. Подписывайтесь и подключайтесь к дискуссиям.

Напомню что я веду и соучаствую в нескольких телеграм каналах:
- мой личный телеграм канал @begtin он посвящён темам работы с данными, технологиями, открытостью и тд. Сейчас я в нём больше пишу про технологии в связи с последними событиями.
- телеграм Инфокультуры @infoculture нашей НКО со специализацией на технологических некоммерческих проектах
- APICrafter @apicrafter - телеграм канал коммерческого каталога данных, нашего стартапа с технологиями сбора, обработки и классификации данных data.apicrafter.ru

Теперь расширяю этот список каналом по цифровой архивации, которая будет во многом пересекаться с темой открытых данных, поскольку где это возможно там архивация будет включать создание наборов данных.

#digitalpreservation #webarchives #opendata #archives
Мы начали активную архивацию онлайн сайтов исчезающих в самое ближайшее время. Это включает перезапуск нашего сайта Национального цифрового архива (ruarxive.org), запуск этого телеграм канала ruarxive и переход к архивации наиболее уязвимых и значимых сайтов.

Какие риски возникают и почему архивация важна?

Существует много рисков: технические сбои, взломы хакеров, санкции, ошибка администраторов, изъятие серверов и ликвидация организаций/проектов. Ключевые риски сейчас в ликвидации проектов и организаций. Например, ликвидируется Эхо Москвы, а Znak.com одномоментно закрыл сайт.

Наша позиция в том что должны сохранятся все цифровые ресурсы, вне зависимости от их политической, идеологической и иной направленности, подпадающие одновременно под два критерия: общественная значимость и высокая вероятность исчезновения.

Как происходит архивация?

Как только выясняется какой сайт/цифровой ресурс может исчезнуть, он вносится в план архивации, мы определяем как его можно архивировать, максимально оперативно запускаем архивацию техническими инструментами и заполняем его карточку. Сейчас мы умеем архивировать сайты, телеграм каналы, аккаунты в инстаграм и твиттер и, ограниченно в других социальных сетях.

После окончания выгрузки файлы загружаются в наше онлайн хранилище, в облако Backblaze и оффлайн хранилище на случай их недоступности.
Итоговые файлы могут достигать сотен гигабайт, в случае веб архивов они представлены в форматах warc.gz, специальном формате созданном для веб-архивации.

Где можно увидеть что уже заархивировано?

Списки сайтов последних архивационных кампаний можно увидеть в специальной таблице на сервисе Airtable. Там же приведены ссылки на сохранённые сайты в рамках предыдущих двух архивационных кампаний сайтов Роснано и сайтов Мемориала. Также доступны архивы за прошлые годы, общий список можно скачать в CSV формате.

Файлы в формате WARC можно открыть с помощью программы ReplayWeb.page оффлайн, остальные архивы можно открыть любым архиватором поддерживающим ZIP и GZ файлы.

Сайт уже исчез, что делать?

Связаться с его владельцами и попросить поделиться архивом или написать нам в @ruarxivechat и мы постараемся это сделать.
Иногда сайт частично можно восстановить из других источников, таких как Интернет-архив если он имеет большую значимость мы попробуем это сделать.

Какие ещё есть проекты в этой области?

В нашем архиве далеко не всё, мы стараемся максимально полно сохранять то что исчезает, но широта его охвата ограничена. Мы не можем сделать полную копию всех каналов в Телеграм или всех сайтов. Если Вы ищите архивы цифровых материалов то обратите внимание на такие ресурсы как Archive.org, Common Crawl и проекты ArchiveTeam.

Как помочь?

1. Финансовое пожертвование Инфокультуре - https://www.infoculture.ru/donation/. Средства идут на сервера и оплату облачного хранения.
2. Сообщить о том что сайт/ресурс может исчезнуть чтобы мы успели его сохранить. Можно написать в чат @ruarxivechat или заполнить форму
3. Передать архивы сайта/ресурса в случае если он ранее исчез.
4. Помочь с разработкой инструментов для архивации сложных ресурсов - VK, Facebook, каналы и чаты в WhatsApp, Viber и других. Есть много других технических задач, мы их собираем
5. Пожертвовав диски/системы хранения/компьютеры для оффлайн хранения и сбора данных.
6. Присоединяйтесь к обсуждениям в чате @ruarxivechat

#webarchives #digitalpreservation #archives
Собран и загружается архив Эха Москвы.

На текущий момент доступны сведения аккаунта в телеграм, сообщества в ВК и архив сайта.

Телеграм
Архив официального аккаунта Эха Москвы в телеграм [1] составляет 18GB и включает все опубликованные сообщения, видео, медиафайлы и изображения. Это более 50 тысяч заметок. Большую часть архива составляют видеофайлы, около 16GB. Архив создан с помощью экспорта данных Telegram Desktop

Сообщество в ВК
Архив сообщества в ВК составляет 134MB и включает только текст более чем 99 тысяч заметок в опубликованных в сообществе [2]. Архив собран волонтёром с помощью API VK.

Официальный сайт Эха Москвы

Архив официального сайта Эха Москвы (echo.msk.ru) собирался 3-4 марта, составляет примерно 176GB, включает веб страницы и mp3 файлы подкастов. Сейчас архив загружается в онлайн хранилище и готовится для облачного хранения. Из-за его объёмов одной из задач является разделение его на части или создание над ним веб интерфейса.

О архиве сайта я напишу ещё подробнее позже, по готовности.

Ссылка:
[1] https://cdn.ruarxive.org/public/webcollect2022/echomskru2022/echomskru_telegram/echomskru_20220303.zip
[2] https://cdn.ruarxive.org/public/webcollect2022/echomskru2022/echomskru_vk/echomsk_vk_20220303.zip

#digitalpreservation #webarchives #archives #echomskru
Желающих выгрузить архивы Эха Москвы оказалось так много что наш сервер с трудом справляется с нагрузкой. Архивный слепок с экспортом Телеграм канала радиостанции может быть сейчас недоступен какое-то время, мы заливаем его в облачное хранилище чтобы решить проблемы с возросшим трафиком на наш сервер. Архив сообщества ВК доступен уже сейчас.

Также, архив сайта Эха Москвы сейчас загружается сразу в облачное хранилище, он скоро будет доступен для выгрузки сразу.

Архив Новой газеты

Пока мы загружаем в архив Эха Москвы, завершена загрузка Телеграм канала Новой Газеты, архив доступен по ссылке [1]. Это 20ГБ, в основном видеофайлов. А также их сайта и всех их спецпроектов. Хотя сайт Новой газеты и их соцсети ещё работают, но они рассматриваются как находящиеся в зоне риска. Общий список загруженных архивов доступен в таблице План архивации [2].

Ссылки:
[1] https://cdn.ruarxive.org/public/webcollect2022/novayagazeta2022/novayagazeta.ru_telegram/novayagazeta_telegram_20220304.zip
[2] https://airtable.com/shrO1hise7WgURXg5

#webarchives #archives #digitalpreservation
Архив сайта Эха Москвы (echo.msk.ru) загружен в облако и готов к выгрузке. Его содержание 63299 файлов из которых 7364 файла - это аудио записи в виде mp3 файлов.

Полный список всех файлов можно скачать по ссылке [1]. Это файл в формате CDX, значений разделённых пробелами, с указанием каждой ссылки и дополнительной информации о файле. Подробнее об этом формате в его спецификации [2]. CDX файл небольшой, из него можно понять содержание архива.

Архив в формате WARC доступен по ссылке [3]. Это файл архива в 173GB (осторожно! не выгружайте его на мобильные телефоны, он слишком велик). О том как работать с этими файлами я подробно написал ранее [4].

Желающие могут скачать и раздать архив как торрент, а как только появятся зеркала откуда можно будет скачать этот архив, то они будут перечислены на этом канале @ruarxive. Вопросы и обсуждения, напомню, в чате @ruarxivechat.

Ссылки:
[1] https://f001.backblazeb2.com/file/IKPUBLIC/webcollect2022/echomskru2022/echo.msk.ru/echo.msk.ru.cdx.zip
[2] https://iipc.github.io/warc-specifications/specifications/cdx-format/cdx-2015/
[3] https://f001.backblazeb2.com/file/IKPUBLIC/webcollect2022/echomskru2022/echo.msk.ru/echo.msk.ru.warc.gz
[4] https://t.me/ruarxive/5

#webarchives #digitalpreservation #archives
О том как сохранять видео файлы с Youtube.

Для архивации с Youtube наиболее популярный инструмент youtube-dl [1] это утилита для командной строки где можно указать ссылку на видео и формат сохранения и скачать локально файл с видео или аудиозаписью.

Для тех кто не привык работать с командной строки, есть несколько инструментов создания пользовательских интерфейсов над этой утилитой:
- Open Video Downloader (youtube-dl-gui) [2] - интерфейс над youtube-dl
- youtube-dlG [3] - интерфейс над youtube-dl
- dvd [4] - умеет архивировать не только Youtube, но и другие видео сайты
- Hitomi Downloder [5] - умеет архивировать изображения, видео и текст с десятков сайтов
- FireDM [6] - умеет выгружать обычные файлы и видеофайлы с YouTube

А также обязательно хочу напомнить про ArchiveBox [7] проект созданный специально для ведения личных архивов. Он поддерживает, в том числе, сохранение видеофайлов, а также много разных вариантов другого контента.

Ссылки:
[1] https://ytdl-org.github.io/youtube-dl/index.html
[2] https://github.com/jely2002/youtube-dl-gui
[3] https://github.com/MrS0m30n3/youtube-dl-gui
[4] https://github.com/yausername/dvd
[5] https://github.com/KurtBestor/Hitomi-Downloader
[6] https://github.com/firedm/FireDM
[7] https://archivebox.io/

#digitalpreservation #videoarchives #archives #tools