Честно говоря уже хочется вернуться к нормальным новостям и говорить про технологии, а не про последствия происходящего.
В качестве интересной новости - новой большой тренд в виде инвестиций в платформы обработки данных в реальном времени. Decodable [1] и Red Panda [2], стартапы в этой области, привлекли $20M и $50M соответственно. Большие инвестиции и интересные проекты.
Red Panda - это заменитель Kafka, позиционируют себя как более быстрый и продвинутый продукт, к тому же с открытым кодом и не связанный с JVM, но с Kafka совместимый.
Decodable - это движок по созданию труб данных программируемых как SQL запросы. Лично по мне так это весьма экзотичный подход, но, видимо, он работает. Kafka он не заменяет, но интегрируется.
Ссылки:
[1] https://www.decodable.co/blog/decodable-closes-20m-round
[2] https://redpanda.com/blog/redpanda-series-b-funding-future-of-streaming-data/
#datatools #datapipelines #realtimedata #startups #opensource
В качестве интересной новости - новой большой тренд в виде инвестиций в платформы обработки данных в реальном времени. Decodable [1] и Red Panda [2], стартапы в этой области, привлекли $20M и $50M соответственно. Большие инвестиции и интересные проекты.
Red Panda - это заменитель Kafka, позиционируют себя как более быстрый и продвинутый продукт, к тому же с открытым кодом и не связанный с JVM, но с Kafka совместимый.
Decodable - это движок по созданию труб данных программируемых как SQL запросы. Лично по мне так это весьма экзотичный подход, но, видимо, он работает. Kafka он не заменяет, но интегрируется.
Ссылки:
[1] https://www.decodable.co/blog/decodable-closes-20m-round
[2] https://redpanda.com/blog/redpanda-series-b-funding-future-of-streaming-data/
#datatools #datapipelines #realtimedata #startups #opensource
www.decodable.co
Press Release: Decodable raises $20m Series A Funding - Decodable
Decodable, the real-time data engineering company, today announced that it has raised more than $20 million in Series A funding led by Venrock and Bain Capital Ventures, with participation from additional investors
Моя основная некоммерческая аффилиация связана с АНО "Информационная культура" (@infoculture), я являюсь её соучредителем и руководителем вот уже много лет. От лица АНО я присоединяюсь к обращению российских НКО. Война - это гуманитарная катастрофа, она должна быть остановлена.
#nowar
#nowar
Forwarded from Инфокультура
АНО "Инфокультура" присоединяется к заявлению российских НКО.
Мы выступаем против военных действий, которые наша страна осуществляет на территории Украины.
Вся наша работа – это борьба за достоинство человека, спасение жизней. Война несовместима ни с жизнью, ни с достоинством, ни с базовыми принципами человечности. Война – это гуманитарная катастрофа, которая множит боль и страдания. Её последствия сводят на нет наши многолетние усилия.
Мы считаем бесчеловечными силовые методы решения политических конфликтов и призываем вас к прекращению огня и началу переговоров.
#nowar
Мы выступаем против военных действий, которые наша страна осуществляет на территории Украины.
Вся наша работа – это борьба за достоинство человека, спасение жизней. Война несовместима ни с жизнью, ни с достоинством, ни с базовыми принципами человечности. Война – это гуманитарная катастрофа, которая множит боль и страдания. Её последствия сводят на нет наши многолетние усилия.
Мы считаем бесчеловечными силовые методы решения политических конфликтов и призываем вас к прекращению огня и началу переговоров.
#nowar
Google Docs
Обращение российских НКО о прекращении войны
Господин президент,
Мы выступаем против военных действий, которые наша страна осуществляет на территории Украины.
Вся наша работа – это борьба за достоинство человека, спасение жизней. Война несовместима ни с жизнью, ни с достоинством, ни с базовыми принципами…
Мы выступаем против военных действий, которые наша страна осуществляет на территории Украины.
Вся наша работа – это борьба за достоинство человека, спасение жизней. Война несовместима ни с жизнью, ни с достоинством, ни с базовыми принципами…
Ещё один инструмент по оркестрации (всё никак не могу подобрать более точное и благозвучное название) данных Kestra [1], у них в блоге история кейса использования в Leroy Merlin [2]. Точнее всего было бы его сравнить с Meltano, Dagster и Airflow. Поддерживает несколько десятков источников данных, написан на Java и доступен с открытым кодом [3].
Официальный анонс продукта был 3 недели назад [4], хотя разработка началась ещё в 2019 году.
На что стоит обратить внимание:
- внутри всё работает на Kafka
- интеграция с Terraform
- для хранения данных используется Minio или GCS Storage
Не вполне очевидно как там происходит обработка данных, видимо через разного рода программируемые задачи которые описаны в документации.
Ссылки:
[1] https://kestra.io/
[2] https://medium.com/@kestra-io/how-leroy-merlin-managed-their-cloud-data-pipelines-with-kestra-9932ea66b517
[3] https://github.com/kestra-io/kestra
[4] https://kestra.io/blogs/2022-02-01-kestra-opensource.html
#opensource #datapipelines #dataorchestration
Официальный анонс продукта был 3 недели назад [4], хотя разработка началась ещё в 2019 году.
На что стоит обратить внимание:
- внутри всё работает на Kafka
- интеграция с Terraform
- для хранения данных используется Minio или GCS Storage
Не вполне очевидно как там происходит обработка данных, видимо через разного рода программируемые задачи которые описаны в документации.
Ссылки:
[1] https://kestra.io/
[2] https://medium.com/@kestra-io/how-leroy-merlin-managed-their-cloud-data-pipelines-with-kestra-9932ea66b517
[3] https://github.com/kestra-io/kestra
[4] https://kestra.io/blogs/2022-02-01-kestra-opensource.html
#opensource #datapipelines #dataorchestration
kestra.io
Kestra, Open Source Declarative Data Orchestration
Use declarative language to build simpler, faster, scalable and flexible data pipelines
Каков объём инвестиций в компании создающие продукты по работе с данными? За 2021 год - это около $7 миллиардов долларов США. В обзоре Fundraising by data companies in 2021 [1] компании приведены по категориям:
- Data Platform & Infra
- Database & SQL
- ETL & Reverse ETL
- Data quality & observability
- Metadata & data governance
- BI & Dataviz
- AI & ML
Более всего средств привлекли:
- Databricks универсальная платформа по сбору и обработке и хранению данных, в общей сложности $2.6 миллиарда [2]
- Fivetran [3] онлайн сервис сбора данных и их доставки привлекли $565 миллионов
- Collibra [4] корпоративный каталог данных привлекли $250 миллионов
- Dataiku [5] продукт по совместной работе дата сайентистов привлекли $400 миллионов
- Neo4J [6] графовая NoSQL база данных, $325 миллионов
В обзоре только относительно крупные инвестиции, видно что значительная их часть идет на стартапы связанные с ИИ и с облачной инфраструктурой.
Ссылки:
[1] https://adat.blog/2022/02/fundraising-by-data-companies-in-2021/
[2] https://databricks.com/
[3] https://www.fivetran.com/
[4] https://www.collibra.com/us/en
[5] https://www.dataiku.com/
[6] https://neo4j.com/
#startups #data #investments #dataproducts #cloud
- Data Platform & Infra
- Database & SQL
- ETL & Reverse ETL
- Data quality & observability
- Metadata & data governance
- BI & Dataviz
- AI & ML
Более всего средств привлекли:
- Databricks универсальная платформа по сбору и обработке и хранению данных, в общей сложности $2.6 миллиарда [2]
- Fivetran [3] онлайн сервис сбора данных и их доставки привлекли $565 миллионов
- Collibra [4] корпоративный каталог данных привлекли $250 миллионов
- Dataiku [5] продукт по совместной работе дата сайентистов привлекли $400 миллионов
- Neo4J [6] графовая NoSQL база данных, $325 миллионов
В обзоре только относительно крупные инвестиции, видно что значительная их часть идет на стартапы связанные с ИИ и с облачной инфраструктурой.
Ссылки:
[1] https://adat.blog/2022/02/fundraising-by-data-companies-in-2021/
[2] https://databricks.com/
[3] https://www.fivetran.com/
[4] https://www.collibra.com/us/en
[5] https://www.dataiku.com/
[6] https://neo4j.com/
#startups #data #investments #dataproducts #cloud
О том как собирать и загружать данные, я хочу напомнить про один из важнейших проектов в этой области - Singer [1]. Singer - это open source стандарт по перемещению данных и работающий с командной строки.
Основными концепциями в Singer являются tap (на русский язык можно перевести как вентиль) и target (по-русски это будет цель).
Основная идея в том что процессы извлечения данных (extraction) и загрузки (load) являются довольно типовыми и укладываются стандартные файловые потоки. А то есть можно перенаправлять ввод вывод как между приложениями командной строки и получать результат.
Пример вызова команд в Singer выглядят примерно так: tap-exchangeratesapi | target-csv
Все цели и вентили пишутся на Python, всего их довольно много уже создано, а у проекта есть коммерческий интересант Stitch [2] которые и выложили его как открытый код. А сами Stitch предоставляют облачный сервис для работы с потоками данных.
Но используют Singer не только Stitch, его используют многие другие коммерческие и open source решения. Например, Singer лежит в основе Meltano [3] и ещё ряда инструментов. Хотя вот в случае Airbyte, другого инструмент для ETL, его создатели пишут что у Singer много недостатков и поэтому они его не используют [4].
Конечное решение можно принять самостоятельно. Лично я вижу пока ключевым недостатком Singer - в разном качестве вентилей и уровне их поддержки. А также почти полным отсутствием российские сервисов - Яндекс.Метрики, к примеру. Впрочем не факт что эти недостатки затмевают возможности.
Ссылки:
[1] https://www.singer.io/
[2] https://www.stitchdata.com
[3] https://hub.meltano.com/singer/taps/
[4] https://airbyte.com/blog/why-you-should-not-build-your-data-pipeline-on-top-of-singer
#datatools #opensource #datapipelines
Основными концепциями в Singer являются tap (на русский язык можно перевести как вентиль) и target (по-русски это будет цель).
Основная идея в том что процессы извлечения данных (extraction) и загрузки (load) являются довольно типовыми и укладываются стандартные файловые потоки. А то есть можно перенаправлять ввод вывод как между приложениями командной строки и получать результат.
Пример вызова команд в Singer выглядят примерно так: tap-exchangeratesapi | target-csv
Все цели и вентили пишутся на Python, всего их довольно много уже создано, а у проекта есть коммерческий интересант Stitch [2] которые и выложили его как открытый код. А сами Stitch предоставляют облачный сервис для работы с потоками данных.
Но используют Singer не только Stitch, его используют многие другие коммерческие и open source решения. Например, Singer лежит в основе Meltano [3] и ещё ряда инструментов. Хотя вот в случае Airbyte, другого инструмент для ETL, его создатели пишут что у Singer много недостатков и поэтому они его не используют [4].
Конечное решение можно принять самостоятельно. Лично я вижу пока ключевым недостатком Singer - в разном качестве вентилей и уровне их поддержки. А также почти полным отсутствием российские сервисов - Яндекс.Метрики, к примеру. Впрочем не факт что эти недостатки затмевают возможности.
Ссылки:
[1] https://www.singer.io/
[2] https://www.stitchdata.com
[3] https://hub.meltano.com/singer/taps/
[4] https://airbyte.com/blog/why-you-should-not-build-your-data-pipeline-on-top-of-singer
#datatools #opensource #datapipelines
Singer
Singer | Open Source ETL
Simple, Composable, Open Source ETL
Пишут что Минцифры предложили перечень мер для поддержки ИТ отрасли [1]:
- распространить действующие налоговые льготы также на IT-компании, получающие доходы от размещения рекламы или оказания допуслуг в своих приложениях и онлайн-сервисах, а также от реализации, установки, тестирования и сопровождения партнёрских отечественных IT-продуктов;
- освободить на следующие 3 года всех сотрудников IТ-компаний от уплаты НДФЛ, а сами компании от уплаты налога на прибыль, а также освободить эти компании от проверок;
- предоставить всем сотрудникам IT-компаний льготную ипотеку со ставкой 5% на время работы;
- предоставить отсрочку от призыва на военную службу для сотрудников IT-компаний на время их работы в этих компаниях;
- ввести процедуры упрощённого получения разрешения на работу и вида на жительство для иностранных граждан, привлекаемых для работы в российских компаниях;
- предоставить компаниям гранты на разработку и развитие IT-продуктов;
- обеспечить ускоренное импортозамещение ПО на объектах критической информационной инфраструктуры;
- также обеспечить целевое финансирование на создание в России «зеркала» репозитория открытого ПО GitHub.
Будем честными, поможет это не всем. То есть ничего плохого в этих предложениях нет, просто радикально ситуацию они не исправят. Главная проблема сейчас в том происходит одновременно кадровый дефицит, резкое сжатие рынков, резкое ограничение кредитования и проблемы с ликвидностью.
У меня то есть пара предложений порадикальнее, но боюсь я что их ни Минцифра, ни правительство никогда не пойдут. Не криптовалюты надо легализовывать, не криптовалюты. Взгляд совсем не туда.
Ссылки:
[1] https://kod.ru/mintsifry-podderzhka-it-rus/
#russia #digital #it #government #policies
- распространить действующие налоговые льготы также на IT-компании, получающие доходы от размещения рекламы или оказания допуслуг в своих приложениях и онлайн-сервисах, а также от реализации, установки, тестирования и сопровождения партнёрских отечественных IT-продуктов;
- освободить на следующие 3 года всех сотрудников IТ-компаний от уплаты НДФЛ, а сами компании от уплаты налога на прибыль, а также освободить эти компании от проверок;
- предоставить всем сотрудникам IT-компаний льготную ипотеку со ставкой 5% на время работы;
- предоставить отсрочку от призыва на военную службу для сотрудников IT-компаний на время их работы в этих компаниях;
- ввести процедуры упрощённого получения разрешения на работу и вида на жительство для иностранных граждан, привлекаемых для работы в российских компаниях;
- предоставить компаниям гранты на разработку и развитие IT-продуктов;
- обеспечить ускоренное импортозамещение ПО на объектах критической информационной инфраструктуры;
- также обеспечить целевое финансирование на создание в России «зеркала» репозитория открытого ПО GitHub.
Будем честными, поможет это не всем. То есть ничего плохого в этих предложениях нет, просто радикально ситуацию они не исправят. Главная проблема сейчас в том происходит одновременно кадровый дефицит, резкое сжатие рынков, резкое ограничение кредитования и проблемы с ликвидностью.
У меня то есть пара предложений порадикальнее, но боюсь я что их ни Минцифра, ни правительство никогда не пойдут. Не криптовалюты надо легализовывать, не криптовалюты. Взгляд совсем не туда.
Ссылки:
[1] https://kod.ru/mintsifry-podderzhka-it-rus/
#russia #digital #it #government #policies
Код Дурова
Минцифры предложило меры для стабилизации и развития IT-отрасли
Минцифры обязали ускорить и актуализировать подготовку пакета мер поддержки, «исходя из текущей экономической ситуации».
Возвращаясь к мерам Минцифры России у меня целых два пакета мер, серьёзных и не очень серьёзных. Не буду вдаваться в подробности почему на них никогда не пойдут и какие сопутствующие риски у этого есть, просто зафиксирую.
Начну с серьёзных:
1. Обнуление отчислений в социальные фонды. Даже при сокращённых ставках для ИТ компаний, ФОТ - это основная статья расходов и отчисления с ФОТ - это основные налоги.
2. Значительное сокращение или обнуление НДФЛ для нерезидентов. Сейчас если брать на работу или по договору гражданина Казахстана или Армении и платить 30% - это очень много.
3. Легализация самозанятости в ИТ. Оно сейчас и так происходит, но все кто применяют схему с самозанятыми рискуют попасть под проверки УБЭПа, ФНС и тд. И многие уже нарываются.
4. Снижение давления правоохраны. Главные "страхи" ИТ бизнеса похожи на страхи всех остальных предпринимателей. Это не регуляторы и даже не контролёры, а правоохрана. Сюда же можно отнести Росфинмониторинг который сейчас особо внимательно следит за вновь созданными ИТ компаниями.
5. Упростить регистрацию ИТ компаний и дать возможность создавать юр. лица без помещений. Если кратко, то если нет проверок, то зачем юридическому лицу помещение когда все работают удалённо? С практикой покупки и оформления юридических адресов можно бороться, а можно узаконить. Пойти по пути разрешения регистрации юридических лиц дистанционно и без офиса и работающих только на экспорт. (Скорее всего невозможно из-за требований FATF)
6. Инфраструктурные и образовательные субсидии. После ФОТа вторые третьи по объёму расходы у ИТ бизнеса - это ИТ инфраструктура и доп. образование для сотрудников. Для первого все массово используют(-овали) зарубежные сервисы, для второго были попытки запуска обучения с господдержкой (очень неудачные). Нужны нормальные механизмы субсидирования использования ИТ инфраструктуры и обучения сотрудников.
А теперь с несерьёзных:
- легализация. Ну вы меня поняли, всего того что позволяет не сойти с ума и пропаганда легализации чего запрещена. Можно начать со стен Минцифры, технопарков, инновационных городков и тд. Сами придумайте что такого можно легализовать, чтобы все тут не посходили с ума. Продажу нарезного оружия например или частных реактивных самолётов или что-то чего-то здесь не перечисленного.
- ввести звание "заслуженного труженника" и "народного артиста" технологической отрасли. А то столько артефактов советской эпохи осталось со времен Советского союза со всеми этими заслуженными учеными и артистами, а в ИТ ничего такого нет. Так надо ввести, и медаль какую-нибудь отраслевую. А то ведь в качестве обстоятельства, смягчающего наказание выступает наличие государственных и ведомственных наград... Поэтому каждый министр и замминистра и руководитель департамента знает что госнаграда - этоне только ценный мех снижение срока отсидки, возможность домашнего ареста и тд.
—
Если честно, даже это всё поможет нам не очень, но хоть что-то и где-то.
#policies #it #russia #digital
Начну с серьёзных:
1. Обнуление отчислений в социальные фонды. Даже при сокращённых ставках для ИТ компаний, ФОТ - это основная статья расходов и отчисления с ФОТ - это основные налоги.
2. Значительное сокращение или обнуление НДФЛ для нерезидентов. Сейчас если брать на работу или по договору гражданина Казахстана или Армении и платить 30% - это очень много.
3. Легализация самозанятости в ИТ. Оно сейчас и так происходит, но все кто применяют схему с самозанятыми рискуют попасть под проверки УБЭПа, ФНС и тд. И многие уже нарываются.
4. Снижение давления правоохраны. Главные "страхи" ИТ бизнеса похожи на страхи всех остальных предпринимателей. Это не регуляторы и даже не контролёры, а правоохрана. Сюда же можно отнести Росфинмониторинг который сейчас особо внимательно следит за вновь созданными ИТ компаниями.
5. Упростить регистрацию ИТ компаний и дать возможность создавать юр. лица без помещений. Если кратко, то если нет проверок, то зачем юридическому лицу помещение когда все работают удалённо? С практикой покупки и оформления юридических адресов можно бороться, а можно узаконить. Пойти по пути разрешения регистрации юридических лиц дистанционно и без офиса и работающих только на экспорт. (Скорее всего невозможно из-за требований FATF)
6. Инфраструктурные и образовательные субсидии. После ФОТа вторые третьи по объёму расходы у ИТ бизнеса - это ИТ инфраструктура и доп. образование для сотрудников. Для первого все массово используют(-овали) зарубежные сервисы, для второго были попытки запуска обучения с господдержкой (очень неудачные). Нужны нормальные механизмы субсидирования использования ИТ инфраструктуры и обучения сотрудников.
А теперь с несерьёзных:
- легализация. Ну вы меня поняли, всего того что позволяет не сойти с ума и пропаганда легализации чего запрещена. Можно начать со стен Минцифры, технопарков, инновационных городков и тд. Сами придумайте что такого можно легализовать, чтобы все тут не посходили с ума. Продажу нарезного оружия например или частных реактивных самолётов или что-то чего-то здесь не перечисленного.
- ввести звание "заслуженного труженника" и "народного артиста" технологической отрасли. А то столько артефактов советской эпохи осталось со времен Советского союза со всеми этими заслуженными учеными и артистами, а в ИТ ничего такого нет. Так надо ввести, и медаль какую-нибудь отраслевую. А то ведь в качестве обстоятельства, смягчающего наказание выступает наличие государственных и ведомственных наград... Поэтому каждый министр и замминистра и руководитель департамента знает что госнаграда - это
—
Если честно, даже это всё поможет нам не очень, но хоть что-то и где-то.
#policies #it #russia #digital
В Firefox выдаётся теперь сообщение что у сайта Банка России отозвали cbr.ru сертификат. Аналогично при заходе на online.vtb.ru
В остальных браузерах пока такого нет, а вот SSLTest [1] показывает что сертификат действительно отозван.
Оба сертификата были выданы Thawte, официальных заявлений компании пока не было.
При этом даже у других сайтов Банка России, вроде сайта их университета, отзыва сертификата произошло [2].
Возможно отзывы сертификатов ограничатся только организациями под санкциями.
Ссылки:
[1] https://www.ssllabs.com/ssltest/analyze.html?d=cbr.ru
[2] https://university.cbr.ru/
#tsl #ssl #bankofrussia #security
В остальных браузерах пока такого нет, а вот SSLTest [1] показывает что сертификат действительно отозван.
Оба сертификата были выданы Thawte, официальных заявлений компании пока не было.
При этом даже у других сайтов Банка России, вроде сайта их университета, отзыва сертификата произошло [2].
Возможно отзывы сертификатов ограничатся только организациями под санкциями.
Ссылки:
[1] https://www.ssllabs.com/ssltest/analyze.html?d=cbr.ru
[2] https://university.cbr.ru/
#tsl #ssl #bankofrussia #security
Онлайн сервис поиска по данным/сайтам Algolia позволял указывать регион при создании проекта. Например, я создавал там текстовый поисковый индекс в российском регионе. Теперь они рекомендуют перенести его в регион Германия потому что есть риски потери связи с российским сегментом.
Вот такие дела. Какой-то Цифровой обитаемый остров получается.
#sanctions #networks #networkneutrality #russia
Вот такие дела. Какой-то Цифровой обитаемый остров получается.
#sanctions #networks #networkneutrality #russia
Я накопил уже больше 20 внутренних заметок про данные и технологии но писать о них кажется сейчас несвоевременным. Хотя мой канал всегда был коллекцией личных технологических заметок. Приходится говорить и думать о тех событиях которые относятся к отрасли и затрагивают её.
1. Администрация Github'а отказалась блокировать сервис для россиян. 9 часов назад они закрыли дискуссию на эту тему [1] упомянув что следуют требованиям правительства в части санкций и эмбарго, но считают что Github должен быть открытым для всех разработчиков.
2. Структурированные открытые данные по последним санкциям есть в проекте OpenSanctions [2]. Там данные не только в отношении России или Республики Беларусь.
3. Apple приостанавливает работу в России [3]. В каком-то смысле ожидаемо.
Ссылки:
[1] https://github.com/github/feedback/discussions/12042
[2] https://www.opensanctions.org/recent/sanctions/
[3] https://www.macrumors.com/2022/03/01/apple-stops-product-sales-in-russia/
#sanctions #russia #situation #it
1. Администрация Github'а отказалась блокировать сервис для россиян. 9 часов назад они закрыли дискуссию на эту тему [1] упомянув что следуют требованиям правительства в части санкций и эмбарго, но считают что Github должен быть открытым для всех разработчиков.
2. Структурированные открытые данные по последним санкциям есть в проекте OpenSanctions [2]. Там данные не только в отношении России или Республики Беларусь.
3. Apple приостанавливает работу в России [3]. В каком-то смысле ожидаемо.
Ссылки:
[1] https://github.com/github/feedback/discussions/12042
[2] https://www.opensanctions.org/recent/sanctions/
[3] https://www.macrumors.com/2022/03/01/apple-stops-product-sales-in-russia/
#sanctions #russia #situation #it
В сообществе Let's Encrypt обсуждают возможно ли применение санкций в отношении российских органов власти к сертификатам выданным для доменов *.gov.ru[1] [2].
Let's Encrypt - это не коммерческий провайдер, но они имеют институционализацию как проект некоммерческой организации Internet Security Research Group (ISRG) которые оформлены как юридическое лицо и которые могут быть обязаны санкции применять. Вопрос будут ли и если да то в какой форме. Пока можно предполагать что в "зоне риска" , в первую очередь, организации попавшие под санкции.
Но важно и то что на 3634 домена в зоне .gov.ru выданы сертификаты Let's Encrypt [3]. Это где-то в 25 раз больше чем все остальные удостоверяющие центры (примерно 96% всех сертификатов домены зоны .gov.ru).
Отдельный вопрос почему в России за все эти годы не появилось удостоверяющего центра включенного в доверенные на уровне операционных систем MacOSX, Windows, Android, IOS и др. В первую очередь такой сертификат позволял бы спецслужбам перехватывать трафик осуществляя атаку man-in-the-middle на HTTPS соединения.
Если массовые отзывы сертификатов у госдоменов начнутся, то в России могут попытаться распространить такой корневой сертификат с рекомендацией пользователям по его установке. Но пользователи, знающие о том что его можно использовать для перехвата трафика, могут категорически не хотеть его устанавливать.
Лично я бы точно постарался бы от этого воздержаться.
Ссылки:
[1] https://community.letsencrypt.org/t/how-will-us-eu-sanctions-on-russia-restrict-certificate-issuance/172835/4
[2] https://community.letsencrypt.org/t/help-ukrainians/172836/12
[3] https://crt.sh/?q=.gov.ru&dir=^&sort=4&group=icaid
#security #privacy #sanctions #tls #russia #https
Let's Encrypt - это не коммерческий провайдер, но они имеют институционализацию как проект некоммерческой организации Internet Security Research Group (ISRG) которые оформлены как юридическое лицо и которые могут быть обязаны санкции применять. Вопрос будут ли и если да то в какой форме. Пока можно предполагать что в "зоне риска" , в первую очередь, организации попавшие под санкции.
Но важно и то что на 3634 домена в зоне .gov.ru выданы сертификаты Let's Encrypt [3]. Это где-то в 25 раз больше чем все остальные удостоверяющие центры (примерно 96% всех сертификатов домены зоны .gov.ru).
Отдельный вопрос почему в России за все эти годы не появилось удостоверяющего центра включенного в доверенные на уровне операционных систем MacOSX, Windows, Android, IOS и др. В первую очередь такой сертификат позволял бы спецслужбам перехватывать трафик осуществляя атаку man-in-the-middle на HTTPS соединения.
Если массовые отзывы сертификатов у госдоменов начнутся, то в России могут попытаться распространить такой корневой сертификат с рекомендацией пользователям по его установке. Но пользователи, знающие о том что его можно использовать для перехвата трафика, могут категорически не хотеть его устанавливать.
Лично я бы точно постарался бы от этого воздержаться.
Ссылки:
[1] https://community.letsencrypt.org/t/how-will-us-eu-sanctions-on-russia-restrict-certificate-issuance/172835/4
[2] https://community.letsencrypt.org/t/help-ukrainians/172836/12
[3] https://crt.sh/?q=.gov.ru&dir=^&sort=4&group=icaid
#security #privacy #sanctions #tls #russia #https
Let's Encrypt Community Support
How will US/EU sanctions on Russia restrict certificate issuance?
I see there's something here about what happens in "ordinary times" and I see it's somewhat close to the DoC entity list: Certificates for US sanctioned countries - #4 by josh But right now the situation is precipitating really fast, with aircraft leasing…
Последние 14 лет я занимался некоммерческими проектами, в основном, в трех направлениях: открытые данные (как часть открытости гос-ва и компаний), простой язык и цифровая архивация.
Сейчас та ситуация когда открытость данных понадобиться в России уже очень нескоро. Как бы не закрыли всё что ранее открывалось. Простота языка - это важная тема для мирного времени, но мирного времени сейчас нет
Архивация
Поэтому актуальное сейчас- это сохранение новейшей истории. У Инфокультуры есть проект Национальный цифровой архив (ruarxive.org). В рамках которого идёт архивация сайтов, в первую очередь органов власти и проектов находящихся под риском исчезновения. Не всё, но многое сохранённое в рамках ruarxive.org хранится в Хабе открытых данных в разделе Архивы сайтов. Не всё потому что архивировать можно быстро, каталогизировать архивы потом долго и очень трудоёмко.
Похоже что в ближайшие месяцы - это станет основной задачей, заархивировать то что очень скоро может быть уничтожено, удалено, отключено, заблокировано. Наибольшие риски у отключения которое происходит при ликвидации организации. Например, ликвидация Мемориала или сейчас ликвидация Эха Москвы.
Мы будем архивировать всё что возможно и в ближайшее время разрабатывать инструменты которые позволяют делать эту архивации быстрее, эффективнее и лучше систематизировать собираемое.
Приоритетные задачи
Первоочередная задача сейчас - это архивация сайта Эхо Москвы (echo.msk.ru). Она уже запущена, но я не знаю есть ли у Эха Москвы другие онлайн ресурсы которые также могут быть закрыты. Если Вы знаете такие, напишите мне лично или в чате @begtinchat .
Вторая задача - составление списка и архивация иных информационных ресурсов которые могут исчезнуть в любой момент. Будь то сайты или телеграм каналы или что-либо ещё. Присылайте если Вы такие знаете. Политическая / идеологическая направленность не имеет значения, значение имеет лишь общественная ценность и риск исчезновения.
И прошу, пишите, если есть любые предложения по тому как исчезающие ресурсы лучше отслеживать, узнавать что они в зоне риска, какие критерии значимости можно использовать и всё остальное по критериям по которым можно признавать сайты и иные цифровые ресурсы значимыми.
Лично я планирую создать в ближайшее время отдельный телеграм канал для цифрового архива и перезапустить его присутствие в Интернете, как минимум в части поиска того что сохранено.
Почему это важно
Почему нельзя положится, например, на Интернет-архив archive.org ? Главная причина в том что archive.org работает как поисковая система, архивируя по критериям цитируемости. Если какая-то страница нигде не упоминается, то и вероятность что она окажется в Интернет архиве невелика. Кроме того Интернет-архив почти не сохраняет не-HTML документы. Он сохраняет часть картинок, не всегда, и совсем не сохраняет mp3, mp4 и другие мультимедиа файлы и очень ограниченно сохраняет файлы doc, xls и т.д., никогда не сохраняет архивы zip, gz и других.
В отличие от Интернет-архива мы делаем полный слепок _всего_ что есть на сайте. Это делается реже, но значительно полнее. А также архивируем каналы в Twitter, Instagram и Telegram.
И, конечно, поддержать проекты по архивации можно прямым донатом на Инфокультуру. Нас пока не признали инагентом или ещё чем-то и сколь долго сколь возможно наши проекты просуществуют. Пока это будет возможно - будем архивировать всё что важно и нужно.
#archive #ruarxive #webarchives #digitalpreservation
Сейчас та ситуация когда открытость данных понадобиться в России уже очень нескоро. Как бы не закрыли всё что ранее открывалось. Простота языка - это важная тема для мирного времени, но мирного времени сейчас нет
Архивация
Поэтому актуальное сейчас- это сохранение новейшей истории. У Инфокультуры есть проект Национальный цифровой архив (ruarxive.org). В рамках которого идёт архивация сайтов, в первую очередь органов власти и проектов находящихся под риском исчезновения. Не всё, но многое сохранённое в рамках ruarxive.org хранится в Хабе открытых данных в разделе Архивы сайтов. Не всё потому что архивировать можно быстро, каталогизировать архивы потом долго и очень трудоёмко.
Похоже что в ближайшие месяцы - это станет основной задачей, заархивировать то что очень скоро может быть уничтожено, удалено, отключено, заблокировано. Наибольшие риски у отключения которое происходит при ликвидации организации. Например, ликвидация Мемориала или сейчас ликвидация Эха Москвы.
Мы будем архивировать всё что возможно и в ближайшее время разрабатывать инструменты которые позволяют делать эту архивации быстрее, эффективнее и лучше систематизировать собираемое.
Приоритетные задачи
Первоочередная задача сейчас - это архивация сайта Эхо Москвы (echo.msk.ru). Она уже запущена, но я не знаю есть ли у Эха Москвы другие онлайн ресурсы которые также могут быть закрыты. Если Вы знаете такие, напишите мне лично или в чате @begtinchat .
Вторая задача - составление списка и архивация иных информационных ресурсов которые могут исчезнуть в любой момент. Будь то сайты или телеграм каналы или что-либо ещё. Присылайте если Вы такие знаете. Политическая / идеологическая направленность не имеет значения, значение имеет лишь общественная ценность и риск исчезновения.
И прошу, пишите, если есть любые предложения по тому как исчезающие ресурсы лучше отслеживать, узнавать что они в зоне риска, какие критерии значимости можно использовать и всё остальное по критериям по которым можно признавать сайты и иные цифровые ресурсы значимыми.
Лично я планирую создать в ближайшее время отдельный телеграм канал для цифрового архива и перезапустить его присутствие в Интернете, как минимум в части поиска того что сохранено.
Почему это важно
Почему нельзя положится, например, на Интернет-архив archive.org ? Главная причина в том что archive.org работает как поисковая система, архивируя по критериям цитируемости. Если какая-то страница нигде не упоминается, то и вероятность что она окажется в Интернет архиве невелика. Кроме того Интернет-архив почти не сохраняет не-HTML документы. Он сохраняет часть картинок, не всегда, и совсем не сохраняет mp3, mp4 и другие мультимедиа файлы и очень ограниченно сохраняет файлы doc, xls и т.д., никогда не сохраняет архивы zip, gz и других.
В отличие от Интернет-архива мы делаем полный слепок _всего_ что есть на сайте. Это делается реже, но значительно полнее. А также архивируем каналы в Twitter, Instagram и Telegram.
И, конечно, поддержать проекты по архивации можно прямым донатом на Инфокультуру. Нас пока не признали инагентом или ещё чем-то и сколь долго сколь возможно наши проекты просуществуют. Пока это будет возможно - будем архивировать всё что важно и нужно.
#archive #ruarxive #webarchives #digitalpreservation
Telegram
Инфокультура
Новости Информационной культуры. https://infoculture.ru
Темы связанные с цифровой архивацией сайтов, соц сетей и остального, я переношу в свежесозданный канал @ruarxive и обсуждение в чат @ruarxivechat. Подписывайтесь и подключайтесь к дискуссиям.
Напомню что я веду и соучаствую в нескольких телеграм каналах:
- мой личный телеграм канал @begtin он посвящён темам работы с данными, технологиями, открытостью и тд. Сейчас я в нём больше пишу про технологии в связи с последними событиями.
- телеграм Инфокультуры @infoculture нашей НКО со специализацией на технологических некоммерческих проектах
- APICrafter @apicrafter - телеграм канал коммерческого каталога данных, нашего стартапа с технологиями сбора, обработки и классификации данных data.apicrafter.ru
Теперь расширяю этот список каналом по цифровой архивации, которая будет во многом пересекаться с темой открытых данных, поскольку где это возможно там архивация будет включать создание наборов данных.
#digitalpreservation #webarchives #opendata #archives
Напомню что я веду и соучаствую в нескольких телеграм каналах:
- мой личный телеграм канал @begtin он посвящён темам работы с данными, технологиями, открытостью и тд. Сейчас я в нём больше пишу про технологии в связи с последними событиями.
- телеграм Инфокультуры @infoculture нашей НКО со специализацией на технологических некоммерческих проектах
- APICrafter @apicrafter - телеграм канал коммерческого каталога данных, нашего стартапа с технологиями сбора, обработки и классификации данных data.apicrafter.ru
Теперь расширяю этот список каналом по цифровой архивации, которая будет во многом пересекаться с темой открытых данных, поскольку где это возможно там архивация будет включать создание наборов данных.
#digitalpreservation #webarchives #opendata #archives
Forwarded from Национальный цифровой архив (Ivan Begtin)
Мы начали активную архивацию онлайн сайтов исчезающих в самое ближайшее время. Это включает перезапуск нашего сайта Национального цифрового архива (ruarxive.org), запуск этого телеграм канала ruarxive и переход к архивации наиболее уязвимых и значимых сайтов.
Какие риски возникают и почему архивация важна?
Существует много рисков: технические сбои, взломы хакеров, санкции, ошибка администраторов, изъятие серверов и ликвидация организаций/проектов. Ключевые риски сейчас в ликвидации проектов и организаций. Например, ликвидируется Эхо Москвы, а Znak.com одномоментно закрыл сайт.
Наша позиция в том что должны сохранятся все цифровые ресурсы, вне зависимости от их политической, идеологической и иной направленности, подпадающие одновременно под два критерия: общественная значимость и высокая вероятность исчезновения.
Как происходит архивация?
Как только выясняется какой сайт/цифровой ресурс может исчезнуть, он вносится в план архивации, мы определяем как его можно архивировать, максимально оперативно запускаем архивацию техническими инструментами и заполняем его карточку. Сейчас мы умеем архивировать сайты, телеграм каналы, аккаунты в инстаграм и твиттер и, ограниченно в других социальных сетях.
После окончания выгрузки файлы загружаются в наше онлайн хранилище, в облако Backblaze и оффлайн хранилище на случай их недоступности.
Итоговые файлы могут достигать сотен гигабайт, в случае веб архивов они представлены в форматах warc.gz, специальном формате созданном для веб-архивации.
Где можно увидеть что уже заархивировано?
Списки сайтов последних архивационных кампаний можно увидеть в специальной таблице на сервисе Airtable. Там же приведены ссылки на сохранённые сайты в рамках предыдущих двух архивационных кампаний сайтов Роснано и сайтов Мемориала. Также доступны архивы за прошлые годы, общий список можно скачать в CSV формате.
Файлы в формате WARC можно открыть с помощью программы ReplayWeb.page оффлайн, остальные архивы можно открыть любым архиватором поддерживающим ZIP и GZ файлы.
Сайт уже исчез, что делать?
Связаться с его владельцами и попросить поделиться архивом или написать нам в @ruarxivechat и мы постараемся это сделать.
Иногда сайт частично можно восстановить из других источников, таких как Интернет-архив если он имеет большую значимость мы попробуем это сделать.
Какие ещё есть проекты в этой области?
В нашем архиве далеко не всё, мы стараемся максимально полно сохранять то что исчезает, но широта его охвата ограничена. Мы не можем сделать полную копию всех каналов в Телеграм или всех сайтов. Если Вы ищите архивы цифровых материалов то обратите внимание на такие ресурсы как Archive.org, Common Crawl и проекты ArchiveTeam.
Как помочь?
1. Финансовое пожертвование Инфокультуре - https://www.infoculture.ru/donation/. Средства идут на сервера и оплату облачного хранения.
2. Сообщить о том что сайт/ресурс может исчезнуть чтобы мы успели его сохранить. Можно написать в чат @ruarxivechat или заполнить форму
3. Передать архивы сайта/ресурса в случае если он ранее исчез.
4. Помочь с разработкой инструментов для архивации сложных ресурсов - VK, Facebook, каналы и чаты в WhatsApp, Viber и других. Есть много других технических задач, мы их собираем
5. Пожертвовав диски/системы хранения/компьютеры для оффлайн хранения и сбора данных.
6. Присоединяйтесь к обсуждениям в чате @ruarxivechat
#webarchives #digitalpreservation #archives
Какие риски возникают и почему архивация важна?
Существует много рисков: технические сбои, взломы хакеров, санкции, ошибка администраторов, изъятие серверов и ликвидация организаций/проектов. Ключевые риски сейчас в ликвидации проектов и организаций. Например, ликвидируется Эхо Москвы, а Znak.com одномоментно закрыл сайт.
Наша позиция в том что должны сохранятся все цифровые ресурсы, вне зависимости от их политической, идеологической и иной направленности, подпадающие одновременно под два критерия: общественная значимость и высокая вероятность исчезновения.
Как происходит архивация?
Как только выясняется какой сайт/цифровой ресурс может исчезнуть, он вносится в план архивации, мы определяем как его можно архивировать, максимально оперативно запускаем архивацию техническими инструментами и заполняем его карточку. Сейчас мы умеем архивировать сайты, телеграм каналы, аккаунты в инстаграм и твиттер и, ограниченно в других социальных сетях.
После окончания выгрузки файлы загружаются в наше онлайн хранилище, в облако Backblaze и оффлайн хранилище на случай их недоступности.
Итоговые файлы могут достигать сотен гигабайт, в случае веб архивов они представлены в форматах warc.gz, специальном формате созданном для веб-архивации.
Где можно увидеть что уже заархивировано?
Списки сайтов последних архивационных кампаний можно увидеть в специальной таблице на сервисе Airtable. Там же приведены ссылки на сохранённые сайты в рамках предыдущих двух архивационных кампаний сайтов Роснано и сайтов Мемориала. Также доступны архивы за прошлые годы, общий список можно скачать в CSV формате.
Файлы в формате WARC можно открыть с помощью программы ReplayWeb.page оффлайн, остальные архивы можно открыть любым архиватором поддерживающим ZIP и GZ файлы.
Сайт уже исчез, что делать?
Связаться с его владельцами и попросить поделиться архивом или написать нам в @ruarxivechat и мы постараемся это сделать.
Иногда сайт частично можно восстановить из других источников, таких как Интернет-архив если он имеет большую значимость мы попробуем это сделать.
Какие ещё есть проекты в этой области?
В нашем архиве далеко не всё, мы стараемся максимально полно сохранять то что исчезает, но широта его охвата ограничена. Мы не можем сделать полную копию всех каналов в Телеграм или всех сайтов. Если Вы ищите архивы цифровых материалов то обратите внимание на такие ресурсы как Archive.org, Common Crawl и проекты ArchiveTeam.
Как помочь?
1. Финансовое пожертвование Инфокультуре - https://www.infoculture.ru/donation/. Средства идут на сервера и оплату облачного хранения.
2. Сообщить о том что сайт/ресурс может исчезнуть чтобы мы успели его сохранить. Можно написать в чат @ruarxivechat или заполнить форму
3. Передать архивы сайта/ресурса в случае если он ранее исчез.
4. Помочь с разработкой инструментов для архивации сложных ресурсов - VK, Facebook, каналы и чаты в WhatsApp, Viber и других. Есть много других технических задач, мы их собираем
5. Пожертвовав диски/системы хранения/компьютеры для оффлайн хранения и сбора данных.
6. Присоединяйтесь к обсуждениям в чате @ruarxivechat
#webarchives #digitalpreservation #archives
Telegram
Национальный цифровой архив
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Forwarded from Национальный цифровой архив (Ivan Begtin)
Собран и загружается архив Эха Москвы.
На текущий момент доступны сведения аккаунта в телеграм, сообщества в ВК и архив сайта.
Телеграм
Архив официального аккаунта Эха Москвы в телеграм [1] составляет 18GB и включает все опубликованные сообщения, видео, медиафайлы и изображения. Это более 50 тысяч заметок. Большую часть архива составляют видеофайлы, около 16GB. Архив создан с помощью экспорта данных Telegram Desktop
Сообщество в ВК
Архив сообщества в ВК составляет 134MB и включает только текст более чем 99 тысяч заметок в опубликованных в сообществе [2]. Архив собран волонтёром с помощью API VK.
Официальный сайт Эха Москвы
Архив официального сайта Эха Москвы (echo.msk.ru) собирался 3-4 марта, составляет примерно 176GB, включает веб страницы и mp3 файлы подкастов. Сейчас архив загружается в онлайн хранилище и готовится для облачного хранения. Из-за его объёмов одной из задач является разделение его на части или создание над ним веб интерфейса.
О архиве сайта я напишу ещё подробнее позже, по готовности.
Ссылка:
[1] https://cdn.ruarxive.org/public/webcollect2022/echomskru2022/echomskru_telegram/echomskru_20220303.zip
[2] https://cdn.ruarxive.org/public/webcollect2022/echomskru2022/echomskru_vk/echomsk_vk_20220303.zip
#digitalpreservation #webarchives #archives #echomskru
На текущий момент доступны сведения аккаунта в телеграм, сообщества в ВК и архив сайта.
Телеграм
Архив официального аккаунта Эха Москвы в телеграм [1] составляет 18GB и включает все опубликованные сообщения, видео, медиафайлы и изображения. Это более 50 тысяч заметок. Большую часть архива составляют видеофайлы, около 16GB. Архив создан с помощью экспорта данных Telegram Desktop
Сообщество в ВК
Архив сообщества в ВК составляет 134MB и включает только текст более чем 99 тысяч заметок в опубликованных в сообществе [2]. Архив собран волонтёром с помощью API VK.
Официальный сайт Эха Москвы
Архив официального сайта Эха Москвы (echo.msk.ru) собирался 3-4 марта, составляет примерно 176GB, включает веб страницы и mp3 файлы подкастов. Сейчас архив загружается в онлайн хранилище и готовится для облачного хранения. Из-за его объёмов одной из задач является разделение его на части или создание над ним веб интерфейса.
О архиве сайта я напишу ещё подробнее позже, по готовности.
Ссылка:
[1] https://cdn.ruarxive.org/public/webcollect2022/echomskru2022/echomskru_telegram/echomskru_20220303.zip
[2] https://cdn.ruarxive.org/public/webcollect2022/echomskru2022/echomskru_vk/echomsk_vk_20220303.zip
#digitalpreservation #webarchives #archives #echomskru
Forwarded from Национальный цифровой архив (Ivan Begtin)
Желающих выгрузить архивы Эха Москвы оказалось так много что наш сервер с трудом справляется с нагрузкой. Архивный слепок с экспортом Телеграм канала радиостанции может быть сейчас недоступен какое-то время, мы заливаем его в облачное хранилище чтобы решить проблемы с возросшим трафиком на наш сервер. Архив сообщества ВК доступен уже сейчас.
Также, архив сайта Эха Москвы сейчас загружается сразу в облачное хранилище, он скоро будет доступен для выгрузки сразу.
Архив Новой газеты
Пока мы загружаем в архив Эха Москвы, завершена загрузка Телеграм канала Новой Газеты, архив доступен по ссылке [1]. Это 20ГБ, в основном видеофайлов. А также их сайта и всех их спецпроектов. Хотя сайт Новой газеты и их соцсети ещё работают, но они рассматриваются как находящиеся в зоне риска. Общий список загруженных архивов доступен в таблице План архивации [2].
Ссылки:
[1] https://cdn.ruarxive.org/public/webcollect2022/novayagazeta2022/novayagazeta.ru_telegram/novayagazeta_telegram_20220304.zip
[2] https://airtable.com/shrO1hise7WgURXg5
#webarchives #archives #digitalpreservation
Также, архив сайта Эха Москвы сейчас загружается сразу в облачное хранилище, он скоро будет доступен для выгрузки сразу.
Архив Новой газеты
Пока мы загружаем в архив Эха Москвы, завершена загрузка Телеграм канала Новой Газеты, архив доступен по ссылке [1]. Это 20ГБ, в основном видеофайлов. А также их сайта и всех их спецпроектов. Хотя сайт Новой газеты и их соцсети ещё работают, но они рассматриваются как находящиеся в зоне риска. Общий список загруженных архивов доступен в таблице План архивации [2].
Ссылки:
[1] https://cdn.ruarxive.org/public/webcollect2022/novayagazeta2022/novayagazeta.ru_telegram/novayagazeta_telegram_20220304.zip
[2] https://airtable.com/shrO1hise7WgURXg5
#webarchives #archives #digitalpreservation
Airtable
Airtable | Everyone's app platform
Airtable is a low-code platform for building collaborative apps. Customize your workflow, collaborate, and achieve ambitious outcomes. Get started for free.
Forwarded from Национальный цифровой архив
Архив сайта Эха Москвы (echo.msk.ru) загружен в облако и готов к выгрузке. Его содержание 63299 файлов из которых 7364 файла - это аудио записи в виде mp3 файлов.
Полный список всех файлов можно скачать по ссылке [1]. Это файл в формате CDX, значений разделённых пробелами, с указанием каждой ссылки и дополнительной информации о файле. Подробнее об этом формате в его спецификации [2]. CDX файл небольшой, из него можно понять содержание архива.
Архив в формате WARC доступен по ссылке [3]. Это файл архива в 173GB (осторожно! не выгружайте его на мобильные телефоны, он слишком велик). О том как работать с этими файлами я подробно написал ранее [4].
Желающие могут скачать и раздать архив как торрент, а как только появятся зеркала откуда можно будет скачать этот архив, то они будут перечислены на этом канале @ruarxive. Вопросы и обсуждения, напомню, в чате @ruarxivechat.
Ссылки:
[1] https://f001.backblazeb2.com/file/IKPUBLIC/webcollect2022/echomskru2022/echo.msk.ru/echo.msk.ru.cdx.zip
[2] https://iipc.github.io/warc-specifications/specifications/cdx-format/cdx-2015/
[3] https://f001.backblazeb2.com/file/IKPUBLIC/webcollect2022/echomskru2022/echo.msk.ru/echo.msk.ru.warc.gz
[4] https://t.me/ruarxive/5
#webarchives #digitalpreservation #archives
Полный список всех файлов можно скачать по ссылке [1]. Это файл в формате CDX, значений разделённых пробелами, с указанием каждой ссылки и дополнительной информации о файле. Подробнее об этом формате в его спецификации [2]. CDX файл небольшой, из него можно понять содержание архива.
Архив в формате WARC доступен по ссылке [3]. Это файл архива в 173GB (осторожно! не выгружайте его на мобильные телефоны, он слишком велик). О том как работать с этими файлами я подробно написал ранее [4].
Желающие могут скачать и раздать архив как торрент, а как только появятся зеркала откуда можно будет скачать этот архив, то они будут перечислены на этом канале @ruarxive. Вопросы и обсуждения, напомню, в чате @ruarxivechat.
Ссылки:
[1] https://f001.backblazeb2.com/file/IKPUBLIC/webcollect2022/echomskru2022/echo.msk.ru/echo.msk.ru.cdx.zip
[2] https://iipc.github.io/warc-specifications/specifications/cdx-format/cdx-2015/
[3] https://f001.backblazeb2.com/file/IKPUBLIC/webcollect2022/echomskru2022/echo.msk.ru/echo.msk.ru.warc.gz
[4] https://t.me/ruarxive/5
#webarchives #digitalpreservation #archives
Forwarded from Национальный цифровой архив
О том как сохранять видео файлы с Youtube.
Для архивации с Youtube наиболее популярный инструмент youtube-dl [1] это утилита для командной строки где можно указать ссылку на видео и формат сохранения и скачать локально файл с видео или аудиозаписью.
Для тех кто не привык работать с командной строки, есть несколько инструментов создания пользовательских интерфейсов над этой утилитой:
- Open Video Downloader (youtube-dl-gui) [2] - интерфейс над youtube-dl
- youtube-dlG [3] - интерфейс над youtube-dl
- dvd [4] - умеет архивировать не только Youtube, но и другие видео сайты
- Hitomi Downloder [5] - умеет архивировать изображения, видео и текст с десятков сайтов
- FireDM [6] - умеет выгружать обычные файлы и видеофайлы с YouTube
А также обязательно хочу напомнить про ArchiveBox [7] проект созданный специально для ведения личных архивов. Он поддерживает, в том числе, сохранение видеофайлов, а также много разных вариантов другого контента.
Ссылки:
[1] https://ytdl-org.github.io/youtube-dl/index.html
[2] https://github.com/jely2002/youtube-dl-gui
[3] https://github.com/MrS0m30n3/youtube-dl-gui
[4] https://github.com/yausername/dvd
[5] https://github.com/KurtBestor/Hitomi-Downloader
[6] https://github.com/firedm/FireDM
[7] https://archivebox.io/
#digitalpreservation #videoarchives #archives #tools
Для архивации с Youtube наиболее популярный инструмент youtube-dl [1] это утилита для командной строки где можно указать ссылку на видео и формат сохранения и скачать локально файл с видео или аудиозаписью.
Для тех кто не привык работать с командной строки, есть несколько инструментов создания пользовательских интерфейсов над этой утилитой:
- Open Video Downloader (youtube-dl-gui) [2] - интерфейс над youtube-dl
- youtube-dlG [3] - интерфейс над youtube-dl
- dvd [4] - умеет архивировать не только Youtube, но и другие видео сайты
- Hitomi Downloder [5] - умеет архивировать изображения, видео и текст с десятков сайтов
- FireDM [6] - умеет выгружать обычные файлы и видеофайлы с YouTube
А также обязательно хочу напомнить про ArchiveBox [7] проект созданный специально для ведения личных архивов. Он поддерживает, в том числе, сохранение видеофайлов, а также много разных вариантов другого контента.
Ссылки:
[1] https://ytdl-org.github.io/youtube-dl/index.html
[2] https://github.com/jely2002/youtube-dl-gui
[3] https://github.com/MrS0m30n3/youtube-dl-gui
[4] https://github.com/yausername/dvd
[5] https://github.com/KurtBestor/Hitomi-Downloader
[6] https://github.com/firedm/FireDM
[7] https://archivebox.io/
#digitalpreservation #videoarchives #archives #tools
GitHub
GitHub - jely2002/youtube-dl-gui: A cross-platform GUI for youtube-dl made in Electron and node.js
A cross-platform GUI for youtube-dl made in Electron and node.js - jely2002/youtube-dl-gui