Forwarded from Ivan Begtin (Ivan Begtin)
В последнее время реже пишу в канал поскольку был занят к подготовкой к нескольким мероприятиям.
Сегодня в 10 утра доклад на экспертной площадке "Государство как платформа", всё онлайн (происходит в Москве).
А далее с 13 часов по московскому времени (15 по местному) в течение 4 часов в Ханты-Мансийске на ИТ форуме Югра на Форсайт-сессии "Сохранение документально-исторического наследия в эпоху цифровой трансформации" где буду рассказывать про проекты в рамках Национального цифрового архива [1].
Трансляция должна быть на сайте форума [2].
Презентацию я обязательно опубликую онлайн чуть позже пока же скажу что веб-архивация в частности и цифровая архивация - это моё давнее хобби которое стало частью работы в @infoculture. У неё есть историко-культурное применение, но есть и практическое, когда вопрос стоит об архивации, например, порталов открытых данных и иных баз данных.
Ссылки:
[1] https://ruarxive.org
[2] https://itforum.admhmao.ru/2021/
#events #data #government #archives #webarchives
Сегодня в 10 утра доклад на экспертной площадке "Государство как платформа", всё онлайн (происходит в Москве).
А далее с 13 часов по московскому времени (15 по местному) в течение 4 часов в Ханты-Мансийске на ИТ форуме Югра на Форсайт-сессии "Сохранение документально-исторического наследия в эпоху цифровой трансформации" где буду рассказывать про проекты в рамках Национального цифрового архива [1].
Трансляция должна быть на сайте форума [2].
Презентацию я обязательно опубликую онлайн чуть позже пока же скажу что веб-архивация в частности и цифровая архивация - это моё давнее хобби которое стало частью работы в @infoculture. У неё есть историко-культурное применение, но есть и практическое, когда вопрос стоит об архивации, например, порталов открытых данных и иных баз данных.
Ссылки:
[1] https://ruarxive.org
[2] https://itforum.admhmao.ru/2021/
#events #data #government #archives #webarchives
ruarxive.org
Russian national digital archive (ruarxive.org) | Russian national digital archive (ruarxive.org)
Archive of digital-born websites, data, images, video and other objects
Forwarded from Ivan Begtin (Ivan Begtin)
Темы связанные с цифровой архивацией сайтов, соц сетей и остального, я переношу в свежесозданный канал @ruarxive и обсуждение в чат @ruarxivechat. Подписывайтесь и подключайтесь к дискуссиям.
Напомню что я веду и соучаствую в нескольких телеграм каналах:
- мой личный телеграм канал @begtin он посвящён темам работы с данными, технологиями, открытостью и тд. Сейчас я в нём больше пишу про технологии в связи с последними событиями.
- телеграм Инфокультуры @infoculture нашей НКО со специализацией на технологических некоммерческих проектах
- APICrafter @apicrafter - телеграм канал коммерческого каталога данных, нашего стартапа с технологиями сбора, обработки и классификации данных data.apicrafter.ru
Теперь расширяю этот список каналом по цифровой архивации, которая будет во многом пересекаться с темой открытых данных, поскольку где это возможно там архивация будет включать создание наборов данных.
#digitalpreservation #webarchives #opendata #archives
Напомню что я веду и соучаствую в нескольких телеграм каналах:
- мой личный телеграм канал @begtin он посвящён темам работы с данными, технологиями, открытостью и тд. Сейчас я в нём больше пишу про технологии в связи с последними событиями.
- телеграм Инфокультуры @infoculture нашей НКО со специализацией на технологических некоммерческих проектах
- APICrafter @apicrafter - телеграм канал коммерческого каталога данных, нашего стартапа с технологиями сбора, обработки и классификации данных data.apicrafter.ru
Теперь расширяю этот список каналом по цифровой архивации, которая будет во многом пересекаться с темой открытых данных, поскольку где это возможно там архивация будет включать создание наборов данных.
#digitalpreservation #webarchives #opendata #archives
Forwarded from Национальный цифровой архив (Ivan Begtin)
Мы начали активную архивацию онлайн сайтов исчезающих в самое ближайшее время. Это включает перезапуск нашего сайта Национального цифрового архива (ruarxive.org), запуск этого телеграм канала ruarxive и переход к архивации наиболее уязвимых и значимых сайтов.
Какие риски возникают и почему архивация важна?
Существует много рисков: технические сбои, взломы хакеров, санкции, ошибка администраторов, изъятие серверов и ликвидация организаций/проектов. Ключевые риски сейчас в ликвидации проектов и организаций. Например, ликвидируется Эхо Москвы, а Znak.com одномоментно закрыл сайт.
Наша позиция в том что должны сохранятся все цифровые ресурсы, вне зависимости от их политической, идеологической и иной направленности, подпадающие одновременно под два критерия: общественная значимость и высокая вероятность исчезновения.
Как происходит архивация?
Как только выясняется какой сайт/цифровой ресурс может исчезнуть, он вносится в план архивации, мы определяем как его можно архивировать, максимально оперативно запускаем архивацию техническими инструментами и заполняем его карточку. Сейчас мы умеем архивировать сайты, телеграм каналы, аккаунты в инстаграм и твиттер и, ограниченно в других социальных сетях.
После окончания выгрузки файлы загружаются в наше онлайн хранилище, в облако Backblaze и оффлайн хранилище на случай их недоступности.
Итоговые файлы могут достигать сотен гигабайт, в случае веб архивов они представлены в форматах warc.gz, специальном формате созданном для веб-архивации.
Где можно увидеть что уже заархивировано?
Списки сайтов последних архивационных кампаний можно увидеть в специальной таблице на сервисе Airtable. Там же приведены ссылки на сохранённые сайты в рамках предыдущих двух архивационных кампаний сайтов Роснано и сайтов Мемориала. Также доступны архивы за прошлые годы, общий список можно скачать в CSV формате.
Файлы в формате WARC можно открыть с помощью программы ReplayWeb.page оффлайн, остальные архивы можно открыть любым архиватором поддерживающим ZIP и GZ файлы.
Сайт уже исчез, что делать?
Связаться с его владельцами и попросить поделиться архивом или написать нам в @ruarxivechat и мы постараемся это сделать.
Иногда сайт частично можно восстановить из других источников, таких как Интернет-архив если он имеет большую значимость мы попробуем это сделать.
Какие ещё есть проекты в этой области?
В нашем архиве далеко не всё, мы стараемся максимально полно сохранять то что исчезает, но широта его охвата ограничена. Мы не можем сделать полную копию всех каналов в Телеграм или всех сайтов. Если Вы ищите архивы цифровых материалов то обратите внимание на такие ресурсы как Archive.org, Common Crawl и проекты ArchiveTeam.
Как помочь?
1. Финансовое пожертвование Инфокультуре - https://www.infoculture.ru/donation/. Средства идут на сервера и оплату облачного хранения.
2. Сообщить о том что сайт/ресурс может исчезнуть чтобы мы успели его сохранить. Можно написать в чат @ruarxivechat или заполнить форму
3. Передать архивы сайта/ресурса в случае если он ранее исчез.
4. Помочь с разработкой инструментов для архивации сложных ресурсов - VK, Facebook, каналы и чаты в WhatsApp, Viber и других. Есть много других технических задач, мы их собираем
5. Пожертвовав диски/системы хранения/компьютеры для оффлайн хранения и сбора данных.
6. Присоединяйтесь к обсуждениям в чате @ruarxivechat
#webarchives #digitalpreservation #archives
Какие риски возникают и почему архивация важна?
Существует много рисков: технические сбои, взломы хакеров, санкции, ошибка администраторов, изъятие серверов и ликвидация организаций/проектов. Ключевые риски сейчас в ликвидации проектов и организаций. Например, ликвидируется Эхо Москвы, а Znak.com одномоментно закрыл сайт.
Наша позиция в том что должны сохранятся все цифровые ресурсы, вне зависимости от их политической, идеологической и иной направленности, подпадающие одновременно под два критерия: общественная значимость и высокая вероятность исчезновения.
Как происходит архивация?
Как только выясняется какой сайт/цифровой ресурс может исчезнуть, он вносится в план архивации, мы определяем как его можно архивировать, максимально оперативно запускаем архивацию техническими инструментами и заполняем его карточку. Сейчас мы умеем архивировать сайты, телеграм каналы, аккаунты в инстаграм и твиттер и, ограниченно в других социальных сетях.
После окончания выгрузки файлы загружаются в наше онлайн хранилище, в облако Backblaze и оффлайн хранилище на случай их недоступности.
Итоговые файлы могут достигать сотен гигабайт, в случае веб архивов они представлены в форматах warc.gz, специальном формате созданном для веб-архивации.
Где можно увидеть что уже заархивировано?
Списки сайтов последних архивационных кампаний можно увидеть в специальной таблице на сервисе Airtable. Там же приведены ссылки на сохранённые сайты в рамках предыдущих двух архивационных кампаний сайтов Роснано и сайтов Мемориала. Также доступны архивы за прошлые годы, общий список можно скачать в CSV формате.
Файлы в формате WARC можно открыть с помощью программы ReplayWeb.page оффлайн, остальные архивы можно открыть любым архиватором поддерживающим ZIP и GZ файлы.
Сайт уже исчез, что делать?
Связаться с его владельцами и попросить поделиться архивом или написать нам в @ruarxivechat и мы постараемся это сделать.
Иногда сайт частично можно восстановить из других источников, таких как Интернет-архив если он имеет большую значимость мы попробуем это сделать.
Какие ещё есть проекты в этой области?
В нашем архиве далеко не всё, мы стараемся максимально полно сохранять то что исчезает, но широта его охвата ограничена. Мы не можем сделать полную копию всех каналов в Телеграм или всех сайтов. Если Вы ищите архивы цифровых материалов то обратите внимание на такие ресурсы как Archive.org, Common Crawl и проекты ArchiveTeam.
Как помочь?
1. Финансовое пожертвование Инфокультуре - https://www.infoculture.ru/donation/. Средства идут на сервера и оплату облачного хранения.
2. Сообщить о том что сайт/ресурс может исчезнуть чтобы мы успели его сохранить. Можно написать в чат @ruarxivechat или заполнить форму
3. Передать архивы сайта/ресурса в случае если он ранее исчез.
4. Помочь с разработкой инструментов для архивации сложных ресурсов - VK, Facebook, каналы и чаты в WhatsApp, Viber и других. Есть много других технических задач, мы их собираем
5. Пожертвовав диски/системы хранения/компьютеры для оффлайн хранения и сбора данных.
6. Присоединяйтесь к обсуждениям в чате @ruarxivechat
#webarchives #digitalpreservation #archives
Telegram
Национальный цифровой архив
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Forwarded from Национальный цифровой архив
Для тех кто задумывается об архивации собственных материалов, полезные ссылки на руководства и инструменты которые можно использовать:
- получить свои данные в Twitter - сервис выгрузки всех собственных данных из социальной сети Twitter
- выгрузить данные из Facebook - возможность заказать все свои данные собранные в социальной сети Facebook
- гайд по быстрой архивации материалов - примеры инструментов для архивации сайтов, социальных сетей и т.д. с инструкциями по их использованию на русском языке
- Awesome data takeout - коллекция ссылок на инструменты архивации, включая ранее упомянутые выше. На английском языке
- Digital Preservation Handbook - руководство по цифровой архивации от коалиции цифровых архивов. Ориентировано, в первую очередь, на архивистов. Включает множество ссылок на действующие проекты помогающие в цифровой архивации. На английском языке
#webarchives #archives #digitalpreservation
- получить свои данные в Twitter - сервис выгрузки всех собственных данных из социальной сети Twitter
- выгрузить данные из Facebook - возможность заказать все свои данные собранные в социальной сети Facebook
- гайд по быстрой архивации материалов - примеры инструментов для архивации сайтов, социальных сетей и т.д. с инструкциями по их использованию на русском языке
- Awesome data takeout - коллекция ссылок на инструменты архивации, включая ранее упомянутые выше. На английском языке
- Digital Preservation Handbook - руководство по цифровой архивации от коалиции цифровых архивов. Ориентировано, в первую очередь, на архивистов. Включает множество ссылок на действующие проекты помогающие в цифровой архивации. На английском языке
#webarchives #archives #digitalpreservation
Facebook
Log in or sign up to view
See posts, photos and more on Facebook.
Forwarded from Национальный цифровой архив
О том как сохранять видео файлы с Youtube.
Для архивации с Youtube наиболее популярный инструмент youtube-dl [1] это утилита для командной строки где можно указать ссылку на видео и формат сохранения и скачать локально файл с видео или аудиозаписью.
Для тех кто не привык работать с командной строки, есть несколько инструментов создания пользовательских интерфейсов над этой утилитой:
- Open Video Downloader (youtube-dl-gui) [2] - интерфейс над youtube-dl
- youtube-dlG [3] - интерфейс над youtube-dl
- dvd [4] - умеет архивировать не только Youtube, но и другие видео сайты
- Hitomi Downloder [5] - умеет архивировать изображения, видео и текст с десятков сайтов
- FireDM [6] - умеет выгружать обычные файлы и видеофайлы с YouTube
А также обязательно хочу напомнить про ArchiveBox [7] проект созданный специально для ведения личных архивов. Он поддерживает, в том числе, сохранение видеофайлов, а также много разных вариантов другого контента.
Ссылки:
[1] https://ytdl-org.github.io/youtube-dl/index.html
[2] https://github.com/jely2002/youtube-dl-gui
[3] https://github.com/MrS0m30n3/youtube-dl-gui
[4] https://github.com/yausername/dvd
[5] https://github.com/KurtBestor/Hitomi-Downloader
[6] https://github.com/firedm/FireDM
[7] https://archivebox.io/
#digitalpreservation #videoarchives #archives #tools
Для архивации с Youtube наиболее популярный инструмент youtube-dl [1] это утилита для командной строки где можно указать ссылку на видео и формат сохранения и скачать локально файл с видео или аудиозаписью.
Для тех кто не привык работать с командной строки, есть несколько инструментов создания пользовательских интерфейсов над этой утилитой:
- Open Video Downloader (youtube-dl-gui) [2] - интерфейс над youtube-dl
- youtube-dlG [3] - интерфейс над youtube-dl
- dvd [4] - умеет архивировать не только Youtube, но и другие видео сайты
- Hitomi Downloder [5] - умеет архивировать изображения, видео и текст с десятков сайтов
- FireDM [6] - умеет выгружать обычные файлы и видеофайлы с YouTube
А также обязательно хочу напомнить про ArchiveBox [7] проект созданный специально для ведения личных архивов. Он поддерживает, в том числе, сохранение видеофайлов, а также много разных вариантов другого контента.
Ссылки:
[1] https://ytdl-org.github.io/youtube-dl/index.html
[2] https://github.com/jely2002/youtube-dl-gui
[3] https://github.com/MrS0m30n3/youtube-dl-gui
[4] https://github.com/yausername/dvd
[5] https://github.com/KurtBestor/Hitomi-Downloader
[6] https://github.com/firedm/FireDM
[7] https://archivebox.io/
#digitalpreservation #videoarchives #archives #tools
GitHub
GitHub - jely2002/youtube-dl-gui: A cross-platform GUI for youtube-dl made in Electron and node.js
A cross-platform GUI for youtube-dl made in Electron and node.js - jely2002/youtube-dl-gui
Forwarded from Национальный цифровой архив
Как устроены общественные проекты по цифровой архивации в мире
В мире существует много инициатив по цифровой архивации, это могут быть целевые проекты по архивации данных и кода, библиотек сканов старинных книг и многое другое. Чаще всего такие проекты инициируются государством или являются проектами госархивов и национальных библиотек. Но есть множество проектов которые созданы волонтерами для решения срочных задач, вот некоторые из них.
Climate Mirror (http://climatemirror.org/)
Зеркало данных о изменении климата. Данные собирались сообществом после прихода к власти Трампа и анонса удаления данных с государственных сайтов в США.
DataRefuge (https://www.datarefuge.org/)
Проект по сбору данных о изменении климата и состоянию окружающей среды. Также возник после действий администраций Трампа, включает архивацию данных, каталог, хакатоны по сбору данных и многое другое
End of term web archive (http://eotarchive.cdlib.org/)
Проект The End of Term Web Archive создан в Калифорнийской цифровой библиотеке при Университете Калифорнии и включает слепки всех государственных сайтов США за каждый выборный цикл: 2008, 2013, 2017 годов.
SUCHO (https://sucho.org)
Свежий проект по архивации объектов цифрового культурного наследия Украины, создан участникам из нескольких университетов в США, работает как волонтерский проект.
—
А также, конечно, важный проект ArchiveTeam (https://archiveteam.org) сообщества архивистов-активистов срочно архивирующих сайты, в первую очередь, крупнейших закрываемых проектов, например, соцсетей или сервисов коротких ссылок. Это особенно большой проект, о нем ещё напишу отдельно.
Важно то что все эти проекты основаны на открытости результатов, архивы не закрыты, не спрятаны, не складированы в неизвестном месте, а доступны для выгрузки.
#ruarxive #archives #webarchives #digitalpreservation
В мире существует много инициатив по цифровой архивации, это могут быть целевые проекты по архивации данных и кода, библиотек сканов старинных книг и многое другое. Чаще всего такие проекты инициируются государством или являются проектами госархивов и национальных библиотек. Но есть множество проектов которые созданы волонтерами для решения срочных задач, вот некоторые из них.
Climate Mirror (http://climatemirror.org/)
Зеркало данных о изменении климата. Данные собирались сообществом после прихода к власти Трампа и анонса удаления данных с государственных сайтов в США.
DataRefuge (https://www.datarefuge.org/)
Проект по сбору данных о изменении климата и состоянию окружающей среды. Также возник после действий администраций Трампа, включает архивацию данных, каталог, хакатоны по сбору данных и многое другое
End of term web archive (http://eotarchive.cdlib.org/)
Проект The End of Term Web Archive создан в Калифорнийской цифровой библиотеке при Университете Калифорнии и включает слепки всех государственных сайтов США за каждый выборный цикл: 2008, 2013, 2017 годов.
SUCHO (https://sucho.org)
Свежий проект по архивации объектов цифрового культурного наследия Украины, создан участникам из нескольких университетов в США, работает как волонтерский проект.
—
А также, конечно, важный проект ArchiveTeam (https://archiveteam.org) сообщества архивистов-активистов срочно архивирующих сайты, в первую очередь, крупнейших закрываемых проектов, например, соцсетей или сервисов коротких ссылок. Это особенно большой проект, о нем ещё напишу отдельно.
Важно то что все эти проекты основаны на открытости результатов, архивы не закрыты, не спрятаны, не складированы в неизвестном месте, а доступны для выгрузки.
#ruarxive #archives #webarchives #digitalpreservation
www.datarefuge.org
Data Refuge
Data Refuge is a community-driven, collaborative project to preserve public climate and environmental data
Forwarded from Национальный цифровой архив
Новости проекта на 17 марта 2022 года
- Начата работа над базой знаний, вскоре анонсируем репозиторий на Github к наполнению которого можно будет присоединится.
- Мы продолжаем работать над обновлённым сайтом, пока самые актуальные новости будут в этом телеграм канале
- Идёт работа по загрузке копии материалов Эха Москвы в Интернет Архив, она займет ещё какое-то время поскольку параллельно идет архивация многих цифровых ресурсов в зоне риска.
Архивация сайтов заблокированных ресурсов
Продолжается архивация сайтов издания: Colta, Tjournal, The Insider, Бумага. Начата архивация Костромского Форума Костромских джедаев (заблокирован Роскомнадзором, закрывается). В общей сложности собрано 50GB материалов, архивация продолжается.
Сделана копия сайта издания DOXA, готовится к загрузке в общедоступное хранилище.
Архивация Coub
- отправлены письма владельцам сайтам с просьбой передать в архив накопленные у них данные. Если у Вас есть прямые контакты владельцев и Вы можете им написать/спросить, это оказало бы большую помощь.
- выгружены 1952 ролика из раздела Hot, общий объём 55GB
- идёт выгрузка данных с сайта через общедоступное API по каждой категории. Это до 5000 роликов в категории. Следующим шагом будет сбор данных о всех роликах признанных лучшими
- идет подбор дополнительного хранилища для хранения больших объёмов данных из Coub
- запланирована архивация всех роликов которые можно будет успеть сохранить до конца марта.
—
Если Вы знаете что-то о сайтах и иных цифровых ресурсах которые могут исчезнуть в ближайшее время, пишите нам в чате, поставим их на первоочередную загрузку. Также мы готовы принимать любые в дар любые жесткие диски, системы сохранения, архивы с данными на любых цифровых носителях.
#digitalpreservation #archives #news
- Начата работа над базой знаний, вскоре анонсируем репозиторий на Github к наполнению которого можно будет присоединится.
- Мы продолжаем работать над обновлённым сайтом, пока самые актуальные новости будут в этом телеграм канале
- Идёт работа по загрузке копии материалов Эха Москвы в Интернет Архив, она займет ещё какое-то время поскольку параллельно идет архивация многих цифровых ресурсов в зоне риска.
Архивация сайтов заблокированных ресурсов
Продолжается архивация сайтов издания: Colta, Tjournal, The Insider, Бумага. Начата архивация Костромского Форума Костромских джедаев (заблокирован Роскомнадзором, закрывается). В общей сложности собрано 50GB материалов, архивация продолжается.
Сделана копия сайта издания DOXA, готовится к загрузке в общедоступное хранилище.
Архивация Coub
- отправлены письма владельцам сайтам с просьбой передать в архив накопленные у них данные. Если у Вас есть прямые контакты владельцев и Вы можете им написать/спросить, это оказало бы большую помощь.
- выгружены 1952 ролика из раздела Hot, общий объём 55GB
- идёт выгрузка данных с сайта через общедоступное API по каждой категории. Это до 5000 роликов в категории. Следующим шагом будет сбор данных о всех роликах признанных лучшими
- идет подбор дополнительного хранилища для хранения больших объёмов данных из Coub
- запланирована архивация всех роликов которые можно будет успеть сохранить до конца марта.
—
Если Вы знаете что-то о сайтах и иных цифровых ресурсах которые могут исчезнуть в ближайшее время, пишите нам в чате, поставим их на первоочередную загрузку. Также мы готовы принимать любые в дар любые жесткие диски, системы сохранения, архивы с данными на любых цифровых носителях.
#digitalpreservation #archives #news
Telegram
Национальный цифровой архив
Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Чат @ruarxivechat
Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин
Forwarded from Национальный цифровой архив
Для тех кто думает о сохранении материалов с Coub.com, в репозиторий coub-archival-campaign [1] на Github выложены данные собранные через API Coub.com, это по 5000 роликов по всем категориям и доступные ролики тематически собранные в группы Hot и Featured. Все данные собраны с помощью утилиты APIBackuper [2] выгружающей запросы к API в формате JSON lines. Из этих файлов можно простым способом выгрузить списки роликов на выгрузку.
Сейчас проведена архивация роликов из разделов Hot. Далее запланирована выгрузка роликов по другим категориям и выгрузка списков лучших Coub'ов по годам.
Большой помощью будет если кто-то поможет:
a) Выгрузить списки лучших роликов из разделов Best https://coub.com/best/2021, https://coub.com/best/2020 и тд. в форматах JSONL по аналогии с данными выше
b) Поможет выгрузить Coub'ы по категориям или темам. Для архивации через несколько дней мы организуем сервер куда можно будет ролики залить и также их можно загружать в Интернет Архив archive.org, в раздел Community Video. Это возможно после создания аккаунта на сайте Интернет архива.
Ссылки:
[1] https://github.com/ruarxive/coub-archival-campaign
[2] https://github.com/ruarxive/apibackuper
#opendata #coub #archives #api
Сейчас проведена архивация роликов из разделов Hot. Далее запланирована выгрузка роликов по другим категориям и выгрузка списков лучших Coub'ов по годам.
Большой помощью будет если кто-то поможет:
a) Выгрузить списки лучших роликов из разделов Best https://coub.com/best/2021, https://coub.com/best/2020 и тд. в форматах JSONL по аналогии с данными выше
b) Поможет выгрузить Coub'ы по категориям или темам. Для архивации через несколько дней мы организуем сервер куда можно будет ролики залить и также их можно загружать в Интернет Архив archive.org, в раздел Community Video. Это возможно после создания аккаунта на сайте Интернет архива.
Ссылки:
[1] https://github.com/ruarxive/coub-archival-campaign
[2] https://github.com/ruarxive/apibackuper
#opendata #coub #archives #api
Coub
Coub - The Biggest Video Meme Platform
Coub is YouTube for video loops. You can take any video, trim the best part, combine with other videos, add soundtrack. It might be a funny scene, movie quote, animation, meme or a mashup of multiple sources.
Forwarded from Национальный цифровой архив
Новости проекта на 23 марта 2022 года
- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.
Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.
#digest #archives #webarchival #digitalpreservation
- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.
Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.
#digest #archives #webarchival #digitalpreservation
Forwarded from Национальный цифровой архив
Новости проекта на 31 марта 2022 г.
- загружены все сохранённые медиа файлы с сайта Эха Москвы на облачный хостинг, прямые ссылки доступны в файле https://t.me/ruarxive/29
- продолжается загрузка программ медиа архива Эха Москвы в Internet Archive https://archive.org/details/@ruarxive
- спасибо всем кто помогает в заполнении списка программ Эха Москвы. Это приближает нас к возможности создания базы данных всех сохранённых передач и возможности воссоздания сайта или создания настольного приложения
- завершена архивация сайта социолога Сергея Белановского sbelan.ru в связи с его анонсом закрытия сайта в ближайшие дни
- продолжается архивация сайта издания Троицкий вариант trv-science.ru
- запущена архивация сайта Росавиации favt.gov.ru в связи с сообщениями СМИ о потере органом власти данных документооборота
- идёт архивация нескольких сотен сайтов относящихся к культурным учреждениям/культурным проектам
- перезапущена архивация сайта Новой газеты novayagazeta.ru в связи с приостановкой деятельности издания. Ранее сайт Новой газеты и сайты всех её спецпроектов были заархивированы 3 марта 2022 г, но с архивацией именно сайта издания были сложности в связи с защитой от DDoS которую использовали его создатели. Сейчас архивация сайта перезапущена.
- завершается подготовка обновленного сайта проекта Ruarxive, в ближайшие дни анонсируем его доступность.
Перечень сайтов и иных цифровых ресурсов заархивированных в 2021-2022 года доступны по прямой ссылке https://airtable.com/shrO1hise7WgURXg5/tblhdXAwIv5AVtN7Y
#digitalpreservation #archives #webarchives
- загружены все сохранённые медиа файлы с сайта Эха Москвы на облачный хостинг, прямые ссылки доступны в файле https://t.me/ruarxive/29
- продолжается загрузка программ медиа архива Эха Москвы в Internet Archive https://archive.org/details/@ruarxive
- спасибо всем кто помогает в заполнении списка программ Эха Москвы. Это приближает нас к возможности создания базы данных всех сохранённых передач и возможности воссоздания сайта или создания настольного приложения
- завершена архивация сайта социолога Сергея Белановского sbelan.ru в связи с его анонсом закрытия сайта в ближайшие дни
- продолжается архивация сайта издания Троицкий вариант trv-science.ru
- запущена архивация сайта Росавиации favt.gov.ru в связи с сообщениями СМИ о потере органом власти данных документооборота
- идёт архивация нескольких сотен сайтов относящихся к культурным учреждениям/культурным проектам
- перезапущена архивация сайта Новой газеты novayagazeta.ru в связи с приостановкой деятельности издания. Ранее сайт Новой газеты и сайты всех её спецпроектов были заархивированы 3 марта 2022 г, но с архивацией именно сайта издания были сложности в связи с защитой от DDoS которую использовали его создатели. Сейчас архивация сайта перезапущена.
- завершается подготовка обновленного сайта проекта Ruarxive, в ближайшие дни анонсируем его доступность.
Перечень сайтов и иных цифровых ресурсов заархивированных в 2021-2022 года доступны по прямой ссылке https://airtable.com/shrO1hise7WgURXg5/tblhdXAwIv5AVtN7Y
#digitalpreservation #archives #webarchives
Forwarded from Ivan Begtin (Ivan Begtin)
Мы, Инфокультура, запускаем кампанию по архивации сайтов порталов открытых данных, разделов с открытыми данными и иных источников официальных государственных открытых данных в России. Поскольку есть реальные риски снижения открытости гос-ва, уже происходящее исчезновение ряда информационных ресурсов и порталов открытых данных, например, в прошлом году был закрыт портал открытых данных Московской области, была попытка отказаться от портала открытых данных властями Санкт-Петербурга, а также исчезновение ряда значимых банков данных таких как реестр субсидий и многое другое.
Для архивации составлен список порталов открытых данных на основе каталога Datacatalogs.ru - https://airtable.com/shr1rzsajTM5SSyoI
А также репозиторий в Github https://github.com/ruarxive/rudatarchive
Слепки некоторых порталов были ранее сделаны:
- портал открытых данных data.gov.ru в феврале 2022 г. - https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
- региональные порталы открытых данных 2017 года https://cdn.ruarxive.org/public/webcollect/opengov2017/
Архивация порталов открытых данных может быть сделана в виде сохранения WARC файлов, через выгрузку метаданных и данных в виде файлов, через выкачку API. Можно делать любым способом, главное обеспечить полное сохранение.
Код выгрузки из порталов data.gov.ru и data.mos.ru есть у нас в проекте DataCrafter, его и слепки, я опубликую для этой архивационной кампании. А вот для остальных порталов нужна помощь волонтеров. Поэтому если у Вас есть свободное время, берите на себя отдельные сайты, напишите скрипт/код под отдельные порталы, выкачивайте их и выкладывайте в какой-либо доступный источник, например, в Github или файловое хранилище. Мы перенесем архив в центральное хранилище на нашем сервере и в Интернет-архив.
Код можно опубликовать у себя в репозитории или сразу в https://github.com/ruarxive/rudatarchive/code в папку конкретного портала.
#opendata #data #archives #digitalpreservation
Для архивации составлен список порталов открытых данных на основе каталога Datacatalogs.ru - https://airtable.com/shr1rzsajTM5SSyoI
А также репозиторий в Github https://github.com/ruarxive/rudatarchive
Слепки некоторых порталов были ранее сделаны:
- портал открытых данных data.gov.ru в феврале 2022 г. - https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
- региональные порталы открытых данных 2017 года https://cdn.ruarxive.org/public/webcollect/opengov2017/
Архивация порталов открытых данных может быть сделана в виде сохранения WARC файлов, через выгрузку метаданных и данных в виде файлов, через выкачку API. Можно делать любым способом, главное обеспечить полное сохранение.
Код выгрузки из порталов data.gov.ru и data.mos.ru есть у нас в проекте DataCrafter, его и слепки, я опубликую для этой архивационной кампании. А вот для остальных порталов нужна помощь волонтеров. Поэтому если у Вас есть свободное время, берите на себя отдельные сайты, напишите скрипт/код под отдельные порталы, выкачивайте их и выкладывайте в какой-либо доступный источник, например, в Github или файловое хранилище. Мы перенесем архив в центральное хранилище на нашем сервере и в Интернет-архив.
Код можно опубликовать у себя в репозитории или сразу в https://github.com/ruarxive/rudatarchive/code в папку конкретного портала.
#opendata #data #archives #digitalpreservation
Telegram
Инфокультура
Новости Информационной культуры. https://infoculture.ru
Forwarded from Национальный цифровой архив
В марте в России запланированы выборы Президента РФ после которых, как минимум формально, должно быть отправлено в отставку текущее Правительство и собрано новое. Сейчас нельзя предсказать произойдет ли ротация министров и других должностных лиц или всё останется по прежнему, но мы планируем с января по март запустить архивационную кампанию по сохранению официальных сайтов Правительства и федеральных органов власти. Последний раз такая кампания масштабно проводилась в 2017 году перед сменой Правительства 2018 года.
Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.
Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов
К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.
На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.
А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).
#digitalpreservation #russia #elections #archives
Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.
Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов
К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.
На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.
А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).
#digitalpreservation #russia #elections #archives