Новости проекта на 31 марта 2022 г.
- загружены все сохранённые медиа файлы с сайта Эха Москвы на облачный хостинг, прямые ссылки доступны в файле https://t.me/ruarxive/29
- продолжается загрузка программ медиа архива Эха Москвы в Internet Archive https://archive.org/details/@ruarxive
- спасибо всем кто помогает в заполнении списка программ Эха Москвы. Это приближает нас к возможности создания базы данных всех сохранённых передач и возможности воссоздания сайта или создания настольного приложения
- завершена архивация сайта социолога Сергея Белановского sbelan.ru в связи с его анонсом закрытия сайта в ближайшие дни
- продолжается архивация сайта издания Троицкий вариант trv-science.ru
- запущена архивация сайта Росавиации favt.gov.ru в связи с сообщениями СМИ о потере органом власти данных документооборота
- идёт архивация нескольких сотен сайтов относящихся к культурным учреждениям/культурным проектам
- перезапущена архивация сайта Новой газеты novayagazeta.ru в связи с приостановкой деятельности издания. Ранее сайт Новой газеты и сайты всех её спецпроектов были заархивированы 3 марта 2022 г, но с архивацией именно сайта издания были сложности в связи с защитой от DDoS которую использовали его создатели. Сейчас архивация сайта перезапущена.
- завершается подготовка обновленного сайта проекта Ruarxive, в ближайшие дни анонсируем его доступность.
Перечень сайтов и иных цифровых ресурсов заархивированных в 2021-2022 года доступны по прямой ссылке https://airtable.com/shrO1hise7WgURXg5/tblhdXAwIv5AVtN7Y
#digitalpreservation #archives #webarchives
- загружены все сохранённые медиа файлы с сайта Эха Москвы на облачный хостинг, прямые ссылки доступны в файле https://t.me/ruarxive/29
- продолжается загрузка программ медиа архива Эха Москвы в Internet Archive https://archive.org/details/@ruarxive
- спасибо всем кто помогает в заполнении списка программ Эха Москвы. Это приближает нас к возможности создания базы данных всех сохранённых передач и возможности воссоздания сайта или создания настольного приложения
- завершена архивация сайта социолога Сергея Белановского sbelan.ru в связи с его анонсом закрытия сайта в ближайшие дни
- продолжается архивация сайта издания Троицкий вариант trv-science.ru
- запущена архивация сайта Росавиации favt.gov.ru в связи с сообщениями СМИ о потере органом власти данных документооборота
- идёт архивация нескольких сотен сайтов относящихся к культурным учреждениям/культурным проектам
- перезапущена архивация сайта Новой газеты novayagazeta.ru в связи с приостановкой деятельности издания. Ранее сайт Новой газеты и сайты всех её спецпроектов были заархивированы 3 марта 2022 г, но с архивацией именно сайта издания были сложности в связи с защитой от DDoS которую использовали его создатели. Сейчас архивация сайта перезапущена.
- завершается подготовка обновленного сайта проекта Ruarxive, в ближайшие дни анонсируем его доступность.
Перечень сайтов и иных цифровых ресурсов заархивированных в 2021-2022 года доступны по прямой ссылке https://airtable.com/shrO1hise7WgURXg5/tblhdXAwIv5AVtN7Y
#digitalpreservation #archives #webarchives
Подготовлена бета версия утилиты командной строки wparc [1] архивации данных из сайтов Wordpress.
Утилита использует стандартное API предоставляемое CMS Wordpress и доступной по адресу /wp-json/. Поскольку на Wordpress работает огромное число сайтов СМИ и личных сайтов, то утилита будет необходима для получения быстрых дампов данных, значительно быстрее чем классические веб-краулеры.
Подробнее о структурах данных можно прочитать в документации Wordpress REST API [2].
Утилита поддерживает две команды:
- dump - выгрузить все данные через обход точек подключения к API, результатом являются файлы в форматах .json и .jsonl
- getfiles - выгрузка всех медиа файлов перечисленных в файле wp_v2_media.jsonl полученного после исполнения команды dump
Примеры сайтов на Wordpress: duma-rad.ru, www.iephb.ru, paperpaper.ru, agentura.ru и многие другие.
Ограничения:
- некоторые владельцы сайтов на Wordpress блокируют доступ к /wp-json/ без авторизации и из этих сайтов невозможно пока извлечь данные
- у старых версий версий Wordpress отсутствует точка подключения /wp-json/ и также невозможно скачать данные таким способом.
В будущем утилита будет поддерживать команды проверки сайта на возможность выгрузки данных, упаковывать их в пакет данных (data package) для долгосрочного сохранения и поддерживать выгрузку данных из Wordpress даже без доступного API (по определенным шаблонам этой CMS).
Найденные ошибки заполняйте в issues репозитория проекта wparc [3]
Ссылки:
[1] https://github.com/ruarxive/wparc
[2] https://developer.wordpress.org/rest-api/
[3] https://github.com/ruarxive/wparc/issues
#wordpress #webarchives #digitalpreservation #opensource #tools
Утилита использует стандартное API предоставляемое CMS Wordpress и доступной по адресу /wp-json/. Поскольку на Wordpress работает огромное число сайтов СМИ и личных сайтов, то утилита будет необходима для получения быстрых дампов данных, значительно быстрее чем классические веб-краулеры.
Подробнее о структурах данных можно прочитать в документации Wordpress REST API [2].
Утилита поддерживает две команды:
- dump - выгрузить все данные через обход точек подключения к API, результатом являются файлы в форматах .json и .jsonl
- getfiles - выгрузка всех медиа файлов перечисленных в файле wp_v2_media.jsonl полученного после исполнения команды dump
Примеры сайтов на Wordpress: duma-rad.ru, www.iephb.ru, paperpaper.ru, agentura.ru и многие другие.
Ограничения:
- некоторые владельцы сайтов на Wordpress блокируют доступ к /wp-json/ без авторизации и из этих сайтов невозможно пока извлечь данные
- у старых версий версий Wordpress отсутствует точка подключения /wp-json/ и также невозможно скачать данные таким способом.
В будущем утилита будет поддерживать команды проверки сайта на возможность выгрузки данных, упаковывать их в пакет данных (data package) для долгосрочного сохранения и поддерживать выгрузку данных из Wordpress даже без доступного API (по определенным шаблонам этой CMS).
Найденные ошибки заполняйте в issues репозитория проекта wparc [3]
Ссылки:
[1] https://github.com/ruarxive/wparc
[2] https://developer.wordpress.org/rest-api/
[3] https://github.com/ruarxive/wparc/issues
#wordpress #webarchives #digitalpreservation #opensource #tools
GitHub
GitHub - ruarxive/wparc: Wordpress API data and files archival command line tool
Wordpress API data and files archival command line tool - GitHub - ruarxive/wparc: Wordpress API data and files archival command line tool
Как устроены веб-архивы в мире?
Архив PANDORA [1] был создан при Национальной библиотеке Австралии в 1996 году для архивации сайтов органов власти, культурных учреждений и иных организаций и групп. Для создания архива был разработан программный продукт PANDAS [2].
Архив включает более 70 тысяч предметов хранения, на 26 июля 2020 года его объём составлял 54ТБ․
Стратегия работы этого веб-архива в фокусированной архивации в виде архивационных кампаний. Например, через регулярную архивацию сайтов государственных органов или через архивацию сайтов политиков в рамках избирательных кампаний.
Доступ к архивным сайтам предоставляется через систему Trove, каталог архивных и музейных ценностей Австралии также созданный и поддерживаемый Национальной библиотекой Австралии [3].
Ссылки:
[1] https://pandora.nla.gov.au
[2] https://pandora.nla.gov.au/pandas.html
[3] https://webarchive.nla.gov.au/collection
#webarchives #australia #digitalpreservation
Архив PANDORA [1] был создан при Национальной библиотеке Австралии в 1996 году для архивации сайтов органов власти, культурных учреждений и иных организаций и групп. Для создания архива был разработан программный продукт PANDAS [2].
Архив включает более 70 тысяч предметов хранения, на 26 июля 2020 года его объём составлял 54ТБ․
Стратегия работы этого веб-архива в фокусированной архивации в виде архивационных кампаний. Например, через регулярную архивацию сайтов государственных органов или через архивацию сайтов политиков в рамках избирательных кампаний.
Доступ к архивным сайтам предоставляется через систему Trove, каталог архивных и музейных ценностей Австралии также созданный и поддерживаемый Национальной библиотекой Австралии [3].
Ссылки:
[1] https://pandora.nla.gov.au
[2] https://pandora.nla.gov.au/pandas.html
[3] https://webarchive.nla.gov.au/collection
#webarchives #australia #digitalpreservation
Trove
Archived Websites - Trove
A collection of webpages.
Forwarded from Трансперенси
«Декларатор» и Инфокультура собрали в архив инстаграмы российских чиновников
После признания Meta экстремистской организацией возник риск, что российские чиновники станут массово удалять свои аккаунты в инстаграме.
Мы помогли НП «Инфокультура» собрать архив инстаграмов российских чиновников. Ссылки на архивы будут доступны в профилях госслужащих на declarator.org
После признания Meta экстремистской организацией возник риск, что российские чиновники станут массово удалять свои аккаунты в инстаграме.
Мы помогли НП «Инфокультура» собрать архив инстаграмов российских чиновников. Ссылки на архивы будут доступны в профилях госслужащих на declarator.org
Telegram
Национальный цифровой архив
Закончена архивация Instagram аккаунтов официальных лиц и политиков РФ. Сохранён 171 аккаунт. Код архивации и список инстаграм аккаунтов выложены в репозитории на Github [1], а итоговые данные собраны в архиве в 1.4GB [2]
Успешно были заархивированы все…
Успешно были заархивированы все…
Почему веб архивы неполны, охватывают не всё и даже самостоятельно сохранив сайт в нём можно не найти то что видно пользователю?
Большинство систем архивации материалов с сайтов основаны на принципах поисковых роботов, они обходят веб страницы, извлекают из HTML кода ссылки и далее переходят по ним, как правило, индексируя в первую очередь наиболее часто цитируемые страницы/ссылки.
Так работает для большинства сайтов, но, часто, разработчики сайтов сознательно или в силу технических особенностей делают сайты непригодными для такого индексирования. Например, ранее популярные технологии Adobe Flash и Microsoft Silverlight очень мешали таким поисковым роботам.
Главное же препятствие сейчас - это технологии динамической подгрузки контента Ajax. В качестве примера рассмотрим сайт Заповедник | Россия за пределами столиц (zapovednik.space). Это контентный сайт, состоящий из текстов, фотографий и изображений, относительно небольших по объёму.
Типовая ссылка на материал на сайте выглядит вот так
https://zapovednik.space/material/osobennosti-natsionalnoj-pandemii
Однако в теле веб страницы не найти её текста или ссылок на изображения. Это можно увидеть открыв ссылку
view-source:https://zapovednik.space/material/osobennosti-natsionalnoj-pandemii
и посмотрев на HTML код. Посмотрев на код других страниц можно убедиться что он везде одинаковый.
Чуть изучив код сайта можно выяснить что текст и изображения подгружаются через специальный Ajax запрос в виде JSON файла.
Для рассмотренного примера по такой ссылке
https://zapovednik.space/api/material?id=otdelitsja-ot-traditsij-i-podchinitsja-pravilam
Как архивировать подобные сайты? Есть два подхода
1. Написать специальный скрипт который вначале найдёт все ссылки на страницы /material/[идентификатор] и сохранит все JSON файлы, а далее на основе ссылок на картинки и ссылок в текстах соберет все связанные ресурсы. В этом случае будет потеряна вся интерфейсная часть сайта, но сохранится его контент. Придётся отдельно хранить результаты архивации интерфейса и данные+контент.
2. Использовать такие краулеры как Brozzler или Browsertrix использующие реальные браузеры и сохранять сайт не то как его видит поисковый паук, а то как он представлен пользователю. Они медленнее, но их результат более приближен к тому что ожидает увидеть пользователь.
Этот пример лишь один из многих поясняющих почему веб-архивация и архивация цифрового контента не может быть полностью автоматизирована в ситуации когда мы стремимся к полноте охвата содержания и не хотим чего-либо упустить.
#guides #digitalpreservation #webarchives #crawl
Большинство систем архивации материалов с сайтов основаны на принципах поисковых роботов, они обходят веб страницы, извлекают из HTML кода ссылки и далее переходят по ним, как правило, индексируя в первую очередь наиболее часто цитируемые страницы/ссылки.
Так работает для большинства сайтов, но, часто, разработчики сайтов сознательно или в силу технических особенностей делают сайты непригодными для такого индексирования. Например, ранее популярные технологии Adobe Flash и Microsoft Silverlight очень мешали таким поисковым роботам.
Главное же препятствие сейчас - это технологии динамической подгрузки контента Ajax. В качестве примера рассмотрим сайт Заповедник | Россия за пределами столиц (zapovednik.space). Это контентный сайт, состоящий из текстов, фотографий и изображений, относительно небольших по объёму.
Типовая ссылка на материал на сайте выглядит вот так
https://zapovednik.space/material/osobennosti-natsionalnoj-pandemii
Однако в теле веб страницы не найти её текста или ссылок на изображения. Это можно увидеть открыв ссылку
view-source:https://zapovednik.space/material/osobennosti-natsionalnoj-pandemii
и посмотрев на HTML код. Посмотрев на код других страниц можно убедиться что он везде одинаковый.
Чуть изучив код сайта можно выяснить что текст и изображения подгружаются через специальный Ajax запрос в виде JSON файла.
Для рассмотренного примера по такой ссылке
https://zapovednik.space/api/material?id=otdelitsja-ot-traditsij-i-podchinitsja-pravilam
Как архивировать подобные сайты? Есть два подхода
1. Написать специальный скрипт который вначале найдёт все ссылки на страницы /material/[идентификатор] и сохранит все JSON файлы, а далее на основе ссылок на картинки и ссылок в текстах соберет все связанные ресурсы. В этом случае будет потеряна вся интерфейсная часть сайта, но сохранится его контент. Придётся отдельно хранить результаты архивации интерфейса и данные+контент.
2. Использовать такие краулеры как Brozzler или Browsertrix использующие реальные браузеры и сохранять сайт не то как его видит поисковый паук, а то как он представлен пользователю. Они медленнее, но их результат более приближен к тому что ожидает увидеть пользователь.
Этот пример лишь один из многих поясняющих почему веб-архивация и архивация цифрового контента не может быть полностью автоматизирована в ситуации когда мы стремимся к полноте охвата содержания и не хотим чего-либо упустить.
#guides #digitalpreservation #webarchives #crawl
Заповедник
Путешествие по России за пределами столиц
Всем привет! Представляем обновленный сайт проекта «Национальный цифровой архив»: https://ruarxive.org.
Посетите наш сайт, чтобы:
— Просмотреть сохраненные проекты и коллекции — с помощью регулярно обновляемой таблицы в AirTable можно находить конкретные объекты, отслеживать их статус архивации, а также скачивать уже собранные архивы для просмотра и воспроизведения локально на собственном компьютере.
— С помощью специальной формы подачи на архивацию сообщить нам риске исчезновения или уничтожения какого-либо информационного ресурса.
— Помочь нам в архивации, если вы готовы стать волонтером проекта — есть задачи для тех, кто имеет навыки программирования и нет.
— Ознакомиться с существующими инструментами — в специальном разделе будут перечислены основные утилиты и приложения для работы с архивами, их описания и полезные ссылки для самостоятельного ознакомления.
В разработке раздел «Гайды», где мы будем публиковать пошаговые руководства по работе с инструментами для сбора и извлечения данных веб-сайтов.
Посетите наш сайт, чтобы:
— Просмотреть сохраненные проекты и коллекции — с помощью регулярно обновляемой таблицы в AirTable можно находить конкретные объекты, отслеживать их статус архивации, а также скачивать уже собранные архивы для просмотра и воспроизведения локально на собственном компьютере.
— С помощью специальной формы подачи на архивацию сообщить нам риске исчезновения или уничтожения какого-либо информационного ресурса.
— Помочь нам в архивации, если вы готовы стать волонтером проекта — есть задачи для тех, кто имеет навыки программирования и нет.
— Ознакомиться с существующими инструментами — в специальном разделе будут перечислены основные утилиты и приложения для работы с архивами, их описания и полезные ссылки для самостоятельного ознакомления.
В разработке раздел «Гайды», где мы будем публиковать пошаговые руководства по работе с инструментами для сбора и извлечения данных веб-сайтов.
Национальный цифровой архив
Всем привет! Представляем обновленный сайт проекта «Национальный цифровой архив»: https://ruarxive.org. Посетите наш сайт, чтобы: — Просмотреть сохраненные проекты и коллекции — с помощью регулярно обновляемой таблицы в AirTable можно находить конкретные…
Если вы готовы помочь с составлением подобных руководств по архивации, напишите нам или сделайте git commit к репозиторию: https://github.com/ruarxive/ruarxive.github.io.
Поддержать архивацию цифровых ресурсов можно здесь: https://ruarxive.org/about/donate.
Поддержать архивацию цифровых ресурсов можно здесь: https://ruarxive.org/about/donate.
GitHub
GitHub - ruarxive/ruarxive.github.io: Website of Ruarxive.org. Blog, knowledge base and documentation
Website of Ruarxive.org. Blog, knowledge base and documentation - ruarxive/ruarxive.github.io
Новости проекта на 5 апреля 2022 г.
- открыт обновлённый сайт Ruarxive.org. Сайт разработан на движке Docusaurus, он с открытым кодом, можно направлять ошибки/предложения через механизм issues в Github и участвовать в подготовке материалов гайдов
- начата архивационная кампания сайтов комитетов и комиссий Государственной Думы РФ: основание, новость о переходе сайтов на единый дизайн.
- начата архивационная кампания сайтов относящихся к популяризации науки таких как сайт Фонда Эволюция, сайт Комитета по лженауке при Президиуме РАН (klnran.ru), Думай Казань и др. Основание: заброшенность сайтов их создателями, отсутствие обновлений несколько лет. Нужна помощь в поиске подобных цифровых ресурсов/сайтов
- закончена архивация медиа: Кабельщик (cableman.ru), Новая Газета (novayagazeta.ru). Файлы архивов закачиваются в хранилище.
- продолжается архивация медиа The Bell
- из архива сайта Эха Москвы в 173GB, создана копия сайта только из HTML страниц размеров в 911МБ в сжатом виде, около 5ГБ в распакованном виде. Полезно для извлечения списка всех программ, извлечения расшифровки передач, извлечению иных текстов из архива сайта радиостанции.
- идёт работа по объединению медиа файлов из архива Эха Москвы собранных с CDN сервера и извлеченных из архива сайта и других источников и загрузке в облачное хранилище.
- завершено создание специализированной коллекции Эха Москвы в Интернет архиве. Доступно по прямой ссылке https://archive.org/details/echo-of-moscow
#news #digitalpreservation #webarchives
- открыт обновлённый сайт Ruarxive.org. Сайт разработан на движке Docusaurus, он с открытым кодом, можно направлять ошибки/предложения через механизм issues в Github и участвовать в подготовке материалов гайдов
- начата архивационная кампания сайтов комитетов и комиссий Государственной Думы РФ: основание, новость о переходе сайтов на единый дизайн.
- начата архивационная кампания сайтов относящихся к популяризации науки таких как сайт Фонда Эволюция, сайт Комитета по лженауке при Президиуме РАН (klnran.ru), Думай Казань и др. Основание: заброшенность сайтов их создателями, отсутствие обновлений несколько лет. Нужна помощь в поиске подобных цифровых ресурсов/сайтов
- закончена архивация медиа: Кабельщик (cableman.ru), Новая Газета (novayagazeta.ru). Файлы архивов закачиваются в хранилище.
- продолжается архивация медиа The Bell
- из архива сайта Эха Москвы в 173GB, создана копия сайта только из HTML страниц размеров в 911МБ в сжатом виде, около 5ГБ в распакованном виде. Полезно для извлечения списка всех программ, извлечения расшифровки передач, извлечению иных текстов из архива сайта радиостанции.
- идёт работа по объединению медиа файлов из архива Эха Москвы собранных с CDN сервера и извлеченных из архива сайта и других источников и загрузке в облачное хранилище.
- завершено создание специализированной коллекции Эха Москвы в Интернет архиве. Доступно по прямой ссылке https://archive.org/details/echo-of-moscow
#news #digitalpreservation #webarchives
ruarxive.org
Russian national digital archive (ruarxive.org) | Russian national digital archive (ruarxive.org)
Archive of digital-born websites, data, images, video and other objects
Мы планируем организовать мини-конференцию о цифровой архивации. Собираем обратную связь у сообщества, какие из тем вам наиболее интересы?
Anonymous Poll
44%
Технические аспекты веб-архивации: инструменты и гайды
24%
Особенности архивации контента из соцсетей
20%
Архивация данных и API
28%
Персональные/ личные цифровые архивы
30%
Архивы как данные. Технологии анализа больших архивов
19%
Архивы СМИ. Как они создаются и кому они нужны
29%
Как работать с онлайн-архивами
25%
Юридические аспекты архивации контента и данных
23%
Хочу посмотреть ответы
Forwarded from Ivan Begtin (Ivan Begtin)
В рубрике особо интересных больших наборов данных 165 терабайт данных переписи США 1950 года выложено национальными архивами США [1]. Мне трудно подобрать аналоги по масштабам, такие события редкость и сделано это было сразу после того как закончились 72 года сохранения конфиденциальности переписи. После чего все микрофильмы были оцифрованы (а может быть и раньше) и в 2022 году выложены в виде подобного проекта.
Сайт позволяет искать по сканам заполненных карточек переписи и, что особенно важно, все данные опубликованы как открытые данные. Набор данных включает все метаданные и все отсканированные на микрофильмах карточки [2], каждый имеет возможность скачать эти данные и осуществлять самостоятельный анализ и проводить исследования.
Надо отдать должное, в США не только довольно уважительное отношение к архивам, но и организована работа гражданских архивистов (citizen archivists) на специальном портале HistoryHub [3]. Гражданские архивисты - это люди помогающие архивным службам, создающие собственные архивные проекты.
Ссылки:
[1] https://1950census.archives.gov/
[2] https://www.archives.gov/developer/1950-census
[3] https://historyhub.history.gov
#opendata #datasets #history #digitalpreservation #usa
Сайт позволяет искать по сканам заполненных карточек переписи и, что особенно важно, все данные опубликованы как открытые данные. Набор данных включает все метаданные и все отсканированные на микрофильмах карточки [2], каждый имеет возможность скачать эти данные и осуществлять самостоятельный анализ и проводить исследования.
Надо отдать должное, в США не только довольно уважительное отношение к архивам, но и организована работа гражданских архивистов (citizen archivists) на специальном портале HistoryHub [3]. Гражданские архивисты - это люди помогающие архивным службам, создающие собственные архивные проекты.
Ссылки:
[1] https://1950census.archives.gov/
[2] https://www.archives.gov/developer/1950-census
[3] https://historyhub.history.gov
#opendata #datasets #history #digitalpreservation #usa
National Archives
1950 Census Dataset on the Amazon Web Services (AWS) Registry of Open
The National Archives and Records Administration (NARA) publishes the 1950 Census dataset on the AWS Registry of Open Data. This documentation guides users in how to access the data.
Всех кто архивирует и использует архивы каналов в Telegram приглашаем к тестированию tgarchive-viewer утилиты разработанной Павлом Шуваловым. Подробнее о её работе в чате канала Ruarxive и там же можно поделиться идеями как можно доработать/развивать интересный продукт.
Обратите, также, внимание на другие задачи для волонтеров и предлагайте другие задачи.
#telegram #archives
Обратите, также, внимание на другие задачи для волонтеров и предлагайте другие задачи.
#telegram #archives
GitHub
GitHub - shuva10v/tgarchive-viewer: Telegram archive viewer
Telegram archive viewer. Contribute to shuva10v/tgarchive-viewer development by creating an account on GitHub.
Forwarded from Ivan Begtin (Ivan Begtin)
Мы, Инфокультура, запускаем кампанию по архивации сайтов порталов открытых данных, разделов с открытыми данными и иных источников официальных государственных открытых данных в России. Поскольку есть реальные риски снижения открытости гос-ва, уже происходящее исчезновение ряда информационных ресурсов и порталов открытых данных, например, в прошлом году был закрыт портал открытых данных Московской области, была попытка отказаться от портала открытых данных властями Санкт-Петербурга, а также исчезновение ряда значимых банков данных таких как реестр субсидий и многое другое.
Для архивации составлен список порталов открытых данных на основе каталога Datacatalogs.ru - https://airtable.com/shr1rzsajTM5SSyoI
А также репозиторий в Github https://github.com/ruarxive/rudatarchive
Слепки некоторых порталов были ранее сделаны:
- портал открытых данных data.gov.ru в феврале 2022 г. - https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
- региональные порталы открытых данных 2017 года https://cdn.ruarxive.org/public/webcollect/opengov2017/
Архивация порталов открытых данных может быть сделана в виде сохранения WARC файлов, через выгрузку метаданных и данных в виде файлов, через выкачку API. Можно делать любым способом, главное обеспечить полное сохранение.
Код выгрузки из порталов data.gov.ru и data.mos.ru есть у нас в проекте DataCrafter, его и слепки, я опубликую для этой архивационной кампании. А вот для остальных порталов нужна помощь волонтеров. Поэтому если у Вас есть свободное время, берите на себя отдельные сайты, напишите скрипт/код под отдельные порталы, выкачивайте их и выкладывайте в какой-либо доступный источник, например, в Github или файловое хранилище. Мы перенесем архив в центральное хранилище на нашем сервере и в Интернет-архив.
Код можно опубликовать у себя в репозитории или сразу в https://github.com/ruarxive/rudatarchive/code в папку конкретного портала.
#opendata #data #archives #digitalpreservation
Для архивации составлен список порталов открытых данных на основе каталога Datacatalogs.ru - https://airtable.com/shr1rzsajTM5SSyoI
А также репозиторий в Github https://github.com/ruarxive/rudatarchive
Слепки некоторых порталов были ранее сделаны:
- портал открытых данных data.gov.ru в феврале 2022 г. - https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip
- региональные порталы открытых данных 2017 года https://cdn.ruarxive.org/public/webcollect/opengov2017/
Архивация порталов открытых данных может быть сделана в виде сохранения WARC файлов, через выгрузку метаданных и данных в виде файлов, через выкачку API. Можно делать любым способом, главное обеспечить полное сохранение.
Код выгрузки из порталов data.gov.ru и data.mos.ru есть у нас в проекте DataCrafter, его и слепки, я опубликую для этой архивационной кампании. А вот для остальных порталов нужна помощь волонтеров. Поэтому если у Вас есть свободное время, берите на себя отдельные сайты, напишите скрипт/код под отдельные порталы, выкачивайте их и выкладывайте в какой-либо доступный источник, например, в Github или файловое хранилище. Мы перенесем архив в центральное хранилище на нашем сервере и в Интернет-архив.
Код можно опубликовать у себя в репозитории или сразу в https://github.com/ruarxive/rudatarchive/code в папку конкретного портала.
#opendata #data #archives #digitalpreservation
Telegram
Инфокультура
Новости Информационной культуры. https://infoculture.ru
Forwarded from Ivan Begtin (Ivan Begtin)
Коротко по прогрессу архивации порталов открытых данных:
- систематизированы архивы data.gov.ru, data.mos.ru, opendata.mkrf.ru, раздел открытых данных Росстата (rosstat.gov.ru/opendata)
- готов архив fedstat.ru (спасибо Павлу Шувалову за помощь
Подробнее:
- репозиторий с с кодом https://github.com/ruarxive/rudatarchive
- список сохранённого и запланированного https://airtable.com/shr1rzsajTM5SSyoI
Для каких-то порталов есть готовый код который загружен в репозиторий, в нескольких случаях вроде data.mos.ru код у нас довольно глубоко закопан в APICrafter, думаю как его отделить потому что если опубликовать как есть, то без основного движка продукта его не запустить.
Как помочь? Выбрать портал открытых данных или соответствующий раздел из списка и написать скрипт который соберет все метаданные и все данные, насколько возможно полно. Например, по data.mos.ru пришлось сохранять метаданные из API, веб страницы, файлы и выгрузки дампов потому что там у них сложный движок с данными созданными в разных подходах. Но, чаще всего, выгружать данные проще, просто надо писать скрипты под каждый портал по отдельности или использовать только веб-архивацию.
Напомню что кампания по архивации порталов открытых данных начата для сохранения общедоступных открытых данных для всех пользователей. Все собираемые данные будут доступны на сайте проекта Ruarxive.org, ,а также будут дублироваться в Интернет архиве и подготовлены для долгосрочного сохранения.
Больше про архивационные кампании будет на канале @ruarxive.
#opendata #datasets #dataportals #russia #archives #digitalpreservation
- систематизированы архивы data.gov.ru, data.mos.ru, opendata.mkrf.ru, раздел открытых данных Росстата (rosstat.gov.ru/opendata)
- готов архив fedstat.ru (спасибо Павлу Шувалову за помощь
Подробнее:
- репозиторий с с кодом https://github.com/ruarxive/rudatarchive
- список сохранённого и запланированного https://airtable.com/shr1rzsajTM5SSyoI
Для каких-то порталов есть готовый код который загружен в репозиторий, в нескольких случаях вроде data.mos.ru код у нас довольно глубоко закопан в APICrafter, думаю как его отделить потому что если опубликовать как есть, то без основного движка продукта его не запустить.
Как помочь? Выбрать портал открытых данных или соответствующий раздел из списка и написать скрипт который соберет все метаданные и все данные, насколько возможно полно. Например, по data.mos.ru пришлось сохранять метаданные из API, веб страницы, файлы и выгрузки дампов потому что там у них сложный движок с данными созданными в разных подходах. Но, чаще всего, выгружать данные проще, просто надо писать скрипты под каждый портал по отдельности или использовать только веб-архивацию.
Напомню что кампания по архивации порталов открытых данных начата для сохранения общедоступных открытых данных для всех пользователей. Все собираемые данные будут доступны на сайте проекта Ruarxive.org, ,а также будут дублироваться в Интернет архиве и подготовлены для долгосрочного сохранения.
Больше про архивационные кампании будет на канале @ruarxive.
#opendata #datasets #dataportals #russia #archives #digitalpreservation
Telegram
Ivan Begtin
Мы, Инфокультура, запускаем кампанию по архивации сайтов порталов открытых данных, разделов с открытыми данными и иных источников официальных государственных открытых данных в России. Поскольку есть реальные риски снижения открытости гос-ва, уже происходящее…
Инструменты для цифровых архивистов. Определение типа файлов
При цифровой архивации, особенно данных и материалов которым много лет, очень часто возникают задачи понимания тех файлов и форматов которые изначально использовались. Без этого невозможно понять как воспроизводить такие архивные файлы, нужно ли их преобразовывать, существуют ли ещё поддерживающие их программные продукты.
Цифровые архивисты используют и создают инструменты для решения этой задачи .
- PRONOM - база форматов файлов от Национальных архивов Великобритании. Распространяются как открытые данные, используются многими инструментами
- DROID (Digital Record and Object Identification) - также утилита от Национальных архивов Великобритании по идентификации типов файлов
- Apache Tika - утилита и библиотека кода на языке Java для определения типов файлов и извлечения данных из определяемых типов файлов, например, файлов MS Office.
- Siegfried - утилита командной строки идентифицирующая типы файлов на основании базы сигнатур PRONOM и других источников
- TrID - утилита идентификации форматов файлов, бесплатна для частного использования
- NARA File Analyzer and Metadata Harvester - утилита анализа форматов и сбора метаданных от Национальных архивов США. Не обновлялась уже 6 лет.
Существует множество других инструментов для цифровых архивов, мы будем делать регулярные обзоры инструментов разной сложности и под разные задачи.
#tools #digitalpreservation #fileidentification
При цифровой архивации, особенно данных и материалов которым много лет, очень часто возникают задачи понимания тех файлов и форматов которые изначально использовались. Без этого невозможно понять как воспроизводить такие архивные файлы, нужно ли их преобразовывать, существуют ли ещё поддерживающие их программные продукты.
Цифровые архивисты используют и создают инструменты для решения этой задачи .
- PRONOM - база форматов файлов от Национальных архивов Великобритании. Распространяются как открытые данные, используются многими инструментами
- DROID (Digital Record and Object Identification) - также утилита от Национальных архивов Великобритании по идентификации типов файлов
- Apache Tika - утилита и библиотека кода на языке Java для определения типов файлов и извлечения данных из определяемых типов файлов, например, файлов MS Office.
- Siegfried - утилита командной строки идентифицирующая типы файлов на основании базы сигнатур PRONOM и других источников
- TrID - утилита идентификации форматов файлов, бесплатна для частного использования
- NARA File Analyzer and Metadata Harvester - утилита анализа форматов и сбора метаданных от Национальных архивов США. Не обновлялась уже 6 лет.
Существует множество других инструментов для цифровых архивов, мы будем делать регулярные обзоры инструментов разной сложности и под разные задачи.
#tools #digitalpreservation #fileidentification
www.nationalarchives.gov.uk
PRONOM | Welcome
PRONOM is an online technical registry providing impartial and definitive information about file formats, software products and other technical components required to support long-term access of electronic records.
Задача: обогащение метаданных архива Эха Москвы
Продолжаем настраивать понятный пользовательский интерфейс для просмотра и поиска по архиву радиостанции «Эхо Москвы» (Echo of Moscow) от Ruarxive на сайте Internet Archive.
Для этого нам нужно обогатить метаданные архива, что настроить фильтры и использование расширенного поиска по архиву (информация о программах, ведущих и др. на русском и английском языках).
Просим помощи у волонтеров! Выполнение задачи не требует навыков программирования.
Подробное описание задачи: https://ruarxive.org/kb/volunteers/metadata-echo-moscow-archive
Продолжаем настраивать понятный пользовательский интерфейс для просмотра и поиска по архиву радиостанции «Эхо Москвы» (Echo of Moscow) от Ruarxive на сайте Internet Archive.
Для этого нам нужно обогатить метаданные архива, что настроить фильтры и использование расширенного поиска по архиву (информация о программах, ведущих и др. на русском и английском языках).
Просим помощи у волонтеров! Выполнение задачи не требует навыков программирования.
Подробное описание задачи: https://ruarxive.org/kb/volunteers/metadata-echo-moscow-archive
В журнале НОЖ вышла статья про цифровую архивацию / веб-архивацию и наш проект Ruarxive https://knife.media/internet-archive/
Нож
Сохранить память: как веб-архивация спасает от забвения заблокированные медиа и «вымирающие» ссылки
Сетевые медиа эфемерны: иногда они просто исчезают, а их сайты могут быть заблокированы или стерты хостером. Как сохранить архивы прошлого? Национальная библиотека Австралии работает над этим с 1996 года. Почитайте, как с этим обстоит дело в России.
Приглашаем вас на конференцию по вопросам цифрового сохранения и веб-архивирования (conference.ruarxive.org).
В программе:
— Дискуссии на темы сохранения культурного наследия и медиа.
— Серия коротких докладов о технических аспектах цифровой архивации.
Мы собираем программу. Если вы хотите принять участие в конференции, предложить тему, доклад и себя в качестве спикера, пишите нам на эл. почту infoculture@infoculture.ru.
Для кого
— Конференция практико-ориентирована и будет интересна профессионалам из области архивации, сохранения и исследований культурного наследия.
— В то же время в программе предусмотрены технические доклады, которые будут интересны активистам, волонтерам и другим энтузиастам — создателям цифровых копий и слепков контента и данных, чье участие в сохранении цифрового контента крайне важно.
Формат
Конференция состоится в гибридном формате, то есть можно прийти на конференцию лично, посетив площадку в Москве, или подключиться к онлайн-трансляции.
➡️ Подробности и регистрация
В программе:
— Дискуссии на темы сохранения культурного наследия и медиа.
— Серия коротких докладов о технических аспектах цифровой архивации.
Мы собираем программу. Если вы хотите принять участие в конференции, предложить тему, доклад и себя в качестве спикера, пишите нам на эл. почту infoculture@infoculture.ru.
Для кого
— Конференция практико-ориентирована и будет интересна профессионалам из области архивации, сохранения и исследований культурного наследия.
— В то же время в программе предусмотрены технические доклады, которые будут интересны активистам, волонтерам и другим энтузиастам — создателям цифровых копий и слепков контента и данных, чье участие в сохранении цифрового контента крайне важно.
Формат
Конференция состоится в гибридном формате, то есть можно прийти на конференцию лично, посетив площадку в Москве, или подключиться к онлайн-трансляции.
➡️ Подробности и регистрация
📌 Хакатон Роскомсвободы Demhack 4
Роскомсвобода и Privacy Accelerator приглашают к участию в хакатоне DemHack 4.
Хакатон пройдет 21- 22 мая 2022 года в формате онлайн и объединит русскоязычных специалистов из России и любой другой точки планеты для решения задач в сфере приватности и доступа к информации.
Уже третий год команды на хакатоне находят технические решения, которые помогают гражданам защитить цифровые права и расширить цифровые возможности.
На хакатоне DemHack 4 будет представлено несколько треков задач. Участники можете выбрать для реализации одну из сформированных задач или предложить свой проект, релевантный теме трека: приватность, доступ к информации, доступ россиян к технологиям и др.
🔗Подробности и прием заявок на хакатон открыты до 16 мая включительно: https://demhack.ru.
Роскомсвобода и Privacy Accelerator приглашают к участию в хакатоне DemHack 4.
Хакатон пройдет 21- 22 мая 2022 года в формате онлайн и объединит русскоязычных специалистов из России и любой другой точки планеты для решения задач в сфере приватности и доступа к информации.
Уже третий год команды на хакатоне находят технические решения, которые помогают гражданам защитить цифровые права и расширить цифровые возможности.
На хакатоне DemHack 4 будет представлено несколько треков задач. Участники можете выбрать для реализации одну из сформированных задач или предложить свой проект, релевантный теме трека: приватность, доступ к информации, доступ россиян к технологиям и др.
🔗Подробности и прием заявок на хакатон открыты до 16 мая включительно: https://demhack.ru.
9.demhack.org
Demhack 9
Онлайн-хакатон