Инфокультура – Telegram

Инфокультура

901 subscribers

240 photos

4 videos

4 files

805 links

Новости Информационной культуры. https://infoculture.ru

Download Telegram

About

Blog

Apps

Platform

Инфокультура

901 subscribers

Инфокультура

В каталог каталогов открытых данных DataCatalogs.ru добавлены новые источники данных:
- Базы данных компании LabelMe 17 наборов данных для исследователей машинного обучения и data science. Ссылка https://labelme.ru/datasets-catalog
- Телеграм канал RU Dataset телеграм канал с большим числом ссылок на открытые и иные общедоступные данные Ссылка https://t.me/dataset_ru
- Портал данных о вечной мерзлоте и климате (permafrost.su) Ссылка http://permafrost.su

Вы можете предложить новый источник данных в каталог направив его через форму. Важно что в каталог каталогов принимаются ссылки не на отдельные наборы данных, а на источники в виде каталогов/репозиториев данных.

#opendata #datacatalogs #datasets #data

1.7K views08:59

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

Сегодня в 11:10, в рамках Privacy Day 2022 модерирую сессию Биометрия и другие персональные данные в школах: в чем опасность единой базы данных о детях.

Подключайтесь к трансляции https://privacyday.ru

#privacy #biometrics #vents

2024.privacyday.net

Privacy Day 2024

Международная практическая конференция, посвященная приватности в сети и защите персональных данных.

327 views08:06

Инфокультура

Forwarded from Пост Лукацкого

У Ивана Бегтина опубликована статистика выпуска Постановлений и распоряжений Правительства за последние 8 лет. Меня она зацепила тем, что она показывает (на диаграмме) как Правительство увеличивает число секретных распоряжений из года в год. Практика засекречивания нормативных правовых актов, которая наблюдается в последнее время теперь подтверждена цифрами. Да, это только по Правительству, но и это показатель.

309 views17:23

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

Я каждый год подсчитываю и обновляю полуавтоматически цифры по числу постановлений и распоряжений Правительства РФ, они измеряют legislative burden, нормативную нагрузку. Неприятный факт - она растёт и усложняется. Каждый год приходится читать всё больше, старое не отменяется, нового всё больше. Поскольку читаю законов и других НПА я много, объективно с каждым годом делать это всё тяжелее. Заметно тяжелее. Вот некоторые цифры и выводы

В 2014 году было принято 1610 Постановлений Правительства РФ из которых 1498 были несекретными, около 93% всех постановлений. Общий объём принятых постановлений составил 18503 страницы.
В 2021 году было принято 2610 Постановлений Правительства РФ из которых 2397 были несекретными, около 91,8% всех постановлений. Общий объем принятых постановлений составил 34440 страниц.
Резкий рост начался ещё при Правительстве Медведева в 2019 году когда число Постановлений Правительства РФ достигло 1960 и их объём достиг 24844 страниц, далее в 2020 году 2469 постановления и 27430 страниц и за 2021 год я уже приводил.

В виде таблицы по Постановлениям Правительства РФ:

год число стр. макс н. доля несекретных
——- —— ——-- —— ————
2014 1498 18503 1610 93.0435
2015 1398 13351 1538 90.8973
2016 1450 12660 1593 91.0232
2017 1570 20011 1729 90.8039
2018 1601 17165 1788 89.5414
2019 1807 24844 1960 92.1939
2020 2284 27430 2469 92.5071
2021 2397 34440 2610 91.8391

В случае распоряжений Правительства РФ, их число снижалось с 2015 по 2018 годы и выросло с 2019 по 2021 год. Распоряжения редко содержат много текста, чаще это 1-2 страницы, хотя есть и распоряжение на 522 страницы: Распоряжение Правительства Российской Федерации от 28.11.2020 № 3143-р в виде перечня современных технологий для специальных инвестиционных контрактов. А также, что характерно, в 2021 году рекорд по доле секретных распоряжение Пр-ва, их доля достигла 24.5% то есть почти каждое 4-е распоряжение Пр-ва РФ было засекречено, всего 981 распоряжение, против 683 в прошлом году.

Аналогичная таблица для Распоряжений Правительства РФ
год число стр. макс н. доля несекретных
——- —— ——-- —— ————
2014 2235 10900 2796 79.9356
2015 2223 9819 2794 79.5634
2016 2240 8291 2935 76.3203
2017 2293 8754 3009 76.2047
2018 2402 8534 3053 78.6767
2019 2535 9424 3273 77.4519
2020 3039 10916 3722 81.6497
2021 3027 12034 4008 75.524

Все эти подсчеты на данных собранных с портала официального опубликования Pravo.gov.ru [1] за период 2013-2022 годы и загружаемых в проект DataCrafter [2] и подготавливаемых к архивации в рамках Национального цифрового архива.

Нормативная аналитика - это интересная задача и для этого мы накапливает наборы данных и практики их анализа.
Напишите если Вы хотите работать с этими данными уже прямо сейчас, датасеты из метаданных и документов будут общедоступны.

Ссылки:
[1] https://pravo.gov.ru
[2] https://data.apicrafter.ru

#opendata #data #statistics #legislation #legistationburden

426 views17:23

Инфокультура

Приглашаем на День открытых данных 2022 — онлайн

4-5 марта 2022 года Инфокультура проведет ежегодную конференцию, приуроченную к международному Дню открытых данных.

Присоединяйтесь ко Дню открытых данных, чтобы узнать:
— Как открывать код, данные, знания, созданные за счет госбюджета.
— Как в 2022 году в России регулируется оборот персональных данных.
— Эволюция открытости: от открытых данных по умолчанию к Data4Good.
— Что известно о доступности медицинских данных в эпоху пандемии.
— Где взять данные о жизни в стране: официальные и альтернативные источники.
— Какие проблемы доступности государственных данных сейчас наиболее актуальны.
— Как решить проблему совместимости открытых лицензий в разных юрисдикциях.

Подробности и регистрация: opendataday.ru/msk. Трансляция будет доступна и бесплатна для всех желающих.

5.0K views08:24

Инфокультура

Дорогие друзья,

В этом году мы традиционно планировали провести День открытых данных. Начавшееся с митапов в 2012 году, это мероприятие выросло в важную площадку для диалога между сообществом пользователей открытых данных, НКО, представителями бизнеса и органами государственной власти, а также стало частью международного движения открытости.

В этом году мы планировали проведение мероприятия на 4-5 марта, но начавшиеся с 24 февраля военные действия на территории Украины, инициированные властями России, привели нас к решению об отмене мероприятия. В сложившейся обстановке обсуждение вопросов развития открытости в запланированном конференционно-фестивальном формате мы сочли неуместным.

Мы откладываем проведение этого мероприятия на неопределенный срок, но остаемся приверженцами открытости, и постараемся предложить сообществу другие возможности для общения и обсуждения важных вопросов в дальнейшем.

Спасибо всем, кто поддерживает нас, и до будущих встреч!

Оргкомитет «Дня открытых данных»

4.1K views11:16

Инфокультура

АНО "Инфокультура" присоединяется к заявлению российских НКО.

Мы выступаем против военных действий, которые наша страна осуществляет на территории Украины.

Вся наша работа – это борьба за достоинство человека, спасение жизней. Война несовместима ни с жизнью, ни с достоинством, ни с базовыми принципами человечности. Война – это гуманитарная катастрофа, которая множит боль и страдания. Её последствия сводят на нет наши многолетние усилия.

Мы считаем бесчеловечными силовые методы решения политических конфликтов и призываем вас к прекращению огня и началу переговоров.

#nowar

Обращение российских НКО о прекращении войны

Господин президент,

Мы выступаем против военных действий, которые наша страна осуществляет на территории Украины.

Вся наша работа – это борьба за достоинство человека, спасение жизней. Война несовместима ни с жизнью, ни с достоинством, ни с базовыми принципами…

7.8K views05:10

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

Последние 14 лет я занимался некоммерческими проектами, в основном, в трех направлениях: открытые данные (как часть открытости гос-ва и компаний), простой язык и цифровая архивация.

Сейчас та ситуация когда открытость данных понадобиться в России уже очень нескоро. Как бы не закрыли всё что ранее открывалось. Простота языка - это важная тема для мирного времени, но мирного времени сейчас нет

Архивация

Поэтому актуальное сейчас- это сохранение новейшей истории. У Инфокультуры есть проект Национальный цифровой архив (ruarxive.org). В рамках которого идёт архивация сайтов, в первую очередь органов власти и проектов находящихся под риском исчезновения. Не всё, но многое сохранённое в рамках ruarxive.org хранится в Хабе открытых данных в разделе Архивы сайтов. Не всё потому что архивировать можно быстро, каталогизировать архивы потом долго и очень трудоёмко.

Похоже что в ближайшие месяцы - это станет основной задачей, заархивировать то что очень скоро может быть уничтожено, удалено, отключено, заблокировано. Наибольшие риски у отключения которое происходит при ликвидации организации. Например, ликвидация Мемориала или сейчас ликвидация Эха Москвы.

Мы будем архивировать всё что возможно и в ближайшее время разрабатывать инструменты которые позволяют делать эту архивации быстрее, эффективнее и лучше систематизировать собираемое.

Приоритетные задачи

Первоочередная задача сейчас - это архивация сайта Эхо Москвы (echo.msk.ru). Она уже запущена, но я не знаю есть ли у Эха Москвы другие онлайн ресурсы которые также могут быть закрыты. Если Вы знаете такие, напишите мне лично или в чате @begtinchat .

Вторая задача - составление списка и архивация иных информационных ресурсов которые могут исчезнуть в любой момент. Будь то сайты или телеграм каналы или что-либо ещё. Присылайте если Вы такие знаете. Политическая / идеологическая направленность не имеет значения, значение имеет лишь общественная ценность и риск исчезновения.

И прошу, пишите, если есть любые предложения по тому как исчезающие ресурсы лучше отслеживать, узнавать что они в зоне риска, какие критерии значимости можно использовать и всё остальное по критериям по которым можно признавать сайты и иные цифровые ресурсы значимыми.

Лично я планирую создать в ближайшее время отдельный телеграм канал для цифрового архива и перезапустить его присутствие в Интернете, как минимум в части поиска того что сохранено.

Почему это важно

Почему нельзя положится, например, на Интернет-архив archive.org ? Главная причина в том что archive.org работает как поисковая система, архивируя по критериям цитируемости. Если какая-то страница нигде не упоминается, то и вероятность что она окажется в Интернет архиве невелика. Кроме того Интернет-архив почти не сохраняет не-HTML документы. Он сохраняет часть картинок, не всегда, и совсем не сохраняет mp3, mp4 и другие мультимедиа файлы и очень ограниченно сохраняет файлы doc, xls и т.д., никогда не сохраняет архивы zip, gz и других.

В отличие от Интернет-архива мы делаем полный слепок _всего_ что есть на сайте. Это делается реже, но значительно полнее. А также архивируем каналы в Twitter, Instagram и Telegram.

И, конечно, поддержать проекты по архивации можно прямым донатом на Инфокультуру. Нас пока не признали инагентом или ещё чем-то и сколь долго сколь возможно наши проекты просуществуют. Пока это будет возможно - будем архивировать всё что важно и нужно.

#archive #ruarxive #webarchives #digitalpreservation

Инфокультура

Новости Информационной культуры. https://infoculture.ru

270 views08:42

Инфокультура

Forwarded from Ivan Begtin (Ivan Begtin)

Темы связанные с цифровой архивацией сайтов, соц сетей и остального, я переношу в свежесозданный канал @ruarxive и обсуждение в чат @ruarxivechat. Подписывайтесь и подключайтесь к дискуссиям.

Напомню что я веду и соучаствую в нескольких телеграм каналах:
- мой личный телеграм канал @begtin он посвящён темам работы с данными, технологиями, открытостью и тд. Сейчас я в нём больше пишу про технологии в связи с последними событиями.
- телеграм Инфокультуры @infoculture нашей НКО со специализацией на технологических некоммерческих проектах
- APICrafter @apicrafter - телеграм канал коммерческого каталога данных, нашего стартапа с технологиями сбора, обработки и классификации данных data.apicrafter.ru

Теперь расширяю этот список каналом по цифровой архивации, которая будет во многом пересекаться с темой открытых данных, поскольку где это возможно там архивация будет включать создание наборов данных.

#digitalpreservation #webarchives #opendata #archives

397 views13:41

Инфокультура

Forwarded from Национальный цифровой архив (Ivan Begtin)

Мы начали активную архивацию онлайн сайтов исчезающих в самое ближайшее время. Это включает перезапуск нашего сайта Национального цифрового архива (ruarxive.org), запуск этого телеграм канала ruarxive и переход к архивации наиболее уязвимых и значимых сайтов.

Какие риски возникают и почему архивация важна?

Существует много рисков: технические сбои, взломы хакеров, санкции, ошибка администраторов, изъятие серверов и ликвидация организаций/проектов. Ключевые риски сейчас в ликвидации проектов и организаций. Например, ликвидируется Эхо Москвы, а Znak.com одномоментно закрыл сайт.

Наша позиция в том что должны сохранятся все цифровые ресурсы, вне зависимости от их политической, идеологической и иной направленности, подпадающие одновременно под два критерия: общественная значимость и высокая вероятность исчезновения.

Как происходит архивация?

Как только выясняется какой сайт/цифровой ресурс может исчезнуть, он вносится в план архивации, мы определяем как его можно архивировать, максимально оперативно запускаем архивацию техническими инструментами и заполняем его карточку. Сейчас мы умеем архивировать сайты, телеграм каналы, аккаунты в инстаграм и твиттер и, ограниченно в других социальных сетях.

После окончания выгрузки файлы загружаются в наше онлайн хранилище, в облако Backblaze и оффлайн хранилище на случай их недоступности.
Итоговые файлы могут достигать сотен гигабайт, в случае веб архивов они представлены в форматах warc.gz, специальном формате созданном для веб-архивации.

Где можно увидеть что уже заархивировано?

Списки сайтов последних архивационных кампаний можно увидеть в специальной таблице на сервисе Airtable. Там же приведены ссылки на сохранённые сайты в рамках предыдущих двух архивационных кампаний сайтов Роснано и сайтов Мемориала. Также доступны архивы за прошлые годы, общий список можно скачать в CSV формате.

Файлы в формате WARC можно открыть с помощью программы ReplayWeb.page оффлайн, остальные архивы можно открыть любым архиватором поддерживающим ZIP и GZ файлы.

Сайт уже исчез, что делать?

Связаться с его владельцами и попросить поделиться архивом или написать нам в @ruarxivechat и мы постараемся это сделать.
Иногда сайт частично можно восстановить из других источников, таких как Интернет-архив если он имеет большую значимость мы попробуем это сделать.

Какие ещё есть проекты в этой области?

В нашем архиве далеко не всё, мы стараемся максимально полно сохранять то что исчезает, но широта его охвата ограничена. Мы не можем сделать полную копию всех каналов в Телеграм или всех сайтов. Если Вы ищите архивы цифровых материалов то обратите внимание на такие ресурсы как Archive.org, Common Crawl и проекты ArchiveTeam.

Как помочь?

1. Финансовое пожертвование Инфокультуре - https://www.infoculture.ru/donation/. Средства идут на сервера и оплату облачного хранения.
2. Сообщить о том что сайт/ресурс может исчезнуть чтобы мы успели его сохранить. Можно написать в чат @ruarxivechat или заполнить форму
3. Передать архивы сайта/ресурса в случае если он ранее исчез.
4. Помочь с разработкой инструментов для архивации сложных ресурсов - VK, Facebook, каналы и чаты в WhatsApp, Viber и других. Есть много других технических задач, мы их собираем
5. Пожертвовав диски/системы хранения/компьютеры для оффлайн хранения и сбора данных.
6. Присоединяйтесь к обсуждениям в чате @ruarxivechat

#webarchives #digitalpreservation #archives

Национальный цифровой архив

Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин

360 views10:35

Инфокультура

Forwarded from Национальный цифровой архив

Для тех кто задумывается об архивации собственных материалов, полезные ссылки на руководства и инструменты которые можно использовать:
- получить свои данные в Twitter - сервис выгрузки всех собственных данных из социальной сети Twitter
- выгрузить данные из Facebook - возможность заказать все свои данные собранные в социальной сети Facebook
- гайд по быстрой архивации материалов - примеры инструментов для архивации сайтов, социальных сетей и т.д. с инструкциями по их использованию на русском языке
- Awesome data takeout - коллекция ссылок на инструменты архивации, включая ранее упомянутые выше. На английском языке
- Digital Preservation Handbook - руководство по цифровой архивации от коалиции цифровых архивов. Ориентировано, в первую очередь, на архивистов. Включает множество ссылок на действующие проекты помогающие в цифровой архивации. На английском языке

#webarchives #archives #digitalpreservation

Log in or sign up to view

See posts, photos and more on Facebook.

442 views20:23

Инфокультура

Forwarded from Национальный цифровой архив

О том как сохранять видео файлы с Youtube.

Для архивации с Youtube наиболее популярный инструмент youtube-dl [1] это утилита для командной строки где можно указать ссылку на видео и формат сохранения и скачать локально файл с видео или аудиозаписью.

Для тех кто не привык работать с командной строки, есть несколько инструментов создания пользовательских интерфейсов над этой утилитой:
- Open Video Downloader (youtube-dl-gui) [2] - интерфейс над youtube-dl
- youtube-dlG [3] - интерфейс над youtube-dl
- dvd [4] - умеет архивировать не только Youtube, но и другие видео сайты
- Hitomi Downloder [5] - умеет архивировать изображения, видео и текст с десятков сайтов
- FireDM [6] - умеет выгружать обычные файлы и видеофайлы с YouTube

А также обязательно хочу напомнить про ArchiveBox [7] проект созданный специально для ведения личных архивов. Он поддерживает, в том числе, сохранение видеофайлов, а также много разных вариантов другого контента.

Ссылки:
[1] https://ytdl-org.github.io/youtube-dl/index.html
[2] https://github.com/jely2002/youtube-dl-gui
[3] https://github.com/MrS0m30n3/youtube-dl-gui
[4] https://github.com/yausername/dvd
[5] https://github.com/KurtBestor/Hitomi-Downloader
[6] https://github.com/firedm/FireDM
[7] https://archivebox.io/

#digitalpreservation #videoarchives #archives #tools

GitHub - jely2002/youtube-dl-gui: A cross-platform GUI for youtube-dl made in Electron and node.js

A cross-platform GUI for youtube-dl made in Electron and node.js - jely2002/youtube-dl-gui

307 views09:02

Инфокультура

Инфокультура поддерживает заявление наших коллег и партнеров из «Роскомсвободы» о том, что санкции иностранных IT-компаний в отношении российских пользователей помогают цензуре и ограничивают право человека на доступ к информации.

389 views10:29

Инфокультура

Forwarded from Roskomsvoboda

⚡️Заявление «Роскомсвободы»:

Санкции иностранных IT-компаний в отношении обычных российских пользователей только помогают цензуре

❗️Доступ к интернету и электронным средствам связи жизненно необходим, поскольку только с его помощью россияне могут получать объективную информацию и принимать правильные решения, а их исключение из глобальной Сети лишает достоверной внешней информации и в долгосрочной перспективе станет препятствием для мирного разрешения гуманитарного кризиса.

Сегодня многие технологические компании, находящиеся в юрисдикциях США, ЕС и дргугих стран, проводят массовые отключения аккаунтов российских пользователей. В этом процессе задействованы регистраторы доменов, разработчики программного обеспечения, игровые платформы, биржи криптовалют, магистральные провайдеры, облачные и другие цифровые сервисы.

Подобные действия не приведут к улучшению ситуации в Украине, но значительно ухудшат ситуацию с соблюдением основных прав человека в РФ.

➡️ https://roskomsvoboda.org/post/zayavlenie-protiv-otklyuchenia-rf-akkov

➡️ Заявление «Роскомсвободы» доступно по ссылке на русском, английском и французском языках

Роскомсвобода

Заявление «Роскомсвободы»: Санкции иностранных IT-компаний в отношении обычных российских пользователей только помогают цензуре

Доступ к интернету и электронным средствам связи жизненно необходим, поскольку только с его помощью россияне могут получать объективную информацию и принимать правильные решения, а их исключение из глобальной Сети лишает достоверной внешней информации и в…

336 views10:29

Инфокультура

Data takeout. Как сохранить свои данные из интернет-сервисов и соцсетей?

Сейчас для российских пользователей популярных онлайн-сервисов появился риск потери личной или профессиональной информации, накопленной годами.

Иван Бегтин составил список ссылок инструментов, которые помогут сделать data takeout — то есть извлечь и сохранить данные из популярных онлайн-сервисов.

В этом числе инструменты для извлечения данных из таких сервисов и соцсетей, как: Facebook, Twitter, VK, Instagram, Whatsapp, Telegram, Spotify, Google Workplace, Slack, Notion, Mailchimp, Trello, Miro и многие другие.

GitHub - ivbeg/awesome-data-takeout: Awesome list of data export pages/tools for most common online services

Awesome list of data export pages/tools for most common online services - ivbeg/awesome-data-takeout

592 views18:12

Инфокультура

Forwarded from Национальный цифровой архив

Как устроены общественные проекты по цифровой архивации в мире

В мире существует много инициатив по цифровой архивации, это могут быть целевые проекты по архивации данных и кода, библиотек сканов старинных книг и многое другое. Чаще всего такие проекты инициируются государством или являются проектами госархивов и национальных библиотек. Но есть множество проектов которые созданы волонтерами для решения срочных задач, вот некоторые из них.

Climate Mirror (http://climatemirror.org/)
Зеркало данных о изменении климата. Данные собирались сообществом после прихода к власти Трампа и анонса удаления данных с государственных сайтов в США.

DataRefuge (https://www.datarefuge.org/)
Проект по сбору данных о изменении климата и состоянию окружающей среды. Также возник после действий администраций Трампа, включает архивацию данных, каталог, хакатоны по сбору данных и многое другое

End of term web archive (http://eotarchive.cdlib.org/)

Проект The End of Term Web Archive создан в Калифорнийской цифровой библиотеке при Университете Калифорнии и включает слепки всех государственных сайтов США за каждый выборный цикл: 2008, 2013, 2017 годов.

SUCHO (https://sucho.org)
Свежий проект по архивации объектов цифрового культурного наследия Украины, создан участникам из нескольких университетов в США, работает как волонтерский проект.
—
А также, конечно, важный проект ArchiveTeam (https://archiveteam.org) сообщества архивистов-активистов срочно архивирующих сайты, в первую очередь, крупнейших закрываемых проектов, например, соцсетей или сервисов коротких ссылок. Это особенно большой проект, о нем ещё напишу отдельно.

Важно то что все эти проекты основаны на открытости результатов, архивы не закрыты, не спрятаны, не складированы в неизвестном месте, а доступны для выгрузки.

#ruarxive #archives #webarchives #digitalpreservation

www.datarefuge.org

Data Refuge is a community-driven, collaborative project to preserve public climate and environmental data

400 views05:54

Инфокультура

Forwarded from Национальный цифровой архив

Новости проекта на 17 марта 2022 года

- Начата работа над базой знаний, вскоре анонсируем репозиторий на Github к наполнению которого можно будет присоединится.
- Мы продолжаем работать над обновлённым сайтом, пока самые актуальные новости будут в этом телеграм канале
- Идёт работа по загрузке копии материалов Эха Москвы в Интернет Архив, она займет ещё какое-то время поскольку параллельно идет архивация многих цифровых ресурсов в зоне риска.

Архивация сайтов заблокированных ресурсов

Продолжается архивация сайтов издания: Colta, Tjournal, The Insider, Бумага. Начата архивация Костромского Форума Костромских джедаев (заблокирован Роскомнадзором, закрывается). В общей сложности собрано 50GB материалов, архивация продолжается.

Сделана копия сайта издания DOXA, готовится к загрузке в общедоступное хранилище.

Архивация Coub
- отправлены письма владельцам сайтам с просьбой передать в архив накопленные у них данные. Если у Вас есть прямые контакты владельцев и Вы можете им написать/спросить, это оказало бы большую помощь.
- выгружены 1952 ролика из раздела Hot, общий объём 55GB
- идёт выгрузка данных с сайта через общедоступное API по каждой категории. Это до 5000 роликов в категории. Следующим шагом будет сбор данных о всех роликах признанных лучшими
- идет подбор дополнительного хранилища для хранения больших объёмов данных из Coub
- запланирована архивация всех роликов которые можно будет успеть сохранить до конца марта.
—
Если Вы знаете что-то о сайтах и иных цифровых ресурсах которые могут исчезнуть в ближайшее время, пишите нам в чате, поставим их на первоочередную загрузку. Также мы готовы принимать любые в дар любые жесткие диски, системы сохранения, архивы с данными на любых цифровых носителях.

#digitalpreservation #archives #news

Национальный цифровой архив

Всё о цифровой архивации, спасении digital-born контента, архивации гибнущих сайтов и иных цифровых объектов. Сайт: https://ruarxive.org/

Чат @ruarxivechat

Проект Информационной культуры @infoculture
Контакт @ibegtin Иван Бегтин

351 views10:53

Инфокультура

Forwarded from Национальный цифровой архив

Для тех кто думает о сохранении материалов с Coub.com, в репозиторий coub-archival-campaign [1] на Github выложены данные собранные через API Coub.com, это по 5000 роликов по всем категориям и доступные ролики тематически собранные в группы Hot и Featured. Все данные собраны с помощью утилиты APIBackuper [2] выгружающей запросы к API в формате JSON lines. Из этих файлов можно простым способом выгрузить списки роликов на выгрузку.

Сейчас проведена архивация роликов из разделов Hot. Далее запланирована выгрузка роликов по другим категориям и выгрузка списков лучших Coub'ов по годам.

Большой помощью будет если кто-то поможет:
a) Выгрузить списки лучших роликов из разделов Best https://coub.com/best/2021, https://coub.com/best/2020 и тд. в форматах JSONL по аналогии с данными выше
b) Поможет выгрузить Coub'ы по категориям или темам. Для архивации через несколько дней мы организуем сервер куда можно будет ролики залить и также их можно загружать в Интернет Архив archive.org, в раздел Community Video. Это возможно после создания аккаунта на сайте Интернет архива.

Ссылки:
[1] https://github.com/ruarxive/coub-archival-campaign
[2] https://github.com/ruarxive/apibackuper

#opendata #coub #archives #api

Best coubs of 2021

Watch the year's top videos! Selected by our community and Coub editorial team

442 views14:29

Инфокультура

Forwarded from Национальный цифровой архив

Новости проекта на 23 марта 2022 года

- расширили наши ресурсы хранения двумя SAS дисками по 14TB для нашего сервера хранения
- приобрели диск на 14TB и Synology Diskstation420j в качестве промежуточного хранилища (потребуется ещё 3 аналогичных дисков)
- продолжаем работу над запуском новой версии сайта с базой знаний, обязательно подключим всех кто выражал желание помочь в её создании.

Текущие архивационные кампании
- сайты заблокированных СМИ: сохранены colta.ru, theins.ru, paperpaper.ru, agentura.ru, news.doxajournal.ru. Все загружаются в общедоступное хранилище. Общий объём около 100GB
- Эхо Москвы: архив сайта доступен для выгрузки по запросу и медиа-архив загружается в промежуточное хранилище с разделением по программам. К сожалению, заняло больше времени чем ожидалось из за необходимости параллельно архивировать многие другие ресурсы
- начата кампания по архивации сайтов имеющих культурную ценность. Чуть позже они будут добавлены в план архивации.
- начата кампания по архивации Instagram аккаунтов официальных лиц. Она идёт с большим трудом из-за ограничений Instagram.

#digest #archives #webarchival #digitalpreservation

474 views11:27

Инфокультура

Forwarded from Национальный цифровой архив

Новости проекта на 31 марта 2022 г.

- загружены все сохранённые медиа файлы с сайта Эха Москвы на облачный хостинг, прямые ссылки доступны в файле https://t.me/ruarxive/29
- продолжается загрузка программ медиа архива Эха Москвы в Internet Archive https://archive.org/details/@ruarxive
- спасибо всем кто помогает в заполнении списка программ Эха Москвы. Это приближает нас к возможности создания базы данных всех сохранённых передач и возможности воссоздания сайта или создания настольного приложения
- завершена архивация сайта социолога Сергея Белановского sbelan.ru в связи с его анонсом закрытия сайта в ближайшие дни
- продолжается архивация сайта издания Троицкий вариант trv-science.ru
- запущена архивация сайта Росавиации favt.gov.ru в связи с сообщениями СМИ о потере органом власти данных документооборота
- идёт архивация нескольких сотен сайтов относящихся к культурным учреждениям/культурным проектам
- перезапущена архивация сайта Новой газеты novayagazeta.ru в связи с приостановкой деятельности издания. Ранее сайт Новой газеты и сайты всех её спецпроектов были заархивированы 3 марта 2022 г, но с архивацией именно сайта издания были сложности в связи с защитой от DDoS которую использовали его создатели. Сейчас архивация сайта перезапущена.
- завершается подготовка обновленного сайта проекта Ruarxive, в ближайшие дни анонсируем его доступность.

Перечень сайтов и иных цифровых ресурсов заархивированных в 2021-2022 года доступны по прямой ссылке https://airtable.com/shrO1hise7WgURXg5/tblhdXAwIv5AVtN7Y

#digitalpreservation #archives #webarchives

448 views05:47

Инфокультура

Forwarded from Трансперенси

«Декларатор» и Инфокультура собрали в архив инстаграмы российских чиновников

После признания Meta экстремистской организацией возник риск, что российские чиновники станут массово удалять свои аккаунты в инстаграме.

Мы помогли НП «Инфокультура» собрать архив инстаграмов российских чиновников. Ссылки на архивы будут доступны в профилях госслужащих на declarator.org

Национальный цифровой архив

Закончена архивация Instagram аккаунтов официальных лиц и политиков РФ. Сохранён 171 аккаунт. Код архивации и список инстаграм аккаунтов выложены в репозитории на Github [1], а итоговые данные собраны в архиве в 1.4GB [2]

Успешно были заархивированы все…

377 views09:11