Ещё про архивацию данных, на сей раз институтов развития. К примеру, ВЭБ.РФ много лет публикует много материалов на своём сайте, обязательную отчетность и, например, отчетность об устойчивом развитии . Они есть в разделе на сайте в PDF формате [1], но только за 3 года: 2013, 2014 и 2016 они создавали (заказывали подготовку) отчётность в интерактивном формате и отчетность за 2016 год в таком виде уже не открывается [2], хотя и за 2013 и 2014 годы доступна [3] [4]. Это не критично, поскольку отчет за 2016 год есть в PDF, но странно. Аналогичным образом исчезли:
- годовой отчет ВЭБ.рф за 2016 год [5]. Последний раз он наблюдался в веб-архиве в сентябре 2019 года [6].
- корпоративный журнал Внешэкономбанка [7], последний раз был доступен в октябре 2019 года [8]
Всё это я привожу как пример культуры отсутствия сохранения материалов, сайтов и данных. Причём не злонамерянный, поскольку в данном случае есть копии этих материалов в других формах и ещё с учётом того что ВЭБ.рф живёт по корпоративным правилам и свою отчетность публикует достаточно строго.
Я таких примеров могу приводить ещё много, а вот примеров обратного немного.
Из российских публичных институтов только ЦБ РФ вызывает большое уважение потому что у них есть сохранённые архивы сайтов СБРФР, ФСФР и ФКЦБ с 2003 по 2014 годы [9], а также архив баз данных [10], в некоторых случаях с 1996 года, и много других архивов.
Другой пример - это портал АИС УП у Минэкономразвития РФ [11] где с 2004 года и до 2020 года публиковались результаты контрактов Минэка вначале по Электронной России, далее по госпрограмме развития Информационного общества. Для российской контрактной системы и российских госпрограмм такие порталы и тогда были редки, а теперь и безусловная редкость.
Ссылки:
[1] https://veb.ru/investoram/otchetnost/otchetnost-ob-ustoychivom-razvitii/
[2] http://csr2016.veb.ru/
[3] http://csr2013.veb.ru/ru/
[4] http://csr2014.veb.ru/ru/
[5] https://annual2016.veb.ru/
[6] https://web.archive.org/web/20190915153602/https://annual2016.veb.ru/
[7] http://magazine.veb.ru/
[8] https://web.archive.org/web/20191020023946/http://magazine.veb.ru/
[9] http://www.cbr.ru/archive/archive_fkcb/
[10] http://www.cbr.ru/archive/db/
[11] https://aisup.economy.gov.ru
#webarchive #archive #data
- годовой отчет ВЭБ.рф за 2016 год [5]. Последний раз он наблюдался в веб-архиве в сентябре 2019 года [6].
- корпоративный журнал Внешэкономбанка [7], последний раз был доступен в октябре 2019 года [8]
Всё это я привожу как пример культуры отсутствия сохранения материалов, сайтов и данных. Причём не злонамерянный, поскольку в данном случае есть копии этих материалов в других формах и ещё с учётом того что ВЭБ.рф живёт по корпоративным правилам и свою отчетность публикует достаточно строго.
Я таких примеров могу приводить ещё много, а вот примеров обратного немного.
Из российских публичных институтов только ЦБ РФ вызывает большое уважение потому что у них есть сохранённые архивы сайтов СБРФР, ФСФР и ФКЦБ с 2003 по 2014 годы [9], а также архив баз данных [10], в некоторых случаях с 1996 года, и много других архивов.
Другой пример - это портал АИС УП у Минэкономразвития РФ [11] где с 2004 года и до 2020 года публиковались результаты контрактов Минэка вначале по Электронной России, далее по госпрограмме развития Информационного общества. Для российской контрактной системы и российских госпрограмм такие порталы и тогда были редки, а теперь и безусловная редкость.
Ссылки:
[1] https://veb.ru/investoram/otchetnost/otchetnost-ob-ustoychivom-razvitii/
[2] http://csr2016.veb.ru/
[3] http://csr2013.veb.ru/ru/
[4] http://csr2014.veb.ru/ru/
[5] https://annual2016.veb.ru/
[6] https://web.archive.org/web/20190915153602/https://annual2016.veb.ru/
[7] http://magazine.veb.ru/
[8] https://web.archive.org/web/20191020023946/http://magazine.veb.ru/
[9] http://www.cbr.ru/archive/archive_fkcb/
[10] http://www.cbr.ru/archive/db/
[11] https://aisup.economy.gov.ru
#webarchive #archive #data
csr2013.veb.ru
Внешэкономбанк — Отчет об устойчивом развитии 2013
Мало кто знает что у компании Yahoo устойчивая репутация разрушителя интернет культуры. Об этом в статье в Atlantic "Yahoo, the Destroyer" [1].
А всё дело в том что когда ещё Yahoo массово скупали интернет проекты с материалами пользователей, они взяли в привычку закрывать их одномоментно несмотря на то что у этих проектов были устойчивые группы пользователей и высокая активность. Но закрыть для Yahoo всегда было проще чем продолжить, переделать, передать.
В результате, в 1999 году они купили сервис домашних страниц GeoCites и в 2009 году закрыли, при очень небольших расходах на его поддержку и большом числе пользователей. GeoCites были сохранены энтузиастами из проекта The Archive Team [2] хотя задача и была очень сложной как рассказывал об этом Jason Scott, возглавляющий The Archive Team.
А теперь Yahoo собрались с 4 мая убить Yahoo Answers [3], анонс был 5 апреля, был всего месяц сохранить этот сайт. Прямо сейчас Archive Team сохраняет Yahoo Answers [4], но получится ли это успеть до 5 мая - возможно что нет.
Yahoo не единственная компания ведущая себя таким образом. В разделе Deathwatch [5] на сайте Archive Team можно проследить судьбу многих проектов.
В России у Yahoo нет аналогов, но наиболее близким является Яндекс. Яндекс в короткие сроки "убил" Яндекс.Район совсем недавно, а ранее Ауру, поиск по блогам, блоги и продавший когда Narod.ru в Ucoz (оказалось равносильно убийству).
Иногда такие проекты можно пытаться сохранять, но чаще они гибнут безвозвратно. А я напомню о том что в рамках национального цифрового архива мы сохраняем сайты госорганов и госпроектов [6]
Ссылки:
[1] https://www.theatlantic.com/technology/archive/2021/04/how-yahoo-became-internet-villain/618681/
[2] https://archive.org/web/geocities.php
[3] https://www.theverge.com/2021/4/5/22368488/yahoo-answers-shutdown-may-4-internet-era-over-rip
[4] https://wiki.archiveteam.org/index.php/Yahoo!_Answers
[5] https://wiki.archiveteam.org/index.php/Deathwatch
[6] https://ruarxive.org
#webarchive #archive
А всё дело в том что когда ещё Yahoo массово скупали интернет проекты с материалами пользователей, они взяли в привычку закрывать их одномоментно несмотря на то что у этих проектов были устойчивые группы пользователей и высокая активность. Но закрыть для Yahoo всегда было проще чем продолжить, переделать, передать.
В результате, в 1999 году они купили сервис домашних страниц GeoCites и в 2009 году закрыли, при очень небольших расходах на его поддержку и большом числе пользователей. GeoCites были сохранены энтузиастами из проекта The Archive Team [2] хотя задача и была очень сложной как рассказывал об этом Jason Scott, возглавляющий The Archive Team.
А теперь Yahoo собрались с 4 мая убить Yahoo Answers [3], анонс был 5 апреля, был всего месяц сохранить этот сайт. Прямо сейчас Archive Team сохраняет Yahoo Answers [4], но получится ли это успеть до 5 мая - возможно что нет.
Yahoo не единственная компания ведущая себя таким образом. В разделе Deathwatch [5] на сайте Archive Team можно проследить судьбу многих проектов.
В России у Yahoo нет аналогов, но наиболее близким является Яндекс. Яндекс в короткие сроки "убил" Яндекс.Район совсем недавно, а ранее Ауру, поиск по блогам, блоги и продавший когда Narod.ru в Ucoz (оказалось равносильно убийству).
Иногда такие проекты можно пытаться сохранять, но чаще они гибнут безвозвратно. А я напомню о том что в рамках национального цифрового архива мы сохраняем сайты госорганов и госпроектов [6]
Ссылки:
[1] https://www.theatlantic.com/technology/archive/2021/04/how-yahoo-became-internet-villain/618681/
[2] https://archive.org/web/geocities.php
[3] https://www.theverge.com/2021/4/5/22368488/yahoo-answers-shutdown-may-4-internet-era-over-rip
[4] https://wiki.archiveteam.org/index.php/Yahoo!_Answers
[5] https://wiki.archiveteam.org/index.php/Deathwatch
[6] https://ruarxive.org
#webarchive #archive
The Atlantic
Yahoo, the Destroyer
How the historic company became known as a bumbling villain of internet culture
Forwarded from Национальный цифровой архив
Анонсировано закрытие сервиса coub.com с 1 апреля 2022 года [1]. Coub это развлекательный сервис, из зацикленных отрывков видео с наложенными на них музыкальными дорожками. С одной стороны это развлекательный контент, а с другой стороны.
Для Coub существует несколько инструментов выгрузки контента, один из самых продвинутых - это CoubDownloader [2], а также есть какое-то количество других на Github.
Мы сейчас запустили архивацию наиболее популярных Coub'ов, из категории "Hot", постараемся сохранить и другие по возможности, но в первую очередь оцениваем ожидаемые объёмы требующие сохранения. Также пока до конца неясен масштаб общественной ценности этого контента, в ближайшее время делать такую оценку.
Если у Вас есть списки Coub'ов имеющих общественную ценность, присылайте их в чат к каналу https://t.me/ruarxivechat.
А также если Вы планируете сохранить какие-либо coub'ы по категориям самостоятельно, пожалуйста, поделитесь итоговыми результатами.
Ссылки:
[1] https://coub.com
[2] https://github.com/HelpSeeker/CoubDownloader
#archives #videoarchive #coub #webarchive
Для Coub существует несколько инструментов выгрузки контента, один из самых продвинутых - это CoubDownloader [2], а также есть какое-то количество других на Github.
Мы сейчас запустили архивацию наиболее популярных Coub'ов, из категории "Hot", постараемся сохранить и другие по возможности, но в первую очередь оцениваем ожидаемые объёмы требующие сохранения. Также пока до конца неясен масштаб общественной ценности этого контента, в ближайшее время делать такую оценку.
Если у Вас есть списки Coub'ов имеющих общественную ценность, присылайте их в чат к каналу https://t.me/ruarxivechat.
А также если Вы планируете сохранить какие-либо coub'ы по категориям самостоятельно, пожалуйста, поделитесь итоговыми результатами.
Ссылки:
[1] https://coub.com
[2] https://github.com/HelpSeeker/CoubDownloader
#archives #videoarchive #coub #webarchive
Telegram
Обсуждаем цифровую архивацию
Чат к каналу @ruarxive о цифровой архивации
Forwarded from Национальный цифровой архив
В связи с ликвидацией Федерального агентства по туризму (Ростуризм) мы спешно архивируем все его цифровые ресурсы.
В нашем каталоге госдоменов к Ростуризму относятся следующие:
—
russiatourism.ru
www.russiatourism.ru
last.russiatourism.ru
opendata.russiatourism.ru
opendata2.russiatourism.ru
reestr.russiatourism.ru
rgo.russiatourism.ru
www2.russiatourism.ru
—
Если Вы знаете какие-либо дополнительные сайты и иные цифровые ресурсы которые могут исчезнуть в связи с ликвидацией агентства или если Вы располагаете любыми архивами и материалами о его деятельности которые исчезают/исчезли ранее или могут быть недоступны, напишите нам на infoculture@infoculture.ru или чате к этому каналу.
Мы постараемся в ближайшее время сохранить всё что будет ещё возможно.
#digitalpreservation #webarchive
В нашем каталоге госдоменов к Ростуризму относятся следующие:
—
russiatourism.ru
www.russiatourism.ru
last.russiatourism.ru
opendata.russiatourism.ru
opendata2.russiatourism.ru
reestr.russiatourism.ru
rgo.russiatourism.ru
www2.russiatourism.ru
—
Если Вы знаете какие-либо дополнительные сайты и иные цифровые ресурсы которые могут исчезнуть в связи с ликвидацией агентства или если Вы располагаете любыми архивами и материалами о его деятельности которые исчезают/исчезли ранее или могут быть недоступны, напишите нам на infoculture@infoculture.ru или чате к этому каналу.
Мы постараемся в ближайшее время сохранить всё что будет ещё возможно.
#digitalpreservation #webarchive
Forwarded from Национальный цифровой архив
В связи с новостями о том что Роснано может стать банкротом в ближайшее время [1] напомним что ещё в 2021 году на новостях со сменой руководства госкорпорации мы делали полный архив известных на тот момент сайтов организации. Архив доступен в форматах warc по ссылке [2].
Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com
Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.
Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
#digitalpreservation #rosnano #webarchive #ruarxive
Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com
Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.
Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/
#digitalpreservation #rosnano #webarchive #ruarxive
РБК
«Роснано» предупредило о риске банкротства
«Роснано» сообщило, что не сможет до конца года погасить долги за счет собственных средств. Его чистый долг составляет 95 млрд руб. Оно испытывает подобные проблемы уже несколько лет. Путин говорил о
Forwarded from Национальный цифровой архив
Google выключают доступ к кешированным страницам [1] которые ранее были доступны в их поиске, теперь эти страницы будут доступны только через Google Webmaster для владельцев сайтов [2]. Кеш Google активно использовался для восстановления недавно исчезнувших сайтов и просмотра удалённых веб страниц.
Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.
Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].
Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org
#archives #webarchive #google
Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.
Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].
Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org
#archives #webarchive #google
Ars Technica
Google will no longer back up the Internet: Cached webpages are dead
Google Search will no longer make site backups while crawling the web.
В рубрике как это работает у них в Великобритании в Национальном архиве сохраняются копии всех сайтов ( и данных ) государственных органов страны и большая часть из них, когда меняют свои сайты, ссылаются на архивную копию в национальном архиве когда хотят сохранить доступ к материалам. Например, статистическая служба Великобритании несколько лет назад мводернизировала свой сайт и изменило базу хранения и предоставления статистических наборов данных. Данные все были сохранены, но к изменились ссылки и для тех кто хочет скачать архивные данные они предоставляют такую ссылку в разделе временных рядов [1].
В свою очередь копия сайта в национальном архиве [2] включает все документы которые были на оригинальном сайте.
А ещё точнее, множество копий за разные промежутки времени.
Ссылки:
[1] https://www.ons.gov.uk/timeseriestool
[2] https://webarchive.nationalarchives.gov.uk/ukgwa/20160105160709/http://www.ons.gov.uk/ons/index.html
#opendata #data #statistics #uk #webarchive #digitalpreservation #archives
В свою очередь копия сайта в национальном архиве [2] включает все документы которые были на оригинальном сайте.
А ещё точнее, множество копий за разные промежутки времени.
Ссылки:
[1] https://www.ons.gov.uk/timeseriestool
[2] https://webarchive.nationalarchives.gov.uk/ukgwa/20160105160709/http://www.ons.gov.uk/ons/index.html
#opendata #data #statistics #uk #webarchive #digitalpreservation #archives
Forwarded from Национальный цифровой архив
Велика вероятность закрытия сайта Большой российской энциклопедии (bigenc.ru) 17 июня. Руководство проекта написало об этом сегодня. Наша команда постарается сделать архивную копию на этих выходных. Если у Вас есть копии контента и Вы готовы их передать, мы обязательно добавим их в архив и сделаем материалы общедоступными.
P.S. В который раз приходится сталкиваться с ситуацией необходимости экстренной архивации государственных проектов. Очень печалит что о происходящем ранее не было известно.
#deathwatch #webarchive #bigenc
P.S. В который раз приходится сталкиваться с ситуацией необходимости экстренной архивации государственных проектов. Очень печалит что о происходящем ранее не было известно.
#deathwatch #webarchive #bigenc
Telegram
Большая российская энциклопедия
Обращение редакций портала «Большая российская энциклопедия» к авторам, экспертам и читателям
Уважаемые авторы, рецензенты и читатели портала «Большая российская энциклопедия». Дорогие друзья и коллеги!
Два года назад нашими общими усилиями в сети Интернет…
Уважаемые авторы, рецензенты и читатели портала «Большая российская энциклопедия». Дорогие друзья и коллеги!
Два года назад нашими общими усилиями в сети Интернет…
Ещё один пример закрытия данных Банк России приостанавливает публикацию статистики внебиржевого валютного рынка [1].
А ведь совсем недавно, в апреле, эту статистику стали публиковать расширенно [2].
Этого раздела больше нет на сайте ЦБ РФ [3], причем удалили даже архив, что непохоже на ЦБ РФ которые, к примеру, после прекращения публикации данных по экспорту в 2022 году архивные данные не удаляли.
Некоторые данные всё ещё доступны в Интернет-Архиве [4], но в целом событие печалит ещё и тем что ЦБ РФ теперь подчищает архивы и нужна регулярная архивация их сайта. В последний раз мы делали это для Национального цифрового архива [5] в 2021 году и это была веб архивация, она не охватывала данные закрытые формами и POST запросами
Ссылки:
[1] https://cbr.ru/press/pr/?file=638566558563054550DKP.htm
[2] https://www.cbr.ru/press/pr/?file=638489599567862726DATABASES.htm
[3] https://www.cbr.ru/hd_base/vko/
[4] https://web.archive.org/web/20240706093400/https://cbr.ru/hd_base/vko/
[5] https://ruarxive.org
#opendata #closeddata #cbrf #statistics #russia #webarchive #digitalpreservation
А ведь совсем недавно, в апреле, эту статистику стали публиковать расширенно [2].
Этого раздела больше нет на сайте ЦБ РФ [3], причем удалили даже архив, что непохоже на ЦБ РФ которые, к примеру, после прекращения публикации данных по экспорту в 2022 году архивные данные не удаляли.
Некоторые данные всё ещё доступны в Интернет-Архиве [4], но в целом событие печалит ещё и тем что ЦБ РФ теперь подчищает архивы и нужна регулярная архивация их сайта. В последний раз мы делали это для Национального цифрового архива [5] в 2021 году и это была веб архивация, она не охватывала данные закрытые формами и POST запросами
Ссылки:
[1] https://cbr.ru/press/pr/?file=638566558563054550DKP.htm
[2] https://www.cbr.ru/press/pr/?file=638489599567862726DATABASES.htm
[3] https://www.cbr.ru/hd_base/vko/
[4] https://web.archive.org/web/20240706093400/https://cbr.ru/hd_base/vko/
[5] https://ruarxive.org
#opendata #closeddata #cbrf #statistics #russia #webarchive #digitalpreservation
Forwarded from Национальный цифровой архив
Google анонсировали закрытие сервиса сокращения ссылок goo.gl [1] после того как уже более 5 лет с его помощью нельзя было создавать ссылки, а также были отключены функции аналитики и управления.
Окончательно сервис будет закрыт 25 августа 2025 когда перестанут работать ссылки, а с 23 августа 2024 года будет выводится предупреждение при их открытии.
Чтобы будет с этими ссылками? Команда Archive Team ведёт архивацию всех коротких ссылок в проекте URLTeam [2]. Уже просканировано 38.6 миллиардов ссылок и обнаружены активными 7 миллиардов ссылок.
P.S. ArchiveTeam это крупнейший глобальный краудсорсинговый проект по веб архивации, поучаствовать в нём можно с помощью ПО Warrior которое выполняет задачи по сбору контента синхронизируясь с трекером задач [3].
Ссылки:
[1] https://9to5google.com/2024/07/18/googl-links/
[2] https://tracker.archiveteam.org:1338/status
[3] https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior
#digitalpreservation #webarchive #google #crowdsourcing #urlshortener
Окончательно сервис будет закрыт 25 августа 2025 когда перестанут работать ссылки, а с 23 августа 2024 года будет выводится предупреждение при их открытии.
Чтобы будет с этими ссылками? Команда Archive Team ведёт архивацию всех коротких ссылок в проекте URLTeam [2]. Уже просканировано 38.6 миллиардов ссылок и обнаружены активными 7 миллиардов ссылок.
P.S. ArchiveTeam это крупнейший глобальный краудсорсинговый проект по веб архивации, поучаствовать в нём можно с помощью ПО Warrior которое выполняет задачи по сбору контента синхронизируясь с трекером задач [3].
Ссылки:
[1] https://9to5google.com/2024/07/18/googl-links/
[2] https://tracker.archiveteam.org:1338/status
[3] https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior
#digitalpreservation #webarchive #google #crowdsourcing #urlshortener