Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Ещё про архивацию данных, на сей раз институтов развития. К примеру, ВЭБ.РФ много лет публикует много материалов на своём сайте, обязательную отчетность и, например, отчетность об устойчивом развитии . Они есть в разделе на сайте в PDF формате [1], но только за 3 года: 2013, 2014 и 2016 они создавали (заказывали подготовку) отчётность в интерактивном формате и отчетность за 2016 год в таком виде уже не открывается [2], хотя и за 2013 и 2014 годы доступна [3] [4]. Это не критично, поскольку отчет за 2016 год есть в PDF, но странно. Аналогичным образом исчезли:
- годовой отчет ВЭБ.рф за 2016 год [5]. Последний раз он наблюдался в веб-архиве в сентябре 2019 года [6].
- корпоративный журнал Внешэкономбанка [7], последний раз был доступен в октябре 2019 года [8]

Всё это я привожу как пример культуры отсутствия сохранения материалов, сайтов и данных. Причём не злонамерянный, поскольку в данном случае есть копии этих материалов в других формах и ещё с учётом того что ВЭБ.рф живёт по корпоративным правилам и свою отчетность публикует достаточно строго.

Я таких примеров могу приводить ещё много, а вот примеров обратного немного.

Из российских публичных институтов только ЦБ РФ вызывает большое уважение потому что у них есть сохранённые архивы сайтов СБРФР, ФСФР и ФКЦБ с 2003 по 2014 годы [9], а также архив баз данных [10], в некоторых случаях с 1996 года, и много других архивов.

Другой пример - это портал АИС УП у Минэкономразвития РФ [11] где с 2004 года и до 2020 года публиковались результаты контрактов Минэка вначале по Электронной России, далее по госпрограмме развития Информационного общества. Для российской контрактной системы и российских госпрограмм такие порталы и тогда были редки, а теперь и безусловная редкость.

Ссылки:
[1] https://veb.ru/investoram/otchetnost/otchetnost-ob-ustoychivom-razvitii/
[2] http://csr2016.veb.ru/
[3] http://csr2013.veb.ru/ru/
[4] http://csr2014.veb.ru/ru/
[5] https://annual2016.veb.ru/
[6] https://web.archive.org/web/20190915153602/https://annual2016.veb.ru/
[7] http://magazine.veb.ru/
[8] https://web.archive.org/web/20191020023946/http://magazine.veb.ru/
[9] http://www.cbr.ru/archive/archive_fkcb/
[10] http://www.cbr.ru/archive/db/
[11] https://aisup.economy.gov.ru

#webarchive #archive #data
Мало кто знает что у компании Yahoo устойчивая репутация разрушителя интернет культуры. Об этом в статье в Atlantic "Yahoo, the Destroyer" [1].

А всё дело в том что когда ещё Yahoo массово скупали интернет проекты с материалами пользователей, они взяли в привычку закрывать их одномоментно несмотря на то что у этих проектов были устойчивые группы пользователей и высокая активность. Но закрыть для Yahoo всегда было проще чем продолжить, переделать, передать.

В результате, в 1999 году они купили сервис домашних страниц GeoCites и в 2009 году закрыли, при очень небольших расходах на его поддержку и большом числе пользователей. GeoCites были сохранены энтузиастами из проекта The Archive Team [2] хотя задача и была очень сложной как рассказывал об этом Jason Scott, возглавляющий The Archive Team.

А теперь Yahoo собрались с 4 мая убить Yahoo Answers [3], анонс был 5 апреля, был всего месяц сохранить этот сайт. Прямо сейчас Archive Team сохраняет Yahoo Answers [4], но получится ли это успеть до 5 мая - возможно что нет.

Yahoo не единственная компания ведущая себя таким образом. В разделе Deathwatch [5] на сайте Archive Team можно проследить судьбу многих проектов.

В России у Yahoo нет аналогов, но наиболее близким является Яндекс. Яндекс в короткие сроки "убил" Яндекс.Район совсем недавно, а ранее Ауру, поиск по блогам, блоги и продавший когда Narod.ru в Ucoz (оказалось равносильно убийству).

Иногда такие проекты можно пытаться сохранять, но чаще они гибнут безвозвратно. А я напомню о том что в рамках национального цифрового архива мы сохраняем сайты госорганов и госпроектов [6]

Ссылки:
[1] https://www.theatlantic.com/technology/archive/2021/04/how-yahoo-became-internet-villain/618681/
[2] https://archive.org/web/geocities.php
[3] https://www.theverge.com/2021/4/5/22368488/yahoo-answers-shutdown-may-4-internet-era-over-rip
[4] https://wiki.archiveteam.org/index.php/Yahoo!_Answers
[5] https://wiki.archiveteam.org/index.php/Deathwatch
[6] https://ruarxive.org

#webarchive #archive
Анонсировано закрытие сервиса coub.com с 1 апреля 2022 года [1]. Coub это развлекательный сервис, из зацикленных отрывков видео с наложенными на них музыкальными дорожками. С одной стороны это развлекательный контент, а с другой стороны.

Для Coub существует несколько инструментов выгрузки контента, один из самых продвинутых - это CoubDownloader [2], а также есть какое-то количество других на Github.

Мы сейчас запустили архивацию наиболее популярных Coub'ов, из категории "Hot", постараемся сохранить и другие по возможности, но в первую очередь оцениваем ожидаемые объёмы требующие сохранения. Также пока до конца неясен масштаб общественной ценности этого контента, в ближайшее время делать такую оценку.

Если у Вас есть списки Coub'ов имеющих общественную ценность, присылайте их в чат к каналу https://t.me/ruarxivechat.

А также если Вы планируете сохранить какие-либо coub'ы по категориям самостоятельно, пожалуйста, поделитесь итоговыми результатами.

Ссылки:
[1] https://coub.com
[2] https://github.com/HelpSeeker/CoubDownloader

#archives #videoarchive #coub #webarchive
В связи с ликвидацией Федерального агентства по туризму (Ростуризм) мы спешно архивируем все его цифровые ресурсы.

В нашем каталоге госдоменов к Ростуризму относятся следующие:

russiatourism.ru
www.russiatourism.ru
last.russiatourism.ru
opendata.russiatourism.ru
opendata2.russiatourism.ru
reestr.russiatourism.ru
rgo.russiatourism.ru
www2.russiatourism.ru

Если Вы знаете какие-либо дополнительные сайты и иные цифровые ресурсы которые могут исчезнуть в связи с ликвидацией агентства или если Вы располагаете любыми архивами и материалами о его деятельности которые исчезают/исчезли ранее или могут быть недоступны, напишите нам на infoculture@infoculture.ru или чате к этому каналу.

Мы постараемся в ближайшее время сохранить всё что будет ещё возможно.

#digitalpreservation #webarchive
В связи с новостями о том что Роснано может стать банкротом в ближайшее время [1] напомним что ещё в 2021 году на новостях со сменой руководства госкорпорации мы делали полный архив известных на тот момент сайтов организации. Архив доступен в форматах warc по ссылке [2].

Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com

Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.

Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/

#digitalpreservation #rosnano #webarchive #ruarxive
Google выключают доступ к кешированным страницам [1] которые ранее были доступны в их поиске, теперь эти страницы будут доступны только через Google Webmaster для владельцев сайтов [2]. Кеш Google активно использовался для восстановления недавно исчезнувших сайтов и просмотра удалённых веб страниц.

Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.

Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].

Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org

#archives #webarchive #google
В рубрике как это работает у них в Великобритании в Национальном архиве сохраняются копии всех сайтов ( и данных ) государственных органов страны и большая часть из них, когда меняют свои сайты, ссылаются на архивную копию в национальном архиве когда хотят сохранить доступ к материалам. Например, статистическая служба Великобритании несколько лет назад мводернизировала свой сайт и изменило базу хранения и предоставления статистических наборов данных. Данные все были сохранены, но к изменились ссылки и для тех кто хочет скачать архивные данные они предоставляют такую ссылку в разделе временных рядов [1].

В свою очередь копия сайта в национальном архиве [2] включает все документы которые были на оригинальном сайте.

А ещё точнее, множество копий за разные промежутки времени.


Ссылки:
[1] https://www.ons.gov.uk/timeseriestool
[2] https://webarchive.nationalarchives.gov.uk/ukgwa/20160105160709/http://www.ons.gov.uk/ons/index.html

#opendata #data #statistics #uk #webarchive #digitalpreservation #archives
Велика вероятность закрытия сайта Большой российской энциклопедии (bigenc.ru) 17 июня. Руководство проекта написало об этом сегодня. Наша команда постарается сделать архивную копию на этих выходных. Если у Вас есть копии контента и Вы готовы их передать, мы обязательно добавим их в архив и сделаем материалы общедоступными.

P.S. В который раз приходится сталкиваться с ситуацией необходимости экстренной архивации государственных проектов. Очень печалит что о происходящем ранее не было известно.

#deathwatch #webarchive #bigenc
Ещё один пример закрытия данных Банк России приостанавливает публикацию статистики внебиржевого валютного рынка [1].

А ведь совсем недавно, в апреле, эту статистику стали публиковать расширенно [2].

Этого раздела больше нет на сайте ЦБ РФ [3], причем удалили даже архив, что непохоже на ЦБ РФ которые, к примеру, после прекращения публикации данных по экспорту в 2022 году архивные данные не удаляли.

Некоторые данные всё ещё доступны в Интернет-Архиве [4], но в целом событие печалит ещё и тем что ЦБ РФ теперь подчищает архивы и нужна регулярная архивация их сайта. В последний раз мы делали это для Национального цифрового архива [5] в 2021 году и это была веб архивация, она не охватывала данные закрытые формами и POST запросами

Ссылки:
[1] https://cbr.ru/press/pr/?file=638566558563054550DKP.htm
[2] https://www.cbr.ru/press/pr/?file=638489599567862726DATABASES.htm
[3] https://www.cbr.ru/hd_base/vko/
[4] https://web.archive.org/web/20240706093400/https://cbr.ru/hd_base/vko/
[5] https://ruarxive.org

#opendata #closeddata #cbrf #statistics #russia #webarchive #digitalpreservation
Google анонсировали закрытие сервиса сокращения ссылок goo.gl [1] после того как уже более 5 лет с его помощью нельзя было создавать ссылки, а также были отключены функции аналитики и управления.

Окончательно сервис будет закрыт 25 августа 2025 когда перестанут работать ссылки, а с 23 августа 2024 года будет выводится предупреждение при их открытии.

Чтобы будет с этими ссылками? Команда Archive Team ведёт архивацию всех коротких ссылок в проекте URLTeam [2]. Уже просканировано 38.6 миллиардов ссылок и обнаружены активными 7 миллиардов ссылок.

P.S. ArchiveTeam это крупнейший глобальный краудсорсинговый проект по веб архивации, поучаствовать в нём можно с помощью ПО Warrior которое выполняет задачи по сбору контента синхронизируясь с трекером задач [3].

Ссылки:
[1] https://9to5google.com/2024/07/18/googl-links/
[2] https://tracker.archiveteam.org:1338/status
[3] https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior

#digitalpreservation #webarchive #google #crowdsourcing #urlshortener