Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Примеры исчезающих сайтов или зачем нужна веб-архивация.

В 2013-2014 годах когда шла подготовка к Олимпиаде и само грандиозное мероприятие десятки организаций были созданы и десятки сайтов для них также были созданы.

Тогда же с начала 2014 года я начал их архивировать.
Прошло 3 года и значительной части этих сайтов уже либо не существует, либо там нет тех материалов что были раньше. Вот примеры:

- Коллекция "Сочи 2014" Bosco http://sochi2014.bosco.ru/ сайт исчез, теперь там редирект на основной сайт Bosco с частью материалов с сайта (описанием коллекции)
- Управление Олимпийскими Объектами http://www.olimp-ps.ru/ был сайт общества с ограниченной ответственностью "Промсервис", теперь какой-то украиноязычный блог.
- Сайт Росгидромета по погоде на Сочи-2014 http://meteosochi2014.ru/ исчез и вместо него какой-то блог
- Волонтерский центр Томского политехнического университета http://2014.tpu.ru/ более не открывается
- Спецпроект компании Кока-кола по Сочи-2014 http://sochi2014.coca-cola.ru/ не открывается
- Спецпроект Сбербанк-Сочи-2014 http://sochi2014-sberbank.ru/ все материалы удалены, сайт заполнен непонятно чем
- Сайт с информацией о логистике Информация о логистике http://tdog2014.com отсутствует, вместо него запаркованная страница
- Информация о вещании из Сочи-2014 http://panoramahd.ru/ закрыт паролем
- Информация о переселении жителей Сочи http://www.relocation.olympdep.ru/ более не работает
- Информация о деятельности администрации Краснодарского края в предверии Олимпиады Сочи-2014 http://www.olympdep.ru/ вместо него какой-то сайт визитка
- Госкорпорация Олимпстрой http://www.sc-os.ru сайт полностью переделан с 2014 года, доступность материалов надо тщательно перепроверять
- Спецпроекты Оргкомитета http://job.sochi2014.com и http://culture.sochi2014.com сейчас все недоступны

Это не полный список, это список того что я успел заархивировать в 2014 году. Ресурсов у меня тогда было маловато и вся коллекция в сжатом виде около 24 гигабайт.

Я примерно в то же время проводил тотальную архивацию всех ресурсов РИА Новостей и больше сил приходилось на них. Кстати, многие из них также не пережили последние 3 года.

Причем чаще все потери всех ресурсов - это отсутствие культуры, а не злой умысел. Многих просто не волнует что становится с архивными проектами, а еще больше владельцев просто не знают что делать.

Поэтому у меня есть даже такие странные явления как заархивированные сайты МММ (среднее время жизни каждого из них - 1 год), сайты банков поскольку каждый день все они под угрозой и многое другое.

Если Вы знаете какие-либо интернет-ресурсы имеющие культурную ценность и которые могут исчезнуть в любой момент - пишите мне на ibegtin@infoculture.ru и он будет сохранен.

#digitalpreservation #archival
Ещё один интересный проект в рамках европейской исследовательской программы Horizon 2020 - это проект ARCHIVER (Archiving and preservation for research environments) [1] в котором Евросоюз финансирует разработку и пилотирование технологий архивации данных петабайтного объёма и выше.

В проекте три крупных исследовательских центра: CERN, DESY и PIC и две консалтинговые компании.
В проекте собраны основные сценарии использования для которых нужны новые технологии [2] и уже сформировались 5 консорциумов компаний, в основном вокруг крупных облачных игроков [5] таких как Google и Amazon

P.S. Архивация и долгосрочное сохранение - это одна из моих любимых тем и очень жаль, конечно, состояние цифровизации этой отрасли в России. Остаётся лишь писать про лучшие практики в мире

Ссылки:
[1] https://www.archiver-project.eu/
[2] https://www.archiver-project.eu/deployment-scenarios
[3] https://www.archiver-project.eu/design-phase-award

#data #archival #eu
Сегодня после расформирования Роспечати и Россвязи сразу несколько журналистов мне позвонило и спросило про судьбу Минцифры, не будет ли оно усилено. Я честно, говоря, не понимаю зачем об этом спрашивать меня, я не так много знаю про Минцифру, если честно. Вот если бы ДИТ Москвы расформировывали, была бы куда более интересная новость, ну а Роспечать и Россвязь да и ещё многие органы власти - это скорее персонифицированные артефакты, чем полноценные институциональные регуляторы.

Но вот никто не спросил меня про да и не пишет, а что будет со всем тем цифровым барахлом ценными цифровыми материалами что на сайтах Роспечати и Россвязи накоплены?

Я занимаюсь тем что сохраняю их сайты. В чём их особенность?
1. У обоих ведомств практически нет информационных систем (нет в открытом доступе)
2. И там и там основные каналы коммуникации - это сайты.
3. По сайтам обоих ведомств их судьба непонятна. В России только ЦБ сохраняет все архивы, а ФОИВы в этом не преуспели.

Только два сайта rossvyaz.gov.ru и fapmc.gov.ru займут не меньше 20 ГБ в сжатом виде и около 30-35 ГБ в распакованном, в основном из-за большого числа PDF документов.

Их судьба остаться на нашем Национальном цифровом архиве [1] и если вскоре они исчезнут, то Вы всегда знаете где найти оттуда информацию.

P.S. Надо отдать должное и сказать что приятно что Минцифры - это не МВД. Когда передавали полномочия ФМС и ФСКН в МВД, то их сайты исчезли одномоментно с официальным опубликованием решения. Вжух и нету!


Ссылки:
[1] http://ruarxive.org

#webarchive #ruarxive #archival
Обязательная веб-архивация органов власти США действует как минимум с 2005 года, начиная с принятия документа NARA (Национальное архивное агенство) об управлении веб-архивами [1].

На специальном сайте webharvest.gov [2] собраны архивы по всем избраниям конгресса и президентскому сроку 2004 года. Например, это все личные сайты каждого конгрессмена, сайты комитетов и связанных организаций.

А для федеральной власти архивация включает все сайты в зоне .gov и даже есть специальный портал со всем реестром сайтов .gov [3].

Государственная архивация не единственная и в нескольких университетах США и просто групп активистов есть собственные веб-архивы уходящих администраций. Например, проект End of term web archive [4] от Калифорнийской цифровой библиотеки [5] при Университет Калифорнии.

Я же пока напомню что наиболее полный реестр российских госдоменов веду я в открытом репозитории на Github [6] и что в России буквально полностью отсутствуют государственные инициативы по цифровой архивации новейшей истории. Максимум что существует - это попытки перевести госорганы с бумажной переписки на цифровую, но и в этом случае вопросы архивации вторичны.

Насколько возможно мы в @infoculture сохраняем веб-архивы, хотя бы госсайтов, в проекте Национальный цифровой архив [7], но финансируется он исключительно из своего кармана потому и полноценную непрерывную веб-архивацию всего рунета, по аналогии с другими национальными доменными зонами, пока нет возможности запустить.

Ссылки:
[1] https://www.archives.gov/records-mgmt/policy/managing-web-records-index.html
[2] https://www.webharvest.gov/
[3] https://home.dotgov.gov/
[4] https://end-of-term.github.io/eotarchive/
[5] http://eotarchive.cdlib.org/
[6] https://github.com/infoculture/govdomains/
[7] http://ruarxive.org

#digital #archival #webarchive
Когда речь идёт про госНКО, для меня это, в первую очередь, вопрос про границы государства, пусть даже и виртуальные. Я попробую объяснить это на примере архивации госсайтов и материалов связанных с госинициативами. Вот, к примеру, нацпроект "Экология". О нём, как и о других нацпроектах, есть информация на сайте «Национальные проекты» [1] от АНО "Национальные приоритеты" [2] (ранее этот проект был "futurerussia.gov.ru" и вёлся только ТАСС), но при любом раскладе это только и исключительно медиа проект, без цитируемости, без индексируемости в поисковиках и с минимальным контентом.

На сайте Минприроды [5] можно найти ссылки на "Нацпроект Экология РФ" [6], по факту это СМИ сетевое издание «Экология России» – нацпроектэкология РФ» ведомое АНО «Экспоцентр «Заповедники России» [7].
А вот на самом сайте Минприроды нацпроект представлен исключительно в виде документа "Паспорт Национального проекта «Экология» " [8].

В итоге что получается:
1. Материалы по нацпроектам, в конкретном случае нацпроекту "Экология", публикуются не на официальных сайтах госорганов или порталах раскрытия информации, а на сайтах медиапроектов разного рода госАНО.
2. Эти материалы, по хорошему, надо архивировать и включать их сайты в периметр архивации материалов по госсайтам и по госинициативам.
3. Финансирование всего этого непрозрачно, поскольку реестр субсидий Минфин РФ закрыл и сколько эти АНО получают из бюджета мы достоверно не знаем.
4. Если поискать дальше то окажется что сведения по нацпроекту рассеяны по сайтам администраций субъектов федерации и городов. Например [9] [10] [11], но эта информация нигде не собирается и сведений собираемых этими АНО недостаточно даже для минимального покрытия событий в рамках нацпроекта.

По многим другим госинициативам ситуация очень похожая, но с нацпроектами и их освещением просто какая-то беда. Часто возникает ощущение что их не "выпячивают", а наборот "прячут". Во всяком случае на федеральном уровне информации по ним катастрофически мало и она чрезмерно раздроблена.

Ссылки:
[1] https://национальныепроекты.рф
[2] https://nationalpriority.ru/
[3] https://www.google.com/search?hl=ru&q=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[4] https://yandex.ru/search/?lr=213&text=site%3A%D0%BD%D0%B0%D1%86%D0%B8%D0%BE%D0%BD%D0%B0%D0%BB%D1%8C%D0%BD%D1%8B%D0%B5%D0%BF%D1%80%D0%BE%D0%B5%D0%BA%D1%82%D1%8B.%D1%80%D1%84
[5] https://www.mnr.gov.ru/
[6] https://ecologyofrussia.ru/
[7] http://anoexpocenter.ru/
[8] https://www.mnr.gov.ru/activity/directions/natsionalnyy_proekt_ekologiya/
[9] https://admtyumen.ru/ogv_ru/about/ecology/National_project_Ecology.htm
[10] http://mineco174.ru/htmlpages/Show/NacproektEkologiya
[11] http://adm.syzran.ru/index.php?id=1207

#archival #webarchive #government #netprojects