Ivan Begtin
8.09K subscribers
1.57K photos
3 videos
100 files
4.31K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Я долго думал как изложить свою реакцию на "мятеж Пригожина" , после которого все смазанные концовки в кинолентах отходят на второй план и понял что после состояния крайнего censored недоумения у меня остаётся только взгляд со стороны цифровой архивации. Стремительность с которой Роскомнадзор заблокировал связанные с Пригожиным медиа-ресурсы возвращает нас к вопросу о том надо ли архивировать подобные цифровые артефакты вроде РИА ФАН и других потому что они могут в любой момент исчезнуть? Правда, смех вокруг всей этой ситуации в том что Роскомнадзор их заблокировал, а сайты то эти работали за CDN'ом BiZone (IP адрес: 185.163.159.22 у riafan.ru, nevnov.ru и др.), а BiZone - это российская инфобезная компания в подчинении Сбербанка. Так что с этими блокировками вопрос довольно удивительный.

Другой вопрос в этой реакции на "мятеж" со стороны властей в том что реакция быстрая и в том какие цифровые ресурсы надо было архивировать заранее. Всех политиков, формальных или неформальных? Информационные ресурсы всех частных армий ? Усилить архивацию сайтов органов власти?

#digitalpreservation #webarchives #security
Александр Горный напомнил про проекты по архивации Интернета, а я напомню что кроме Archive.org и Archive.today существует множество цифровых сервисов сохранения исходного кода, данных, цифровых объектов и тд.

Проект которым я занимаюсь, Common Data Index, тоже может рассматриваться как архив данных, на стадии когда уже получится запустить краулер данных, а не только метаданных. Но важно что почти все ключевые публичные проекты по архивации живут на донаты или дополнительные небольшие коммерческие сервисы. Человечество в целом до сих пор не очень то научилось ценить открытые знания и их долгосрочную доступность, к счастью есть критическая масса людей понимающих что именно это позволяет сохранять цивилизацию и что наши потому тоже имеют право изучать историю творимую в наши дни.

#opendata #digitalpreservation #webarchives
К вопросу о цифровой архивации данных, единственный известный мне портал открытых данных Афганистана Afghanistan Disaster Risk Information Portal [1] на базе Geonode, был доступен до декабря 2022 г. [2], а потом просто исчез. Особенность как его, так и очень многих других порталов с данными в том что поисковые системы и интернет-архив их почти не индексируют, потому что интерфейсы построены поверх вызовов API и сами данные доступны не всегда файлами, часто через точки подключения.

Один лишь пример из многих

Ссылки:
[1] https://disasterrisk.af
[2] https://web.archive.org/web/20221223165024/https://disasterrisk.af/

#opendata #digitalpreservation #afganistan #geodata
В связи с новостями о том что Роснано может стать банкротом в ближайшее время [1] напомним что ещё в 2021 году на новостях со сменой руководства госкорпорации мы делали полный архив известных на тот момент сайтов организации. Архив доступен в форматах warc по ссылке [2].

Архив покрывает сайты:
- edunano.ru
- en.rusnano.com
- fiop.site
- nanocertifica.ru
- rusnano-dmm.ru
- schoolnano.ru
- startbase.ru
- thesaurus.rusnano.com
- www.rusnano.com

Если вам известны какие-либо сайты Роснано не заархивированные ранее, и ещё доступные или иные общедоступные материалы госкорпорации которые могут исчезнуть, напишите нам, мы оперативно их сохраним.

Ссылки:
[1] https://www.rbc.ru/business/03/10/2023/651c547b9a79471892df4083
[2] https://cdn.ruarxive.org/public/webcollect2021/rusnano2021/

#digitalpreservation #rosnano #webarchive #ruarxive
В качестве регулярных напоминаний о том какие некоммерческие проекты делают наши команды в Open Data Center (Армения) и в Инфокультура (Россия):

В Армении
- Мы запустили портал открытых данных data.opendata.am на котором уже 809 наборов данных. В ближайших планах организация конкурса на открытых данных и подготовка Open Data Day в Ереване в марте 2024 г. Изначально планировали конкурс ещё в сентябре, но гуманитарный кризис вокруг Арцаха сейчас создаёт совсем другие приоритеты у общества в стране. Тем не менее наши планы не изменились, лишь сдвинулись. Подробности будут регулярно в телеграм канале https://t.me/opendataam
- Любая помощь в поиске, сборе данных, финансовая поддержка, партнерство в конкурсе и в подготовке Дня открытых данных всячески приветствуется. Пишите мне (на русском, армянском или английском) если готовы помочь и в чате https://t.me/opendataamchat
- И, конечно, не могу не напомнить про наш негосударственный портал открытых данных https://data.opendata.am

В России
- Мы продолжаем, как минимум поддерживать, как максимум развивать где это возможно проекты созданные в России связанные с открытыми данными, открытостью госфинансов, НКО, цифровым сохранением и так далее. Это такие проекты как:
— Госзатраты https://clearspending.ru продолжает обновляться, база госконтрактов и открытые данные.
— Открытые НКО https://openngo.ru база и открытые данные по российским некоммерческим организациям. Полузаморожен, но актуализируется насколько возможно. Многие данные более не публикуется госорганами, например, сведения об учредителях НКО.
— Простой русский язык https://plainrussian.ru не столько про открытость, сколько про понятность документов на русском языке
— Национальный цифровой архив https://ruarxive.org про архивацию цифрового исчезающего контента
- Есть и другие проекты, о которых можно будет говорить когда они будут готовы. В любом случае много усилий сейчас про то как сохранить и не потерять сделанное ранее.

Глобальное
- Продолжается проект каталога порталов открытых данных https://registry.commondata.io и поисковой системы поверх него. Проект продолжается, каталогов всё больше, метаданные с их описанием всё лучше, но самое главное будет поисковой системы поверх них.

Если Вы видите возможности и идеи для кооперации и партнерства, пишите мне.

#opendata #russia #armenia #projects #digitalpreservation
Про то как происходит постепенное принуждение к установке корневого сертификата Портала госуслуг. Картинка с сайта Федерального Казначейства.

Одно из последствий этого "перехода на корневой сертификат" что сайты многих госорганов и госпроектов не будут попадать в Интернет-архив. Уже сейчас попадают не все, потому что блокируются не российские IP адреса. Но дальше не будет лучше.

В моих планах есть задача архивации российских госсайтов в 2024 году, потому что опять, наверняка, что-то поломают (сами сломают, не хакеры), что-то спрячут, а что-то заблокируют.

#internet #connectivity #digitalpreservation #archives
В качестве регулярного напоминания, портал открытых данных РФ (data.gov.ru) закрыт уже почти 8 месяцев, вероятность что на его месте создадут что-то другое ненулевая, вероятность что новый портал будет содержать все данные с предыдущего - нулевая.

Мы сделали дамп портала в рамках проекта Национального цифрового архива (ruarxive.org) и, хотя, большая часть данных на портале были скорее бесполезными чем необходимыми, среди опубликованных там датасетов могло быть и что-то нужное.

Полную архивную копию портала можно скачать по ссылке [1], общим объёмом в 14Gb.

Ссылки:
[1] https://cdn.ruarxive.org/public/dataportals/data.gov.ru/2022-02-02/datagovru_20220202.zip

#opendata #digitalpreservation #datacatalogs #russia #data #datasets
В марте в России запланированы выборы Президента РФ после которых, как минимум формально, должно быть отправлено в отставку текущее Правительство и собрано новое. Сейчас нельзя предсказать произойдет ли ротация министров и других должностных лиц или всё останется по прежнему, но мы планируем с января по март запустить архивационную кампанию по сохранению официальных сайтов Правительства и федеральных органов власти. Последний раз такая кампания масштабно проводилась в 2017 году перед сменой Правительства 2018 года.

Если Вы знаете какие-либо значимые сайты/онлайн ресурсы/телеграм каналы/сообщества, например, сайты кандидатов в Пр-ты, или иные агитационные ресурсы - напишите в чате @ruarxivechat, мы добавим их в приоритетный список для первоочередной архивации.

Архивацию мы будем проводить по следующим критериям։
- значимость/приоритетность
- риски исчезновения контента
- наличие технологий сбора цифровых материалов
- сложность барьеров в сборе материалов

К примеру, сайт Правительства РФ (www.government.ru):
- имеет высокий приоритет
- средний риск (ранее контент переносили на сайты archive.government.ru и др.)
- может быть заархивирован стандартными технологиями веб-краулинга (не надо писать парсерсы и специальные инструменты)
- устанавливает высокий барьер, поскольку стоит анти-DDoS система блокирующая доступ после определённого числа запросов в течение часа.

На первой стадии выделим первые несколько сотен сайтов / иных цифровых ресурсов, которые будут заархивированы и размечены по этим критериям.

А также предлагаю небольшой опрос по тому какие цифровые ресурсы приоритетно архивировать в следующем году (у каких из них наибольшие риски что они исчезнут).

#digitalpreservation #russia #elections #archives
С сайта Росимущества исчез раздел Открытые данные [1], он располагался по пути /opendata и теперь вместо него выдаётся 404 ошибка. Это раздел существовал ещё в феврале 2022 года в чём можно убедиться посмотрев его на сайте Интернет-архива [2]

Когда именно раздел и данные исчезли сейчас сказать сложно, но факт остаётся фактом, данных более нет.

Также можно убедиться что с февраля 2022 года сайт, как и многие сайты госорганов в России, заблокирован для внешнего индексирования не с российских IP адресов и в интернет архив его страницы более не попадают. Это означает что если его содержание будет исчезать, то восстановить его будет неоткуда.

Спасибо читателю канала обратившему внимание на этот сайт.

Ссылки։
[1] https://rosim.gov.ru/opendata
[2] https://web.archive.org/web/20220205150400/https://rosim.gov.ru/opendata

#russia #closeddata #opendata #digitalpreservation
Не так сложно изнутри России найти VPN или прокси, как сложно многим уехавшим заплатить за квартиру, налоги и ещё много что. Многие госсайты блокируют любое подключение извне, в том числе Интернет-архив. Многое из публикуемого российскими госструктурами может исчезнуть одномоментно, потому что Интернет архив просто не может до них достучаться.

Вот неполная подборка, со ссылками на archive.org для подтверждения:
- Минюст России [1] - полностью не индексируется
- МВД России [2] - полностью не индексируется
- МЧС России [3] - падение индексации в несколько раз, первое полугодие 2023 года совсем не индексировался
- ФССП России [4] - с виду индексируется, по факту сайт выдаёт заглушку [5]
- Росздравнадзор [6] - с виду индексируется, по факту заглушка Forbidden [7]
- Минкультуры России [8] - падение индексации более чем в 4 раза, индексировался в первом квартале 2023 г. и немного в конце года.
- Минприроды России [9] - почти не индексировался в 2023 году, мало в 2022.
- Росприроднадзор [10] - не индексировался с середины 2022 года по середину 2023, минимально индексировался в 2023
- Минпросвещения России [11] - почти не индексировался с начала 2023 года, немного вначале года и чуть-чуть в конце
- Минвостокразвития России [12] - почти не индексировался в 2023 году, немного лишь в конце года
- Минсельхоз России [13] - не индексируется с марта 2022 года, более 1.5 лет

Список можно продолжать долго, практически бесконечно. Туда же надо смотреть многие сайты госучреждений, региональных властей и государственных информационных систем. Я подозреваю что какие-то подсети полностью выпадали из доступа не с российских IP адресов.

Последствия ровно те с которых я начал:
1) Россияне не из России не могут проделывать многие операции
2) Огромное число официальных сайтов государства теперь не архивируются, повышая безнаказанность действующего Пр-ва

Ссылки:
[1] https://web.archive.org/web/20230000000000*/https://minjust.gov.ru/ru/
[2] https://web.archive.org/web/20230000000000*/https://mvd.gov.ru
[3] https://web.archive.org/web/20230801000000*/https://mchs.gov.ru
[4] https://web.archive.org/web/20230801000000*/https://fssp.gov.ru
[5] https://web.archive.org/web/20231029194721/https://fssp.gov.ru/
[6] https://web.archive.org/web/20230000000000*/https://roszdravnadzor.gov.ru/
[7] https://web.archive.org/web/20231204003333/https://roszdravnadzor.gov.ru/
[8] https://web.archive.org/web/20230000000000*/culture.gov.ru
[9] https://web.archive.org/web/20230000000000*/www.mnr.gov.ru
[10] https://web.archive.org/web/20230000000000*/rpn.gov.ru
[11] https://web.archive.org/web/20230000000000*/edu.gov.ru
[12] https://web.archive.org/web/20230000000000*/minvr.gov.ru
[13] https://web.archive.org/web/20230000000000*/mcx.gov.ru

#webarchives #digitalpreservation #russia #government