Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Начата параллельная загрузка медиа архива Эха Москвы в Интернет архив, список загруженных аудиозаписей можно посмотреть в аккаунте ruarxive [1], параллельно идет загрузка в облачное хранилище, загружено 11 тысяч файлов, остальные в процессе загрузки. В файле archived_list.zip приложены ссылки на файлы уже загруженные и те что ещё загружаются. Ссылки могут работать не все пока, но скоро будут.

Для описания всего сохраненного нехватает разметки файлов по программам. Сейчас коды программ извлекались из имён файлов и могут иметь названия такие как 12tango, albac, almamater и другие. Нужна помощь в их разметке и указанием названия на русском языке. Полный список кодов программ в приложенном файле programlist.csv

Без названия на русском и на английском языке не получается хорошо заполнить метаданные в интернет архиве.

Ссылки:
[1] https://archive.org/details/@ruarxive

#echomskru #echoofmoscow #archives #media #internetarchive
Неприятная новость в том что Интернет Архив может быть заблокирован в России. Роскомсвобода пишет что

Мировой суд Москвы зарегистрировал административный протокол, составленный Роскомнадзором в отношении американской организации Internet Archive из-за ее отказа удалить запрещенный в РФ контент. Дело будет рассматриваться 16 июня текущего года всё в том же 422 участке, где уже было вынесено множество штрафов в отношении Facebook, Google, Twitter, Telegram, TikTok и других интернет-компаний. [1]

Будем надеяться что интернет архив останется доступен из России или нам всем придётся пользоваться VPN.

Ссылки:
[1] https://roskomsvoboda.org/post/shtraf-webarchive-za-neudalionku/

#archiveorg #internetarchive
Сегодня интернет-архив Archive.org был недоступен в течение часа, о чём написал его основатель Brewster Kahle в блоге архива [1] о том что на сайт архива обрушилось более 10 тысяч запросов в секунду для доступа к архиву оцифрованных книг. В итоге техническая команда архива заблокировала около 64 адресов с которых сыпались такие запросы. В твиттере архива есть подробности [2] и скорее всего эту нагрузку создавала одна из компаний создающих продукты на базе ИИ. После этого сложно говорить что разработка ИИ не наносит вреда;) как минимум косвенного.

Сейчас интернет-архив работает стабильно, хочется надеяться что они смогут лучше противодействовать в будущем таким хищническим нагрузкам со стороны ИИ стартапов.

Ссылки:
[1] https://blog.archive.org/2023/05/29/let-us-serve-you-but-dont-bring-us-down/
[2] https://twitter.com/internetarchive/status/1662999547138945030

#ai #archives #internetarchive #outage
У Интернет-архива (archive.org) произошла крупнейшая утечка данных базы из 31 миллиона их пользователей [1]. Пока неизвестно украдены ли ещё какие-либо данные. Известно только что долгое время Интернет-архив был под DDoS атакой и регулярно был недоступен.

В любом случае если если у Вас есть аккаунт в Интернет-архиве, то имеет смысл сменить в нём пароль, а также если предыдущий пароль Вы использовали где-либо ещё, то сменить его в этих сервисах.

Ссылки:
[1] https://www.bleepingcomputer.com/news/security/internet-archive-hacked-data-breach-impacts-31-million-users/

#security #internetarchive #databreach