Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
А как же правильно? А что же делать? А то критиковать могут многие, а ты предложи (c)
А я и предлагаю (с):
1. Большую Российскую энкциклопедию необходимо "закрыть со всем уважением" (c) так скоро сколь только возможно. Помещение превратить в музей Большой советской энциклопедии, субсидию вернуть, далее выпуск бумажных/электронных/любых иных томов энциклопедии не финансировать. БРЭ не сумело выйти на самоокупаемость, как энциклопедия Британника, не способно существовать без господдержки и просто не соответствует нынешним реалиям востребованности.

2. Раз у федерального правительства есть столь много свободных средств на развитие качественного контента, то решение в том чтобы устроить непрерывно идующий конкурс в котором выделять ежемесячно до 10 миллионов рублей на премирование за написание с нуля статей в Википедии. Лучшим 50 авторам по 50 тысяч, следующим 100 авторам по 25 тысяч, следующим 500 авторам по 5 тысяч и ещё 1000 авторов по 2.5 тысячи. Каждый месяц. Непрерывно. Обойдётся это бюджету не более чем в 120 миллионов рублей в год или 360 миллионов рублей за 3 года. Да тут ещё и экономия возникнет немалая.

3. Создать Фонд поддержки знаний по аналогии с Фондом кино и финансировать на конкурсно-грантовой основе проекты по преумножению знаний. Материальная поддержка может помочь жить многим вики-проектам альтернативным Википедии [8], а они тоже имеют право на жизнь и они куда как более полны чем БРЭ, даже если не столь энциклопедичны. Не говоря уже о бесконечном множестве более узких вики-проектов не имеющих возможности находить финансирование у Фонда президентских грантов или иных источников финансирования.

В качестве послесловия тезисами:
- конкуренция и гранты - это хорошо, отсутствие конкуренции и субсидии - это плохо;
- БРЭ необходимо превратить в музей. Виртуальный и реальный, а все накопленные статьи опубликовать под Creative Commons;
- конкурс на статьи в Википедии резко повысит и качество статей, и заинтересованность участников и даст возможность гражданам России больше узнать о истории родины и многих других знаниях о которых напишут авторы;
- проекты альтернативные википедии существуют и заслуживают хотя бы небольшой, но поддержки;

Как видите позитивная повестка и вполне конкретное решение у меня тоже есть.

Ссылки:
[1] https://ru.wikipedia.org/wiki/Википедия:Текст_лицензии_Creative_Commons_Attribution-ShareAlike_3.0_Unported
[2] https://dumps.wikimedia.org/
[3] https://www.similarweb.com/website/ru.wikipedia.org#search
[4] https://www.wired.co.uk/article/wikipedia-google-youtube-facebook-support
[5] https://sub.clearspending.ru/subsidy/13519PH6000/
[6] http://www.tadviser.ru/index.php/Компания:Спутник_Поисковый_портал
[8] http://wikireality.ru/wiki/Альтернативные_Википедии_википроекты

#opendata #openknowledge #wikipedia
Команда Википедии анонсировала Wikipedia Enterprise API [1], продукта для крупных корпораций по использованию данных Википедии.

Технически, к маю/июню 2021 года будут запущены расширенные (enterprise) варианты [2]:
- Enterprise Activity "Firehose" API
- Enterprise Structured Content API
- Enterprise Bulk Content API

В которых будет добавлено обновление данных в реальном времени как основная (главная) фишка для корпоративных потребителей. Пока всё выглядит как то что это SLA для корпоратов [3].

Что тут можно сказать. Есть большая вероятность что обновление данных в реальном времени - это не самая главная функция которая нужна от Википедии. Это же не твиттер и не другие соцсети у которых "Firehose" (пожарный шланг) с высокой пропускной способностью и реальным временем реально востребованы. У большинства потребителей данных Википедии уже давно отлажены процессы работы с ежедневными дампами. А если окажется что команда Википедии начнёт ухудшать открытые сервисы в угоду корпоративным, то это будет конец Википедии как общественного проекта.

Ссылки:
[1] https://diff.wikimedia.org/2021/03/16/introducing-the-wikimedia-enterprise-api/
[2] https://meta.wikimedia.org/wiki/Wikimedia_Enterprise
[3] https://meta.wikimedia.org/wiki/Wikimedia_Enterprise/FAQ#Legal

#opendata #enterpise #wikipedia #API
Отвлекаясь от темы данных, не могу не написать что всё идёт к тому что до конца года Википедию в России заблокируют. Ничего хорошего в этом, разумеется, нет, а главный признак этого события в том что как на дрожжах появилось несколько альтернатив:

1) Большая российская энциклопедия в какой-то момент обновили свой сайт [1], приглашают авторов и сам ресурс стал выглядеть, относительно, приличнее, но общий объём статей, скажем так, несущественнен по мировым меркам. Энциклопедия существовала и раньше, в неё было "вбухано" много денег и я писал про них много раз, в последний раз в 2021 году, 2 года назад [2].

2) Знание.Вики [3] относительно новый проект Общества Знание, похоже что активно запущенный совсем недавно. Внутри его движок MediaWiki и они активно зазывают авторов, позиционируя проект как авторский и экспертный. По ощущениям, многое берётся из Википедии, но это не полный импорт, потому что нет страниц даже каких-то базовых понятий, например, не все страны.

3) RUWIKI [4], по сути, это клон русскоязычной Википедии с цензурированием всех тех страниц которые Роскомнадзор хотел бы чтобы цензурировались в самой Википедии. Поскольку это клон то объёмы сильно превосходят Знание.Вики и БРС, но в целом это вторичный продукт по отношению к Википедии поскольку никаких новаций в нём нет, только отцензурированная версия Википедии. Внутри движок Mediawiki

Я бы сказал что всё это сигналы что Википедию заблокируют до конца года, а в школах начнут продвигать использование одного из этих проектов или всех трёх, не берусь судить заранее, думаю что и сами инициаторы не знают до конца как это будет. Почему в школах? Потому что уже в университетах выше потребность в специализированных знаниях и если ищут в русскоязычной Википедии то только чтобы потом переключиться на другой язык или чтобы найти первоисточники и их изучить.

Впрочем речь не только об этом. Википедию неправильно рассматривать только как энциклопедию, это огромная свободно распространяемая база данных используемая Google, Bing, Yandex и другими для поисковых индексов и используемая почти всеми генеративными ИИ и ещё много кем. Собственно классические поисковые системы "отжирают" у Википедии больше трафика чем все вот эти потенциальные альтернативы или аналогичные альтернативы в других странах (Китай, Baidu).

Всё это российские "альтернативы" заменить не могут при всём желании, особенно Большая российская энциклопедия, где даже нет и не было условий использования материалов и возможности их распространения.

В любом случае я не перестаю повторять именно блокировка популярных ресурсов вроде Порнхаба или Википедии более всего вносит вклад в массовое обучение рядовых россиян для использования VPN сервисов для обхода блокировок.

Так что лично я предсказываю блокировку Википедии Роскомнадзором до конца года, со всеми вытекающими последствиями.

UPDATE:
Туда же в список альтернатив Википедиии:
- Энциклопедия Руниверсалис [5], также полный клон русской википедии
- Энциклопедия Кирилла и Мефодия [6] не вики проект и достаточно давний, по размерам меньше БРЭ, но под свободной лицензией

А также большая подборка ссылок на русскоязычные Вики проекты и инструменты работы с проектами фонда Wikimedia [7]

Ссылки:
[1] https://bigenc.ru
[2] https://t.me/begtin/3236
[3] https://znanierussia.ru/articles/Заглавная_страница
[4] https://ru.ruwiki.ru
[5] https://руни.рф
[6] https://megabook.ru
[7] https://github.com/alexeilutay/wiki4journals

#russia #wikipedia #censorship
В рубрике интересных проектов с открытыми данными небольшой проект Govdirectory [1] по визуализации аккаунтов органов власти в соцсетях по странам. Внутри данные из Wikidata, импортируются на регулярной основе и автор отправляет желающих что-то поправить - править сразу в Wikidata. По некоторым странам вроде Норвегии [2] внесено много и подробно. По другим, вроде России [3] довольно мало, а по большинству стран просто ничего нет, поскольку в каталоге всего 28 стран. Впрочем это Википроект где каждый может добавить что-либо, включая страну, поскольку код открыт и контрибьюторы там активны [4].

Ссылки:
[1] https://www.govdirectory.org
[2] https://www.govdirectory.org/norway/
[3] https://www.govdirectory.org/russia/
[4] https://github.com/govdirectory

#opendata #datasets #wikipedia #wikidata
На фоне весьма вероятной блокировки Википедии в РФ в этом году не могу не напомнить что есть такой проект как Kiwix по оффлайновому доступу к Википедии и множеству других вики и онлайн ресурсов [1].

Его особенность в том что это open source продукт со множеством приложений под разные платформы [2], которые однозначно стоит скачать под свою, а также с библиотекой из 1006 книг [3], хотя правильнее сказать слепков веб ресурсов.

Kiwix работает на данных в формате ZIM [4] и кроме Kiwix есть много других читалок этого формата под любые платформы. А я не могу не напомнить что ещё есть такая утилита как warc2zim [5] позволяющая преобразовать WARC файлы создаваемые при архивации сайтов в файлы ZIM для оффлайн просмотра.

Ссылки:
[1] https://kiwix.org/en/
[2] https://kiwix.org/en/applications/
[3] https://library.kiwix.org
[4] https://wiki.openzim.org/wiki/ZIM_file_format
[5] https://github.com/openzim/warc2zim

#opendata #digitalpreservation #webarchives #wikipedia #zim #kiwix
Похоже что Большая российская энциклопедия на грани закрытия, не могу сказать что мне она когда-либо вызывала симпатию, но, похоже, сотрудников даже не предупреждали что финансирования больше нет. В комментариях к посту очень много критики в адрес руководства.

Похоже что сайт bigenc.ru придётся архивировать.

С одной стороны такова судьба всех классических энциклопедий ибо создавать контент очень дорого.

А с другой стороны, а зачем вообще на неё тратили средства?

Впрочем вангую что судьба всех остальных российских википедиезаменителей будет аналогична.

Любые энциклопедические проекты должны быть открытыми, с открытыми данными, открытым кодом, API, краудсорсингом и _без любой идеологии_.

Людей жалко, конечно.

#wikipedia #bigenc #closeddata #russia
К вопросу об обработке данных с минимальным футпринтом (потреблением памяти оперативной и при хранении). Я добавил к библиотеке iterable пример по обработке дампов Википедии [1].

Для тех кто не сталкивался ранее, Фонд Викимедия обеспечивает открытость всех вариантов Википедии на сайте дампов [2] где они доступны в виде файлов SQL для загрузки в MySQL совместимые СУБД сжатых GZip и в виде дампов XML сжатых Bzip2. Если хочется поработать с этими данными локально, то надо или воссоздавать SQL базу данных из SQL файлов или работать с большими XML документами внутри которых страницы и другие объекты. Размер этих XML документов может быть весьма велик, до десятков гигабайт и обрабатывать их DOM парсерами весьма накладно.

Для некоторых задач Dateno мне нужны дампы Википедии, так чтобы к ним можно было строить запросы, но без желания воспроизводства инфраструктуры с MySQL и, в целом, хочется обрабатывать их оптимизировано.

Поэтому в примере выше использование библиотеки iterable для преобразования одной из маленьких Wiki (simplewiki) с дампом в 308MB в формате xml.bz2.

Идея в том чтобы:
1. Превратить его в формат для работы с помощью DuckDB
2. Сохранить минимально возможный объем для локального хранения, обработки и анализа.
3. Иметь возможность проделывать вме это на десктопе и с минимальным потреблением оперативной памяти.

В итоге пример можно посмотреть в репозитории. Два скрипта.
- convert.py преобразует xml.bz2 файл в jsonl.zst.
- enrich.py добавляет в полученный файл дополнительные метаданные по категориям вики страниц.

Почему jsonl и zst ? Потому что DuckDB умеет этот формат. После преобразования можно работать с ним напрямую без доп. преобразований.

Итог:
1. Сжатый XML дамп в 308MB преобразуется в сжатый JSONl файл в 325 MB
2. Время преобразования на простом десктопе порядка 2 минут.
3. С итоговым результатом можно работать как с базой данных DuckDB и делать запросы.

Еще лучше было бы будь возможность преобразовать в parquet, но и такой вариант пригоден к дальнейшей работе. К тому же parquet наиболее эффективен на хорошо сжимаемых колонках, а тут много викитекста для которого колоночное сжатие того же эффекта не несёт.

Пример на то и пример чтобы продемонстрировать саму идею. Simplewiki небольшая вики и на русскоязычной или испаноязычной википедиях процесс займёт дольше времени, но всё это демонстрация того что с этими данными можно работать локально и с удобными инструментами.

P.S. Если кто-то знает хорошие движки и примеры быстрого преобразования викидампов в компактные локальные базы данных, поделитесь плз.

Ссылки:
[1] https://github.com/apicrafter/pyiterable/tree/main/examples/simplewiki
[2] https://dumps.wikimedia.org

#dataengineering #datatools #opendata #wikipedia