Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Давно хочу написать о проекте OpenFoodFacts [1] - это открытая база данных по продуктам питания собираемая через краудсорсинг. Ведется она французской НКО с аналогичным названием Open Food Facts [2], публикует все данные в форматах CSV, RDF, JSON API и дампы MongoDB [3] и включают в базу записи по 117581 продуктам по всему миру [4].

Глядя на этот проект я понимаю что, в каком-то смысле, его автор, Stéphane Gigandet, проделал большую работу над тем чтобы помочь тысячам людей любящим не просто еду, но хорошую еду. А в Вики проекта можно узнать подробности по тому как он организован, как работать с его данными и API [5]

Конечно же, открытый исходный код всего проекта и под проектов [6] позволяет использовать его API для Python, Ruby или любого другого языка, для многих из которых уже готовы библиотеки для легкого подключения.

По России в проекте собрано 1196 продуктов [7], но ничто не ограничивает нас с вами добавлять туда новые описания.

Сейчас авторы запустили еще один проект "Open Beauty Facts" [8] где собирают базу космететических товаров и их ингредиентов.

Все это - пример успешного краудсорсингового проекта по созданию баз данных силами тысяч добровольцев. Они много меньше чем Википедия или OpenStreetMap, но может стать сравнимым с ними по значимости.

Глядя именно на эти проекты я и утверждаю что открытые данные не связаны и не зависят от государства. Однако именно таких проектов нам в России и не хватает, тех которые создают данные, а не только потребляют. Те которые формируют сообщество и существуют вне зависимости от чьей-то политической воли или ее отсутствия.

Ссылки:
[1] https://www.openfoodfacts.org/
[2] https://ru.openfoodfacts.org/legal
[3] https://ru.openfoodfacts.org/data
[4] https://world.openfoodfacts.org/
[5] https://en.wiki.openfoodfacts.org/Main_Page
[6] https://github.com/openfoodfacts/
[7] https://ru.openfoodfacts.org/
[8] https://world.openbeautyfacts.org/

#opendata #crowdsourcing
Если каких-то данных нет, то это не значит что они не могут появиться благодаря нашим усилиям. Живой пример таких данных - это данные создаваемые волонтёрами через краудсорсинг. Проект с открытым кодом PyBossa [1] с момента своего появления в 2011 году вырос и обзавёлся полноценной компанией которая его внедряет и постоянно действующей онлайн площадкой Croudcrafting [2].

Краудсорсинг хорошо работает когда есть много несложных задач и текст или изображения которые можно выдать массовой аудитории для ответов на простые вопросы.

Примеры:
- Gender and Tech Magazines [3] - исследование частоты упоминания женщин в технических журналах. Надо смотреть на картинки сканов журналов и отвечать на простые вопросы.
- Вики любят памятники [4] - проект российских википедистов, почему-то совершенно непопулярный
- Science photography [5] - поиск изображений и фотографий на страницах исторических журналов Scientific American

Конечно, далеко не все проекты по краудсорсингу успешны. Всё зависит от способности привлечь внимание волонтёров со стороны организаторов и того насколько точно сформулированы задачи, как подобран первичный материал и тд.

В этом и состоит бизнес Scifabric [6] , создателей Croudcrafting и Pybossa. Они консультируют и сопровождают проекты обеспечивая им постоянную поддержку.

В России к подобному data краудсорсингу можно отнести проект OpenCorpora [7] создающему открытый корпус русского языка усилиями волонтёров. Это проект с открытым кодом [8] и устойчивым сообществом существующий с 2009 года с впечатляющими результатами. В отличие от национального корпуса русского языка [9], в нём публикуются открытые данные со всем содержанием корпуса.

Эти примеры - это иллюстрация общего принципа работы с данными заключающегося в том что часто чтобы получить нужны данные - их нужно создать, своими руками и руками волонтёров. Чем бы Вы не занимались - исследованиями в молекулярной биологии, лингвистике или гендерными исследованиями, во всех случаях Вы можете создавать краудсорсинговые проекты которые, совмещённые с анализом данных, и позволяют получать очень интересные исследования и продукты как результат.

Ссылки:
[1] https://pybossa.com/
[2] https://crowdcrafting.org/
[3] https://crowdcrafting.org/project/genderandtechmagazines/
[4] https://crowdcrafting.org/project/WLMRussia/
[5] https://crowdcrafting.org/project/sciencephotography/
[6] https://scifabric.com/
[7] http://opencorpora.org/
[8] https://github.com/OpenCorpora
[9] http://ruscorpora.ru/

#opendata #crowdsourcing
Google анонсировали закрытие сервиса сокращения ссылок goo.gl [1] после того как уже более 5 лет с его помощью нельзя было создавать ссылки, а также были отключены функции аналитики и управления.

Окончательно сервис будет закрыт 25 августа 2025 когда перестанут работать ссылки, а с 23 августа 2024 года будет выводится предупреждение при их открытии.

Чтобы будет с этими ссылками? Команда Archive Team ведёт архивацию всех коротких ссылок в проекте URLTeam [2]. Уже просканировано 38.6 миллиардов ссылок и обнаружены активными 7 миллиардов ссылок.

P.S. ArchiveTeam это крупнейший глобальный краудсорсинговый проект по веб архивации, поучаствовать в нём можно с помощью ПО Warrior которое выполняет задачи по сбору контента синхронизируясь с трекером задач [3].

Ссылки:
[1] https://9to5google.com/2024/07/18/googl-links/
[2] https://tracker.archiveteam.org:1338/status
[3] https://wiki.archiveteam.org/index.php/ArchiveTeam_Warrior

#digitalpreservation #webarchive #google #crowdsourcing #urlshortener