Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Сегодня и следующие 12 дней начинается MozFest [1] большая онлайн конференция/фестиваль/серия мероприятий где, в том числе затрагиваеются такие темы как AI, открытость, децентрализация, управление данными и многое другое. А также большое число интерактивных сессий программирования онлайн.

Весь тайминг адаптирован под восточное побережье США поэтому в Москве он выглядит как серии сессий с 16:30 до 1:30

Участие стоит небольшой денежки, организаторы рекомендуют потратить $45, но Вы сами можете выбрать сумму.

Ссылки:
[1] https://www.mozillafestival.org

#openness #open #mozilla #data #events
Одна из этически спорных тем вокруг автоматизированных алгоритмов - это персонализированные цены, когда компания/сервис предоставляют конкретному пользователю цену за услугу или продукт и эта цена формируется, в том числе, на основе информации о пользователе. Это нельзя назвать алгоритмами ИИ, но это очень близко к алгоритмам скоринга по смыслу и реализации.

Mozilla и Consumers International с мая по сентябрь 2021 года проводили исследование персонализированных цен в Tinder и выяснили что в сервисе средняя цена за Tinder Plus имеет вариации в зависимости от возраста, пола и местонахождения клиента. В исследовании [1] подробно разобрано какие критерии алгоритм использует и страны в которых оно проводилось: США, Бразилия, Нидерланды, Республика Корея, Индия, Новая Зеландия.

По итогам исследователи предлагают подписать петицию [2] и усилить регулирование за подобными сервисами.

Проблема с переменными/персональными ценами уже не нова и, действительно, почти наверняка будет подвергаться регулированию во многих странах. В случае с Tinder претензия понятна - одна и та же услуга от одного и того же продавца.

Ссылки:
[1] https://assets.mofoprod.net/network/documents/Personalized_Pricing.pdf
[2] https://foundation.mozilla.org/en/blog/new-research-tinders-opaque-unfair-pricing-algorithm-can-charge-users-up-to-five-times-more-for-same-service/

#privacy #data #bigdata #ai #algorithms #mozilla
Я чуть было не пропустил, а тут интересный материал от фонда Mozilla под названием "Is it even legal?" (А это вообще легально?) [1] состоит из серии гайдов по странам о том как защищать свои права на обработку данных и бороться с тем что данные распространяются без Вашего согласия. Гайды привязаны к странам и сейчас по 4-м из них։ Кения, Германия, США и Индия. Каждый гайд - это очень продолжительный лонгрид помогающий ответить на вопрос "А как там у них?", а у них там есть сложные юридические конструкции и множество примеров когда рядовые граждане используют свои возможности.

#privacy #mozilla


Ссылки:
[1] https://foundation.mozilla.org/en/research/library/is-that-even-legal/builders-guide/
Команда Mozilla опубликовала очередное интересное исследование по приватности, на сей раз приватности при использовании автомобилей 25 брендов и о том как вендоры собирают информацию [1] из которого можно узнать что:
- все без исключения вендоры собирают персональные данные
- 84% вендоров закладывают право передавать или продавать эти данные
- 92% вендоров не дают контроля над своими персональными данными
- 56% вендоров закладывают право передавать данные по запросу госорганов, вне зависимости официальные ли это запросы или "неформальные"
- ни один из вендоров не соответствует минимальным стандартам безопасности которые Mozilla продвигала ранее.
- Nissan, кроме всего прочего, собирает данные о сексуальной активности, не шутка.

В исследовании есть развернутая информация по каждому вендору, а анализ проходил путем изучения их условий использования, политик приватности и иных связанных с техническим оснащением документов. Иначе говоря исследователи проводили бумажный анализ, а не полевой с выявлением куда и как передаются данные, но и юридический бумажный анализ рисует вот такую неприглядную картину.

Ссылки:
[1] https://foundation.mozilla.org/en/privacynotincluded/articles/its-official-cars-are-the-worst-product-category-we-have-ever-reviewed-for-privacy/

#privacy #data #mozilla #research
Большая статья-исследование на сайте Mozilla о том как компании обучающие ИИ используют Common Crawl "Training Data for the Price of a Sandwich"[1], статья подробная, авторы провели большую работу анализируя то как наборы данных на базе Common Crawl создавались и как они используются. Краткие выводы в том что Common Crawl сильно неполный и не вполне доверительный датасет из-за отсутствия одного контента и отсутствия фильтров на разного рода некачественный контент. Выводом там много, вплоть до идей о том что надо создавать альтернативу Common Crawl с этическими мыслями в голове.

Я с такими выводами соглашаться не готов, но они не отменяют полезности этого обзора. Напомню что Common Crawl - это некоммерческий проект по индексации интернета по аналогии с поисковым индексом Google, но доступного как базы данных, файлы и всё под свободными лицензиями. Проект был создан в 2007 году и в последние годы он почти весь хранится и обновляется на ресурсах Amazon.

Ссылки:
[1] https://foundation.mozilla.org/en/research/library/generative-ai-training-data/common-crawl/

#opendata #data #web #commoncrawl #ai #mozilla