Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
На Medium статья из Washington Post о использовании Amazon Rekognition System для распознавания лиц полицией [1], с большим числом отсылок на публичные и государственные исследования и внедрение технологий идентификаций по лицам. Алгоритмы пока ещё не дотягивают до того уровня когда им можно безоговорочно доверять причем тут срабатывает страновая специфика и тот же алгоритм Amazon не справляется с точным определением пола для людей с темной кожей и с распознаванием лиц в их случае.

Разница во внедрение систем распознавания лиц в разных странах лишь в публичности, хотя бы частичной, алгоритмов. В США они проходят тестирование в NIST, и иногда производители раскрывают модели распознавания. В Китае, в России, во многих других странах вопрос публичности алгоритмов распознавания лиц и ошибки при идентификации даже не поднимаются.

А что, серьёзно, хоть кто-то ещё верит что к 2025 году останется хоть одна гос-камера не оборудованная идентфикацией лиц? или то что на каждом полицейском не будет камеры в режиме непрерывной записи в течение рабочего дня?

Ссылки:
[1] https://medium.com/thewashingtonpost/amazon-facial-id-software-used-by-police-falls-short-on-accuracy-and-bias-research-finds-43dc6ee582d9

#algorithms
Ein Algorithmus hat kein Taktgefühl (У алгоритма нет чувства такта) свежая книга [1] Katarina Zweig, профессора в техническом университете Kaiserslautern, где она возглавляет лабораторию алгоритмической подотчётности (AALab) [2].

Книга о том как алгоритмы принимают неправильные решения, о их последствиях и о том что нам с ними делать. Пока я видел только немецкое издание, но это из тех книг которые хорошо бы увидеть на английском и русских языках.

В прошлом году команда из AALab публиковала статью о рисках и безопасности систем принимающих решения [3] и о текущем состоянии контроля за алгоритмами [4], а в этом году о прозрачности и контроле за алгоритмами [5].

У них очень много публикаций и большая их часть не имеет перевода на английский язык, так что это из тех случаев когда полезно владение немецким языком.

Ссылки:
[1] https://www.amazon.de/gp/product/B07QPB5BMK/
[2] http://aalab.informatik.uni-kl.de
[3] https://link.springer.com/article/10.1007%2Fs41125-018-0031-2
[4] https://www.oeffentliche-it.de/documents/10181/76866/%28Un%29berechenbar+-+Algorithmen+und+Automatisierung+in+Staat+und+Gesellschaft.pdf
[5] https://www.kas.de/documents/252038/4521287/AA338+Algorithmische+Entscheidungen.pdf/533ef913-e567-987d-54c3-1906395cdb81?version=1.0&t=1548228380797

#data #algorithms #ai
Дайджест того что произошло за неделю и накопилось нерассказанного за предыдущие недели

Вышел доклад от австралийского оборонного мозгового центра ASPI о глобальной китайской экспансии по сбору данных
Engineering global consent: The Chinese Communist Party's data-driven power expansion [1] с рассказом о том как GTCOM и Huawei устанавливают оборудование для слежки, например, в штаб-квартите Африканского союза. Доклад в PDF можно взять по ссылке [2]

В The Guardian статья о том как ИТ система соцобеспечения Великобритании может загнать в нищету тех кто туда обращается [3]. А всё из-за внедрения так называемого "intelligent automation garage" (гараж интеллектуальной автоматизации). А всё дело в том что Департамент труда и пенсии Великобритании, аналог российского Минтруда, нанял около 1000 ИТ специалистов за 18 месяцев и увеличил расходы на автоматизацию и привлек нескольких крупных подрядчиков. Однако уже есть факты когда внедрённые алгоритмы довели нескольких человек до голода и одного до суицида [4].

Там же в Guardian серия публикаций о цифровой антиутопии [5] и о том что системы цифрового социального обеспечения наказывают бедных и о провале австралийской государственной системы robodebt "нелегально" взыскивающей долги с граждан [6].

В MIT Press вышла книга "Права человека в эпоху платформ" Human rights in the Ageo of Platforms [7] полезная не только правозащитникам, но и тем кто кому придётся с ними взаимодействовать в цифровую эпоху.

В Евросоюзе с 2017 года идёт проект Future Government 2030+ (Будущее государства в 2030+) [8] по которому на днях вышел отчёт [9] с 4 сценариями будущего:
- Демократия сделай-сам (DYI Democracy)
- Частная алгократия (Private Algocracy)
- Сверх-взаимодействующее государство (Super Collaborative Government)
- Over-Regulatocracy (Сверх регулирование)

Очень интересный отчёт, а эти сценария достойны отдельного подробного описания как и оценки их вероятности для других стран, например, для России.



Ссылки:
[1] https://www.aspi.org.au/report/engineering-global-consent-chinese-communist-partys-data-driven-power-expansion
[2] https://s3-ap-southeast-2.amazonaws.com/ad-aspi/2019-10/Engineering%20global%20consent%20V2.pdf?eIvKpmwu2iVwZx4o1n8B5MAnncB75qbT
[3] https://www.theguardian.com/technology/2019/oct/14/fears-rise-in-benefits-system-automation-could-plunge-claimants-deeper-into-poverty
[4] https://www.theguardian.com/commentisfree/2019/jun/27/britain-welfare-state-shadowy-tech-consultants-universal-credit
[5] https://www.theguardian.com/technology/2019/oct/14/automating-poverty-algorithms-punish-poor
[6] https://www.theguardian.com/australia-news/2019/sep/17/robodebt-class-action-shorten-unveils-david-and-goliath-legal-battle-into-centrelink-scheme
[7] https://mitpress.mit.edu/books/human-rights-age-platforms
[8] https://ec.europa.eu/digital-single-market/en/news/future-government-2030-policy-implications-and-recommendations

#AI #algorithms #data #datapolicy #opendata #privacy #digitalwelfare
Вышел доклад "Этика и ответственность публичных алгоритмов" (Ethique et responsabilité des algorithmes publics) [1] от Национальной школы управления во Франции École nationale d'administration (ENA) подготовленного по заказу центра публичных инноваций Etalab.

В докладе разбираются этические аспекты применения алгоритмов в государственном управлении, в первую очередь, во Франции и Евросоюзе.

В основном доклад посвящён юридическим вопросам работы алгоритмов, открытым данным и открытому коду (сode publics) и полезен всем кто изучает регулирование в этой области и знает французский язык.

В дополнение к нему руководство Etalab по применению алгоритмов [3], также на французском в виде сжатого руководства с открытым кодом [4]

Ссылки:
[1] https://www.etalab.gouv.fr/wp-content/uploads/2020/01/Rapport-ENA-Ethique-et-responsabilit%C3%A9-des-algorithmes-publics.pdf
[2] https://www.ena.fr
[3] https://guides.etalab.gouv.fr/algorithmes/guide/
[4] https://github.com/etalab/guides.etalab.gouv.fr

#opensource #opendata #algorithms
Десятки тысяч международных студентов и работников из других стран в Канаде получили визы автоматически за счёт роботизированных алгоритмов. Vancover Sun пишут об этом в статье "Douglas Todd: Robots replacing Canadian visa officers, Ottawa report says" [1]. Во внутреннем отчете департамента иммиграции страны упоминается о применении алгоритмов автоматического принятия решения и раздражённости граждан их применением.

Ссылки:
[1] https://vancouversun.com/opinion/columnists/douglas-todd-robots-replacing-canadian-visa-officers-ottawa-report-says

#ai #privacy #algorithms #canada
Почему крупнейшие компании в США отказываются поставлять государству (полиции) технологии распознавания по лицам? Потому что опасаются массового бойкота их продукции со стороны потребителей.

Почему в России столь легко внедряются эти же технологии? Потому что бойкотировать некого. NTechLab - это, типа, небольшой стартап в связке с Ростехом, у него нет массового потребителя.

Но бойкот - это форма мирного протеста, когда он не возможен, то во что он выльется? К разработчикам "алгоритмов двойного назначения" приставят госохрану? До них и до внедряющих властей дойдет что любой пиар в этой теме работает против них?

Вопросы этики в ИТ - это давно уже вопросы не-нейтральности технологий. Понимают ли создатели алгоритмов последствия их применения?

#algorithms #facerecognition
Вышел доклад Automating Society Report 2020 [1] от AlgorithmWatch, в докладе обзор автоматизации в понимании алгоритмических систем в таких странах Европы как: Бельгия, Дания, Эстония, Финляндия, Франция, Германия, Греция, Италия, Голландия, Польша, Португалия, Словения, Испания, Швеция, Швейцария и Великобритания. В целом это более половины Европейского союза.

Доклад отражает картину жизни граждан в среде где есть системы автоматического принятия решений (ADM systems).

В докладе много примеров применения ADM систем, многие были мне неизвестны. Например "Gladsaxe-model" в Дании, это система баллов оценки 'уязвимости ребенка' на основе таких параметров как: плохое душевное здоровье родителя (3000 баллов), отсутствие работы у родителя (500 баллов), пропущенное посещение доктора (500 баллов) и так далее. Работу системы сейчас приостановили, но исследования продолжились.
Также там ещё очень много примеров.

Ссылки:
[1] https://automatingsociety.algorithmwatch.org/

#algorithms
Может ли аудит алгоритмов помочь в борьбе с их предубежденностью? [1] статья в The Markup о том что алгоритмы уже неоднократно ловят на предубеждениях, есть несколько инициатив регулирования подобного в США, но ни одна до сих пор не доведена до закона/обязательного требования.

Есть около десятка стартапов/консультантов с фокусом на аудит алгоритмов, но сам рынок/среда аудита всё ещё в довольно таки неопределенной сфере.

Впрочем всё развивается столь быстро что можно ожидать уже в этом или следующем годах обязательных требований по алгоритмическому аудиту.

Ссылки:
[1] https://themarkup.org/ask-the-markup/2021/02/23/can-auditing-eliminate-bias-from-algorithms

#ai #algorithms
На хабре публикация [1] про Quite OK Image [2] проект по быстрому сжатию изображений который сравнивают с форматом PNG, на самом деле, давно устаревший для Web'а и заменённый .webp и сравнения очень условные. Автор и сам признается что ничего не понимает в криптографии и просто решил сделать эксперимент, но внезапно "обрел славу" изобретателя нового формата. При том что сложного алгоритма там нет, а лишь доработанный формат RLE (Run length encoding), с некоторыми неплохими идеями, правда.

Но, я скажу так, практического применения немного. Изображения и видео съедают много трафика, а конечные устройства пользователей всё больше включают процессы и видеопроцессоры для достаточно быстрого раскодирования. Гонка идёт на балансе уровня сжатия и скорости разсжатия, а вот скорость сжатия изображений далеко не так критична.

Где это действительно применимо - это малые изображения, до 64 килобайт и особенно в играх где не популярен формат webp. Разработчики игр, правда, давно уже используют разнообразные собственные форматы хранения спрайтов и отдельных графических элементов.

В общем и целом ажиотаж не обоснован. А из интересных, необычных, алгоритмов и инструментов сжатия я могу посоветовать посмотреть Precomp [2] утилита от Кристиана Шнаадера по пере-сжатию архивов, иногда может уменьших существующий архив в несколько раз через пересжимание содержимого архива более эффективными алгоритмами. А также посмотреть на промежуточных победителей Global Data Compression Competitions 2021 (GDCC) [4] там много очень интересных проектов/решений/алгоритмов, как правило довольно сложных. И почти во всех случаях экспериментальных, практически не используемых в промышленных системах.

Между прочим, для хранения данных проблемы компрессии также крайне актуальны и, если для оперативных данных используются, в основном, lz4, gzip, xzip, bzip2, то для долгосрочной архивации структурированных данных могут быть и другие алгоритмы, дающие лучшее сжатие с приемлимой скоростью.

Ссылки:
[1] https://habr.com/ru/news/t/591577/
[2] https://phoboslab.org/log/2021/11/qoi-fast-lossless-image-compression
[3] http://schnaader.info/precomp.php
[4] https://www.gdcc.tech/

#compression #algorithms
Одна из этически спорных тем вокруг автоматизированных алгоритмов - это персонализированные цены, когда компания/сервис предоставляют конкретному пользователю цену за услугу или продукт и эта цена формируется, в том числе, на основе информации о пользователе. Это нельзя назвать алгоритмами ИИ, но это очень близко к алгоритмам скоринга по смыслу и реализации.

Mozilla и Consumers International с мая по сентябрь 2021 года проводили исследование персонализированных цен в Tinder и выяснили что в сервисе средняя цена за Tinder Plus имеет вариации в зависимости от возраста, пола и местонахождения клиента. В исследовании [1] подробно разобрано какие критерии алгоритм использует и страны в которых оно проводилось: США, Бразилия, Нидерланды, Республика Корея, Индия, Новая Зеландия.

По итогам исследователи предлагают подписать петицию [2] и усилить регулирование за подобными сервисами.

Проблема с переменными/персональными ценами уже не нова и, действительно, почти наверняка будет подвергаться регулированию во многих странах. В случае с Tinder претензия понятна - одна и та же услуга от одного и того же продавца.

Ссылки:
[1] https://assets.mofoprod.net/network/documents/Personalized_Pricing.pdf
[2] https://foundation.mozilla.org/en/blog/new-research-tinders-opaque-unfair-pricing-algorithm-can-charge-users-up-to-five-times-more-for-same-service/

#privacy #data #bigdata #ai #algorithms #mozilla
Актуальное про приватность в мире։
- В Китае регулятор опубликовал черновик закона о регулировании кредитного скоринга Law on Establishing the Social Credit System [1]. По сути устанавливая требования комплаенса для компаний предоставляющих подобные сервисы. Но это ещё только черновик
- В Испании три организации создали Observatorio de Trabajo, Algoritmo y Sociedad (Обсерватория труда, алгоритмов и общества) предназначенную для исследования влияния алгоритмов на рынок труда. Первым их проектом является расследование в отношении сервиса доставки Glovo [2]. Они уже ведут карту судебных разбирательств доставщиков еды и сервисов Glovo, Deliveroo и др․ [3]
- В Испании министерство внутренних дел тестирует систему распознавания лиц на базе продукта французской компании Thales [4].
- Европейский центр алгоритмической прозрачности создан в Севилье (Испания) [5] в рамках DSA (Digital Services Act), свежего законодательства Евросоюза.

Ссылки։
[1] https://www.chinalawtranslate.com/en/franken-law-initial-thoughts-on-the-draft-social-credit-law/
[2] https://www.eldiario.es/catalunya/riders-taxistas-autonomos-unen-denunciar-glovo-cnmc-cartel-no-competir_1_9698511.html
[3] https://observa-tas.org/mapa-de-conflictos/
[4] https://www.eldiario.es/tecnologia/interior-prepara-sistema-reconocimiento-facial-identificar-sospechosos_1_9711509.html
[5] https://algorithmic-transparency.ec.europa.eu/index_en

#privacy #facerecognition #ai #algorithms #regulation
Китайская компания HKVision выиграла тендер в Китае на систему "Умный кампус" умеющую отслеживать что представители национальных меньшинств соблюдают пост в Рамадан [1].

Даже не знаю как это прокомментировать. Подозреваю лишь что Китаем такие внедрения не ограничатся.

Только в Китае следят за мусульманами, а за кем будут следить в России ? Правильно, за социальной жизнью студентов ЛГБТ. Научат камеры распознавать то что девушки или юноши ходят по коридорам и двору за ручку и сразу будут камеры стучать в профильный Департамент социального позора Министерства раздувания национального достояния.

Думаете фантастический сценарий?

Ссылки:
[1] https://ipvm.com/reports/hikvision-fasting

#privacy #china #algorithms #ai
Кстати, в качестве регулярного напоминания, кроме всего прочего какое-то время назад я занимался разработкой утилиты metacrafter, она довольно умело умеет идентифицировать семантические типы данных. При этом в ней нет нейросетей, ИИ, а лишь очень много правил в виде регулярных выражений и их аналога в синтаксисе pyparsing с помощью которых можно быстро сканировать базы данных и файлы для выявления смысловых полей данных.

Чтобы собрать те правила я тогда перелопатил около 10 порталов открытых данных и кучу других собранных датасетов для выявления повторяющихся типов данных. И то типов данных собрал больше чем потом сделал правил, реестр типов, при этом вполне живой.

Так вот одна из интересных особенностей Dateno - это бесконечный источник данных для обучения чего-либо. Например, у меня сейчас для экспериментальных целей уже собрано около 5TB CSV файлов из ресурсов Dateno, а также несколько миллионов мелких CSV файлов из потенциальных каталогов данных, ещё в Dateno не подключённых. А это гигантская база для обучения алгоритмов на выявление типовых паттернов и атрибутов.

Вообще в планах было подключить к Dateno возможность фильтрации по распознанным семантическим типам данных, правда уже сейчас понятно что самым распространённым атрибутом из CSV файлов будет геометрия объекта, атрибут the_geom который есть в каждом экспорте слоя карт из Geoserver.

В любом случае Dateno оказывается совершенно уникальным ресурсом для тех кто хочет поделать себе обучающих подборок данных на разных языках, в разных форматах, из разных стран и заранее обладающим множеством метаданных позволяющих упростить задачи классификации распознавания содержимого.

Я уже общался недавно с группой исследователей которые так вот запрашивали подборки CSV файлов именно на разных языках: английском, испанском, арабском и тд. и желательно из разных источников, чтобы были и примеры с ошибками, с разными разделителями и тд.

Впрочем в Dateno проиндексированы не только CSV файлы, но и многие JSON, NetCDF, Excel, XML, KML, GeoTIFF, GML, DBF и других. Можно собирать уникальные коллекции именно для обучения.

А какие файлы для каких задач для обучения нужны вам?

#opendata #thougths #dateno #algorithms