Ivan Begtin
8.02K subscribers
1.74K photos
3 videos
101 files
4.44K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Для тех кто интересуется что там с открытыми данными "у них" свежий доклад Open Data Maturity 2021 [1] Европейского союза. Хорошая сравнительная аналитика госполитик, технологий и влияния на цифровые рынки в Евросоюзе.

В лидерах Франция и Ирландия, на последнем месте Грузия и Словакия.

Да, в рейтинге есть Грузия и Украина как кандидаты в ЕС, видимо.

В целом достаточно зрелая методика оценки, правильные акценты на регулировании и экономическом эффекте. По российским регионам такое можно было бы сделать, но нормативных полномочий у них маловато.

Что характерно - нет никаких количественных оценок числа опубликованных наборов данных и их объёма в терабайтах. А почему? А потому что это слишком легко поддаётся манипуляции.

Исследование полезное, рекомендую всем кто интересуется развитием открытости данных.

Ссылки:
[1] https://data.europa.eu/en/dashboard/2021

#opendata #europe #analytics
В The Markup статья о том как сервисы предупреждения и предсказания преступлений предубеждены против не-белого населения в США [1]. При этом есть объективная проблема реальной зависимости криминальной обстановки от этнического состава территорий и искажения алгоритмов по причине зависимости их от сведений о наблюдаемой преступности.

Поэтому анализ интересный, но объективная ситуация в том простых решений тут нет. Многие алгоритмы оперируют характеристиками привязанными к человеку с рождения и отказ от них может привести лишь к ухудшению их работы, а использование к цифррвым гетто.

Ссылки:
[1] https://themarkup.org/prediction-bias/2021/12/02/crime-prediction-software-promised-to-be-free-of-biases-new-data-shows-it-perpetuates-them

#ai #precrime
И с той поры я всё никак не соберусь опубликовать обновление того исследования. Сложно писать про такие утечки данных не нанеся вреда тем чьи данные публикуются
Forwarded from Об ЭП и УЦ
2,5 года назад Иван Бегтин опубликовал статью, в которой провел анализ реестров УЦ и пояснял выявленные утечки персональных данных тем, что есть "требования приказа N436 Минкомсвязи России, которые требуют безвозмездного предоставления информации из реестра выданных сертификатов по запросу пользователей публикуя информацию о каждом выданном сертификате".

30.11.2021 был опубликован приказ Минцифры России № 1138, который с 01.03.2022 заменит 436 приказ. Приказ новый, только противоречивая норма, согласно которой "АУЦ обязан предоставлять безвозмездно любому лицу по его обращению сведения, содержащиеся в реестре квалифицированных сертификатов, в том числе информацию об аннулировании сертификата", осталась.
В части 3 ст. 15 63-ФЗ говорится, что АУЦ обязан обеспечить любому лицу безвозмездный доступ с использованием информационно-телекоммуникационных сетей, в том числе сети "Интернет", к реестру квалифицированных сертификатов этого аккредитованного удостоверяющего центра в любое время в течение срока деятельности этого удостоверяющего центра, если иное не установлено федеральными законами или принимаемыми в соответствии с ними нормативными правовыми актами.

Наш канал считает, что сведения в реестре сертификатов являются защищаемыми, и данную часть 63-ФЗ нужно рассматриваться в совокупности с требования федеральных законов № 152-ФЗ и 149-ФЗ, т.к. "иное" и установлено данными федеральными законами.
Европейская комиссия утвердила решение о использовании открытых лицензии для публикации программного обеспечения разработанного на средства Европейского союза [1], в тексте решения можно обратить внимание на четкое определение и рекомендации относительно copyleft и permissive licenses. При этом решение о выборе лицензии лежит на агенстве раскрывающем код, по умолчанию - это EUPL (European Union Permissive License), но разрешены и другие варианты, какие - оговорено в решении Еврокомиссии.

Я же хочу обратить внимание что до принятие решения о европейская комиссия заказала исследование Open Source Study (полное название - The impact of open source software and hardware on technological independence, competitiveness and innovation in the EU economy) [3] проведенное Fraunhofer ISI и OpenForum Europe в 2019-2021 годах, финальный отчет был опубликован 6 сентября 2021 года.

Это большой документ, на 390 страниц, с подробным разбором того почему, как и зачем нужен открытый код, какие бизнес модели существуют, как устроено регулирование кода в странах ЕС, других странах и так далее. Полезное, детальное и взвешенное исследование с чёткими рекомендациями которые и были применены при принятии решения Еврокомиссией.

В России сейчас Минцифры России пытается активизировать работу над открытым кодом, что можно только приветствовать. Но что можно покритиковать - так отсутствие системных усилий в этой области. Без них шансы на успех невелики и всё может закончится как предыдущие попытки в этой области.

Системные усилия начинаются с аналогичного исследования, анализа экосистемы российского ПО с открытым кодом, регулирования в других странах, если и разработки отечественной лицензии, то с обоснованием её выбора, с разработки методики применения разных лицензией и многое другое. Европейский подход довольно медленный, но достаточно системный.

Ссылки:
[1] https://ec.europa.eu/commission/presscorner/detail/en/ip_21_6649
[2] https://ec.europa.eu/transparency/documents-register/detail?ref=C(2021)8759&lang=en
[3] https://digital-strategy.ec.europa.eu/en/library/study-about-impact-open-source-software-and-hardware-technological-independence-competitiveness-and

#opensource #openness #openlicenses
МИД России официально опубликовали мобильное приложение [1] для Андроид, после чего пользователи обнаружили что у мобильного приложения явно завышенные запросы на доступ к данным на телефоне [2]. В ответ реакция МИДа была в стиле "для тех кто в танке" [3]. Отвечать на внутреннюю критику в стиле как МИД общается с другими странами, это, конечно, так себе. Мотивации критиковать их конструктивно после этого куда меньше. Тем временем проверка их приложения в Exodus Privacy также показывает что перечень разрешений там запределен [4], а само приложение сливает данные Google через Google Crashlytics и Firebase. Так что нет, не катит.
Адекватной реакцией от МИД будет:
a) Извиниться
б) Свалить вину на разработчика

А суперадекватной было бы просто извиниться.

А надувать щёки можно и по другим поводам.

Ссылки:
[1] https://t.me/MariaVladimirovnaZakharova/1452
[1] https://t.me/chtede/39051
[3] https://t.me/MID_Russia/17827
[4] https://reports.exodus-privacy.eu.org/en/reports/223359/

#privacy #security #govapps #midrf
Почему в прошлой публикации я написал что МИД мог бы свалить всю вину на разработчиков приложения?

Во-первых потому что в большинстве госприложений запрашивается меньше небезопасных разрешений. Так приложение МИДа запрашивает их 8 штук, аналогичные запросы делают только несколько приложений Московского Пр-ва, мы делали исследование год назад где писали об этом [1], но там это было, как бы, хотя бы частично обосновано.

А во вторых, и в главных, важно знать как устроено приложение МИДа. Это не специализированное мобильное приложение вроде Госуслуг, Госключа или Активного гражданина или ещё много чего. Это контентное приложение построенное на материалах сайта МИДа РФ. А если конкретнее - это оболочка над браузером который обращается к сайту https://m.mid.ru/mid_mobapp/ скорее всего сделанное на движке 1С Битрикс мобильное приложение [2].

Так вот совершенно непонятно зачем мобильному приложению которое, по сути, просто надстройка над сайтом и без дополнительных функций нужны разрешения на доступ к камере или записи аудио. В приложении просто не предусмотрены задачи для которых эти разрешения применимы.

После углублённого анализа выяснилось следующее.

Это сложное xapk приложение с набором вложенных apk файлов под разные языки и базовым приложением ru.mid.app.apk внутри этого xapk. В AndroidManifest.xml общего приложения затребуются максимум разрешений, а внутри ru.mid.app.apk их нет вообще. Поэтому при проверке по приложению указано то что при установке не затребуются. В итоге всё сводится к тому что:
1) Разработчики ошиблись в структуре манифеста затребующего разрешения, но именно разрешения из этого манифеста указываются в Google Apps и они используются всеми сервисами и инструментами анализа Android приложений.
2) МИД РФ не в курсе что по факту разрешения приложению не нужны, и начал оправдывать их запрос. Реакция МИДа была не вполне нормальной.
3) По факту приложение не может собирать аудио, подключаться к камере и тд. поскольку это приложение надстройка над мобильным сайтом МИДа, см. выше

В который раз, не масонская ложа, а великая лажа (с). Ну, ошибки разработчиков - это лучше чем заговор, но выглядит всё это вопиюще глупо.

Ссылки:
[1] https://privacygosmobapps.infoculture.ru/
[2] https://www.1c-bitrix.ru/products/mobile/

#privacy #security #android
Технологические гиганты могут получить обязательство делиться данными с исследователями [1] . Новость, в каком-то смысле, прорывная и этот сценарий вполне реалистичен. В США рассматривают Platform Accountability and Transparency Act [2]. В этом акте много разного неприятного "счастья" для технологический компаний. Например, защита тех кто сообщает о грубых нарушениях платформами требований о защите прав потребителей/пользователей, разработка NIST (Национальный институт стандартов и технологий США) "добровольного стандарта" по обмену данными с исследователями и ещё много чего.

Ссылки:
[1] https://thehill.com/policy/technology/585069-senators-unveil-bipartisan-unveil-bill-requiring-social-media-giants-to
[2] https://www.congress.gov/bill/117th-congress/senate-bill/797/text

#bigtech #regulation
Я таки дописал в рассылку лонгрид про открытый исходный код в России [1] отразив то как я вижу всё это со стороны. Чем-то мне происходящее напоминает "движуху" про открытые данные около 10 лет назад, но с той оговоркой что риторика защитников режима "осаждённой" крепости усилилась.

Ссылки:
[1] https://begtin.substack.com/p/20

#opensource #opengov
Для тех кто изучает практики обмена данными я напомню про такой инструмент/экосистему как Frictionless Data [1]. Это проект Open Knowledge Foundation по стандартизации обмена данными, в первую очередь табличными.

Проект большой и, что самое главное, начавшийся со стандартов [2] и постепенно, неспешно, охватывающий разные области применения. Особенно в научной-академической среде [3] где сейчас его внедряют в исследовательских репозиториях.

Ссылки:
[1] https://frictionlessdata.io
[2] https://frictionlessdata.io/standards/

#opendata #data #standards
Для рубрике "особо крупные наборы данных", в AWS Open Data свежий набор данных в 500ТБ моделирования атмосферы [1] созданный US National Center for Atmospheric Research в партнерстве с IBS Center for Climate Physics in South Korea. Это данные симуляций сценариев CMIP6 и SSP370 изменения климата [2]. К набору данных есть более подробное описание [3] и, конечно, не стоит пытаться работать с ним в домашних условиях - данные реально большого объёма под большие исследовательские задачи.

Ссылки:
[1] https://registry.opendata.aws/ncar-cesm2-lens/
[2] https://www.dkrz.de/en/communication/climate-simulations/cmip6-en/the-ssp-scenarios
[3] https://ncar.github.io/cesm2-le-aws/model_documentation.html

#climate #datasets #opendata #data
Пока в России обсуждают разные модели импортозамещения ПО, сервисов и так далее, во многих странах есть практика защиты национальных интересов вполне классическими методами сертификацией компаний. Например, в Австралии местное Digital Transformation Agency открыло сайт Hosting Certification Framework [1] как легко догадаться посвящённый сертификации облачных провайдеров, хостеров и датацентров для государственных нужд.

В целом очень простая и очевидная функция государства и, в данном случае, трансформационного органа власти.

Австралийская модель сертификации довольно простая и состоит из 3-х типов провайдеров:
- стратегические (strategic) - наибольший уровень доверия и защищённости
- подтверждённые (assured) - меньший уровень финансовой и инфраструктурной защиты
- несертифицированные (uncertified) - имеющие минимальную защиту, можно использовать только для незначимых данных

Все сертифицированные сейчас сервисы находятся на территории Австралии или имеют датацентры на территории Австралии. Среди них есть облачные провайдеры вроде Amazon и Microsoft, а также датацентры Fujitsu Australia и какое-то число исключительно местных компаний.

Сертификационная логика - самая понятна. В ней нет "надрыва" про импортозамещение, а достаточно четко формируемые требования к сервис провайдерам, корректируемые по мере необходимости. Аналогичная практика есть и в других странах, а Австралию я привожу только как пример такой практики.

Ссылки:
[1] https://www.hostingcertification.gov.au

#government #govtech #cerfitication #australia
Свежий инструмент по моделированию политики открытых данных от Global Integrity и Open Data Charter посвящён теме использования открытых данных при противодействии коррупции [1].

Противодействие коррупции - это наиболее очевидный ответ на вопрос "зачем нужны открытые государственные данные". Именно для борьбы с коррупцией, в первую очередь, открываются данные о госзакупках, бюджетах, деклараций чиновников и многое другое. Почти вся современная госполитика основана на том что общественный и государственный контроль, также, использует данные в своей работе.

В России публикация открытых данных в этой области всё ещё существенна и у нас в стране раскрываются закупки и их результаты, декларации чиновников, данные бюджетов. Но с каждым годом всё больше сигналов об ухудшении этого раскрытия.

Например:
- закрыты все ключевые сведения в реестре субсидий на портале Электронного бюджета, а российские антикоррупционные ведомства и структуры не высказали своей позиции по этому факту.
- скрыты сведения о победителях контрактов по закону 223-ФЗ о закупках госкомпаний и госучреждений
- в реестре юридических лиц более не раскрываются сведения о учредителях НКО

И таких фактов можно собрать много за последние несколько лет.

В то время как страны с гораздо меньшей открытостью изначально сейчас делают существенные шаги вперед.

Важно помнить что противодействие коррупции начинается с доступности данных, именно данные дают необходимые возможности и позволяют создавать инструменты для того что называют общественным контролем.

Ссылки:
[1] https://fightcorruption.opendatacharter.net/

#opendata #opengov #anticorruption
В рубрике больших наборов данных проект OpenCitations [1], один из проектов открытой научной инфраструктуры поддерживаемый SCOSS (The Global Sustainability Coalition for Open Science Services).

Open Citations - это открытая база данных научных цитат в виде API и дампов данных. В общей сложности в ней более 1.2 миллиардов научных цитат общим объёмом около 5.5ТБ. А сами данные публикуются по стандартам Sematic Web.

Проект доступен со всем исходным кодом [2].

Ссылки:
[1] http://opencitations.net/
[2] https://github.com/opencitations

#opendata #openscience #opensource
К вопросу об открытости кода созданного за счёт бюджетных средств, мне вспомнилась тема про Government Abandonware. Об этом ещё в 2015 году писал Borzhdar Bozhanov [1]. Government abandoware - это когда государство производит за бюджетные деньгие никому ненужный софт и потом, в лучшем случае его открывает, а в худшем это просто хранится где-то внутри органов власти. Такого abandonware очень много в Евросоюзе, много в других странах, даже в наиболее развитых экономически и это только если посмотреть на раскрытый исходный код. А если посмотреть на не открытый?

Реальная системная работа которую могло бы проделать Минцифры России, Росимущество и Минфин России - это провести тотальную инвентаризацию всего ПО разработанного на бюджетные деньги и понять какая его часть имеет хоть какое-либо реальное применение. Результаты будут такие что их сразу захочется засекретить. Да чего уж там, даже если провести такую инвентаризацию в любом отдельно взятом органе власти выяснится немало о том что есть используемые программы без кода и разработчиков и что ещё больше просто неработающего кода сданного на дисках/дискетах в незапамятные времена.

В любом случае я хочу ещё раз подчеркнуть что стратегия открытого кода в органах власти в мире совмещалась и совмещается со стратегиями открытой разработки. Возможности независимым разработчикам контрибьютить в код создаваемых госорганами. Как корпорации получающие выгоду от совместной разработки, так и органы власти.

Тем кому не нравятся примеры США и Великобритании приведу пример любимого в российском госуправлении Сингапура. В Сингапуре в основе открытости государства даже не данные, а именно открытый код [2] (хотя я лично, конечно, предпочёл бы данные).

Поэтому в основе стратегии открытости кода Минцифры и других органов власти лежит главная задача - волевое решение на раскрытие кода и открытую разработку, в первую очередь, внутренними командами министерства и других органов власти. Тут бессмысленно спрашивать ИТ отрасль надо это или нет или ждать чего-то одобрения. Бессмысленно не потому что в ИТ компаниях не знают что это такое и не умеют такое, а потому что это, в данном случае, внутреннее дело органов власти. А отрасли надо "помогать и не мешать" как выразился Максут Шадаев на последнем мероприятии Russia Open Source.

Ссылки:
[1] https://techblog.bozho.net/government-abandonware/
[2] https://github.com/opengovsg

#opensource #russia #policy #government
Подборка полезного чтения:
- обзор работы с ФИАС на Хабре - одна из крупных баз данных раскрываемых ФНС. Работать с ней непросто, статья полезная
- расследование о том как некоторые УЦ выдают подложные сертификаты и там же в канале у автора рекомендации как действовать если Вы с таким столкнулись
- группа по надзору за таксономиями (Taxonomy Oversight Group) появилась при агентстве по стандартизации данных в UK. В тексте подробности о том чем она занимается
- ведомственная стратегия работы с данными от HM Courts & Tribunal Service (Службы судов и трибунала) Великобритании. Хороший пример высокоуровневого документа

#opendata #privacy #texts #reading
Для тех кто интересуется контекстом возросшего внимания к открытому коду в России, могу порекомендовать полезное чтение в виде обзора группы MERICS (Mercator Institute for China Studies) от мая 2021 года. Там неплохой анализ того что сейчас происходит в Китае и про разницу в подходе с другими странами.

Ключевое - в Китае провели несколько исследований и, вообще, "разгонялись медленно" и очень чёткий акцент на замену конкретных продуктов на национальные аналоги (тоже с открытым кодом).

А также рекомендую почитать CAICT Open Source White Paper.

У Китая своя большая стратегия в итоге и её надо изучать и оценивать применимость к России.

#opensource #opengovernment #opengov #china
Полезная июльская статья о внутреннем устройстве архитектуры работы с данными LinkedIn [1] и свежая статья о том как как они перестраивают аналитические дашборды внутри [2]. И то, и то, читать весьма интересно. Почти весь стек данных у них основан на относительно ограниченном наборе данных, около 1400+ датасетов и команде в более чем 900+ человек. А всё построено поверх экосистемы Hadoop с множеством собственных надстроек, большая часть которых с открытым кодом. Меня зацепило что они отказываются от Avro и CSV в сторону формата Apache Orc [3], а не Parquet или других форматов. И конечно, в очередной раз убеждаюсь, что стэки данных больших дата проектов бывают очень сложными. В схемах LinkedIn также видно как они отказываются от проприетарного ПО в сторону своего и внешнего открытого кода.

Ссылки:
[1] https://engineering.linkedin.com/blog/2021/from-daily-dashboards-to-enterprise-grade-data-pipelines
[2] https://engineering.linkedin.com/blog/2021/evolving-linkedin-s-analytics-tech-stack
[3] https://orc.apache.org/

#dataarchitecture #data #datastack #linkedin