Ivan Begtin

Для тех кто интересуется что там с открытыми данными "у них" свежий доклад Open Data Maturity 2021 [1] Европейского союза. Хорошая сравнительная аналитика госполитик, технологий и влияния на цифровые рынки в Евросоюзе.

В лидерах Франция и Ирландия, на последнем месте Грузия и Словакия.

Да, в рейтинге есть Грузия и Украина как кандидаты в ЕС, видимо.

В целом достаточно зрелая методика оценки, правильные акценты на регулировании и экономическом эффекте. По российским регионам такое можно было бы сделать, но нормативных полномочий у них маловато.

Что характерно - нет никаких количественных оценок числа опубликованных наборов данных и их объёма в терабайтах. А почему? А потому что это слишком легко поддаётся манипуляции.

Исследование полезное, рекомендую всем кто интересуется развитием открытости данных.

Ссылки:
[1] https://data.europa.eu/en/dashboard/2021

#opendata #europe #analytics

1.5K viewsIvan Begtin, 15:14

Ivan Begtin

В The Markup статья о том как сервисы предупреждения и предсказания преступлений предубеждены против не-белого населения в США [1]. При этом есть объективная проблема реальной зависимости криминальной обстановки от этнического состава территорий и искажения алгоритмов по причине зависимости их от сведений о наблюдаемой преступности.

Поэтому анализ интересный, но объективная ситуация в том простых решений тут нет. Многие алгоритмы оперируют характеристиками привязанными к человеку с рождения и отказ от них может привести лишь к ухудшению их работы, а использование к цифррвым гетто.

Ссылки:
[1] https://themarkup.org/prediction-bias/2021/12/02/crime-prediction-software-promised-to-be-free-of-biases-new-data-shows-it-perpetuates-them

#ai #precrime

themarkup.org

Crime Prediction Software Promised to Be Free of Biases. New Data Shows It Perpetuates Them – The Markup

Millions of crime predictions left on an unsecured server show PredPol mostly avoided Whiter neighborhoods, targeted Black and Latino neighborhoods

1.5K viewsIvan Begtin, 11:21

Ivan Begtin

И с той поры я всё никак не соберусь опубликовать обновление того исследования. Сложно писать про такие утечки данных не нанеся вреда тем чьи данные публикуются

1.3K viewsIvan Begtin, 18:17

Ivan Begtin

Forwarded from Об ЭП и УЦ

2,5 года назад Иван Бегтин опубликовал статью, в которой провел анализ реестров УЦ и пояснял выявленные утечки персональных данных тем, что есть "требования приказа N436 Минкомсвязи России, которые требуют безвозмездного предоставления информации из реестра выданных сертификатов по запросу пользователей публикуя информацию о каждом выданном сертификате".

30.11.2021 был опубликован приказ Минцифры России № 1138, который с 01.03.2022 заменит 436 приказ. Приказ новый, только противоречивая норма, согласно которой "АУЦ обязан предоставлять безвозмездно любому лицу по его обращению сведения, содержащиеся в реестре квалифицированных сертификатов, в том числе информацию об аннулировании сертификата", осталась.
В части 3 ст. 15 63-ФЗ говорится, что АУЦ обязан обеспечить любому лицу безвозмездный доступ с использованием информационно-телекоммуникационных сетей, в том числе сети "Интернет", к реестру квалифицированных сертификатов этого аккредитованного удостоверяющего центра в любое время в течение срока деятельности этого удостоверяющего центра, если иное не установлено федеральными законами или принимаемыми в соответствии с ними нормативными правовыми актами.

Наш канал считает, что сведения в реестре сертификатов являются защищаемыми, и данную часть 63-ФЗ нужно рассматриваться в совокупности с требования федеральных законов № 152-ФЗ и 149-ФЗ, т.к. "иное" и установлено данными федеральными законами.

1.3K viewsIvan Begtin, 18:17

Ivan Begtin

Европейская комиссия утвердила решение о использовании открытых лицензии для публикации программного обеспечения разработанного на средства Европейского союза [1], в тексте решения можно обратить внимание на четкое определение и рекомендации относительно copyleft и permissive licenses. При этом решение о выборе лицензии лежит на агенстве раскрывающем код, по умолчанию - это EUPL (European Union Permissive License), но разрешены и другие варианты, какие - оговорено в решении Еврокомиссии.

Я же хочу обратить внимание что до принятие решения о европейская комиссия заказала исследование Open Source Study (полное название - The impact of open source software and hardware on technological independence, competitiveness and innovation in the EU economy) [3] проведенное Fraunhofer ISI и OpenForum Europe в 2019-2021 годах, финальный отчет был опубликован 6 сентября 2021 года.

Это большой документ, на 390 страниц, с подробным разбором того почему, как и зачем нужен открытый код, какие бизнес модели существуют, как устроено регулирование кода в странах ЕС, других странах и так далее. Полезное, детальное и взвешенное исследование с чёткими рекомендациями которые и были применены при принятии решения Еврокомиссией.

В России сейчас Минцифры России пытается активизировать работу над открытым кодом, что можно только приветствовать. Но что можно покритиковать - так отсутствие системных усилий в этой области. Без них шансы на успех невелики и всё может закончится как предыдущие попытки в этой области.

Системные усилия начинаются с аналогичного исследования, анализа экосистемы российского ПО с открытым кодом, регулирования в других странах, если и разработки отечественной лицензии, то с обоснованием её выбора, с разработки методики применения разных лицензией и многое другое. Европейский подход довольно медленный, но достаточно системный.

Ссылки:
[1] https://ec.europa.eu/commission/presscorner/detail/en/ip_21_6649
[2] https://ec.europa.eu/transparency/documents-register/detail?ref=C(2021)8759&lang=en
[3] https://digital-strategy.ec.europa.eu/en/library/study-about-impact-open-source-software-and-hardware-technological-independence-competitiveness-and

#opensource #openness #openlicenses

European Commission - European Commission

Press corner

Highlights, press releases and speeches

1.6K viewsIvan Begtin, 07:11

Ivan Begtin

МИД России официально опубликовали мобильное приложение [1] для Андроид, после чего пользователи обнаружили что у мобильного приложения явно завышенные запросы на доступ к данным на телефоне [2]. В ответ реакция МИДа была в стиле "для тех кто в танке" [3]. Отвечать на внутреннюю критику в стиле как МИД общается с другими странами, это, конечно, так себе. Мотивации критиковать их конструктивно после этого куда меньше. Тем временем проверка их приложения в Exodus Privacy также показывает что перечень разрешений там запределен [4], а само приложение сливает данные Google через Google Crashlytics и Firebase. Так что нет, не катит.
Адекватной реакцией от МИД будет:
a) Извиниться
б) Свалить вину на разработчика

А суперадекватной было бы просто извиниться.

А надувать щёки можно и по другим поводам.

Ссылки:
[1] https://t.me/MariaVladimirovnaZakharova/1452
[1] https://t.me/chtede/39051
[3] https://t.me/MID_Russia/17827
[4] https://reports.exodus-privacy.eu.org/en/reports/223359/

#privacy #security #govapps #midrf

1.5K viewsIvan Begtin, 08:33

Ivan Begtin

Почему в прошлой публикации я написал что МИД мог бы свалить всю вину на разработчиков приложения?

Во-первых потому что в большинстве госприложений запрашивается меньше небезопасных разрешений. Так приложение МИДа запрашивает их 8 штук, аналогичные запросы делают только несколько приложений Московского Пр-ва, мы делали исследование год назад где писали об этом [1], но там это было, как бы, хотя бы частично обосновано.

А во вторых, и в главных, важно знать как устроено приложение МИДа. Это не специализированное мобильное приложение вроде Госуслуг, Госключа или Активного гражданина или ещё много чего. Это контентное приложение построенное на материалах сайта МИДа РФ. А если конкретнее - это оболочка над браузером который обращается к сайту https://m.mid.ru/mid_mobapp/ скорее всего сделанное на движке 1С Битрикс мобильное приложение [2].

Так вот совершенно непонятно зачем мобильному приложению которое, по сути, просто надстройка над сайтом и без дополнительных функций нужны разрешения на доступ к камере или записи аудио. В приложении просто не предусмотрены задачи для которых эти разрешения применимы.

После углублённого анализа выяснилось следующее.

Это сложное xapk приложение с набором вложенных apk файлов под разные языки и базовым приложением ru.mid.app.apk внутри этого xapk. В AndroidManifest.xml общего приложения затребуются максимум разрешений, а внутри ru.mid.app.apk их нет вообще. Поэтому при проверке по приложению указано то что при установке не затребуются. В итоге всё сводится к тому что:
1) Разработчики ошиблись в структуре манифеста затребующего разрешения, но именно разрешения из этого манифеста указываются в Google Apps и они используются всеми сервисами и инструментами анализа Android приложений.
2) МИД РФ не в курсе что по факту разрешения приложению не нужны, и начал оправдывать их запрос. Реакция МИДа была не вполне нормальной.
3) По факту приложение не может собирать аудио, подключаться к камере и тд. поскольку это приложение надстройка над мобильным сайтом МИДа, см. выше

В который раз, не масонская ложа, а великая лажа (с). Ну, ошибки разработчиков - это лучше чем заговор, но выглядит всё это вопиюще глупо.

Ссылки:
[1] https://privacygosmobapps.infoculture.ru/
[2] https://www.1c-bitrix.ru/products/mobile/

#privacy #security #android

1.6K viewsIvan Begtin, 10:42

Ivan Begtin

Технологические гиганты могут получить обязательство делиться данными с исследователями [1] . Новость, в каком-то смысле, прорывная и этот сценарий вполне реалистичен. В США рассматривают Platform Accountability and Transparency Act [2]. В этом акте много разного неприятного "счастья" для технологический компаний. Например, защита тех кто сообщает о грубых нарушениях платформами требований о защите прав потребителей/пользователей, разработка NIST (Национальный институт стандартов и технологий США) "добровольного стандарта" по обмену данными с исследователями и ещё много чего.

Ссылки:
[1] https://thehill.com/policy/technology/585069-senators-unveil-bipartisan-unveil-bill-requiring-social-media-giants-to
[2] https://www.congress.gov/bill/117th-congress/senate-bill/797/text

#bigtech #regulation

TheHill

Senators unveil bipartisan bill requiring social media giants to open data to researchers

Meta and other social media companies would be required to share their data with outside researchers under a new bill announced by a bipartisan group of senators on Thursday.

1.5K viewsIvan Begtin, 16:47

Ivan Begtin

Я таки дописал в рассылку лонгрид про открытый исходный код в России [1] отразив то как я вижу всё это со стороны. Чем-то мне происходящее напоминает "движуху" про открытые данные около 10 лет назад, но с той оговоркой что риторика защитников режима "осаждённой" крепости усилилась.

Ссылки:
[1] https://begtin.substack.com/p/20

#opensource #opengov

Ivan’s Begtin Newsletter on digital, open and preserved government

#20. Открытый исходный код в России

При достаточном количестве глаз ошибки выплывают на поверхность (Эрик Стивен Реймонд)

1.6K viewsIvan Begtin, 11:17

Ivan Begtin

Для тех кто изучает практики обмена данными я напомню про такой инструмент/экосистему как Frictionless Data [1]. Это проект Open Knowledge Foundation по стандартизации обмена данными, в первую очередь табличными.

Проект большой и, что самое главное, начавшийся со стандартов [2] и постепенно, неспешно, охватывающий разные области применения. Особенно в научной-академической среде [3] где сейчас его внедряют в исследовательских репозиториях.

Ссылки:
[1] https://frictionlessdata.io
[2] https://frictionlessdata.io/standards/

#opendata #data #standards

Frictionless Data

Data software and standards

1.4K viewsIvan Begtin, 14:09

Ivan Begtin

Для рубрике "особо крупные наборы данных", в AWS Open Data свежий набор данных в 500ТБ моделирования атмосферы [1] созданный US National Center for Atmospheric Research в партнерстве с IBS Center for Climate Physics in South Korea. Это данные симуляций сценариев CMIP6 и SSP370 изменения климата [2]. К набору данных есть более подробное описание [3] и, конечно, не стоит пытаться работать с ним в домашних условиях - данные реально большого объёма под большие исследовательские задачи.

Ссылки:
[1] https://registry.opendata.aws/ncar-cesm2-lens/
[2] https://www.dkrz.de/en/communication/climate-simulations/cmip6-en/the-ssp-scenarios
[3] https://ncar.github.io/cesm2-le-aws/model_documentation.html

#climate #datasets #opendata #data

DKRZ

The SSP Scenarios

A new set of climate scenarios has been developed with respect to the sixth IPCC report (IPCC AR6), the "Shared Socioeconomic Pathways" (SSPs). Compared to the previously used RCPs, the new SSP scenarios have been improved in a variety of ways.

1.4K viewsIvan Begtin, 14:17

Ivan Begtin

Пока в России обсуждают разные модели импортозамещения ПО, сервисов и так далее, во многих странах есть практика защиты национальных интересов вполне классическими методами сертификацией компаний. Например, в Австралии местное Digital Transformation Agency открыло сайт Hosting Certification Framework [1] как легко догадаться посвящённый сертификации облачных провайдеров, хостеров и датацентров для государственных нужд.

В целом очень простая и очевидная функция государства и, в данном случае, трансформационного органа власти.

Австралийская модель сертификации довольно простая и состоит из 3-х типов провайдеров:
- стратегические (strategic) - наибольший уровень доверия и защищённости
- подтверждённые (assured) - меньший уровень финансовой и инфраструктурной защиты
- несертифицированные (uncertified) - имеющие минимальную защиту, можно использовать только для незначимых данных

Все сертифицированные сейчас сервисы находятся на территории Австралии или имеют датацентры на территории Австралии. Среди них есть облачные провайдеры вроде Amazon и Microsoft, а также датацентры Fujitsu Australia и какое-то число исключительно местных компаний.

Сертификационная логика - самая понятна. В ней нет "надрыва" про импортозамещение, а достаточно четко формируемые требования к сервис провайдерам, корректируемые по мере необходимости. Аналогичная практика есть и в других странах, а Австралию я привожу только как пример такой практики.

Ссылки:
[1] https://www.hostingcertification.gov.au

#government #govtech #cerfitication #australia

2.1K viewsIvan Begtin, 20:57

Ivan Begtin

Свежий инструмент по моделированию политики открытых данных от Global Integrity и Open Data Charter посвящён теме использования открытых данных при противодействии коррупции [1].

Противодействие коррупции - это наиболее очевидный ответ на вопрос "зачем нужны открытые государственные данные". Именно для борьбы с коррупцией, в первую очередь, открываются данные о госзакупках, бюджетах, деклараций чиновников и многое другое. Почти вся современная госполитика основана на том что общественный и государственный контроль, также, использует данные в своей работе.

В России публикация открытых данных в этой области всё ещё существенна и у нас в стране раскрываются закупки и их результаты, декларации чиновников, данные бюджетов. Но с каждым годом всё больше сигналов об ухудшении этого раскрытия.

Например:
- закрыты все ключевые сведения в реестре субсидий на портале Электронного бюджета, а российские антикоррупционные ведомства и структуры не высказали своей позиции по этому факту.
- скрыты сведения о победителях контрактов по закону 223-ФЗ о закупках госкомпаний и госучреждений
- в реестре юридических лиц более не раскрываются сведения о учредителях НКО

И таких фактов можно собрать много за последние несколько лет.

В то время как страны с гораздо меньшей открытостью изначально сейчас делают существенные шаги вперед.

Важно помнить что противодействие коррупции начинается с доступности данных, именно данные дают необходимые возможности и позволяют создавать инструменты для того что называют общественным контролем.

Ссылки:
[1] https://fightcorruption.opendatacharter.net/

#opendata #opengov #anticorruption

fightcorruption.opendatacharter.net

Open Data Anti Corruption

Anticorruption Open Data

1.9K viewsIvan Begtin, edited 05:15

Ivan Begtin

В рубрике больших наборов данных проект OpenCitations [1], один из проектов открытой научной инфраструктуры поддерживаемый SCOSS (The Global Sustainability Coalition for Open Science Services).

Open Citations - это открытая база данных научных цитат в виде API и дампов данных. В общей сложности в ней более 1.2 миллиардов научных цитат общим объёмом около 5.5ТБ. А сами данные публикуются по стандартам Sematic Web.

Проект доступен со всем исходным кодом [2].

Ссылки:
[1] http://opencitations.net/
[2] https://github.com/opencitations

#opendata #openscience #opensource

GitHub

OpenCitations

OpenCitations is an independent infrastructure organization for open scholarship dedicated to the publication of open bibliographic and citation data. - OpenCitations

1.2K viewsIvan Begtin, 06:07

Ivan Begtin

К вопросу об открытости кода созданного за счёт бюджетных средств, мне вспомнилась тема про Government Abandonware. Об этом ещё в 2015 году писал Borzhdar Bozhanov [1]. Government abandoware - это когда государство производит за бюджетные деньгие никому ненужный софт и потом, в лучшем случае его открывает, а в худшем это просто хранится где-то внутри органов власти. Такого abandonware очень много в Евросоюзе, много в других странах, даже в наиболее развитых экономически и это только если посмотреть на раскрытый исходный код. А если посмотреть на не открытый?

Реальная системная работа которую могло бы проделать Минцифры России, Росимущество и Минфин России - это провести тотальную инвентаризацию всего ПО разработанного на бюджетные деньги и понять какая его часть имеет хоть какое-либо реальное применение. Результаты будут такие что их сразу захочется засекретить. Да чего уж там, даже если провести такую инвентаризацию в любом отдельно взятом органе власти выяснится немало о том что есть используемые программы без кода и разработчиков и что ещё больше просто неработающего кода сданного на дисках/дискетах в незапамятные времена.

В любом случае я хочу ещё раз подчеркнуть что стратегия открытого кода в органах власти в мире совмещалась и совмещается со стратегиями открытой разработки. Возможности независимым разработчикам контрибьютить в код создаваемых госорганами. Как корпорации получающие выгоду от совместной разработки, так и органы власти.

Тем кому не нравятся примеры США и Великобритании приведу пример любимого в российском госуправлении Сингапура. В Сингапуре в основе открытости государства даже не данные, а именно открытый код [2] (хотя я лично, конечно, предпочёл бы данные).

Поэтому в основе стратегии открытости кода Минцифры и других органов власти лежит главная задача - волевое решение на раскрытие кода и открытую разработку, в первую очередь, внутренними командами министерства и других органов власти. Тут бессмысленно спрашивать ИТ отрасль надо это или нет или ждать чего-то одобрения. Бессмысленно не потому что в ИТ компаниях не знают что это такое и не умеют такое, а потому что это, в данном случае, внутреннее дело органов власти. А отрасли надо "помогать и не мешать" как выразился Максут Шадаев на последнем мероприятии Russia Open Source.

Ссылки:
[1] https://techblog.bozho.net/government-abandonware/
[2] https://github.com/opengovsg

#opensource #russia #policy #government

Bozho's tech blog

Government Abandonware - Bozho's tech blog

Governments order software for their allegedly very specific needs. And the EU government (The European Commission) orders “visionary” software that will supposedly one day be used by many member statesContinue reading

1.2K viewsIvan Begtin, 07:39

Ivan Begtin

Подборка полезного чтения:
- обзор работы с ФИАС на Хабре - одна из крупных баз данных раскрываемых ФНС. Работать с ней непросто, статья полезная
- расследование о том как некоторые УЦ выдают подложные сертификаты и там же в канале у автора рекомендации как действовать если Вы с таким столкнулись
- группа по надзору за таксономиями (Taxonomy Oversight Group) появилась при агентстве по стандартизации данных в UK. В тексте подробности о том чем она занимается
- ведомственная стратегия работы с данными от HM Courts & Tribunal Service (Службы судов и трибунала) Великобритании. Хороший пример высокоуровневого документа

#opendata #privacy #texts #reading

Хабр

Парсим ГАР БД ФИАС в удобный формат в питоне. Бесплатно, без регистрации и СМС

Если вам зачем-то понадобилась полная адресная база России, то самый простой и дешевый способ ее заполучить — это скачать на сайте налоговой . Да, вот так вот просто все. Ну почти. Да, это полная...

1.3K viewsIvan Begtin, 09:13

Ivan Begtin

Для тех кто интересуется контекстом возросшего внимания к открытому коду в России, могу порекомендовать полезное чтение в виде обзора группы MERICS (Mercator Institute for China Studies) от мая 2021 года. Там неплохой анализ того что сейчас происходит в Китае и про разницу в подходе с другими странами.

Ключевое - в Китае провели несколько исследований и, вообще, "разгонялись медленно" и очень чёткий акцент на замену конкретных продуктов на национальные аналоги (тоже с открытым кодом).

А также рекомендую почитать CAICT Open Source White Paper.

У Китая своя большая стратегия в итоге и её надо изучать и оценивать применимость к России.

#opensource #opengovernment #opengov #china

1.2K viewsIvan Begtin, 09:39

Ivan Begtin

Полезная июльская статья о внутреннем устройстве архитектуры работы с данными LinkedIn [1] и свежая статья о том как как они перестраивают аналитические дашборды внутри [2]. И то, и то, читать весьма интересно. Почти весь стек данных у них основан на относительно ограниченном наборе данных, около 1400+ датасетов и команде в более чем 900+ человек. А всё построено поверх экосистемы Hadoop с множеством собственных надстроек, большая часть которых с открытым кодом. Меня зацепило что они отказываются от Avro и CSV в сторону формата Apache Orc [3], а не Parquet или других форматов. И конечно, в очередной раз убеждаюсь, что стэки данных больших дата проектов бывают очень сложными. В схемах LinkedIn также видно как они отказываются от проприетарного ПО в сторону своего и внешнего открытого кода.

Ссылки:
[1] https://engineering.linkedin.com/blog/2021/from-daily-dashboards-to-enterprise-grade-data-pipelines
[2] https://engineering.linkedin.com/blog/2021/evolving-linkedin-s-analytics-tech-stack
[3] https://orc.apache.org/

#dataarchitecture #data #datastack #linkedin

From daily dashboards to enterprise grade data pipelines

Within a matter of hours of each day beginning, we ingest tens of billions of records from online sources to HDFS, aggregated across 50+ offline data flows, and visualize 40+ metrics across our business lines to support a dashboard providing company leaders…

1.3K viewsIvan Begtin, 11:39

About

Blog

Apps

Platform