Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Европейская комиссия утвердила решение о использовании открытых лицензии для публикации программного обеспечения разработанного на средства Европейского союза [1], в тексте решения можно обратить внимание на четкое определение и рекомендации относительно copyleft и permissive licenses. При этом решение о выборе лицензии лежит на агенстве раскрывающем код, по умолчанию - это EUPL (European Union Permissive License), но разрешены и другие варианты, какие - оговорено в решении Еврокомиссии.

Я же хочу обратить внимание что до принятие решения о европейская комиссия заказала исследование Open Source Study (полное название - The impact of open source software and hardware on technological independence, competitiveness and innovation in the EU economy) [3] проведенное Fraunhofer ISI и OpenForum Europe в 2019-2021 годах, финальный отчет был опубликован 6 сентября 2021 года.

Это большой документ, на 390 страниц, с подробным разбором того почему, как и зачем нужен открытый код, какие бизнес модели существуют, как устроено регулирование кода в странах ЕС, других странах и так далее. Полезное, детальное и взвешенное исследование с чёткими рекомендациями которые и были применены при принятии решения Еврокомиссией.

В России сейчас Минцифры России пытается активизировать работу над открытым кодом, что можно только приветствовать. Но что можно покритиковать - так отсутствие системных усилий в этой области. Без них шансы на успех невелики и всё может закончится как предыдущие попытки в этой области.

Системные усилия начинаются с аналогичного исследования, анализа экосистемы российского ПО с открытым кодом, регулирования в других странах, если и разработки отечественной лицензии, то с обоснованием её выбора, с разработки методики применения разных лицензией и многое другое. Европейский подход довольно медленный, но достаточно системный.

Ссылки:
[1] https://ec.europa.eu/commission/presscorner/detail/en/ip_21_6649
[2] https://ec.europa.eu/transparency/documents-register/detail?ref=C(2021)8759&lang=en
[3] https://digital-strategy.ec.europa.eu/en/library/study-about-impact-open-source-software-and-hardware-technological-independence-competitiveness-and

#opensource #openness #openlicenses
МИД России официально опубликовали мобильное приложение [1] для Андроид, после чего пользователи обнаружили что у мобильного приложения явно завышенные запросы на доступ к данным на телефоне [2]. В ответ реакция МИДа была в стиле "для тех кто в танке" [3]. Отвечать на внутреннюю критику в стиле как МИД общается с другими странами, это, конечно, так себе. Мотивации критиковать их конструктивно после этого куда меньше. Тем временем проверка их приложения в Exodus Privacy также показывает что перечень разрешений там запределен [4], а само приложение сливает данные Google через Google Crashlytics и Firebase. Так что нет, не катит.
Адекватной реакцией от МИД будет:
a) Извиниться
б) Свалить вину на разработчика

А суперадекватной было бы просто извиниться.

А надувать щёки можно и по другим поводам.

Ссылки:
[1] https://t.me/MariaVladimirovnaZakharova/1452
[1] https://t.me/chtede/39051
[3] https://t.me/MID_Russia/17827
[4] https://reports.exodus-privacy.eu.org/en/reports/223359/

#privacy #security #govapps #midrf
Почему в прошлой публикации я написал что МИД мог бы свалить всю вину на разработчиков приложения?

Во-первых потому что в большинстве госприложений запрашивается меньше небезопасных разрешений. Так приложение МИДа запрашивает их 8 штук, аналогичные запросы делают только несколько приложений Московского Пр-ва, мы делали исследование год назад где писали об этом [1], но там это было, как бы, хотя бы частично обосновано.

А во вторых, и в главных, важно знать как устроено приложение МИДа. Это не специализированное мобильное приложение вроде Госуслуг, Госключа или Активного гражданина или ещё много чего. Это контентное приложение построенное на материалах сайта МИДа РФ. А если конкретнее - это оболочка над браузером который обращается к сайту https://m.mid.ru/mid_mobapp/ скорее всего сделанное на движке 1С Битрикс мобильное приложение [2].

Так вот совершенно непонятно зачем мобильному приложению которое, по сути, просто надстройка над сайтом и без дополнительных функций нужны разрешения на доступ к камере или записи аудио. В приложении просто не предусмотрены задачи для которых эти разрешения применимы.

После углублённого анализа выяснилось следующее.

Это сложное xapk приложение с набором вложенных apk файлов под разные языки и базовым приложением ru.mid.app.apk внутри этого xapk. В AndroidManifest.xml общего приложения затребуются максимум разрешений, а внутри ru.mid.app.apk их нет вообще. Поэтому при проверке по приложению указано то что при установке не затребуются. В итоге всё сводится к тому что:
1) Разработчики ошиблись в структуре манифеста затребующего разрешения, но именно разрешения из этого манифеста указываются в Google Apps и они используются всеми сервисами и инструментами анализа Android приложений.
2) МИД РФ не в курсе что по факту разрешения приложению не нужны, и начал оправдывать их запрос. Реакция МИДа была не вполне нормальной.
3) По факту приложение не может собирать аудио, подключаться к камере и тд. поскольку это приложение надстройка над мобильным сайтом МИДа, см. выше

В который раз, не масонская ложа, а великая лажа (с). Ну, ошибки разработчиков - это лучше чем заговор, но выглядит всё это вопиюще глупо.

Ссылки:
[1] https://privacygosmobapps.infoculture.ru/
[2] https://www.1c-bitrix.ru/products/mobile/

#privacy #security #android
Технологические гиганты могут получить обязательство делиться данными с исследователями [1] . Новость, в каком-то смысле, прорывная и этот сценарий вполне реалистичен. В США рассматривают Platform Accountability and Transparency Act [2]. В этом акте много разного неприятного "счастья" для технологический компаний. Например, защита тех кто сообщает о грубых нарушениях платформами требований о защите прав потребителей/пользователей, разработка NIST (Национальный институт стандартов и технологий США) "добровольного стандарта" по обмену данными с исследователями и ещё много чего.

Ссылки:
[1] https://thehill.com/policy/technology/585069-senators-unveil-bipartisan-unveil-bill-requiring-social-media-giants-to
[2] https://www.congress.gov/bill/117th-congress/senate-bill/797/text

#bigtech #regulation
Я таки дописал в рассылку лонгрид про открытый исходный код в России [1] отразив то как я вижу всё это со стороны. Чем-то мне происходящее напоминает "движуху" про открытые данные около 10 лет назад, но с той оговоркой что риторика защитников режима "осаждённой" крепости усилилась.

Ссылки:
[1] https://begtin.substack.com/p/20

#opensource #opengov
Для тех кто изучает практики обмена данными я напомню про такой инструмент/экосистему как Frictionless Data [1]. Это проект Open Knowledge Foundation по стандартизации обмена данными, в первую очередь табличными.

Проект большой и, что самое главное, начавшийся со стандартов [2] и постепенно, неспешно, охватывающий разные области применения. Особенно в научной-академической среде [3] где сейчас его внедряют в исследовательских репозиториях.

Ссылки:
[1] https://frictionlessdata.io
[2] https://frictionlessdata.io/standards/

#opendata #data #standards
Для рубрике "особо крупные наборы данных", в AWS Open Data свежий набор данных в 500ТБ моделирования атмосферы [1] созданный US National Center for Atmospheric Research в партнерстве с IBS Center for Climate Physics in South Korea. Это данные симуляций сценариев CMIP6 и SSP370 изменения климата [2]. К набору данных есть более подробное описание [3] и, конечно, не стоит пытаться работать с ним в домашних условиях - данные реально большого объёма под большие исследовательские задачи.

Ссылки:
[1] https://registry.opendata.aws/ncar-cesm2-lens/
[2] https://www.dkrz.de/en/communication/climate-simulations/cmip6-en/the-ssp-scenarios
[3] https://ncar.github.io/cesm2-le-aws/model_documentation.html

#climate #datasets #opendata #data
Пока в России обсуждают разные модели импортозамещения ПО, сервисов и так далее, во многих странах есть практика защиты национальных интересов вполне классическими методами сертификацией компаний. Например, в Австралии местное Digital Transformation Agency открыло сайт Hosting Certification Framework [1] как легко догадаться посвящённый сертификации облачных провайдеров, хостеров и датацентров для государственных нужд.

В целом очень простая и очевидная функция государства и, в данном случае, трансформационного органа власти.

Австралийская модель сертификации довольно простая и состоит из 3-х типов провайдеров:
- стратегические (strategic) - наибольший уровень доверия и защищённости
- подтверждённые (assured) - меньший уровень финансовой и инфраструктурной защиты
- несертифицированные (uncertified) - имеющие минимальную защиту, можно использовать только для незначимых данных

Все сертифицированные сейчас сервисы находятся на территории Австралии или имеют датацентры на территории Австралии. Среди них есть облачные провайдеры вроде Amazon и Microsoft, а также датацентры Fujitsu Australia и какое-то число исключительно местных компаний.

Сертификационная логика - самая понятна. В ней нет "надрыва" про импортозамещение, а достаточно четко формируемые требования к сервис провайдерам, корректируемые по мере необходимости. Аналогичная практика есть и в других странах, а Австралию я привожу только как пример такой практики.

Ссылки:
[1] https://www.hostingcertification.gov.au

#government #govtech #cerfitication #australia
Свежий инструмент по моделированию политики открытых данных от Global Integrity и Open Data Charter посвящён теме использования открытых данных при противодействии коррупции [1].

Противодействие коррупции - это наиболее очевидный ответ на вопрос "зачем нужны открытые государственные данные". Именно для борьбы с коррупцией, в первую очередь, открываются данные о госзакупках, бюджетах, деклараций чиновников и многое другое. Почти вся современная госполитика основана на том что общественный и государственный контроль, также, использует данные в своей работе.

В России публикация открытых данных в этой области всё ещё существенна и у нас в стране раскрываются закупки и их результаты, декларации чиновников, данные бюджетов. Но с каждым годом всё больше сигналов об ухудшении этого раскрытия.

Например:
- закрыты все ключевые сведения в реестре субсидий на портале Электронного бюджета, а российские антикоррупционные ведомства и структуры не высказали своей позиции по этому факту.
- скрыты сведения о победителях контрактов по закону 223-ФЗ о закупках госкомпаний и госучреждений
- в реестре юридических лиц более не раскрываются сведения о учредителях НКО

И таких фактов можно собрать много за последние несколько лет.

В то время как страны с гораздо меньшей открытостью изначально сейчас делают существенные шаги вперед.

Важно помнить что противодействие коррупции начинается с доступности данных, именно данные дают необходимые возможности и позволяют создавать инструменты для того что называют общественным контролем.

Ссылки:
[1] https://fightcorruption.opendatacharter.net/

#opendata #opengov #anticorruption
В рубрике больших наборов данных проект OpenCitations [1], один из проектов открытой научной инфраструктуры поддерживаемый SCOSS (The Global Sustainability Coalition for Open Science Services).

Open Citations - это открытая база данных научных цитат в виде API и дампов данных. В общей сложности в ней более 1.2 миллиардов научных цитат общим объёмом около 5.5ТБ. А сами данные публикуются по стандартам Sematic Web.

Проект доступен со всем исходным кодом [2].

Ссылки:
[1] http://opencitations.net/
[2] https://github.com/opencitations

#opendata #openscience #opensource
К вопросу об открытости кода созданного за счёт бюджетных средств, мне вспомнилась тема про Government Abandonware. Об этом ещё в 2015 году писал Borzhdar Bozhanov [1]. Government abandoware - это когда государство производит за бюджетные деньгие никому ненужный софт и потом, в лучшем случае его открывает, а в худшем это просто хранится где-то внутри органов власти. Такого abandonware очень много в Евросоюзе, много в других странах, даже в наиболее развитых экономически и это только если посмотреть на раскрытый исходный код. А если посмотреть на не открытый?

Реальная системная работа которую могло бы проделать Минцифры России, Росимущество и Минфин России - это провести тотальную инвентаризацию всего ПО разработанного на бюджетные деньги и понять какая его часть имеет хоть какое-либо реальное применение. Результаты будут такие что их сразу захочется засекретить. Да чего уж там, даже если провести такую инвентаризацию в любом отдельно взятом органе власти выяснится немало о том что есть используемые программы без кода и разработчиков и что ещё больше просто неработающего кода сданного на дисках/дискетах в незапамятные времена.

В любом случае я хочу ещё раз подчеркнуть что стратегия открытого кода в органах власти в мире совмещалась и совмещается со стратегиями открытой разработки. Возможности независимым разработчикам контрибьютить в код создаваемых госорганами. Как корпорации получающие выгоду от совместной разработки, так и органы власти.

Тем кому не нравятся примеры США и Великобритании приведу пример любимого в российском госуправлении Сингапура. В Сингапуре в основе открытости государства даже не данные, а именно открытый код [2] (хотя я лично, конечно, предпочёл бы данные).

Поэтому в основе стратегии открытости кода Минцифры и других органов власти лежит главная задача - волевое решение на раскрытие кода и открытую разработку, в первую очередь, внутренними командами министерства и других органов власти. Тут бессмысленно спрашивать ИТ отрасль надо это или нет или ждать чего-то одобрения. Бессмысленно не потому что в ИТ компаниях не знают что это такое и не умеют такое, а потому что это, в данном случае, внутреннее дело органов власти. А отрасли надо "помогать и не мешать" как выразился Максут Шадаев на последнем мероприятии Russia Open Source.

Ссылки:
[1] https://techblog.bozho.net/government-abandonware/
[2] https://github.com/opengovsg

#opensource #russia #policy #government
Подборка полезного чтения:
- обзор работы с ФИАС на Хабре - одна из крупных баз данных раскрываемых ФНС. Работать с ней непросто, статья полезная
- расследование о том как некоторые УЦ выдают подложные сертификаты и там же в канале у автора рекомендации как действовать если Вы с таким столкнулись
- группа по надзору за таксономиями (Taxonomy Oversight Group) появилась при агентстве по стандартизации данных в UK. В тексте подробности о том чем она занимается
- ведомственная стратегия работы с данными от HM Courts & Tribunal Service (Службы судов и трибунала) Великобритании. Хороший пример высокоуровневого документа

#opendata #privacy #texts #reading
Для тех кто интересуется контекстом возросшего внимания к открытому коду в России, могу порекомендовать полезное чтение в виде обзора группы MERICS (Mercator Institute for China Studies) от мая 2021 года. Там неплохой анализ того что сейчас происходит в Китае и про разницу в подходе с другими странами.

Ключевое - в Китае провели несколько исследований и, вообще, "разгонялись медленно" и очень чёткий акцент на замену конкретных продуктов на национальные аналоги (тоже с открытым кодом).

А также рекомендую почитать CAICT Open Source White Paper.

У Китая своя большая стратегия в итоге и её надо изучать и оценивать применимость к России.

#opensource #opengovernment #opengov #china
Полезная июльская статья о внутреннем устройстве архитектуры работы с данными LinkedIn [1] и свежая статья о том как как они перестраивают аналитические дашборды внутри [2]. И то, и то, читать весьма интересно. Почти весь стек данных у них основан на относительно ограниченном наборе данных, около 1400+ датасетов и команде в более чем 900+ человек. А всё построено поверх экосистемы Hadoop с множеством собственных надстроек, большая часть которых с открытым кодом. Меня зацепило что они отказываются от Avro и CSV в сторону формата Apache Orc [3], а не Parquet или других форматов. И конечно, в очередной раз убеждаюсь, что стэки данных больших дата проектов бывают очень сложными. В схемах LinkedIn также видно как они отказываются от проприетарного ПО в сторону своего и внешнего открытого кода.

Ссылки:
[1] https://engineering.linkedin.com/blog/2021/from-daily-dashboards-to-enterprise-grade-data-pipelines
[2] https://engineering.linkedin.com/blog/2021/evolving-linkedin-s-analytics-tech-stack
[3] https://orc.apache.org/

#dataarchitecture #data #datastack #linkedin
Для тех кто считает что открытые государственные данные - это атрибут исключительно развитых демократических стран и развивающихся стран которым развитые оказывают поддержку, могу сказать что это совершенно не так.

В качестве примера портал открытых данных Саудовской Аравии [1], а также методический раздел на государственном сайте страны [2].

В Саудовской Аравии опубликовано в открытом доступе 6000+ наборов данных, а также предоставляются API, в том числе, предоставляющие данные в реальном времени.

Кроме Саудовской Аравии порталы открытых данных есть в таких не-демократических странах как Оман, ОАЭ, Бахрейн, Китай и множестве других. Потому что открытость данных - это характеристика _действующего_ государства, они необходимы как часть коммуникации с бизнесом и с критически мыслящими гражданами, в том числе, для демонстрации того что чиновникам нечего от них скрывать.

Ссылки:
[1] https://data.gov.sa/en/home
[2] https://www.my.gov.sa/wps/portal/snp/eParticipation/openData#header2_6

#opendata #democracy
Крупное публичное акционерное общество чьи акции торгуются на ММВБ и с немалой капитализацией, которое я называть не буду, публикует паспортные данные членов совета директоров в отчетных материалах общих собраний акционеров на своём сайте для инвесторов.

Почему они это делают? Потому что не вычищают их из итоговых документов согласий кандидатов в советы директоров. А там для россиян указаны паспорта, для иностранцев ничего такого нет.

Почему об этом мало кто знает? Потому что файлы выкладывают в виде сканов в PDF внутри ZIP архивов.

А Вы думаете как находят личные данные уважаемых людей? Вот так и находят.

Причиной этого всего является абсолютно идиотская российская юридическая практика вписывать паспортные данные в любой юридически значимый подписываемый документ.

#privacy #personaldata
Тим Дэвис, консультант Open Data Institute, и довольно хорошо известный эксперт в открытых данных опубликовал серию заметок о порталах (открытых) данных [1]. Тем кто хочет разбираться в этой теме - всячески рекомендую, он описывает если не все, то многие аспекты их работы.

Он упоминает многие продукты в каталогов такие как CKAN, DKAN, OpenDataSoft, Jupyter, Socrata, Knoema и ещё немало. А также многие исследования порталов открытых данных, например, за время COVID-19, то как на них публиковались данные о коронавирусе. Это, кстати, лучшая метрика понимания насколько живой/мертвый портал данных у страны/территории. Если данные о коронавирусе публикуются - то точно живой, а если нет, то есть сомнения.

Чего в заметках нет или мало - это обзора открытости данных в контексте открытости науки и цифровых научных репозиториев данных и того какие инновации происходят сейчас в экосистеме продуктов относящихся к Modern Data Stack (data engineering, data science) и тд.

А я напомню что каталогов данных в мире много. Есть несколько каталогов каталогов данных, их перечней. Самый большой и не очень точный - opendatainception.io [2] от Open Data Soft. Там более 2600 источников, но некоторые из них не каталоги, а просто разделы на сайтах с минимум данных. Значительно меньше datacatalogs.org [3] от Open Knowledge Foundation, там 592 каталога данных.

А также напомню про каталог данных Инфокультуры datacatalogs.ru [4] где собрано около 250 каталогов и репозиториев данных в России и о России.

Ссылки:
[1] https://dataportals.pubpub.org
[2] https://opendatainception.io
[3] http://datacatalogs.org
[4] https://www.datacatalogs.ru

#opendata #datacatalogs
Forwarded from Инфокультура
В каталог каталогов открытых данных добавлен репозиторий открытых данных по русской литературе и фольклору Института русской литературы (Пушкинский дом) РАН.

В общей сложности каталог включает 255 каталогов данных, преимущественно открытых и общедоступных данных.

Если Вы знаете источник данных который отсутствует в каталоге присылайте его нам на infoculture@infoculture.ru или через форму добавления на сайте.
Cogram [1] ассистент программирования для задач машинного обучения. Интегрируется с Python и помогает в работе с SQL. Переводит тексты на ясном английском языке в программные директивы.

Выглядит недорого, $29 в месяц за профессиональную версию и бесплатно для личного пользования. А перспективы хорошие. Так и хочется сказать что первое что делают разработчики и инженеры инструментов на базе ИИ - это лишать работы других разработчиков и инженеров ИИ;)

Ссылки:
[1] https://www.cogram.com

#machinelerning #datascience