Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Для тех кто интересуется и впервые подписался на мой блог, я напомню о прошлых докладах и публикациях:
- Ежегодные доклады по открытости государства (совместно со Счетной палатой) и доклад по открытости ГИС
- Работа с открытыми данными: особенности публикации и использования в российском правовом поле
- Утечки персональных данных из государственных информационных систем (я публиковал его от себя лично в 2018 году, поскольку он был даже скорее про безопасность чем про приватность)
- Использование электронной почты в государственной инфраструктуре РФ

На самом деле их было куда больше, какие-то "пласты" моей жизни были посвящены тематике госзакупок и ещё в 2009 году я вскрывал и публиковал истории связанные именно с ними, далее было несколько проектов когда наша команда анализировала госсайты органов власти, это было около 2010 года.

Доклады - это большая и трудоёмкая работа, иногда удаётся её сделать быстро и дешево, например, доклад про утечки персональных данных из ГИС я лично готовил ещё в 2018 году и передавал чиновникам в Минцифре, Роскомнадзора и Генпрокуратуры, но эффект у него возник только после того как передал журналистам. Да, даже передача прокурорам не работает (а я тогда был председателем экспертного совета по цифре при Генпрокуратуре).

С другими документами та же история. Обратная связь от госорганов возникает только от докладов Счетной палаты, но она идет уже в режиме "Вы нам скажите как правильно и мы сделаем". И, наконец, самое "тяжёлое" ведомство это ДИТ Москвы. Содержательной реакции от них нет практически никогда.

В последнем докладе про 44 государственных мобильных приложения у нас многое не отражено. Чтобы провести тщательный анализ надо делать тестовую лабораторию, перехватывать все запросы приложений к сайтам, отслеживать каждый IP адрес и домен, идентифицировать какие из них каким компаниям, подсетям и юрисдикциям относятся, декомпилировать Java код приложений (предварительно проговорив такую юридическую возможность), провести интервью с разработчиками и тд. Это добавило бы/добавит гораздо больше содержания. Но проблема в том что на реакцию российских органов власти это _не влияет_ и это системная проблема. Работают только "медиадубинка" и "дубинка госконтроля/госаудита", позитивная мотивация не проглядывается. Хотя и с большим удовольствием хотелось бы исследовать и писать о хорошем - том какие замечательные кейсы использования открытых данных существуют и тому подобное.

Я вскоре напишу об этой проблеме лонгрид в begtin.substack.com и попробую поразмышлять о том как подобное преодолевать, подписывайтесь.

#opendata #research #reports
State of ... / Состояние в области ... - это большой жанр отчетов/докладов/обзоров состояний в отраслях который стал довольно популярен у исследовательских и коммерческих компаний в последние несколько лет. Я регулярно пишу со ссылками на подобные обзоры за 2020 годи собрал их в одну публикацию:

- State of CSS - состояние CSS фреймворков за 2020 год
- State of JS - состояние движков для Javascript за 2020 год
- State of devops - состояние технологий development operations от Puppet
- State of remote work - состояние дистанционной работы от Buffer
- State of AI 2020 - состояние технологий искусственного интеллекта
- State of profession - состояние профессий от GreenBiz
- State of work - состояние труда от Workfront
- State of European Tech - состояние технологий в Евросоюзе
- State of Application Service - состояние рынка приложений от F5
- State of Enterprise open source - состояние корпоративного рынка открытого кода от Redhat
- State of software supply chain - состояние рынка цепочки поставок ПО от Sonatype
- State of API - состояние рынка API от Postman

Не привожу примеры State of data science, их ежегодно публикуют пара десятков организаций

Все эти обзоры разного качества, но примерно одного жанра. Хотя они и составляются с оглядкой на рыночное позиционирование компаний, но имеют ценность в отличие от большей части маркетинговых материалов. Лично я отслеживаю пару десятков источников таких отчетов поскольку часто в них проскакивают тренды которые по другому не найдешь и не заметишь.

В принципе же такого жанра не хватает во многих отраслях в России.

#reports #data #tech
Вышел большой доклад ФАО (Продовольственная и сельскохозяйственная организация ООН) о продовольственной безопасности на фоне COVID-19 "The impact of disasters and crises on agriculture and food security: 2021" [1]

В докладе много примеров того что происходит по миру в последние десятилетие и что нас ждёт к 2030 году. Пожалуй, важнейший вывод - это рост числа происшествий и критических ситуаций затрагивающих сельское хозяйство.

При составлении доклада авторы использовали базу FAO и базу EM-DAT [2] The International Disaster Database. Для некоммерческого использовалия эта база доступна и сейчас, например, для исследователей работающих с данными о чрезвычайных происшествиях.

Ссылки:
[1] http://www.fao.org/documents/card/ru/c/cb3673en/
[2] https://emdat.be/

#opendata #FAO #reports #data #disasters
Вышел отчет Всемирного экономического форума Developing a Responsible and Well-designed Governance Structure for Data Marketplaces [1] об инициативе Data for Common Purpose Initiative [2] и фокусе на Data Marketplace
Service Providers (DMSPs) (новый термин характеризующий сервисы каталогов и рынков данных).

Заход интересен в акценте именно на Data Marketplaces, с фактически, рекомендациями регулировать именно их, в каком-то смысле, подходами близкими к регулированию бирж. Подход вполне понятный, но что-то мне подсказывает что маловероятно что он приживётся.

Ссылки:
[1] https://www.weforum.org/reports/developing-a-responsible-and-well-designed-governance-structure-for-data-marketplaces
[2] http://www3.weforum.org/docs/WEF_WP_DCPI_2021.pdf

#data #regulation #reports
Postman опубликовали свежий отчет The State of API 2021 [1], отчет они проводили на своей платформе, поэтому неудивительно что в нём они фигурируют как лидер инструментария по работе с API, но даже несмотря на это искажение, вполне возможно что они правы. Удивительно малое присутствие другие API инструментов и сервисов, например, RapidAPI, маркетплейс для API родом из Израиля, оказывается малопопулярен среди разработчиков, а вот корпоративные продукты от Microsoft, Google, Oracle, IBM вполне интересны (почти все они это купленные стартапы). Как всегда интересное чтение, Postman, действительно, один из лучших коммерческих инструментов проектирования и тестирования API, но, конечно, далеко не единственный и не универсальный. Например, для GraphQL или проектирования SOAP есть альтернативы (хотя кому придёт в голову проектировать SOAP API в наше то время? ).

Как бы то ни было рынок API сейчас на подъёме в мире и это уже неплохой мотиватор делать продукты изначально ориентированные на предоставление API.

Ссылки:
[1] https://www.postman.com/state-of-api

#API #reports
Вышел AI Index Report 2022 [1] с оценкой развития ИИ по странам. Отчет большой, более 230 страниц, а также к нему много сопутствующих материалов. Россия там тоже упоминается, как именно рассказывать не буду, вся эта тема не про сравнение стран, а про развитие и эффективность регулирования.

Честно скажу, сравнивать развитие ИИ в России с любой другой страной я бы не стал, поскольку режим изоляции/самоизоляции науки в России сейчас будет крайне высок. Мониторить надо отток специалистов, если ещё не все уехали

Ссылки:
[1] https://aiindex.stanford.edu/report/

#ai #reports
Свежее исследование ОЭСР The Strategic and Responsible Use of Artificial Intelligence in the Public Sector of Latin America and the Caribbean [1]
о том как ИИ используются в Южной Америке и на Карибах и о том какая реакция на такое использование возникает.

Много кейсов и сравнений, в соответствии с принципами ОЭСР для ИИ, принципами ИИ для G20 и ещё много чего. Множество примеров и, забегая вперед, в лидерах там Колумбия, Мексика, Уругвай и кое-где Аргентина.

От наших реалий это кажется далёким, но не стоит забывать что внедрение ИИ никуда не делось, и социальное неравенство от несправедливого его применения тоже никуда не исчезает.

Ссылки:
[1] https://www.oecd-ilibrary.org/governance/the-strategic-and-responsible-use-of-artificial-intelligence-in-the-public-sector-of-latin-america-and-the-caribbean_1f334543-en

#ai #oecd #reports
The right to privacy in the digital age

Свежий доклад представителя по правам человека ООН [1]. Документ короткий, на 17 страниц. Там про всё, взломы телефонов правительствами (спецслужбами), массовую слежку, ограничения в использовании шифрования, нарушениях прав человека и так далее.

То о чём писали многие, но изложено сжато и в докладе ООН.

Ссылки:
[1] https://documents-dds-ny.un.org/doc/UNDOC/GEN/G22/442/29/PDF/G2244229.pdf?OpenElement

#privacy #reports
Команда авторов ежегодного доклада State of AI выпустила очередной доклад State of AI 2022 [1], его удобнее сразу смотреть в Google Slides [2] и скачать оттуда же.

Приводить все факты и предсказания оттуда очень долго, там 110+ слайдов на темы технологий, индустрии, исследований, политики и тд и интересного и важного немало. Для меня интересным был блок Safety поскольку он про состояние отношений учёных к развитию ИИ и ряда госстратегий вроде UK National Strategy for AI.

Но это то на что я обратил внимание, а так там очень много всего. При чтении важно помнить кто основной адресат этого обзора и кто его составляет. Он готовится людьми погруженными в венчурную индустрию для тех кто ищет финансирование, дает финансирование или думает о том или другом. Поэтому далеко не все примеры harmful AI приводятся, но примеры полезного применения многочисленны. Что, в любом случае, не обесценивает этот замечательный отчет.

Ссылки:
[1] https://www.stateof.ai/
[2] https://docs.google.com/presentation/d/1WrkeJ9-CjuotTXoa4ZZlB3UPBXpxe4B3FMs9R9tn34I/edit?usp=sharing

#ai #regulation #reports
Вышел доклад/исследование State of Frontend [1] по технологиям фронтэнд разработки основанный на опросе 3703 разработчиков и с комментариями нескольких экспертов. Хотя я лично и далёк от темы фронтэнда, но тут большой любопытный текст с интересными результатами.

Вот подборка фактов:
- большинство прошедших опрос работают дистанционно: 59.7%, ещё 35.3% в гибридном формате
- в безусловных лидерах фреймворки Angular (51%) и React (25%), наиболее перспективные Svelte и Next.js
- самые популярные дизайн системы Material UI, Tailwind UI и Bootstrap
- Typescript используют 84% разработчиков и большинство (43%) считают что он заменит Javascript однажды
- большинство используют сервера AWS (Amazon) или свои собственные
- подавляющее большинство используют Visual Studio Code: 74.4%

И там ещё много всего, что-то кажется очевидным, что-то совсем нет. Например, про VS Code или про Typescript.

Ссылки:
[1] https://tsh.io/state-of-frontend/

#reports #research #frontend #javascript #development
Свежий доклад Open Data Maturity Report 2022 Европейского союза [1].

Лучше всего госполитика и порталы открытых данных во Франции, хуже всего в Боснии и Герцеговине. Сравнение тут вполне объективное поскольку сравнение идёт по странам где примерно сравнимы подходы и госполитика открытости.

Доклад интересный, рекомендации в нём в основном про обмен практиками, коллаборацию и сообщества. Можно также обратить внимание на большом акценте на стандартизацию порталов данных и использование стандарта DCAP-AP и измерение качества данных как качества метаданных

Ссылки։
[1] https://data.europa.eu/en/publications/datastories/assessing-open-data-developments-across-europe-discover-open-data-maturity

#opendata #policy #reports #europe
Свежий обзор платформ для соревнований в машинном обучении The State of Competitive Machine Learning 2022 Edition [1] в форме подробного сравнения и отчета за год. Авторы сравнивали Kaggle, Tianchi, CodaLab, Zindi и других, всего 11 платформ.

Самое любопытное։
- безусловная лидирующая платформа это Kaggle с более чем 10+ миллионами участников и общим годовым призовым фондом за 2022 год в 1.7 миллиона долларов
- конкурсы академических структур менее популярные чем от коммерческих компаний и самих платформ
- Python - язык победителей. Почти все кто выигрывал соревнования писали на Python, за редким исключением соревнований где использовался C++
- авторы выявили так называемый winning toolkit [2] технологический стек которым преимущественно пользуются победители соревнований
- примерно 50% победителей в конкурсах - это одиночки
- некоторые участники серьёзно вкладываются в оборудование для победы, но, при этом, многие до сих пор выигрывают даже за счёт бесплатных или очень дешёвых онлайн серверов.

Ссылки:
[1] https://mlcontests.com/state-of-competitive-machine-learning-2022/
[2] https://mlcontests.com/winning-toolkit/

#machinelearning #stateof #reports #readings
Вышел стенфордский доклад 2023 AI Index Report [1] о состоянии ИИ за 2022 год и немного за 2023, доклад подробный и интересный, я о его содержании ещё попозже напишу подробностей, а пока 14 графиков на основе этого доклада [2].

В основном про США, но не только.

Графики неплохо передают состояние развития технологий, но, конечно, текст доклада важнее.

На одном лишь я сделаю особый акцент. В США лишь 0.67% выпускников с PhD по ИИ работают на государство. А 65.4% на корпорации и 28.2% в исследовательских центрах.

Не только роль государства, но и и компетенции отсутствуют в системе госуправления, в данном случае США, но думаю что это справедливо для всех стран.

Ссылки:
[1] https://aiindex.stanford.edu/report/
[2] https://hai.stanford.edu/news/2023-state-ai-14-charts

#ai #reports
Свежий State of Data Engineering report 2023 от LakeFS [1].

Не очень детальный, на мой взгляд, не тянущий на полноценный State of ... доклад, но содержащий полезные факты и тезисы и упоминания некоторых продуктов про которые я лично не слышал или когда-то видел, но не впечатлившись отложил на потом.

Отчет короткий поэтому прочитать его несложно в любом случае.

Ссылки:
[1] https://lakefs.io/blog/the-state-of-data-engineering-2023

#dataengineering #startups #reports
На фоне всё усиливающегося государственного регулирования в области персональных данных в России я не могу не вспомнить как 5 лет назад в 2018 году я проводил исследование "легализованных утечек персональных данных". Это когда персональные данные не хакеры крадут, а когда государственные органы по причине непонимания последствий хренового регулирования и несоблюдения базовых требований разработки информационных систем делают эти данные доступными. Я писал об этом у себя в блоге [1] и были публикации в РБК и не только в 2919 году. А ещё до этого в 2018 году я эти материалы отправлял в Роскомнадзор, одному, не буду называть кому, зам. министру цифрового развития и тд.

Полный текст того исследования я никогда не публиковал и даже убрал его публичную версию, без инструкций по воспроизведению, из открытого доступа, но вот что я вам скажу. Мало что изменилось с тех пор. Исчезли некоторые самые одиозные случаи, вроде того как УЦ Миноброны светил внутренние контакты/email'ы, а также некоторые особо вопиющие случаи раскрытия паспортных данных.

Но, исправили далеко не все!🤦‍♂️Особенно в части утечек связки ФИО + СНИЛС + email. Это не так подгорает по сравнению с хакерскими утечками, но не так уже мало количественно.

По многим причинам я далее не публиковал обновления того исследования, в первую очередь поскольку не было никакого желания чтобы закрывали некоторые важные публичные источники данных, а также с тем что нет желания давать хакерам наводки.

Но... увы, не могу не констатировать что российское государство довольно плохой регулятор персональных данных. Фактически, сапожник без сапог.

Ссылки:
[1] https://beta.begtin.tech/pdleaks-p3-govsys/
[2] https://www.rbc.ru/politics/15/05/2019/5cdac8469a79479a27bd4eca

#privacy #reports #readings #personaldata #regulation
Вышел свежий доклад Open Data Maturity 2023 [1] посвящённый целиком зрелости открытых данных в Европейском союзе, странах EFTA и ряде стран кандидатов. Наилучшие оценки в Франции, Польши и Эстонии, далее Украина, Испания и Кипр.

У доклада весьма продуманная методология учитывающая не только и не столько объёмы опубликованных данных, сколько регуляторный фреймворк, измерение востребованности, наличие продуманной стратегии и контроль качества данных. Лично я не удивлён что лидируют французы потому что у них реально портал открытых данных data.gouv.fr лежит в основе их госполитики управления данными, с внятной дорожной картой и инициативами в открытости науки и доступности геоданных как часть общей стратегии и этого портала.

Отдельно интересно что Великобританию в этих докладах более не рассматривают, даже для сравнения со странами ЕС. В профилях стран вместо UK пустое место, что выглядит немного забавно, словно Великобритания исчезла с карт.

В отчёте большой акцент на качестве данных и нему приложены файлы методологии и подробных ответов в опроснике где многое можно узнать о политике стран по открытости. Я, например, узнал что у Черногории таки есть геопортал с экспортом метаданных по стандарту INSPIRE, хотя он и оказался сейчас недоступен.

Ссылки։
[1] https://data.europa.eu/en/publications/open-data-maturity/2023

#opendata #reports #europe
Европейский доклад о гомогенизации особо ценных наборов данных (Report on Data Homogenisation for High- value Datasets) [1] вышел ещё 5 декабря. Небольшой по объёму и посвящён тому как в странах ЕС публикуют реестры компаний, данные по мобильности населения и официальную статистику. А также о том как можно было бы унифицировать публикацию таких данных. Можно уже ожидать что в 2024 году, или отдельно, или как часть существующего, но будет рейтинг/индекс/сравнение стран ЕС именно по публикации данных особой ценности.

Если кто-то пропустил, то эти наборы данных должны публиковаться в ЕС в рамках директивы 2023/138 [2] и, в принципе, европейское регулирование открытости данных идёт в направлении не только "открытости по умолчанию", но и гарантированной доступности данных по которым подтверждён общественный и коммерческий запрос. В частности - это данные реестров компаний, статистики, геоданные, метеоданные и многое другое.

Ссылки:
[1] https://data.europa.eu/en/doc/report-data-homogenisation-high-value-datasets
[2] https://eur-lex.europa.eu/eli/reg_impl/2023/138/oj

#opendata #eu #readings #reports