Ivan Begtin
7.99K subscribers
1.76K photos
3 videos
101 files
4.47K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Вчера вечером на общественном телевидении (ОТР) я комментировал прошедшие недавно учения по отключению Рунета от Интернета о которых писал ранее РБК [1].

Передачу ОТР и мой комментарий можно посмотреть на сайте их сайте [2] в записи передачи, начиная с 3:26:14.

Честно говоря я хотел об этом написать раньше, но и сейчас не поздно повторить тезисы озвученные в передаче:
1. Отключить рунет от Интернета, конечно, возможно, вопрос лишь цены которая будет непомерной для экономики.
2. С иностранными инвестициями и развитием несырьевой экономики в России можно будет распрощаться.
3. Говорить о том что надо тестировать отключение на случай если нас отключат, это примерно как тестировать самоубийство на случай если могут пристрелить.

В передачу там ещё дозвонился зритель с резонным вопросом что вообще надо всё отключить и вообще ядерная война скоро и она уже должна была ещё ранее произойти.

У меня вот тоже есть вопросы, в самом деле, если отключение Рунета тестируют, то что это давно не было учений ядерных бомбардировок, почему это давно нет учений на случай биологической войны? Граждане, вон, уже забыли где бомбоубежища и авианалётами их пугает Миноброны понарошку на большие военные праздники.

В самом деле, почему нет федерального органа ответственного за создание паники у населения, нет национального проекта нагнетания страха, даже федеральные проекты по запугиванию не попали в 42 приоритетные задачи правительства.

Я в недоумении.

Ссылки:
[1] https://www.rbc.ru/technology_and_media/21/07/2021/60f8134c9a79476f5de1d739
[2] https://otr-online.ru/programmy/segodnya-v-rossii/dolzhno-li-gosudarstvo-kontrolirovat-internet-kak-ozhivit-ekonomiku-kuril-pravo-na-dorogu-tokio-2020-tri-zolota-za-odin-chas-52282.html

#runet
Для тех кто интересуется "гражданской наукой" (citizen science) и данными - проект BirdNet [1] лаборатории орнитологии Корнелла в виде мобильного приложения куда каждый может загрузить часть птичьей песни для немедленной идентификации кто же её поёт.

У приложения открытый код [2] и там же возможность скачать открытую модель для распознавания.


Ссылки:
[1] https://birdnet.cornell.edu/
[2] https://github.com/kahst/BirdNET

#opensource #datascience #citizenscience
12 лет назад я создал сообщество в группах Google посвящённое открытым данным [1] и проект OpenGovData [2] (сейчас зеркало хаба открытых данных), а потом ещё через год Wiki Открытая госинформация [3] в которых собирал данные сам, создавал первый каталог открытых данных в России и организовывал активистов по написанию парсеров по сбору данных.

Сейчас есть много других сообществ, инструментов и сервисов. Новые каталоги, новые данные, а тогда не существовало ни одного госпроекта в этой области, данные и data science в частности не были такой сверхпопулярной темой, а главным вопросом у всех было в основном "зачем вы это делаете? кому это вообще в России нужно?". На фоне этих вопросов общественный проект выглядел вызывающе, а вел я его по собственной инициативе;)

Несмотря на то что сейчас открытые данные уже с боку от активной государственной повестке в России, но даже если так то ситуация с доступностью госданных стала сильно лучше. Не всё, но многое стало доступнее. Но смотря с чем сравнивать. Если с тем что было 12 лет назад в России, то стало лучше. Если сравнивать с другими странами которые начинали этот же путь, то не всё так хорошо как хотелось бы.
На что я не могу не обратить внимание это то что за 12 лет не стало лучше с доступностью нормативных документов и всего что касается качества жизни. Именно тех данных которые наиболее востребованы гражданами не изменилось ничего.

Важные отличия России от стран которые начинали первыми в том что там тема открытых данных получила разные формы институционализации. В виде команд внутри государства, как часть законов, стратегий и госполитики, как специально созданные организации вроде The Open Data Institute и ещё многого другого что сделало тему неразрывно связанной с будущим государства.

Впрочем я повторю то же что регулярно повторял на мероприятиях открытого правительства: мы занимались открытыми данными до вас, занимаемся сейчас и продолжим заниматься когда вы прекратите.

Открытость данных для меня вот уже 12 летний марафон и он продолжается.

Ссылки:
[1] https://groups.google.com/g/opengovdataru
[2] https://opengovdata.ru
[3] http://opengovdataru.pbworks.com/

#opendata #opengov #retrospective
Можно сказать что новый термин INDS (Integrated national data system) / Интегрированная национальная система данных. В блоге Мирового банка [1] заметка о таких системах в Гане, Эстонии и Мексике и со ссылкой на доклад World Development Report 2021: DATA FOR BETTER LIVES [2] того же Мирового банка.

Доклад полезный, есть версия на русском языке [3], много примеров, но не о России, но не в России, а жаль, в России немало примеров работы с данными на государственном уровне и в частном секторе.

Ссылки:
[1] https://blogs.worldbank.org/opendata/creating-integrated-national-data-system-lessons-estonia-ghana-and-mexico
[2] https://www.worldbank.org/en/publication/wdr2021
[3] https://openknowledge.worldbank.org/bitstream/handle/10986/35218/211600ovRU.pdf

#data #opendata
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Правительство Санкт-Петербурга вернуло портал открытых данных ^_^. Сайт снова доступен по ссылке: data.gov.spb.ru.

Подробнее об исчезновении портала в июне 2021 года здесь: https://t.me/ahminfin/397
Big data for economic statistics [1] свежий обзор практик применяемых статистическими ведомствами для мониторинга экономической ситуации и сбора оперативной экономической статистики.

Много примеров, например:
- Малазийское статведомство DOSM разработало собственный портал мониторинга цен данные для которого собирают парсингом с сайтов интернет-магазинов
- Аналогично статведомство Новой Зеландии собирает с помощью парсинга сайтов данные по ценам на еду и объединяет их с данными полученными из других источников
- аналогично поступают ещё около десятка статведомств других стран
- в Индонезии и в Грузии отслеживают статистику туризма с помощью данных сотовых операторов

И так далее, примеров много, областей и направлений работы с данными много. Всё это про альтернативные источники данных заменяющие классические статистические показатели. Важные для инвесторов, туристов и тех кто принимает решения внутри страны.

Ссылки:
[1] https://repository.unescap.org/handle/20.500.12870/3501

#statistics #bigdata #economics
Написал большой текст в рассылку с подробностями о том как и зачем мы создаем сервис DataCrafter [1]. В ближайшем будущем я буду больше рассказывать о проблемах работы с данными, ведением реестров и другим особенностям работы с общедоступными источниками данных.

Ссылки:
[1] https://begtin.substack.com/p/datacrafter

#data #datasets #opendata
Написал в рассылку текст о том где и как искать данные и о том что нет до сих пор универсального поисковика по всем наборам данных, но есть много каталогов данных и каталогов-каталогов данных с которых можно начать [1].

А здесь хочу написать про обратную сторону каталогизации данных. Большая часть открытых каталогов данных и каталогов открытых данных в мире поддерживают стандарт DCAT [2] от W3C, который в первой версии вышел в 2014 году, а далее обновлялся, последний раз в 2020 году. Этот стандарт определяет метаданные наборов данных и благодаря ему возможно не только собирать описания данных в агрегированный каталог, но и осуществлять контроль за качеством данных, как, например, это делают европейцы в мониторинге Open Data Maturity [3] и в Metadata quality [4]

Российские государственные порталы открытых данных, в основном, медленно умирают, не обновляются или имитационно публикуют кучу мелких административных данных. С другой стороны сама тема открытых данных в России жива и поэтому есть отдельные акторы публикующие открытые данные инициативно.

Но строить единые агрегаторы вроде европейского или каталога данных США (data.gov) сложно потому что метод. рекомендации используемые сейчас, как бы сказать помягче, довольно устаревшие и задачи агрегации данных и контроля качества не решают.

Ссылки:
[1] https://begtin.substack.com/p/datasearch
[2] https://www.w3.org/TR/vocab-dcat/#motivation
[3] https://data.europa.eu/en/impact-studies/open-data-maturity
[4] https://data.europa.eu/mqa/?locale=en

#opendata #datasets
Свежие госприложения:
- от Минцифры "Госключ" [1] для подписания договоров
- от МИД РФ "Зарубежный помощник" [2] со справочной инфой для граждан

Приложение от Минцифры совсем свежее и включает трекеры Google Firebase Analytics и Huawei Mobile Services (HMS) Core [3]

Приложение МИДа существует с 2016 года, но зарегистрированно было на их подрядчика Sitesoft (отдельный вопрос почему так) и поэтому ранее не находилось и у того же Сайтсофта в профиле в Google Play ещё несколько госприложений оказывается. Их тоже надо будет проверить. А вот это приложение МИДа просит доступ к контактам, набору номера телефона и ещё много к чему.

Ссылки:
[1] https://play.google.com/store/apps/details?id=ru.gosuslugi.goskey
[2] https://play.google.com/store/apps/details?id=ru.sitesoft.mid&hl=ru
[3] https://beta.pithus.org/report/ae2b9cd4298554dfd12706ad4576b0e1695ecb57d8e95c53b462d5fecaba99c2
[4] https://reports.exodus-privacy.eu.org/en/reports/192278/

#mobile #privacy
Аэрофлот при входе запросил согласие на обработку персональных данных, а там полный спектр организаций
ООО Иннодата
ООО Базис
и ещё и Авиакомпания Победа

Причём запрашивают они это согласие безальтернативно, нельзя отказаться и не передавать персональные данные какой-либо компании, но хотя бы все хорошо подсчитаны и понятно кому слать запросы на отзыв согласия на обработку данных и кого проверять на предмет наличия права на такую обработку данных.

#privacy #personaldata
Я рассказывал ранее что госорганы крайне халатно относятся к персональным данным граждан, особенно граждан которые вступают с ними в любые взаимоотношения, например, трудовые или договорные. Ещё один наглядный пример федерального уровня, Минобороны России продаёт высвобождаемое имущество и публикует протоколы торгов включая паспортные данные представителей компаний. Их довольно легко "нагуглить" запросом 'паспорт серия site:mil.ru/files filetype:pdf' [1]

Удивительно что никто из граждан так и не засудил представителей Минобороны за такое.

И это один пример из тысяч и не все они находятся так просто, но пытливые умы могут найти многое.

Ссылки:
[1] https://www.google.com/search?q=паспорт+серия+site:mil.ru/files+filetype:pdf

#leaks #milru #government #privacy #personaldata
Дата журналистика - самое активно развивающееся направление журналистики в России.
Forwarded from Инфокультура
Дата-стрим «Как выгорает Россия»
📆 Четверг, 5 августа, в 20:00 (мск)

Где искать данные о лесных пожарах в России и как их исследовать, расскажут дата-журналистка «Новой Газеты» Катя Бонч-Осмоловская и дата-журналист Андрей Дорожный.

За один час они создадут прототип дата-материала: придумают тему, получат данные, найдут инсайт и сделают визуализацию. А также они расскажут об инструментах и приемах, которые используют практикующие дата-журналисты.

➡️ Регистрация: http://dorozhnij.com/firestream
На самом деле, главная проблема с проектами вроде Госключ и всём остальном сделанном государством по принципу G2B и G2C за рамками обязательных госфункций, так вот главная проблема в том что из опциональных они слишком легко переходят в обязательные.

Например, по такому сценарию:
1. Вначале появится Госключ
2. Через какое-то время его установят несколько сотен тысяч предпринимателей.
3. Потом окажется что что внедрение идёт не так активно и будет организовать госмониторинг использования.
4. Потом появятся публикации что Госключ это хорошо (может и будет где-то и кому-то с него польза) и без него плохо.
5. Потом появятся призывы сделать его обязательным в каких-то областях.
6. Потом его сделают обязательным, например, в какой-то области, где уже есть цифра, например, для подписания сделок с самозанятыми.
7. Потом обяжут к применению в каких-нибудь "социально значимых областях", например, для подписания договоров с турфирмами.
8. ... и так далее по цепочке.

Но важнее то что государство приходит на рынок который оно могло бы создать. Какими бы большими, тяжёлыми и неприятными не были бы грёбанные олигополии национальные цифровые чемпионы, лучше они чем государство. А ещё лучше нормальный конкурентный рынок по разумным правилам где государство выступает арбитром, а не игроком.

#government #business #govapps
Утром в газете, вечером в куплете (с)
CNews написали про публикацию персональных даннных граждан https://www.cnews.ru/news/top/2021-08-03_v_otkrytom_dostupe_obnaruzhilis и Илья Варламов написал https://varlamov.ru/YXl01mjqt4e

Только некорректно, конечно, говорить что я сейчас имею отношение к Счетной палате РФ, уже 2 месяца как я "свободный человек и поэтому пишу и думаю что хочу" (c)
В догонку к подборке источников и каталогов данных о которых я писал сегодня в рассылке [1], стартап bit.io [2] решает вопрос доступности данных обмена данными через гигантскую единую базу Postgres. Помимо того что туда уже загружены тысячи/десятки тысяч наборов данных из открытых источников, они дают возможность грузить собственные данные в Excel, CSV, JSON форматах, держать их в форме репозиторией, а далее обмениваться ими, визуализировать и многое другое. Чем-то похоже на data.world, но меньше про визуализацию и больше про хранение, API и обмен данными. У стартапа есть финансирование на нераскрываемую сумму и довольно неплохой старт.


Ссылки:
[1] https://begtin.substack.com/p/datasearch
[2] https://bit.io

#opendata #data #datacatalogs
Подробное и весьма познавательное исследование на основе опроса разработчиков Stack Overflow за 2021 год [1]

Знаете ли Вы что:
- лишь 3.38% разработчиков Black or of African descent
- мужчин среди разработчиков 91.6%
- большинство разработчиков в возрасте от 18 до 34 лет
- самые популярные технологии Python и SQL
- самые популярные СУБД MySQL, Postgres, SQLite и MongoDB
- облако Amazon наиболее популярно и за ним Google Cloud и Microsoft Azure

и там ещё много всего.

Ссылки:
[1] https://insights.stackoverflow.com/survey/2021

#developers
Размышления последних дней:
1. Один из признаков что у коммерческой компании "отношения" с госзаказчиком - это когда 99% её бюджета формируется лишь этим госзаказчиком на протяжении многи х лет. Например, 10 лет. Знаю такой случай.
2. Российская контрактная система начисто игнорирует мировой опыт реформирования контрактных систем последних лет. Это не только про отсутствие раскрытия в стандартах Open Contracting, но и отсутствие даже намёка на ведение реестра бенефициарных собственников компаний заключающих госконтракты.
3. Пример с утечкой персональных данных на сайте Минобороны - это просто пример, есть много других примеров аналогичного и они свидетельствуют о том что: а) В большинстве органов власти нет процедур контроля за публикацией персональных данных. б) Нет мониторинга того что они же сами публикуют. Правда и нет признаков того что это изменится. Я писал об этом 2 года назад, 2.5 года назад писал в Роскомнадзор и ещё не раз напишу.
4. В копилку ГосНКО надо добавлять организации с непрозрачной системой финансирования и связанные с государством не через отношения учредителей, а через их продвижение руководителями органов власти. Обычно, в последние годы, ГосНКО практически все имели в учредителях госструктуры, в той или иной форме. А их участие в госмероприятиях было как участие одной из госструктур, типа как продолжение государства. Но есть и те ГосНКО которые как бы частные или частные которые представляются как бы гос.

#thoughts
По поводу "легальных" утечек персональных данных, я хочу напомнить о материалах которые публиковал пару лет назад.

В 2018 году я проводил анализ нескольких десятков государственных информационных систем и систем регулируемых государством и выяснил что на них публикуют данные граждан: паспортные, СНИЛС, и иную идентифицирующую гражданина информацию. Почти всё это публикуется по причине "нормотворческой неграмотности" и реже, халатности при разработке этих систем и ошибок проектирования. Иначе говоря "не украли, а продолбали". Историю этого я описал в 2019 году об удостоверяющих центрах [1], о электронных торговых площадках [2], о государственных информационных системах [3]. А также вышла статья на РБК [4] и другие публикации куда я отдал эти материалы эксклюзивом.

А предыстория этого такова что ещё в 2018 году это исследование я направлял в прокуратуру, в Роскомнадзор (через прокуратуру) и даже одному зам. министру цифрового развития федерального уровня. Реакция была ожидаемо - никакая. После публикаций в СМИ многие зашевелились, но и то до сих пор далеко не всё о чем я писал тогда было исправлено. Я и сейчас знаю удостоверяющие центры раскрывающие весь реестр сертификатов, к примеру.

Что я хочу этим сказать, то что когда вопрос стоит о контроле государства за государством, госорганов за госорганами, то работает только "медийный рычаг". Он работает, при этом, тоже плохо, многие перестали реагировать даже на такие публикации, но хоть как-то ещё возможен.

Вот сейчас у меня на руках черновик постоянно откладываемого повторного доклада на ту же тему легального раскрытия перс данных граждан органами власти. Примеров множество и то что я упомянул Минобороны с их раскрытием паспортных данных в протоколах торгов - это иголка в стогах сена. Самые большие случаи раскрытия перс данных в поисковиках не найдёшь, но они есть.

Я считал и считаю что в государстве сейчас за контроль персональных данных никто не отвечает. Несмотря на многочисленные публикации системной государственной реакции на это нет, политики публикации данных на официальных сайтах и информационных системах не поменялись и так далее. Всё это, конечно, в адрес Роскомнадзора и Минцифры в первую очередь.

P.S. Если Вы знаете случаи когда органы власти и госучреждения публикуют перс данные граждан онлайн, напишите мне, добавлю в примеры готовящейся новой версии отчета.

Ссылки:
[1] https://begtin.tech/pdleaks-p1-uc/
[2] https://begtin.tech/pdleaks-p2-etp/
[3] https://begtin.tech/pdleaks-p3-govsys/
[4] https://www.rbc.ru/politics/29/04/2019/5cc2df569a7947c83b69b0d5

#privacy #personaldata
На 26 июля 2020 года было принято 1123 постановлений Правительства РФ, на 26 июля 2021 года было принято 1267 постановлений Правительства РФ. Разница в 144 постановления или в 12.8% от изначального числа.

На 26 июля 2020 года было принято 1969 распоряжение Правительства РФ, на 26 июля 2021 года было принято 2075 распоряжение Правительства РФ. Разница в 109 распоряжений или в 5.3% от изначального числа.

На 13 июля 2020 года было принято 210 федеральных законов, на 13 июля 2021 года было принято 360 федеральных законов. Разница в 150 законов или 71%. от изначального числа.

Видно что депутаты принимали законы в последней сессии ударными темпами. Не рискую предположить интенсивность работы нового депутатского корпуса, но всё идет к тому что число принятых законов вырастет в этом году. А также явно к концу года будет больше постановлений и распоряжений Правительства РФ.

Регуляторная нагрузка растёт, а нам с этим жить.

#legal #legaltech #laws
В США агенство EPA обновило проект Airnow [1] проект по мониторингу качества воздуха и добавили туда 10 тысяч сенсоров которые поддерживаются гражданами [2] через краудсорсинг в проекте PurpleAir. Эти сенсоры EPA раздавало и раздает библиотекам, сообществам и многим другим [3] и всё это часть того что называется гражданской наукой (citizen science) где рядовые граждане могут принимать участие в идущих исследованиях. В США гражданская наука уже давно институционализирована в рамках инициативы CitizenScience.gov [4] в виде каталога из 491 проекта в которых можно принять участие. А сам каталог и инициативы идут под эгидой Crowdsourcing and Citizen Science Act [5], они разрешены и поощеряются.

Ссылки:
[1] https://www.airnow.gov
[2] https://gcn.com/articles/2021/08/04/airnow-smoke-data.aspx
[3] https://www.epa.gov/air-sensor-toolbox/air-sensor-loan-programs
[4] https://www.citizenscience.gov
[5] http://uscode.house.gov/view.xhtml?req=granuleid:USC-prelim-title15-section3724)&num=0&edition=prelim

#citizenscience #science #airquality #fires