Ivan Begtin
8.07K subscribers
1.55K photos
3 videos
100 files
4.29K links
I write about Open Data, Data Engineering, Government, Privacy and Data Preservation and other gov and tech stuff
Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Contact @NMBabina for ads proposals
Download Telegram
Плохие новости и не стоит думать что этот не затронет буквально всех
Forwarded from Roem.ru
Законопроект о «Суверенном Рунете» прошёл 2-е чтение.
320 депутатов «За», 15 — «Против», «Воздержавшихся» нет

3-е финальное чтение — 16 апреля. В нём текст уже не меняют. Большой разбор текста 2-го чтения:
https://roem.ru/11-04-2019/276997/suverenniy-runet-2-chtenie/
Вчера на круглом столе по будущему российской статистики в рамках XX апрельской конференции НИУ ВШЭ было обсуждение будущего Росстата.

Я кратко сформулирую мои тезисы, озвученные там:
1. Основными потребителями официальной статистической информации являются граждане, все экономические акторы принимающие решения. Росстат не должен ориентироваться исключительно на потребителей в органах власти.
2. Доверие к официальной статистике может и должно формироваться не только через обеспечение понятности используемых методик расчета показателей, но и через раскрытие исходного кода используемого для расчета этих показателей.
3. Важным аспектом официальной статистики является отсутствие гипер локальных, муниципальных данных. Раскрытие этих данных сейчас недостаточно удобно, недостаточно полно, недостаточно проверяемо.
4. Критичен вопрос огромного объема ведомственной статистики, не подпадающей под публичное раскрытие и не предоставляемых органами власти в Росстат. Как минимум это касается таких ФОИВов как Минздрав, МВД, Миннауки и многих других. Росстат сейчас не выступает единым методологом.

Конечно же ключевой вопрос в этом всём - это кризис доверия к данным официальной статистики и интенсивный поиск альтернативных источников актуальных и оперативных данных, как потребителей данных внутри государства, так и частным сектором. Этот кризис доверия уже не первый год формирует вопрос внутри государства и вне его о необходимости существования официальной статистики в той организационно-технической форме в которой она существует сейчас.

#data #stats #openness
На форуме Big Data 2019 состоялась дискуссия «Нерешенный вопрос: право на данные». Представители государства и бизнеса обсудили проблемы использования данных в госуправлении, медицине и других областях. Эксперты постарались ответить на вопрос, как нужно изменить правовое регулирование, чтобы развивать рынок данных в России.

- Что такое рынок данных и как его можно измерить?
- Что значит «государство как платформа» и зачем гражданину «цифровой профиль»?
- Кому принадлежат данные пациентов?
- Как право регулирует применение искусственного интеллекта и кто такие техно-оптимисты?

Подробнее: http://aurd.ru/big_data_forum_2019.
И кстати, мы расширяем команду по направлению открытости Гос финансов, если интересно или есть кого порекомендовать - пишите на op@clearspending.ru
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Мы рады сообщить, что в этом году перед нами стоят амбициозные задачи по работе с открытыми финансовыми данными, поэтому мы значительно расширяем команду проекта ГосЗатраты (и команду Информационной культуры)!

Мы ищем тех, кто дружит с Python Django, MongoDB, PostgreSQL, любит открытые данные, не боится данных о госфинансах и готов работать в офисе в центре Москвы. Нам нужны:
- фронтенд разработчики,
- бэкенд разработчики,
- тестировщики,
- специалист по документации.

Также нам нужны специалисты по госфинансам, с которыми мы будем консультироваться по профильным вопросам.

Формальное и уточненное описание вакансий мы чуть позже опубликуем, а пока хотим поискать среди друзей друзей. Пишите в ЛС или на op @ clearspending.ru :).
Forwarded from data.csv
В командах хакатона +1: теперь можно присоединиться к «Информационной культуре» и поработать над темой: «Меньшинство решает за большинство: люди, которые предлагают законы — кто они».

Ментор команды Иван Бегтин.

Почему эта тема интересна?

Среди депутатов Госдумы, есть те, кто внёс сотни законопроектов и те, кто не внес ни одного. Кто именно был активен? Какие законы максимально отразились на нашей жизни? Как определить вероятность принятия законопроекта от конкретного депутата?

Ответы на эти вопросы помогут приблизиться к понимаю того, как на самом деле устроено законотворчество в России, и выявить факторы, влияющие на «успешность» законопроекта».

Присоединяйтесь к команде ➡️
https://docs.google.com/forms/d/e/1FAIpQLSe0D10jLXbJXPf1SQPRfMNiSL1oB8IMJNA48dz-TiPepCZ2_A/viewform
Интересная новость. Про какие полномочия речь, кто знает?
Forwarded from Нецифровая экономика (Elizabeth Sergina)
Так-так, запахло жареным. Носков хочет отобрать у Жарова часть полномочий. Если сможет.

«Механизм регуляторной гильотины, который был не так давно объявлен, предусматривает масштабный анализ и пересмотр действующих функций контрольно-надзорной деятельности. Сфера деятельности Роскомнадзора сегодня чрезвычайно широка. Нужно проанализировать, от каких полномочий можно и нужно отказаться»,— сказал господин Носков. https://www.kommersant.ru/doc/3945804
Всегда сложно писать про очевидное, но иногда необходимо. Я таки написал текст про то что практически в каждом проверенном органом власти используется пиратский MS Office, где-то больше, а где-то меньше, но всё это выявляется по косвенным признакам. Подробно об этом у меня блоге https://begtin.tech/government-piracy/, а данные можно скачать и исследовать самостоятельно на data.world https://data.world/infoculture/government-piracy

Вопросов может оказаться много, задавайте - я отвечу. Для меня это давняя тема которую я всё откладывал и откладывал года 3, но дозрел до того чтобы оформить хотя бы таким кратким образом.

#data #piracy #opendata #research
В августе-сентябре 2018 года я готовил непубличное исследование по неочевидным источникам утечки персональных данных граждан из государственных информационных систем или же частных систем регулируемых государством специальными законами.

Это то что я делал лично, даже не пересекаясь с нашими проектами Инфокультуры и Ассоциации участников рынка данных, потому что пока не понятно как тему утечек перс данных погрузить в их работу.

Исследование получилось большое, серьёзное, целиком его публиковать нельзя совершенно точно. Я направлял его официально в Роскомнадзор и неофициально в Минцифру. Роскомнадзор отреагировал в стиле "кое в чём Вы правы, кое в чем нет, так что давайте обсуждать", от Минцифры открытой обратной связи вообще не было.

Через некоторое время обнаружилось что часть исследованных систем были исправлены, но меньшая часть. Самим владельцам систем сознательно ничего не рассылалось, только регуляторам

Прошло более полугода и я лично считаю что все моральные обязательства "не бить публичностью" были соблюдены и уже можно говорить об этом в открытую.
При этом часть результатов нельзя публиковать в виду их чувствительности и сейчас. Но та часть которая касается тех перс данных которые публикуются из-за специфики их интерпретации субъектами регулирования, вполне достойна публикации.

Итак вопрос и опрос.
Публиковать ли подробно справку о том из каких систем публикуются сведения о физ. лицах, почему и в каком объеме или не делать чтобы не нанести большего вреда, и передать всё спецслужбам?
public poll

опубликовать всё что возможно – 169
👍👍👍👍👍👍👍 91%

не публиковать, передать правоохране – 16
👍 9%

👥 185 people voted so far.
Публикую обещанную открытую часть материалов. По ссылке можно прочитать обзор 16 удостоверяющих центров из которых 9 государственные и во всех из них можно получить персональные данные в виде ФИО, места работы, email, ИНН и СНИЛС по физ. лицам через общедоступные реестры сертификатов. В общей сложности это около 63 тысяч записей о физ. лицах.

Ссылка на исследование: https://begtin.tech/pdleaks-p1-uc/

Это очень длинный лонгрид, с документированными примерами и скриншотами по каждому случаю, а также последовательностью воспроизведения.

Обратите внимание на то что:
- исследование проводилось в августе-сентябре 2018 года и в некоторых случаях проблема уже исправлена, но в это меньшая часть УЦ в которых вскрылась подобная ситуация;
- никаких несанкционированных действий в отношении УЦ не проводилось, был анализ только общедоступной информации;

В данном конкретном случае с удостоверяющими центрами проблема в регулировании и в применении этого регулирования УЦ. Подробнее об этом в тексте.

И, я ещё раз оговорюсь, публикуемое - это меньшая часть общего исследования по ситуации с персональными данными в созданных или регулируемых государством информационных системах. Во многих других случаях ситуация значительно хуже.

#data #privacy #personaldata
По утечкам персональных данных из государственных и регулируемых государством информсистем.

Следующий обзор - онлайнинспекция.рф

https://begtin.tech/pdleaks-p2-oninsp/

Это одна из наименьших утечек перс данных, около 1000 записей. Но есть случаи и посерьёзнее. На основе этого примера будет понятно как многие из них можно выявлять.

#privacy #personaldata
В качестве регулярного напоминания и ответов на вопросы. Подборка ссылок на материалы о том где узнавать о том что такое открытые данные и не только. Мой список рекомендаций.
- The Living Library [1] - библиотека от The GovLab по открытости, прозрачности и цифровизации. Много научных и популярных публикаций
- Surveillance capitalism [2] книга от Shoshana Zuboff о том как устроен современный капитализм слежки, основанный на коммодизации персональных данных.
- Open Data Impact [3] подборка примеров того как открытые данные оказывают влияние на рынки и отрасли
- The Week in Data [4] рассылка ссылок по работе с данными от The Open Data Institute в Великобритании
- Data Elixir [5] еженедельная рассылка про работу с данными. Куча подписчиков, не спамят.
- Рассылка Инфокультуры [6] регулярная рассылка материалов Инфокультуры, про открытые данные, данные и не только
- Scoop.it Big Data [7] поток новостей через сервис Scoop.it по теме Big Data
- Awesome Public Datasets [8] огромная подборка ссылок на общедоступные наборы данных большого объёма
- Re3data [9] реестр открытых научных репозиториев данных по всему миру

Ссылки:
[1] https://thelivinglib.org/
[2] https://en.wikipedia.org/wiki/Surveillance_capitalism
[3] http://odimpact.org/
[4] https://theodi.org/knowledge-opinion/the-week-in-data/
[5] https://dataelixir.com/
[6] https://infoculture.us7.list-manage.com/subscribe?u=2e38b8af0d8a547b51427dc9b&id=dadb533f05
[7] https://www.scoop.it/i/big-data
[8] https://github.com/awesomedata/awesome-public-datasets
[9] https://www.re3data.org/

#data #opendata #bigdata
История про суперсервисы - это, не про технологии, история об обязательствах государства, про социальные гарантии, про удобство взаимодействия с государством минуя бюрократические проволочки. По крайней мере, так бы хотелось всем нам, чтобы нами управляли лучшие из нас, а то что они делали соответствовало интересам большинства, а там где соответствия достичь было бы сложно, то государство выступало бы с позиции "заботливого патернализма" объясняющее нерадивым чадам в что делается им во благо, даже ограничивая их права. Иначе говоря демократия как механизм соблюдения всех прав, а не только право большинства и власть толпы.

Суперсервисы - это группы госуслуг объединённые одной жизненной ситуацией. Например, та же ситуация с рождением ребёнка - это важная часть жизни не только его матери, но и семьи в целом, начиная с момента подготовки к его рождению и до нескольких лет после. В некоторых странах, таких как Новая Зеландия, такие сервисы уже реализуются. Там, правда, нет такого явления как "суперсервисы", это просто естественное развитие государственной опеки и перевод её в более удобную форму.

Но что кроме рождения ребёнка может быть автоматизировано и упаковано в суперсервис ? Как ни странно, это будет не то что пытаются сделать в Минцифразе. Самыми востребованными были и будут все сервисы касающиеся получения денег от государства: пособий, налоговых вычетов и льгот. И, казалось бы, где если не внутри органов власти формируются массивы больших данных на основе которых предоставление льгот можно автоматизировать, автоматически перечислять налоговые вычеты, автоматически перечислять льготы и многое другое. Так почему этого не происходит? Причины просты и банальны - фактический объём социальных обязательств государства значительно превышает выделяемые на эти обязательства средства.

Любые автоматически и автоматизируемо работающие сервисы дающие гражданам возможность получить господдержку столкнуться с тем что денег на всех нет. Это всё относится и к вопросу о том что тема проактивных госуслуг и суперсервисов, это тема политическая, тема справедливого распределения социальных благ и рано или поздно всплывёт в активной публичной дискуссии и за пределами небольшой "команды по цифре". И эта тема плотно связана с другой важнейшей историей - персонификация господдержки гражданам.

Оборотной стороной создания единого реестра граждан, цифрового профиля, консолидация данных о гражданах в государственных информационных системах является реальные знания о его "белой" деятельности для органов власти. Но все кто полагают что главными здесь будут спецслужбы, с выискиванием оппозиции и террористов, заблуждаются. Главное и основное применение сводных реестров о гражданах - это бюджетная и налоговая оптимизация. Реформа государственных обязательств, в той или иной форме, будет происходить от получения картины о реальных доходах гражданина. Сокращения льгот обладающих относительно большими доходами и персонификация государственных гарантий. В какой форме это будет сделано - мы все пока не знаем. Но новая версия государственного цифрового патернализма однозначно будет идти в этом направлении. Главный вопрос, как всегда, будет о справедливости и доверии. О доверии граждан к тому что все эти модели перераспределения общественных благ будут к их пользе, а не очередным витком сокращения обязательств государства.

#digital #government
Что происходит с открытыми данными по всему миру, краткий обзор в ссылках:
- открылся портал открытых данных города Лиона [1] с данными по земле и кадастру в приоритете.
- о том как готовят данные для публикации в проекте OpenSpending [2], проект по открытости бюджетов
- о том как работать с разработчиками, Jонлайн форум по открытым данным при транспортном агентстве Северо-Западного Уэльса, Австралия [3]
- все данные национальной сельскохозяйственной библиотеки США собранные в исследованиях публикуются онлайн в проекте Ag Commons [4]
- Гондурас присоединился к хартии открытых данных Open Data Charter [5]

Ссылки:
[1] https://data.beta.grandlyon.com/fr/accueil
[2] http://www.fiscaltransparency.net/blog_open_public.php?IdToOpen=6681
[3] https://opendataforum.transport.nsw.gov.au/
[4] https://data.nal.usda.gov/
[5] https://medium.com/opendatacharter/beyond-transparency-honduras-adopts-the-open-data-charter-b6768672031b

#opendata #data #opengov
В РБК вышла статья по доступности персональных данных на электронных торговых площадках [1]. Более 2,2 миллиона записей и это продолжение результатов моего исследования о персональных данных в удостоверяющих центрах [2].

В этот раз я, вместо того чтобы самому публиковать, передал коллегам из РБК чтобы появился полноценный материал с комментариями экспертов.

В третьей части самое ключевое - государственные информационные системы и то какие персональные доступны через них. Но это уже самая серьёзная история

Ссылки:
[1] https://www.rbc.ru/politics/29/04/2019/5cc2df569a7947c83b69b0d5
[2] https://begtin.tech/pdleaks-p1-uc/

#data #personaldata #privacy #leaks
Напомню, в первой части публикацию об утечках персональных данных в удостоверяющих центрах http://begtin.tech/pdleaks-p1-uc/

В этот раз речь пойдёт об утечках персональных данных на электронных торговых площадках. Прежде чем публиковать эту часть исследования я передал их РБК для публикации без технических подробностей и чтобы у электронных площадок было время на то чтобы отреагировать на суть проблемы.

Статью в РБК можно прочитать по ссылке https://www.rbc.ru/politics/29/04/2019/5cc2df569a7947c83b69b0d5

Анализ проводился в отношении 6 уполномоченных на размещение электронных аукционов площадок и затрагивает такие их разделы как:
* Реестр поставщиков на площадке Сбербанк АСТ
* Реестр аккредитованных участников площадки ZakazRf
* Реестр участников площадки РТС Тендер
* Реестр участников площадки Росэльторг
* Реестр участников Национальной электронной торговой площадки
* Реестр участников ЭТП РАД

В общей сложности из электронных торговых площадок доступно 2,2 миллиона записей с персональными данными которые можно поделить на 2 группы.

1. Паспортные данные из решений об одобрении крупных сделок.
Эти документы должны публиковаться по закону и нормативной-базе 44-ФЗ, "Закона по контрактной системе". По практике российской подготовки подобных документов, в них, часто содержатся паспортные данные учредителей.

2. ФИО, место работы, должность, email, ИНН и СНИЛС из файлов электронной подписи

После применения файлов электронной подписи в файлах .sig после их декодирования можно получить метаданные сертификата который использовалься для подписи. Эти метаданные содержат ФИО, место работы, должность, email, ИНН, СНИЛС и иногда и другую информацию о персоне.

Подробное исследование со скриншотами и оценками по каждой площадке можно скачать по ссылке
http://files.begtin.tech/f/18ec197cd4f5481481fb/?dl=1

Что привело к подобной ситуации:
1. Несоответствие регулирования практикам документооборота.
2. Отсутствие активных действий электронных площадок по предотвращению публикации сканов решений с паспортными данными.
3. Отсутствие внутреннего мониторинга у электронных торговых площадок на предмет раскрытия персональных данных.
4. Низкая квалификация законодателей, регуляторов и операторов систем приведшая к массовому раскрытию персональных данных из электронных подписей.

*Связаться со мной проще всего по электронной почте ivan@begtin.tech и https://t.me/begtin в Телеграм.*
Итоги публикации персональные данные на про электронных торговых площадках.

Приняли меры по сокрытию перс данных:
- РТС Тендер (http://www.rts-tender.ru) - убрали все документы поставщиков и все файлы подписей к документам
- Сбербанк АСТ (https://www.sberbank-ast.ru) - убрали полностью страницы поставщиков с документами и подписями
- ZakazRF (http://etp.zakazrf.ru) - убрали все документы поставщиков и подписи к документам
- Национальная электронная площадка (https://etp-ets.ru/) - убрали все документы и подписи к ним
- Российский аукционный дом (https://gz.lot-online.ru) - убрали аккредитационные документы

Никаких мер не предприняли:
- Росэльторг (https://www.roseltorg.ru) - никаких изменений, аккредитационные документы по прежнему доступны

Напомню предысторию https://begtin.tech/pdleaks-p2-etp/

Чтож друзья, печальная новость в том что никакие другие рычаги воздействия кроме медийного, не работают.

Даже не знаю что добавить.

#leaks #privacy #data #personaldata