Ivan Begtin

Свежая некоммерческая организация получатель субсидий федерального бюджета в скором времени - Автономная Некоммерческая организация "Управляющая Компания НОЦ" упомянута в свежем распоряжении Правительства РФ [1].

Организация была создана в конце 2018 года решением правительства Нижегородской области однако найти её сайт, устав, признаки деятельности за 2019 год мне не удалось.

Можно только предполагать что не по критерию прозрачности проходил отбор.

Последний раз об этом НОЦ писал коммерсант в августе 2019 года [2], однако больше никаких новостей не было.

Как я упоминал, госАНО - одна из наиболее непрозрачных форм получения господдержки. Если нет нормативно-правового акта регламентирующего раскрытия информации, нет сайта и описания содержания деятельности - то начисто отсутствует контроль за их деятельностью

Ссылки:
[1] http://government.ru/news/39940/
[2] https://www.kommersant.ru/doc/4073020

#ngo #govngo

government.ru

Утверждён список получателей грантов среди научно-образовательных центров

Гранты предоставляются по результатам работы этих центров.

1.4K viewsIvan Begtin, 11:03

Add a comment

Ivan Begtin

The Bell [1] пока первыми из российских (ориентированных на Россию) СМИ подробно разобрали ситуацию с налоговым манёвром в ИТ [1]. Пожалуй, пока наиболее тщательный разбор того что с ним не так, насколько повредит и кому возврат НДС и так далее.

Я вот лишь могу повторить что ИТ рынок в России всё углублённее разделяется на ту часть которая взаимодействует с государством и часть которая старается держаться от него как можно дальше.

ИТ, а вернее, цифровой бизнес ориентированный на клиентов за пределами России давно уже, или создавал головную компанию не в России, или сменил юрисдикцию, или планирует это сделать. Дело, конечно, не только в налогах, но и в валютном контроле, в ужесточении регулирования и, в целом, недоверия потенциальных инвесторов и клиентов к российской юрисдикции.

Ссылки:
[1] https://thebell.io/vyshlo-ochen-nekrasivo-kto-pridumal-nalogovyj-manevr-dlya-it-i-chto-o-nem-dumaet-biznes

#it

The Bell

«Вышло очень некрасиво»: кто придумал налоговый маневр для IT и что о нем думает бизнес

Главным событием для российской IT-отрасли на этой неделе стал объявленный Владимиром Путиным «налоговый маневр». Он был задуман премьером Михаилом Мишустиным для того, чтобы российские IT-компании больше не уезжали из России. Но вернуть уехавших вряд ли…

3.2K viewsIvan Begtin, 20:25

Add a comment

Ivan Begtin

Классическая модель работы с данными предполагает использование ETL инструментов где ETL - это Extract, Transform, Load [1], комплексный процесс описанный ещё в 70-е годы 20-го столетия исходящий из данные последовательно извлекаются, преобразуются и далее уже только загружаются в очищенном/преобразованном виде в базу данных, как правило, являющуюся часть хранилища данных (Data Warehouse) и используемую для аналитических расчётов, систем BI и так далее.

ETL инструментов существует бессчетное количество, как в поставке вместе с движками баз данных крупнейшими вендорами, так и как самостоятельные продукты. Главным достоинством ETL всегда было то же что является его же главным недостатком - необходимость тщательного проектирования, понимания итогового результата что требовало, зачастую, довольно кропотливой подготовительной работы. Другой недостаток в том что в случае ETL из-за стадии преобразования время загрузки данных всегда было значительным. Это затрудняло работу с потоками данных.

Важное изменение в последние годы - это появление нового подхода, ELT. ELT - это Extract, Load and Transform [2], модель построенная на потоковой обработке данных и замену стадий L и T. При ELT данные вначале извлекаются, но ещё до их обработки они загружаются в финальное хранилище и уже инструментами предоставляемыми этим хранилищем они обрабатываются и превращаются очищенные/обработанные данные. Преобразование может производится самыми разными способами, от процедур в SQL, до внешних инструментов по преобразованию данных (data wrangling) и специализированных платформ.

Такой подход резко сокращает время загрузки данных и даёт возможность создавать на базе собранных первичных данных разные итоговые продукты, это могут быть:
- базы для аналитической работы и BI
- базы эталонных (золотых) записей
- срезы данных для использования в data science
и иные продукты.

При этом, для ELT хранилище данных - это не обязательно data warehouse с тщательно прописанными метаданными и тд. Зачастую это озёра данных с куда как менее тщательными требованиями по интеграции данных между собой.

Это не значит что у ELT нет недостатков.
Как минимум можно говорить о том ELT:
1. Требует хранения большего объёма первичных данных.
2. Требует значительных процессорных мощностей в хранилище необходимых для обработки данных.
3. Требует значительного более внимательного отношения к персональным и чувствительным данным, потому что в ETL процессе они, как правило, вычищаются на стадии трансформации и не попадают в целевую систему. А в ELT данные уже в системе и на неё накладываются ограничения связанные с обработкой данных и их хранением в определённой юрисдикции.

Подход ELT активно пропагандируется и продвигается облачными сервисами, что и понятно, они обеспечивают практически неограниченные аппаратные возможности, для хранения и обработки данных, зависящие только от бюджета тех кто обрабатывает на них свои данные.

ELT неразрывно связано с концепцией data pipelines и его отличия подробно разобраны во многих источниках компаний создающие свои продукты по этой концепции:
- блог XPlenty [3]
- блог Panoply [4]
- блог Talend [5]
- блог OpenBridge [6]
- блог DataForm [7]

Спросить чем отличаются ELT от ETL или попросить привести в пример несколько продуктов обоего типа - это хорошие вопросы на собеседовании инженера по работе с данными (дата инженера). ELT применимо не для всех задач, но уже настолько распространено, что нельзя не знать о том что это такое и как устроено.

Ссылки:
[1] https://ru.wikipedia.org/wiki/ETL
[2] https://en.wikipedia.org/wiki/Extract,_load,_transform
[3] https://www.xplenty.com/blog/etl-vs-elt/
[4] https://blog.panoply.io/etl-vs-elt-the-difference-is-in-the-how
[5] https://www.talend.com/resources/elt-vs-etl/
[6] https://blog.openbridge.com/etl-tools-elt-vs-etl-process-89bb1f71c7b3
[7] https://dataform.co/blog/etl-vs-elt

#etl #elt #data #datalakes #datawarehouse

Wikipedia

ETL

ETL (от англ. Extract, Transform, Load — дословно «извлечение, преобразование, загрузка») — один из основных процессов в управлении хранилищами данных, ETL – общий термин для всех процессов миграции данных из одного источника в другой (другие связанные с…

1.5K viewsIvan Begtin, 05:50

Add a comment

Ivan Begtin

Коммерсант пишет про то что портал Госуслуг хотят сделать единой системой (фронэндом) для работы с обращениями граждан [1].

Природа этой задумки понятна - сделать так чтобы у каждого гражданина был аккаунт ан госуслугах. Я прогнозирую что лет через 5 аккаунт на госуслугах будут создавать автоматически в роддоме и активировать с выдачей паспорта, если не раньше.

У меня много вопросов по поводу конкретно этой инициативы:
1. Будут ли охвачены обращения по 59-ФЗ или по 59 и по 8-ФЗ?
2. Что делать с обращениями от юридических лиц?
3. Как будут принимать обращения от уязвимых групп граждан (заключённые, не имеющие телефона, не граждане) и тд?

Ссылки:
[1] https://www.kommersant.ru/doc/4396978

#gosuslugi

Коммерсантъ

Жалобы пойдут в одно место

Прием обращений граждан централизуют на портале госуслуг

1.7K viewsIvan Begtin, 05:57

Add a comment

Ivan Begtin

И снова приходится упоминать Коммерсант, который пишет про то что Правительство РФ не дало монополии Сбербанку на платформу Гостех [1].

Я могу тут лишь добавить что до сих пор никто внятно не сформулировал что такое Гостех, зачем он нужен и какие задачи необходимо решать в первую очередь. Сформулировать задачи - это ведь означает и сформулировать проблемы, а в наличии проблем что-то признаваться никто не хочет.

Ссылки:
[1] https://www.kommersant.ru/doc/4396914

#digital #it #government

Коммерсантъ

Госвсех

Цифровой платформе, придуманной Сбербанком, не стали прописывать единого оператора

1.4K viewsIvan Begtin, 06:23

Add a comment

Ivan Begtin

Посыпаю голову пеплом за поздний анонс, но сегодня с 16:00 по 18:00 Инфокультура проводит вебинар о публикации открытых данных с большим числом коллег отрасли работающих в этой тема довольно давно.

Описание есть в Facebook [1] и регистрация на Timepad [2].

Ссылки:
[1] https://www.facebook.com/events/310008623500991/
[2] https://infoculture.timepad.ru/event/1346090/

#opendata #opengov #infoculture

Facebook

Семинар «Публикация открытых данных в России: что надо знать»

Causes event in Moscow, Russia by Информационная культура on Tuesday, June 30 2020

1.9K viewsIvan Begtin, 09:13

Add a comment

Ivan Begtin

В свежий реестр НКО получателей поддержки включили:

11 крупнейших получателей госсредств ("миллиардники")
8 крупнейших частных (корпоративных) университетов
Российский научный фонд
5 образовательных корпоративных организаций учреждённых Сбербанком
62 "НКО" РЖД
193 организации учрежденных органами власти
7 частных учреждений Газпрома

Давайте блиц опрос устроим.

1.3K viewsIvan Begtin, 16:14

Add a comment

Ivan Begtin via @vote

Корпоративные и госорганизации в реестре НКО получателей поддержки - это
anonymous poll

Я забыл огнемёт дома поэтому мне нечего сказать – 81
👍👍👍👍👍👍👍 69%

Ненормально, Минэкономразвития ошиблись в методологии – 24
👍👍 20%

Нормально, так и должно быть – 5
▫️ 4%

Ненормально, органы власти предоставившие сведения ошиблись – 4
▫️ 3%

Правительство ошиблось в критериях отбора – 4
▫️ 3%

👥 118 people voted so far.

1.4K viewsIvan Begtin, 16:14

Нормально, так и должно быть – 4%

Ненормально, Минэкономразвития ошиблись в методологии – 20%

Ненормально, органы власти предоставившие сведения ошиблись – 3%

Правительство ошиблось в критериях отбора – 3%

Я забыл огнемёт дома поэтому мне нечего сказать – 69%

Ivan Begtin

Forwarded from Госзатраты

Без малого 9 млрд рублей потратят на техническое оснащение трех филиалов автоматизированной информационной системы (АИС) «Налог-3». Соответствующий госконтракт заключили от лица казенного учреждения подведомственного Федеральной налоговой службе. Исполнителем по контракту выступает ООО «ИБС Консалтинг».

Как следует из соглашения, за счет средств федерального бюджета до 5 февраля 2021 года программным обеспечением оснастят филиалы АИС в Москве, Дубне и в Городце Нижегородской области. В перечне объектов закупки: машины баз данных, сетевые коммутаторы, межсетевые экраны, система мониторинга и управления, ПО для хранения баз данных и управления ими.

Отметим, что АИС «Налог-3» — это единая информационная систему ФНС России, которая обеспечивает автоматизацию деятельности службы. В том числе прием, обработку, предоставление данных и анализ информации, формирование информационных ресурсов налоговых органов, статистических данных, сведений, для принятия управленческих решений и предоставления информации внешним потребителям.

Подробности о многомиллиардном соглашении — на сайте проекта «Госзатраты»: http://amp.gs/2FBV

110 viewsIvan Begtin, 13:20

Ivan Begtin

О качестве данных и контроле качества:

Хороший обзор стандартов, подходов и инструментов работы с качеством данных в блоге DataInvestor (англ.) [1] в том числе с указанием стандартов таких как Data Quality Assessment Framework (DQAF) [2] используемого в Международном валютном фонде для анализа данных, и процессов их создания, от предоставляющих данные стран.

А также:
- Раздел обзоров на сайте Gartner посвящённый теме качества данных [3]
- О том как отличаются подходы к контролю качества данных при ETL и при ELT [4] подходах
- Подход и практики качества данных в канадском статистическом агентстве [5]

Одна из проблем в обеспечении качества данных в России в том что российских инструментов в этой области совсем нет и невозможно что-то "импортозамещать". В лучшем случае можно найти комбинацию инструментов с открытым кодом, в худшем делать всё с нуля и самостоятельно.

Ссылки:
[1] https://medium.com/datadriveninvestor/data-quality-management-roles-processes-tools-3c912e8e1db6
[2] https://dsbb.imf.org/dqrs/DQAF
[3] https://www.gartner.com/reviews/market/data-quality-tools
[4] https://www.talend.com/resources/best-practices-for-managing-data-quality-etl-vs-elt/
[5] https://www.statcan.gc.ca/eng/data-quality-toolkit

#opendata #dataquality #datamanagement

1.4K viewsIvan Begtin, 05:17

Add a comment

Ivan Begtin

Кстати, в мае этого года Департамент строительства Москвы создал ещё одну АНОшку: Автономная Некоммерческая организация "Развитие Спортивных и Инфраструктурных Объектов". Причём само распоряжение о его создании найти не удаётся, только проект документа для антикоррупционной экспертизы [1]
Но про доступность и публикацию НПА на федеральном уровне и на уровне субъектов федерации - это отдельная большая тема.
А в качестве домашнего задания, попробуйте:

1. Найти в системах pravo.gov.ru и pravo.minjust.ru распоряжения Правительства Москвы и его департаментов начиная с 2018 года
2. Найти место любого официального опубликования распоряжения о создании АНО "Развитие Спортивных и Инфраструктурных Объектов" .
3. Найти (где угодно) соглашения о информационном обмене/сотрудничестве/взаимопомощи Правительства Москвы (или иных органов) с технологическими компаниями (читай Яндекс).

P.S. Может уже бренд и онлайн медиа зарегистрировать "Кстати", чуть ли не каждый пост уже так начинаю.

Ссылки:
[1] https://www.mos.ru/ds/anticorruption/antikorruptcionnaia-ekspertiza/view/10783221/

#moscow #москва #anoism #transparency

www.mos.ru

Проект распоряжения Правительства Москвы «О создании автономной некоммерческой организации «Развитие спортивных и инфраструктурных…

Проект распоряжения Правительства Москвы «О создании автономной некоммерческой организации «Развитие спортивных и инфраструктурных объектов». Департамент строительства города Москвы. Депстрой

1.3K viewsIvan Begtin, edited 06:45

Ivan Begtin

Пока кратко, вышла стратегия работы с данными ООН [1]. Разбор её я напишу позже, пока это, как минимум, полезный документ чтобы на него ссылаться.

Ссылки:
[1] https://www.un.org/en/content/datastrategy/index.shtml

#opendata #data #datastrategy

www.un.org

UN Secretary-General’s Data Strategy

1.4K viewsIvan Begtin, 08:15

Add a comment

Ivan Begtin

По поводу дистанционного электронного голосования, я как мог сдерживался, но не могу, рвётся, не все ещё ощущают "перспективу" этой темы.

Давайте я сделаю предсказание:

1) Через 5 лет приложение госуслуг или иное мобильное приложение для голосований будет стоять на мобильном телефоне каждого гражданина начиная с 14 лет как минимум.

2) Голосования будут идти от 3 до 10 дней и только через мобильные устройства или на дому. Никаких избирательных участков более не будет.

3) Уклониться от голосования станет невозможно. Приложение будет напоминать о нём регулярно гудками/всплывающими окнами и тд. Чем ближе к окончанию срока тем больше напоминаний.

4) Голос не будет храниться в системе, но факт участия в голосовании будет и будет использовать при расчет социального рейтинга.

5) На первых порах соц рейтинг будет только про позитив. Не про наказание тех кто социально неактивен, а про лотереи, розыгрыши и поощрение тех кто социально активен.

6) Голосования будут происходить ежемесячно (один человек будет участвовать до 10-20 голосований в год). Сюда интегрирует все проекты типа "народный бюджет", "активный гражданин" и др.

Готов об заклад биться что так и будет

#digital #elections

2.3K viewsIvan Begtin, 11:00

3 comments

Ivan Begtin

В России, так сложилось, что открытый код ассоциируется у многих, слишком многих, либо с халявой, либо с любительскими проектами, либо с фриками. Ничто из этого, конечно же, действительности не соответствует. А вот экономика в открытом коде присутствует и она даже более чем конкурентна.

О том как она устроена лучше всего начинать с книги Nadia Eghbal (Надя Эгбал) под названием "Roads and Bridges:The Unseen Labor Behind Our Digital Infrastructure" [1] написанной ей в 2016 году для Фонда Форда. Надя 5 лет изучала сообщества разработчиков, работа в Github, и подошла к вопросу с академической дотошностью сохранив ясность и краткость изложения.

Буквально в ближайшее время, 4 августа, выходит её вторая книга "Working in Public: The Making and Maintenance of Open Source Software" [2].

Лично я давно подписан на её блог в Substack [3] и могу сказать что она однозначно очень интересно и структурированно мыслит и также Nadia Eghbal курирует Lemonade Stand [4], большой список источников финансирования для открытого кода.

Возвращаясь к книге "Roads and Bridges:The Unseen Labor Behind Our Digital Infrastructure" там есть много хорошо описанных примеров того что именно мотивирует разработчиков открытого кода, о сложных отношениях сообществ открытого кода с деньгами и о проблемах с которым сталкивается сообщество(-а).

Ссылки:
[1] https://www.fordfoundation.org/media/2976/roads-and-bridges-the-unseen-labor-behind-our-digital-infrastructure.pdf
[2] https://www.amazon.com/dp/0578675862/
[3] https://nayafia.substack.com/
[4] https://github.com/nayafia/lemonade-stand

#opensource #economy

1.7K viewsIvan Begtin, 19:28

Add a comment

Ivan Begtin

За свои годы работы в ИТ я проработал "архитектором ПО" 3-5 лет, смотря как классифицировать совмещение с другими ролями.

Проектирование ПО интересная, систематизирующая, самоорганизующая и организующая работа, идеально подходящая для непассионарных специалистов и, отчасти, потому я и перестал заниматься ей - из-за запуска собственных проектов и продуктов, а там уже ты совмещаешь в себе 5-7 ролей.

Что я наблюдаю в последние годы:
1. Очень многие архитекторы пишут что язык моделирования UML мёртв. Действительно я практически не вижу UML диаграмм в хороших примерах и во многих областях они словно исчезли полностью. Вместо этого используют всё чаще модели C4 (Context, Containers, Components and Code) сделанные в нотации "boxes and lines"
2. Есть ощущение что многое сместилось в сторону легковесного описания архитектурных решений, таких как Architecture decision record (ADR) со структурированным описанием решений в Markdown
3. Восхождение и падение микросервисной архитектуры. О ней всё ещё говорят, но мало кто может показать живой пример с обоснованием и демонстрацией. За исключением микросервисов которые являются частью облачных платформ.
4. Каждый разработчик теперь мини-архитектор. Современное ПО состоит из множества "кубиков" и, зачастую, нужно лишь написать код для их "склейки".
5. Во многих процессах разработки облачные решения/продукты/API стали неотъемлимой частью архитектуры. Cloud-as-a-code - всё более распространённая концепцияи владельцы крупных облаков всячески это продвигают.
6. Нарастающее использование low-code/no-code платформ
7. Всё больше [Word]Ops. DevOps, DataOps, GitOps и, наконец, NoOps для полностью автоматической инфраструктуры.

И не могу не отметить что современные онлайн курсы не поспевают за ежегодными изменениями в подходах и технологиях.

#software #it

2.7K viewsIvan Begtin, 05:54

9 comments

Ivan Begtin

Давний вопрос - как вести личные заметки.
Есть простые способы такие как "классические" - это папки и файлы, сложенные локально или в каком-нибудь облачном сервисе вроде Dropbox или Google Drive. Чуть более сложные - это множество текстов в Google Docs.

Есть чуть более продвинутые с помощью OneNote или Evernote. У Evernote за долгое время появилось большое число поклонников, тех кто ведёт в них заметки чуть не всю свою зрелую жизнь, но проприетарность, свой формат хранения и ещё многие особенности, не сделали его стандартом де факто.

Так что использовать сейчас? Самыми популярными и, на мой личный взгляд, удобными инструментами являются инструменты с использованием Markdown нотации:
• Notion (https://notion.so) - практический идеальный конструктор для создания пространств ведения заметок. Позволяет очень многое в управлении контентом, таблицами, подготовкой текстов и ведения заметок. Реально хороший инструмент и относительно недорогой. Главный недостаток в том что его шаблоны довольно ограничены, а всё остальное надо делать самостоятельно что требует хорошей самоорганизации и чёткости в структурировании себя. Лично я веду в Notion базы рецептов и ингредиентов. Минимальная стоимость в $4 в месяц.

• Roam (https://roamresearch.com) - гораздо менее насыщенная функциями (но куда больше смыслом) платформа для ведения личных журналов и заметок с акцентом на студентов и исследователей. Главные достоинства - это воспроизведение процесса мышления человека и автоматическая простановка обратных ссылок в заметках, а также организация всего процесса по организации собственного исследования или же того как делать заметки при обучении. Roam существенно дороже и выходит в $15 в месяц или за $500 можно получить пожизненный доступ. Многие считают что это того стоит, а о том как использовать Roam есть хорошая серия видеопрезентаций от Shu Omi. Там, в том числе, есть хорошо изложенное видео о том как использовать Zettelkasten метод в управлении знаниями и обучении через Roam.

• Obsidian (https://obsidian.md/) - это ещё один инструмент, на сей раз только в виде настольного приложения с синхронизацией с сервером по выбору пользователя и поддерживающее визуализацию взаимосвязанных заметок. Его оффлайновость с опциональным использованием сервера - это большое достоинство. Он бесплатен для тех кто хочет использовать в личных целях локально и $4 стоит подписка на синхронизацию через сервер.

• HackMD (https://hackmd.io) - персональная или командная вики основанная на Markdown. Хорошо годится для заметок в целом и куда хуже для структурированного ведения заметок если только нет большой привычки к Wiki. Стоит $5 в месяц за пользователя, есть возможность использовать бесплатно или развернуть свою копию из open source.

• WriteApp (https://writeapp.co) - это скорее минималистичный редактор чем полноценная система управления заметками. Стоит $25 для одноразовой покупки и $5 за ежегодное обновление. Лично я его часто использую как локальный Markdown редактор и потом из него уже переношу онлайн.

Наверняка этот список неполон, лично я использую пока Notion и WriteApp, присматриваюсь к Roam, но понимаю что чтобы его использование себя окупало надо вести исследовательские проекты или тщательно документировать долгосрочные размышления

#notes #software

Notion

Your connected workspace for wiki, docs & projects | Notion

A new tool that blends your everyday work apps into one. It's the all-in-one workspace for you and your team.

2.1K viewsIvan Begtin, 16:03

2 comments

Ivan Begtin

Должно ли государство следить за контактами граждан во время COVID-19 - это предмет активных дискуссий. А пока мы дискутируем - оно всё равно следит. Но, можно следить за своими гражданами и тогда есть вопросы про нарушение конституции, гражданских прав и так далее. Куда проще следить за гражданами других стран. Что и реализуют власти Таиланда [1] организуя отслеживание туристов в самое ближайшее время.

Ссылки:
[1] https://www.bangkokpost.com/thailand/general/1946280/task-force-to-be-formed-to-track-tourists

#privacy

Bangkok Post

Task force to be formed to track tourists

The Royal Thai Police is forming a special task force to track down tourists infected with Covid-19 as Thailand prepares to reopen its airspace to travellers.

1.5K viewsIvan Begtin, 10:12

Add a comment

Ivan Begtin

Один из самых закрытых стартапов кремниевой долины, важный подрядчик правительства США и разведывательного сообщества, Palantir, начал конфиденциальную подготовку к IPO [1] планируя привлечь $961 миллион [2].

Palantir многие годы является объектом интереса в виду из довольно продвинутых и очень непубличных технологий моделирования взаимосвязей между людьми, организациями и иными понятиями необходимыми в разведке и любых расследованиях.

Может быть благодаря IPO мы узнаем больше о их продуктах.

Ссылки:
[1] https://techcrunch.com/2020/07/06/secretive-data-startup-palantir-has-confidentially-filed-for-an-ipo/
[2] https://techcrunch.com/2020/07/02/sec-filing-indicates-big-data-provider-palantir-is-raising-961m-550m-of-it-already-secured/

#palantir #startups

TechCrunch

Secretive data startup Palantir has confidentially filed for an IPO

As the coronavirus pandemic spread throughout the world, Palantir pitched its technology to bring big data to tracking efforts.

1.9K viewsIvan Begtin, 10:54

Add a comment

Ivan Begtin

Рубрика "Без комментариев". Я так понимаю что пока Meduza [1], а вскоре и остальные СМИ пишут о том что база паспортов всех проголосовавших через электронное голосование оказалась в открытом доступе.

Плохое в этом то что вообще была эта программа и то что она оказалась в открытом доступе (как и база к ней). Это не фатальная утечка, там только номера паспортов, но крайне неприятная, в виду контекста. Я пока не могу придумать рабочий кейс при котором просто список номеров паспортов без иной информации может повредить, но, как бы, даже такого лучше не допускать. Если, кстати, кто-то понимает как такие утечки могут наносить ущерб - напишите в @begtinchat

Хорошее, в том что при таких масштабах голосования неизбежно должны были быть и ошибки в паспортах и я не удивлюсь если сам реестр недостоверных паспортов на который ссылается Медуза, мягко скажем, не вполне достоверен. Во всяком случае доверия к данным МВД у меня лично по умолчанию значительно ниже чем к данным в Минкомсвязи.

P.S. То что некоторые телеграм каналы и не только эти сведения распространяют, это как раз разница политактивизма и профессионального подхода. Лично я считаю правомерным распространять причины утечек только после выполнения последовательных шагов:
- предупредить источник утечки данных
- передать журналистам для публикации материала (при условии отсутствия раскрытия самих персональных данных)

А распространять саму базу - это, мягко скажу, если доказать что это перс данные - то незаконно, а даже если не доказать, то неэтично. Конкретные примеры каналов приводить не буду.

Ссылки:
[1] https://meduza.io/feature/2020/07/09/vlasti-fakticheski-vylozhili-v-otkrytyy-dostup-personalnye-dannye-vseh-internet-izbirateley

#pdleaks #leaks

Meduza

Власти фактически выложили в открытый доступ персональные данные всех интернет-избирателей В голосовании по поправкам участвовали…

Более миллиона жителей Москвы и Нижегородской области проголосовали за поправки к Конституции или против них через интернет. «Медуза» выяснила, что паспортные данные этих избирателей лежали практически в открытом доступе. Более того, оказалось, что некоторые…

1.9K viewsIvan Begtin, 08:31

Add a comment

Ivan Begtin

Я всё не успел прокомментировать новость что Amazon AWS приходит в Россию с партнерством с Mail.ru. Новость нельзя сказать что плохая, больше качественной инфраструктуры - всегда лучше. Но, всегда есть нюансы.

Я бы оценил вероятность что российский бизнес резко рванет переводить свою инфраструктуру из серверов Amazon в других юрисдикаций в российкуую - как невысокую. И так можно обеспечить доступность веб-контента через CDN, а недоступность данных для российских силовиков куда актуальнее чем скорость подключения.

А вот зарубежным компаниям которые ещё не локализовали в России персональные данные россиян будет некуда деваться. Если Mail.ru/Amazon будут действовать в тесном контакте с Роскомнадзором, то могут усилить давление на тех кто ещё не хранит данные в России.

#hosting #aws #thoughts

2.3K viewsIvan Begtin, edited 10:22

1 comment

Ivan Begtin

По поводу "утечки паспортов" с электронным голосованием не могу не продолжить. Много лет назад, когда деревья были большими, а я меньше работал с большими данными, я начал (и, эх, не закончил) книгу под названием "скрытые данные" которая была посвящена извлечению данных из многочисленных кодов, численных и буквенных, которые нас окружают. Там было о том как читать ОГРН, ИНН и так далее, бесконечное число кодов для расшифровки. Более 99 я тогда проанализировал и, даже, вздох, тогда ещё думал формулировать их онтологию ибо многие были взаимосвязаны.

Номера паспортов в России - это тоже некоторые уникальные коды, не менявшиеся структурно десятилетия, чем-то похоже на Social Security Numbers в США, с одной стороны объект пристального внимания и страха, с другой стороны малозначащие сами по себе.

Что важно знать о номере паспорта:
- номера паспортов не уникальны (не спрашивайте меня, я не отвечу), просто посмотрите на портал госуслуг и вспомните что там СНИЛС, а не номер паспорта. Подробностей тут не расскажу
- в отличие от других кодов у него нет проверочного номера
- первые 2 цифры серии паспорта - это код субъекта федерации, следующие 2 цифры серии - это номер года печати бланка, как правило соответствует или предшествует дате выдачи паспорта.
- остальные цифры инкрементальны, но нет какого-то известного алгоритма как они распределялись по УФМС/ОВД для выдачи поэтому нельзя оценить по номерам паспортов, например, общее число выданных паспортов за год или дату выдачи конкретного.

Из-за всего этого прямое раскрытие номеров паспортов проголосовавших дистанционно - это, конечно, не раскрытие персональных данных. Это раскрытие факта голосования, да, но не персональных данных формально.

Фактически эту базу стоит воспринимать как состоящую из 3 значений:
- номер паспорта
- признак что его владелец жив
- признак что его владелец использовал интернет-голосование (имеет телефон, компьютер и тд.)

Для всех кто находится в правовом поле эти данные ничего не дадут потому что большинство подобных пользователей не оперируют базами с паспортными данными людей.

А вот если мы говорим о неэтичных/пограничных моделях использования данных, то они, конечно, есть.
1. Всяческие торговцы базами "база покупателей БАДов", "база игроков Форекс", "база посетителей казино" могут теперь обогащать свои данные дополнительной информацией, голосовал ли человек онлайн. Можно ли это применить во вредоносных целях? Я по прежнему не могу придумать. Вижу лишь возможность обогащения одних баз данных другими данными.
2. Контроль голосования на крупных предприятиях. Если предположить что на некоторых предприятиях контролируют явку граждан на выборы, то о проверке голосовавших на УИКах руководство предприятий может договориться на месте, а проверку проголосовавших онлайн можно сделать только с помощью вот такой вот базы
3. Косвенная социология, вроде той что делала медуза по номерам бланков паспортов, выявляя потенциальные возрастные и территориальные группы голосовавших. Очень сомнительная социология, потому что нет возможности сравнить с демографией голосовавших в принципе, а не только онлайн.

Выводов у меня нет, я по прежнему считаю что персональных данных здесь нет, но публикация базы паспортов (базы хэшей) - это ошибка.

Кстати, когда в мае 2019 года я писал о том как реально извлекать закодированные персональные данные из цифровых подписей к документам - вот это была реальная утечка данных. Хочешь узнать чей-то СНИЛС, найди документ который этот человек подписал цифровой подписью (с)

Там тоже применялось "кодирование информации", но без хэш сумм.

Вся эта ситуация и многочисленные ранее говорят нам постоянно лишь об одном непреложном факте - в России нет регулятора защищающего права граждан на приватность. Обсуждать роль Роскомнадзора - это просто бессмысленно тратить время. Нужна ли реформа в этой сфере? Необходима.

#privacy #personaldata

2.4K viewsIvan Begtin, 07:35

9 comments

About

Blog

Apps

Platform