Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Большая утечка данных в Бразилии, в блоге компании PSafe [1] (португальский язык) упоминается о 220 миллионах лиц, а утечка, похоже, затрагивает также юридические лица и базу автомобилей. Нет подробностей о её источнике и где эти данные можно скачать, но первоисточник новости по ссылке выше, остальные, лишь ссылаются на него [2].

Ссылки:
[1] https://www.psafe.com/blog/vazamento-expoe-numero-de-cpf-de-milhoes-de-brasileiros-alerta-psafe/
[2] https://olhardigital.com.br/en/2021/01/20/safety/database-leak-exposes-cpf-of-almost-the-entire-population-of-brazil/

#leaks #brazil
Для тех кто интересуется о том как устроены приложения по мониторингу COVID-19 в других странах и какие есть методики их анализа и результаты можно узнать из декабрьского исследования Unmasked II [1] от Citizenlab посвящённого приложениям PeduliLindungi в Индонезии и приложений StaySafe PH и COVID-KAYA в Филлипинах.

По сравнению с другими исследованиями и анализом, авторы провели полноценный анализ безопасности приложений, разобрали код и даже смогли вытащить данные из базы Firebase которое филиппинское приложение использовало для отправки сведений о пользователях. В октябре 2020 года исследователи вначале нашли код аутенификации внутри запросов от приложения, а потом с его помощью вытащили из базы Firebase 190 тысяч записей с координатами филлипинских пользователей. Причём разработчик, судя по всему, так и не смог исправить эту ошибку до конца хотя и около месяца пытался это сделать (подробности в исследовании).

Мы в своём исследовании "Приватность государственных мобильных приложений в России" [2] сознательно не проводили такого анализа информационной безопасности, эта тема ближе к компаниям специализирующимся на проверках безопасности, пентестах и так далее. Но это совсем не значит что российские госприложения работающие с данными граждан сделаны так хорошо что там такие проблемы не могут быть.

Ссылки:
[1] https://citizenlab.ca/2020/12/unmasked-ii-an-analysis-of-indonesia-and-the-philippines-government-launched-covid-19-apps/
[2] https://privacygosmobapps.infoculture.ru/

#privacy #covid19 #security #leaks
В Мексике произошла предположительная утечка данных о 91 миллионе избирателей [1]. На теневых форумах продают эти данные и утверждают что они содержат все личные данные мексиканских избирателей на 2021 год.

Характерны комментарии в треде обсуждения "и вот так же они будут хранить наши биометрические данные?".

Ссылки:
[1] https://twitter.com/UnderTheBreach/status/1416664889603526660

#privacy #leaks #voters
Я рассказывал ранее что госорганы крайне халатно относятся к персональным данным граждан, особенно граждан которые вступают с ними в любые взаимоотношения, например, трудовые или договорные. Ещё один наглядный пример федерального уровня, Минобороны России продаёт высвобождаемое имущество и публикует протоколы торгов включая паспортные данные представителей компаний. Их довольно легко "нагуглить" запросом 'паспорт серия site:mil.ru/files filetype:pdf' [1]

Удивительно что никто из граждан так и не засудил представителей Минобороны за такое.

И это один пример из тысяч и не все они находятся так просто, но пытливые умы могут найти многое.

Ссылки:
[1] https://www.google.com/search?q=паспорт+серия+site:mil.ru/files+filetype:pdf

#leaks #milru #government #privacy #personaldata
Свежая новость, в Аргентине украдены данные о 45 миллионах паспортов граждан [1] [2]. Взлом произошёл через VPN аккаунт Министерства здравоохранения страны и уже подтвержден Министерством внутренних дел. А сам хакер уже планирует продавать эти данные.

Честно говоря, сложно добавить к этой новости что-то кроме того что для особо крупных баз данных физ лиц нельзя использовать те же подходы что и для защиты данных меньшего объёма. Чем больше база - тем больше риск. И планы нашего правительства по ускорению создания Единого регистра населения, цифровым паспортам и тд. лично у меня вызывают очень большие опасения. Баз будет много, они будут дублировать друг друга и число людей имеющих к ним доступ растёт.

Последствия могут быть катастрофичными.

Ссылки:
[1] https://roem.ru/19-10-2021/287005/argentina-id-breach/
[2] https://therecord.media/hacker-steals-government-id-database-for-argentinas-entire-population/

#privacy #leaks #argentina
ICIJ опубликовали данные из Pandora Papers [1]. Они доступны для поиска на их сайте и в виде дампов [2] для графовой базы данных Neo4J. Проще всего их скачать из репозитория на Github [3] в виде файла дампа на 429 МБ, а работать с данными в Neo4J Desktop [4]. Я думаю что сейчас в ближайшее время много будет желающих заглянуть в эти данные, журналисты так наверняка найдут там что-то интересное.

И, конечно, есть актуальная задача преобразовать эти данные в более популярные формы, потому что дампы Neo4J только в Neo4J и можно обрабатывать, а простых инструментов конвертации этих дампов нет, только через загрузку в Neo4J и последующий экспорт данных.

Ссылки:
[1] https://offshoreleaks.icij.org/investigations/pandora-papers
[2] https://offshoreleaks.icij.org/pages/database
[3] https://github.com/ICIJ/offshoreleaks-data-packages/tree/main/data
[4] https://neo4j.com/download/

#leaks #data #opendata #datasets
Некий хакер на одном из хакерских форумов пишет что продают базу в 150 ГБ на 48 миллионов QR кодов вакцинированных россиян за $100k и за меньгие деньги по частям. В качестве подтверждения доступна часть базы в одном онлайн сайте с поиском по инициалам и дате рождения и выложен файл в 10 тысяч анонимизированных записей.

Ссылки в данном случае я сознательно не даю, знающие люди знают где искать.

Если это подтвердится, то это будет крупнейшая утечка персональных данных граждан из российских ФГИС и мощнейшая дискредитация вакцинации и Госуслуг(

Очень хочется надеяться что утечку быстро прикроют или что масштабы её сильно меньше. Но если это не так, боюсь что для Минцифры наступят тяжелые времена.

UPD. И, конечно, хочется дождаться какой-либо независимой проверки что там действительно все эти данные, а не сгенерированный фэйки.

#leaks #data #personaldata #privacy
На всякий случай напомню что в 2019 году я публиковал исследование по "легальным утечкам" из государственных информационных систем [1], вот тут можно скачать его в PDF целиком [2]. И с той поры несколько раз собирался его обновить/повторить, но в итоге отложил на неопределенный срок потому что очень сложно делать такое исследование публично и не навредить тем чьи данные утекают, а непублично его можно делать только по чьему-то заказу, а в России, повторюсь, нет активного интересанта регулятора способного такую работу заказать.

По факту персональные данные публикуются _официально_ повсеместно. В реестрах образовательных учреждений субъектов федерации, если ты ИП. В реестрах граждан имеющих право на обеспечение жильем, в реестрах экспертов, на электронных торговых площадках, протоколах результатов торгов госимуществом, доверенностей приложенных к договорам и офертам поставщиков, документах экспертизы реконструкции объектов культурного наследия, протоколах собрания ТСЖ, аудиторские заключения нко с паспортными данными учредителей и такого ещё много.

Писать об этом давая ссылки нельзя, владельцы баз данных и публикаторы материалов инертны и не исправляют месяцами и годами.

Ссылки:
[1] https://begtin.tech/pdleaks-p3-govsys/
[2] http://files.begtin.tech/f/f75964ea1fe94f2d8d61/?dl=1

#privacy #leaks #personaldata
О данных, веб-сайтах и том как с ними работают. Я рассказывал что веду архивацию госсайтов, в том числе самописными инструментами, которые архивируют данные из открытых API которые веб-краулеры не поддерживают. Такая утилита есть APIBackuper для сфокусированной архивации и ещё для 5 популярных CMS у которых такое общедоступное API есть по умолчанию. Некоторые владельцы сайтов это API по умолчанию сразу отключают, но у большинства оно доступно и через него можно скачивать весь тот же контент что есть на сайте, только быстрее, удобнее и автоматически.

Но бывают и вопиющие случаи. Не буду называть конкретный орган власти/госорганизацию, но у них на веб-сайт предусмотрена подписка на рассылки СМИ. Подписка реализована встроенными средствами CMS и, барабанная дробь, открытые интерфейсы этой CMS отдают данные о всех подписчиках. К счастью, их там не так много, чуть более 200 человек и данные там хоть и персональные, но не самые чувствительные, только email+ФИО+факт подписки, но картина показательная о том как организована работа с данными в госорганах.

В данном случае даже не знаю что лучше, написать им чтобы исправили, или забить на них и пусть сами разбираются с последствиями (там правда, ничего серьёзного нет, обычный контентный сайт).

Таких случаев много, много случаев публикации чувствительных данных, просто доступа к данным и тд. Госзаказчики чаще всего просто не знают на каких инструментах создана их инфраструктура и поэтому так много недокументированных API у госсайтов и государственных информационных систем. Это вопрос не только культуры работы с данными, но и обычной технологической культуры и полнейшее отсутствие централизованного аудита и мониторинга государственного технологического сектора.

#tech #government #governmentit #privacy #leaks
В свете последних событий я слегка упустил тему с последними утечками персональных данных которые публиковали украинские хакеры (Яндекс.Еда, СДЭК и др.) и интенсивными хакерскими атаками в первую очередь на органы власти в России.

И тут есть два аспекта. Первый, что делать если "shit happened" и второй, что делать если "shit will happen soon".

Первый вопрос в том как должны себя вести компании когда у них произошли утечки данных и достаточно существенные чтобы это нельзя было бы скрыть.

Должны ли они?
- уведомить регулятора(-ов)
- уведомить всех пострадавших
- написать публичный отчет о подробностях инцидента
- поименовать и уволить/иным образом наказать ответственных
- описать полный перечень принимаемых действий для неповторения утечки в будущем
- обеспечить материальную компенсацию пострадавшим

Что-то ещё не перечисленное выше? Что компании должны сделать и делать в таких случаях?

Потому что текущие утечки - это серьёзно, но могут быть утечки и посерьёзнее. Например, утечки из крупных государственных систем или биллинга физ. лиц естественных монополий или внутренний документооборот крупных корпораций и многое другое.

А второй аспект про то что надо делать прямо сейчас компаниям/организациям для минимизации ущерба до того как дерьмо случится. Потому что можно почти на 100% быть уверенными что произошедшее только начало и оно точно случится, в зоне риска могут быть все недостаточно защищённые информационные системы, частные и государственные.

Регулирование в России и в мире развивается по принципу усиления ответственности для операторов и обработчиков персональных данных. И в России сейчас говорят об оборотных штрафах для компаний.
Что должны делать компании прямо сейчас?
- кратно увеличивать расходы на информационную безопасность
- проводить срочный аудит унаследованных информационных систем
- ужесточать ответственность за несанкционированный доступ к данным
и тд.

#security #privacy #leaks
То что утекли данные о покупках во Вкусвилл - это, конечно, очень плохо. Как и любые иные максимально персонифицированные данные позволяющие локализовать потребителей. Но что хорошо и правильно - это то что команда Вкусвилла не спрятала голову в песок, а пишут о своей реакции на утечку и принимаемых мерах [1] несмотря на негатив, которого они по любому избежать не смогут.

Всё это, конечно, никак не отменяет того что каждая такая утечка - это необратимый процесс. Посмотрим на реакцию регулятора и коллективные иски и будет ли Вкусвилл публиковать результаты расследования, организует ли внешний аудит безопасности и тд.

Ссылки։
[1] https://vkusvill.ru/media/journal/baza-dannykh-chto-proizoshlo.html

#privacy #dataleaks #leaks
Чума, война и утечки данных (с)

Как и многие, я слежу за тем сколь многие данные утекают сейчас из российских сайтов, информационных систем и сервисов. Причём если раньше были утечки у коммерческих компаний и их продуктов, вроде утечек СДЭК, Деливери.Клаб, Яндекс.Еда и Вкусвилл и регулятор(-ы) чуть ли не сразу заговорили об оборотных штрафах, а пользователи, не без оснований, возмущались непомерно малыми штрафами. Я знаю какое-то количество людей до сих пор расстроенных что не получили компенсации от коммерческих компаний после масштабных утечек.

Однако, лично меня ещё тогда заботил вопрос, а что будет когда утечки данных начнут происходить с сайтов госорганов или госкомпаний или разного рода гос-НКО. Им регулятор тоже будет грозить оборотными штрафами?
И вот что можно пронаблюдать сейчас։
- утечки персональных данных из как минимум трёх продуктов Сбера։ Сберлогистика, СберПраво и СберСпасибо
- утечки персональных данных проектов Агентства Стратегических Инициатив
- утечка данных о зарегистрированных пользователях с сайта Минтруда
- утечка данных о сотрудниках и студентах НИУ ВШЭ

Ссылки я приводить не буду, ищущие да и обрящут. Про большую часть упомянутого писали, или СМИ, или профильные телеграм каналы.

И? Где регулятор? Где тотальная проверка организаций после утечек? Где публичные расследования и увольнения руководителей по ИТ и инфобезу если они вообще там есть?

Коммерческие компании, при всех их недостатках, всё это время реагировали куда адекватнее на утечки их данных. Так что всё это показывает, и регулятора, и затронутые госструктуры крайне неприглядно.

Тут есть ещё два немаловажных факта о которых нельзя не упомянуть։
1. Сбер - это не только множество сервисов для потребителей, но и ГосТех. Только если в случае СберПрава вы идёте и пользуетесь им добровольно, то ГосТех - это история принудительная. А что если ГосТех протечёт ...? Пока не так страшно, потому что я давно уже пишу что ничего критического они туда ещё не поместили, но нынешней репутацией Сбербанка сама затея становится ещё более сомнительной.
2. Стремительное закрытие госорганами многих доступных данных, вроде госзакупок, субсидий, данных об учредителях и владельцах недвижимости было, в первую очередь, чтобы скрыть их от журналистов расследователей. Резонный вопрос теперь, а толку то? У журналистов расследователей теперь на руках с каждой неделей всё больше данных из утечек. На их основе можно проводить довольно серьёзный анализ, и то что ещё не так много было публикаций, так это только потому что это персональные данные и этические ограничения.


#data #leaks #privacy #government