Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Один из ключевых механизмов обеспечения приватности и безопасности данных пользователей при работе в сети, протокол HTTPS [1] до сих пор имеет гораздо меньшее распространение чем мы могли бы ожидать за эти годы.

Этот протокол, ранее редко используемый, стал особенно необходим на фоне подозрений о том что государственные спецслужбы перехватывают трафик граждан и того что трафик могут перехватывать, как злоумышленники, так и спамеры, маркетинговые агентства и иные коммерческие структуры собирающие больше персонифицированных данных о пользователе.

Например, компания Google вот уже много лет внедряет HTTPS для всех своих сервисов и с середины этого года HTTPS по умолчанию включего во всех ее сервисах [2]. Они же осущесвляют мониторинг использования HTTPS наиболее популярными сайтами [3] и вот уже 2 года как Google использует наличие HTTPS у сайта для повышения его рейтинга и ранжирования [4].

У органов власти также есть множество онлайн ресурсов и на многих из них граждане авторизуются и направляют свои персональные данные. При этом, у них шифрование трафика отсутствует или присутствует с ошибками. Наглядный пример - сайт обращений к Президенту letters.kremlin.ru не использует HTTPS. Это означает что любой может перехватить трафик между Вами и этим сайтом и перехватить текст обращения и Ваш логин и пароль. Аналогичная ситуация с порталом "Наш Санкт-Петербург" [6] и множеством других.

Другая проблема в том что у протокола есть много уязвимостей и если администраторы сайта не предпринимают усилия, то трафик, опять же, можно перехватить. Пример, официальный портал города Москвы mos.ru при проверке сервисом SSLLabs [7] уязвким к DROWN атаке [8]. И таких примеров, также, немало.

В США, для плавного перехода сайтов на HTTPS протокол, был создан проект Pulse [9] в котором осуществляется мониторинг внедрения HTTPS на всех 1154 сайтах относящихся к федеральному правительству США.

Проект написан полностью на Ruby и открыт его код [10] для любого желающего. Его можно назвать одним из успешных проектов государства с открытым кодом, например, его уже внедрили в Нидерландах [11] охватив 1816 сайтов, включая сайты местных органов власти.

В России, в настоящий момент, подобный сервис мониторинга официальных сайтов отсутствует. Также как и отсутствует более менее сведенный реестр всех официальных сайтов и иных сайтов органов власти. Например, в АИС "Монитор госсайтов" [12] собраны только официальные сайты ФОИВов, администраций субъектов федерации и администраций муниципальных образований (не все). Единого же официального реестра всех сайтов органов власти просто не существует. В США такой список есть, хотя бы, для доменов в домене .gov [13] и он официально ведется GSA. В России все было бы сложнее в виду того что многие органы власти не имеют доменов в зоне .gov.ru, например, МВД (mvd.ru) или МЧС (mchs.ru). Что, впрочем, не означает что ситуация с безопасностью данных пользователей неактуальна и пользователям российских сайтов органов власти.

Ссылки:
[1] https://ru.wikipedia.org/wiki/HTTPS
[2] https://www.google.com/transparencyreport/https/?hl=ru
[3] https://www.google.com/transparencyreport/https/grid/?hl=ru
[4] https://webmasters.googleblog.com/2014/08/https-as-ranking-signal.html
[5] http://letters.kremlin.ru
[6] http://gorod.gov.spb.ru
[7] https://www.ssllabs.com/ssltest/analyze.html?d=mos.ru
[8] https://blog.qualys.com/securitylabs/2016/03/04/ssl-labs-drown-test-implementation-details
[9] https://pulse.cio.gov
[10] https://github.com/18F/pulse
[11] https://pulse.openstate.eu
[12] https://gosmonitor.ru
[13] https://github.com/GSA/data/blob/gh-pages/dotgov-domains

#digitalgovernment #opengovernment #opendata #domains
Напомню что в репозитории govdomains на github [1] находится наиболее полный на сегодняшний день реестр доменов относящихся к органам власти РФ. Сейчас он актуализирован и довольно существенно пополнился.

В общей сложности это 13766 доменов федерального уровня и 57 субъектов федерации. Охватываются домены относящиеся к органам власти, государственным информационным системам, госпрограммам и разного рода другим госпроектам.

Пока не охвачены все субъекты, но это только вопрос времени.

Зачем нужен этот репозиторий? Вот лишь несколько применений:
1. Архивация официальных сайтов органов власти и их проектов.
2. Мониторинг качества официальных сайтов. Например, наличия HTTPS и качества подключения HTTPS по аналогии с проектом pulse.cio.gov
3. Мониторинг того какой хостинг и сервисы использует государство. Не хостятся ли российские госсайты в странах НАТО например (шутка).
4. Мониторинг не попадают ли госсайты под блокировки Роскомнадзора.
5. Проверка официальных email'ов представителей власти. Такое исследование мы ранее делали, выяснили что у большинства госорганов официальная почта на mail.ru

И так далее. Основное применение для Национального цифрового архива России [2], но может пригодится и другим исследователям Рунета.

Ссылки:
[1] https://github.com/infoculture/govdomains
[2] http://ruarxive.org

#opendata #opengov #domains #digitalpreservation
DNS Flag Day [1] - важное событие в обеспечении безопасности Интернета, будет отключён старый протокол DNS и произойдет переход на обновлённый протокол EDNS. Об этом пишет подробно Алексей Лукацкий в блоге Cisco [2]. Для соответствия новому протоколу необходимо использовать обновленные DNS сервера и большинство уже это сделано. Большинство, но не все и не все в России.

Домены таких органов власти: Минфин РФ (minfin.ru), Роскомнадзор (rkn.gov.ru) уже не проходят проверку на сайте dnsflagday.net и это ещё не полная проверка.
Напомню что все домены всех госсайтов которые на сегодняшний день известны, собраны в репозитории govdomains [3] на Github и любой желающий может проверить какие сайты будут работать нормально, а где ждать сбоев с 1 февраля.

Cсылки:
[1] https://dnsflagday.net/
[2] https://habr.com/ru/company/cisco/blog/436662/
[3] http://github.com/infoculture/govdomains

#privacy #security #domains
Небольшое, но нужное и важное обновление нашего небольшого проекта по созданию базу всех госдоменов и госсайтов. В репозиторий [1] выложен файл feddomains.csv [2] с доменами относящимся к федеральной власти размеченным по органам власти, типам сайтов, статусу (действует/не действует) и так далее.

Всего это 7577 доменов, не все, но значительная, если не подавляющая часть их включено.

К каждому домены собираются сведения:
- название
- тип сайта
- орган власти/организация
- статус
- государственная информационная система
- регион, если есть региональная привязка

Пока полностью завершена только привязка домена к госоргану/организации

Не завершены: классификация сайтов по типу, не заполнены данные по госсистемам, пока очень немного заполнено по региональной привязке.

Все домены можно также просмотреть в Airtable [3] где ведется оригинал базы данных.

Зачем это нужно? Первая и основная задача - это необходимо для архивации сайтов в рамках национального цифрового архива [4], другие задачи включают вопросы мониторинга приватности, например, проверку использования HTTPS вместо HTTP и доверенные сертификаты. По аналогии с pulse.cio.gov в США [5].

Дополнительно отмечу что весь этот маленький проект ведётся внутри Информационная культура без какого-либо финансирования. Фактически мы за Минкомсвязь РФ делаем их работу. Пусть хотя бы начнут пользоваться и мониторить госинфраструктуру, потому что есть подозрения что они сами не знают как там всё устроено;)

Вот некоторые цифры и факты:
- более 2500 сайтов (33% от общего числа) - это сайты судов и судебной системы из системы ГАС Правосудие
- чуть более 11% госдоменов находятся в зоне .gov.ru,
- не все домены в зоне .gov.ru ведутся госорганами, есть те которые ведут учреждённые государством НКО
- до сих пор у многих сайтов первичен доменный префикс www
- список доменов неполон, за эти годы несколько госорганов создали "фермы-сайтов" которые будет крайне сложно переносить на один домен, если правительство такое когда-либо задумает. Такие "фермы сайтов" есть у Минобороны, МВД, Судебного департамента, Следственного комитета, Роспотребнадзора и многих других.
- часть госорганов перевели все региональные сайты терр управлений на общий домен, а домены субъектов теперь перенаправляют на него. так сделали ПФР, ГИБДД, ФНС и др.
- сейчас почти не включены домены госучреждений, но они собраны из первосточников и тоже есть в репозитории.

Очищенные данные, исходный код и первичные данные - все выложены на GitHub. В конечном итоге результатом будет собранная база данных, API и веб интерфейс надстройки. И охват всех уровней власти конечно.

Ссылки:
[1] https://github.com/infoculture/govdomains/
[2] https://github.com/infoculture/govdomains/tree/master/refined
[3] https://airtable.com/invite/l?inviteId=inviQBG5Acys5mrEn&inviteToken=0b5ac06d25a4e88470b1c2916fcc4941008dd2dcb312dcfe88bdc2841af9774b
[4] http://ruarxive.org
[5] https://pulse.cio.gov

#opendata #data #government #domains
Я как то рассказывал что веду систематизированный реестр всех госдоменов в России. Они доступны в репозитории на Github [1] для федеральных и региональных властей.

Применений у него много:
- сбор однотипной информации с сайтов
- архивация сайтов с риском исчезновения
- анализ их защищённости (поддержка HTTPS)
- анализ применения стандартов
- анализ цифровых активов госорганизаций
и ещё многое другое.

Но реестр на github'е всегда был не до конца точный, он собирался вначале через поиск корневых доменов и затем поиск всех их поддоменами разными автоматизированными способами.

Но их надо было почистить, классифицировать и тд.

Поэтому на его основе сейчас у меня есть реестр доменов используемых на федеральном уровне власти, 7516 доменов на сегодня. Из них около 2500 - это сайты судов и около 900 сайты подразделений МВД. Все сайты на 3/4 размечены по типам сайтов, на 1/5 по региональной привязке (есть не у всех, а только у территориальных управлений).

Не все из них, в принципе, доступны, некоторые на которых были сайты сохранены по архивным соображениям.

Но по доступным есть проверка поддерживают ли они HTTP и HTTPS.

Если кому-то этот реестр нужен то его рабочая версия есть в отдельной папке репозитория [2]. Этот список - это экспорт из эталонной базы которая теперь перенесена в Airtable. Самой базой в Airtable могу поделиться если кто-то будет готов контрибьютить туда регулярно.

Ссылки:
[1] https://github.com/infoculture/govdomains/
[2] https://github.com/infoculture/govdomains/tree/master/refined

#govenment #domains
12. Хуже этого может быть только если в определенный момент Правительство купит/национализирует Крипто-Про и заставит ставить его на все продаваемые в России компьютеры, смартфоны и другие устройства. А доступ к сайтам будет через Chromium-ГОСТ с поддержкой отечественной криптографии. Но во первых это будет дорого, во вторых сложно, и в третьих, ну просто всегда есть те кто в этом не заинтересован. Но если даже только промелькнет новость о чём-то подобным - помните, время паниковать. Потому что отечественная криптография - это один из наиболее легко обосновываемых и внедряемых способов нарушить сетевую нейтральность на страновом уровне.

#government #web #domains
В США есть официальный реестр государственных доменов в зоне .gov [1], его регулярно обновляют, ведомство GSA публикует обновлённый перечень, а разного рода проекты и активисты активно его используют. Ко времени окончания срока Трампа этот реестр сократился примерно на четверть, в виду госполитики по постепенному сокращению доменов и созданию поддоменов и разделов на госпорталах.

Ben Balter, старший руководитель технических программ в Github'е регулярно анализирует этот список и публикует полученные результаты. Вот и в этом году две недели назад он разместил аналитику со свежими результатами анализа [2].

Что мы можем из него узнать?
- Всего - 1121 федеральный .gov домен (есть ещё некоторое количество в ведение властей штатов и графств)
- 264 домена просто перенаправляют на другие домены
- к 845 доменам можно обращаться без www
- 95.36% доменов поддерживают HTTPS, а 44.3% доменов поддерживают HSTS
- у 669 (72.25%) есть адрес IPv6
- у 305 (32.94%) доменов идентифицируется CMS

и так далее. Полный список доменов и их профилей и данные сканирования общедоступны [3].

Напомню что в России нет официального госреестра госдоменов и большая часть доменов не в зоне .gov.ru. Неофициальный их реестр доступен в репозитории Инфокультуры [4] и там только корневых доменов более 180, а только в зоне .gov.ru с поддоменами более 941 штук.


Ссылки:
[1] https://github.com/GSA/data/tree/master/dotgov-domains
[2] https://ben.balter.com/2021/01/11/analysis-of-federal-dotgov-domains-pre-biden-edition/
[3] https://ben.balter.com/2021-analysis-of-federal-dotgov-domains/domains/
[4] https://github.com/infoculture/govdomains/tree/master/refined

#government #domains
Я, кстати, регулярно рассказываю что веду пока что наиболее полный реестр госдоменов, включая поддомены в России, он в специальном открытом репозитории доступен в виде дампов [1], а сам домен в базе в Airtable и там собираются и связываются:
- домены - всего 7602
- корневые домены - всего 191
- организации - всего 110
- информационные системы - всего 47
- субъекты федерации - все что имеются
- подсети (ASN) - 161 (включая все подсети хостингов, господрядчиков и тд)

При этом пока совершенно не охвачены власти субъектов федерации, бюджетные учреждения всех уровней да и на федеральном уровне далеко не всё, просто не с чем сравнивать, нет эталонной государственной базы.

Все размеченные и обогащённые доп. данными, например, по подсетям дополнительные сведения по стране и типу владельца, а по каждому домену тип домена, статус, уровень власти, поддержка http, https и ещё многое другое.

Так что на выходе это большая такая база которую я начинал вести только в целях мониторинга доменов для архивации, а сейчас она много для чего ещё годится.

Её можно оставить как есть, можно добавить к ней API, а можно сделать над этой базой веб интерфейс и дать возможность просматривать внесённые туда объекты. Сделать это можно двумя условными способами.
Способ 1: Сделать веб надстройку с поиском и просмотром над базой. Продолжать редактировать в Airtable
Способ 2: Сделать вики и в ней роботом создать веб страницы для каждого домена, каждой подсети и других объектов. А дальше переходить в Вики для редактирования и вести базу как базу знаний, в том числе другие могут пополнять эту базу знаний.

Ссылки:
[1] https://github.com/infoculture/govdomains/

#opendata #opengov #it #domains
Да, я давно хочу написать по поводу переноса госдоменов ФОИВов в зону .gov.ru. Цель, конечно, благая, локализовать домены органов власти и госучреждений в этой зоне правильно, но... Всегда есть но, и мне есть что сказать:
1. Перенесли не все ФОИВы. Пример, МВД, на сайте правительства указан mvd.gov.ru, а по факту мвд.рф [1]
2. Инфраструктура почты у большинства госорганов осталась на старых доменах
3. Большая часть информационных систем осталась на старых доменах (не у всех, но у многих). Пример, Росархив [2]
4. Огромное число госпроектов, госучреждений и тд. находятся в других доменах. Пример, системы Росприроднадзора [3]

И так ещё много всего, у меня в реестре госдоменов 192 корневых доменов и больше всего их в зонах msudrf.ru и sudrf.ru в ведении судебного департамента, там есть по сайту на каждый суд.

А пользуясь случаем не могу не напомнить что корневой сервер www.gov.ru [4] - это какой-то бесконечный позор: неполный, неактуальный, бессмысленный и с дизайном из середины 90-х годов

Ссылки:
[1] https://мвд.рф/
[2] http://statistika.archives.ru
[3] https://www.google.com/search?hl=ru&q=site%3A*.fsrpn.ru
[4] http://www.gov.ru/

#government #domains
Я тут много рассказываю про мониторинг госсайтов в России и репозиторий с их списком который я веду. Тем временем о том как это сделано в других странах на примере США.

В США есть репозиторий команды 18F под названием site-scanning [1] где собран код с помощью которого государственные сайты еженедельно проверяются по множеству критериев и о них собирается очень много всякой информации, от метаданных о ссылках на другие ресурсы, до проверки того какие версии TLS/SSL поддерживаются. Собранные данные доступны через API и для выгрузки [2]. Реестр всех госдоменов доступен на портале search.gov [3] и он же используется для поиска по всем госсайтам. Там даже логика похожая той же что я придерживаюсь - отдельно система редактрования реестра и отдельно списки сайтов в CSV формате.

Среди множества задач для которых такие реестры доменов нужны я выделю только несколько:
- определение что автор письма является госслужащий по домену и тем самым давать или не давать возможность регистрации в той или иной системе
- поиск по сайтам, например, с помощью Google Custom Search Engine или его аналогами
- архивация сайтов национальными архивами
- проверки безопасности и мониторинг обязательности применения HTTPS
- выявление зависимостей от третьих сторон (внешних компонентов)
и ещё много другого.

Ссылки:
[1] https://github.com/18F/site-scanning
[2] https://open.gsa.gov/api/site-scanning-api/#overview
[3] https://search.gov/developer/govt-urls.html

#opendata #api #domains #usa
Для тех кто интересуется состоянием госинформатизации, госсайтами и госдоменами и тд. несколько

Это результаты анализа 7694 доменов используемых сайтами органов власти.

Госдомены используемые для эксплуатации государственных информационных систем, прописанных в эксплуатационных и нормативных документах и зарегистрированных на физических лиц
- govprograms.ru - Портал государственных программ Российской Федерации, его часть с которой работают лица ответственные за внесение данных. Прописан в документации сданной подрядчиком по контрактам на его создание и на других ресурсах
- osrpn.ru - сайт общественного совета Росприроднадзора
- fond-kino.ru - сайта федерального фонда социальной и экономической поддержки отечественной кинематографии
- tvroscosmos.ru - сайт телестудии Роскосмоса
- attestatcia.ru - Информационная система "ИС Аттестация" Миннауки и высшего образования РФ
- gosarm.ru - непонятного назначения система Минцифры России
- scmks.ru - ситуационный центр Минцифры России
- rg-des.ru - официальный сайт рабочей группы при Совете при Президенте Российской Федерации по развитию гражданского общества и правам человека по общественному контролю за проведением санитарно-эпидемиологических мероприятий (ощущения официальности, конечно, там минимальное, зато какое название "насыщенное").

Госорганы и структуры при них использующие почту Google для официальной переписки
- president-sovet.ru - совет по правам человека при Президенте РФ
- yadonor.ru - портал ФМБА России
- apkpro.ru - сайт академии Минпросвещения России

Использующие Cloudflare как CDN:
- zhit-vmeste.ru - портал Минтруда "Доступная среда"
- myrosmol.ru - портал Росмолодёжи
- scmks.ru - ситуационный центр Минцифры России

Факты:
- IPv6 используется лишь на менее 0.1% всех госдоменов
- зависимость от зарубежной инфраструктуры реально снизили, раньше почту Google для домена и иные инфраструктурные сервисы использовали чаще

А я напомню что наболее полный реестр госдоменов публикуется в репозитории на Github [1]. Он синхронизирован с большой базой на Airtable где собраны все домены, ASN, информационные системы и связанные с ними сведения. Этот реестр создавался для целей архивации госсайтов, но можно применять и в исследованиях госинфраструктуры. Например, у меня никак не дойдут руки проверить наличие https у госдоменов и протухание сертификатов. Но это уже в сфере инфобеза что в стороне от моих основных интересов, хотя и должно быть в интересах ответственных госорганов.

И, конечно, спектр доменов относящих к гос-ву куда больше. Со всеми бюджетными учреждениями их должно быть около 50-70 тысяч только на федеральном и региональном уровне.

Ссылки:
[1] https://github.com/infoculture/govdomains/

#government #domains