Ivan Begtin
7.97K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Кстати, интересно, проработать тему открытости поручено Минэкономразвития, а оно на предпоследнем месте по оценке доклада https://ach.gov.ru/upload/pdf/Otkrytost-2020.pdf
Любителям рептилоидов, чипирования граждан, всемирного заговора масонов и прочих интересных способов скоротать свою разумную жизнь подкидываю ещё одну тему "мирового заговора". На сайте World Integrated Trade Solution, где Всемирный банк публикует статистику торговли между странами есть раздел COVID-19 test kits (тестирование на COVID-19) и статистика за 2017, 2018 и 2019 годы. Ссылка https://wits.worldbank.org/trade/comtrade/en/country/ALL/year/2017/tradeflow/Imports/partner/WLD/nomen/h5/product/300215

Что тут скажешь, ошибаются все, включая Всемирный банк.

Или мы что-то не знаем... ?

P.S. Пора заводить рубрику #юмор на канале, хотя ошибка и самая что ни на есть настоящая
Для тех кто интересуется как устроено пространство работы с данными (data engineering) то весьма неплохая дорожная карта дата инженерии на Github [1]. Правда, я вот лично, могу сказать что я лично владею в основном другим стеком инструментов да и большинство devops и dataops инженеров тоже, поскольку в реальном мире ты, как правило, совмещаешь очень много ролей и профессий, и лишь немногие очень чётко и узко сфокусированы на развитии только в одном профессиональном направлении.

Что бы я отметил:
- есть очень большая разница в инструментах которые выходят из систем связанных с работой с онлайн пользователями и, например, с инструментами и средой работы с открытыми данными. Системы выходящие из цифровых стартапов почти все заточены на сбор данных систем аналитики, статистики, счетчиков и тд. Они как правило готовые или полуготовые, с кучей интеграций и работой в реальном времени.
- инструменты работающие с открытыми данными куда сложнее, даже если источников относительно немного, всегда есть проблема в том что публикующие данные меняют свои сайты, форматы, схемы предоставления данных. Сами данные публикуются изначально в различных формах. От данных в виде HTML таблиц, то Excel файлов упакованных в RAR или 7z архивы и тд. Есть несколько стартапов которые пытаются гармонизировать данные и решать эту проблему, но не то чтобы очень успешно. Также нет и универсального инструмента по сборке данных (data build tool).
- в принципе, с инструментами беда, особенно для государства. В России 2-3 решения имеющие коммерческую природу и чаще используется стек работы с данными Apache поскольку и Java специалистов много и инструменты вроде Hadoop'а уже входят в программы обучения во многих ВУЗах.

Интересно было бы поговорить о цельных стеках по data engineering в России. Кто какие инструменты использует и для каких задач.

Ссылки:
[1] https://github.com/datastacktv/data-engineer-roadmap

#data #dataengineering
С электронным паспортом и мобильным идентификатором тоже непонятная история. По мнению Чернышенко, "там все уже создано, вопрос в сертификации и криптозащите ключей электронных квалифицированных подписей"... Вопрос, надо сказать — главный. Так что еще пока ничего не создано.. https://tass.ru/ekonomika/9344573
Кстати, если вы не обратили внимание, то Роскомнадзор резко снизил свою медийную активность с конца апреля. Начиная с 28 апреля на их сайте была опубликована только одна новость "О мессенжере телеграм" от 18 июня [1], а больше новостей с тех пор нет [2].

При том что ранее они "шпарили" по 10-20 новостей в неделю.

Аналогичная ситуация с их соцсетями. Вконтакте [3], Facebook [4], Twitter [5]
На pravo.gov.ru последний опубликованный НПА Роскомнадзора за 15 июня [6], впрочем там что-то совсем мало их НПА.

Кто знает что у них происходит? Надо уже архивировать сайт rkn.gov.ru и службу закрывают или это всё по каким-то другим причинам?

Ссылки:
[1] https://rkn.gov.ru/news/rsoc/news73050.htm
[2] https://rkn.gov.ru/news/rsoc/
[3] https://vk.com/rkn
[4] https://www.facebook.com/roskomnadzor.official
[5] https://twitter.com/roscomnadzor
[6] http://publication.pravo.gov.ru/Document/View/0001202008280024

#government #rkn
Ростелеком окончательно закрыл проект национального (читай - государственного) поисковика "Спутник" [1], на который было потрачено около 2 миллиардов рублей [2]. Хорошо это или плохо что его закрыли - я судить не берусь, кто-то скажет что идея была абсурдная с самого начала, но я хочу сказать о совсем другом.

Внутри российской системы госуправления как нигде полностью отсутствует культура провалов. За последние лет 10 я только по паре проектов, в неформальных выступлениях, слышал рассказы о том "почему всё пошло не так". Но госпроекты, как за бюджетные деньги, так и за невыплаченные налоги (внебюджет за счёт госкорпораций и госкомпаний), "не могут провалиться" потому что признаться в провале - это собрать готовый материал для Следственного комитета, Генеральной прокуратуры, Счетной палаты и Контрольного управления при Президенте и ещё ряда силовых, надзирающих и контролирующих структур.

То что называется "lessons learned" практически не применяется не только к малым госпроектам вроде поисковика "Спутник", но и к госпрограммам, национальным и федеральным проектам, большим "внебюджетным инициативам" вроде Фонда "Национальное культурное наследие" [3] и не только.

Возвращаясь к теме ИТ, есть много существующих проектов вроде этого поисковика "Спутник", которые совершенно точно ждёт такая же судьба. Так может проще их просто не начинать?

Ссылки:
[1] https://vc.ru/services/156245-na-sayte-poiskovika-sputnik-ot-rostelekoma-ischez-poisk-kompaniya-nachala-predlagat-brauzer-i-resheniya-dlya-biznesa
[2] https://www.cnews.ru/news/top/2020-09-07_rostelekom_vnezapno_zakryl
[3] https://meduza.io/feature/2020/09/07/posle-optimizatsii-mnogomilliardnyy-kulturno-obrazovatelnyy-proekt-putina-zabuksoval-a-ego-sotrudnikov-uvolili

#it #government
Росстат заключил контракт с РЭУ им. Плеханова на 5.9 миллиона рублей на создание концепции связанных открытых статистических данных. Сумма, относительно, небольшая, ТЗ неконкретное, у исполнителя много свободы в том как всё излагать. Признаться не представляю себе кто в РЭУ это будет делать, если только они не взяли/берут на субподряд кого-то кто работал со связанными данными. Сроки, что называется, в "режиме ошпаренной кошки".

Много вопросов остаётся, будет интересно прочитать (поругать) итоговый документ.
Ростелеком выложил куски исходного кода [1] применяемого ЦИК РФ электронного голосования [2] с более подробным описанием на Habr'е [3].
Про проверку кода на доверительность/недоверительность электронного голосования и без меня напишут достаточно, поэтому я о другом.

Код совсем не впечатляет, без документации, без комментариев, ощущение что делалось "на коленках". Например, для инструмента cryptolib [4] на Python поверхностная проверка кода через pylint даёт качество кода 3.21 из 10. По остальным "кускам кода" ситуация не сильно лучше, уж незнаю какие почасовые рейты у разработчиков Ростелекома, но это уровень культуры программирования ниже среднего.

В любом случае это прецедент публикации госкода на Github'е, хорошо бы чтобы ещё и исполнительная власть туда подтянулась.

В принципе, из органов власти только у Счетной палаты есть публичный открытый репозиторий кода где мы выкладываем компоненты создаваемых проектов [5].

Ссылки:
[1] https://github.com/cikrf
[2] https://t.me/cikrossii/616
[3] https://habr.com/ru/company/rostelecom/blog/518090/
[4] https://github.com/cikrf/cryptolib
[5] https://code.ach.gov.ru/public

#opensource
Коллеги напоминают что код который выложил Ростелеком на Github'е (код ЦИК РФ, правильнее сказать, потому что Ростелеком тут подрядчик) так вот этот код не первый в таком роде и ранее на Github'е публиковал код ДИТ Москвы [1]

Я по прежнему считаю неправильным когда исполнительная власть делает сервисы для избирательных комиссий, но хорошо что хоть некоторые органы власти начинают вести если не открытую разработку, то раскрытие кода.

Если Вы знаете примеры репозиториев открытого кода публикуемых российскими органами власти и бюджетными учреждениями, присылайте мне. Я хочу свести их список

Ссылки:
[1] https://github.com/moscow-technologies

#opensource #moscow
Пока вот такой куцый список публичных проектов и репозиториев открытого кода созданного органами власти РФ и по их заказу [1]

Если знаете какие-либо упущенные, пишите мне тут или через issues в Github'е.

Ссылки:
[1] https://github.com/infoculture/awesome-gov-opensource-russia

#opensource
Давайте будем честными, так можно прийти ко всем замминистрам и интеграторам внедрявшим ФГИСы. Буквально почти без исключений.
Forwarded from RT на русском
Замминистра энергетики Анатолий Тихонов причастен к хищению 630 млн рублей. Об этом сообщает СК.

По данным следствия, Тихонов пытался скрыться, меняя машины и переезжая с квартиры на квартиру. Похищенные деньги были выделены Российскому энергетическому агентству Минэнерго России для создания информационной системы.

Помимо Тихонова, задержаны его советник Роман Рыжков, а также вице-президенты АО «ЛАНИТ» Владимир Макаров и Виктор Серебряков. Всем предъявлены обвинения по статье «Мошенничество».

Во время допроса Тихонов вину не признал
Открытые данные не только и не обязательно создаются государством. Blender, движок с открытым кодом по 3D рендерингу, теперь включает специальный сайт с открытыми данными по бенчмаркам Blender на разных платформах [1]. Все данные публикуются в виде ежедневных снапшотов более чем 123 тысяч измерений [2], начиная с 2018 года

Ссылки:
[1] https://opendata.blender.org/
[2] https://opendata.blender.org/snapshots/

#opendata #opensource
Правительство Абу Даби (город в Объединённых арабских эмиратах) запустило портал открытых данных [1] с 550 наборами данных, в первую очередь геоданных в формате API и слоёв для геоинформационных систем. Для сравнения, на портале открытых данных страны Bayanat.ae [2] опубликовано чуть менее 2400 наборов данных, в основном статистика в формате Microsoft Excel.

Ссылки:
[1] https://data.abudhabi
[2] http://data.bayanat.ae

#opendata
На сайте Европейского партнерства для демократии (EPD) появилась [1] совместная декларация [2] 29 организаций гражданского общества, специализирующихся на цифровых продуктах, о значимой прозрачности всей рекламы ( meaningful transparency on all ads ).

Это не только про открытые данные, а ещё и про технологическую и алгоритмическую прозрачность и открытый код и, в том числе, про стандартизацию библиотек, форматов и API применяемых в рекламном рынке.

Текст и предложения в нем весьма любопытные, весьма разумно проработанные, но, безусловно, если превратятся в регулирование то затронут не только мировых игроков рынка рекламы: Facebook, Google и др., но и российские крупнейшие онлайн сервисы, как минимум, Яндекс и MRG.

Тема довольно большая, я сделаю отдельный обзор всего что там предложено.

P.S. Конечно, очень расстраивает что во всех подобных инициативах Россия теперь упоминается исключительно в негативном контексте, в виде кейсов по дезинформации и fake news.

Ссылки:
[1] https://epd.eu/2020/09/08/pressreleaseadstransparency/
[2] https://epd.eu/wp-content/uploads/2020/09/joint-call-for-universal-ads-transparency.pdf

#opendata #opensource #ads
Правительство Великобритании опубликовало Национальную стратегию по работе с данными [1].
О стратегиях работы с данными я, обычно, делаю более подробные обзоры у себя в блоге begtin.tech, в ближайшие дни подготовлю обзор и этой стратегии.

Ссылки:
[1] https://www.gov.uk/government/publications/uk-national-data-strategy

#datastrategy #opendata
К вопросу о том что я писал ранее про проект Спутник и его закрытие [1] и об отсутствии "культуры провалов" в государственном ИТ (это, кстати, вместе с системой госзакупок и формирует ситуацию когда правоохранители прийти могут к каждому ответственному за государственные информационные системы, даже если это кристально "честный и порядочный человек" (c), они встречаются как и единороги, я верю в это (с).

В США GSA (U.S. General Service Administration) опубликовали руководство по снижению рисков при внедрении государственных ИТ проектов [2]. Начало там хорошее "Only 13% of large government IT projects succeed" из отчёта Standish Group "Haze" [3].

Вот лишь несколько рекомендаций оттуда, по стадии Планирование:
- Назначьте выделенных и уполномоченных владельцев продуктов чтобы возглавить усилия по разработке
- Вовлекайте конечных пользователей на ранней стадии и чаще в работу по разработке ПО
- Оценивайте риски в ситуациях сделать-или-купить, учитывайте все факторы при принятии решений
- Обеспечивайте открытость по умолчанию (открытость разработки кода, в первую очередь)
- Требуйте реализации инфраструктура-как-код и однокомандного развертывания и еже-спринтовую государственную верификацию функциональности
- Лидер должен устанавливать направления и усиливать команды
- Усилия по разработке должны быть четко определены для снижения риска и избежания перерасходов
- Ясный "путь до продукта" до заключения контракта
- Дайте командам доступ к инструментам взаимодействия которые им нужны для успеха
- Инвестируйте в технологии постепенно и управляйте бюджетом для управления рисками прототипирования

Всё это из Federal Field Guide [4]
И там же далее стоит обратить внимание и на остальные стадии. В целом материал там хорошо изложен и его даже если просто перевести на русский язык, то оно применимо и к госпроектам в России. Вернее могло бы быть применимо, если бы в последние годы у нас не было бы ровно противоположной тенденции - укрупнение ИТ проектов, сверхконцентрация усилия на мега-ФГИС и миллиардные расходы (и последующие посадки).

Ссылки:
[1] https://t.me/begtin/2103
[2] https://derisking-guide.18f.gov/
[3] https://www.standishgroup.com/sample_research_files/Haze4.pdf
[4] https://derisking-guide.18f.gov/federal-field-guide/

#opensource #guides #it #failures
Вышел доклад ОЭСР Building Capacity for Evidence-Informed Policy-Making (Создание потенциала для разработки политики, основанной на фактических данных), или как в России чаще употребляют термин : "Доказательная политика" [1]

Доклад интересен и большим числом примеров данных собираемых и используемых государственными органами для выстраивания долгосрочной политки.

Ссылки:
[1] https://www.oecd.org/publications/building-capacity-for-evidence-informed-policy-making-86331250-en.htm

#data #policy
Netflix заопенсорсили Polyglot [1] аналог Jupyter Notebook, но на Scala.
Выглядит весьма перспективно, для тех кто не любит Python и любит Scala.

Ссылки:
[1] https://medium.com/dataseries/netflixs-polynote-is-a-new-open-source-framework-to-build-better-data-science-notebooks-4bdab6b8d0ae

#opensource
В Австралии офис Национального дата комиссионера (комиссара?) опубликовал The Foundational Four [1] документ рекомендаций для государственных агентств по работе с данными.

Это хороший верхнеуровневый документ покрывающие такие вопросы как:
- лидерство
- организация работы
- стратегия работы с данными
- инвентаризация и владение данными


Ссылки:
[1] https://www.datacommissioner.gov.au/resources/foundational-four

#data #australia