Ivan Begtin
7.99K subscribers
1.76K photos
3 videos
101 files
4.47K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Forwarded from Generative (real) Times
Защищайте свои пароли!!!

Есть такой анекдот:

-как же он узнал мой пароль?
-а какой у тебя был пароль?
-год в который Эрик XI Эрикссон вернул себе трон шведского короля после смерти Кнута II.
-а какой это был год?
-тысяча двести тридцать четвёртый.

==========

Специалист по кибербезопасности смог войти в «админку» сайта для публикации российских законов по логину и паролю «admin/admin». Видео того, как он это сделал, опубликовал в своем твиттере.
Статья в Govering "5 Domains of Government That Are Ripe for Transformation" [1] от William D. Eggers из Делойт, как видно из заголовка о 5 направлениях в которых государство созрело для трансформации.

Написано под рынок США/Великобритании и других развитых стран, но актуально для многих.

Какие эти 5 направлений?
- Предоставление услуг (Service delivery)
- Операционное управление (Operations)
- Госполитика и принятие решений (Policy- and decision-making)
- Регуляторика и правоприменение (Regulation and enforcement)
- Таланты и рабочая сила (Talent/workforce)

В статье достаточное число примеров и, если дочитать её до конца, то можно убедиться что многое из написанного там внедряется и у нас в стране. Госуслуги всё более омниканальные (госпортал, мобильное приложение, офисы "Мои документы"), попытки реформировать найм рабочей силы и талантов тоже идут, скорее тяжело, но понемногу.

Ссылки:
[1] https://www.governing.com/next/5-Domains-of-Government-That-Are-Ripe-for-Transformation.html

#government #policy
Научная статья A Taxonomy for Data Ecosystems [1] о том как устроены экосистемы данных с научной точки зрения. Для меня это одна из самых интересных тем, с точки зрения того как экономика данных развивается, как устроены большие общественные и научные проекты экосистем данных.

Авторы пишут об этом не в первый раз, простой поиск в Research Gate даёт ссылки на множественные их публикации и немало других по теме Data Ecosystems можно сейчас найти.

Всё больше идёт к тому что экосистемы данных станут не только объектом научного интереса, но и предметом регулирования

Ссылки:
[1] https://www.researchgate.net/publication/348035570_A_Taxonomy_for_Data_Ecosystems

#data
Не украли, а потеряли (с) так можно описать ситуацию с удалением 400 тысяч записей о преступлениях, преступниках и их идентификационных данных в системе регистрации преступлений Великобритании [1] [2].

Данные о более чем 26 тысячах записях ДНК о 21,7 тысячах персон, 30 тысячах отпечатков и ещё многие иные записи были удалены из-за технической ошибки. Несмотря на то что техники пытаются восстановить эти данные, ситуация уже вылилась в публичный скандал.

Что характерно, всё произошло из-за человеческой ошибки, а восстановить данные оказалось не так то просто.

Остаётся вопрос - бывают ли подобные ситуации в других странах, например, в России?

Ссылки:
[1] https://www.theguardian.com/politics/2021/jan/16/priti-patel-faces-increasing-pressure-over-deletion-of-police-records
[2] https://www.theguardian.com/politics/2021/jan/15/priti-patel-under-fire-as-150000-police-records-accidentally-lost

#privacy #errors #data
Обзор рынка компаний в кремниевой долине от фонда Initialized [1] о том что пост-пандемическая долина - это не место. Упала стоимость аренды на 24% [2] и налог с продаж на 40% [3]. До пандемии только 20% компаний фонда были преимущественно дистанционными, сейчас около 36% процентов.

А большая часть основателей говорят что лучшее место для стартапа сейчас - это облако.

И, что характерно, большинство компаний не собираются адаптировать выплаты сотрудникам под стоимость жизни в их регионе.

Ссылки:
[1] https://blog.initialized.com/2021/01/data-post-pandemic-silicon-valley-isnt-a-place/
[2] https://twitter.com/anthemos/status/1346629061150347265
[3] https://www.sfchronicle.com/business/article/Yes-people-are-leaving-San-Francisco-After-15635160.php

#it #market #startups
Вышел ещё один большой релиз продукта - Prefect [1], ранее существовавший как облачный сервис, выпустили в открытый код сервера Prefect Server [2] и панели управления Prefect UI [3]

Prefect - это продукт по созданию data pipelines, цепочек обработки и проверки данных. Такие продукты используются для создания корпоративных озёр данных, аналитических хранилищ и так далее.

То что код проекта открывается в итоге меня не удивляет. Обработка данных через data pipelines сейчас - это высококонкурентная среда с большим числом продуктов с открытым кодом таких как Argo, KubeFlow, MLFlow, Luigi, Airflow, Apache Nifi, Dagster, Reflow и многих других.

Правда Prefect один из наиболее интересных инструментов и его релиз - это хорошая новость.

Ссылки:
[1] https://cloud.prefect.io
[2] https://github.com/PrefectHQ/server
[3] https://github.com/PrefectHQ/ui

#prefect
Относительно свежее направление в открытости геонаук (open geoscience) - это принципы ICON-FAIR [1] и открытость науки ещё на стадии её планирования (дизайна) [2]

При этом принципы FAIR известны ещё с 2016 года [3] - это findability, accessibility, interoperability, and reusability (находимость, доступность, интегрируемость и повторное использование)

А ICON это расширение FAIR через Integrated, Coordinated, Open, and Networked (Интегрированность, Скоординированность, Открытость и Сеть)

Ссылки:
[1] https://www.pnnl.gov/projects/WHONDRS/icon-fair-framework
[2] https://eos.org/editors-vox/special-collection-on-open-collaboration-across-geosciences
[3] https://en.wikipedia.org/wiki/FAIR_data

#opendata #openaccess #openscience
Я как-то ранее писал о том как устроена публикация открытых данных в других странах, обновлю этот обзор, просто для понимания отличий.

Геоданные
- во Франции более половины данных на госпортале data.gouv.fr - это SHP и GeoJSON файлы с объектами на территории муниципальных образований и департаментов страны. Это чуть менее 20 тысяч наборов данных из 36 тысяч
- в Канаде 69 тысяч из 87 тысяч наборов данных на open.canada.ca - это данные Natural Resources Canada
аналога российских Росреестра и Роснедр. Это как если бы Росреестр выложил данные по каждому муниципалитету как открытые данные
- в США на портале Data.gov геоданные составляют 169 тысяч наборов данных из 217 тысяч наборов данных всего

Порталы раскрытия
- во многих странах и территориях создаются не просто порталы открытых данных, а порталы раскрытия информации о деятельности власти. Например портал прозрачности Гамбурга transparenz.hamburg.de/open-data/ включает раздел не только с данными, но и с документами о деятельности. Это даёт искажение по числу наборов данных, если индексировать портал бездумно, но концентрирует раскрытие информации что неплохо

Статистика и финансы
- чуть менее половины наборов данных на портале открытых данных Ирландии data.gov.ie это данные статистической службы (Central Statistics Office). Это 4414 наборов данных стат. показателей из 10 392 наборов данных на сайте. Ещё около 2 тысяч наборов данных - это данные метеорологической службы
- в Австрии на портале открытых data.gv.at данных из 25 тысяч наборов данных из 29 тысяч (86%) - это сведения о финансах муниципальных образований: расходах, доходах, бюджетах с портала offenerhaushalt.at. Это как если бы российские данные с порталов zakupki.gov.ru разрезать на десятки тысяч кусочков, по каждому муниципалитету.
- в Японии на портале www.data.go.jp из 28 тысяч наборов данных 10 тысяч - это статистические показатели и 5 тысяч - это сведения о бюджетах муниципалитетов

Научные данные
- в США на портале data.gov помимо приоритета на геоданные, также приоритет на научные данные наблюдений. Около половины всех наборов данных поставляют метеорологическая служба NOAA и NASA и это данные исследования земли, как правило с геопривязкой, поэтому геоданные.

Особенности российских данных
1. Геоданных практически нет совсем, они не публикуются на всех уровнях власти.
2. Научные данные органов власти которые их собирают в наибольшем объёме не публикуются.
3. Централизованных порталов раскрытия данных в России немного, вместе этого создаются государственные специализированные информационные системы для публикации документов
4. Данные по госфинансам и по статистике сконцентрированы в специальных ГИСах Минфина РФ, Федерального казначейства и Росстата. На порталы данных они не попадают

Источники:
[1] Порталы стран и территорий перечисленные в тексте
[2] Проект Open Portal Data Watch https://data.wu.ac.at/portalwatch/

#opendata #data
28 января приглашаю на Privacy Day 2021 https://privacyday.ru/ организуемый @roskomsvoboda и @digitalrightscenter.

Я буду говорить о государственных мобильных приложениях
Forwarded from Roskomsvoboda
Подготовка к Privacy Day 2021 идёт полным ходом, а пока предлагаем вспомнить выступление директора АНО «Информационная культура» @infoculture Ивана Бегтина на прошлой конференции об исследовании приватности мобильных приложений:

➡️ https://youtu.be/c79CuWPevMs

28 января Иван Бегтин @begtin вместе с другими экспертами обсудит, зачем госорганам все больше информации о нас, как они ее аккумулируют, какие системы используют и насколько эффективно их защищают.

📹Онлайн-трансляция Privacy Day 2021 будет доступна на сайте и в YouTube-канале РосКомСвободы.

🔔Подписывайтесь и жмите «колокольчик», чтобы не пропустить начало.
Не прошло и года как у АНО "Диалог" (региональные Центры управления регионами) появился официальный сайт [1], но, как и у многих госНКО с полным отсутствием информации о сфере деятельности. Ни годовых отчетов, ни сведений о правлении, ни сведений о наб. совете, в общем и целом ничего.

Кстати, если судить по данным их отчета в Минюст за 2019 год, то там и наб. совета и правления нет, а гендир просто назначается распоряжением Мэра Москвы.

Впрочем все публикации про данное АНО дают ему политическую окраску, а меня лично более интересует форма этого явления. ГосНКО превратились в массовое явление по выводу госпроектов из под 44-ФЗ и 223-ФЗ и бюджетного финансирования с последующим бюджетным контролем. С последующей полной непрозрачностью, неподотчетностью, я бы сказал что непостижимостью, но как раз с постижимостью тут всё хорошо. Хотя и очень некрасиво.

Ссылки:
[1] https://anodialog.ru/

#gosngo #govngo
Я много раз писал о том что у многих российских государственных информационных систем есть недокументированное API, иногда выступал об этом с презентациями на наших днях открытых данных и иных мероприятиях. Дошли руки просистематизировать если не все, то некоторые из этих рассказов.

В сервисе Postman опубликовано описание 37 точек подключения к API 6 государственных информационных систем [1] таких как:
mos.ru, budget.gov.ru, bus.gov.ru, zakupki.gov.ru, gosuslugi.ru, paravo.gov.ru

Список не исчерпывающий, но работа за сами органы власти трудоёмкая, по хорошему сами разработчики этих API должны были готовить документацию и тесты, но только в паре случаев она существует.

Документирование API - это важная задача и наша команда давно занимается её автоматизацией. Постепенно дойдут руки и до улучшения качества и документации собственных API и до полноценного реестра государственных API.

Важно отметить что все представленные API являются открытыми, используются при отображении веб страниц в этих информационных систем и доступ к ним не регламентирован. Нет никаких заявленных ограничений к их использованию и использованию отдаваемых ими данных.

P.S. Если Вы знаете какие-либо ещё общедоступные API государственных информационных систем, документированные или нет, пишите о них в @begtinchat.

Ссылки:
[1] https://www.postman.com/infoculture/workspace/infoculture-public/collection/1428203-a769e0a6-0cc9-4de4-bdcc-5f8a0fa06e36

#government #api #opendata
Компания Amazon сделала публичный форк (отдельную ветвь разработки) продукта Elasticsearch [1] после того как компания Elastic сменила модель лицензирования и закрыла код продукта. В ответ Elastic, разработчики, Elasticsearch обвинили их в некорректном и неэтичном поведении [2].

Почему всё это важно? В современном мире огромное значение приобретают зависимости кода и продуктов друг от друга. Elasticsearch - это продукт от которого сейчас зависит огромное число сервисов по всему миру. Конфликт между Elastic и Amazon - это конфликт между бизнес моделями open source где большую выгоду получают крупные игроки обеспечивающие инфраструктурные сервисы за счет open source продуктов.

Если Вы сделаете сейчас очень востребованный open source продукт то да, сколько бы Вы не заработали, но Amazon, Google и Microsoft заработают больше потому что они умеют лучше масштабировать, у них огромная пользовательская база и огромный штат инженеров сопровождения.

Для некоторых качественных open source проектов это осознание является большим жизненным вызовом и они отказываются от модели существования как открытого кода. Но возможно что это чуть ли не единственная возможная для них модель существования.

Эта ситуация ещё одно напоминание о важности целостной государственной/корпоративной политики управления зависимостями. Рисками того что важные компоненты ваших систем могут становиться недоступными, перестать поддерживаться или обретать иную стоимость.

Ссылки:
[1] https://aws.amazon.com/ru/blogs/opensource/stepping-up-for-a-truly-open-source-elasticsearch/
[2] https://www.elastic.co/blog/why-license-change-AWS

#opensource #aws
Большая утечка данных в Бразилии, в блоге компании PSafe [1] (португальский язык) упоминается о 220 миллионах лиц, а утечка, похоже, затрагивает также юридические лица и базу автомобилей. Нет подробностей о её источнике и где эти данные можно скачать, но первоисточник новости по ссылке выше, остальные, лишь ссылаются на него [2].

Ссылки:
[1] https://www.psafe.com/blog/vazamento-expoe-numero-de-cpf-de-milhoes-de-brasileiros-alerta-psafe/
[2] https://olhardigital.com.br/en/2021/01/20/safety/database-leak-exposes-cpf-of-almost-the-entire-population-of-brazil/

#leaks #brazil
Ещё один крупный стартап Logz.io написали текст с осуждением позиции Elastic [1]. Мысль их звучит довольно просто, да Elastic столкнулись с конкуренцией со стороны Amazon, но никто не мешал им привлекать инвестиции и создавать улучшенный облачный сервис. Тем более что у Elastic инвестиции составили около $162 миллионов и около $252 миллионов они заработали на IPO в октябре 2018 года.

Их не просто так называли одной из лидирующих компаний работающих с открытым кодом, но, видимо и не просто так сейчас идут очень жаркие дискуссии по поводу их шага по закрытию кода и многие задумываются об отказе от использования их продуктов в своих сервисах.

Logz.io - это стартап SaaS сервис обработки серверных логов на базе Kibana и Elasticsearch привлёкшие около $121 миллиона инвестиций. Они не конкурируют с основной бизнес моделью Elastic, но на 100% зависят от их продукта и они были одним из крупных контрибьюторов кода. Теперь же, похоже, позиция Elastic, сплачивает всех крупных пользователей их продуктов и даже если Elastic решат пойти на попятную, скорее развитие получит Open Distro for Elasticsearch [3] чем продукты Elastic.

В целом вся ситуация, во многом, о переходе компаний из среды открытого кода в закрытый код. Обычно, такие решения принимаются на старте. Например, сервер MongoDB имел лицензию SSPL изначально, их код открыт [3], но open source их лицензия не является. Это было изменено не в процессе разработки, а такой был их изначальная бизнес модель. Поэтому, кстати, крупные облачные платформы не предлагали и не предлагают MongoDB-on-demand, вместо этого они сделали свои облачные базы данных с MongoDB совместимыми интерфейсами.

Ссылки:
[1] https://logz.io/blog/open-source-elasticsearch-doubling-down/
[2] https://www.crunchbase.com/organization/elasticsearch/company_financials
[3] https://opendistro.github.io/for-elasticsearch/
[4] https://github.com/mongodb/mongo

#opensource #elastic
Проекты по открытости в России о которых часто забывают и не грех напомнить ещё раз.

- Научный агрегатор открытых репозиториев openrepository.ru - создан НЭИКОН за счёт гранта от Фонда президентских грантов. Включает данные агрегированные из научных репозиториев статей российских университетов.
- Открытый корпус opencorpora.org для русского языка, большой краудсорсинговый проект, морфологически, синтаксически и семантически размеченный корпус текстов на русском языке. Полностью открытый, с возможностью скачать собранные в нём данные
- Firststat firststat.ru большая некоммерческая база доменов в зонах .ru, .su, .рф. Несмотря на отсутствие дампов открытых данных, у проекта есть открытый код и недокументированное API которое, например, помогает в сборе всех госдоменов для проекта govdomains
- Открытые данные и API Госдумы api.duma.gov.ru документация не обновлялась около 8 лет, последние наборы данных деклараций депутатов публиковались в 2012 году. Но генератор токенов для API и само API всё ещё работает. Кроме данных по голосованию - это источник стенограмм, выступлений депутатов и ещё многих других данных Госдумы.

Если Вы знаете какие-либо интересные общественные или редко упоминаемые, но интересные госпроекты по открытости данных, напишите о них.

#opendata #opengov #openprojects
Очень скоро мы опубликуем небольшое, но ёмкое исследование о том как некоторые госорганы и госорганизации распоряжаются данными граждан. Подробности раскрывать не буду чтобы не испортить сюрприз.

А пока небольшой опрос для всех читателей канала