Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Я бы восхитился вольностью интерпретации сотрудников Рослесхоза понятием открытые данные, но они такие не первые, я помню что были похожие "схемы" публикации данных и в других органах власти. Когда Word файл сохраняли в Word XML (язык разметки а ля HTML) и выдавали за машиночитаемые форматы, когда публиковали картинки вместо машиночитаемых файлов или когда с виду данные были, а одного клика было достаточно чтобы убедиться что они более недоступны.
В другой их системе, Единой государственная автоматизированная информационная система
"УЧЁТ ДРЕВЕСИНЫ И СДЕЛОК С НЕЙ" (ЛесЕГАИС) [2] также есть раздел открытых данных где их можно листать и искать, но скачать только некоторые и только в формате xlsx. В общем то тоже, открытость там на 3-чку и то только потому что за этим разделом API на базе GraphQL к которому опытные умы могут подключаться, но учитывая объёмы публикуемых данных - это крайне неудобно делать тысячи запросов по 20 записей каждая.
При этом в самом ведомстве знают что такое открытые данные и как их публиковать потому что соответствующий раздел на сайте Рослесхоза существует [3] и обновляется, но данные из их ФГИС не включает.

Ссылки:
[1] https://public.aviales.ru/main_pages/public.shtml
[2] https://lesegais.ru/
[3] http://rosleshoz.gov.ru/opendata
#opendata #opengov #rosles
Почему в России так много (а на самом деле так мало) открытых данных? Почему самыми большими данными оказываются, например, данные о госзакупках и госфинансам [1] ?

Среди множества причин: политических, экономических и культурных, я хочу обратить внимание на отличия в том что и как публикуется на российских порталах открытых данных и как это отличается от происходящего в мире.

1. Одни из наиболее крупных по объёмам публикации данных в мире - это географические и геологические данные. Например, более 26% всех наборов данных (25 тысяч из 95 тысяч) на портале открытых данных Австралии [2] опубликованы Geoscience Australia. Почти все эти данные - это геоданные, в форматах GeoJSON и SHP и других, содержащие сведения о наблюдении за территорией, спутниковые снимки и тд.

2. Ещё примерно вдвое больше данных публикуется другими научными и исследовательскими организациями и, в итоге, всё вместе - примерно 75% всех данных публикуемых на data.gov.au - это научные и исследовательские данные.

3. В Великобритании на портале data.gov.uk из публикуемых данных, также, около 15-20% - это геоданные. Точно измерить сложно поскольку публикуются они многими органами власти и организациями. Научных данных там меньше только по той причине что существуют отдельные системы раскрытия научных данных в рамках проектов Dataverse, европейского Zenodo и многих других.

4. В США ситуация похожая и большая часть данных на data.gov - это данные из многочисленных научных центров раскрывающих кроме данных ещё и совершенно невероятные объёмы открытого кода, в основном через Github.

5. В России около 64% (15286 из 23864) опубликованных данных на портале data.gov.ru [2] - это административные данные отклассифицированные в категорию "Государство". Они так или иначе касаются отчетности органов власти, вакансий, списков терр. органов и иных данных которые требуются к раскрытию по 8-ФЗ и порождённых от него НПА. Практическая их применимость есть в очень и очень узких задачах. Геоданные не публикуются практически полностью, научных данных также нет.

С чем это связано? Причин несколько:
- секретность геоинформации в России. То что во всём мире раскрывается повсеместно, в России является предметом преследования географов, засекречивается и не раскрывается даже в самых очевидных случаях. То же самое касается если не всех то многих данных о недрах в России.
- полное отсутствие коммуникаций с действующими научными проектами, по астрофизике, по изучению недр, по изучению погоды и так далее. Это ещё на уровне Открытого правительства - фактически совсем ничего не делалось в этом направлении
- фрагментированность госполитики в области управления данными. Отдельно существует регулирование открытых данных, отдельно разрабатываются НПА по СМЭВу, отдельно существуют инициативы по платформам по исследованиям в Минобре, отдельно существует регулирование информационных систем. В результате даже если огромные объёмы данных создаются в таких системах как ЕСИМО, системах Росгидромета и других, на портал открытых данных они не поступают.

Можно ли это изменить? На техническом уровне нет. Только на политическом уровне. Главная беда большинства госпорталов открытых данных не в их технической реализации, а в отсутствии политической опоры внутри исполнительной власти. А можно ли это изменить?


Ссылки:
[1] https://spending.gov.ru
[2] https://data.gov.ru

#opendata #data #opengov
Из "условно необычных" проектов про открытые данные - это Open Apparel (Открытая одежда) [1] проект по систематизации рынка одежды и фэшн индустрии в целом. В проекте собрано большое число объектов/предприятий большая часть которых собрана из списков вроде Better Cotton Initative [2] об улучшении работы фермеров работающих с хлопком, списков поставщиков крупных ритейлеров и так далее и тому подобное.

Сведений о предприятиях там, прямо скажем, "небогато". Название, местонахождение, указание в каких списках указано. А с другой стороны десятки тысяч объектов по всему миру.

Я не смог придумать как можно эти данные использовать, но кто знает, может быть проект будет развиваться.

Ссылки:
[1] https://openapparel.org
[2] https://bettercotton.org

#opendata
Свежая книга по открытости государства в развивающихся странах Making Open Development Inclusive: Lessons from IDRC Research [1] полностью открытая, можно скачать в PDF или Epub или смотреть в HTML. Много разных проявлений открытости развития: открытые данные, открытый доступ, свободные лицензии и многое другое с примерами в странах Глобального Юга (Global South)

Ссылки:
[1] https://www.idrc.ca/en/book/making-open-development-inclusive-lessons-idrc-research

#opendata #opengov
В США ещё с июля месяца обсуждается [1] доклад/отчёт Data Foundation о модернизации инфраструктуры данных органов власти в США.

Главная идея доклада - создание National Secure Data Service (NSDS), Национальной службы охраны данных в виде одной из 4-х опций
1. Создание отдельного статистического агентства при Департаменте торговли (Commerce department)
2. Переназначение одного из существующих подразделений внутри Департамента торговли
3. Создание нового государственно-частного партнерства на базе Национального научного фонда, National Science Foundation (NSF)
4. ... и создание консорциума основанного на университетах

Каждый вариант весьма детально разбирается и в докладе хорошо изложены предпосылки создания такой службы, существующие и ожидаемые регуляторные документы позволяющие исследователям получать доступ к данным.

Полный текст доклада "Modernizing U.S. Data Infrastructure: Design Considerations for Implementing a National Secure Data Service to Improve Statistics and Evidence Building" [1]

Ссылки:
[1] https://www.nextgov.com/analytics-data/2020/07/national-data-service-should-be-created-within-national-science-foundation-data-foundation-says/167346/
[2] https://static1.squarespace.com/static/56534df0e4b0c2babdb6644d/t/5f1f5bb25962685892aa7106/1595890612480/Report-Modernizing+U.S.+Data+Infrastructure%3A+Design+Considerations+for+Implementing+a+National+Secure+Data+Service.pdf

#data #datasharing #usa
Вместо предисловия:
- Эй, кот! Тебя же кастрировали, ты куда каждую весну убегаешь?
- А я оказываю услуги по экспертной поддержке! (с)

На днях Росреестр заключил контракт на 69.5 миллионов рублей на осуществление экспертной поддержки компонентов ФГИС ЕГРН. Карточка контракта в Госрасходах [1] и ЕИС [2], а также в телеграм канале Госзатрат [3].

За извращённым термином скрывается не абы что, а по сути 84 дня работы службы поддержки (до конца года), организация разработки и, по сути, разработка кодов в виде скриптов и тд. Но ТЗ написано так что продраться через него сложно.

Я правда до сих пор не могу понять при чём тут "экспертность" в услугах технической поддержки.

Ссылки:
[1] https://spending.gov.ru/goscontracts/contracts/1770656053620000056/
[2] http://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=1770656053620000056
[3] https://t.me/clearspending/2864

#spending #data #it
DataCite Commons [1] новый сервис некоммерческой международной организации DataCite [2] специализирующейся на выдаче постоянных идентификаторов объектам в репозиториях данных и в создании сервисов вокруг экосистем научных данных.

В Commons анонсирована [3] визуализация связанности данных о работах, персонах и организациях, причём данные интегрированы с ORCID, Wikidata и отдаются через API с поддержкой GraphQL
Сам этот проект является частью проекта FREYA [4] финансируемом Евросоюзом и нацеленным на создание европейского открытого научного облака, European Open Science Cloud (EOSC).

Из "живых" там российских научных организаций в DataCite Commons есть, например, Минобрнауки России [5].

Для тех кто работает с научными данными на регулярное основе этот источник может оказаться весьма полезным.

Ссылки:
[1] https://commons.datacite.org/
[2] https://datacite.org
[3] https://blog.datacite.org/power-of-pids/
[4] https://www.project-freya.eu/en
[5] https://commons.datacite.org/ror.org/00ghqgy32

#opendata #opengov #data #openaccess
Итак, всё таки слежка АНБ за гражданами США которую вскрыл Сноуден оказалась незаконной [1]. Торжеством демократии было бы помилование Сноудена, но произойдёт ли это?
Новость, в любом случае, важная и имеющая долгосрочные последствия.

Ссылки:
[1] https://www.reuters.com/article/us-usa-nsa-spying/u-s-court-mass-surveillance-program-exposed-by-snowden-was-illegal-idUSKBN25T3CK

#snowden
В Великобритании Department for Business, Energy & Industrial Strategy опубликовал три исследования по теме "Умных данных" (Smart Data), регулирования того как потребитель может влиять на то как и кто может использовать его данные.
Эти исследования по направлениям:
- Smart Data research - consent [1] - согласие
- Smart Data research - liability [2] - ответственность
- Smart Data research - authentication [3] - аутентификация

Все три исследования подготовленными исследовательским центром Dgen [4] специализирующемся на "децентрализованном поколении". Документы очень любопытные, с попыткой описать некую идеальную экосистему расширяющую GDPR до действий в реальном времени.

Ссылки:
[1] https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/909363/Dgen_and_BEIS_-_Smart_Data_-_Consent.pdf
[2] https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/909364/Dgen_and_BEIS_-_Smart_Data_-_Liability.pdf
[3] https://assets.publishing.service.gov.uk/government/uploads/system/uploads/attachment_data/file/909365/Raidiam_Authentication_Research_Response.pdf
[4] https://www.dgen.org

#privacy #personaldata #regulation
Да, я совсем забыл об этом написать, совсем скоро. 27-28 сентября пройдет ежегодный ИТ-конгресс Подмосковные вечера [1] где будет, в том числе, дискуссия про открытые данные Секция №6 "Цифровая открытость и OpenData" [2]
Для читателей канала промокод отменяющий регистрационный взнос "100-ПВ-2020"

Ссылки:
[1] https://pv2020.4cio.ru/
[2] https://pv2020.4cio.ru/programdraft
В РБК вышла статья про правительственный законопроект по запрету перепродажи данных Росреестра [1] и отрицательной реакции бизнеса на него. В статье есть выдержки из письма и нашей Ассоциации участников рынка данных (АУРД) и моя позиция и всех кто хоть как-то работает с данными Росреестра на коммерческой основе, в том что положения в законе приведут лишь к ухудшению сервисов для граждан, а Росреестр и Правительство вместо того чтобы запрещать работу с данными, вполне могли бы выступить с инициативой "оцивилизовывания" рынка данных. Но вот это вот дихотомичное воспрятие мира: либо всем пофиг, либо всё запретить, уж очень часто всплывает в новых регуляторных инициативах.

Ссылки:
[1] https://www.rbc.ru/economics/04/09/2020/5f4fb1259a794707a992ca09

#data #aurd
Все уже написали и только я слегка запаздываю (с) Вице-премьер Григоренко 1 сентября выдал поручение ФОИВам рассмотреть предложения из доклада Счетной палаты по открытости органов власти. Сроки жёсткие, посмотрим как ФОИВы будут реагировать. Вторая часть поручения радует меньше, потому что будем честными, за последние годы Минэкономразвития на открытые данные подзабило, а портал открытых данных окончательно превратился в "дата-помойку". И решается это не технической починкой портала, а сменой идеологии, движка и смыслового подхода. Ну и между нами единственные ведомства системно работающие с открытыми данными в Правительстве - это Минкульт и Росстат. Нет, нет, я не предлагаю Минэк заменить на одно из них. Даже не говорю такого и не намекаю. И в мыслях нет. Всегда есть надежда, даже небольшая, что что-то может измениться.

А пока я и наш коллектив работавшие над докладом по открытости государства очень рады что тема открытости органов власти вернулась в повестку государства.
Гриша Бакунов @addmeto (Яндекс) проводит опрос о том нужен ли ресурс с датасетами по русскому языку. Я проголосовал что нужно, и Вы проголосуйте. Вдруг случится невероятное и Яндекс повернется лицом к пользователям и начнет не только использовать, но и сделает хоть что-то про открытые данные;)
Forwarded from addmeto
Нужен ли ресурс где собраны полезные датасеты по русскому языку?
Anonymous Poll
53%
Конечно нужен
2%
Нет, я знаю где все скачать
44%
Это не моя тема
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Кстати, интересно, проработать тему открытости поручено Минэкономразвития, а оно на предпоследнем месте по оценке доклада https://ach.gov.ru/upload/pdf/Otkrytost-2020.pdf
Любителям рептилоидов, чипирования граждан, всемирного заговора масонов и прочих интересных способов скоротать свою разумную жизнь подкидываю ещё одну тему "мирового заговора". На сайте World Integrated Trade Solution, где Всемирный банк публикует статистику торговли между странами есть раздел COVID-19 test kits (тестирование на COVID-19) и статистика за 2017, 2018 и 2019 годы. Ссылка https://wits.worldbank.org/trade/comtrade/en/country/ALL/year/2017/tradeflow/Imports/partner/WLD/nomen/h5/product/300215

Что тут скажешь, ошибаются все, включая Всемирный банк.

Или мы что-то не знаем... ?

P.S. Пора заводить рубрику #юмор на канале, хотя ошибка и самая что ни на есть настоящая
Для тех кто интересуется как устроено пространство работы с данными (data engineering) то весьма неплохая дорожная карта дата инженерии на Github [1]. Правда, я вот лично, могу сказать что я лично владею в основном другим стеком инструментов да и большинство devops и dataops инженеров тоже, поскольку в реальном мире ты, как правило, совмещаешь очень много ролей и профессий, и лишь немногие очень чётко и узко сфокусированы на развитии только в одном профессиональном направлении.

Что бы я отметил:
- есть очень большая разница в инструментах которые выходят из систем связанных с работой с онлайн пользователями и, например, с инструментами и средой работы с открытыми данными. Системы выходящие из цифровых стартапов почти все заточены на сбор данных систем аналитики, статистики, счетчиков и тд. Они как правило готовые или полуготовые, с кучей интеграций и работой в реальном времени.
- инструменты работающие с открытыми данными куда сложнее, даже если источников относительно немного, всегда есть проблема в том что публикующие данные меняют свои сайты, форматы, схемы предоставления данных. Сами данные публикуются изначально в различных формах. От данных в виде HTML таблиц, то Excel файлов упакованных в RAR или 7z архивы и тд. Есть несколько стартапов которые пытаются гармонизировать данные и решать эту проблему, но не то чтобы очень успешно. Также нет и универсального инструмента по сборке данных (data build tool).
- в принципе, с инструментами беда, особенно для государства. В России 2-3 решения имеющие коммерческую природу и чаще используется стек работы с данными Apache поскольку и Java специалистов много и инструменты вроде Hadoop'а уже входят в программы обучения во многих ВУЗах.

Интересно было бы поговорить о цельных стеках по data engineering в России. Кто какие инструменты использует и для каких задач.

Ссылки:
[1] https://github.com/datastacktv/data-engineer-roadmap

#data #dataengineering
С электронным паспортом и мобильным идентификатором тоже непонятная история. По мнению Чернышенко, "там все уже создано, вопрос в сертификации и криптозащите ключей электронных квалифицированных подписей"... Вопрос, надо сказать — главный. Так что еще пока ничего не создано.. https://tass.ru/ekonomika/9344573
Кстати, если вы не обратили внимание, то Роскомнадзор резко снизил свою медийную активность с конца апреля. Начиная с 28 апреля на их сайте была опубликована только одна новость "О мессенжере телеграм" от 18 июня [1], а больше новостей с тех пор нет [2].

При том что ранее они "шпарили" по 10-20 новостей в неделю.

Аналогичная ситуация с их соцсетями. Вконтакте [3], Facebook [4], Twitter [5]
На pravo.gov.ru последний опубликованный НПА Роскомнадзора за 15 июня [6], впрочем там что-то совсем мало их НПА.

Кто знает что у них происходит? Надо уже архивировать сайт rkn.gov.ru и службу закрывают или это всё по каким-то другим причинам?

Ссылки:
[1] https://rkn.gov.ru/news/rsoc/news73050.htm
[2] https://rkn.gov.ru/news/rsoc/
[3] https://vk.com/rkn
[4] https://www.facebook.com/roskomnadzor.official
[5] https://twitter.com/roscomnadzor
[6] http://publication.pravo.gov.ru/Document/View/0001202008280024

#government #rkn
Ростелеком окончательно закрыл проект национального (читай - государственного) поисковика "Спутник" [1], на который было потрачено около 2 миллиардов рублей [2]. Хорошо это или плохо что его закрыли - я судить не берусь, кто-то скажет что идея была абсурдная с самого начала, но я хочу сказать о совсем другом.

Внутри российской системы госуправления как нигде полностью отсутствует культура провалов. За последние лет 10 я только по паре проектов, в неформальных выступлениях, слышал рассказы о том "почему всё пошло не так". Но госпроекты, как за бюджетные деньги, так и за невыплаченные налоги (внебюджет за счёт госкорпораций и госкомпаний), "не могут провалиться" потому что признаться в провале - это собрать готовый материал для Следственного комитета, Генеральной прокуратуры, Счетной палаты и Контрольного управления при Президенте и ещё ряда силовых, надзирающих и контролирующих структур.

То что называется "lessons learned" практически не применяется не только к малым госпроектам вроде поисковика "Спутник", но и к госпрограммам, национальным и федеральным проектам, большим "внебюджетным инициативам" вроде Фонда "Национальное культурное наследие" [3] и не только.

Возвращаясь к теме ИТ, есть много существующих проектов вроде этого поисковика "Спутник", которые совершенно точно ждёт такая же судьба. Так может проще их просто не начинать?

Ссылки:
[1] https://vc.ru/services/156245-na-sayte-poiskovika-sputnik-ot-rostelekoma-ischez-poisk-kompaniya-nachala-predlagat-brauzer-i-resheniya-dlya-biznesa
[2] https://www.cnews.ru/news/top/2020-09-07_rostelekom_vnezapno_zakryl
[3] https://meduza.io/feature/2020/09/07/posle-optimizatsii-mnogomilliardnyy-kulturno-obrazovatelnyy-proekt-putina-zabuksoval-a-ego-sotrudnikov-uvolili

#it #government
Росстат заключил контракт с РЭУ им. Плеханова на 5.9 миллиона рублей на создание концепции связанных открытых статистических данных. Сумма, относительно, небольшая, ТЗ неконкретное, у исполнителя много свободы в том как всё излагать. Признаться не представляю себе кто в РЭУ это будет делать, если только они не взяли/берут на субподряд кого-то кто работал со связанными данными. Сроки, что называется, в "режиме ошпаренной кошки".

Много вопросов остаётся, будет интересно прочитать (поругать) итоговый документ.