Ivan Begtin
8.09K subscribers
1.61K photos
3 videos
100 files
4.33K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Свежий законопроект № 654418-7 от сенатора Боковой. Правильно ли я понимаю что в первую очередь он затронет сайты использующие рекламные объявления на сайтах с контентом для детей?
Свежий законопроект от сенатора Боковой [1] О внесении изменений в Федеральный закон "О защите детей от информации, причиняющей вред их здоровью и развитию" и отдельные законодательные акты Российской Федерации по вопросу обеспечения безопасности и развития детей в информационном пространстве"

Внесен 26 февраля вечером и содержит положение о недопущении размещения информации о привлечении детей к участию в создании информационной продукции, причиняющей вред их здоровью и (или) развитию

и ещё ряд положений.

Формулировки размытые, в ФЭО как всегда "расходов федерального бюджета не потребуется" несмотря на то что есть раздел:
——
3) статью 16 дополнить частью 4 следующего содержания:
«Организации, осуществляющие образовательную деятельность,
обязаны применять меры для защиты несовершеннолетних обучающихся
от информации, причиняющей вред их здоровью и (или) развитию, путем
разработки и реализации программ обеспечения информационной
безопасности обучающихся.
Программы обеспечения информационной безопасности
обучающихся данных организаций должна учитывать требования к
административным и организационным мерам, техническим и
программно-аппаратным средствам защиты детей от информации,
причиняющей вред их здоровью и (или) развитию.».
——

а слова "обязаны" как-то трудно трактовать без увеличения расходов.

Ссылки:
[1] http://sozd.duma.gov.ru/bill/654418-7

#internet #runet #kids #watchdog
Появился итоговый перечень поручений Президента по итогам послания федеральному собранию [1]

О каких из них важно помнить в контексте цифровой экономике и гос ИТ:
—-
3. Правительству Российской Федерации:
а) совместно с Государственной Думой Федерального Собрания Российской Федерации обеспечить принятие в весеннюю сессию 2019 года:
...
федеральных законов, направленных на развитие цифровой экономики, в том числе определяющих порядок совершения гражданско-правовых сделок в электронной форме, а также предусматривающих регулирование цифровых финансовых активов и привлечение финансовых ресурсов с использованием цифровых технологий.

Срок – 1 июля 2019 г.

8. Правительству Российской Федерации при участии автономной некоммерческой организации «Агентство стратегических инициатив» и ведущих общественных объединений предпринимателей обеспечить создание и внедрение в пилотном режиме цифровой платформы для приема обращений субъектов предпринимательской деятельности в связи с оказанием на них давления со стороны правоохранительных органов.

Срок – 15 декабря 2019 г.

Ответственный: Медведев Д.А.

9. МВД России, ФСБ России, Генеральной прокуратуре Российской Федерации и Следственному комитету Российской Федерации в соответствии со своей компетенцией издать акты, предусматривающие утверждение порядка рассмотрения указанных в пункте 8 настоящего перечня поручений обращений субъектов предпринимательской деятельности.

Срок – 1 октября 2019 г.

Ответственные: Колокольцев В.А., Бортников А.В., Чайка Ю.Я., Бастрыкин А.И.

11. Минприроды России совместно с Росреестром до 1 января 2022 г. завершить внесение сведений о местоположении границ особо охраняемых природных территорий федерального значения в Единый государственный реестр недвижимости.

Доклад – до 1 июля 2019 г., далее – один раз в полгода.

Ответственные: Кобылкин Д.Н., Абрамченко В.В.
—-


Ссылки:
[1] http://kremlin.ru/acts/assignments/orders/59898
Одна из наиболее сложных задач в понимании "кому-что-и-как положено" в доступе к данным - это декомпозиция прав доступа из федерального законодательства. Например, сегодня в 22:05 внесён законопроект № 655193-7 "О внесении изменений в отдельные законодательные акты Российской Федерации " [1] с изменениями в несколько законов, в том числе в Федеральный закон "Об актах гражданского состояния" N143-ФЗ [2] где прописаны условия доступа органов власти к Единому государственному реестру записей актов гражданского состояния (ЕГРЗ).

Законопроект расширяет перечень органов власти имеющих доступ к этим сведениям на избирательные комиссии, и комиссии референдумов. В перечень который и без того уже весьма немал. Я бы даже сказал что список имеющих доступ уже столь велик что скоро можно будет всерьёз задумываться не будет ли утечек из ЕГРЗ, не продаются ли уже эти сведения на чёрном рынке.

Напомню что сейчас статья 13.2 в 143-ФЗ выглядит следующим образом (форматирование моё)
--
Сведения о государственной регистрации смерти, содержащиеся в Едином государственном реестре записей актов гражданского состояния, и сведения о внесении исправлений или изменений в записи актов о смерти, содержащиеся в Едином государственном реестре записей актов гражданского состояния, предоставляются:
- федеральному органу исполнительной власти в сфере внутренних дел (его территориальным органам)
- федеральному органу исполнительной власти, осуществляющему функции по контролю и надзору за соблюдением законодательства о налогах и сборах (его территориальным органам)
- федеральному органу исполнительной власти, осуществляющему функции по формированию официальной статистической информации о социальных, экономических, демографических, экологических и других общественных процессах в Российской Федерации (его территориальным органам)
- федеральному органу исполнительной власти, осуществляющему функции по выработке и реализации государственной политики и нормативно-правовому регулированию в области обороны (его территориальным органам)
- федеральному органу исполнительной власти, осуществляющему функции по выработке и реализации государственной политики и нормативно-правовому регулированию в сфере деятельности войск национальной гвардии Российской Федерации, в сфере оборота оружия, в сфере частной охранной деятельности и в сфере вневедомственной охраны
- федеральному органу исполнительной власти, уполномоченному Правительством Российской Федерации на осуществление государственного кадастрового учета, государственной регистрации прав, ведение Единого государственного реестра недвижимости и предоставление сведений, содержащихся в Едином государственном реестре недвижимости (его территориальным органам)
- Пенсионному фонду Российской Федерации
- Фонду социального страхования Российской Федерации
- территориальным фондам обязательного медицинского страхования
- органам исполнительной власти субъектов Российской Федерации, осуществляющим полномочия в сфере информационно-коммуникационных технологий и организации информационного взаимодействия с федеральными органами исполнительной власти и (или) автоматизированными системами федеральных органов исполнительной власти
- главам местных администраций муниципальных районов, городских округов, внутригородских территорий городов федерального значения, а в случаях, предусмотренных законами субъектов Российской Федерации - городов федерального значения,
- территориальным органам исполнительной власти городов федерального значения.
--


Ссылки:
[1] http://sozd.duma.gov.ru/bill/655193-7
[2] http://www.consultant.ru/document/cons_doc_LAW_16758/

#data #duma #law
Поскольку в последнее время всё больше влияния государства на рынок данных через госинформсистемы я буду чаще в рубрике #law писать о законопроектах и других НПА связанных с госрегулированием ИТ, данных, связи и всего что рядом с этим. Могу сказать пока по личным наблюдениям что тренд на то что "всё-ИТ" усиливается.

Этот тренд в том что какую тему не тронь, всё более она либо завязаны на информационные системы, либо на интернет-вещей, либо на другие аспекты технологической политики. Это касается и законопроектов, редкий отраслевой законопроект в ближайшие годы не будет указывать на госинформсистему. Может быть это и ественное развитие вещей, может быть.
Сегодня на Дне открытых данных (msk.opendataday.ru) организованным Инфокультурой, Ассоциациацией участников рынка данных и ФРИИ выступал Алексей Кудрин и за примерно час рассказал о приоритетах работы Счетной палаты.

Что было самого важного в его выступлении:
- открытость государства и открытые данные - это приоритет в работе Счетной палаты
- все сведения о проверках Счетной палаты кроме секретных будут публиковаться в открытом доступе
- Счетная палата будет работать с экспертным сообществом и общественными организациями по организации общственного контроля

О выступлении написали многие журналисты, собственно весь медиаэфир завален упоминанием его выступления. Правда журналисты из всего что говорилось выцепили только самое "жареное", его фразу про граждан у которых нет чувства налгоплательщиков, кстати, весьма справедливая фраза.

1-й день открытых данных был очень насыщенным. Будучи организатором и модератором секций, мне удалось не всё застать лично, но обо всём что удалось я ещё расскажу подробнее и детальнее.

Завтра, 3-го марта, второй день с семинарами и мастер-классами. Будет не менее интересно и гораздо больше к практике.

#opengov #opendata
Хорошая новость ко дню открытых данных, группа Open Data Institute в Австралии выпустили версию 1.0 продукта Data Curator [1], это инструмент с открытым кодом для контроля качества данных. Создавался он с оглядкой на другой инструмент с открытым кодом Comma Chameleon [2] помогающий работать с csv файлами.

У Data Curator есть важная особенность - это поддержка стандарта Data Packages [3] из проекта Frictionless Data.
Data Packages - это способ описания данных в виде плоских таблиц в CSV с качественным описанием метаданных.

Data Curator не единственный продукт позволяющий работать над качеством данных. Я напомню про Open Refine о котором даже есть статья в Википедии [4] и созданный на базе проекта Google Refine. Этот продукт довольно активно используется всеми командами работающими с открытыми данными и в России тоже

Есть немало коммерческих продуктов по очистке данных используемые в России сильно реже.
Например:
- Trifacta https://www.trifacta.com/
- ClearStory https://www.clearstorydata.com/product/data-prep/
- DataIku https://www.dataiku.com/

Среди них самый интересный по заходу - DataIku. Они продают себя как инструмент для корпоративного искусственного интеллекта (enterprise AI), а платформа изначально заточена по machine learning.

Все эти инструменты очень полезны, но нет ни одного совсем универсального. Дело в том что инструменты умеющие делать базовую проверку качества - например структуру полей описания набора данных, идентификацию типов и так далее, обычно не умеют делают валидацию справочников с отраслевой спецификой. Например, валидация кодов ИНН или ОКАТО организаций, декомпозиции и валидации адреса, геокоординат и так далее. Всё это требует специализированных инструментов или же целевого программирования под эти задачи.

Вчера на дне открытых данных была секция о качестве данных где много говорили про разные, но в основном, не инструментальные, аспекты качества.

Ссылки:
[1] https://github.com/ODIQueensland/data-curator
[2] https://comma-chameleon.io/
[3] http://frictionlessdata.io/data-packages/
[4] https://en.wikipedia.org/wiki/OpenRefine

#opendata #dataclean #dataquality
CivicTech.guide [1] онлайн навигатор по технологическим гражданским проектам в обновлённом формате как раз сегодня представляется на дне открытых данных в Нью Йорке. Проект является каталогом технологических инструментов, конференций, митапов и людей вовлеченных в технологии и действующие на общественное благо.

Каталог там велик и позволяет найти очень для тех кто хочет начинать свой проект не с нуля, а воспользоваться опытом тех кто уже работает с данными или с краудсорсингом или с технологическими медиа.

Ссылки:
[1] https://civictech.guide
В последнее время я много рассказываю про качество данных и мои коллеги выступают с этой же темой. На дне открытых данных я модерировал секцию посвященную качеству данных, но там всё было больше от кейсов.

С чего начинать погружение в контроль качества данных и какие материалы полезны?
Вот подборка ссылок которые помогут быть в курсе этой темы:
1. С DAMA-DNBOK второй редакции [1] - Data Management Body of Knowledge (DAMA-DMBOK2) представлят собой аналог PMBOK для данных и уже скоро по нему будут учить, сдавать экзамены и не только.
2. ГОСТ Р 57773-2017 (ИСО 19157:2013) Пространственные данные. Качество данных [2]
3. ISO 8000-8:2015 Data quality -- Part 8: Information and data quality: Concepts and measuring [3]
4. Стандарт для data.gov.sg , портала данных Сингапура [4]
5. Bad data guide [5] кропотливая подборка практических примеров случаев плохих данных

Качество государственных данных, в принципе, в России очень низкое. За редким исключением, данные неактуальны, плохо обновляются, без метаданных, с пропусками в ключевой информации и не только.

Ссылки:
[1] https://www.oreilly.com/library/view/dama-dmbok-data-management/9781634622479/
[2] http://docs.cntd.ru/document/1200157078
[3] https://www.iso.org/standard/60805.html
[4] https://github.com/datagovsg/data-quality
[5] https://github.com/Quartz/bad-data-guide

#opendata #baddata #dataquality
США опубликовали 4-й национальный план действий в рамках партнерства Открытых правительств [1]. Несмотря на то что многие в OGP ожидали что США выйдет из этого партнерства. Сам план довольно краток, немногообещающ и подвергся уже публичной критике [2].

Впрочем в США открытость зависит не только от Белого Дома и открытость данных обеспечивается даже без того чтобы об этом говорил действующий президент.

Ссылки:
[1] https://open.usa.gov/assets/files/NAP4-fourth-open-government-national-action-plan.pdf
[2] https://e-pluribusunum.org/2019/02/22/after-years-of-delays-and-democratic-regression-usa-releases-weak-open-government-plan/

#opengov #usa
Свежая публикация от Boston Consulting Group о том как государства могут использовать искусственный интеллект и о том как это воспринимается гражданами и экспертами [1].

Множество примеров в том как AI может помочь в:
- управлении трафиком
- идентификации болезней глаз
- автоматическое определение подходит ли соискатель на вакансию
и многое другое.

Более всего всех беспокоит использование AI в определении виновности и в решениях о дострочном освобождении. А наибольший консенсус в использовании в задачах управления городом в реальном времени.

Материал интересный и не стоит полагать что неактуальный для России. Есть как минимум две области в которых у Российского государства есть коллосальная мотивация использовать технологии AI, машинного обучения и не только.

Это сбор налогов и управление социальными обязательствами.
- в первом случае налогоплательщик должен быть готов к тому что на смену выездным проверкам приходит тотальная слежка.
- во втором случае сопоставление доходов и расходов, льгот, владения имуществом и не только неизбежно приведет к микроструктурированию социальных обязательств. Механизмы выплат компенсаций, пенсий, медицинского страхования и образования кстати тоже придут к модели социального скоринга.



Ссылки:
[1] https://www.bcg.com/publications/2019/citizen-perspective-use-artificial-intelligence-government-digital-benchmarking.aspx

#ai #machinelearning #digitalgov
Яндекс запустил сервис Яндекс.Патенты [1] где каждый может теперь поискать информацию о патентах которые когда-либо были зарегистрированы с 1924 года. Об этом пишет vc.ru [2]. Поиск по патентам - это полезный и хороший сервис и хочется искренне порадоваться за Яндекс, но, всегда есть свои но.

Среди множества сервисов поиска которые Яндекс делает очень мало тех которые основаны на данных государства. Может быть даже и нет ни одного основанного именно на данных из госреестров.

Какой ключевой и важнейший вопрос который следует задать самим же себе - как Яндекс получает эти данные? Использует ли компания открытые данные или же получает их эксклюзивным образом.

Я напомню что когда Открытое правительство существовало в России, одним из переломных моментов в восприятии его сообществом было проведение мероприятия в Яндексе где сотрудники Яндекса хвастались и подписывали соглашение с Дептрансом Москвы. Не открытых данных, а по закрытому непубличному соглашению с непрозрачными условиями доступа.

Слишком много подозрений в отношении Яндекса в том что компания стремится быть data монополией и ничего не вкладывает ни в открытость данных ни в экосистему вокруг неё.

Ссылки:
[1] https://yandex.ru/patents
[2] https://vc.ru/services/60286-yandeks-zapustil-poisk-po-patentam

#opendata #yandex #patents
В послевкусие после Дня открытых данных там было много тем которые обязательно надо обдумать.

Как минимум вырисовывается то что даже 2-х дневного мероприятия недостаточно. Например, дата-журналистика, в хорошем смысле, вытянула на себя значительную часть пришедших и потому как актуальнее и востребованнее. К тому же это просто красиво и люди идут туда где красиво;)

Аудитории тех кто занимается бизнесом и тех кто интересуется только общественными проектами пересекаются не так сильно как бы хотелось и могло бы. Надо ли их разделять или наоборот важнее перемешивать?

Я напомню что день открытых данных в разных странах проходит в разных форматах. Где-то это мероприятия совсем неформальные митапы, где-то открытые конференции как у нас, где-то это конференции или семинары где участники платят за то чтобы послушать спикеров. Например ODI Summit - это платное мероприятие, а десятки встреч групп активистов в Японии или в Непале - это маленькие неформальные тусовки.

Как сделать всё правильно? Вот вопросы:
1. Должен ли следующий день открытых данных быть 2-х дневным или лучше сфокусированный на один день, но с крутыми зарубежными спикерами, к примеру.

2. Не пора ли делать отдельное однодневное большое мероприятие по журналистике данных?

3. Не надо ли выделить повестку данных в бизнесе в отдельную проводить однодневную конференцию об этом?

4. По дню открытых данных надо ли придумывать механизм поддержки региональных мини-конференций? Каким он может быть?

Напишите мне что думаете об этом и поделитесь мыслями о том что понравилось в прошедшем ОДД в Москве, чего нехватало, как можно сделать всё ещё лучше.

Тут в чате @begtinchat или на почту ivan@begtin.tech

#opendata #opendataday #questions
Маленький преданонс. В августе-ноябре 2018 года мы в Информационная культура и Ассоциация участников рынка данных, а конкретно я лично проводили обследование открытых интерфейсов государственных информсистем и иных информационных систем под госрегулированием на предмет раскрытия из них персональных данных пользователей.

Только на основе общедоступной информации. Результаты не были публичными, их направили в Минсвязь, Роскомнадзор, Генпрокуратуру, что-то всё ещё в работе, а многое уже исправлено.

Около половины найденного - это сведения из удостоверяющих центров, государственных и не очень. И как раз в их случае большая часть найденного уже исправлена, а остальные не исправят пока их явно не "пнешь" похоже.

Лично я долго думал что делать с найденным. Можно ли делать общедоступными результаты этого исследования? Можно ли рассказывать о путях вылова раскрытия перс. данных в информационных системах.

В итоге ту часть исследования которая касается удостоверяющих центров мы будем делать общедоступной. Это подробный анализ систем с конкретными путями воспроизведения и скриншотами по 17 УЦ в которых выявлена эта история (из примерно 50% существующих которые мы проверили).

Сейчас есть развилка:
1. Сделать это в виде собственного доклада, после перепроверки и дополнения информацией о том что было исправлено в итоге после чего рассылать пресс-релиз.
2. Поделиться с одним из крупных федеральных изданий под то что у них будет 1-2 журналиста готовых проверить то что тогда было выявлено и что исправлено и написать об этом качественный материал сославшись на Инфокультуру и Ассоциацию. Может быть даже провести это исследование повторно охватив 100% УЦ.

Если есть идеи и предложения как это лучше сделать - пишите мне на ibegtin@infoculture.ru

#openness #investigations #gis #personaldata
Будет ли заблокирован Facebook в России неизвестно, но позиция Марка Цугерберга известна точно. Отказ от хранения пользовательских данных в странах нарушающих права человека [1]
Дословно:

Secure data storage. People should expect that we won't store sensitive data in countries with weak records on human rights like privacy and freedom of expression in order to protect data from being improperly accessed.

Я лишь могу в очередной раз посетовать что борьба международных корпораций с нацрегуляторами - это борьба упырей против зомби. У рядового пользователя выбор очень невелик. Жаловаться на мегакорпорации нац регуляторами при злоупотреблении их данными или поддерживать мегакорпорации в сохранении личной приватности гражданина вдали от "загребущих лап" государства (но не от "загребущих лап" самих корпораций). Это плавание между Сциллой и Харибдой. И возможен ли новый-технократический мир без этого - это большой вопрос

А Facebook, к сожалению, похоже что будет в России заблокирован. Но, к счастью, блокировки давно уже бесполезны потому что пока приложения Facebook'а есть в магазина Apple и Google и пока российские регуляторы не имеют дистанционного контроля за мобильными устройствами граждан - это не работает.

Ссылки:
[1] https://www.facebook.com/notes/mark-zuckerberg/a-privacy-focused-vision-for-social-networking/10156700570096634/

#securestorage #privacy
Можно сравнивать Роскосмос и НАСА по бюджету, по числу запусков, но мы не услышим от российского руководства Роскосмоса главного сравнения - в социальном и научном эффекте, в доступности данных для исследователей.

НАСА публикуют открытые данные ещё до государственных инициатив по открытости государства. Интеграция НАСА в научные исследования всегда была значительно выше чем в военные, в России всегда было наоборот, Роскосмос был одним из закрытых ведомств, там не только не публиковались открытые данные, но и данные для научных исследований.

У НАСА же список, даже не баз данных, а специальных порталов для их публикации весьма велик:
- Nasa Open Data portal https://data.nasa.gov - портал открытых данных NASA
- Planetary Data System https://pds.nasa.gov каталог и база наборов данных от планетарных миссий НАСА
- EARTHDATA https://earthdata.nasa.gov портал данных о Земле
- My NASA Data https://mynasadata.larc.nasa.gov портал с данными и уроками об устройстве Земли
- NASA API https://api.nasa.gov каталог и документация к API проектов NASA
- NASA Exoplanet Archive https://exoplanetarchive.ipac.caltech.edu - архив данных о экзопланетах
- NASA NEX https://registry.opendata.aws/nasanex/ архив наборов данных об исследованиях Земли на хостинге Amazon AWS
и это неполный список.

За все эти годы Роскомос НИЧЕГО не сделал по доступности их собственных данных и того наследия что им досталось от СССР. Лично я не знаю есть ли ещё окно возможности сохранить российскую космонавтику (и её репутацию), но склоняюсь к тому что это окно закрывается.

#data #opendata #space #cosmos
Меня очень расстраивает что приходится регулярно отвлекаться от тем госинформатизации, работы с данными вообще и открытыми данными в частности, но эта история с блокировками в Рунете, к огромному моему сожалению, бьёт по всем без разбора. И когда она законная, и когда она производится конкретными операторами по требованию спецслужб.

На Хабре вышла редакционная статья [1] о том как сервис ProtonMail [2] блокируется МГТС и другими провайдерами . В принципе понимают ли сотрудники этих органов что тем самым лишь делают рекламу этим сервисам? Похоже не понимают.

Ссылки:
[1] https://habr.com/ru/company/tm/blog/443222/
[2] http://protonmail.com

#privacy
Открылся сайт Нац проекта "Цифровая экономика". Ощущения от него скорее обескураженные. Все материалы и формы в PDF'ах, в разделе "Мнения" нет никаких отличий от новостей, подписаться на обновления через RSS невозможно да и подписываться не на что потому что большая часть новостей на сайте также непрофильная.

В общем остаётся вопрос - а зачем он нужен?

Ссылки:
[1] https://digital.ac.gov.ru/

#digital