Ivan Begtin
7.98K subscribers
1.81K photos
3 videos
101 files
4.52K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Хорошая новость ко дню открытых данных, группа Open Data Institute в Австралии выпустили версию 1.0 продукта Data Curator [1], это инструмент с открытым кодом для контроля качества данных. Создавался он с оглядкой на другой инструмент с открытым кодом Comma Chameleon [2] помогающий работать с csv файлами.

У Data Curator есть важная особенность - это поддержка стандарта Data Packages [3] из проекта Frictionless Data.
Data Packages - это способ описания данных в виде плоских таблиц в CSV с качественным описанием метаданных.

Data Curator не единственный продукт позволяющий работать над качеством данных. Я напомню про Open Refine о котором даже есть статья в Википедии [4] и созданный на базе проекта Google Refine. Этот продукт довольно активно используется всеми командами работающими с открытыми данными и в России тоже

Есть немало коммерческих продуктов по очистке данных используемые в России сильно реже.
Например:
- Trifacta https://www.trifacta.com/
- ClearStory https://www.clearstorydata.com/product/data-prep/
- DataIku https://www.dataiku.com/

Среди них самый интересный по заходу - DataIku. Они продают себя как инструмент для корпоративного искусственного интеллекта (enterprise AI), а платформа изначально заточена по machine learning.

Все эти инструменты очень полезны, но нет ни одного совсем универсального. Дело в том что инструменты умеющие делать базовую проверку качества - например структуру полей описания набора данных, идентификацию типов и так далее, обычно не умеют делают валидацию справочников с отраслевой спецификой. Например, валидация кодов ИНН или ОКАТО организаций, декомпозиции и валидации адреса, геокоординат и так далее. Всё это требует специализированных инструментов или же целевого программирования под эти задачи.

Вчера на дне открытых данных была секция о качестве данных где много говорили про разные, но в основном, не инструментальные, аспекты качества.

Ссылки:
[1] https://github.com/ODIQueensland/data-curator
[2] https://comma-chameleon.io/
[3] http://frictionlessdata.io/data-packages/
[4] https://en.wikipedia.org/wiki/OpenRefine

#opendata #dataclean #dataquality
CivicTech.guide [1] онлайн навигатор по технологическим гражданским проектам в обновлённом формате как раз сегодня представляется на дне открытых данных в Нью Йорке. Проект является каталогом технологических инструментов, конференций, митапов и людей вовлеченных в технологии и действующие на общественное благо.

Каталог там велик и позволяет найти очень для тех кто хочет начинать свой проект не с нуля, а воспользоваться опытом тех кто уже работает с данными или с краудсорсингом или с технологическими медиа.

Ссылки:
[1] https://civictech.guide
В последнее время я много рассказываю про качество данных и мои коллеги выступают с этой же темой. На дне открытых данных я модерировал секцию посвященную качеству данных, но там всё было больше от кейсов.

С чего начинать погружение в контроль качества данных и какие материалы полезны?
Вот подборка ссылок которые помогут быть в курсе этой темы:
1. С DAMA-DNBOK второй редакции [1] - Data Management Body of Knowledge (DAMA-DMBOK2) представлят собой аналог PMBOK для данных и уже скоро по нему будут учить, сдавать экзамены и не только.
2. ГОСТ Р 57773-2017 (ИСО 19157:2013) Пространственные данные. Качество данных [2]
3. ISO 8000-8:2015 Data quality -- Part 8: Information and data quality: Concepts and measuring [3]
4. Стандарт для data.gov.sg , портала данных Сингапура [4]
5. Bad data guide [5] кропотливая подборка практических примеров случаев плохих данных

Качество государственных данных, в принципе, в России очень низкое. За редким исключением, данные неактуальны, плохо обновляются, без метаданных, с пропусками в ключевой информации и не только.

Ссылки:
[1] https://www.oreilly.com/library/view/dama-dmbok-data-management/9781634622479/
[2] http://docs.cntd.ru/document/1200157078
[3] https://www.iso.org/standard/60805.html
[4] https://github.com/datagovsg/data-quality
[5] https://github.com/Quartz/bad-data-guide

#opendata #baddata #dataquality
США опубликовали 4-й национальный план действий в рамках партнерства Открытых правительств [1]. Несмотря на то что многие в OGP ожидали что США выйдет из этого партнерства. Сам план довольно краток, немногообещающ и подвергся уже публичной критике [2].

Впрочем в США открытость зависит не только от Белого Дома и открытость данных обеспечивается даже без того чтобы об этом говорил действующий президент.

Ссылки:
[1] https://open.usa.gov/assets/files/NAP4-fourth-open-government-national-action-plan.pdf
[2] https://e-pluribusunum.org/2019/02/22/after-years-of-delays-and-democratic-regression-usa-releases-weak-open-government-plan/

#opengov #usa
Свежая публикация от Boston Consulting Group о том как государства могут использовать искусственный интеллект и о том как это воспринимается гражданами и экспертами [1].

Множество примеров в том как AI может помочь в:
- управлении трафиком
- идентификации болезней глаз
- автоматическое определение подходит ли соискатель на вакансию
и многое другое.

Более всего всех беспокоит использование AI в определении виновности и в решениях о дострочном освобождении. А наибольший консенсус в использовании в задачах управления городом в реальном времени.

Материал интересный и не стоит полагать что неактуальный для России. Есть как минимум две области в которых у Российского государства есть коллосальная мотивация использовать технологии AI, машинного обучения и не только.

Это сбор налогов и управление социальными обязательствами.
- в первом случае налогоплательщик должен быть готов к тому что на смену выездным проверкам приходит тотальная слежка.
- во втором случае сопоставление доходов и расходов, льгот, владения имуществом и не только неизбежно приведет к микроструктурированию социальных обязательств. Механизмы выплат компенсаций, пенсий, медицинского страхования и образования кстати тоже придут к модели социального скоринга.



Ссылки:
[1] https://www.bcg.com/publications/2019/citizen-perspective-use-artificial-intelligence-government-digital-benchmarking.aspx

#ai #machinelearning #digitalgov
Яндекс запустил сервис Яндекс.Патенты [1] где каждый может теперь поискать информацию о патентах которые когда-либо были зарегистрированы с 1924 года. Об этом пишет vc.ru [2]. Поиск по патентам - это полезный и хороший сервис и хочется искренне порадоваться за Яндекс, но, всегда есть свои но.

Среди множества сервисов поиска которые Яндекс делает очень мало тех которые основаны на данных государства. Может быть даже и нет ни одного основанного именно на данных из госреестров.

Какой ключевой и важнейший вопрос который следует задать самим же себе - как Яндекс получает эти данные? Использует ли компания открытые данные или же получает их эксклюзивным образом.

Я напомню что когда Открытое правительство существовало в России, одним из переломных моментов в восприятии его сообществом было проведение мероприятия в Яндексе где сотрудники Яндекса хвастались и подписывали соглашение с Дептрансом Москвы. Не открытых данных, а по закрытому непубличному соглашению с непрозрачными условиями доступа.

Слишком много подозрений в отношении Яндекса в том что компания стремится быть data монополией и ничего не вкладывает ни в открытость данных ни в экосистему вокруг неё.

Ссылки:
[1] https://yandex.ru/patents
[2] https://vc.ru/services/60286-yandeks-zapustil-poisk-po-patentam

#opendata #yandex #patents
В послевкусие после Дня открытых данных там было много тем которые обязательно надо обдумать.

Как минимум вырисовывается то что даже 2-х дневного мероприятия недостаточно. Например, дата-журналистика, в хорошем смысле, вытянула на себя значительную часть пришедших и потому как актуальнее и востребованнее. К тому же это просто красиво и люди идут туда где красиво;)

Аудитории тех кто занимается бизнесом и тех кто интересуется только общественными проектами пересекаются не так сильно как бы хотелось и могло бы. Надо ли их разделять или наоборот важнее перемешивать?

Я напомню что день открытых данных в разных странах проходит в разных форматах. Где-то это мероприятия совсем неформальные митапы, где-то открытые конференции как у нас, где-то это конференции или семинары где участники платят за то чтобы послушать спикеров. Например ODI Summit - это платное мероприятие, а десятки встреч групп активистов в Японии или в Непале - это маленькие неформальные тусовки.

Как сделать всё правильно? Вот вопросы:
1. Должен ли следующий день открытых данных быть 2-х дневным или лучше сфокусированный на один день, но с крутыми зарубежными спикерами, к примеру.

2. Не пора ли делать отдельное однодневное большое мероприятие по журналистике данных?

3. Не надо ли выделить повестку данных в бизнесе в отдельную проводить однодневную конференцию об этом?

4. По дню открытых данных надо ли придумывать механизм поддержки региональных мини-конференций? Каким он может быть?

Напишите мне что думаете об этом и поделитесь мыслями о том что понравилось в прошедшем ОДД в Москве, чего нехватало, как можно сделать всё ещё лучше.

Тут в чате @begtinchat или на почту ivan@begtin.tech

#opendata #opendataday #questions
Маленький преданонс. В августе-ноябре 2018 года мы в Информационная культура и Ассоциация участников рынка данных, а конкретно я лично проводили обследование открытых интерфейсов государственных информсистем и иных информационных систем под госрегулированием на предмет раскрытия из них персональных данных пользователей.

Только на основе общедоступной информации. Результаты не были публичными, их направили в Минсвязь, Роскомнадзор, Генпрокуратуру, что-то всё ещё в работе, а многое уже исправлено.

Около половины найденного - это сведения из удостоверяющих центров, государственных и не очень. И как раз в их случае большая часть найденного уже исправлена, а остальные не исправят пока их явно не "пнешь" похоже.

Лично я долго думал что делать с найденным. Можно ли делать общедоступными результаты этого исследования? Можно ли рассказывать о путях вылова раскрытия перс. данных в информационных системах.

В итоге ту часть исследования которая касается удостоверяющих центров мы будем делать общедоступной. Это подробный анализ систем с конкретными путями воспроизведения и скриншотами по 17 УЦ в которых выявлена эта история (из примерно 50% существующих которые мы проверили).

Сейчас есть развилка:
1. Сделать это в виде собственного доклада, после перепроверки и дополнения информацией о том что было исправлено в итоге после чего рассылать пресс-релиз.
2. Поделиться с одним из крупных федеральных изданий под то что у них будет 1-2 журналиста готовых проверить то что тогда было выявлено и что исправлено и написать об этом качественный материал сославшись на Инфокультуру и Ассоциацию. Может быть даже провести это исследование повторно охватив 100% УЦ.

Если есть идеи и предложения как это лучше сделать - пишите мне на ibegtin@infoculture.ru

#openness #investigations #gis #personaldata
Будет ли заблокирован Facebook в России неизвестно, но позиция Марка Цугерберга известна точно. Отказ от хранения пользовательских данных в странах нарушающих права человека [1]
Дословно:

Secure data storage. People should expect that we won't store sensitive data in countries with weak records on human rights like privacy and freedom of expression in order to protect data from being improperly accessed.

Я лишь могу в очередной раз посетовать что борьба международных корпораций с нацрегуляторами - это борьба упырей против зомби. У рядового пользователя выбор очень невелик. Жаловаться на мегакорпорации нац регуляторами при злоупотреблении их данными или поддерживать мегакорпорации в сохранении личной приватности гражданина вдали от "загребущих лап" государства (но не от "загребущих лап" самих корпораций). Это плавание между Сциллой и Харибдой. И возможен ли новый-технократический мир без этого - это большой вопрос

А Facebook, к сожалению, похоже что будет в России заблокирован. Но, к счастью, блокировки давно уже бесполезны потому что пока приложения Facebook'а есть в магазина Apple и Google и пока российские регуляторы не имеют дистанционного контроля за мобильными устройствами граждан - это не работает.

Ссылки:
[1] https://www.facebook.com/notes/mark-zuckerberg/a-privacy-focused-vision-for-social-networking/10156700570096634/

#securestorage #privacy
Можно сравнивать Роскосмос и НАСА по бюджету, по числу запусков, но мы не услышим от российского руководства Роскосмоса главного сравнения - в социальном и научном эффекте, в доступности данных для исследователей.

НАСА публикуют открытые данные ещё до государственных инициатив по открытости государства. Интеграция НАСА в научные исследования всегда была значительно выше чем в военные, в России всегда было наоборот, Роскосмос был одним из закрытых ведомств, там не только не публиковались открытые данные, но и данные для научных исследований.

У НАСА же список, даже не баз данных, а специальных порталов для их публикации весьма велик:
- Nasa Open Data portal https://data.nasa.gov - портал открытых данных NASA
- Planetary Data System https://pds.nasa.gov каталог и база наборов данных от планетарных миссий НАСА
- EARTHDATA https://earthdata.nasa.gov портал данных о Земле
- My NASA Data https://mynasadata.larc.nasa.gov портал с данными и уроками об устройстве Земли
- NASA API https://api.nasa.gov каталог и документация к API проектов NASA
- NASA Exoplanet Archive https://exoplanetarchive.ipac.caltech.edu - архив данных о экзопланетах
- NASA NEX https://registry.opendata.aws/nasanex/ архив наборов данных об исследованиях Земли на хостинге Amazon AWS
и это неполный список.

За все эти годы Роскомос НИЧЕГО не сделал по доступности их собственных данных и того наследия что им досталось от СССР. Лично я не знаю есть ли ещё окно возможности сохранить российскую космонавтику (и её репутацию), но склоняюсь к тому что это окно закрывается.

#data #opendata #space #cosmos
Меня очень расстраивает что приходится регулярно отвлекаться от тем госинформатизации, работы с данными вообще и открытыми данными в частности, но эта история с блокировками в Рунете, к огромному моему сожалению, бьёт по всем без разбора. И когда она законная, и когда она производится конкретными операторами по требованию спецслужб.

На Хабре вышла редакционная статья [1] о том как сервис ProtonMail [2] блокируется МГТС и другими провайдерами . В принципе понимают ли сотрудники этих органов что тем самым лишь делают рекламу этим сервисам? Похоже не понимают.

Ссылки:
[1] https://habr.com/ru/company/tm/blog/443222/
[2] http://protonmail.com

#privacy
Открылся сайт Нац проекта "Цифровая экономика". Ощущения от него скорее обескураженные. Все материалы и формы в PDF'ах, в разделе "Мнения" нет никаких отличий от новостей, подписаться на обновления через RSS невозможно да и подписываться не на что потому что большая часть новостей на сайте также непрофильная.

В общем остаётся вопрос - а зачем он нужен?

Ссылки:
[1] https://digital.ac.gov.ru/

#digital
... Самой нескоординированной национальной программой Вера Чистова называет «Цифровую экономику». Это многоуровневый федеральный проект, но наряду с ним в отраслевых федеральных проектах (образование, здравоохранение и др.) также заложены существенные суммы. «70 млрд рублей предусмотрены на программное обеспечение в школах. Как это будет увязано с программой «Цифровая экономика»? Пока этой координации нет», - пояснила заместитель Председателя Счетной палаты.

В частности, нет единого мнения о необходимой скорости Интернета для учреждений социальной сферы. В Минкомсвязи обещают, что мощность потока будет превышать 10 Мбит в секунду. «А они нужны школам или не нужны? Мы сегодня не знаем. Может быть, работаем на будущее? Мы закончили проверку доступности проводного интернета в медицинских учреждениях. Не востребованы даже 10 Мбит», - резюмировала Вера Чистова. [1]
...
Ссылки:
[1] http://audit.gov.ru/press_center/news/36209
Privacy International опубликовали обновленные результаты проверки наиболее популярных приложений на предмет передачи детальной информации в Facebook при открытии и в процессе работы [1].

Приложений всего 21, но проверка их была детальной, хотя и охватывала только работу с Facebook'ом через SDK. Как выяснилось подробную информацию передавали практически все приложения. Некоторые исправили это поведение в марте и дали исследователям обратную связь, обещая исправиться.

К этому же исследованию я хочу напомнить про базу Exodus [2] в которой собраны результаты автоматического анализа практически всех приложений из Google Play с поиском и определением разрешений которые приложение затребует и какие трекеры отслеживания пользователя оно использует.

Например последняя версия приложения Яндекс.Такси [3] запрашивает 27 разрешений и содержит код 7 трекеров, приложение Госуслуги [4] требует 18 разрешений и содержит код 3 трекеров.

Другие известные и популярные приложения:
- Активный гражданин (Пр-во Москвы) [5]: 16 разрешений, 7 трекеров
- ProtonVPN - сервис доступа через VPN [6]: 5 разрешений, 1 трекер
- Яндекс Браузер [7]: 41 разрешение, 8 трекеров
- Браузер DuckDuckGo [8]: 6 разрешений, 0 трекеров
- Почта Mail.ru [9]: 37 разрешений и 15 трекеров

И так далее, проверять можно ещё долго. Обратите внимание на ProtonVPN и DuckDuckGo, они добиваются доверия пользователей именно потому что не следят за ним.

В мире подобным мониторингом приватности занимаются Privacy International в США и Exodus Privacy во Франции (с базой 50 тысяч приложений).

В России ничего подобного нет, хотя и прямо таки напрашивается. В целом ничто не ограничивает брать по топ 100 популярных приложений по категориям и строить их рейтинг слежки на основе той же Exodus Database.

Ссылки:
[1] https://privacyinternational.org/appdata
[2] https://reports.exodus-privacy.eu.org/en/
[3] https://reports.exodus-privacy.eu.org/en/reports/40896/
[4] https://reports.exodus-privacy.eu.org/en/reports/9815/
[5] https://reports.exodus-privacy.eu.org/en/reports/11464/
[6] https://reports.exodus-privacy.eu.org/en/reports/64814/
[7] https://reports.exodus-privacy.eu.org/en/reports/56151/
[8] https://reports.exodus-privacy.eu.org/en/reports/63903/
[9] https://reports.exodus-privacy.eu.org/en/reports/63870/

#privacy
Сегодня, довольно внезапно, выступал на ОТР на передаче "Отражение" про распухший госаппарат и эффективность госуправления [1]. Не хватает пока времени изложить эти же мысли подробно и письменно, поэтому пока в таком виде в передаче.

Ссылки:
[1] https://otr-online.ru/programmy/segodnya-v-rossii/ivan-begtin-god-ot-goda-chinovnikov-gossluzhashchih-stanovitsya-tolko-bolshe-nachinaya-s-nashego-pravitelstva-kotoroe-raspuhlo-do-neimovernyh-razmerov-36180.html

#government
Для тех кто работает с данными, полезная визуализация и база знаний по библиотекам на Python для работы с данными [1].

Ссылки:
[1] https://community.ibm.com/community/user/datascience/blogs/paco-nathan/2019/03/12/a-landscape-diagram-for-python-data

#python #data
Немного о рынке данных в России. Не развивать, штрафовать.
Росреестр предлагает штрафовать граждан и организации, которые перепродают сведения из государственного реестра недвижимости. Объем этого рынка в ведомстве оценивают в 2,5 млрд руб.

Подробнее на РБК: https://www.rbc.ru/economics/21/03/2019/5c935ae79a79477312f2c5b0