Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Роботизированная журналистика иногда пугает журналистов, но она, скорее про автоматизацию чернового труда и избавление этой профессии от чернорабочих рерайтеров. Хотя ещё и неизвестно станет ли профессии лучше от роботизации этого рерайта.

А вот технологические стартапы близкие к этой области возникают, хотя и часто называются по другому. Например, Ax Semantics [1], германский стартап по автоматизации копиратинга. Привлекли неизвестную сумму от 6 инвесторов [2] и продают сервис автоматизации отчетов, написания тестов, описания продуктов и так далее.

На самом деле такие авто-пишущие продукты наиболее востребованы именно в написании текстов для потребителей с описанием товаров.

Поэтому журналистам пока опасаться стоит гораздо меньше чем рядовым копирайтерам. Но в The Stuttgarter Zeitung уже автоматизируют с их помощью спортивные обзоры и обзоры качества воздуха, развивая у себя робожурналистику [3]

Ссылки:
[1] https://en.ax-semantics.com/
[2] https://www.crunchbase.com/organization/ax-semantics
[3] https://en.ax-semantics.com/portfolio/stuttgarter-zeitung

#opendata #data #robojournalism #datajournalism #germany #startups
Меня множество журналистов в последние дни спрашивают про то как я отношусь к Единому федеральному информационному ресурсу содержащему сведения о населении (ЕФИР). Законопроект Госдума приняла только что во втором чтении [1], без сомнения он скоро станет законом.

Для государства это:
- возможность отслеживать доходы и расходы семей/домохозяйств и ранее не сведенные вместе доходы граждан, соответственно гораздо гибче оптимизировать льготы и взимать налоги.
- лучше отслеживать изменения статуса человека: родился, женился, появился ребёнок, заболел, недееспособен, умер и соответственно лучше избегать мошенических схем с получением выплат на умерших людей и тд
- улучшить антикоррупционный мониторинг непомерно высоких расходов при формально низких доходов
- улучшить выявление серых и чёрных зарплат и организации проверок бизнеса
- конечно правоохранителям проще отслеживать граждан
- автоматизация взимания штрафов с граждан прямо из их зарплат, счетов и иных доходов

Для граждан опасно то что:
- появление этих данных на чёрном рынке
- появление "услуг пробива" информации
- злоупотребления внутри органов власти которым база данных будет доступна
- рост объёма средств которые надо отдавать государству
- риски появления новых налогов, штрафов и платежей в том числе автоматических, со счетов в банке
- риски потери льгот в виду реклассификации выдачи льгот по результатам работы искусственного интеллекта (такое есть в Испании)

Дополнительные риски
- расширение объёмов и источников собираемых данных решением Правительства РФ, законопроект именно Правительству передаёт полномочия по регулированию системы через установление порядка её функционирования
- возможность построения системы тотальной слежки через интеграцию с Госуслугами, особенно с приложением Госуслуг.

Ключевая проблема во всех подобных инициативах - это сбор данных о гражданах без общественного консенсуса.

И, учитывая что система сможет отслеживать не только отдельных граждан, но и семьи, то это серьёзный удар по институту брака. Значительное число граждан предпочтёт не оформлять свои отношения.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/759897-7

#privacy #government #fgis
Одна картинка важнее тысячи слов
Сбербанк и Тиньков Банк запустили свои порталы мониторинга ситуации в экономике на фоне коронавирус.

У Сбербанка это SberIndex [1] и у Тинькова это Tinkoff Coronaindex [2].
И там и там полезные сведения, я бы даже сказал очень интересные и для граждан и для рынка и для многих принимающих решения. Могу посетовать что они, к сожалению, не публикуют API или данные, но пытливые умы легко найдут данные внутри кода веб страниц. А если Вы знаете создателей этих проектов, напишите им что при наличии API их проекты будут ещё лучше, ещё востребованнее и тд.

Если кто-то знает аналогичные российские индексы/ежедневные мониторы экономической ситуации, а также если кто-то делает агрегаторы ежедневных экономических и социальных данных - пишите в чате https://t.me/begtinchat или мне лично, я обязательно сделаю обзор таких проектов.

Ссылки:
[1] https://sberindex.ru
[2] https://index.tinkoff.ru/

#data #indexes #covid19 #tinkoff #sberbank
The Costs of connection [1] свежая книга о колониализме данных (data colonialism) вышедшая в августе 2019 года [2] и пока не переведённая на русский язык. Книга посвящена простой и неприятной истине что цивилизация и развитие технологий привели к явлению самоколонизации, когда объектами колонизации оказываются не далёкие и менее развитые страны и народы, а народы собственные из которых извлекается прибыль через владение их данными. Авторы пишут об этом и в продолжении книги в статье Colonising ourselves? An introduction to data colonialism [3] и, в отличие от заядлых искателей теорий заговора, их аргументы более чем взвешены, разумны и обоснованы.

Ключевой аргумент в том что если исторический колониализм аннексировал территории, их ресурсы и тела тех кто на них работал, то дата колониализм захватывает проще и глубже: захват и контроль человеческой жизни через присвоение данных которые могут быть извлечены для получения прибыли.

На фоне пандемии коронавируса возникает и другой запрос. Запрос на социальную справедливость. В основе которого ситуация когда за деньги можно купить. И здоровье, и отсутствие цифровой слежки, всё это становится новыми атрибутами роскоши. И, если ранее различия между колонизаторами и колонизируемыми были в цвете кожи, языке, религии, уровне развития науки и инженерной мысли, то сейчас эта грань стирается.

Всё это не новое явление и "внутренний колониализм" [4] существовал и ранее, сейчас лишь меняется форма его существования.
У этих же авторов есть интересные публикации о взаимосвязи законов и практик сбора данных и регулирования [5] и о datafication [6], процессе превращения в данные разных объектов и сторон нашей жизни.

Тем кто интересуется этой темой я также рекомендую обратить внимание на книги Шошанны Зубоф "Surveillance capitalism" [7] и сборник статей "The Datafied Society" [8] от группы авторов из Utrecht Data School [9]

Ссылки:
[1] https://colonizedbydata.com/
[2] https://www.sup.org/books/title/?id=28816
[3] https://blogs.lse.ac.uk/medialse/2020/03/19/colonising-ourselves-an-introduction-to-data-colonialism/
[4] https://en.wikipedia.org/wiki/Internal_colonialism
[5] https://policyreview.info/articles/analysis/making-data-colonialism-liveable-how-might-datas-social-order-be-regulated
[6] https://policyreview.info/concepts/datafication
[7] https://en.wikipedia.org/wiki/Surveillance_capitalism
[8] https://datafiedsociety.nl/the-book/
[9] https://dataschool.nl/

#data #privacy #government #datacolonialism
Такими темпами, строчки в резюме о работе в ДИТ Москвы, могут быть самым негативным фактором при будущем трудоустройстве его сотрудников.
Рубрика "Циничная ДИТовщина"
Когда федеральный ИТ-министр говорит, что не может повлиять на региональное ИТ-министерство, нарукожопившее и навязывающее всем несчастным, кого угораздило угодить под коронавирусные подозрения, мобильное приложение "Цифровой концлагерь" "Социальный мониторинг", это совсем не означает, что региональное ИТ-министерство крутое и независимое. Это, скорее, означает, что к региональному ИТ-министерству скоро могут прийти из другого федерального ведомства, которое не так трепетно относится к конституционным правам субъектов РФ.

"Максут Шадаев заявил «Известиям», что Минцифра не в силах повлиять на разработчиков программы, для того чтобы исправить все недочеты.
— Это не наше приложение, оно у нас нигде не проходило, это собственная инициатива Москвы. Оно разработано и функционирует за деньги города, является приложением регионального уровня. Поэтому мы им ничего поручить не можем, — признал министр.
Он также заверил «Известия», что на федеральном уровне распространять данное приложение по примеру Москвы власти не планируют."
Что будет с ДИТ Москвы после пандемии?
anonymous poll

Ничего не будет – 143
👍👍👍👍👍👍👍 62%

Наградят сотрудников медалями/грамотами/наградным оружием – 59
👍👍👍 25%

Заменят Эдуарда Лысенко на ещё кого-нибудь – 14
👍 6%

Проверки ФСБ/МВД/Роскомнадзора, посадки и отставки – 12
👍 5%

Всех [без]ответственных внесут в американские/европейские люстрационные списки – 2
▫️ 1%

Расформируют и создадут новый орган с нуля – 2
▫️ 1%

👥 232 people voted so far.
В последние годы порталы открытых данных перестали быть чем-то новым и прорывным, в основном они все основаны на нескольких решениях: CKAN, DKAN, OpenDataSoft, Dataverse и они как выполняли так и выполняют ключевую функцию доставки данных конечным пользователям. Иногда может показаться, а что же ещё может в них появиться? Так вот главное что может появиться, а новые сервисы доставки данных без порталов. Это сервисы управления пакетами данных очень похожих на системы контроля версий или системы управления пакетами ПО в Unix.

Datahub.io
Проект компании Datopian вышедшей из Open Knowledge Foundation. Основная его идея в том чтобы публиковать тщательно упакованные наборы данных в соответствии со стандартом Frictionless Data. Там не так много данных, но есть возможность публиковать свои наборы и есть возможность получать опубликованное там через API или утилиту командной строки "data". Каждый набор данных включает метаданные для интеграции их в свои системы. Ориентирован на табличные данные. Адаптирован более всего под язык Python, но есть много примеров на разных языках.

Ссылка: https://datahub.io

Data Package Manager for R (DPMR)
Система управления пакетами для языка R. Также основана на стандарте Frictionless Data, но уже заточенный под конкретный язык

Ссылка: https://github.com/christophergandrud/dpmr

Octopub
Проект Института открытых данных по автоматизации подготовки и публикации наборов данных. Довольно давно находится в стадии Beta, но продолжает развиваться. Важный акцент делают на валидации данных, как минимум на уровне форматов

Ссылка: https://octopub.io

Data Retriever
Сервис и код по подготовке наборов данных и доступа к ним для языков Python и R. В основном ориентирован на исследовательские данные.

Ссылка: https://www.data-retriever.org/

Dolt
Можно сказать Git для данных. Не даёт данным упаковки, но даёт интерфейс похожий на систему контроля версий Git для обновления данных и поддержания их в актуальном состоянии.

Ссылка: https://github.com/liquidata-inc/dolt

Data Version Control (DVC)
Система управления версиями данных ориентированная на машинное обучение. Заточено под данные относительно большого объёма, достигло версии пререлиза 1.0 и активно развивается. Значительно заточено под облачное хранение, такое как AWS S3.

Ссылка: https://dvc.org/

Sno.Earth
Заточено под геоданные и табличные данные, основной стандарт по которому работает это GeoPackage на основе которого даёт возможность работать с данными как система версионирования.

Ссылка: https://sno.earth/

Quilt
Утилита от создателей портала QuiltData, раздающем петабайтный архив данных поверх инфраструктуры AWS. Четко ориентировано на работу с данными как с кодом. Заточено под табличные данные, но возможно пригодно и для других задач.

Ссылки: https://github.com/quiltdata/quilt


Это всё, безусловно, не полный список. Существует множество инструментов внутри корпоративных решений, есть продукты умеющие версионировать справочники, есть много подходов к упаковке исследовательских данных и, конечно, за пределами данных, есть множество инструментов создания пакетов с контентом в архивной среде.

#data #datapackages #opensource
Что я могу сказать про электронное голосование? Которое нам уже обещают и эксперимент запланирован.

Положительное:
- электронное голосование долгосрочно дешевле бумажного
- больше возможностей охватить избирателей (не нужно никуда идти или ехать)
- подсчет голосов значительно упрощается

Отрицательное
- разработка, сопровождение и контроль над системой у органов исполнительной власти
- исходный код врядли будет открыт
- постоянные сомнения в легитимности голосования (правящая партия всегда под подозрением)
- утечки персональных данных могут быть фатальными
- процедуры общественного контроля непонятны, экзит полы должны меняться

Неизвестное
- полное внедрение электронных голосований должно также резко сократить стоимость референдумов. Но будет ли их больше?
- станет ли бумажный паспорт вторичным документом?
- станет ли похищение мобильного телефона другим уголовным преступлением?
- будут ли прописывать прописку в цифровом профиле


#elections #digital
Максут Шадаев на днях объявил что данные о цифровых пропусках в региональных системах будут удалены [1] и надо сказать что Максут выступает как человек весьма неглупый и видел уже решение Татарстана по удалению их базы цифровых пропусков.

Ключевых вопросов тут два:
1. У Минкомсвязи, на практике, не так много механизмов воздействия на региональные власти.
2. Чтобы удаление было гарантировано нужен нормативно правовой документ. Постановление Правительства или закон. Готовят ли его внутри Минкомсвязи?

Удалят ли в итоге данные жителей ответственные за это в Мэрии Москвы или желание рассылать гражданам рекламу ближайшие 10 лет для них несопоставимо важнее ? [2]

Ссылки:
[1] https://tass.ru/obschestvo/8563413
[2] https://habr.com/ru/company/analogbytes/blog/503552/

#privacy #moskva #shadaev #digital
Для тех кто интересуется качеством данных пост в блоге Uber Engineering о том как управление качеством данных организовано в Uber [1]. Особенность их работы в том что данные поступают непрерывно, в реальном времени, данные большого объёма и метрики для понимания общей ситуации также нужны максимально оперативно. Для чего они разработали собственную систему управления качеством данных, Argos [2].

В отличие от других ИТ продуктов Uber'а их платформа Argos не публиковалась никогда с открытым кодом и всё что мы можем узнать о ней, это посты в их блоге.

Однако Argos - это лишь одно из решений в том что называется data quality management (DQM) или управление качеством данных. В инженерии данных - это процесс (пайплайн) по анализу, очистке и корректировке данных. DQM продукты есть у IBM, SAP, Oracle и многих других крупных игроков в области хранилищ данных (data warehouse), но чаще DQM - это часть процессов DataOps.

Ссылки:
[1] https://eng.uber.com/monitoring-data-quality-at-scale/
[2] https://eng.uber.com/argos-real-time-alerts/

#dqm #dataops #uber #argos
Для того чтобы понять распространённость заболевания в популяции не обязательно проводить массовое тестирование. Альтернативные данные получаются при анализе проб из канализации и стартап Biobot Analytics [1] предоставляющий услуги анализа проб из канализационных систем на наличие в нём вируса COVID-19. Стартап изначально создавался для анализа уровня использования опиодов и успел поднять $6.7 миллионов долларов США.

Сейчас они анализируют 100 объектов в 30 штатах США [2] и расширяют число компаний операторов канализации как партнёров и клиентов.

В Европе аналогичную работу ведёт голландский KWR Water Institute уже много лет осуществляющий анализ фекалий в европейских канализациях и теперь исследующий их на наличие COVID-19 [3]

А 21 мая прошли слушания конгресса организованные The Water Research Foundation по организации повсеместного мониторинга окружающей среды на наличие COVID-19 [4] в канализации. Можно увидеть слайды с подробностями внедрения технологий [5] и проведённых исследований.


Ссылки:
[1] https://www.biobot.io/covid19
[2] https://www.theverge.com/2020/4/20/21227995/sewage-wastewater-poop-coronavirus-survellience-biobot
[3] https://www.forbes.com/sites/rachelsandler/2020/04/01/poop-provides-an-early-sign-coronavirus-cases-will-rise-study-says/
[4] https://www.waterrf.org/event/virtual-congressional-briefing-environmental-surveillance-genetic-fingerprint-covid-19
[5] https://www.waterrf.org/sites/default/files/file/2020-05/Congressional%20COVID-19%20Briefing_FINAL.pdf

#sewers #data #sensors
Как я писал ранее, одно из направлений развития в инженерии данных и DataOps - это упаковка и доставка данных в виде контейнеров [1]. Наиболее активно развивающейся спецификацией для открытых данных является Frictionless Data [2], однако история про контейнеры с данными имеет куда более глубокие корни и направление "упаковки данных" давно существуют в научной среде.

ResearchObject [3] - это проект и набор спецификаций по описанию и упаковке данных в научной среде с ориентацией на воспроизведение результатов исследований. Наиболее актуальная спецификация RO-Crate [4] использует описание метаданных в формате связанных данных для описания как происхождения данных так и описания каждого включённого файла.

Одна из областей в которой давно уже активно идёт и используется стандартизация - это биоинформатика. Набор стандартов COMBINE (COmputational Modeling in BIology NEtwork) [5] включает как их моделирование, так и контейнеры для обмена данными и их преобразование, например, в контейнеры ResearchObject.

К другим спецификациям можно отнести Big data bag [6] объединяющие ResearchObject и спецификацию архивации данных BagIt [7].

У этой же инициативы есть ещё одно отражение, репозитории кода являются также результатами исследований и Mozilla Science Lab запустили инициативу Code as Research Object [8]

Другой заметный стандарт - это ReproZip [9], стандарт контейнер по упаковке данных и спецификации по воспроизведению исследований. Разрабатывается в инженерном подразделении New York University и основная его цель в том чтобы избежать замыкания в экосистеме одного вендора (да, в науке это повсеместно).

Применение подобных решений пока гораздо больше заточено под научные данные в биоинформатике, социологии, инженерных науках. Их внедрение требует, в первую очередь, готовность исследователей работать с техническими инструментами, наличия архивов и репозиториев поддерживающих подобные стандарты.

Ссылки:
[1] https://t.me/begtin/1925
[2] https://frictionlessdata.io
[3] http://www.researchobject.org/
[4] https://researchobject.github.io/ro-crate/1.0/
[5] http://co.mbine.org/
[6] https://github.com/fair-research/bdbag
[7] https://datatracker.ietf.org/doc/rfc8493/
[8] https://mozillascience.github.io/code-research-object/
[9] https://www.reprozip.org/

#opendata #data #standards
Тем временем мы запланировали серию вебинаров по приватности. Самый ближайший 3 июня. Регистрируйтесь и участвуйте!
Forwarded from Инфокультура
Инфокультура запускает серию вебинаров о приватности данных.

3 июня в 15:00 приглашаем вас на первый вебинар «Цифровой профиль россиянина: право на приватность». В программе: обсуждение принципов разработки платформы «Цифровой профиль», государственных супераппов и сервисов, созданных на основе личных данных граждан.

Эксперты обсудят режимы владения данными и право распоряжаться ими, а также кибербезопасность и риски централизации данных.

Спикеры:
- Иван Бегтин (@begtin), директор АНО «Инфокультура»;
- Светалана Белова, генеральный директор компании «Датамания»;
- Саркис Дарбинян, партнер Центра цифровых прав, адвокат в сфере киберправа;
- Василий Буров, соучредитель АНО «Инфокультура»;
- Олег Качанов, заместитель министра цифрового развития, связи и массовых коммуникаций Российской Федерации.

Для участия необходимо зарегистрироваться: https://infoculture.timepad.ru/event/1324757.

Всем зарегистрированным участникам придет ссылка для подключения в Zoom.
Медуза [1], Известия [2], РИА Новости [3] и другие издания пишут о экспертах МВД предлагающих создать мобильное приложение "Мигрант" и включить в него "рейтинг социального доверия". Иначе говоря, наработки приложений "Социальный мониторинг" и "Стопкоронавирус.РФ" МВД явно понравились и решили применить их на трудовых мигрантах.

К сожалению, за всеми этими публикациями нет ни фамилий экспертов, ни первоисточника, ни этого самого прогноза. Мне лично очень интересно как это приложение будут ставить тем у кого нет сотового телефона на Android или iPhone и как будут обязывать устанавливать приложения многочисленных топ-менеджеров европейских и американских компаний в России.

Всё таки они тоже "трудовые мигранты", но они же и граждане других стран. Вступятся ли за их права их правительства и посольства?

[1] https://meduza.io/news/2020/05/29/mvd-predlozhilo-sozdat-prilozhenie-migrant-ustanavlivat-kotoroe-obyazhut-vseh-priehavshih-na-rabotu-v-rossiyu
[2] https://iz.ru/1017094/2020-05-29/mvd-rossii-mozhet-sozdat-spetcialnoe-prilozhenie-dlia-migrantov
[3] https://ria.ru/20200529/1572150359.html

#mobile #apps #privacy
Буквально вдогонку материалам по методике анализа госполитики, вышла экспертная записка "Применение теории изменений для стратегического аудита и стратегического планирования в России" [1] подготовленная коллегами из Центра перспективных управленческих решений и Счетной палаты.

Записка похожа на то что делают исследователи в Великобритании, также воспроизводит последовательность и инструменты реализации госполитики. Всячески рекомендую к прочтению с акцентом на дискуссию. Как и все экспертные записки - эта записка является концентрированным мнением группы исследователей, комментарии, критика, дополнения в таком формате всегда уместны.


Ссылки:
[1] http://ach.gov.ru/upload/pdf/AuditInsights.pdf

#sprf #policy #methods