Ivan Begtin
7.98K subscribers
1.8K photos
3 videos
101 files
4.51K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Латиноамериканское и черное население США, а также женщины и необразованная часть населения - это главные безработные из-за COVID-19, о чём можно прочитать в заметке Towards Data Science [1]. Более всего работу потеряли наименее образованные работники, их безработица выросла с 5.5% до 20% с января по апрель 2020 года.

Неизвестно пока насколько подобная ситуация повторяется по другим странам. Детальная ежемесячная статистика занятости в США [2] даёт довольно много возможностей по анализу данных, но есть риски что и в других странах ситуация может быть похожей.

[1] https://towardsdatascience.com/digging-deeper-into-coronavirus-unemployment-statistics-a17d2e66bf47
[2] https://data.bls.gov/cgi-bin/surveymost?ln

#data #opendata #usa #unemployment
"How COVID-19is changing the world: a statistical perspective" - доклад ООН и десятка других международных агентств о том как пандемия COVID-19 меняет мир с точки зрения статистики [1]. Много разных срезов и взглядов на мир, с точки зрения рабочей силы, государственного долга, ВВП, образования и многого другого.

Конечно, важно помнить что средние цифры по миру и даже по странам - это взгляд сверху и на гипер-локальном уровне последствия могут быть как лучше так и хуже, но и понимать всё что творится в мире также важно.

Доклад хорошо подан визуально, содержит много интересного и всячески полезен в понимании того на какие стороны нашей жизни пандемия влияет, даже если мы этого сразу не замечаем.

[1] https://unstats.un.org/unsd/ccsa/documents/covid19-report-ccsa.pdf

#dataviz #un #data #reports #covid19
У Юрия Синодова (@sinod) годный наброс про состояние текущих медиа [1].

Я именно про медиа, а не про журналистику, потому что с журналистикой у нас большая беда, конечно.

Лично мне более всего в текущей журналистике, особено в деловой, более всего не нравится:
1. Уход в сторону кликбейтовых "отглагольных" заголовков.
2. Резкое падение качества, и не-политических расследований, и инсайдов с рынка.
3. Избегание конфликтов и попытки сохранять со всеми ровные отношения приводит к тому что ключевые новости рынка не появляются.
4. Отсутствие жесткого отстаивания ключевых ценностей и принципов профессии за пределами своих редакций. Та же открытость госорганов/корпораций и тд. нужны, в первую очередь, журналистам для их профессиональной работы. Но слышен ли их голос? Нет.

Зная многое что происходит внутри, общаясь с журналистами и редакторами, я, конечно, понимаю что всё это следствия, а не первопричина болезни.

И тем интереснее почитать и рефлексию Юрия на с его взглядом.

Что ждёт российские медиа в будущем, вот в чём вопрос.

[1] https://roem.ru/15-05-2020/282292/medijnaya-reznya-benzopiloj/

#journalism
Власти Республики Татарстан уничтожили базу цифровых пропусков и все её резервные копии [1], это сведения о более чем 1,7 миллионах жителей Республики и 14 миллионов выданных пропусков. Пока это первый российский регион, который не только ввел систему цифровых пропусков, но и целенаправленно её уничтожил.

Тот момент когда этика работы с данными имеет значение и наличие тех кто действует в соответствии с ней даёт надежду что в России ещё есть те кто понимают все риски создания "цифрового концлагеря". Пока что власти Татарстана самые разумные на фоне пандемии и хочется лишь пожелать властям остальных субъектов федерации, "не забыть" удалить все данные, а для лучшей памяти принять соответствующие нормативные документы уже сейчас.

[1] https://digital.tatarstan.ru/rus/index.htm/news/1749226.htm

#covid19 #digital #tatarstan
То что данные нарушителей самоизоляции оказались в открытом доступе [1] - это можно считать чем-то, в каком-то смысле неизбежным событим. Российские власти редко когда реализовывали сервисы работы с гражданами так чтобы там не возникало утечек, от неграмотности разработчиков или от сливов сотрудников. Я напомню про мой доклад 2019 года [2] про "юридически допустимые", но фактически нет утечки данных и государственных информационных систем. В принципе же ситуация такова что на специальных форумах "пробива информации" 'эти сведения рано или поздно появятся.

Ключевой вопрос в ответственности тех в Мэрии Москвы (ДИТ Москвы) кто допустил подобное.

Ссылки:
[1] https://www.forbes.ru/newsroom/tehnologii/400733-pasportnye-dannye-narushiteley-samoizolyacii-okazalis-v-otkrytom-dostupe
[2] https://begtin.tech/pdleaks-p3-govsys/

#privacy #covid19
Многие ведущие компании начали увольнять сотрудников, другие замораживать их найм и есть те кто и сейчас активно набирают новых людей. В небольшом рекрутинговом стартапе Candor организовали краудсорсинговый мониторинг увольнений, заморозки найма и найма по более чем 7699 компаниям [1]

Довольно много интересного и гораздо более объёмная картина чем если мониторить отдельные новости о массовых увольнениях.

Ссылки
[1] https://candor.co/hiring-freezes/

#jobs #layoffs
Тем временем канадский регулятор оштрафовал Facebook на 9 миллионов канадских долларов ($6.5 миллионов долларов США, примерно полмиллиарда рублей) за введение в заблуждение о приватности пользователей [1].

Ранее европейские регуляторы принимали законопроекты об оборотных штрафах и штрафах до 50 миллионов Евро [2], по другим обстоятельствам, но смысл не меняется - серьёзные регуляторы "бьют" международные корпорации единственным действенным способом, штрафами сопоставимыми с размерами их бизнеса.

Здесь я от себя прокомментирую что подобная ситуация в России, почти наверняка, невозможна. Российские регуляторы могут сколь угодно угрожать блокировать зарубежные социальные сети, но не могут ввести и, самое главное, применить аналогичное регулирование. Причина этого в размере рынка и общей политической ситуации. Почти 100% что при подобном российском регулировании международные игроки, либо просто уйдут с российского рынка, или уведут дела в международные суды, или просто проигнорируют.

По той причине что для того чтобы оказывать влияние на крупнейших игроков, нужно иметь либо значительный рынок (а это, увы не про Россию), либо находится в "условно западной" экосистеме Интернета. Чем больше Рунет самоизолируется от мира, тем больше вероятность что действия российских регуляторов в этой области будут бесперспективны.

И, в любом случае, важно помнить что в противостоянии национальных регуляторов и международных корпораций нет какой-то одной правой стороны. Интересы пользователей могут как нарушать так и защищать как государственные органы так и крупнейшие корпорации.

Ссылки:
[1] https://www.bbc.com/news/world-us-canada-52640785
[2] https://t.me/begtin/1908

#regulation #fines #canada #facebook
Microsoft выпустили большое обновление инструментов для Windows 10. Об этом пишет CNews [1], а также Microsoft у себя на сайте [2]

Важное в обновлениях:
- Windows Terminal [3] - приложение для замены классической командной строки. Можно открывать множество окон командной строки с PowerShell, Windows Linux Subsystem, классической командной строки и командной строки облака Azure. И всё это с открытым кодом [4]
- Microsoft Package Manager [5] - позволяет устанавливать большое число нового ПО с командной строги, также как в Linux и другие ОС было принято ещё с незапамятных времён
- Windows Linux Subsystem 2 (WSL2) [6] - ещё лучшая поддержка Linux сред, с упрощением установки ПО, обновления, эмуляции и так далее.

Я от себя добавлю что наиболее ценное из этих изменений - это обновление WSL и, в принципе, развитие этих технологий. Многие продукты работы с данными работающие только на Linux сейчас без труда можно ставить на Windows 10 и это более чем удобно для практической работы с данными.

Windows Terminal по функциям очень напоминает консольный эмулятор Cmdr [7] которым я давно пользуюсь и код которого также открыт [8], но тут ничего плохого в такой конкуренции нет, cmdr гораздо более гибок, а Windows Terminal лучше состыкован со средой Azure.

То же самое с управлением пакетами в Windows 10. Много лет существует Chocolatey [9] также с открытым кодом [10] через который доступны уже более 7600 приложений. А также Scoop [11] и just-install [12]. Поэтому главное достоинство пакетной установки от Microsoft - это официальность, но, конечно, она будет конкурировать с уже существующими популярными альтернативными инструментами.

Ссылки:
[1] https://www.cnews.ru/news/top/2020-05-20_v_windows_10_poyavilis_novaya_komandaya
[2] https://devblogs.microsoft.com/commandline/the-windows-subsystem-for-linux-build-2020-summary/
[3] https://docs.microsoft.com/ru-ru/windows/terminal/
[4] https://github.com/microsoft/terminal
[5] https://devblogs.microsoft.com/commandline/windows-package-manager-preview/
[6] https://devblogs.microsoft.com/commandline/the-windows-subsystem-for-linux-build-2020-summary/
[7] https://cmder.net/
[8] https://github.com/cmderdev/cmder
[9] https://chocolatey.org/
[10] https://github.com/chocolatey/choco
[11] https://scoop.sh/
[12] https://github.com/just-install/just-install

#windows #linux #update
Роботизированная журналистика иногда пугает журналистов, но она, скорее про автоматизацию чернового труда и избавление этой профессии от чернорабочих рерайтеров. Хотя ещё и неизвестно станет ли профессии лучше от роботизации этого рерайта.

А вот технологические стартапы близкие к этой области возникают, хотя и часто называются по другому. Например, Ax Semantics [1], германский стартап по автоматизации копиратинга. Привлекли неизвестную сумму от 6 инвесторов [2] и продают сервис автоматизации отчетов, написания тестов, описания продуктов и так далее.

На самом деле такие авто-пишущие продукты наиболее востребованы именно в написании текстов для потребителей с описанием товаров.

Поэтому журналистам пока опасаться стоит гораздо меньше чем рядовым копирайтерам. Но в The Stuttgarter Zeitung уже автоматизируют с их помощью спортивные обзоры и обзоры качества воздуха, развивая у себя робожурналистику [3]

Ссылки:
[1] https://en.ax-semantics.com/
[2] https://www.crunchbase.com/organization/ax-semantics
[3] https://en.ax-semantics.com/portfolio/stuttgarter-zeitung

#opendata #data #robojournalism #datajournalism #germany #startups
Меня множество журналистов в последние дни спрашивают про то как я отношусь к Единому федеральному информационному ресурсу содержащему сведения о населении (ЕФИР). Законопроект Госдума приняла только что во втором чтении [1], без сомнения он скоро станет законом.

Для государства это:
- возможность отслеживать доходы и расходы семей/домохозяйств и ранее не сведенные вместе доходы граждан, соответственно гораздо гибче оптимизировать льготы и взимать налоги.
- лучше отслеживать изменения статуса человека: родился, женился, появился ребёнок, заболел, недееспособен, умер и соответственно лучше избегать мошенических схем с получением выплат на умерших людей и тд
- улучшить антикоррупционный мониторинг непомерно высоких расходов при формально низких доходов
- улучшить выявление серых и чёрных зарплат и организации проверок бизнеса
- конечно правоохранителям проще отслеживать граждан
- автоматизация взимания штрафов с граждан прямо из их зарплат, счетов и иных доходов

Для граждан опасно то что:
- появление этих данных на чёрном рынке
- появление "услуг пробива" информации
- злоупотребления внутри органов власти которым база данных будет доступна
- рост объёма средств которые надо отдавать государству
- риски появления новых налогов, штрафов и платежей в том числе автоматических, со счетов в банке
- риски потери льгот в виду реклассификации выдачи льгот по результатам работы искусственного интеллекта (такое есть в Испании)

Дополнительные риски
- расширение объёмов и источников собираемых данных решением Правительства РФ, законопроект именно Правительству передаёт полномочия по регулированию системы через установление порядка её функционирования
- возможность построения системы тотальной слежки через интеграцию с Госуслугами, особенно с приложением Госуслуг.

Ключевая проблема во всех подобных инициативах - это сбор данных о гражданах без общественного консенсуса.

И, учитывая что система сможет отслеживать не только отдельных граждан, но и семьи, то это серьёзный удар по институту брака. Значительное число граждан предпочтёт не оформлять свои отношения.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/759897-7

#privacy #government #fgis
Одна картинка важнее тысячи слов
Сбербанк и Тиньков Банк запустили свои порталы мониторинга ситуации в экономике на фоне коронавирус.

У Сбербанка это SberIndex [1] и у Тинькова это Tinkoff Coronaindex [2].
И там и там полезные сведения, я бы даже сказал очень интересные и для граждан и для рынка и для многих принимающих решения. Могу посетовать что они, к сожалению, не публикуют API или данные, но пытливые умы легко найдут данные внутри кода веб страниц. А если Вы знаете создателей этих проектов, напишите им что при наличии API их проекты будут ещё лучше, ещё востребованнее и тд.

Если кто-то знает аналогичные российские индексы/ежедневные мониторы экономической ситуации, а также если кто-то делает агрегаторы ежедневных экономических и социальных данных - пишите в чате https://t.me/begtinchat или мне лично, я обязательно сделаю обзор таких проектов.

Ссылки:
[1] https://sberindex.ru
[2] https://index.tinkoff.ru/

#data #indexes #covid19 #tinkoff #sberbank
The Costs of connection [1] свежая книга о колониализме данных (data colonialism) вышедшая в августе 2019 года [2] и пока не переведённая на русский язык. Книга посвящена простой и неприятной истине что цивилизация и развитие технологий привели к явлению самоколонизации, когда объектами колонизации оказываются не далёкие и менее развитые страны и народы, а народы собственные из которых извлекается прибыль через владение их данными. Авторы пишут об этом и в продолжении книги в статье Colonising ourselves? An introduction to data colonialism [3] и, в отличие от заядлых искателей теорий заговора, их аргументы более чем взвешены, разумны и обоснованы.

Ключевой аргумент в том что если исторический колониализм аннексировал территории, их ресурсы и тела тех кто на них работал, то дата колониализм захватывает проще и глубже: захват и контроль человеческой жизни через присвоение данных которые могут быть извлечены для получения прибыли.

На фоне пандемии коронавируса возникает и другой запрос. Запрос на социальную справедливость. В основе которого ситуация когда за деньги можно купить. И здоровье, и отсутствие цифровой слежки, всё это становится новыми атрибутами роскоши. И, если ранее различия между колонизаторами и колонизируемыми были в цвете кожи, языке, религии, уровне развития науки и инженерной мысли, то сейчас эта грань стирается.

Всё это не новое явление и "внутренний колониализм" [4] существовал и ранее, сейчас лишь меняется форма его существования.
У этих же авторов есть интересные публикации о взаимосвязи законов и практик сбора данных и регулирования [5] и о datafication [6], процессе превращения в данные разных объектов и сторон нашей жизни.

Тем кто интересуется этой темой я также рекомендую обратить внимание на книги Шошанны Зубоф "Surveillance capitalism" [7] и сборник статей "The Datafied Society" [8] от группы авторов из Utrecht Data School [9]

Ссылки:
[1] https://colonizedbydata.com/
[2] https://www.sup.org/books/title/?id=28816
[3] https://blogs.lse.ac.uk/medialse/2020/03/19/colonising-ourselves-an-introduction-to-data-colonialism/
[4] https://en.wikipedia.org/wiki/Internal_colonialism
[5] https://policyreview.info/articles/analysis/making-data-colonialism-liveable-how-might-datas-social-order-be-regulated
[6] https://policyreview.info/concepts/datafication
[7] https://en.wikipedia.org/wiki/Surveillance_capitalism
[8] https://datafiedsociety.nl/the-book/
[9] https://dataschool.nl/

#data #privacy #government #datacolonialism
Такими темпами, строчки в резюме о работе в ДИТ Москвы, могут быть самым негативным фактором при будущем трудоустройстве его сотрудников.
Рубрика "Циничная ДИТовщина"
Когда федеральный ИТ-министр говорит, что не может повлиять на региональное ИТ-министерство, нарукожопившее и навязывающее всем несчастным, кого угораздило угодить под коронавирусные подозрения, мобильное приложение "Цифровой концлагерь" "Социальный мониторинг", это совсем не означает, что региональное ИТ-министерство крутое и независимое. Это, скорее, означает, что к региональному ИТ-министерству скоро могут прийти из другого федерального ведомства, которое не так трепетно относится к конституционным правам субъектов РФ.

"Максут Шадаев заявил «Известиям», что Минцифра не в силах повлиять на разработчиков программы, для того чтобы исправить все недочеты.
— Это не наше приложение, оно у нас нигде не проходило, это собственная инициатива Москвы. Оно разработано и функционирует за деньги города, является приложением регионального уровня. Поэтому мы им ничего поручить не можем, — признал министр.
Он также заверил «Известия», что на федеральном уровне распространять данное приложение по примеру Москвы власти не планируют."
Что будет с ДИТ Москвы после пандемии?
anonymous poll

Ничего не будет – 143
👍👍👍👍👍👍👍 62%

Наградят сотрудников медалями/грамотами/наградным оружием – 59
👍👍👍 25%

Заменят Эдуарда Лысенко на ещё кого-нибудь – 14
👍 6%

Проверки ФСБ/МВД/Роскомнадзора, посадки и отставки – 12
👍 5%

Всех [без]ответственных внесут в американские/европейские люстрационные списки – 2
▫️ 1%

Расформируют и создадут новый орган с нуля – 2
▫️ 1%

👥 232 people voted so far.
В последние годы порталы открытых данных перестали быть чем-то новым и прорывным, в основном они все основаны на нескольких решениях: CKAN, DKAN, OpenDataSoft, Dataverse и они как выполняли так и выполняют ключевую функцию доставки данных конечным пользователям. Иногда может показаться, а что же ещё может в них появиться? Так вот главное что может появиться, а новые сервисы доставки данных без порталов. Это сервисы управления пакетами данных очень похожих на системы контроля версий или системы управления пакетами ПО в Unix.

Datahub.io
Проект компании Datopian вышедшей из Open Knowledge Foundation. Основная его идея в том чтобы публиковать тщательно упакованные наборы данных в соответствии со стандартом Frictionless Data. Там не так много данных, но есть возможность публиковать свои наборы и есть возможность получать опубликованное там через API или утилиту командной строки "data". Каждый набор данных включает метаданные для интеграции их в свои системы. Ориентирован на табличные данные. Адаптирован более всего под язык Python, но есть много примеров на разных языках.

Ссылка: https://datahub.io

Data Package Manager for R (DPMR)
Система управления пакетами для языка R. Также основана на стандарте Frictionless Data, но уже заточенный под конкретный язык

Ссылка: https://github.com/christophergandrud/dpmr

Octopub
Проект Института открытых данных по автоматизации подготовки и публикации наборов данных. Довольно давно находится в стадии Beta, но продолжает развиваться. Важный акцент делают на валидации данных, как минимум на уровне форматов

Ссылка: https://octopub.io

Data Retriever
Сервис и код по подготовке наборов данных и доступа к ним для языков Python и R. В основном ориентирован на исследовательские данные.

Ссылка: https://www.data-retriever.org/

Dolt
Можно сказать Git для данных. Не даёт данным упаковки, но даёт интерфейс похожий на систему контроля версий Git для обновления данных и поддержания их в актуальном состоянии.

Ссылка: https://github.com/liquidata-inc/dolt

Data Version Control (DVC)
Система управления версиями данных ориентированная на машинное обучение. Заточено под данные относительно большого объёма, достигло версии пререлиза 1.0 и активно развивается. Значительно заточено под облачное хранение, такое как AWS S3.

Ссылка: https://dvc.org/

Sno.Earth
Заточено под геоданные и табличные данные, основной стандарт по которому работает это GeoPackage на основе которого даёт возможность работать с данными как система версионирования.

Ссылка: https://sno.earth/

Quilt
Утилита от создателей портала QuiltData, раздающем петабайтный архив данных поверх инфраструктуры AWS. Четко ориентировано на работу с данными как с кодом. Заточено под табличные данные, но возможно пригодно и для других задач.

Ссылки: https://github.com/quiltdata/quilt


Это всё, безусловно, не полный список. Существует множество инструментов внутри корпоративных решений, есть продукты умеющие версионировать справочники, есть много подходов к упаковке исследовательских данных и, конечно, за пределами данных, есть множество инструментов создания пакетов с контентом в архивной среде.

#data #datapackages #opensource
Что я могу сказать про электронное голосование? Которое нам уже обещают и эксперимент запланирован.

Положительное:
- электронное голосование долгосрочно дешевле бумажного
- больше возможностей охватить избирателей (не нужно никуда идти или ехать)
- подсчет голосов значительно упрощается

Отрицательное
- разработка, сопровождение и контроль над системой у органов исполнительной власти
- исходный код врядли будет открыт
- постоянные сомнения в легитимности голосования (правящая партия всегда под подозрением)
- утечки персональных данных могут быть фатальными
- процедуры общественного контроля непонятны, экзит полы должны меняться

Неизвестное
- полное внедрение электронных голосований должно также резко сократить стоимость референдумов. Но будет ли их больше?
- станет ли бумажный паспорт вторичным документом?
- станет ли похищение мобильного телефона другим уголовным преступлением?
- будут ли прописывать прописку в цифровом профиле


#elections #digital
Максут Шадаев на днях объявил что данные о цифровых пропусках в региональных системах будут удалены [1] и надо сказать что Максут выступает как человек весьма неглупый и видел уже решение Татарстана по удалению их базы цифровых пропусков.

Ключевых вопросов тут два:
1. У Минкомсвязи, на практике, не так много механизмов воздействия на региональные власти.
2. Чтобы удаление было гарантировано нужен нормативно правовой документ. Постановление Правительства или закон. Готовят ли его внутри Минкомсвязи?

Удалят ли в итоге данные жителей ответственные за это в Мэрии Москвы или желание рассылать гражданам рекламу ближайшие 10 лет для них несопоставимо важнее ? [2]

Ссылки:
[1] https://tass.ru/obschestvo/8563413
[2] https://habr.com/ru/company/analogbytes/blog/503552/

#privacy #moskva #shadaev #digital
Для тех кто интересуется качеством данных пост в блоге Uber Engineering о том как управление качеством данных организовано в Uber [1]. Особенность их работы в том что данные поступают непрерывно, в реальном времени, данные большого объёма и метрики для понимания общей ситуации также нужны максимально оперативно. Для чего они разработали собственную систему управления качеством данных, Argos [2].

В отличие от других ИТ продуктов Uber'а их платформа Argos не публиковалась никогда с открытым кодом и всё что мы можем узнать о ней, это посты в их блоге.

Однако Argos - это лишь одно из решений в том что называется data quality management (DQM) или управление качеством данных. В инженерии данных - это процесс (пайплайн) по анализу, очистке и корректировке данных. DQM продукты есть у IBM, SAP, Oracle и многих других крупных игроков в области хранилищ данных (data warehouse), но чаще DQM - это часть процессов DataOps.

Ссылки:
[1] https://eng.uber.com/monitoring-data-quality-at-scale/
[2] https://eng.uber.com/argos-real-time-alerts/

#dqm #dataops #uber #argos
Для того чтобы понять распространённость заболевания в популяции не обязательно проводить массовое тестирование. Альтернативные данные получаются при анализе проб из канализации и стартап Biobot Analytics [1] предоставляющий услуги анализа проб из канализационных систем на наличие в нём вируса COVID-19. Стартап изначально создавался для анализа уровня использования опиодов и успел поднять $6.7 миллионов долларов США.

Сейчас они анализируют 100 объектов в 30 штатах США [2] и расширяют число компаний операторов канализации как партнёров и клиентов.

В Европе аналогичную работу ведёт голландский KWR Water Institute уже много лет осуществляющий анализ фекалий в европейских канализациях и теперь исследующий их на наличие COVID-19 [3]

А 21 мая прошли слушания конгресса организованные The Water Research Foundation по организации повсеместного мониторинга окружающей среды на наличие COVID-19 [4] в канализации. Можно увидеть слайды с подробностями внедрения технологий [5] и проведённых исследований.


Ссылки:
[1] https://www.biobot.io/covid19
[2] https://www.theverge.com/2020/4/20/21227995/sewage-wastewater-poop-coronavirus-survellience-biobot
[3] https://www.forbes.com/sites/rachelsandler/2020/04/01/poop-provides-an-early-sign-coronavirus-cases-will-rise-study-says/
[4] https://www.waterrf.org/event/virtual-congressional-briefing-environmental-surveillance-genetic-fingerprint-covid-19
[5] https://www.waterrf.org/sites/default/files/file/2020-05/Congressional%20COVID-19%20Briefing_FINAL.pdf

#sewers #data #sensors