Ivan Begtin
8.09K subscribers
1.57K photos
3 videos
100 files
4.31K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Рубрика "Циничная ДИТовщина"
Когда федеральный ИТ-министр говорит, что не может повлиять на региональное ИТ-министерство, нарукожопившее и навязывающее всем несчастным, кого угораздило угодить под коронавирусные подозрения, мобильное приложение "Цифровой концлагерь" "Социальный мониторинг", это совсем не означает, что региональное ИТ-министерство крутое и независимое. Это, скорее, означает, что к региональному ИТ-министерству скоро могут прийти из другого федерального ведомства, которое не так трепетно относится к конституционным правам субъектов РФ.

"Максут Шадаев заявил «Известиям», что Минцифра не в силах повлиять на разработчиков программы, для того чтобы исправить все недочеты.
— Это не наше приложение, оно у нас нигде не проходило, это собственная инициатива Москвы. Оно разработано и функционирует за деньги города, является приложением регионального уровня. Поэтому мы им ничего поручить не можем, — признал министр.
Он также заверил «Известия», что на федеральном уровне распространять данное приложение по примеру Москвы власти не планируют."
Что будет с ДИТ Москвы после пандемии?
anonymous poll

Ничего не будет – 143
👍👍👍👍👍👍👍 62%

Наградят сотрудников медалями/грамотами/наградным оружием – 59
👍👍👍 25%

Заменят Эдуарда Лысенко на ещё кого-нибудь – 14
👍 6%

Проверки ФСБ/МВД/Роскомнадзора, посадки и отставки – 12
👍 5%

Всех [без]ответственных внесут в американские/европейские люстрационные списки – 2
▫️ 1%

Расформируют и создадут новый орган с нуля – 2
▫️ 1%

👥 232 people voted so far.
В последние годы порталы открытых данных перестали быть чем-то новым и прорывным, в основном они все основаны на нескольких решениях: CKAN, DKAN, OpenDataSoft, Dataverse и они как выполняли так и выполняют ключевую функцию доставки данных конечным пользователям. Иногда может показаться, а что же ещё может в них появиться? Так вот главное что может появиться, а новые сервисы доставки данных без порталов. Это сервисы управления пакетами данных очень похожих на системы контроля версий или системы управления пакетами ПО в Unix.

Datahub.io
Проект компании Datopian вышедшей из Open Knowledge Foundation. Основная его идея в том чтобы публиковать тщательно упакованные наборы данных в соответствии со стандартом Frictionless Data. Там не так много данных, но есть возможность публиковать свои наборы и есть возможность получать опубликованное там через API или утилиту командной строки "data". Каждый набор данных включает метаданные для интеграции их в свои системы. Ориентирован на табличные данные. Адаптирован более всего под язык Python, но есть много примеров на разных языках.

Ссылка: https://datahub.io

Data Package Manager for R (DPMR)
Система управления пакетами для языка R. Также основана на стандарте Frictionless Data, но уже заточенный под конкретный язык

Ссылка: https://github.com/christophergandrud/dpmr

Octopub
Проект Института открытых данных по автоматизации подготовки и публикации наборов данных. Довольно давно находится в стадии Beta, но продолжает развиваться. Важный акцент делают на валидации данных, как минимум на уровне форматов

Ссылка: https://octopub.io

Data Retriever
Сервис и код по подготовке наборов данных и доступа к ним для языков Python и R. В основном ориентирован на исследовательские данные.

Ссылка: https://www.data-retriever.org/

Dolt
Можно сказать Git для данных. Не даёт данным упаковки, но даёт интерфейс похожий на систему контроля версий Git для обновления данных и поддержания их в актуальном состоянии.

Ссылка: https://github.com/liquidata-inc/dolt

Data Version Control (DVC)
Система управления версиями данных ориентированная на машинное обучение. Заточено под данные относительно большого объёма, достигло версии пререлиза 1.0 и активно развивается. Значительно заточено под облачное хранение, такое как AWS S3.

Ссылка: https://dvc.org/

Sno.Earth
Заточено под геоданные и табличные данные, основной стандарт по которому работает это GeoPackage на основе которого даёт возможность работать с данными как система версионирования.

Ссылка: https://sno.earth/

Quilt
Утилита от создателей портала QuiltData, раздающем петабайтный архив данных поверх инфраструктуры AWS. Четко ориентировано на работу с данными как с кодом. Заточено под табличные данные, но возможно пригодно и для других задач.

Ссылки: https://github.com/quiltdata/quilt


Это всё, безусловно, не полный список. Существует множество инструментов внутри корпоративных решений, есть продукты умеющие версионировать справочники, есть много подходов к упаковке исследовательских данных и, конечно, за пределами данных, есть множество инструментов создания пакетов с контентом в архивной среде.

#data #datapackages #opensource
Что я могу сказать про электронное голосование? Которое нам уже обещают и эксперимент запланирован.

Положительное:
- электронное голосование долгосрочно дешевле бумажного
- больше возможностей охватить избирателей (не нужно никуда идти или ехать)
- подсчет голосов значительно упрощается

Отрицательное
- разработка, сопровождение и контроль над системой у органов исполнительной власти
- исходный код врядли будет открыт
- постоянные сомнения в легитимности голосования (правящая партия всегда под подозрением)
- утечки персональных данных могут быть фатальными
- процедуры общественного контроля непонятны, экзит полы должны меняться

Неизвестное
- полное внедрение электронных голосований должно также резко сократить стоимость референдумов. Но будет ли их больше?
- станет ли бумажный паспорт вторичным документом?
- станет ли похищение мобильного телефона другим уголовным преступлением?
- будут ли прописывать прописку в цифровом профиле


#elections #digital
Максут Шадаев на днях объявил что данные о цифровых пропусках в региональных системах будут удалены [1] и надо сказать что Максут выступает как человек весьма неглупый и видел уже решение Татарстана по удалению их базы цифровых пропусков.

Ключевых вопросов тут два:
1. У Минкомсвязи, на практике, не так много механизмов воздействия на региональные власти.
2. Чтобы удаление было гарантировано нужен нормативно правовой документ. Постановление Правительства или закон. Готовят ли его внутри Минкомсвязи?

Удалят ли в итоге данные жителей ответственные за это в Мэрии Москвы или желание рассылать гражданам рекламу ближайшие 10 лет для них несопоставимо важнее ? [2]

Ссылки:
[1] https://tass.ru/obschestvo/8563413
[2] https://habr.com/ru/company/analogbytes/blog/503552/

#privacy #moskva #shadaev #digital
Для тех кто интересуется качеством данных пост в блоге Uber Engineering о том как управление качеством данных организовано в Uber [1]. Особенность их работы в том что данные поступают непрерывно, в реальном времени, данные большого объёма и метрики для понимания общей ситуации также нужны максимально оперативно. Для чего они разработали собственную систему управления качеством данных, Argos [2].

В отличие от других ИТ продуктов Uber'а их платформа Argos не публиковалась никогда с открытым кодом и всё что мы можем узнать о ней, это посты в их блоге.

Однако Argos - это лишь одно из решений в том что называется data quality management (DQM) или управление качеством данных. В инженерии данных - это процесс (пайплайн) по анализу, очистке и корректировке данных. DQM продукты есть у IBM, SAP, Oracle и многих других крупных игроков в области хранилищ данных (data warehouse), но чаще DQM - это часть процессов DataOps.

Ссылки:
[1] https://eng.uber.com/monitoring-data-quality-at-scale/
[2] https://eng.uber.com/argos-real-time-alerts/

#dqm #dataops #uber #argos
Для того чтобы понять распространённость заболевания в популяции не обязательно проводить массовое тестирование. Альтернативные данные получаются при анализе проб из канализации и стартап Biobot Analytics [1] предоставляющий услуги анализа проб из канализационных систем на наличие в нём вируса COVID-19. Стартап изначально создавался для анализа уровня использования опиодов и успел поднять $6.7 миллионов долларов США.

Сейчас они анализируют 100 объектов в 30 штатах США [2] и расширяют число компаний операторов канализации как партнёров и клиентов.

В Европе аналогичную работу ведёт голландский KWR Water Institute уже много лет осуществляющий анализ фекалий в европейских канализациях и теперь исследующий их на наличие COVID-19 [3]

А 21 мая прошли слушания конгресса организованные The Water Research Foundation по организации повсеместного мониторинга окружающей среды на наличие COVID-19 [4] в канализации. Можно увидеть слайды с подробностями внедрения технологий [5] и проведённых исследований.


Ссылки:
[1] https://www.biobot.io/covid19
[2] https://www.theverge.com/2020/4/20/21227995/sewage-wastewater-poop-coronavirus-survellience-biobot
[3] https://www.forbes.com/sites/rachelsandler/2020/04/01/poop-provides-an-early-sign-coronavirus-cases-will-rise-study-says/
[4] https://www.waterrf.org/event/virtual-congressional-briefing-environmental-surveillance-genetic-fingerprint-covid-19
[5] https://www.waterrf.org/sites/default/files/file/2020-05/Congressional%20COVID-19%20Briefing_FINAL.pdf

#sewers #data #sensors
Как я писал ранее, одно из направлений развития в инженерии данных и DataOps - это упаковка и доставка данных в виде контейнеров [1]. Наиболее активно развивающейся спецификацией для открытых данных является Frictionless Data [2], однако история про контейнеры с данными имеет куда более глубокие корни и направление "упаковки данных" давно существуют в научной среде.

ResearchObject [3] - это проект и набор спецификаций по описанию и упаковке данных в научной среде с ориентацией на воспроизведение результатов исследований. Наиболее актуальная спецификация RO-Crate [4] использует описание метаданных в формате связанных данных для описания как происхождения данных так и описания каждого включённого файла.

Одна из областей в которой давно уже активно идёт и используется стандартизация - это биоинформатика. Набор стандартов COMBINE (COmputational Modeling in BIology NEtwork) [5] включает как их моделирование, так и контейнеры для обмена данными и их преобразование, например, в контейнеры ResearchObject.

К другим спецификациям можно отнести Big data bag [6] объединяющие ResearchObject и спецификацию архивации данных BagIt [7].

У этой же инициативы есть ещё одно отражение, репозитории кода являются также результатами исследований и Mozilla Science Lab запустили инициативу Code as Research Object [8]

Другой заметный стандарт - это ReproZip [9], стандарт контейнер по упаковке данных и спецификации по воспроизведению исследований. Разрабатывается в инженерном подразделении New York University и основная его цель в том чтобы избежать замыкания в экосистеме одного вендора (да, в науке это повсеместно).

Применение подобных решений пока гораздо больше заточено под научные данные в биоинформатике, социологии, инженерных науках. Их внедрение требует, в первую очередь, готовность исследователей работать с техническими инструментами, наличия архивов и репозиториев поддерживающих подобные стандарты.

Ссылки:
[1] https://t.me/begtin/1925
[2] https://frictionlessdata.io
[3] http://www.researchobject.org/
[4] https://researchobject.github.io/ro-crate/1.0/
[5] http://co.mbine.org/
[6] https://github.com/fair-research/bdbag
[7] https://datatracker.ietf.org/doc/rfc8493/
[8] https://mozillascience.github.io/code-research-object/
[9] https://www.reprozip.org/

#opendata #data #standards
Тем временем мы запланировали серию вебинаров по приватности. Самый ближайший 3 июня. Регистрируйтесь и участвуйте!
Forwarded from Инфокультура
Инфокультура запускает серию вебинаров о приватности данных.

3 июня в 15:00 приглашаем вас на первый вебинар «Цифровой профиль россиянина: право на приватность». В программе: обсуждение принципов разработки платформы «Цифровой профиль», государственных супераппов и сервисов, созданных на основе личных данных граждан.

Эксперты обсудят режимы владения данными и право распоряжаться ими, а также кибербезопасность и риски централизации данных.

Спикеры:
- Иван Бегтин (@begtin), директор АНО «Инфокультура»;
- Светалана Белова, генеральный директор компании «Датамания»;
- Саркис Дарбинян, партнер Центра цифровых прав, адвокат в сфере киберправа;
- Василий Буров, соучредитель АНО «Инфокультура»;
- Олег Качанов, заместитель министра цифрового развития, связи и массовых коммуникаций Российской Федерации.

Для участия необходимо зарегистрироваться: https://infoculture.timepad.ru/event/1324757.

Всем зарегистрированным участникам придет ссылка для подключения в Zoom.
Медуза [1], Известия [2], РИА Новости [3] и другие издания пишут о экспертах МВД предлагающих создать мобильное приложение "Мигрант" и включить в него "рейтинг социального доверия". Иначе говоря, наработки приложений "Социальный мониторинг" и "Стопкоронавирус.РФ" МВД явно понравились и решили применить их на трудовых мигрантах.

К сожалению, за всеми этими публикациями нет ни фамилий экспертов, ни первоисточника, ни этого самого прогноза. Мне лично очень интересно как это приложение будут ставить тем у кого нет сотового телефона на Android или iPhone и как будут обязывать устанавливать приложения многочисленных топ-менеджеров европейских и американских компаний в России.

Всё таки они тоже "трудовые мигранты", но они же и граждане других стран. Вступятся ли за их права их правительства и посольства?

[1] https://meduza.io/news/2020/05/29/mvd-predlozhilo-sozdat-prilozhenie-migrant-ustanavlivat-kotoroe-obyazhut-vseh-priehavshih-na-rabotu-v-rossiyu
[2] https://iz.ru/1017094/2020-05-29/mvd-rossii-mozhet-sozdat-spetcialnoe-prilozhenie-dlia-migrantov
[3] https://ria.ru/20200529/1572150359.html

#mobile #apps #privacy
Буквально вдогонку материалам по методике анализа госполитики, вышла экспертная записка "Применение теории изменений для стратегического аудита и стратегического планирования в России" [1] подготовленная коллегами из Центра перспективных управленческих решений и Счетной палаты.

Записка похожа на то что делают исследователи в Великобритании, также воспроизводит последовательность и инструменты реализации госполитики. Всячески рекомендую к прочтению с акцентом на дискуссию. Как и все экспертные записки - эта записка является концентрированным мнением группы исследователей, комментарии, критика, дополнения в таком формате всегда уместны.


Ссылки:
[1] http://ach.gov.ru/upload/pdf/AuditInsights.pdf

#sprf #policy #methods
В "кавычках" прекрасная новость, в законопроект об обеспечении устойчивого развития экономики и предотвращении последствий короновируса [1] во втором чтении впихнули поправку, которая обязывает удостоверяющие центры бесплатно перевыпустить на 3 месяца все сертификаты, которые кончаются до 1 августа.

Фактически это убивает все коммерческие удостоверяющие центры, потому что все сейчас живут на старых клиентах - новым особо неоткуда браться, а теперь выручка от старых отложится на 4-5 месяцев.

Всех спасают за счёт кого-то. Граждан за счёт бизнеса, бизнес чуть-чуть за счёт УЦ. Раз пошла такая пьянка, то может быть бизнес спасать за счёт банков? Отменить ставки по существующим кредитам, например.

Чувствую что в ближайшие дни много придётся писать и говорить про масштаб проблем с нормативными документами и не только.

Ссылки:
[1] https://sozd.duma.gov.ru/bill/953580-7
#policy #laws #government
То что мы наблюдаем сейчас с государственными мобильными приложениями вроде "Стопкоронавирус" или "Социальный мониторинг" - это, очень запоздалый, с задержкой более чем в 5 лет, но неизбежный приход государства в экосистему смартфонов. Также как когда-то с большим запозданием, крайне неумело и до сих пор не осознав до конца, государство приходило Интернет, так и сейчас мобильная экосистема переживает последствия осознания государством его осознания. Под "государством" здесь можно принимать разное, от метафизического Государства с большой буквы как ментальную модель в головах политической элиты, до руководства институционализированных и фактических структур власти.
...

Текст получился слишком большой чтобы целиком публиковать его в телеграм, полный текст у меня в блоге https://begtin.tech/govmobile/

#government #mobile #policy
Классика не стареет, я несколько таких комитетов и рабочих групп знаю и даже приходится в них участвовать.
Рубрика «Циничная мерфология»
С.Н.Паркинсон о жизненном цикле комитетов.
Жизненный цикл комитета состоит из нескольких стадий:
1. Идеальное число членов — пять человек. При таком численном составе комитет непременно приживётся. Два его члена смогут всегда отсутствовать по болезни или по иной причине. Пятерых легко собрать, а собравшись, они способны действовать быстро, умело и тихо. Четверым из них можно поручить финансы, иностранные дела, оборону и правосудие. Пятый, не сведущий в этих предметах, станет председателем или премьером.
2. Как ни удобно число пять, нередко в комитет входит семь, а то и девять человек. Так бывает почти везде и объясняется это тем, что областей управления не четыре, а больше. На самом деле есть и другая причина. В комитете из девяти человек трое вершат политику, двое поставляют сведения, один напоминает о финансах. Со свободным от дела председателем получается семь человек. Остальные двое, по-видимому, нужны для красоты. Мы практически ничего не знаем о назначении двух молчаливых членов, но у нас есть основания полагать, что на этой, второй, стадии комитет без них работать не может.
3. На третьей стадии в комитеты входят новые члены, иногда они вроде бы знают ещё что-то нужное, но чаще просто очень вредят, если их в комитет не ввести. Чтобы их утихомирить, приходится непрестанно с ними советоваться. По мере их включения число членов ползёт от десяти к двадцати. На этой третьей стадии дела идут много хуже.
o Прежде всего, очень трудно собрать столько народу.
o Лишь немногие из членов отбирались с расчётом на то, что они будут или могут приносить пользу. Большую часть скорее ввели, чтобы угодить какой-нибудь внешней группировке, и задача их — сообщать своим, как идут дела. С секретностью покончено.
o Чем крепче утверждаются ненужные члены, тем громче требуют обойдённые группы, чтобы ввели их представителей. Число членов переползает в третий десяток. И комитет вступает в четвёртую, последнюю стадию.
4. Четвёртая стадия. Когда в комитете от 20 до 22 членов, он внезапно претерпевает особое химическое или органическое превращение, природу которого нетрудно понять и описать. Пять полезных членов встречаются отдельно и что-то решают. Комитету практически делать нечего, тем самым в него можно ввести сколько угодно народу. Лишним членам не понадобится лишнее время, ибо все заседания теперь — пустая трата времени. Внешние группы довольны, их ставленников принимают всех беспрепятственно, и не скоро поймут они, что победа их призрачна. Двери открыты, число членов приближается к 40, растёт дальше. Может оно дорасти и до тысячи. Это уже не важно. Комитет больше не комитет, и прежние его функции выполняет другое, малое сообщество.
Новость ближе к хорошей - ДИТ Москвы в лице Эдуарда Лысенко начал диалог с гражданами, на хабре анонс [1] что завтра на YouTube в 17:30 [2] он будет отвечать на вопросы.

Вопросы можно направлять в ДИТ по адресу answer@it.mos.ru или комментариями на Хабре.

Я могу много ругать ДИТ Москвы, но поговорить - это всегда правильно и лучше поздно чем никогда. Поэтому не стесняйтесь, направьте Ваши вопросы и я тоже свои напишу.

А также напоминаю про нашу серию вебинаров по приватности. Ближайший 3-го июня в 15:00 по Москве [3]. На следующие вебинары мы будем звать, в том числе, и коллег из ДИТа Москвы, общественных и коммерческих компаний и экспертов в этой теме.

Ссылки:
[1] https://habr.com/ru/company/dit/blog/504482/
[2] https://youtu.be/kXd40iEUFrY
[3] https://www.facebook.com/events/634421640480973/?notif_t=event_aggregate&notif_id=1590985039690850

#privacy #data
Команда из 30 исследователей в OpenAI опубликовали статью о GPT-3 [1] языковой модели позволяющий решать не только задачи перевода, но и создания статей и отвечать на вопросы уровня экзамена SAT (это сложные вопросы).

В этой модели используется 175 миллиардов параметров, для сравнения в GPT-2 было 1.5 миллиардов параметров [2], а в наиболее сопоставимой модели от Microsoft всего 17 миллиардов параметров [3]

Что немаловажно, GPT-3 обучено на базе CommonCrawl, Википедии и других открытых данных с текстами, в общей сложности в триллион слов [4].

OpenAI создаёт не только возможности, но и масштабные страхи. После выпуска предыдущей модели GPT-2 были опасения что с помощью этой технологии можно завалить интернет фэйками которые бы звучали логично и разумно, а на практике создавалась бы ботами в бесконечном количестве [5].

Ссылки:
[1] https://arxiv.org/abs/2005.14165
[2] https://venturebeat.com/2019/08/20/openai-releases-curtailed-version-of-gpt-2-language-model/
[3] https://venturebeat.com/2020/05/19/microsofts-zero-2-with-deepspeed-trains-neural-networks-with-up-to-170-billion-parameters/
[4] https://venturebeat.com/2020/05/29/openai-debuts-gigantic-gpt-3-language-model-with-175-billion-parameters/
[5] https://www.theverge.com/2019/2/14/18224704/ai-machine-learning-language-models-read-write-openai-gpt2

#data #opendata #ai
18-21 октября 2020 года в Швейцарии пройдет виртуальный форум ООН про данные (UN Data Forum) [1]. Основные темы - данные и статистика, много выступление будет про госполитику в области данных, партнерства и многое другое. От России там никого нет, но будет интересно и послушать других участников, таких форумы хорошая возможность узнать о примерах других стран которые ранее не переводились на английский язык.

А тем временем организаторы опрашивают до 15 июня потенциальных участников о том как виртуальный форум лучше организовать [2].

Ссылки:
[1] https://unstats.un.org/unsd/undataforum/index.html
[2] https://efm.dfs.un.org/EFM/se/6C6639C01C303C60

#opendata #data #un