Ivan Begtin
8.03K subscribers
1.75K photos
3 videos
101 files
4.45K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
У поиска Google большое обновление [1], в том числе появление визуального представления результатов которые являются на вопросы завязанные на статистику, демографию и тд. что система может автоматически понять и визуализировать.

Это результат, и их работ по искусственному интеллекту, и практическое применение данных проекта Data Commons Project [2]. Data Commons - это исследовательский проект Google по интеграции официальных открытых данных и создании общедоступного портала статистики по странам и муниципалитетам (США) и многим другим данным, с акцентом на их геопривязку.

Второй важный анонс связанный с данными - это появление Journalist Studio [3] с большим числом разных сервисов для журналистов, часть этих сервисов давно были в бета-стадии, а теперь объединены в одну коллекцию инструментов.



Ссылки:
[1] https://blog.google/products/search/search-on/
[2] https://www.datacommons.org/
[3] https://blog.google/outreach-initiatives/google-news-initiative/journalist-studio/

#opendata #data #search #google
Темы очередной еженедельной рассылки: #4. Государственные домены, непрозрачная информатизация Москвы и открытость законотворчества [1]. Её можно читать на сайте в substack.com [2] или подписавшись.

Ссылки:
[1] https://begtin.substack.com/p/4-
[2] https://begtin.substack.com
Минкомсвязь Минцифры России ищет 20 руководителей проектов и обещает платить от 200+ тысяч, большие проекты, сильную команду профессионалов, уникальные возможности и многое другое [1]

Столько всего интересного, я бы сам пошёл (подумал бы), но:
1) Я немного уже чувствую себя староватым когда надо руководить высоко-динамичными проектами
2) Часто чувствую себя что "моя чаша(-ка) уже переполнена", иначе говоря, слишком много своих мыслей чтобы реализовывать идеи других
3) Ничего нет там про открытые данные, очень большие данные и про этику тоже ничего
4) У меня уже есть много чем заняться;)

Но тем кто не связан семейными обязательствами, готовым работать по 7 дней в неделю, адреналиновым наркоманам с толерантностью к бюрократии - это самое оно.

P.S. К сожалению, это не реклама на канале за деньги или за плюшевые игрушки, рекламирую их бесплатно;)

Ссылки:
[1] https://digital.gov.ru/ru/ministry/vacancies/

#ministry #it
В мире довольно много цифровых репозиториев используемых исследователями. У них есть множество особенностей, в первую очередь связанных с работой с данными которые нельзя анонимизировать без потери смысла их применения, например, это касается медицинских данных.

Один из хороших примеров качественно проработанных репозиториев отраслевых исследовательских данных - это Health Data Innovation Gateway [1] в Великобритании.

В этом репозитории собрано 506 наборов данных, 48 инструментов от 371 зарегистрированных пользователей сделавших 107 запросов к непубличным данным. Проект создан UK Health Data Research Alliance [2] объединяющем более 30 медицинских исследовательских центров в США и управляемом/координируемом британским государственным исследовательским центром в области данных в медицине Health Data Research UK [3]

В чём важные отличия научных порталов/репозиториев данных?
1. Наборов данных в них может быть немного, но они хорошо выверены. Или если их много, то выверяются хотя бы ключевые. У них есть так называемые дата-сторожа (data custodians).
2. У наборов данных есть индикаторы качества метаданных (metadata quality) хотя бы по полноте заполненности метаданных с данным набором данных.
3. Практически всегда данные являются производным продуктом какого-либо проекта и от данных производными продуктами являются инструменты или публикации. В репозитории они связываются так чтобы можно было увидеть одно через другое

Практически все более-менее наполняемые научные репозитории создаются по инициативе тех кто платит деньги научным коллективам. В Великобритании - это Health Data Research UK (HDR UK), в Австралии CSIRO, в других странах иные центры научной координации и фонды финансирующие научные программы. В России - это как если РНФ или РГНФ или РФФИ или Минобрнауки обязали получателей научных грантов и субсидий сдавать данные в единый портал открытых данных или как это делают HDR UK, данных доступных по запросу.

Но во всех случаях справедливо то что без подобного управляющего (читай финансового) воздействия на научные учреждения сами они делятся данными куда менее охотно.

Ссылки:
[1] https://www.healthdatagateway.org/
[2] https://ukhealthdata.org
[3] https://www.hdruk.ac.uk/

#opendata #openaccess #data #digital
Почему я в последнее время так много внимания обращаю на ДИТ Москвы и московскую информатизацию? Свежая статья в Коммерсанте [1] о том что Мэрия Москвы потратит 155 млн руб.[2] на систему мониторинга пассажиропотока на основе MAC адресов устройств. Даже с учётом того что только в iPhone 12 рандомизация MAC включена по умолчанию, система эта будет работать как минимум в части дешёвых устройств андроид. Фактически - это новый имущественный ценз по тому насколько за человеком можно следить и то, временно, поскольку неизвестно сколь много пройдет времени и на всех устройствах не появится рандомизация MAC.

Хуже этого, безусловно, очередная ситуация введения очередного элемента слежки за гражданами в КИС МП (попробуйте найти хоть где-то описание того как эти данные хранятся и обрабатываются).

Но я приведу другой пример, вот контракт ДИТ Москвы с ООО "Элар" [3] [4] от 2 октября этого года. Контракт длинный, на 860 дней, контракт по оцифровке архивных данных Главного следственного управления ГУ МВД России по г. Москве.

Там есть очень много вопросов и нюансов, начиная с того что оцифровка всего архива уголовных дел - это большой объём персональных данных и продолжая тем что региональные управления МВД давно уже как федерального подчинения, так как Мэрия Москвы (в лице ДИТа Москвы) может тратить средства бюджета Москвы на создание такого архива? В целом - это нарушение 11 принципа бюджетной системы "Подведомственность расходов бюджетов" [5]

Другой вопрос в обосновании этой закупки. В техническом задании указаны следующие основания:
- постановление Правительства Москвы от 09.08.2011 № 349-ПП «Об утверждении Государственной программы города Москвы «Умный город»;
- соглашение об информационном взаимодействии между Правительством Москвы и Министерством внутренних дел Российской Федерации от 15.05.2012 № 77-581;
- поручение Мэра Москвы от 24.01.2019 № 4-15-92/9;
- пункт 11.1 плана мероприятий по закупке, созданию, внедрению и эксплуатации средств информационных технологий, связи и защиты информации в интересах Главного управления МВД России по городу Москве на 2019-2022 годы от 23.08.2019 № 4-14-1100/9.

И тут по шагам:
1. № 349-ПП от 09.08.2011 - это изначально программа "Информационный город" и только в таком неактуальном виде опубликована на сайте Мэрии Москвы [6], в сети можно поискать в более полном и актуальном объёме.
2. Соглашение между МВД России и Мэрий Москвы предполагает только обмен данными и доступ МВД России к данным Мэрии, а не финансирование работы для УВД по городу Москве [7]
3. А вот и самое интересное "поручение Мэра Москвы от 24.01.2019 № 4-15-92/9" не только не является нормативно-правовым документом, но и отсутствует в открытом доступе. Последние поручения Мэра Москвы публиковались в 2018 году [8]
4. Про позицию плана мероприятий я вообще молчу, основание закупки не сама позиция, а документ который должен её утверждать.

Итого что у нас, ИТ работы для территориального управления федерального органа власти оплачиваемые из бюджета субъекта федерации, со ссылками на несуществующие в открытом доступе документы и устаревшие версии не относящихся к этим услугам НПА.

Сколько здесь нарушений законов/правил/регламентов я сейчас судить не буду. Но зачем мэрии оплачивать оцифровку архива уголовных дел кроме как для получения доступа к этой информации. А зачем Мэрии Москвы доступ к архивной информации о уголовных делах московского УВД? Вот над этим стоит поразмыслить.

Ссылки:
[1] https://www.kommersant.ru/doc/4539137
[2] https://zakupki.gov.ru/epz/order/notice/ea44/view/common-info.html?regNumber=0173200001420001132
[3] https://spending.gov.ru/goscontracts/contracts/2771087800020000119/
[4] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=2771087800020000119
[5] http://budget.gov.ru/epbs/faces/p/Бюджетная система/Принципы бюджетной системы
[6] https://www.mos.ru/dit/documents/normativnye-pravovye-akty-goroda-moskvy/view/61220/
[7] http://docs.cntd.ru/document/537942874
[8] https://www.mos.ru/depnpol/documents/porucheniia-mera-moskvy/

#data #mvd #moscow #dit
Emerging Architectures for Modern Data Infrastructure [1] весьма интересно изложенный отчет от Andreessen Horowitz о том как устроена современная архитектура работы с данными в зависимости от задач для которых она проектируется.

По сути - это такой универсальный канвас который можно использовать в любом хорошем инструменте рисования диаграмм. Для типовых задач бизнеса или госструктур вполне подходит и весьма продуманно структурировано (не буду утверждать что идеально, надо смотреть более детально через призму своих задач). Особенно стоит обратить внимание на сдвиги в технологиях Например, Data Flow automation вместо Workflow Management и ELT вместо ETL, а также нового типа озёра данных вместо Hadoop.



Ссылки:
[1] https://a16z.com/2020/10/15/the-emerging-architectures-for-modern-data-infrastructure/

#data #bigdata #report
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Минфин России убрал из открытого доступа реестр субсидий.

С 2015 года реестр субсидий из федерального бюджета публиковался на портале Электронного бюджета (budget.gov.ru), а с середины 2020 года в него были добавлены долгожданные и востребованные данные о региональных субсидиях.

Неприятно совпало, что мы как раз начали обновление раздела «Субсидии» на сайте проекта «Госзатраты». Доработки связаны с тем, что структуры данных реестра сильно изменились, и размер описания одной субсидии теперь занимает до 10МБ в виде JSON объекта. Мы были завязаны на данные и API Минфина, но мы работаем над тем, чтобы оперативно исправить ситуацию.
Для тех кто только подписался на мой канал опишу о чём он, чтобы не было неверных ожиданий.
Я пишу здесь много про работу с данными, архитектуру ПО по работе с данными, этику работы с данными и искусственного интеллекта, открытые данные, открытость государства и тд. Сиюминутных актуальных и острых тем тут немного, не считая вопросов связанных с доступностью данных и тех случаев когда государство (или корпорации) нарушают права граждан.

Мой основной канал здесь: https://t.me/begtin
Чат к каналу: https://t.me/begtinchat
Тексты в большом формате в еженедельной рассылке https://begtin.substack.com
Блог: https://begtin.tech

#data #opendata
В Коммерсанте вышла статья [1] "Фабрика-цифра"
Там есть и мой краткий комментарий, но на самом деле он был не краткий и я написал много тезисов, но журналисты сократили их и значительно.

Вот что я думаю про это:
1. На многие данные и механизмы взаимодействия с гражданами у государства есть безусловная монополия. Например, это данные о юридических лиц, или данные цифрового профиля гражданина или данные о платежах граждан в бюджет (ГИС ГМП) и ещё много другого. Бизнес ищет возможности как доступа к данным, так и возможности интеграции с сервисами государства для расширения возможностей их продуктов. Например, банки хотят оказывать госуслуги, а многие хотят пользоваться авторизацией в ЕСИА (Госуслуги) и так далее

2. Проблем довольно много и не последняя из них в отсутствии чётко сформулированной, последовательной и подкрепленной реальными полномочиями и инструментами их применения государственной политики в области данных. Единственная более-менее крупная инициатива в этой области о которой можно упомянуть - это НСУД (Национальная система управления данными) которая из большой регуляторной инициативы выродилась в модель для точечного применения корпоративных принципов управления данных к ограниченному число систем, относительно контролируемых правительством. При этом в остальном в России остаётся ситуация которую в западной прессе называют digital mandarins (цифровые "мандарины"), а в русской традиции правильнее называть "цифровыми царьками". Большинство органов власти существуют в своих полу-замкнутых отраслевых колодцев, а Минцифры было и остаётся лишь одним из органов власти с весьма куцыми полномочиями. В итоге в регуляторике очень много ограничений, у нас реально десятки "тайн" такие как: гостайна, служебная тайна, тайна следствия, адвокатская тайна, врачебная тайна, налоговая тайна, персональные данные и ещё много всего что ограничивает раскрытие и/или передачу данных из ГИС третьим лицам.

3. Я бы сказал что очень многое зависит от этих возможностей и проработанности предложений Ассоциации больших данных. Не видя их текста трудно сейчас сказать насколько они проходимы, но я как руководитель другой ассоциации АУРД, состоящей из игроков среднего и малого бизнеса считаю что здесь важно чтобы реакция государства учитывала что в стране существуют не только монополисты крупный цифровой бизнес, но и развитый средний и малый бизнес также желающий работать с ГИС и с данными государства.

И, конечно, больше открытых данных нужно всем.

Ссылки:
[1] https://www.kommersant.ru/doc/4539873

#data #opendata
Рабочие группы должны умирать (с)
В который раз я не могу не обратить внимание на такое свойство любой бюрократии как разрастание и такое свойство консультативных-обсуждательных органов как плодить свои подобия в их бесконечном видо- и многообразии.

Из последнего - это предложения в одной большой около[полу]государственной рабочей группе создать экспертные группы по направлениям. При том что у самой рабочей группы консультативно экспертный статус, при том что она де-факто смесь экспертов/внешних лоббистов/внутренних лоббистов и, в принципе, не то чтобы многозначащая структура в логике принятия решений (но и не настолько мало чтобы игнорировать).

Но и в ней активность выражают не более 10-15% участников, даже активность пассивную на уровне проголосовать за что бы то ни было, а не говоря уже об активной позиции.
Таким же образом устроено бесконечное число экспертных советов, общественных советов, рабочих групп, экспертных групп, подгрупп, подкомиссий, комиссий, комитетов, консультативных советов, подсоветов, секций и так далее.

Их просто _безумное_ количество. И у них вполне понятная природа:
1) Окологосударственный статус участникам этих бюрократических подструктур
2) Сужение списка вовлеченных в обсуждение
3) Попытка избежать бюрократии верхнеуровневой структуры и, иногда, избежать согласований с ней с сохранением её бренда
и ещё много чего, знающие люди меня дополнят.
Я когда-нибудь созрею до большого текста по этой теме, а пока сформулирую несколько очень коротких тезисов, для простоты я буду называть все эти структуры "рабочими группами", хотя реально их видов с пару десятков:
1. Рабочие группы должны иметь цель и задачи. Эти цель и задачи должны быть чётко сформулированы и определены.
2. Рабочие группы должны иметь регламент. Этот регламент должен быть типовым/унифицированным, с каким-то разными правилами в зависимости от культуры и привычек работы, но в остальном вполне определенным.
3. Рабочие группы должны иметь осмысливаемые и ощутимые результаты. Они должны быть описаны как понимаемые output или outcomes. Например, рабочая группа по подготовке доклада о перспективных планах развития яйценоскости утконосов в условиях Крайнего севера до 2089 года" - вполне понятный результат в итоге.
4. Рабочие группы должны умирать. Любые консультативные бюрократические структуры должны иметь график, регламент, правила, результаты и, самое главное, дату смерти. Дата после которой рабочая группа расформируется и формируется снова только если такое решение принимает вышестоящая структура. Обратите внимание, решение не о ликвидации, а о продлении. Если решение не принимается, группа автоматически перестаёт существовать.

Но как-нибудь я напишу об этом в подробнее.

#workinggroups #collective
Я регулярно пишу и выступаю о рынке "пробива информации" в России и неспособности силовых органов что-либо с этим поделать. А вот прилетают и последствия. Юра Синодов в FB пишет [1] про очередное расследование Bellingcat на основе данных по биллингу. А на сайте самих Bellingcat (его легко найти) в избытке информации собранной через пробив людей, их автомобилей и тд.

Даже не знаю что тут сказать. Многократный фэйспалм

Ссылки:
[1] https://www.facebook.com/sinodov/posts/10160272266922785

#data #darkmarket
На днях Сбербанк в лице Sberbank.AI выложили в открытый доступ языковую модель GPT-3 Large с 760 миллионами параметров о чём написали на Хабре [1], опубликовали открытый репозиторий кода [2] и примеры [3] как я понимаю всё это в контексте международного соревнования AI Journey [4]

Если рассматривать Сбербанк как продолжение государства, то всё это можно рассматривать, и как открытость кода, и как открытость данных создаваемых государством (хотя и не органами власти).

Ссылки:
[1] https://habr.com/ru/company/sberbank/blog/524522/
[2] https://github.com/sberbank-ai/ru-gpts
[3] https://github.com/sberbank-ai/ruGPT3_demos
[4] https://ai-journey.ru/

#data #ai #opendata #opensource
Очередная еженедельная рассылка. На этот раз тема #5. Экономика открытых данных и коммерческие проекты на их основе. [1]

1. Один из ключевых вызовов перед всеми движениями за открытость - это их экономическая обоснованность. При том что этих движений много: open knowledge, open source, open data, open hardware, в итоге оказывается что устойчивая экономически обоснованная модель существования пока существует только вокруг открытого кода (open source).
...

Ссылки:
[1] https://begtin.substack.com/p/5-

#opendata #data #economy
Digital Minilateralism: How governments cooperate on digital governance [1] публикация Института Беннета при Кэмбриджском университете о том как сейчас происходят многосторонние коммуникации/партерства (minilateralism) стран в цифровую эпоху. С полезным обзором того что такое D5, D7, D9 (Цифровая пятерка, семерка, девятка) и ещё многие другие межстрановые инициативы.

Документ короткий, читается легко, на некоторые мысли о дальнейшем развитии цифровизации в мире наводит.

Ссылки:
[1] https://www.bennettinstitute.cam.ac.uk/media/uploads/files/Digital_minilateralism_Digital.pdf

#digital #government