Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Примеры подготовки документов с помощью WriteMapper. Интерфейс неидеален, но альтернатив ему немного
В рубрике интересные наборы данных есть два набора данных фотографий школьных туалетов из конкурса Domestos. До того как они провели модерацию и после. В первом случае 571 объект с фотографиями на 367 мегабайт, во втором случае 150 объектов с фотографиями на 170 мегабайт.

Лёгкая внутренняя самоцензура не позволяет его куда-либо выкладывать, ибо оно неаппетитно. Но если кому-либо в журналистских целях необходимо - пишите.
Месяц назад я принял для себя решение вернуться к активной деятельности по работе с данными в общественных и коммерческих проектах далёких от вопросов государственного аудита и надзора и поэтому покинуть команду Счетной палаты РФ.

Сегодня мой последний день работы в должности зам. руководителя ФКУ ЦЭАИТ (подвед СП РФ) и руководителя проекта Госрасходы (spending.gov.ru).

В качестве руководителя проекта Госрасходы остаётся моя коллега Ольга Пархимович (автор канала @ahminfin), она опытный специалист по работе с данными и много лет организовывала разработку и развитие проекта.
Спасибо всем с к кем довелось поработать за эти годы и хочу пожелать команде СП РФ дальшейшей плодотворной
работы.

Заранее отвечая на вопрос куда я ухожу и чем буду заниматься, я пока не отвечу, лишь намекну что в работе два исследования в Информационная культура и не только по открытости.

Кроме того у меня много задач по Ассоциация участников рынка данных, деятельность которой будет активно восстановлена в этом году. Мы слегка просели за 2020 год, но в этом году АУРДа будет больше и лучше;)
А также один очень большой проект на открытых данных и об открытых данных который будет доступен этим летом. Но о котором пока ни слова))

Раньше я регулярно шутил про то что мне в голове постоянно приходится совмещать три мнения: общественное, коммерческое и государственое. Теперь станет попроще, государственного станет поменьше, а значит и больше возможностей говорить о том что думаешь и делаешь.
Дайджест ссылок про данные и технологии:
- JupyterLite [1] - облегчённая версия Jupyter Notebook для тех кому это нужно
- Drunk Post: Things I've learned as a Sr Engineer [1] - яркий "пьяный" пост от опытного инженера с сотнями комментариев
- PolarDB [3] - расширение/надстройка для маштабирования PostgreSQL с набором важных возможностей, открытый код от Alibaba
- 3D карта вселенной на новом суперкомпьютере [4] в блоге NVIDIA о новом суперкомпьютере Perlmutter [5] обсчитывающем 3D модель вселенной. На базе последних 6,159 NVIDIA A100 Tensor Core GPUs.

Ссылки:
[1] https://github.com/jtpio/jupyterlite
[2] https://old.reddit.com/r/ExperiencedDevs/comments/nmodyl/drunk_post_things_ive_learned_as_a_sr_engineer/
[3] https://github.com/alibaba/PolarDB-for-PostgreSQL
[4] https://blogs.nvidia.com/blog/2021/05/27/nersc-perlmutter-ai-supercomputer/
[5] https://www.nersc.gov/systems/perlmutter/

#opensource #data #tech
Яндекс недавно анонсировали о том что теперь данные пользователей можно удалять безвозвратно по их запросу [1]. Хотя и с оговоркой что Бóльшая часть данных стирается с серверов в течение суток. Некоторые данные по закону нужно хранить определённое время — их Яндекс перестаёт обрабатывать сразу после поступления запроса и удаляет, как только истечёт установленный срок. Данные, которые являются частью сервиса, например правки и панорамы в Картах, нельзя удалить полностью. Они обезличиваются — Яндекс стирает информацию о том, кто их добавил.

От этих оговорок возникает много вопросов.
1. А те данные что будут стёрты не сразу - это какие?
2. А те данные что надо хранить по закону - это какие?
3. Что значит обезличивание в понимание Яндекса? Какая защита от повторной идентификации предусмотрена?
4. Удаляются ли все те данные о сборе которых пользователь может и не знать ? Например о посещении страниц которые записываются кодом Яндекс метрики или кодом AppMetrica для мобильных приложений

Иначе говоря сейчас Яндекс даёт возможность удалить о себе только те данные которые относятся к некоторым потребительским сервисам, но про удаление данных накапливаемыми Яндексом как владельцем крупнейшей рекламной платформы ничего нет.


Ссылки:
[1] https://yandex.ru/company/press_releases/2021/2021-06-01
[2] https://yandex.ru/support/passport/security/soc-2.html

#privacy
Оказывается команда исследователей-волонтеров сделали любопытный некоммерческий проект Citysense [1] с оценкой качества жизни по 14 российским городам: Владивосток, Воронеж, Екатеринбург, Иркутск, Казань, Краснодар, Красноярск, Махачкала, Нижний Новгород, Новосибирск, Пермь, Томск, Тюмень, Хабаровск

Оценка там по множеству показателей, а в основе методики взята методика Евростата и данные можно скачать [2].
Результаты интереснее, жаль нет рейтинга и так и непонятно где лучше жить и не хватает Москвы и Санкт-Петербурга, но у них, можно сказать, особый статус субъектов федерации. Наверняка их просто непросто сравнивать с остальными.

Подробнее о проекте пишет его основатель Мария Бобринская [3].

Я готов биться об заклад что всё это вышло куда дешевле чем анонсируемая система измерения качества жизни в городах которую собирается строить ВЭБ.РФ [4] и будет анонсировать на ПМЭФе. Кстати, очень интересно во сколько ВЭБовская система выйдет по стоимости и сравнить;)

А я скажу что много лет думаю про агрегатор муниципальных данных и немало их уже собрано, но дело это совершенно неблагодарное. Хороших государственных баз мало, ручной работы много. Хорошо что есть те кто готов тратить на это время, силы и ресурсы.

А что Вы считаете лучшими индикаторами измерения качества жизни в России? Какие критерии были бы самыми значимыми? Рейтинг из каких критериев и показателей по городам и территориям был бы интересен?

Ссылки:
[1] https://citysense.info/
[2] https://citysense.info/data
[3] https://www.facebook.com/maria.bobrinskaya/posts/10220282624684028
[4] https://www.vedomosti.ru/opinion/articles/2021/05/24/870939-vebrf-izmerit

#opendata #data #cities
Качество жизни в городах и территориях. Что с этим делать?
anonymous poll

Бессмысленно в России измерять качество жизни потому что жизнь всё хуже! – 29
👍👍👍👍👍👍👍 30%

Нет пока нормальных рейтингов потому что данных хороших нет – 26
👍👍👍👍👍👍 27%

Смотрим Citysense, выглядит интересно – 16
👍👍👍👍 16%

Я просто хочу посмотреть результаты голосования – 11
👍👍👍 11%

Подождём рейтинг ВЭБ.РФ, будем за ним следить – 8
👍👍 8%

Надо посмотреть какие ещё рейтинги есть – 8
👍👍 8%

👥 98 people voted so far.
О культуре ведения официальных сайтов в России в примерах. В русскоязычной версии сайта Минстроя министр Файзуллин, а в англоязычной как был так и остаётся Михаил Мень. Каждый может убедиться в этом пройдя по ссылке https://minstroyrf.gov.ru/en/about/#masters или поискав в Google: "Mikhail Men site:minstroyrf.gov.ru"

С одной стороны я лично рад за Михаила Александровича и Минстрой, а с другой стороны, работы пресс-службы Минстроя РФ, как бы помягче, не на высоте. Может потому и ссылки на англоязычную версию сайта с других страниц стыдливо спрятали? Спрятать спрятали, а за собой не прибрали

#official #websites #government
В рубрике интересные наборы данных база встреч членов кабинета министров Великобритании с лоббистами и иными персонами. Базу ведёт и публикует Transparency Int UK [1] и в ней более 70 тысяч встреч, в том числе, связанных с Россией, российскими компаниями, политиками и так далее. Похожие базы есть в Евросоюзе [2], Латвии [3], Чили [4] и ещё десятке стран. Но если смотреть на это в российском контексте то интересны, в первую очередь, данные по европейским странам где в основном и активны российские бизнес интересы.

Все данные открыты, свободны для коммерческого и некоммерческого использования (лицензия ODbL).

И, не отвлекаясь от темы лоббирования и политических связей, проект LittleSis [5] с базой связей политиков в США. Главная его особенность и возможность - это ведение личных списков, добавление данных и вообще и в принципе модель связанности политиков, лоббистов, и других PEP-сов.

Правда с российским трендом на ужесточение использования общедоступной информации и закрытие информации о лицах принимающих решение с каждым годом появление такого проекта будет всё более маловероятно.

Ссылки:
[1] https://openaccess.transparency.org.uk/
[2] https://www.integritywatch.eu/
[3] https://manoseimas.lt/
[4] https://integritywatch.cl/
[5] https://littlesis.org/

#privacy #peps #lobbyying #opendata #datasets
Access Info пишут [1] о том что Еврокомиссия планирует отозвать обещание по требованию со стран-членов Евросоюза по раскрытию реестров компаний.

Тема эта давняя, о балансе интересов продавцов этих данных и выгоды для рынка от их доступности. Все стороны правы по своему, но политика последних лет была в сторону открытия этих реестров и логики того что сколько бы не зарабатывали страны на продаже доступа к ним, тем не менее экономический эффект от открытия данных куда выше. А сейчас вышел документ оценки влияния этого регулирования и Access Info его раздобыли [2] и уже подготовили свои комментарии [3].

На Impact Assessment стоит обратить внимание ещё и потому что там не только про данные компаний, но и про High Value Datasets и влияние раскрытия данных на экономику.

Ссылки:
[1] https://www.access-info.org/2021-06-03/open-company-registers-eu-at-risk/
[2] https://www.access-info.org/wp-content/uploads/Deloitte-Study-2020.pdf
[3] https://www.access-info.org/wp-content/uploads/2021-06-03-Commission-Impact-Assessment-AIE-Briefing-Note.pdf

#opendata #eu
ВЭБ.РФ представил свой индекс городов [1]. 118 городов и 214 показателей.

Минусы:
- открытых данных нет (вообще никаких данных нет для выгрузки)
- методология написана так словно её нет
- условий использования данных нет

Плюсы:
- показателей много (214 показателей)
- городов много (118 в России, всего вместе с другими городами мира 764)
- если очень захотеть данные можно спарсить

Конечно, прям очень заметно что сделано так чтобы ни один город нельзя было назвать однозначно плохим. Рейтинга нет, просто сотни сравнений по сотням показателей. Я долго думал зачем этот индекс может быть полезен в таком виде и так и не понял. Оценка качества жизни не механистическая работа, там какие-то выводы тоже должны были бы быть.

К пример, в индексе качества жизни ОЭСР они есть [2]. А именно на этот индекс ссылаются авторы, и ещё у ОЭСР есть такая группа показателей как Civic Engagement (Вовлечение граждан), переведённое в русскоязычной версии как Гражданские права [3] и там есть такие показатели как:
- активность избирателей
- социальное неравенство

Вообще же два принципиально разных подхода. У Citysense что я ранее упоминал [4] через методику Евростата, а у ВЭБ.РФ через методику ОЭСР со множеством довольно неожиданных расширений, в моём представлении, не имеющих отношения к городам и к качеству жизни, например, Количество просмотров постов на Тикток на 10 тысяч человек, это прям очень сильно влияет на качество жизни на территории.

Ссылки:
[1] https://citylifeindex.ru/
[2] https://www.oecdbetterlifeindex.org/countries/russian-federation/
[3] https://www.oecdbetterlifeindex.org/ru/countries/russian-federation-ru/
[4] https://t.me/begtin/2867

#opendata #lifequality #веб
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Не могу не написать о выступлении по открытости Алексея Херсонцева (статс-секретаря и зам. министра экономического развития РФ). В вопросе нужно было отметить 10 ключевых действий (решений) по открытости, без которых мы сейчас жить не можем, но которые 10 лет назад казались нереальными:

- АИС Мониторинг госсайтов и рейтинги (за >10 лет работы в открытых данных не помню, чтобы кто-то когда-то ссылался на данные рейтинги. Методики не публикуются, рейтинги оценивают только то, что можно оценить автоматически, а оценки измеряются в миллионах баллов с десятками тысячных после запятой);

- Портал открытых данных, на котором опубликовано более 30 тыс. наборов данных (портал корректно не работал ни при запуске, ни после. Последние полтора года портал находится в нерабочем режиме, а количество датасетов на нем вот уже несколько месяцев держится на 20 тыс.);

- "Публикация деклараций, которые опубликованы в формате Excel, а значит фактически являются открытыми данными" (но открытые данные - это не просто машиночитаемые данные, у них много других свойств, например, - наличие лицензии. А Минэкономразвития, кстати, разрабатывало и публиковало Методические рекомендации по открытым данным);

- Портал Российской общественной инициативы (кто-то действительно считает его работающим?);

- Портал Ваш контроль, на котором граждане оценивают госуслуги (опять же, ни один человек не назвал его в контексте открытости ни на одной конференции).

К сожалению, не было сказано ни одного слова про:
- Портал Электронного бюджета, который является кладезью действительно открытых и машиночитаемых данных,
- Не было сказано про публикацию бюджетов на всех уровнях бюджета,
- Не включили и портал ГМУ (на котором публикуются данные бюджетных, автономных и казенных учреждений, и который является уникальным)
- Машиночитаемость данных Минкультуры тоже заслуживает отдельного пункта.

Отдельный лайк Екатерине Шульман за:
- поднятие проблемы о закрытии бюджетных данных в последние годы (правда, только в контексте объема закрытого бюджета, хотя есть и не менее серьезные проблемы с закрытием реестра субсидий и поставщиков по 223-ФЗ);
- озвучивание проблемы удаления деклараций, в т.ч. и за прошлые годы;
- озвучивание проблемы с порталом РОИ.

Впрочем, про открытые данные и порталы Минэкономразвития у меня запланирован отдельный пост.
В The Guardian статья о том что данные это не новая нефть [1] с попыткой описать что данные - это люди. Нельзя сказать что у это описание хоть сколь бы то ни было про экономику сбора данных о потребителях, но, конечно, оно про изменение направления мыслей, запрос на вмешательство регуляторов и опасения людей в том что это они новая нефть.

Ссылки:
[1] https://www.theguardian.com/commentisfree/2021/may/29/data-oil-metaphor-tech-companies-surveillance-capitalism

#opendata #data #dataeconomy
К вопросу о том как сейчас в России обстоит дело с открытостью в целом и открытыми данными:
1. Всё ещё высокий уровень открытости административных данных (деятельность органов власти, базовая информация о лицензировании, выдаче разрешений и тд).
2. Больше открытых данных из государственных информационных систем, в первую очередь в виду роста числа информационных систем и их модернизации. Постепенный рост доступности данных об экономике (ФНС России и др)
3. Снижение открытости как политической ответственности: снижение объёмов раскрытия данных о декларациях чиновников, сокрытие данных о поставщиках по некоторым типам контрактам, сокрытие сведений о субсидиях
4. Снижение числа потребителей открытости: признание инагентами СМИ и НКО, снижение числа независимых СМИ, уголовные дела против журналистов расследователей. Что толку от доступности данных и даже того что госорганы могут ответить на запрос если никто не спросит и не использует?
5. Сохранение низкого уровня открытости всего что связано с качеством жизни, демографией, здравоохранением, правоохраной и образованием. Особенно на гиперлокальном уровне: город, район, муниципалитет.
6. Неработаюющие механизмы соучастия граждан и экспертов в нормотворчестве (игнорирование отзывов граждан по всем ключевым проектам законов и постановлений). Полный отказ от механизма со-написания законопроектов гражданами, ещё примерно 6 лет назад и без возвращения к этой практике.
7. Нефункциональная роль общественных советов при всех органах власти. Никто не может даже подсчитать расходы на их существование. Никто не решается сказать что, как обязательная конструкция, они не работают. А там где польза есть их можно заменить на консультативные органы, которые, ожидаемо, будут состоять из лоббистов.

Если резюмировать, то ситуация следующая.
С одной стороны данных много и вопреки многим другим трендам их становится больше, но... Ровно до тех пор пока кто-то из журналистов расследователей или иных заинтересованных сторон не вскрывают коррупцию или иные нарушения на основе этих данных. После чего именно эти данные закрывают или иным способом ограничивают.

Поэтому экономическая основа у открытости данных ещё есть, а вот политическая основа размывается. А общественная реакция идёт именно на политическую, а не на экономическую или административную открытость. А есть ли кто-то у нас в стране кто оценивает политическую открытость? Нет, таких нет.

#opendata #opengov
Современный отраслевой портал данных выглядит как Allen Brain Map Data Portal [1] и включает не только возможность скачать данные и просмотреть их наглядно, но открытый код в виде SDK, а также документацию, API, научные статьи с результатами и ещё многое другое имеющее отраслевую специфику, в данном случае, в области изучения мозга.

Ссылки:
[1] https://portal.brain-map.org/

#opendata #datascience
Свежий экспериментальный проект от Google по изучению зависимостей в проектах с открытым кодом - Open Source Insights [1].

Даёт немало информации о том какие лицензии используются, от каких проектов проект зависит и какие зависят от него. В целом хорошее подспорье для разработчиков озабоченных юридическими сторонами кода и зависимостями от другого кода.

Пока поддерживаются только управление пакетами: npm, Maven, Cargo, Go. Обещают PyPi и NuGet.

Пока API и данные не опубликовали, но думаю что скоро они тоже появятся.

Ссылки:
[1] https://deps.dev

#opensource
Для тех кто интересуется состоянием открытых данных в России, вот некоторые цифры:
- за 2020 год на федеральном портале открытых данных было опубликовано 223 набора данных, за 5 месяцев 2021 года - только 2 набора данных
- всего с 2020 года объём этих 225 наборов данных - 405 мегабайт из которых более 390 мегабайт - это данные Минкультуры России и ФНС России (и то есть подозрение что цифры завышены потому что в реестре наборов данных есть дублирующиеся записи. Скорее всего реально данных значительно меньше)
- лишь 9 178 наборов данных из 24 002 опубликованы федеральными органами власти, остальные региональными и муниципальными
- 10 ФОИВов не опубликовали ни одного нового набора данных с 2013 года (за 8 лет)
- 20 ФОИВов не опубликовали ни одного нового набора данных с 2015 года (за 6 лет)
- 42 ФОИВа не опубликовали ни одного нового набора данных с 2017 года (за 4 лет)
- 68 ФОИВов не опубликовали ни одного нового набора данных с 2019 года (за 2 года)
- иначе говоря в 2020 и 2021 года лишь 6 ФОИВов разместили хотя бы один новый набор данных на портале открытых данных
- некоторые ФОИВы, при этом, кое что опубликовали на своих сайтах, но куда меньше чем раньше и чем могли бы
- общий объём опубликованных данных на портале data.gov.ru оценить сложно, сайт не даёт статистики, API сайта очень куцое, требуется очень много запросов сделать чтобы подсчитать хоть самые приблизительные цифры, но они будут невелики.
- параллельно этому на сайтах и FTP серверах органов власти опубликовано открытых данных примерно на 20 терабайт. Количественно - это сотни наборов данных, качественно - это данные большого объёма.
- безусловные лидеры по масштабам раскрытия данных - Минкультуры, ФНС России, Федеральное казначейство, Минфин России. Даже при том что тенденции там не только к раскрытию, текущие объёмы доступных данных очень велики.

#opendata #stats
Свежий стартап Stemma [1] по созданию удобного каталога данных получили $4.8m от фонда Sequoia [2] и пишут подробно о том что они делают и собираются делать [3]. Они делают управляемый каталог данных на базе Amundsen [4] продукта каталога данных с открытым кодом ранее опубликованным Lyft. При этом обещают расширение метаданных, создание документации на лету и многое другое.

Всё это очень похоже на основные тренды в развитие корпоративных каталогов данных в мире сейчас:
- автоматическое документирование
- автоматическая классификация структуры данных (полей) и их связывание
- расширяемые структуры метаданных включая автоматическое заполнение метаданных там где возможно
- отслеживание происхождения данных (data lineage)

И ещё довольно много функций необходимых для корпоративных каталогов данных. Продукт у них интересный, надеюсь скоро его можно будет увидеть не только как демо. Тем временем конкуренция на рынке ПО для корпоративной каталогизации данных растёт, продуктов всё больше, автоматизации всё больше. Уже даже просто интересно кто первым заявит о решении AI for data catalogs, ПО с самоорганизацией данных. Не такая уж фантастика это.

Ссылки:
[1] https://www.stemma.ai/
[2] https://techcrunch.com/2021/06/02/stemma-launches-with-4-8m-seed-to-build-managed-data-catalogue/
[3] https://medium.com/stemma/stemma-helping-you-trust-your-data-7b5db9c8923c
[4] https://www.amundsen.io/


#opendata #datacatalogs