Ivan Begtin
8K subscribers
1.76K photos
3 videos
101 files
4.47K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Дорогие сотрудники, класть туалетную бумагу вместе с жёваными газетами и наждачной бумагой мы приняли в целях оптимизации затрат на их хранение (с).

А если серьёзно, то, конечно, очень странное решение Комитета информатизации Санкт-Петербурга. Оптимизация - это понятно, непонятно её направление.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Получила ответ о причинах отказа от портала открытых данных СПб (https://t.me/ahminfin/397)от Комитета по информатизации и связи Санкт-Петербурга о том, что порталы были объединены для оптимизации затрат на сопровождение информационных систем. Причина понятна, но она не объясняет нелогичность объединения, т.к. открытые данные частью классификаторов не могут быть, а вот наоборот - вполне.

Ответило Правительство СПб через ВКонтакте чуть больше чем за сутки (с учетом необходимости получения ответа от Комитета, отличный результат). Продолжу поиск логики уже через обращения.

Кстати, подписчики подсказывают, что и на сайте Электронного атласа сломалась выгрузка данных (https://geoclass.gov.spb.ru/?map=1/11/30.333595/59.936096/0/).
Под вечер пятницы разбавлю регулярные новости рассуждениями.

Я тут было думал поругаться в адрес разного рода докладов и исследований, но понял что на каждый ругаться невозможно, времени не напасёшься на содержательные отзывы. Поэтому я поделюсь личной болью которую я ощущаю когда читаю некоторые (частые) документы отраслевого анализа.

И начну с нескольких тезисов:
1. Есть условные 3 подхода к анализу какой-то отрасли/проблемы/новой технологии.
1.1. Первый - академический, с попыткой соблюдения научной достоверности, ссылками и так далее. Обычно его придерживаются полноценные исследовательские центры .
1.2. Второй - консультативный. Многочисленные консультанты пишут тексты где достаточно смысла чтобы их читали и хотели подробностей, но недостаточно чтобы сделать выводы. Цель - продажа услуг, вполне понятная.
1.3. Экспертно/коммерческий - когда есть компании в отрасли и от них напрямую, их групп или ассоциаций готовится аналитика. Опять же модель понятная - повлиять на регуляторов и продвинуть свои продукты/компетенции
2. Конечно, реальность чуть сложнее, но основные направления эти три.
3. "Нюансы" возникают при смешении жанров. Если доклад пишут консультанты, исследователи и представители бизнеса вместе, то это не добавляет ему репутации/веса, а скорее лишает. Такие исследования оказываются несбалансированными, с очень разным качеством разных частей. Потому что интересы разных авторов разные.
4. Более глубокая проблема в конфликтах интересов. При смешении авторского состава лоббисты перемешиваются с исследователями и часто указываются не от их бизнес интересов. В таких исследованиях деклараций конфликтов интересов нет и они легко вводят в заблуждение читателя, предполагающего по знакомым авторам-исследователям что это исследовательский продукт.
5. Но это не так, смешение профессиональных авторов и "молодых исследователей" или лоббистов или статусных авторов или иных не имеющих к данной теме лиц - это инструмент легализации "экспертов". Создание экспертной видимости для людей не имеющих реального опыта, знаний и компетенций.
6. Таких докладов немало, не один, не два, это довольно популярный жанр в России, хорошо воспринимаемый некоторыми "высокими начальниками"
7. При этом нет ничего урного в исследованиях от коммерческих компаний. Более того они часто бывают хорошо подготовлены, а их эксперты обладают реальным опытом. Но для читающих их лиц принимающих решения в голове всегда есть пометка о коммерческой стороне лоббируемых интересов.
8. Смешение научного, коммерческого (да и консультативного) - это такой способ легализации знания с изначально заложенными конфликтами интересов.

Лично я считаю что незадекларированные конфликты интересов в исследованиях, публикация их от организаций "пустышек" или с непрозрачным финансированием - это, конечно, противоречит этике любой профессиональной экспертной работы.

Как-нибудь я постараюсь изложить всё это более подробно, а пока вот в такой краткой форме.

#studies #thoughts
О том как устроена работа с открытым кодом у Правительства Италии. В Италии есть большое сообщество open source разработчиков работающих на государство и публикующих исходный код. В аккаунте italia [1] на Github собраны их проекты и большой обзор сделанного в репозитории awesome-italia [2]. Например, там есть ещё и список наиболее интересных итальянских открытых данных Awesome Italian public datasets [3]

Но эта группа не единственная, практика раскрытия исходного кода в Италии есть у разных групп государственных разработчиков. Они все объединены на портале Developers Italia [4] где, в том числе, есть открытый каталог ПО созданного по заказу итальянских органов власти и публикуемых с открытым кодом. Оно называется Software A Riuso[5] (повторно используемо ПО).

Сейчас там 172 продукта о которых можно сказать следующее:
- для всех из них указаны: адрес публикации кода, ссылка на документацию, контакты и "оценка жизненности" (Vitalita)
- каждый проект проходит проверку на соответствие (комплаенс) для GDPR, руководству по дизайну [6], минимальным требованиям безопасности [7] и ещё ряду других
- большая часть кода опубликована на Github и в ряде случаев на экземплярах Gitlab органов власти. Всё в открытом доступе
- код раскрывается разработчиками в рамках контракта с органом власти или передаётся в Итальянское цифровое агентство (AGiD) [8] и раскрывается ими на их Github аккаунте
- для того чтобы формирование каталога было автоматизировано, в каждом репозитории разработчики создают файл publiccode.yml (пример [9]) в котором заполняют все необходимые метаданные. Кстати, разработчики оформили заполнение этого файла в стандарт [10] и сделали онлайн редактор [11]

В Италии удалось построить активное сообщество с открытым кодом, удаётся публиковать довольно много кода госпроектов онлайн, хорошо документировать свою работу и ещё многое другое. Это хороший пример на то чтобы обратить внимание как подобное может быть организовано в других странах.

Ссылки:
[1] https://github.com/italia/
[2] https://github.com/italia/awesome-italia
[3] https://github.com/italia/awesome-italian-public-datasets
[4] https://developers.italia.it/
[5] https://developers.italia.it/it/search?type=software_reuse&sort_by=relevance&page=0
[6] https://developers.italia.it/it/software/agid-agid-wai-portal
[7] https://www.agid.gov.it/it/sicurezza/misure-minime-sicurezza-ict
[8] https://www.agid.gov.it/
[9] https://github.com/Comune-Milano/ModelloDigitalizzazione/blob/main/publiccode.yml
[10] https://github.com/publiccodeyml/publiccode.yml
[11] https://publiccode-editor.developers.italia.it/

#opensource #government
Свежее исследование Tasks, Automation, and the Rise in US Wage Inequality [1] о том как в США за последние 40 лет снижалась средняя зарплата у групп работников в области рутинных типовых функций. Анализ охватывает с 1980 по 2016 год и возможен только благодаря тому что в США раскрываются подробнейшие сведения по группам населения при переписи и доступна статистика занятости.

Важнее подтверждённые выводы о том что зарплаты людей выполняющих типовую работу снижаются, одновременно с автоматизацией их работы.

Ссылки:
[1] https://www.nber.org/papers/w28920

#robotics #statistics
На следующей и через неделю мы от Ассоциации участников рынка данных и Инфокультуры проводим две экспертные сессии о том как бизнес предоставляет данные НКО, исследователям и госорганам для решения социальных проблем (пандемии, катастрофы, преступность, экология, длительность жизни, бедность) и так далее. И как исследователи, НКО, государственные органы используют эти данные или могли бы использовать.

Состав уже довольно представительный и содержательный, будет речь о том как это происходит в мире, какую пользу приносит и какова мотивация всех участнков.

Ещё есть время в программе, поэтому если есть те готовы не просто послушать, а ещё и рассказать о своём опыте с любой из этих сторон, пишите мне на ibegtin@aurd.ru или в телеграм @ibegtin. Нужны подробности: какую организацию представляете, ФИО и краткие тезисы на 10-15 минут.

Мероприятия пройдут 25-го и 29-го июня. Их результаты пойдут в разработку модели коммуникации бизнеса и исследователей, НКО и государства.

В течение года мы ещё вернёмся к этой теме на более широко, открыто, с большими панелями на больших конференциях, а сейчас это именно экспертные встречи на 2-3 часа.

Также предварительный анонс - от АУРД мы будем проводить серию мероприятий до конца года. По тематикам: - государственные данные в региональном/муниципальном разрезе
- персональные данные и рынок обмена
- открытые данные по отраслям/территориям
- доступ к государственным информационным системам

и ещё по ряду направлений.

Что-то будет только онлайн, что-то в гибридном формате.

Если у Вас есть предложения по мероприятиям, готовность выступить с интересной историей и тд. пишите мне также на ibegtin@aurd.ru

И напоминаю что АУРД - это ассоциация участников рынка данных, в ассоциацию входят представители бизнеса, НКО и университетов. Для некоммерческих организаций и университетов/образовательных организаций членство в ассоциации бесплатно, для бизнеса оно настолько велико что можно вступать без зазрения совести.

#data #opendata #events
В блоге Amazon текст How the cloud is helping us better understand and manage the oceans [1], о том как Amazon предоставляет свою инфраструктуру для крупных исследовательских проектов на данных и про их инициативу The Amazon Sustainability Data Initiative (ASDI) [2] когда Amazon выдает свои ресурсы в виде грантов и иной формы помощи проектам по исследованиям окружающей среды, включающим очень большие объёмы данных.

Многие из этих данных опубликованы в реестре больших наборов данных Amazon'а [3], трудно даже измерить их реальный объём. Но, тем самым, мы приходим к двум важным изменениям:
1. Очень скоро большая часть data-rich исследований переместится в облака и всё больше решений для учёных будет публиковаться именно там.
2. За счёт ADI и не только Amazon стремительно движется в сторону инфраструктурной монополии на некоторые типы данных. В определенный момент окажется что если хочешь вести исследования в какой-то теме, то у тебя и выбора особо нет, другие способы будут сильно дороже.

В России нет ничего подобного, я знаю немало общественных проектов с очень большими наборами данных которым проще разместить их в Amazon, Google, Azure, Github и других площадках чем где-либо в России, потому что в России нет возможности хранить бесплатно большие объёмы.

Ссылки:
[1] https://aws.amazon.com/ru/blogs/publicsector/how-cloud-helping-us-better-understand-manage-oceans/
[2] https://sustainability.aboutamazon.com/environment/the-cloud/asdi
[3] https://registry.opendata.aws/collab/asdi/

#opendata #amazon #environment #datasets
Хуже утечек персональных данных у российских госорганов - это сотрудники органов власти и госучреждений публикующих списки людей с их паспортными данными, адресами, номерами СНИЛС и так далее в открытом доступе.

Вот к примеру в одном из муниципальных районов официально выложен на сайте "СПИСОК ГРАЖДАН СОСТОЯЩИХ НА УЧЁТЕ В КАЧЕСТВЕ НУЖДАЮЩИХСЯ В ЖИЛЫХ ПОМЕЩЕНИЯХ, ПРЕДОСТАВЛЯЕМЫХ ПО ДОГОВОРАМ СОЦИАЛЬНОГО НАЙМА" в виде Excel файла.

В других случаях выложены договоры, паспортные данные ИП получившего лицензию на транспортные перевозки или граждан получающих социальные выплаты из муниципального бюджета или победителей спортивных соревнований.

Мало в каких странах в таких объёмах требуют персональные данные гражданина и одновременно так халатно к этому относятся.

#privacy #personaldata
Я приведу всё же ещё несколько ещё более конкретных примеров в качестве иллюстрации.

Реестры требований кредиторов также бывают в открытом доступе что можно увидеть своими глазами на примере сайта союза «Межрегиональный центр арбитражных управляющих» [1].

У сайта неактуальный сертификат, не скачиваются часть документов, но среди тех что доступны есть подробные файлы отчетов арбитражных управляющих и реестры кредиторов. В некоторых реестрах кредиторов только юр. лица, но во многих есть списки работников перед которыми не закрыты трудовые обязательства, вот к примеру [2].

Или вот пример как Департамент строительства и транспорта Белгородской области публикует реестры пострадавших граждан при долевом строительстве [3]. Видимо полагают что граждане пострадали недостаточно.

В аналогичном реестре в Республике Марий-Эл нет полных ФИО и паспортных данных [4], а в ростовской области только ФИО без иной идентифицирующей информации [5] и в Ленинградской области реестр вообще даже без ФИО [6]

В других регионах такие реестры просто не общедоступны.

Можно обратить внимание что часто объектами раскрытия данных являются не преступники, не те кто был уведомлен что их данные опубликуют, а рядовые граждане, виктимизируемые лишь тем что госорганы и иные организации в одностороннем порядке решили разместить их данные в открытом доступе.

А я не перестаю напоминать что это массовое явление за пределами фокуса интереса Роскомнадзора.

Ссылки:
[1] http://npmcau.ru
[2] http://www.npmcau.ru/upload/debsfiles/MAT_000000059_000001123_RTK%20Khitrinoy%20V.D..doc
[3] http://www.belgorodstroy.ru/media/uploads/%D0%A0%D0%95%D0%95%D0%A1%D0%A2%D0%A0_%D0%9F%D0%9E%D0%A1%D0%A2%D0%A0%D0%90%D0%94%D0%90%D0%92%D0%A8%D0%98%D0%A5_%D0%93%D0%A0%D0%90%D0%96%D0%94%D0%90%D0%9D_%D0%BD%D0%B0_%D1%81%D0%B0%D0%B9%D1%82.xls
[4] http://mari-el.gov.ru/minstroy/DocLib52/171123_01.xls
[5] http://www.bldnadz.donland.ru/Data/Sites/42/media/%D1%80%D0%B5%D0%B5%D1%81%D1%82%D1%80%D0%B3%D1%80%D0%B0%D0%B6%D0%B4%D0%B0%D0%BD/%D1%80%D0%B5%D0%B5%D1%81%D1%82%D1%80_%D0%B3%D1%80%D0%B0%D0%B6%D0%B4%D0%B0%D0%BD_%D0%B4%D0%BB%D1%8F_%D0%BE%D1%82%D0%BA%D1%80%D1%8B%D1%82%D0%BE%D0%B3%D0%BE_%D0%B4%D0%BE%D1%81%D1%82%D1%83%D0%BF%D0%B0_22.02.2019.xls
[6] http://expert.lenobl.ru/media/content/docs/6833/%D0%A0%D0%B5%D0%B5%D1%81%D1%82%D1%80%20%D0%B3%D1%80%D0%B0%D0%B6%D0%B4%D0%B0%D0%BD%2C%20%D0%BD%D0%B0%2001.10.2018.xls

#privacy #PersonalData
Кто-нибудь может поделиться во сколько Яндексу обошлась эта рекламная кампания и где можно найти ценник? Может я тоже хочу москвичам рекламных баллов раздать, знать бы условия, сколько там по деньгам, с кем разговаривать, на какие статьи КБК переводить, кто контролирует эти доходы в городской бюджет... простите увлёкся. В общем интересный кейс крупного онлайн ритейлера и его маркетинговых кампаний.
OpenLineage [1] - это относительно новый стандарт прослеживаемости данных, введенный в оборот в январе 2021 года и развиваемый The Linux Foundation в привязке к Apache Airflow и Apache Spark.

Основная идея в стандартизированном API для запуска задач, хранения данных, доступа к SQL и в том чтобы все это охватывалось универсальными метаданными.

Много подробностей в репозитории стандарта [2] и примеры продуктов таких как Marquez и Egeria которые OpenLineage поддерживают.

Ссылки:
[1] https://openlineage.io/
[2] https://github.com/OpenLineage/OpenLineage

#data #datapipelines #metadata
не могу подобрать комментарий
Роботы, роботы... Тысячи индусов у камер наблюдения и отслеживание работы сотрудников магазинов и ограблений. В Vice статья о Live Eye [1], компании которая подключает магазины к системе наблюдения за сотрудниками и сотрудники в конце дня отчитываются о всех действиях на камеру. А также там же про пример того как удалённый наблюдающий из динамиков угрожает вызвать полицию во время ограбления.

Статья скорее осуждающая, и я согласен в том что такая слежка 24/7 некомфортна для работников. Но каким будет её развитие? То же самое будут делать алгоритмы, автоматически определяющие что идёт ограбление магазина или иная экстренная ситуация.

Ссылки:
[1] https://www.vice.com/en/article/4avnnn/a-cctv-company-is-paying-remote-workers-in-india-to-yell-at-armed-robbers

#tech #surveillance
Сегодня с 12 часов модерирую круглый стол на ЦИПР
.
Ссылка на трансляцию 12:00 -13:30 “Экономика данных. Цифровое ускорение глобального сотрудничества”: https://youtu.be/H3NFpg040Ek

#data #datamarkets
Вышел доклад AI Watch - National strategies on Artificial Intelligence: A European perspective, 2021 edition [1] о инициативах ИИ в странах Евросоюза на основе базы данных EC-OECD.

Интересного там немало и, конечно же, практически все инициативы пересекаются с рынком данных на котором основан рынок ИИ.

Прямая ссылка на доклад [2]

Ссылки:
[1] https://publications.jrc.ec.europa.eu/repository/handle/JRC122684
[2] https://publications.jrc.ec.europa.eu/repository/bitstream/JRC122684/ai_watch_report_national_ai_strategies.pdf

#data #eu #regulation
В рубрике интересные наборы данных полный слепок данных с портала открытых данных Минкультуры России [1]. Всего 63 набора данных общим объёмом в архивной виде в 15.8 гигабайт, в формате JSON. Описание на хабе открытых данных [2].

Наибольший объём в архиве у госкаталога музейного фонда [3].

Зачем создан архив?
1) Для долгосрочного сохранения в виду частичного ухода команды в Минкультуры отвечавшей за открытость данных. На случай если они начнут исчезать с портала данных Минкультуры РФ.
2) Для возможности удобной выгрузки данных автоматизировано - достаточно взять значения из csv или json файла списка, добавить расширение .zip и выкачать по прямым ссылкам
3) Архивы каждого набора данных включают все версии набора данных и можно отследить изменения если есть такое желание.

Если Вы знаете наборы данных которые могут исчезнуть, находятся в зоне риска и тд. то пишите мне, они будут включены в план архивации и сохранены.

Ссылки:
[1] https://opendata.mkrf.ru
[2] https://hubofdata.ru/dataset/opendatamkrfru-archive
[3] https://cdn.ruarxive.org/public/datacollect/opendata.mkrf.ru/packages/7705851331-museum-exhibits.zip

#opendata #opengov #datasets
Продолжая тему городов и данных о них, проект Metroverse [1] навигатор по городской экономике нескольких сотен городов по всему миру, включая российские. Создан в Growth lab [2], Центр международного развития в Гарварде.

Данные о экономике у них из Dun and Bradstreet’s World Base, насколько это близко к российской реальности сказать не возьмусь.

А сам проект по визуализации и подходу очень похож на Atlas of Economic Compexity [3] , также происходящий из Гарварда и оценивающие экспорт и импорт стран для понимания структуры экономики.

Ссылки:
[1] https://metroverse.cid.harvard.edu
[2] https://growthlab.cid.harvard.edu
[3] https://atlas.cid.harvard.edu

#opendata #data #cities #dataviz
А вот и свежая новость о том что развитие очередной государственной информационной системы "Работа в России" пойдёт в сторону конкуренции с HeadHunter'ом, SuperJob'ом и так далее [1]

У меня всегда двоякое отношение к таким инициативам. Как человеку работающему с большим объёмом разных данных - это всегда интересно получить в руки большой набор данных и данные из госсистем получить легче чем из частных.

А как предприниматель и человек возглавляющий Ассоциацию предпринимателей по работе с данными (АУРД) не могу не отметить что чем больше государства на зрелых конкурентных не монопольных, а вполне живых рынках - тем хуже этим рынкам.

Ссыски:
[1] https://www.iksmedia.ru/news/5840066-Prezident-podpisal-zakon-o-edinoj.html

#opendata #opengov #data #jobs #fgis
Тем временем в Великобритании рапортуют о 500 тысячном расшифрованном геноме вируса [1] и новой технологии ускоренной расшифровки геномов вариантов вируса [2]. А также о том что правительство готово помогать другим странам в развертывании этой технологии.

Интересно выложат ли всю эту базу данных в открытый доступ в этом году? Думаю да

Ссылки:
[1] https://www.gov.uk/government/news/uk-surpasses-500000-coronavirus-covid-19-tests-genomically-sequenced
[2] https://www.gov.uk/government/news/groundbreaking-new-technology-to-detect-known-variants-of-concern

#data #covid19
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
7 июля в 15:00 проводим экспертную сессию "Подходы к общественному контролю государственных и муниципальных закупок".

Аналитики и команда проекта "Госзатраты" представят на семинаре:

- концепцию модуля "Контроль" (направленного на повышение прозрачности системы госзакупок в России путем формирования, обнародования и развития базы закупок/контрактов, потенциально содержащих признаки недолжных приемов и практик);

- методику выявления контрактов для контроля (источники и объекты рисков, категории рисков).

Подробнее о мероприятии по ссылке: https://infoculture.timepad.ru/event/1687385/ (мероприятие экспертное, поэтому для регистрации необходимо указывать организацию)
Свежая полезная книга Introduction to Modern Statistics [1] доступна онлайн под Creative Commons и за небольшие деньги можно заказать её в бумаге на сайте OpenIntro [2]. Сама книга/руководство как раз является частью проекта OpenIntro по повышению доступности качественных руководств по статистике и математике, а OpenIntro - это НКО в США [3]. За 2020 год они получили пожертвований на $63 тысячи [4] что очень немного с одной стороны, а с другой показывает что можно, в каком-то смысле, создавать качественные продукт для студентов и учителей без огромных расходов.

В России куда популярнее пиратство литературы и книги значительно дешевле и доступнее, поэтому, возможно, такое НКО ещё не актуально. А может быть актуально в какой-то другой форме и, на самом деле, в каких то формах существует.

Ссылки:
[1] https://openintro-ims.netlify.app
[2] https://www.openintro.org/book/ims/
[3] https://www.openintro.org
[4] https://www.causeiq.com/organizations/openintro,813557916/

#data #math #statistics