Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Вчера было довольно познавательное мероприятие в Сбербанке по данным для искусственного интеллекта.
Много говорили про открытые данные и текущее состояние и качество госданных. У меня осталось ощущение повторения истории 5 летней давности, когда похожие разговоры и встречи шли в рамках Открытого правительства и вокруг него.

Все важнейшие вопросы остались:
1. Как убедить органы власти публиковать наиболее интересные данные?
2. Какие данные должны публиковаться?
3. Как измерить экономический эффект от открытия данных?
4. Что делать с персональными данными необходимыми для исследования и работы?
Много вопросов над которыми предстоит поработать.

--- Далее минутка рекламы ---
А я напомню что я лично участвую в этом всём от нашей Ассоциации участников рынка данных и подробнее о ней можно узнать тут - http://aurd.ru

Ассоциация ориентирована, в первую очередь на малый и средний бизнес с очень небольшими взносами, а также мы туда принимаем НКО и образовательные учреждения без взносов, членство для всех некоммерческих и государственных учреждений бесплатное. Пишите на aurd@aurd.ru если хотите и готовы вступить.

Основные приоритеты ассоциации - это взаимодействие с государством в части регулирования/де регулирования рынка данных, открытие данных и многие другие инициативы в этой области.

И, да, я не могу не напомнить что модель работы ассоциаций - это быть площадкой для кооперации. Совместные мероприятия, семинары, конференции, обсуждения и многое другое. Большая часть активности и инициативы идёт от членов ассоциации, а роль ассоциации в помощи этим инициативам.
--- Минутка рекламы закончилась ---

Возвращаясь к тому как _перезапускать_ тему открытых данных, нам пора снова и вместе составлять всё то что было не доделано:
1. Составить список изменений в регуляторных документах - оживить ли 8-ФЗ или отдельный закон?
2. Составить список наиболее востребованных данных для раскрытия
3. Определить правила по которым данные должны раскрываться и кому - аналог data spectrum
и многое другое.
4. Что делать с "артефактами" вроде data.gov.ru, глубоко перезапускать, ликвидировать или ждать пока сам помрёт?

И это не все актуальные вопросы.

#data #ai #opendata
За всеми разговорами о доступе к данным для бизнеса и для граждан и об открытых данных государства важно помнить что сама темам открытости зарождалась в совсем других областях изначально. Например, в науке принцип обмена знаниями и данными - это просто часть естественного процесса взаимодействия учёных.

И в научной среде каталоги данных - это уже давно общепринятая норма. Более 2 тысяч таких каталогов данных собраны в проекте Re3Data [1], а многие другие легко находятся поиском проектов в области Открытой науки (Open Science).

Есть инструменты которые изначально были созданы именно для научной среды.
- Dataverse [2] портал данных созданный в Гарварде и поддерживающий несколько крупных каталогов научных данных, в основном университетов.
- Invenio [3] портал данных разработанный в CERN для хранения статей и огромных данных результатов исследования на адронном коллайдере и других инструментах.
- Zenodo [4] общеевропейский проект публикации данных исследовательскими центрами Евросоюза
- CKAN [5] стандарт портала данных для открытых данных многих государств также используется исследовательскими центрами и университетами.

Чем отличаются научные продукты и проекты в этой области?
Есть несколько важных отличий от порталов открытых данных:
1. Не все данные открыты по умолчанию. У некоторых доступ ограничен и требует подтверждения владельца, другие публикуются под эмбарго и доступны только после того как выйдет научная статья, а в иных случаях организация получила их под ограничивающими условиями и вынуждена их предоставлять только квалифицированным пользователям.
2. Для научных порталов данных важно как и дня научных публикаций указывать ORCID, DOI и иные идентификаторы. Это то чего нет в общественных и госпорталах.
3. Для научных порталов данных важны многие метаданные для точного цитирования и выбора того что цитировать
4. Почти всегда научные метаданные проходят ту или иную степень проверки качества, иначе не обеспечить воспроизводимость.

Порталы научных данных часто хороший пример для государства того как надо публиковать данные. Но, безусловно, они гораздо сложнее в управлении и поддержании актуальности, в виду необходимости соблюдения всех процедур заполнения метаданных.

Ссылки:
[1] https://www.re3data.org/
[2] http://dataverse.org
[3] https://invenio-software.org/
[4] https://zenodo.org
[5] http://ckan.org

#data #openscience #opendata
Переориентация госпрограмм на выполнение национальных проектов привела к снижению прозрачности бюджетной статистики Минфина

Запуск национальных проектов, несомненно, одна из наиболее амбициозных инициатив государства за последние годы. Но, как и у всех амбициозных инициатив, у нее есть не только высокие цели, но и последствия. Я бы даже сказал — сопутствующий ущерб. Профессиональные экономисты и эксперты в региональной политике могут рассказать о последствиях национальных проектов для ВВП, уровня жизни и инфраструктуры, а я расскажу о том, как они влияют на открытость государственных финансов в России.
...
Подробнее на РБК:
https://www.rbc.ru/opinions/economics/20/09/2019/5d81e9f99a7947a59b1f7cea

#budget #opengov
Множество полезных ссылок на английском про данные вместо одной новости.

Дайджест по данным:
- гайд по тому как извлечь данные из PDF отчёта мексиканского правительства, обработать, проанализировать и визуализировать с помощью инструментария на Python. [1]
- Амазон начал подкручивать алгоритмы поиска для большей видимости его собственных продуктов [2] (вот и доверяй после этого большим платформам, ага)
- Lectures in Quantitative Economicswith Python [3] свежая книга более в 1100 страниц о том как использовать Python в экономических расчётах. Студентам экономистам на заметку
- Умные телевизоры передают чувствительную информацию Netflix и Facebook [4]. Имеются в виду умные телевизоры в США в первую очередь, но смысл не меняется (статья Financial Times за пэйволлом).
- The Global Expansion of AI Surveillance [5] исследование от Carnegie Endowment for International Peace о том как глобальные системы слежки с искусственным интеллектом стремительно распространяются. Немного про Россию и много про Китай. В России упомянуты ключевые компании: Analytical Business Solutions, Cisco, Huawei, NtechLab, Speech Technology Center [6]. Даже не знаю порадоваться или опечалиться. А вот Huawei повсюду

Ссылки:
[1] https://github.com/PhantomInsights/mexican-government-report
[2] https://www.wsj.com/articles/amazon-changed-search-algorithm-in-ways-that-boost-its-own-products-11568645345
[3] https://lectures.quantecon.org/_downloads/pdf/py/Quantitative%20Economics%20with%20Python.pdf
[4] https://www.ft.com/content/23ab2f68-d957-11e9-8f9b-77216ebe1f17
[5] https://carnegieendowment.org/2019/09/17/global-expansion-of-ai-surveillance-pub-79847
[6] https://carnegieendowment.org/files/AI_Global_Surveillance_Index1.pdf

#digest #data #news
Многие базы данных имеют природу отнюдь не государственную, но общественную и исследовательскую. Иногда при господдержке, но часто за счёт частных и исследовательских фондов.

Например, сектор добычи полезных ископаемых, в первую очередь нефтегазовый сектор является объектом общественного интереса. И множество проектов в этой области создаются совсем не органами власти:
- Corporate Mapping Project [1] совместный проект нескольких канадских университетов и общественных организаций о том как устроено управление нефтегазовыми компаниями.
- National Oil Company Database [2] проект от NRGI с базой индикаторов по деятельности нефтегазовых компаний с высокой детализацией до компании.
- EITI [3] - стандарт раскрытия информации о добывающих компаниях. Применяется во многих станах, на постсоветском пространстве это: Казахастан, Киргизия, Таджикистан, Украина
- PWYP (Publish what you pay) [4] - международная НКО пропагандирующая прозрачность объектов общественного достояния - недр.
- Resource Contracts [5] база данных контрактов с добывающими компаниями сделанный совместно NRGI, Всемирным банком и рядом других организаций.
- Resouce Data [6] ещё один проект от NRGI с базой в виде наборов данных по добывающим отраслм
- Нигерийский проект по мониторингу разливов нефти [7]
- каталог проектов создающих и использующих данные в добывающем секторе [8]
- ResourceProjects [9] база платежей компаний странам за проекты в добывающей сфере. Налоги, роялти и иные платежи - всё здесь. Кстати данные по России там есть [10]

Ссылки:
[1] https://www.corporatemapping.ca/
[2] https://www.nationaloilcompanydata.org
[3] https://eiti.org/homepage
[4] https://www.pwyp.org/
[5] https://resourcecontracts.org/
[6] https://www.resourcedata.org/
[7] https://oilspillmonitor.ng/
[8] http://apps.resourcegovernance.org/use-ecosystem/
[9] http://www.resourceprojects.org/
[10] http://www.resourceprojects.org/country/Russian%20Federation

#data #oilgas #russia #un-digitaleconomy
19-20 октября пройдет хакатон Счетной палаты [1] с кучей интересных задач, полезных для понимания не только данных по госфинансам, но и работы с госданными в принципе.

Я же не могу не напомнить хорошее правило что когда Вы смотрите на подготовленные идеи проектов - не ограничивайтесь только ими. Часто какую-то идею вынашиваешь месяцами и годами и тут возможность её качественно представить.

Ссылки:
[1] https://web.facebook.com/events/804055623342930/

#opendata #data #hackahon #sprf
Для разнообразия не ссылки и новости, а размышления

У меня на руках сейчас довольно много подсчитанной аналитики по госрасходам (и доходам) по куче разных направлений, причём подсчитанной самостоятельно, а пока считаешь то и видишь, подтверждаешь знания, о том как всё на самом деле устроено на самых разных рынках.

Вот к примеру рынок дорожного строительства. Крупнейший по доле в госрасходах и в госзаказе. Прозрачность - минимальная, большая часть компаний малоизвестна кому-либо за пределами узкого круга, требований к раскрытию информации минимум. Во многих случаях информация отсутствует в принципе за исключением сведений в ЕГРЮЛ и ряде реестров.

Другой рынок фармацевтика. По факту 5-6 крупных производителей контролируют рынок, при этом есть пул крупных и средних дистрибьюторов, опять же, с минимальной прозрачностью через которых проходит львиная доля заказа. А во многих субъектах есть ещё и бывшие и действующие ГУПы областных фармаций через которых идёт централизованная закупка. Все истории про более-менее разумное регулирование - это регулирование на уровне самых верхнеуровневых договорённостей правительства с производителями, а вот эти все игры с текущим госрегулированием этой области - ох сколько там лукавства. И ведь нет ни одного публичного доступного документа описывающего текущую ситуацию сверху до низу - кто и как является маркет-мейкером, на что влияет даже минимальное регулирование и так далее.

В принципе видно что размер поставщика никак не влияет на прозрчность его деятельности. Только наличие лицензий, но и то слабо. При этом более половины годового госзаказа идёт на юрлица в форме ООО, около 25% идёт на бывшие ЗАО, а ныне непубличные АО и только всё остальное на все остальные предприятия. В зависимости от года на ПАО может приходится от 5 до 10% средств по госзаказу. В основном это ПАО в рамках энергохолдинов, нефтяных корпораций и ограниченного числа других ПАО.

Доля госкорпораций не так велика в целом только по причине того что они не представлены на рынке стройки зданий и стройки дорог. Если начать резать бюджет секторально, то можно даже предсказать направления развития дальнейшего регулирования и распространения госкорпораций.

Это, например:
- замещение дистрибьюторов медтехники и фармы под эгидой импортозамещения
- замещение значительной части ИТ интеграторов, сейчас ограничивает только то что трудно отстраивать компетенции и скоростью изменения технологий. Но тренд более чем явный

Все разговоры про результат - это разговоры про стройку. Но что же все стесняются говорить что без спутникового мониторинга здесь не обойтись.

Процедурность госзакупок вообще никак не влияет на то кто и как получает контракты. На распределение контрактов примерно с 10 миллионов рублей влияет только административный ресурс. Чаще легальный - переговоры с потенциальными подрядчиками до объявления торгов.

У меня ещё много рефлексии есть про ГЧП, государственные информационные системы, организации контроля результата и не только. Как-нибудь соберусь дописать

#thoughts #goszakaz
Буквально на днях вышло исследование Transparency International Russia по лоббизму в Госдуме в виде сайта [1] и в виде доклада [2]. Доклад довольно обстоятельный, скорее контентный чем технический, хотя и визуализация вполне хороша. А контентный потому что явно много материалов переработано для создания справки на каждого депутата.

Плюсы минусы и комментарии.
1. Конечно в России депутаты являются лоббистами в гораздо меньшей степени чем, например, члены советов и комиссий при Правительстве или при Президенте РФ. Не говоря уже о внутренних лоббистах внутри органов власти.
2. Лоббизм - это хорошо или плохо? В принципе, это как проституция. Можно с ней бороться, но сбор налогов и регистрация окажутся эффективнее. Лоббизм неизбежен, исследования его интересны многим, в первую очередь самим лоббистам.
3. Очень хочется увидеть результаты исследования и в виде открытых данных, там есть с чем поработать на хакатонах и не только.

Ссылки:
[1] https://dumabingo.ru/
[2] https://dumabingo.ru/%D0%9B%D0%BE%D0%B1%D0%B1%D0%B8%D0%B7%D0%BC%20%D0%B2%20%D0%93%D0%BE%D1%81%D0%B4%D1%83%D0%BC%D0%B5.pdf

#opengov #lobbying
Новость явно требует комментариев. Но краткий комментарий мой звучит так - товарищи журналисты, поднимите же наконец материалы по приоритетным национальным проектам 2006-2009 годов и сомнений в том как устроены и чем закончатся эти национальные проекты у вас никаких не будет.
Forwarded from Нецифровая экономика (Oleg Salmanov)
Две трети года позади, а министерству цифрового развития удалось раскассировать только 10,6% средств. И цифры за август показывают, что программа "Цифровая экономика" продолжает отставать - за месяц удалось исполнить ее бюджет на 1,5% (!!!). Такими темпами министерству понадобится 66 месяцев (5,5 лет), чтобы исполнить бюджет 2019 года!
8 октября будет моя лекция в Шанинке про дата расследования. Будет не только про старые расследования, но и про многое менее известное и новое. Не только про госзакупки, но и про поиск персональных данных и про пиратское ПО в госорганах
Forwarded from Инфокультура (Ksenija V. Orlova)
Приглашаем на открытую лекцию Ивана Бегтина «Дата-расследования: тысячи иголок с миллионах стогов сена», которая состоится 8 октября в библиотеке Шанинки.

Иван расскажет про три кейса по работе с открытыми данными и электронными документами госучреждений и информационных систем:

- «Слепые закупки» — что это? Латиница и другие способы искажения информации о государственных и муниципальных закупках в целях ограничения конкуренции и поиска сведений.
- Утечка персональных данных с сайтов государственных информационных систем — как более двух миллионов записей с данными россиян оказались в открытом доступе.
- Пиратский софт — использование пиратского программного обеспечения в российских госорганах. На сайте какого органа исполнительной власти не было найдено ни одного документа с признакам нелицензионного ПО?

Необходима предварительная регистрация: http://msses.ru/about/news/4434/?
Майкрософт убрали возможность ставить Windows 10 без интернета как пишут на Reddit [1]. На самом деле это не совсем так, и теперь установка с локальным аккаунтом возможна только если у компьютера нет доступа в Интернет или если несколько раз неправильно ввести телефон. Но суть остаётся прежней, Microsoft загоняет пользователей в онлайн и завязывает в свою экосистему.

Ссылки:
[1] https://www.reddit.com/r/Windows10/comments/daim1y/ms_has_removed_the_use_offline_account_option/

#microsoft
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Проект федерального бюджета на 2020 год опубликован на портале Электронного бюджета (budget.gov.ru). Что мы о нем знаем:

- Это бюджет Шредингера - данные по нему то есть, то их нет;
- нововведение этого года - коды госпрограмм, разделов и подразделов стали однозначными вместо двухзначных, коды ГРБС - двухзначные вместо трехзначных;
- столбцы отображаются рандомно: ГРБС после ЦСР и разделов/подразделов, а видам расходов еще больше повезло - их отображают даже после сумм;
- перечень главных администраторов ИФДБ через минуту после открытия страницы полностью пропал;
- целевым статьям расходов пожалели нулей.

Федеральный бюджет уже второй год вносится в Госдуму в электронном виде, но сомневаюсь, что по таким данным можно какие-то решения принять.
Вдогонку о том как приложения следят за пользователями вышел очень познавательный материал в The Bell о том как приложения смартфонов за нами шпионят [1]. Хорошая работа и весьма неплохо сделанный материал в виде проекта по дата-журналистике. Обратите внимание на многочисленные примеры того как злоупотребляют разрешениями на телефоне мобильные приложения российских "национальных чемпионов".

Такие материалы и исследования важны со всех сторон. Для пользователей в том чтобы понимать и использовать приложения осознанно, выбирая те которые обеспечивают качественный баланс приватности и сбора данных. А для бизнеса в том что интерес граждан к теме слежки за ними растёт очень резко. Важно не упустить того момента когда можно получить массовый отток клиентов из-за того что разработчики "забыли" отключить трекеры слежки.

Ссылки:
[1] https://thebell.io/shpion-iz-smartfona-top-10-prilozhenij-sobirayushhih-vashi-dannye/

#privacy
И снова о неприятном. В блоге компании Comparitech публикация об утечке данных о 20 миллионах российских налогоплательщиках [1]. Особой изюминкой является то что данные обнаружились на серверах на базе Elasticsearch на Украине.

Я добавлю что на сером и черном рынке торговли данными в России - данные с Украины и по Украине встречаются сейчас особенно часто. Сложно ли удивляться тому что на Украине собирается немало особо значимых данных о России и из России.

В любом случае новость безрадостная для рядовых россиян. А вскрывшийся факт утечки перс данных на Украину и в открытый доступ поднимает немало вопросов о том как такое возможно и всё ли в порядке в российском ФНС.

Ссылки:
[1] https://www.comparitech.com/blog/vpn-privacy/russian-tax-records-exposed-online/

#privacу #dataleaks
Есть такой эффект в распространении информации - эффект англосферного пузыря, когда, поскольку большинство обычно знают английский язык как второй после родного, то и большая часть примеров и опыта идёт со ссылкой на США, Великобританию, Австралию, Новую Зеландию, и, реже, Индию.

Для разнообразия, я приведу примеры разных интересных общественных проектов в других странах.

- Quién cobra la obra (Кому заплатили за работу?) [1] - монитор строительных контрактов от Civio (Испания), включая поиск по контрактам [2]. Фокус на объяснениях, расследованиях и статьях дополняемых собранными данными.
- Quién manda (Кто правит?) [3] - другой проект от Civio о связях тех кто владеет деньгами, теми кто руководит (депутатами, министрами и тд). На основе общедоступной информации и в виде навигатора [4] по более чем 7200 проверенным связям.
- Handlingar [5] проект от шведской группы активистов в CivicTech по автоматизации запросов в госорганы на получение информации. Создан на базе открытыого код проекта Alavetelli [6] используемого НКО во многих странах для создания порталов для запросов информации у органов власти.
- OpenCoesione [7] итальянский государственный проект который можно первести как "Открытое развитие", по факту это портал раскрытия по госпрограммам и госрасходам с детализацией до каждого муниципалитета.
- abgeordnetenwatch.de - германский портал мониторинга за парламентом и депутатами включая возможность направлять петиции

Большая часть общественных проектов в мире, как правило, сфокусированы на:
- лоббизме и прозрачности принятия решений
- госрасходах
- качестве управления общественными ресурсами (землей, полезными ископаемыми и тд.)
- общественных и социальных проблемах таких как экология, миграция и так далее.


Ссылки:
[1] https://civio.es/quien-cobra-la-obra/
[2] https://quiencobralaobra.es/
[3] https://civio.es/quien-manda/
[4] https://quienmanda.es/
[5] https://handlingar.se/sv
[6] https://alaveteli.org/
[7] https://opencoesione.gov.it
[8] https://www.abgeordnetenwatch.de

#civicprojects #opengov #opendata
Для тех кто ищет какие новые/старые продукты по работе с данными потестить и посмотреть рекомендую победителей Data Management Insight Award [1] рейтинг продуктов где встречаются и те продукты которые, я, к примеру, не знал.

Там же до 8 октября можно проголосовать за продукты 2019 года [2] и к 6 декабря будет известен продукт.
Кстати, сами рейтинги - это хороший продукт консалтинговой компании A-Team Insight. Потому что чтобы проголосовать надо заполнить на себя анкету и вообще много чего о себе сообщить. Какие молодцы! Надо брать с них пример.

Ссылки:
[1] https://a-teaminsight.com/awards/data-management-insight-awards/
[2] https://a-teaminsight.com/awards/data-management-insight-awards/?page=vote_now

#data #datamanagement
Почему данные компаний должны быть общественным благом ? (Why data from companies should be a common good?) [1] статья от члена французского парламента Паулы Фортеза и её советника Марианны Биллард о том что частные компании должны делиться данными с государством и другими компаниями. Они призывают к принятию Европейского закона о частных данных (European Private Data Act) в котором закрепить условия обмена данными / data sharing. При это подчёркивается что обмен данными не является синонимом открытости данных, а частные интересы компаний учитываются.

Пока рано говорить о том что такой закон появится в этом или в следующем году, но если он будет принят то однозначно будет создан по модели GDPR с экстерриториальностью подпадающих под него компаний. И первыми кто под него попадёт будут международные дата-корпорации которых могут захотеть понудить делиться данными с их европейскими партнёрами.

Что это означает? Я бы в ближайшие годы ждал активности в запуске частных data-sharing инициатив от крупнейших дата игроков в целях максимально отсрочить, ослабить или ограничить подобное регулирование.

Ссылки:
[1] https://apolitical.co/solution_article/why-companies-should-share-their-data-with-government/

#opendata #datasharing #data
Должны ли частные компании делиться накопленными ими данными с государством и с другими компаниями?
public poll

Только добровольно – 92
👍👍👍👍👍👍👍 59%

Да – 37
👍👍👍 24%

Нет – 26
👍👍 17%

👥 155 people voted so far.
Итоги голосования по добровольности обмена данными для частных компаний