Ivan Begtin
8.02K subscribers
1.74K photos
3 videos
101 files
4.44K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Очень важно чтобы работа над охватом всей цепочки госрасходов продолжилась и однажды можно было бы проследить каждый товар вплоть до таможенной партии, каждую работу до каждой стройки.

#spending #budgets #traceability
Australian National Audit Office (ANAO) [1] выявили что более 60% госзакупок с 2010 года в Австралии являются неконкурентными, об этом пишут Government News [2] по следам парламентского расследования начатого Парламентом Австралии с 1 июля 2021 года [3].

В Эквадоре правительтство открыло Public Contracts Observatory (Обсерватория государственных контрактов) [4] с публикацией сведений о контрактах в CSV.

В Казахстане компания Datanomix разработала набор индикаторов отслеживания криминальных денег включая анализ госзакупок [5]. Всего индикаторов не так много, около 40, часть из них могут быть автоматизированы [6]

Ссылки:
[1] https://www.anao.gov.au/
[2] https://www.governmentnews.com.au/more-than-half-commonwealth-procurement-non-competitive/
[3] https://www.aph.gov.au/Parliamentary_Business/Committees/House/ITC/Gov-fundedInfrastructure
[4] https://www.observatoriocomprapublica.go.cr/
[5] https://www.open-contracting.org/2021/09/20/how-one-data-team-is-rooting-out-procurement-corruption-in-kazakhstan/
[6] https://docs.google.com/spreadsheets/d/1diUhYGHquiQ4rKZTdx-qZvkvrtrXgpAKkzY9yxoqZzU/edit#gid=0

#opendata #data #procurement
​​📈Где в России пропадают люди
В рамках нашего уральского дата-трипа команда из Перми проанализировала данные МВД о пропавших людях. Из интересного:

🕷Ежегодно в Росии пропадает 150 тысяч человек. Это, чтобы вы понимали, население подмосковской Коломны или целого района Кузьминок

🕷 Больше всего пропадает (вернее, чаще всего заявляют о пропаже) помимо Москвы и Петербурга в Новгородской, Свердловской областях, В Ставропольском и Краснодарском краях, Мордовии и Татарстане.

🕷Одно дело пропасть, другое, чтобы вас нашли. Тут дела обстоят намного интереснее. Если вы потерялись на Чукотке или в Южной Осетии, шансы, что вас найдут минимальны. А вот если вы потерялись в Чечне, то они почти равны нулю. Из 9741 человека, которые потерялись в 2017-2020 гг., нашли только 62.

Не теряйтесь в Чечне и по жизни. А чтобы сделать больше дата-историй, приходите и приезжайте на наш уральский хакатон по дата-журналистике https://hackathon.ddjural.ru/
OpenAI представили языковую модель на базе GPT-3 для суммаризации текстов книг [1]. Суммаризатор последовательно создает краткое изложение каждой главы, а потом на основе этих кратких изложений пишет на одну страницу или меньше изложение всей книги. Сейчас для английского языка, а в будущем возможно и для других.

Конечно, OpenAI - это уже не открытый код и не открытые данные, с 2019 года - это вполне себе коммерческая компания [2] предоставляющая платный доступ к языковым моделям и инструментам на из основе.

Ссылки:
[1] https://openai.com/blog/summarizing-books/
[2] https://en.wikipedia.org/wiki/GPT-3

#ai #books
Правительственная комиссия по цифровому развитию утвердила концепцию развития технологий машиночитаемого права, о чём Минэкономразвития опубликовали новость [1] забыв опубликовать сам текст концепции. Был бы финальный текст, было бы что прокомментировать, но текста нет и даже сказать про него пока нечего. В открытом доступе есть только документы рабочей группы в Сколково которая этой концепцией занималась [2], но там не только финального текста нет, а ещё и последний опубликованный документ "Редакция проекта Концепции с учётом замечаний Рабочей группы" недоступен для скачивания.

Вообще же пресс-служба Минэкономразвития работает из рук вон плохо, зачем публиковать новость без документа? Теперь к нему изначально будет негативный настрой, потому что не надо скрывать то что не предназначено к сокрытию. Концепция предполагается как документ открытый и публичный.

Ссылки:
[1] https://economy.gov.ru/material/news/v_pravitelstve_utverdili_koncepciyu_razvitiya_tehnologiy_mashinochitaemogo_prava.html
[2] https://sk.ru/legal/automation-of-law/

#laws #regulation #it
Многочисленные напоминания про разного рода события:
- 8 октября мы проводим мероприятие Региональные данные от нашей Ассоциации участников рынка данных обсуждать будем проблемы работы с данными на уровне субъектов федерации и муниципальных властей. Интересно будет, в первую очередь, людям работающих с данными в региональных органах власти, предпринимателям работающим с региональными данными и академическим исследователям.
- 11 октября я выступаю на SmartDataConf с докладом о Каталог и озеро данных на базе MongoDB, собираем технологический стек по кусочкам впервые за долгое время буду говорить о чисто технических вопросах, внутрянке DataCrafter'а и предпосылках/технологиях его создания.
- где-то 20-22 октября выступаю на Евразийском конгрессе по защите персональных данных. О нём подробнее в новостях Роскомсвободы

Это не полный список, от каких-то мероприятий приходится отказываться из-за плотной загрузки. А о чём-то наоборот хочется рассказать, но пока непонятно время, площадки и тд. До конца года точно будут ещё мероприятия ассоциации, Инфокультуры и не только.

А также очень скоро мы начнём подготовку ко Дню открытых данных который проходит по всему миру каждый март каждого года (на самом деле уже начали). Если есть идеи выступлений, тем, секций которые хотелось бы на дне открытых данных поднять то пишите на infoculture@infoculture.ru или мне личным сообщением.

#events #opendata
Новость из разряда "без комментариев " главу Group-IB Илью Сачкова арестовали за госизмену [1] на 2 месяца. Что-то много стало арестов в ИТ рынке в последние годы и не только на нём.

Ссылки:
[1] https://www.rbc.ru/society/29/09/2021/6154196c9a7947f1ba715233

#itmarket
К предыдущей новости про концепцию развития технологий машиночитаемого права [1], Минэкономразвития таки опубликовали документ концепции [2]

Хорошая новость - концепция оказалась сжатой в 25 страниц, это худо-бедно нормально/приемлимо для концепции.

Нейтральная новость - концепция в целом не вредная, где-то полезная потому что ничего аномального или охранительского в ней нет, но и приземления к российским реалиям тоже нет. Благопожелания, некоторые идеи - да.

И не очень хорошее - в концепции основной целью заявлено "систематизация представлений о методах и сферах перспективного развития технологий машиночитаемого права и подготовка предложений по стимулированию развития технологий машиночитаемого права."

Я категорически не понимаю как "систематизация представлений о методах" может быть концепцией. Диссертацией - да, концепцией - нет! В общем и целом надо поблагодарить коллег за проделанную работу, но практического применения у неё сейчас сейчас нет.

Отдельно есть о чём поговорить о том что в России документы которые называют концепциями имеют очень разную структуру, модель существования и будущее. Какие-то состоят исключительно из благопожеланий, другие имеют достаточно чёткую дорожную карту их внедрения. Поэтому я и говорю что этот документ больше похож способ описания мира через мировоззрение его авторов, а не план по изменению подходов к нормотворчеству.

Ссылки:
[1] https://t.me/begtin/3117
[2] https://economy.gov.ru/material/file/792d50ea6a6f3a9c75f95494c253ab99/31_15092021.pdf

#government #documents #law #it
Forwarded from Инфокультура
Сравнительное исследование темных паттернов в мобильных и веб-версиях

Темные паттерны — это элементы пользовательского интерфейса, которые могут повлиять на поведение человека вопреки его намерениям или интересам, а также собирать о нем данные.

Представляем вам исследование Северо-Восточного Университета США, в котором авторы рассматривают 50 типов темных паттернов в вебе (десктоп, мобильный браузер) и мобильных приложениях. Всего проанализировано 105 популярных сервисов. Наиболее часто используемые паттерны связаны с нарушением приватности. Исходные данные и код исследования: https://darkpatterns.ccs.neu.edu.

Полный текст статьи: https://cbw.sh/static/pdf/gunawan-2021-pacmhci.pdf.

Хотим напомнить, что в начале 2021 года, до вступления в силу закона о предустановке отечественного ПО (в т.ч. мобильных приложений), Инфокультура исследовала приватность государственных приложений: наличие сторонних трекеров и разрешений на сбор данных. Результаты исследования: https://privacygosmobapps.infoculture.ru.
Вышло исследование Digital Economy Report 2021 [1] от UNCTAD о разных аспектах международного рынка цифровой экономики и с особым фокусом на кроссграничную передачу данных. Обратите особое внимание на приложение с обзором странового регулирования передачи данных [2]. То что кажется нам крайне странным, а иногда и запредельным, в части ограничений обмена данными происходит очень много где. Где-то это делается также дуболомно как у нас в России, где-то более изящно, но в целом тренд на strict localization (строгую локализацию) данных под эгидой защиты национальных интересов.

Российское регулирование там описано как запретительное (Restrictive), к таким же относится регулирование в таких странах как: Китай, Нигерия, Руанда, Турция, Пакистан, Кения, Индонезия и Индия.

В направлении к запретительной модели регулирования или с некоторыми её моделями в ряде секторов относят страны: ОАЭ, Саудовская Аравия, Вьетнам.

В большинстве стран регулирование не запретительно, но директивно (prescriptive) и в ряде стран регулирование пока ещё облегченное (lighе-touch): США, Канада, Максика, Сингапур, Филлипины, Австралия

Лично мне такое развитие мира не нравится, да и много кому оно не нравится. Именно поэтому и полезно читать как это происходит в мире потому что опыт стран с запретительной моделью быстро перенимают другие страны.

Ссылки:
[1] https://unctad.org/webflyer/digital-economy-report-2021
[2] https://unctad.org/system/files/official-document/der2021_annex2_en.pdf

#personaldata #privacy #regulation #data
В рубрике интересных наборов данных, открытый датасет всех доменов в проекте Domains Project [1]. Его автор собрал домены из 1522 TLD из которых 245 относятся к доменам стран, остальные домены общего типа. Общее число собранных доменов 1.7 миллиарда (1,789,946,688 на 29 сентября 2021 г.)

Все доменные имена можно скачать по адресу dataset.domainsproject.org [2] и в репозитории на GitHub [3].
После распаковки это примерно 49 гигабайт данных.

Конечно, это не единственный крупный набор данных о сетевой инфраструктуре, но полезный для тех кто изучает инфраструктуру интернета.

Ссылки:
[1] https://domainsproject.org
[2] https://dataset.domainsproject.org
[3] https://github.com/tb0hdan/domains

#opendata #datasets #data #internet #domains
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Минфин России опубликовал Проект федерального бюджета на 2022 год и удалил Закон о бюджете на 2019 год

Интересно, а можно ли опубликовать проект бюджета на новый год, не удаляя данные о предыдущих? Проект ФЗ О федеральном бюджете на 2022 год появился на портале Электронного бюджета (размещение на портале ЕПБС является официальным способом внесения Проекта в Госдуму). Одновременно с этим с портала исчез Закон о бюджете на 2019 год.

Ранее с портала ЕПБС были удалены все Проекты о внесении изменений, а также Законы о внесении изменений в федеральный бюджет за все годы. Бюджеты внебюджетных фондов также сейчас недоступны.

На портале нет мониторинга доступности опубликованных данных, поэтому обо всех подобных случаях мы узнаем только из-за ежедневного использования этих данных. После таких новостей нельзя в очередной раз не задуматься о цифровой архивации. Публикация информации в текущем виде приводит к отсутствию возможности скачать бюджет целиком (в виде архива), о необходимости которой мы говорим с 2012 г.
ФСБ утвердило приказ от 28.09.2021 № 379 "Об утверждении Перечня сведений в области военной, военно-технической деятельности Российской Федерации, которые при их получении иностранным государством, его государственными органами, международной или иностранной организацией, иностранными гражданами или лицами без гражданства могут быть использованы против безопасности Российской Федерации [1]

Там много разных пунктов, некоторые абсолютно безальтернативные, например, сведения о государственных информационных системах или закупках, покрывают даже закупки и системы в части открытой части бюджета/бюджетов.

По сути возникает новая форма тайны, информации накладывающей ограничения. Масштаб всех юридических последствий понять всё ещё сложно, но он значителен и риски более чем значительны возникают у всех кто работает с открытыми данными и касается этих сведений.

Ссылки:
[1] http://publication.pravo.gov.ru/Document/View/0001202109300048?index=0&rangeSize=1

#government #data #secrets
У меня нехватает времени провести детальный анализ проекта федерального бюджета, а вот Ольга пишет об этом не только в этой публикации, но и других. Рекомендую, если интересуетесь госфинансами.
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
В Проекте федерального бюджета на 2022 год доступно в два раза меньше Приложений, чем в бюджете 2021 года. Если в 2021 году было доступно 25 Приложений из 39, то в 2022 опубликовано только 13 из 38. Не опубликована даже ведомственная структура расходов бюджета.

Приложения с 9 по 25 не размещены. Именно в этих приложениях в 2021 году можно было найти:

- Ведомственную структуру расходов бюджета;
- распределение бюджетных средств на публичные нормативные обязательства РФ;
- распределение бюджетных ассигнований по разделам, подразделам, ЦСР, группам видов расходов;
- распределение бюджетных средств по ЦСР;
- распределение бюджетных ассигнований на реализацию федеральных целевых программ;
- распределение бюджетных ассигнований на предоставление субсидий госкорпорациям;
- и многое другое.

Получается, на портале Электронного бюджета опубликован (а в ГосДуму внесен) Проект бюджета, не содержащий сведений о расходах бюджета!
Международный консорциум журналистов расследователей начали публикации материалов в рамках Pandora Papers, большой базы данных документов и переписки сотрудников 14 фирм регистрации оффшоров, полученные ICIJ из источника который они не раскрывают. Подробнее о том что это за база данных, как её обрабатывали и какие фирмы она охватывает есть на сайте ICIJ [1]

Можно слегка позавидовать журналистами работающими с этими 3 Терабайтами данных, как я понимаю для широкой публики именно данные будут доступны уже после завершения основных публикаций и ещё неизвестно в каком объёме.

Кроме непосредственно содержания этих материалов интересен их источник. Лично я не могу представить у кого могла бы быть переписка и документы одновременно 14 оффшорных регистраторов. Такого масштаба операции под силу только некоторым, не всем, спецслужбам.

Прошлые материалы ICIJ выкладывали в виде баз данных для графовой СУБД Neo4J [2] и других форматах.
У ICIJ, также, интересный подбор инструментов с открытым кодом [3] который они много лет развивают и который даёт много возможностей по анализу документов.

Я думаю что в ближайшее время мы ещё прочитаем немало об оффшорных компаниях российских и зарубежных официальных лиц, но самое интересное, конечно, когда данные будут опубликованы как данные и многие другие расследователи начнут сопоставлять их со своими базами данных.

Ссылки:
[1] https://www.icij.org/investigations/pandora-papers/about-pandora-papers-leak-dataset/
[2] https://offshoreleaks.icij.org/pages/database
[3] https://github.com/ICIJ

#investigations #datasets
Почему российский портал открытых данных не развивается уже несколько лет, данные не публикуются, а эти компетенции находятся в Минэкономразвития РФ в глубоком кризисе?

Специально для тех, кто следит за тематикой открытых данных: Минэкономразвития РФ заключило второе доп. соглашение к контракту на портал открытых данных. На этот раз изменили код вида расходов. Контракт заключен в ноябре прошлого года. Единственное, что доступно по контракту в ЕИС - доп. соглашение от конца августа на исключение из контракта хакатона, который поставщик должен был провести еще в декабре прошлого года. Можно ли вообще задним числом отменять работы, которые должны были быть проведены полгода назад? Вообще заказчик должен был отправить поставщика в РНП, а заодно уведомить следственные органы.

Моя коллега Ольга Пархимович (@ahminfin) писала об этом серию постов [1] [2] [3] [4], которые в кратком изложении звучат так, что подрядчик в лице Рунетсофта не выполнил множество работ по порталу откртыых данных, а Минэкономразвития не рискнули отправлять его в реестр недобросовестных поставщиков.

Никакого движения по контракту [5] кроме доп. соглашений не наблюдается - этапы не приняты, штрафы не выставлены, непонятно зачем вообще юристы Минэкономразвития существуют. За это время Рунетсофт успели внести в Реестр недобросовестных поставщиков, но не из-за контракта на портал открытых данных. А ведь если бы поставщика внесли в РНП сразу, когда первый этап контракта был не исполнен, то не было бы новых контрактов на несколько десятков миллионов рублей, которые в этом году Рунетсофт заключил с несколькими поставщиками, в том числе и с тем же Минэком.

Напомню, что только на техподдержку, консультационное и информационное сопровождение в контракте выделено несколько миллионов. При этом запрос на портал от декабря прошлого года одобряли 2 месяца вместо нескольких рабочих дней, а взяли в работу только в июле. То есть, на протяжении 7 месяцев консультационные/информационные работы не проводились.

Честно говоря, состояние федерального портала открытых данных и так удручающее, представители Минэкономразвития ещё и пытаются рассказывать об оценках открытости данных в регионах и ФОИВах, но при текущем состоянии собственных дел в их епархии, верить оценкам органа власти, не способного выстроить собственную работу с данными и провалившего работу с порталом открытых данных, невозможно.

А я напомню, что несколько раз писал о том, как внутри Минэкономразвития России работают с данными [6], о том как они создавали реестр СО НКО с кучей ошибок [6] и реестр системообразующих предприятий [7] ничуть не лучше.

Всё это редкостный позор, если честно. А бездействие Минэкономразвития по порталу открытых данных можно объяснить тем, что вся эта тема сошла с ключевой повестки правительства, превратившись в фрагментированные инициативы. Но потраченные деньги на портал открытых данных и итоговые результаты объяснить куда сложнее.


Ссылки:
[1] https://t.me/ahminfin/293
[2] https://t.me/ahminfin/294
[3] https://t.me/ahminfin/301
[4] https://t.me/ahminfin/407
[5] https://zakupki.gov.ru/epz/contract/contractCard/common-info.html?reestrNumber=1771034949420000075
[6] https://www.rbc.ru/opinions/society/17/06/2020/5ee8ce139a79479edce77585
[7] https://t.me/begtin/1880

#opendata #opengov
К вопросу о системах и работе подрядчиков Минэкономразвития РФ. Ещё один наглядный пример, на портале обсуждения проектов нормативных актов не работает авторизация через ЕСИА. Проверить это может каждый перейдя на страницу авторизации [1].

С одной стороны, конечно, есть ещё авторизация через регистрацию на сайте. С другой стороны, казалось бы авторизация чере ЕСИА - это совершенно естественное развитие системы подтверждения личности в государственных информационных системах. Вот и можно только гадать - это проблемы на стороне ЕСИА или это проблемы именно в regulation.gov.ru.

Я склоняюсь ко второму сценарию. В целом же на примере regulation.gov.ru я обращу внимание что качество информационных систем - это ещё и качество техподдержки. Если авторизация не работает, об этом можно написать, в рассылке, новостью на сайте, в техническом блоге если такой есть.

Ссылки:
[1] https://regulation.gov.ru/Account/LogOn?returnUrl=%2F

#government #itsystems
Forwarded from HERAKS
Глобальное падение у Фейсбука. Ну, то есть — вообще лежит. Даже страница статусов: https://status.fb.com/
Есть работа для души, есть работа для работы, а есть работа потому что это важно. В СовФеде прошло мероприятие по цифровизации нормотворчества и там же было моё выступление о текущем состоянии открытости нормотворчества в России с точки зрения открытых данных.

Вот лишь некоторые проблемы поднятые на встрече:
- значительный рост объёма НПА принимаемых на всех уровнях власти
- снижение понимаемости и качества принимаемых НПА
- переход некоторых НПА вроде закона о бюджете в машиночитаемомую форму и исчезновение из открытого доступа из-за отсутствия архивации
- отсутствие универсальных идентификаторов у принятых НПА
- неполнота и фрагментированность государственных справочных-правовых систем
- массовая закупкам органами власти подписки на частные справочно-правовые системы (до нескольких миллиардов рублей в год)
- отсутствие данных из федеральных реестров НПА в форматах открытых данных

Подробнее в моей презентации [1]

Ссылки:
[1] https://www.beautiful.ai/player/-MlEoxe6N8lgXrgYbbCB

#opendata #data #legislation
1 октября 2021 года состоялось заседание секции «Цифровизация государственного управления» Совета по развитию цифровой экономики при Совете Федерации РФ, в котором принял участие директор Ассоциации участников рынка данных Иван Бегтин. Тема заседания – «Использование современных технологий в нормотворчестве».

Отчет о мероприятии, а также презентация Ивана Бегтина «Открытость информационных систем нормотворчества» опубликованы на нашем сайте: https://aurd.ru/rule-making-technologies/