Ivan Begtin
8.09K subscribers
1.63K photos
3 videos
100 files
4.34K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Вышла свежая редакция The Data Journalism Handbook [1] руководства для дата-журналистов по работе с данными. Книга хорошая для начинающих и полезна для продолжающих, состоит из десятков статей о том как работает дата журналистика, стандартах, инструментах и многом другом.


Ссылки:
[1] http://lilianabounegru.org/2021/03/23/data-journalism-handbook/

#data #datajournalism #opendata
В Испании общественная организация Civio провела анализ закупок страны при чрезвычайной ситуации COVID-19 и выявило 16 589 контрактов на 6.4 миллиарда евро [1] (текст на испанском языке) с самыми разными расходами, например, на кавалькаду верблюдов и на закупку тазерв для медперсонала.

Там есть немало и другого интересного.
Например, губернатор Мурсии (Gobierno de Murcia) передал корпорации CBM управление их общественным телевидением аргументируя тем что:
1) из-за пандемии административные коммуникации ухудшились.
2) телевидение необходимо для своевременного информирования о катастрофах и без утверждения этого контракта есть "значительная опасность жизни людей".

Там же ещё немало любопытного про то как государственные структуры контрактуются при чрезвычайных ситуациях.

Ссылки:
[1] https://civio.es/quien-cobra-la-obra/2021/03/23/cuatro-empresas-se-llevaron-uno-de-cada-diez-euros-adjudicados-de-emergencia-en-2020/

#spanish #spain #contracts #opendata
В Евросоюзе под одним доменом data.europa.eu [1] объединили сразу 5 инициатив по работе с данными в Евросоюзе:
- портал открытых данных институтов и организаций Европейского союза [2]
- европейский портал данных [3] как агрегатор данных стран евросоюза
- базу постоянных ссылок/коротких ссылок на ресурсы [4]
- европейский веб-архив [5]
- центр поддержки обмена данными [6]

Кстати на портале открытых данных Евросоюза собрано уже более 1 миллиона 136 тысяч наборов данных из 81 каталога 36 стран [7]. При этом около половины этих данных - это геоданные, то что в России в почти совсем не публикуется.

Ссылки:
[1] https://data.europa.eu/
[2] https://data.europa.eu/euodp/
[3] https://data.europa.eu/europeandataportal/
[4] https://data.europa.eu/URI.html
[5] https://data.europa.eu/webarchive/
[6] https://eudatasharing.eu/
[7] https://www.europeandataportal.eu/en

#opendata #data #eu
В рубрике интересные наборы данных - данные о международной деятельности в России. Эти данные публикуются по стандарту IATI в реестре IATI посвящённому международной помощи. По России там публикуют сведения 13 организаций [1], все данные в CSV и XML и их также можно увидеть на их портале [2]. Там не стоит искать сведения об организациях "иностранных агентах", Еврокомиссия и международные и национальные агентства развития давно уже не публикуют информацию о конкретных организациях в России получателях международных средств, они теперь отмечаются как "NON-GOVERNMENTAL ORGANISATIONS (NGOs) AND CIVIL SOCIETY", например, [3].

Однако там немало информации и о государственных проектах которые идут на территории России с поддержкой международных организаций. Например, STASYS II [4], реформа статистической системы в РФ при поддержке Всемирного банка заканчивается в этом году в декабре или Russian Cultural Heritage [5] другой проект Всемирного банка о поддержке культурного наследия до конца 2022 года. Там же многое другое, часто с ретроспективой в 15-25 лет, например кредиты International Finance Corporation (входит в группу Всемирного банка) начинают с 1996 года, их можно найти на сайте первоисточнике [6] и в реестре IATI в машиночитаемом формате [7]

Здесь надо оговориться что наборы данных IATI - это данные добровольно раскрываемые агентствами развития. Некоторые делают это очень хорошо, некоторые так себе и дают минимум информации, но есть много агентств развития и агентств культурного влияния которые ничего подобного не делают. Когда-то более полная информация была в проекте AidData [8]. Они до 2014 года довольно подобно собирали из всех источников, включая годовые отчеты, сайты и иной информации, но, увы, более этих данных нет.

Поэтому, например, в реестре IATI нет данных по проектам турецкого агентства развития TIKA [9], хотя Турция и на 6-м месте в мире по расходам на международную помощь (по данным ОЭСР) и потратила 8.6 милиардов долларов США только в 2019 году, правда 7.8 из них пошли на поддержку проектов связанных с Сирией. Не найти там и расходов, польского агентства Polish Aid [10] и ещё десятков других, чаще национальных инициатив связанных с "политикой мягкой силы", зато в реестр IATI очень много проектов и организаций публикующих связанных с помощью развивающимся странам, чаще африканским и восточноазиатским.

И, конечно, сведений о российской международной помощи в реестре IATI нет. Сведения о ней есть в других источниках, например, в обзорах ОЭСР [11] где также есть большой банк данных о международной помощи в виде статистических таблиц [12]

Ссылки:
[1] https://www.iatiregistry.org/dataset?q=&publisher_source_type=&secondary_publisher=&organization=&publisher_country=&publisher_organization_type=&country=Russian+Federation&filetype=
[2] http://d-portal.org/ctrack.html?country_code=RU#view=main
[3] http://d-portal.org/ctrack.html?country_code=RU#view=act&aid=XI-IATI-EC_NEAR-2020%2F416-194
[4] http://d-portal.org/ctrack.html?country_code=RU#view=act&aid=44000-P092429
[5] http://d-portal.org/ctrack.html?country_code=RU#view=act&aid=44000-P120219
[6] https://disclosures.ifc.org/enterprise-search-results-home
[7] https://www.iatiregistry.org/dataset/ifcwbg-ru
[8] http://dashboard.aiddata.org
[9] http://www.tika.gov.tr
[10] https://www.gov.pl/web/polishaid
[11] https://www.oecd-ilibrary.org/sites/dcr-2018-49-en/index.html?itemId=/content/component/dcr-2018-49-en
[12] https://www.oecd.org/dac/financing-sustainable-development/development-finance-data/

#opendata #data #international
Что нравится и о чём надо больше контента на канале?
anonymous poll

про данные и всё что с ними связано – 44
👍👍👍👍👍👍👍 31%

про приватность, слежку, защиту данных – 33
👍👍👍👍👍 23%

аналитика того что делается в госИТ в России – 19
👍👍👍 13%

Даёшь исследования и расследования! – 19
👍👍👍 13%

аналитика о том как всё работает за пределами России – 15
👍👍 10%

быстрые и регулярные новости по govtech, civictech и открытым данным – 8
👍 6%

Я просто хочу посмотреть результаты опроса – 6
👍 4%

👥 144 people voted so far.
Анонсы выступлений

Теплица социальных технологий 27-28 марта проводит мини-конференцию Админка [1], я там поучаствую с небольшим выступлением про исходный код в общественных проектах. О том что, как, почему, и зачем это нужно. Моё выступление будет 28 марта в 11:30

Комитет МТПП и МГУ проводят 31 марта вебинар "Этика использования больших данных" [2] я приму там участие с докладом в 13:40 по теме "Этические аспекты использования открытых данных". Очень полезное мероприятие и спасибо коллегам за его организацию.

В начале года я смотрел на свою папку презентаций за 2020 год и расстраивался как мало я их делал (и наоборот радовался что больше времени на бумажную/мыслительную работу), но публичные выступления это тоже часть моей работы поэтому, в течение года я, похоже, ещё с десяток раз буду выступать на мероприятиях. Самое тяжелое что меня ждёт - это переделать все презентации в BeautifulAI. Я с прошлого года начал новые презентации делать с помощью этого сервиса и всё прекрасно, кроме отсутствия импорта слайдов. А есть около 400 слайдов прошлых моих презентаций которые надо переносить руками.

Ссылки:
[1] https://te-st.ru/events/adminka/
[2] https://tekhnopark-kalibr-org.timepad.ru/event/1589594/

#events #data
...Реальность такова, что если бы Рособрнадзор и Минпросвещения двигались в сторону открытости, то и региональные власти такие сведения не скрывали бы. В ситуации, когда у нас образование закрыто чуть ли не больше, чем силовые органы, граждане по умолчанию относятся к политике в этой области без всякого доверия...

Вышла моя колонка "Государство скрывает данные по ЕГЭ " в Ведомостях [1]

P.S. На самом деле моя колонка была примерно в 3 раза больше и не влезла в формат издания. Я далее раскрою и другие темы доступности данных о качестве жизни.

P.P.S. В Ведомости я колонку писал, в Коммерсант писал, в Forbes писал, в РБК писал. Куда бы мне ещё колонку написать?

Ссылки:
[1] https://www.vedomosti.ru/opinion/articles/2021/03/25/863248-gosudarstvo-ege

#articles #opendata
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
109 трлн руб. составляет сумма планов закупок в 2021 году по 223-ФЗ. Из них планы на 91 трлн руб. были размещены в Санкт-Петербурге.

Для сравнения:
- за предыдущие годы объем планов закупок по России не превышал 20-25 трлн руб. в год,
- в 2020 году объем планов закупок СПб составил 1,4 трлн руб.,
- ВВП России в 2020 году составил 107 трлн руб.

В связи с этим вопрос:
1. Казначейство России, у вас все в порядке с подсчетами?
2. Если данные корректные, давайте найдем рекордный план закупок Петербурга
Свежая статья на хабре о том что исходные коды приложения ФНС более года были в открытом доступе [1], при этом хотелось бы чтобы это было решение ФНС и код бы официально публиковался на Github.com или Gitlab.com или появление их российского аналога, но реальность такова что это ошибка разработчиков этого приложения и, как выясняется, делали его не в ГНИВЦ при ФНС России, а в некой организации с доменом studiotg.ru, похоже, являющейся частью или аффилированой с Группой комплексных решений ГКР [2], в первую очередь потому что домен studiotg.ru ведет на тот же сайт что и support.pmp.gkr.su и сам засвеченный репозиторий кода относится к подсети ГКР 95.79.121.*

Иначе говоря, ситуация не доброй воли ФНС, а в отсутствии контроля за безопасностью среды разработки в компании подрядчике.

Казалось бы вопрос только в этом, но, ситуация сложнее и возникает немало вопросов:
1. У ГКР нет контрактов с ФНС и дочерними структурами ФНС [3], вопрос, как оказалось что разработчики использующие их инфраструктуру, выполняют работу для ФНС ?
2. Мобильное приложение сервиса ФНС разьве не является частью государственной информационной системы? Если там действительно были пароли для доступа к базам данных, то не является ли это предметом расследования регуляторов?
3. Отдельный вопрос о том почему репозитории госприложений были и остаются за пределами инфраструктуры органа власти/его подведов. Это, скажем так, не вполне нормально.

Я, при этом, понимаю все риски и издержки возникающие с задачами быстрого запуска каких то госсервисов, но, если это делать без оглядки на безопасность, то случается то что случается.

А было бы прекрасно если бы само ФНС начало публиковать исходные коды, но каким-нибудь менее скандальным способом.

Ссылки:
[1] https://habr.com/ru/post/547272/
[2] https://gkr.su
[3] https://clearspending.ru/supplier/inn=5262103820&kpp=526201001

#opensource #fns #taxes #mobileapps
В рубрике полезных наборов данных, набор данных для анализа простоты официального государственного языка созданный по результатам сбора новостей с официального сайта Правительства РФ [1]. В наборе 9823 текста новости, 558582 предложений за 9 лет (начиная с 2012 года), а по каждому тексту и по каждому предложению набор метрик измерения сложности текста. Для текстов есть расчёт показателей простоты текста, перечни сложных слов и лемм, частотности слов по числу слогов и так далее. Набор можно использовать для формирования словарей официальной лексики, анализа изменения официального языка с течением времени, измерения средней сложности официального языка и многого другого.

Например, 90.8% всех новостей на сайте правительства попадают в диапазон сложности текста от 10 до 24. Где цифра означает число необходимых лет обучения для понимания текста. 10 - это десять классов школы, а 24 - это аспирантура, второе высшее, иное узкоспециализированное знание.

А в целом сложность менее 18 (полное высшее образование) есть у 65% всех опубликованных текстов новостей.

И есть небольшое число текстов состоящих исключительно из длинных перечислений и сложность их текстов резко выше чем всех остальных.

В распакованном виде это 345 мегабайт, относительно небольшой объём. Для тех кто хочет поработать вначале с метриками, есть укороченные версии наборов данных, без текстов, но с метриками по каждому тексту и ссылке саму публикацию на официальном сайте Пр-ва.

Все метрики подсчитаны доработанной версией алгоритма с проекта Простой русский язык [2] и с помощью лемматизатора spacy добавлены уточнено определение предложений и также собираются не только комплексные слова, но и их леммы.

Ссылки:
[1] https://ngodata.ru/dataset/plainlang-gov-news
[2] http://plainrussian.ru

#opendata #plainlanguage #datasets
У ОЭСР вышел документ "Good Practice Principles for Data Ethics in the Public Sector" [1] о лучших практиках этического управления данными в госсекторе.

Там много разного полезного правильного разумного что стоит почитать нашим работникам госслужбы, я же сделаю акцент на рекомендации "Publish open data and open source", а там 4 рекомендации.
Привожу их на русском:
- Развивайте честные экосистемы данных через политики открытости государственных данных;
- Публикуйте дезагрегированные и гранулярные данные в соответствии с применимыми требованиями приватности, безопасности и владения
- Связываетй инициативы открытых данных в госсекторе с другими инициативами работы с данными;
- Открывайте исходный код для общественного анализа и аудита, особенно когда идёт работа с персональными и чувствительными данными

Впрочем, и по остальным блокам там достаточно чётко изложено и документ полезный.

Ссылки:
[1] https://www.oecd.org/gov/digital-government/good-practice-principles-for-data-ethics-in-the-public-sector.pdf


#opendata #privacy #oecd
Сегодня в 11:30 выступаю на конференции Adminka организуемой Теплицой социальных технологий[1], буду говорить об открытости исходного кода в мире и в России, в контексте того чем я занимаюсь, проектами про открытые данные и данные вообще.

Ссылки:
[1] https://te-st.ru/events/adminka/

#opendata #opensource #events
Моя презентация про открытый код в других странах [1] с сегодняшней конференции Админка.
В том числе про измерение открытости кода государств которое я делаю много лет, последний раз замерял в марте 2020 года [2]

Ссылки:
[1] https://www.beautiful.ai/player/-MWrutiZyI_MI-DNzzVF
[2] https://data.world/ibegtin/open-source-government-project/

#opensource #opendata #opengov
Вот уже давно я на разных площадках говорю о том что в России до сих пор нет Национальной стратегии данных. Это действительно так, НСУД такой стратегией не стал и теперь является лишь одной и государственных информационных систем, а других регуляторных инициатив даже не возникало.

Тем временем в мире всё больше инициатив на уровне отдельных органов власти по формированию их стратегий работы с данными. Обратите внимание, _не цифровых стратегий_ и _не стратегий цифровой трансформации_, а стратегий работы с данными (data strategy).

Вот несколько примеров:
- Департамент обороны США. DoD data strategy [1] короткий документ в 16 страниц опубликован в октябре 2020 года. Включает основные принципы работы с данными
- Департамент образования США. U.S. Department of Education Data Strategy [2]. 23 страницы основных принципов и целей.
- Департамент труда и малого бизнеса Австралии. Department of Jobs and Small Business Data Strategy [3] опубликовали стратегию ещё в апреле 2019 года
- Департамент здравоохранения Канады. Health Canada Data Strategy [4], относительно подробный документ учитывающий ещё и общий контекст работы с данными в Канаде.

Таких документов ещё несколько десятков в мире, я привожу в пример лишь англоязычные для простоты чтения. Можно назвать это одним из трендов последних нескольких лет в формировании национальных и ведомственных стратегий.

При этом:
1. Все эти стратегии - это очень короткие документы, максимум до 50 страниц.
2. Фокус в стратегиях на целях, принципах и инструментах.
3. Всегда с акцентом на отраслевую/ведомственную специфику.
4. Включают блок посвящённый открытости и прозрачности и реализации плана по открытию данных, который теперь строится от стратегии работы с данными.

В России, напомню, есть реестр документов стратегического планирования, но среди этих документов нет ничего про данные [4] (и осторожно, сертификат у ГАС Управление, gasu.gov.ru, протух)

Ссылки:
[1] https://media.defense.gov/2020/Oct/08/2002514180/-1/-1/0/DOD-DATA-STRATEGY.PDF
[2] https://www.ed.gov/sites/default/files/cdo/ed-data-strategy.pdf
[3] https://www.dese.gov.au/download/6959/2019-2021-data-strategy/18003/document/pdf
[4] https://gasu.gov.ru/stratdocuments

#strategies #government #data
Алексей Лукацкий проверил регуляторные документы по инфобезу через наш сервис Простой язык [1] и отметил наиболее сложную нормативку. А я со своей стороны расскажу что когда-то простой русский язык я сделал после того как потратил несколько месяцев на то чтобы адаптировать формулы английского языка под русский. Это было непросто и делал я это, Вы не поверите, брут-форсным перебором нескольких миллионов комбинаций коэффициентов.

Потому что самое главное в этих формулах - это привязка значений к годам обучения. Если формула выдаёт 10 - это означает что 10 лет надо учиться чтобы понять этот текст (примерно 9-11 классы школы), а сложность в 18 означает что учиться надо 18 лет (а то есть 11 классов школы + 5 лет ВУЗа + ещё чему-то, например, в аспирантуре) ну и так далее.

Дело в том что формулы читабельности основаны на нескольких параметрах сложности текста таких как:
- среднее число слов на предложение
- среднее число слогов в словах
- среднее число слогов на предложение
- число сложных слов на предложение
и так далее.

Есть корреляция между сложностью текста и этими и другими параметрами, но как эту корреляцию переложить в формулу? И вот для этого я собирал кучу текстов для внеклассного чтения где были рекомендации для возраста и адаптировал формулы под поиск наименьшего среднего отклонения и наименьшего максимального отклонения. Иначе говоря, если если коэффициенты у формулы должны давать результат при котором максимально допустимое отклонение в оценки сложности текста не более 2, то есть если текст для внеклассного чтения для 9-го класса то алгоритм не может ошибаться в его отношении в пределах 9-11, но не более. А среднее отклонение по всей обучающей выборке должно быть как можно ниже.

Дальше чтобы не вдаваться в сложную математику я просто перебрал все коэффициенты с шагом в 0.01 для всех формул и это заняло около месяца на нескольких домашних компьютерах.
Самой точной оказывалась формула SMOG (Simple Measure of Gobbledygook) с адаптированными коэффициентами поэтому она и является базовой в оценке plainrussian.ru.

Всё это было более 7 лет назад, сам код можно увидеть по ссылке на Github [2]. Сейчас его надо переработать чтобы лучше учитывать определение предложений, лучше понимать бюрократические тексты (нужна отдельная шкала) и ещё многое другое до чего постепенно "доходят руки".

Ссылки:
[1] https://plainrussian.ru
[2] https://github.com/infoculture/plainrussian

#plainlanguage #plainrussian
Математическая оценка качества и читабельности нормативно-правовых актов регуляторов - https://t.co/KI0QJtAQAJ
— Alexey Lukatsky (@alukatsky) March 29, 2021
Я, кстати, регулярно рассказываю что веду пока что наиболее полный реестр госдоменов, включая поддомены в России, он в специальном открытом репозитории доступен в виде дампов [1], а сам домен в базе в Airtable и там собираются и связываются:
- домены - всего 7602
- корневые домены - всего 191
- организации - всего 110
- информационные системы - всего 47
- субъекты федерации - все что имеются
- подсети (ASN) - 161 (включая все подсети хостингов, господрядчиков и тд)

При этом пока совершенно не охвачены власти субъектов федерации, бюджетные учреждения всех уровней да и на федеральном уровне далеко не всё, просто не с чем сравнивать, нет эталонной государственной базы.

Все размеченные и обогащённые доп. данными, например, по подсетям дополнительные сведения по стране и типу владельца, а по каждому домену тип домена, статус, уровень власти, поддержка http, https и ещё многое другое.

Так что на выходе это большая такая база которую я начинал вести только в целях мониторинга доменов для архивации, а сейчас она много для чего ещё годится.

Её можно оставить как есть, можно добавить к ней API, а можно сделать над этой базой веб интерфейс и дать возможность просматривать внесённые туда объекты. Сделать это можно двумя условными способами.
Способ 1: Сделать веб надстройку с поиском и просмотром над базой. Продолжать редактировать в Airtable
Способ 2: Сделать вики и в ней роботом создать веб страницы для каждого домена, каждой подсети и других объектов. А дальше переходить в Вики для редактирования и вести базу как базу знаний, в том числе другие могут пополнять эту базу знаний.

Ссылки:
[1] https://github.com/infoculture/govdomains/

#opendata #opengov #it #domains
Нужен ли веб интерфейс над базой государственных доменов?
anonymous poll

Да, нужен в виде поиска и просмотра сведений по объекту – 49
👍👍👍👍👍👍👍 60%

Нет, не нужен, лучше бы было API – 11
👍👍 13%

Да, нужен в виде вики которую можно было бы редактировать/пополнять – 10
👍 12%

Я просто хочу посмотреть результаты опроса – 7
👍 9%

Нет, не нужен, самое главное чтобы база была максимально полная – 5
👍 6%

👥 82 people voted so far.
Пока все обсуждают случайное открытие кода у подрядчика ФНС, я не могу не напомнить что в России есть ещё один ФОИВ который, уже видимо добровольно, публикует исходный код в Gitlab.

По адресу gitlab.rpn.gov.ru/explore [1] общедоступные репозитории Росприроднадзора, почему про про эскорт службу в Мумбаи. Вернее понятно почему, потому что админы оставили возможность регистрации пользователей ну вот спамеры и проснулись.

Даже не знаю что сказать. Молодцы ребята!

Ссылки:
[1] https://gitlab.rpn.gov.ru/explore

#oss #gitlab #rpn
То о чём говорили свершилось (с) итак, встречайте, неудаляемое отечественное преустановленное ПО на телефонах Самсунг