Ivan Begtin
7.98K subscribers
1.83K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Вышел большой доклад ФАО (Продовольственная и сельскохозяйственная организация ООН) о продовольственной безопасности на фоне COVID-19 "The impact of disasters and crises on agriculture and food security: 2021" [1]

В докладе много примеров того что происходит по миру в последние десятилетие и что нас ждёт к 2030 году. Пожалуй, важнейший вывод - это рост числа происшествий и критических ситуаций затрагивающих сельское хозяйство.

При составлении доклада авторы использовали базу FAO и базу EM-DAT [2] The International Disaster Database. Для некоммерческого использовалия эта база доступна и сейчас, например, для исследователей работающих с данными о чрезвычайных происшествиях.

Ссылки:
[1] http://www.fao.org/documents/card/ru/c/cb3673en/
[2] https://emdat.be/

#opendata #FAO #reports #data #disasters
А ведь когда-то федеральное казначейство и Минфин публиковали особенно много данных. А витрины данных хорошая была задумка, похожая на плакат Death&Taxes [1], но Timeplots забросили этот жанр в 2016 году и переключились на интерактивную инфографику. А у Росказны есть не то чтобы такая же, но упрощённая не такая уж плохая инфографика, последний раз опубликованная 2 года назад за 2018 год [2].

Ссылки:
[1] https://www.timeplots.com/collections/catalog/products/death-and-taxes-2016
[2] http://datamarts.roskazna.ru/infografika/ispolnenie-konsolidirovannogo-byudjeta-v-2018-godu/

#opendata
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
На сайте Федерального казначейства опубликован "Проект Итогового доклада о результатах деятельности Федерального казначейства за 2020 год". Про открытые данные там нет ни слова, но зато есть информация об актуализации витрин данных данными за 2019 год (даже скриншот приложен). Правда, на сайте этих данных нет...

https://roskazna.gov.ru/o-kaznachejstve/plany-i-otchety/o-rezultatakh-raboty-fk/
На CNews какая-то странная статья про ОС Fuchsia [1] разработку которой команда в Google ведёт довольно таки давно. Странная потому что явно часть материалов пересекается, например, с заметкой из 9to5google [2], но некоторые утверждения вроде Fuchsia, в отличие от Android, базируется на проприетарном ядре, написанном с нуля и получившем название Zircon совершенно необъяснимы. Также необъяснимо и полное отсутствие ссылок на первоисточник, исходный код Fuchsia доступный по адресу fuchsia.dev [3] где и можно найти это "проприетарное ядро" [4], с кодом под лицензией MIT.

А про саму операционную систему, действительно, много лет ходят разговоры и даже интересно надо ли учитывать крен в новые языки программирования которые станут популярны с выходом Fuchsia в промышленное использование или нет.

Ссылки:
[1] https://www.cnews.ru/news/top/2021-03-22_epoha_android_podhodit_k_kontsu
[2] https://9to5google.com/2021/03/19/fuchsia-friday-first-release-f1/
[3] https://fuchsia.dev
[4] https://cs.opensource.google/fuchsia/fuchsia/+/master:zircon/

#opensource #google
Новый отечественный госсервис, похоже что, информационная система, аналог Национальный Мультисканер virustest.gov.ru в виде системы проверки на вирусы [1] и это такой импортозамещённый VirusTotal [2], но, если VirusTotal поддерживает 60 антивирусов, то здесь их только 3, все отечественные и нет таких важнейших возможностей как проверка через API и ещё многое другое. VirusTotal выдает кратно больше информации о проверяемом файле. Если единственной особой характеристикой Национального Мультисканера является импортозамещённость то всё довольно печально. Вопрос как всегда один и тот же - зачем на это вообще потратили бюджетные средства?

Ссылки:
[1] https://virustest.gov.ru
[2] https://www.virustotal.com

#security #budget
Поскольку я тут регулярно ругаюсь в адрес многих государственных проектов, инициатив и тд., то иногда, для разнообразия, буду и хвалить. Когда есть за что и сразу по несколько.

Что хорошего делалось в наших ФОИВах за эти годы?
- Портал открытых данных Минкультуры [1] - реально лучший из порталов данных ФОИВов. Хороший движок, большая работа и реально много полезных данных и системный подход к его наполнению.
- Культура.РФ [2] когда то второй государственный портал по посещаемости, а теперь наверняка уже и наиболее посещаемый естественным трафиком. Третий [3] в топе рамблера в категории "Культура и искусство" и это не удивительно при ежесуточной посещаемости в 300-400 тысяч человек. Кстати я лично абсолютно убеждёт что если создавать туристический портал для иностранцев или просто проект о России на многих языках, то именно на базе Культура.РФ.
- Национальная электронная библиотека [4], возможно неидеальный, тяжело рождавшийся, но безусловно теперь уже важный электронный архив наследия и онлайн библиотека. Я также считаю что это из тех проектов которые должны и могут существовать на многих языках, не только на русском.
- Реестр государственных информационных систем Санкт-Петербурга [5] наиболее проработанный из всех известных мне реестров подобного рода. Ему нехватает открытых данных, но в остальном он чрезвычайно детален и проработан.
- API Роскачества [6] редкий случай когда доступно API к деятельности организации, обзорам продуктов. Причём API довольно хорошо структурировано и удивительно что его так редко используют.
- много проектов по открытости бюджетов в регионах и муниципалитетах. Даже в очень маленьких муниципалитетах [7] и, хотя, к примеру, @ahminfin часто их ругает, но в целом направление движения было очень верное. Сравнивая с тем что происходит в мире я могу сказать что в России всё очень даже неплохо было и частично сейчас тоже. Хочется надеяться что, к примеру, уход Татьяны Нестеренко из Минфина этот процесс не остановит.
- сайт "Поступай правильно" [8] для абитуриентов по выбору ВУЗа. Сделан неидеально, но весьма неплохо. Для полной идеальности нехватает только чтобы они задокументировали их недокументированное API и публиковали бы открытые данные что дало бы возможность работать студентам и командам в рамках конкурсов и хакатонов с этими данными.

Саморекламировать портал Госрасходы spending.gov.ru, наверное, будет лишним, просто не стесняйтесь писать команде проекта на официальне контакты на сайте, команда активно внедряет новые возможности по запросу пользователей.

И я повторюсь сказав что в российском госИТ есть немало, действительно немало, хорошо сделанных проектов. Если Вы такие знаете, не стесняйтесь, пишите в чат @begtinchat или мне напрямую в телеграм. В следующих постах уделю позитивной повестке больше внимания.

Ссылки:
[1] https://opendata.mkrf.ru
[2] https://www.culture.ru
[3] https://top100.rambler.ru/navi?categoryId=1085&page=1&subcategoryId&resourceId=4480430#4480430
[4] https://rusneb.ru/
[5] https://reestr-gis.gov.spb.ru
[6] https://rskrf.ru/about/dev/
[7] http://budget.admuyarsky.ru/
[8] http://abitur.cbias.ru

#government #it #positive
Вышла свежая редакция The Data Journalism Handbook [1] руководства для дата-журналистов по работе с данными. Книга хорошая для начинающих и полезна для продолжающих, состоит из десятков статей о том как работает дата журналистика, стандартах, инструментах и многом другом.


Ссылки:
[1] http://lilianabounegru.org/2021/03/23/data-journalism-handbook/

#data #datajournalism #opendata
В Испании общественная организация Civio провела анализ закупок страны при чрезвычайной ситуации COVID-19 и выявило 16 589 контрактов на 6.4 миллиарда евро [1] (текст на испанском языке) с самыми разными расходами, например, на кавалькаду верблюдов и на закупку тазерв для медперсонала.

Там есть немало и другого интересного.
Например, губернатор Мурсии (Gobierno de Murcia) передал корпорации CBM управление их общественным телевидением аргументируя тем что:
1) из-за пандемии административные коммуникации ухудшились.
2) телевидение необходимо для своевременного информирования о катастрофах и без утверждения этого контракта есть "значительная опасность жизни людей".

Там же ещё немало любопытного про то как государственные структуры контрактуются при чрезвычайных ситуациях.

Ссылки:
[1] https://civio.es/quien-cobra-la-obra/2021/03/23/cuatro-empresas-se-llevaron-uno-de-cada-diez-euros-adjudicados-de-emergencia-en-2020/

#spanish #spain #contracts #opendata
В Евросоюзе под одним доменом data.europa.eu [1] объединили сразу 5 инициатив по работе с данными в Евросоюзе:
- портал открытых данных институтов и организаций Европейского союза [2]
- европейский портал данных [3] как агрегатор данных стран евросоюза
- базу постоянных ссылок/коротких ссылок на ресурсы [4]
- европейский веб-архив [5]
- центр поддержки обмена данными [6]

Кстати на портале открытых данных Евросоюза собрано уже более 1 миллиона 136 тысяч наборов данных из 81 каталога 36 стран [7]. При этом около половины этих данных - это геоданные, то что в России в почти совсем не публикуется.

Ссылки:
[1] https://data.europa.eu/
[2] https://data.europa.eu/euodp/
[3] https://data.europa.eu/europeandataportal/
[4] https://data.europa.eu/URI.html
[5] https://data.europa.eu/webarchive/
[6] https://eudatasharing.eu/
[7] https://www.europeandataportal.eu/en

#opendata #data #eu
В рубрике интересные наборы данных - данные о международной деятельности в России. Эти данные публикуются по стандарту IATI в реестре IATI посвящённому международной помощи. По России там публикуют сведения 13 организаций [1], все данные в CSV и XML и их также можно увидеть на их портале [2]. Там не стоит искать сведения об организациях "иностранных агентах", Еврокомиссия и международные и национальные агентства развития давно уже не публикуют информацию о конкретных организациях в России получателях международных средств, они теперь отмечаются как "NON-GOVERNMENTAL ORGANISATIONS (NGOs) AND CIVIL SOCIETY", например, [3].

Однако там немало информации и о государственных проектах которые идут на территории России с поддержкой международных организаций. Например, STASYS II [4], реформа статистической системы в РФ при поддержке Всемирного банка заканчивается в этом году в декабре или Russian Cultural Heritage [5] другой проект Всемирного банка о поддержке культурного наследия до конца 2022 года. Там же многое другое, часто с ретроспективой в 15-25 лет, например кредиты International Finance Corporation (входит в группу Всемирного банка) начинают с 1996 года, их можно найти на сайте первоисточнике [6] и в реестре IATI в машиночитаемом формате [7]

Здесь надо оговориться что наборы данных IATI - это данные добровольно раскрываемые агентствами развития. Некоторые делают это очень хорошо, некоторые так себе и дают минимум информации, но есть много агентств развития и агентств культурного влияния которые ничего подобного не делают. Когда-то более полная информация была в проекте AidData [8]. Они до 2014 года довольно подобно собирали из всех источников, включая годовые отчеты, сайты и иной информации, но, увы, более этих данных нет.

Поэтому, например, в реестре IATI нет данных по проектам турецкого агентства развития TIKA [9], хотя Турция и на 6-м месте в мире по расходам на международную помощь (по данным ОЭСР) и потратила 8.6 милиардов долларов США только в 2019 году, правда 7.8 из них пошли на поддержку проектов связанных с Сирией. Не найти там и расходов, польского агентства Polish Aid [10] и ещё десятков других, чаще национальных инициатив связанных с "политикой мягкой силы", зато в реестр IATI очень много проектов и организаций публикующих связанных с помощью развивающимся странам, чаще африканским и восточноазиатским.

И, конечно, сведений о российской международной помощи в реестре IATI нет. Сведения о ней есть в других источниках, например, в обзорах ОЭСР [11] где также есть большой банк данных о международной помощи в виде статистических таблиц [12]

Ссылки:
[1] https://www.iatiregistry.org/dataset?q=&publisher_source_type=&secondary_publisher=&organization=&publisher_country=&publisher_organization_type=&country=Russian+Federation&filetype=
[2] http://d-portal.org/ctrack.html?country_code=RU#view=main
[3] http://d-portal.org/ctrack.html?country_code=RU#view=act&aid=XI-IATI-EC_NEAR-2020%2F416-194
[4] http://d-portal.org/ctrack.html?country_code=RU#view=act&aid=44000-P092429
[5] http://d-portal.org/ctrack.html?country_code=RU#view=act&aid=44000-P120219
[6] https://disclosures.ifc.org/enterprise-search-results-home
[7] https://www.iatiregistry.org/dataset/ifcwbg-ru
[8] http://dashboard.aiddata.org
[9] http://www.tika.gov.tr
[10] https://www.gov.pl/web/polishaid
[11] https://www.oecd-ilibrary.org/sites/dcr-2018-49-en/index.html?itemId=/content/component/dcr-2018-49-en
[12] https://www.oecd.org/dac/financing-sustainable-development/development-finance-data/

#opendata #data #international
Что нравится и о чём надо больше контента на канале?
anonymous poll

про данные и всё что с ними связано – 44
👍👍👍👍👍👍👍 31%

про приватность, слежку, защиту данных – 33
👍👍👍👍👍 23%

аналитика того что делается в госИТ в России – 19
👍👍👍 13%

Даёшь исследования и расследования! – 19
👍👍👍 13%

аналитика о том как всё работает за пределами России – 15
👍👍 10%

быстрые и регулярные новости по govtech, civictech и открытым данным – 8
👍 6%

Я просто хочу посмотреть результаты опроса – 6
👍 4%

👥 144 people voted so far.
Анонсы выступлений

Теплица социальных технологий 27-28 марта проводит мини-конференцию Админка [1], я там поучаствую с небольшим выступлением про исходный код в общественных проектах. О том что, как, почему, и зачем это нужно. Моё выступление будет 28 марта в 11:30

Комитет МТПП и МГУ проводят 31 марта вебинар "Этика использования больших данных" [2] я приму там участие с докладом в 13:40 по теме "Этические аспекты использования открытых данных". Очень полезное мероприятие и спасибо коллегам за его организацию.

В начале года я смотрел на свою папку презентаций за 2020 год и расстраивался как мало я их делал (и наоборот радовался что больше времени на бумажную/мыслительную работу), но публичные выступления это тоже часть моей работы поэтому, в течение года я, похоже, ещё с десяток раз буду выступать на мероприятиях. Самое тяжелое что меня ждёт - это переделать все презентации в BeautifulAI. Я с прошлого года начал новые презентации делать с помощью этого сервиса и всё прекрасно, кроме отсутствия импорта слайдов. А есть около 400 слайдов прошлых моих презентаций которые надо переносить руками.

Ссылки:
[1] https://te-st.ru/events/adminka/
[2] https://tekhnopark-kalibr-org.timepad.ru/event/1589594/

#events #data
...Реальность такова, что если бы Рособрнадзор и Минпросвещения двигались в сторону открытости, то и региональные власти такие сведения не скрывали бы. В ситуации, когда у нас образование закрыто чуть ли не больше, чем силовые органы, граждане по умолчанию относятся к политике в этой области без всякого доверия...

Вышла моя колонка "Государство скрывает данные по ЕГЭ " в Ведомостях [1]

P.S. На самом деле моя колонка была примерно в 3 раза больше и не влезла в формат издания. Я далее раскрою и другие темы доступности данных о качестве жизни.

P.P.S. В Ведомости я колонку писал, в Коммерсант писал, в Forbes писал, в РБК писал. Куда бы мне ещё колонку написать?

Ссылки:
[1] https://www.vedomosti.ru/opinion/articles/2021/03/25/863248-gosudarstvo-ege

#articles #opendata
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
109 трлн руб. составляет сумма планов закупок в 2021 году по 223-ФЗ. Из них планы на 91 трлн руб. были размещены в Санкт-Петербурге.

Для сравнения:
- за предыдущие годы объем планов закупок по России не превышал 20-25 трлн руб. в год,
- в 2020 году объем планов закупок СПб составил 1,4 трлн руб.,
- ВВП России в 2020 году составил 107 трлн руб.

В связи с этим вопрос:
1. Казначейство России, у вас все в порядке с подсчетами?
2. Если данные корректные, давайте найдем рекордный план закупок Петербурга
Свежая статья на хабре о том что исходные коды приложения ФНС более года были в открытом доступе [1], при этом хотелось бы чтобы это было решение ФНС и код бы официально публиковался на Github.com или Gitlab.com или появление их российского аналога, но реальность такова что это ошибка разработчиков этого приложения и, как выясняется, делали его не в ГНИВЦ при ФНС России, а в некой организации с доменом studiotg.ru, похоже, являющейся частью или аффилированой с Группой комплексных решений ГКР [2], в первую очередь потому что домен studiotg.ru ведет на тот же сайт что и support.pmp.gkr.su и сам засвеченный репозиторий кода относится к подсети ГКР 95.79.121.*

Иначе говоря, ситуация не доброй воли ФНС, а в отсутствии контроля за безопасностью среды разработки в компании подрядчике.

Казалось бы вопрос только в этом, но, ситуация сложнее и возникает немало вопросов:
1. У ГКР нет контрактов с ФНС и дочерними структурами ФНС [3], вопрос, как оказалось что разработчики использующие их инфраструктуру, выполняют работу для ФНС ?
2. Мобильное приложение сервиса ФНС разьве не является частью государственной информационной системы? Если там действительно были пароли для доступа к базам данных, то не является ли это предметом расследования регуляторов?
3. Отдельный вопрос о том почему репозитории госприложений были и остаются за пределами инфраструктуры органа власти/его подведов. Это, скажем так, не вполне нормально.

Я, при этом, понимаю все риски и издержки возникающие с задачами быстрого запуска каких то госсервисов, но, если это делать без оглядки на безопасность, то случается то что случается.

А было бы прекрасно если бы само ФНС начало публиковать исходные коды, но каким-нибудь менее скандальным способом.

Ссылки:
[1] https://habr.com/ru/post/547272/
[2] https://gkr.su
[3] https://clearspending.ru/supplier/inn=5262103820&kpp=526201001

#opensource #fns #taxes #mobileapps
В рубрике полезных наборов данных, набор данных для анализа простоты официального государственного языка созданный по результатам сбора новостей с официального сайта Правительства РФ [1]. В наборе 9823 текста новости, 558582 предложений за 9 лет (начиная с 2012 года), а по каждому тексту и по каждому предложению набор метрик измерения сложности текста. Для текстов есть расчёт показателей простоты текста, перечни сложных слов и лемм, частотности слов по числу слогов и так далее. Набор можно использовать для формирования словарей официальной лексики, анализа изменения официального языка с течением времени, измерения средней сложности официального языка и многого другого.

Например, 90.8% всех новостей на сайте правительства попадают в диапазон сложности текста от 10 до 24. Где цифра означает число необходимых лет обучения для понимания текста. 10 - это десять классов школы, а 24 - это аспирантура, второе высшее, иное узкоспециализированное знание.

А в целом сложность менее 18 (полное высшее образование) есть у 65% всех опубликованных текстов новостей.

И есть небольшое число текстов состоящих исключительно из длинных перечислений и сложность их текстов резко выше чем всех остальных.

В распакованном виде это 345 мегабайт, относительно небольшой объём. Для тех кто хочет поработать вначале с метриками, есть укороченные версии наборов данных, без текстов, но с метриками по каждому тексту и ссылке саму публикацию на официальном сайте Пр-ва.

Все метрики подсчитаны доработанной версией алгоритма с проекта Простой русский язык [2] и с помощью лемматизатора spacy добавлены уточнено определение предложений и также собираются не только комплексные слова, но и их леммы.

Ссылки:
[1] https://ngodata.ru/dataset/plainlang-gov-news
[2] http://plainrussian.ru

#opendata #plainlanguage #datasets
У ОЭСР вышел документ "Good Practice Principles for Data Ethics in the Public Sector" [1] о лучших практиках этического управления данными в госсекторе.

Там много разного полезного правильного разумного что стоит почитать нашим работникам госслужбы, я же сделаю акцент на рекомендации "Publish open data and open source", а там 4 рекомендации.
Привожу их на русском:
- Развивайте честные экосистемы данных через политики открытости государственных данных;
- Публикуйте дезагрегированные и гранулярные данные в соответствии с применимыми требованиями приватности, безопасности и владения
- Связываетй инициативы открытых данных в госсекторе с другими инициативами работы с данными;
- Открывайте исходный код для общественного анализа и аудита, особенно когда идёт работа с персональными и чувствительными данными

Впрочем, и по остальным блокам там достаточно чётко изложено и документ полезный.

Ссылки:
[1] https://www.oecd.org/gov/digital-government/good-practice-principles-for-data-ethics-in-the-public-sector.pdf


#opendata #privacy #oecd
Сегодня в 11:30 выступаю на конференции Adminka организуемой Теплицой социальных технологий[1], буду говорить об открытости исходного кода в мире и в России, в контексте того чем я занимаюсь, проектами про открытые данные и данные вообще.

Ссылки:
[1] https://te-st.ru/events/adminka/

#opendata #opensource #events