Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Проект OpenRefine, бесплатный инструмент с открытым кодом по обработке и очистке данных некогда выделенный Google как Google Refine, а далее перешедший в свободное плавание теперь получил грант на 200 тысяч долларов США от фонда Чан-Цукерберг [1]. Много это или мало? Для небольшого некоммерческого проекта - много, для стартапа - очень мало.

Грант предоставляется на две цели:
- развитие сообщества вокруг OpenRefine, для привлечения разработчиков контрибьюторов кода
- переделка ядра продукта и архитектуры инструмента для поддержки датасетов большего объёма и улучшения потоков данных.

Подробнее в их заявке на грант [2]

Этот и многие другие проекты поддержаны в рамках грантового конкурса Essential Open Source Software for Science [3] где более чем 32 проекта ориентированных на решение научных задач и все они обязательно с открытым кодом.

Оборотная сторона, позитивная сторона, ИТ гигантов и дата корпораций в том что почти весь мир использует, например, код Apache Foundation [4] или Numfocus [5] финансируемыеза счёт их поддержкии многие другие фонды открытого кода существуют на схожих принципах.


Ссылки:
[1] http://openrefine.org/blog/2019/11/14/czi-eoss.html
[2] http://openrefine.org/images/czi-eoss-proposal.pdf
[3] https://chanzuckerberg.com/eoss/proposals/
[4] https://www.apache.org/foundation/thanks
[5] https://numfocus.org/

#opensource #data #openrefine
Аналогичная инициатива во Франции натолкнулась на законодательный запрет в разработке алгоритмов предсказания судебных дел, поскольку алгоритмы создавали цифровой профиль судьи и могли помогать сторонам дела в выборе правильной стратегии. А в Казахстане наоборот, хотят "разгрузить судей".

Работать, быть может, будут в будущем и не роботы, но роботы-судьи в ближайшем будущем нас поджидают.

#data #ai
Электронный судья Казахстана

В 2020 году в Казахстане запустят систему с использованием искусственного интеллекта для предсказывания исхода судебных решений.

Палата казахстанских предпринимателей совместно с Верховным судом разрабатывает модель искусственного интеллекта, которая позволит прогнозировать исход судебного дела даже до подачи иска. Система будет работать на основе принципов smart-аналитики.

Разработчики заверяют, что новая система позволит в будущем разгрузить суды на 70%, ведь smart-аналитика позволит потенциальному истцу спрогнозировать исход дела даже до подачи иска. На специальном портале достаточно будет заявить ключевые слова для поиска, либо описательную часть иска. В базе уже загружено 1,2 млн судебных актов, 120 тыс. исковых заявлений. Что важно, после каждых новых 50 тыс. актов система будет автоматически переобучаться.

https://kursiv.kz/news/obschestvo/2019-11/v-kazakhstane-iskhod-sudebnogo-dela-budet-predskazyvat-iskusstvennyy
Вышел обзор Government at Glance 2019 [1] от ОЭСР, это не только аналитические материалы, но и статистика и сравнение по странам ОЭСР [2] по множеству рейтингов. Помимо разных полезных цифр по тому как развивается регулирование общественных финансов, госзакупок, государственных сервисов, там можно обратить внимание что если в прошлом году ОЭСР групировали показатели по группам "Open Government" и "Digital Government", а сейчас выделили отдельно "Open Government Data", а "Open Government" и "Digital Government" исчезли.

Ссылки:
[1] https://www.oecd.org/gov/govataglance.htm
[2] https://stats.oecd.org/Index.aspx?QueryId=94402

#opendata #data
В этом году, наконец-то открываем большой проект spending.gov.ru по мониторингу госрасходов. С особым акцентом на нац проектах, аналитике, рейтингах и данных. Я вскоре буду много писать об этом всё подробнее. Пока предлагаю для самостоятельного изучения

#spending #budget
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Самое время представить то, над чем мы работали несколько месяцев и причину моего переезда в Москву - проект «Госрасходы» (spending.gov.ru), новый портал Счетной палаты Российской Федерации на основе открытых финансовых данных.

Мы в ближайшее время будем много о нем говорить и писать, поэтому я выделю несколько основных особенностей проекта и причин, по которым мы его создавали:

1. Создание единой точки входа в мир финансовых данных для граждан, программистов и специалистов (в том числе и аудиторов) с минималистическим и понятным интерфейсом.

2. Интеграция данных из разных источников и реестров. Главная цель нашего проекта - построение финансовых цепочек: от выделения средств в бюджете до конечных получателей и результатов, а не предоставление отдельных реестров.

3. Агрегация данных по организациям: как госорганам, так и коммерческим компаниям. Существующие государственные порталы, содержащие финансовые данные, в основном ориентированы на отдельные сущности (контракты, субсидии, гранты) и не занимаются задачей объединения и анализа деятельности участников бюджетного процесса.

4. Проект, запускающийся в конце 2019 года, не может обойти стороной национальные проекты. Мы предоставляем нигде не публиковавшиеся ранее агрегированные данные по контрактам, субсидиям, получателям и распределителям средств в рамках нацпроектов и федпроектов.

5. Отличием проекта «Госрасходы» от других проектов является наличие аналитического блока, в котором мы разрабатываем методики для подсчета различных рейтингов и индикаторов на основе данных проекта.

6. Все данные проекта можно скачать в виде открытых данных или получить по API (ссылки и документацию на которое мы опубликуем в ближайшие пару недель).

7. Одним из самых важных пунктов является то, что в процессе разработки проекта и интеграции новых данных, мы выявляем ошибки и недоработки в открытых данных, поэтому побочным результатом работы портала может быть повышение качества данных, публикуемых Казначейством России, Минфином России и другими финансовыми госорганами. Также мы планируем работать над расширением перечня открытых данных, публикуемых госорганами.

8. Мы планируем развивать дата-лабораторию, в рамках которой будем предоставлять данные и консультировать представителей исследовательских и научных центров и университетов. Надеюсь, что мой альма-матер, Университет ИТМО, будет одним из первых партнёров.

9. Бюджеты, отчеты об исполнении и сводные бюджетные росписи должны стать ключевым источником данных на следующий год. Поэтому мы надеемся, что Минфин России повысит корректность текущих данных по федеральному бюджету и начнёт публиковать региональные и муниципальные данные.

10. Проект «Госрасходы» предназначен не только для граждан, но и для специалистов «Счетной палаты РФ» и контрольно-счетных органов, а также других органов контроля и аудита.

Мы запускаемся в бета-версии и будем рады предложениям, которые вы можете написать на spending@ach.gov.ru. Пишите, если вы хотите партнёрство в рамках Дата-лаборатории на parkhimovich_ov@ach.gov.ru

Большое спасибо всем участникам нашей команды, внешним экспертам, и опыту, накопленному на проектах АНО «Инфокультура», за то, что в такие сжатые сроки смогли сделать отличный проект и, конечно, Счетной Палате и ее председателю за то, что в 2019 году есть федеральный госорган, поддерживающий открытость и готовый к таким вызовам.
В Австралии исследователи из CSIRO Data61 и департамент индустрии, инновации и науки опубликовали дорожную карту по развитию искусственного интеллекта [1].

В дорожной карте определны 3 основные приоритеты для Австралии:
- Здоровье, старение и ограниченные возможности
- Города и инфраструктура
- Природные ресурсы и окружающая среда

Это хорошо изложенная стратегия со ссылками на многие другие стратегии искусственного интеллекта в мире, кроме российской.

Ссылки:
[1] https://www.data61.csiro.au/en/Our-Research/Our-Work/AI-Roadmap?featured=6EDF11D88EED4B6794F2FBDFD65766B2
#ai #data
Больше публикаций выходит в СМИ по поводу запущенного нами вчера проекта Госрасходы [1], например Ведомости пишут об измерении изолированности субъектов федерации [2], а РБК обнаружили суммы субсидий банкам (Сбербанк, ВТБ и др) на льготную семейную ипотеку [3].

FutureRussia (проект ТАСС) пишут о контрактах на рекультивацию земель в Московской области [4], а Новая Газета про срезанные розы [5]. Кстати Новая Газета неверно пишет указывая что проект "агрегатор закупок чиновников", во первых не только закупок, но всей информации о госфинансах/госрасходах и, во вторых, не только чиновников, но и корпораций, всех бюджетных учреждений и иных участников бюджетного процесса.

Также много других публикаций. Я лишь обращу внимание что главное отличие Госрасходов от иных проектов которые делались ранее нами и другими командами во взгляде на госфинансы от бюджета и до результата. Сейчас это через нац проекты, далее через госпрограммы, сводную бюджетную роспись и конкретные объекты созданные, построенные, закупленные, возникшие от исполнения субсидии и так далее.

В этом смысле модуль "Национальные проекты" [6] прообраз того как далее будет складываться аналитика внутри проекта. Через декомпозицию больших направлений госрасходов в конкретные контракты, субсидии, получателей средств, а далее и госзаданий и всех основных особенностей и явлений в госфинансах в РФ.

Ссылки:
[1] http://spending.gov.ru
[2] https://www.vedomosti.ru/economics/articles/2019/11/18/816545-mestnih-postavschikov
[3] https://realty.rbc.ru/news/5dd2ac2b9a79478c1780ab51
[4] https://futurerussia.gov.ru/nacionalnye-proekty/rekultivacia-podmoskovnogo-poligona-sliznevo-obojdetsa-v-13-mlrd-rublej
[5] https://www.novayagazeta.ru/articles/2019/11/18/82775-rozy-pianino-i-zhilie
[6] https://spending.gov.ru/np/

#spending #data
Для тех кому долго самостоятельно искать тот слив из банка на каймановых островах, вот прямая ссылка [1]. Он там под кодом "Sherwood"

Только помните - там 2 терабайта. Для опытного специалиста это несколько часов работы, для неопытного может занять месяцы. Для современного журналиста расследователя это должно быть по силам, а если чувствуете что "сложно это всё", то срочно беритесь за журналистику данных.

Ссылки:
[1] https://ddosecrets.com/data/corporations/

#leaks #data #datajournalism
Максим Акимов назвал сайт Госуслуг вторым по посещаемости госсайтом в мире [1] и что только посещаемость сайта налоговой службы США (IRS) выше в период сдачи деклараций.

Как бы это аккуратнее прокомментировать. В общем-то не сайт IRS наиболее популярный госсайт в США. Там первыми по списку идут:
- ncbi.nlm.nih.gov - 183 миллионов посещений за 30 дней
- tools.usps.com - 145 миллионов посещений за 30 дней
- medlineplus.gov - 51 миллион посещений за 30 дней
и так далее, полный список на специальном сайте [2]

Возможно у IRS есть и всплески в периоды подачи деклараций, но дело в том что у портала Госуслуг нет никакого общедоступного счетчика. Ни внутреннего, ни внешнего, несмотря на наличие подключенной Яндекс Метрики. Если сравнить gosuslugi.ru и irs.gov через Similarweb к примеру [3], то окажется что Госуслуги значительно более посещаемый ресурс, спору нет. Но если мы сравним его с сайтом Минздрава США (nih.gov) поддоменом которого является PubMed (ncbi.nlm.nih.gov), глобальная библиотека публикаций по здравоохранению, то gosuslugi.ru будут не так хороши [4].

Врядли Максим Акимов сам готовил эти цифры, но тем кто готовил ему выступление большой и жирный минус. А портал Госуслуг действительно один из наиболее посещаемых госпорталов в мире, с этим спору нет при любом раскладе. И счётчик его посещаемости давно бы пора, для приличия, открыть.

Ссылки:
[1] https://www.vedomosti.ru/politics/news/2019/11/19/816637-akimov-nazval-gosuslugi-vtorim-po-poseschaemosti-gosresursom
[2] https://analytics.usa.gov/
[3] https://www.similarweb.com/website/gosuslugi.ru?competitors=irs.gov
[4] https://www.similarweb.com/website/gosuslugi.ru?competitors=nih.gov

#data #webstats #government
А с другой стороны, тоже понятно откуда взята цифра 2. Из того же SimilarWeb в по рейтингу Top sites ranking for Law And Government > Government in the world [1]

Но первым там идёт service.gov.uk, портал госуслуг Великобритании. И тут косяк в общем. Кто-то обманывает заместителя премьер-министра нашего любимого Правительства.

Ссылки:
[1] https://www.similarweb.com/top-websites/category/law-and-government/government

#data #webstats
Небольшое, но нужное и важное обновление нашего небольшого проекта по созданию базу всех госдоменов и госсайтов. В репозиторий [1] выложен файл feddomains.csv [2] с доменами относящимся к федеральной власти размеченным по органам власти, типам сайтов, статусу (действует/не действует) и так далее.

Всего это 7577 доменов, не все, но значительная, если не подавляющая часть их включено.

К каждому домены собираются сведения:
- название
- тип сайта
- орган власти/организация
- статус
- государственная информационная система
- регион, если есть региональная привязка

Пока полностью завершена только привязка домена к госоргану/организации

Не завершены: классификация сайтов по типу, не заполнены данные по госсистемам, пока очень немного заполнено по региональной привязке.

Все домены можно также просмотреть в Airtable [3] где ведется оригинал базы данных.

Зачем это нужно? Первая и основная задача - это необходимо для архивации сайтов в рамках национального цифрового архива [4], другие задачи включают вопросы мониторинга приватности, например, проверку использования HTTPS вместо HTTP и доверенные сертификаты. По аналогии с pulse.cio.gov в США [5].

Дополнительно отмечу что весь этот маленький проект ведётся внутри Информационная культура без какого-либо финансирования. Фактически мы за Минкомсвязь РФ делаем их работу. Пусть хотя бы начнут пользоваться и мониторить госинфраструктуру, потому что есть подозрения что они сами не знают как там всё устроено;)

Вот некоторые цифры и факты:
- более 2500 сайтов (33% от общего числа) - это сайты судов и судебной системы из системы ГАС Правосудие
- чуть более 11% госдоменов находятся в зоне .gov.ru,
- не все домены в зоне .gov.ru ведутся госорганами, есть те которые ведут учреждённые государством НКО
- до сих пор у многих сайтов первичен доменный префикс www
- список доменов неполон, за эти годы несколько госорганов создали "фермы-сайтов" которые будет крайне сложно переносить на один домен, если правительство такое когда-либо задумает. Такие "фермы сайтов" есть у Минобороны, МВД, Судебного департамента, Следственного комитета, Роспотребнадзора и многих других.
- часть госорганов перевели все региональные сайты терр управлений на общий домен, а домены субъектов теперь перенаправляют на него. так сделали ПФР, ГИБДД, ФНС и др.
- сейчас почти не включены домены госучреждений, но они собраны из первосточников и тоже есть в репозитории.

Очищенные данные, исходный код и первичные данные - все выложены на GitHub. В конечном итоге результатом будет собранная база данных, API и веб интерфейс надстройки. И охват всех уровней власти конечно.

Ссылки:
[1] https://github.com/infoculture/govdomains/
[2] https://github.com/infoculture/govdomains/tree/master/refined
[3] https://airtable.com/invite/l?inviteId=inviQBG5Acys5mrEn&inviteToken=0b5ac06d25a4e88470b1c2916fcc4941008dd2dcb312dcfe88bdc2841af9774b
[4] http://ruarxive.org
[5] https://pulse.cio.gov

#opendata #data #government #domains
Для тех кто интересуется дата-журналистикой, робо-журналистикой и тд. подоспела новая тема - ИИ журналистика. Журналистика искусственного интеллекта. Хорошая библиография [1] есть в блоге Лондонской школы экономики. Очень будет полезно и для тех журналистов кто учится и выбирает темы для выпускных работ, и для тех журналистов кто хочет быть на краю технологий или думает о стартапах в своей отрасли

Ссылки:
[1] https://blogs.lse.ac.uk/polis/2019/10/25/journalism-and-artificial-intelligence-a-bibliography/

#ai #journalism
Много вопросов к нам приходит про то как будет развиваться проект Счетной палаты Российской Федерации Госрасходы [1], чем он отличается от уже существующих государственных проектов ЕИС [2] и ЕПБС [3].

Ответ в этой картинке, карта данных по госфинансам в вопросах и ответах.

Что мы будем делать? Отвечать на эти вопросы. А вот то в какой последовательности я пока не расскажу.

Потому что "Хочешь рассмешить Бога - расскажи ему о своих планах" (c).

А вот я напомню что в рамках проекта у нас предусмотрена "Дата лаборатория" [4] и мы не только сами будем публиковать результаты подготовки данных и исследований в виде материалов и кода в Jupyter Notebook, но и предполагаем партнерство со всеми научными центрами работающими с данными по госфинансам.

Пишите если хотите начать работать с этими данными, ведете исследования, пишите научную статью и так далее.

Ссылки:
[1] https://spending.gov.ru
[2] http://zakupki.gov.ru
[3] http://budget.gov.ru
[4] https://spending.gov.ru/datalab/

#opendata #spending #data
Для тех кто ищет инструменты цифровой трансформации, работы с данными, открытый код готовых проектов и тд. в мире, специальная подборка примеров:

- Observatory of Public sector innovation [1] проект ОЭСР по истематизации лучших практик организации проектирования госуслуг, государственных систем, организации форсайтов, мозговых штурмов и так далее.
Всего более 300 инструментов включая 9 игр [2]

- мобильное приложение цифрового гражданства Италии [3] и его открытый код с подробным описанием компонентов, организации процесса разработки и дорожной карты

- лучшие практики разработки исходного кода команды 18fF [5] в США. Охватывает языки Python/Ruby/Node, принципы выбора языка и разные стадии разработки

- австралийская система дизайна компонентов государственных сайтов [6], весьма детально проработанная с охватом всех возможных элементов работы приложений и сайтов

Ссылки:
[1] https://oecd-opsi.org/search-toolkits/
[2] https://oecd-opsi.org/search-toolkits/
[3] https://io.italia.it/
[4] https://github.com/teamdigitale/io-app
[5] https://github.com/18F/development-guide
[6] https://github.com/govau/design-system-components

#opendata #opensource #tools
Гриша Бобук @addmeto пишет про recreation.gov и о том что это хороший неполитический пример того что государство может делать хорошо. На самом деле таких примеров в мире немало и в России тоже есть, но в другой области. Лучший пример в России культура.рф [1].

Но как бы сказать поточнее, конечно это всё политика, не макро политика возможно, но качество госуправления и концентрация компетенций. Например, американская система закупок мягко говоря далека от идеала. Запуск healthcare.gov в США - это мыльная опера с элементами трагикомедии, а 18F - наоборот мирового уровня группа разработчиков с открытым кодом. Везде есть хорошее и плохое и та часть политики которая называется качеством государственной политики и госуправления. Не politics, но policy

[1] https://культура.рф
Forwarded from addmeto
А вот еще одно, и опять не про политику: recreation.gov это только что запущенный сайт о туризме в штатах, сделанный государством. И это что-то невероятное, действительно человечный и полезный ресурс с информацией о том, где что посмотреть и как туда добраться. А можно нам такой же по России? Хотя сначала придется дороги построить, конечно https://www.recreation.gov/
О разнице в восприятии, языковых особенностях и о том во что вырождается открытость

Когда переводишь на русский язык слова явлений, определений и многое другое с других языков то часто возникает если не недопонимание то неточные трактовки. Например, устойчивые выражения "по данным открытых источников" или по "открытым данным" много лет мешало русскому переводу термина "open data", тоже открытые данные. Потому что в трактовке журналиста пишущего статью открытые данные - это любая общедоступная информация, но в трактовке open data - это вполне конкретная форма представления информации в машиночитаемом виде и под свободными лицензиями.

Когда появилось "Открытое правительство" и вообще декларируемая открытость органов власти мы пришли к другому искажению, отчасти искусственному. В мире под открытостью государства всегда подразумевается транспарентность как её основа, остальное - это важное обрамление. А вот открытость может иметь много черт, от дней открытых дверей до совершенно нерелевантных к прозрачности органа власти действий.

Во что вырождаются идеи по открытости в России и в каких формах они ещё существуют? Посмотрим на эволюцию open проектов.

1. Для многих городов открытость свелась исключительно к жалобам. Порталы вроде Открытый город Тольяти open.tgl.ru [1] и множество аналогичных - более десятков сайтов городов.
2. Кое где в регионах остались Открытые правительства субъектов федерации. Иркутская область [2], Краснодарский край [3], всего около десятка регионов
3. Очень много проектов под брендами "Открытое образование" [4]
4. Много медийных проектов в стиле "Открытой Россию с РЖД" [5]
5. Сайт федерального "Открытого пр-ва" выродился [6] в ленту новостей и, по хорошему, его надо полностью перезапускать. Потому что превращать сайт про открытость в сайт бездействующего экспертного совета, прямо скажем, некрасиво

Какие ещё формы когнитивных искажений открытости Вам встречались? Как правильно разграничивать термины?

Ссылки:
[1] http://open.tgl.ru
[2] http://open.irkobl.ru/
[3] http://open.krasnodar.ru/
[4] http://open.kbsu.ru/
[5] https://www.open.fpc.ru/
[6] https://open.gov.ru/

#open #opengov
Forwarded from Госзатраты
Дата-среда: “Открытые данные международных организаций: когда лучшее не враг хорошего”

4 декабря Алина Владимирова, научный сотрудник Института востоковедения РАН и вице-председатель Исследовательского комитета по политической власти Международной ассоциации политической науки, проведет лекцию об открытых данных международных организаций и подробнее расскажет о базе данных внешней торговли «Комтрейд ООН».

В плане лекции:
- основные вехи создания базы данных «Комтрейд ООН»;
- проблемы, с которыми столкнулись специалисты, собирая торговую статистику;
- особенности открытых данных международных организаций и оценка их качества.

Дата-среда пройдет в рамках проекта КГИ «Госзатраты».

Подробности и регистрация: http://amp.gs/sK9G.
Обратили ли Вы внимание что...

У Министерства просвещения РФ нет раздела "Документы" и публикации нормативно-правовых актов на их сайте [1] которые требуются по 8-ФЗ.

Значит ли это что?
1. 8-ФЗ перестал соблюдаться (закон "помер")
2. Не осталось НКО и активистов кто напоминает госорганов о его существовании.
3. Главный контролёр 8-ФЗ забил на свои полномочия и функции (кстати вспомните что за орган власти)
4. Минпросвещения даже не планировали его соблюдать

Или всё вместе? Но факт остаётся фактом - сайт Минпросвещения мало чем отличается от сайта визитки.

Ссылки:
[1] https://edu.gov.ru/

#opengov #open #website #ministryofsomething