Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Глядя на созданный (относительно) недавно Минкомсвязи России Российский фонд развития информационных технологий [1] и совершенно точно недавно объявивший огромный конкурс на гранты по сквозным технологиям [2] очень хочется задать множество вопросов:

1. Где можно увидеть список и состав экспертных советов фонда предусмотренных к созданию согласно уставу фонда ? [3]
2. Когда раздел "Раскрытие информации" [4] перестанет быть в разработке?
3. Будет ли рассмотрение заявок транслироваться в реальном времени и публиковаться видео работы комиссии, как это делает Фонд президентских грантов, например?
4. Будут ли публиковаться протоколы рассмотрения заявок и в протоколах фиксироваться конфликты интересов?
5. И, не знаю, самый ли главный вопрос, но где Олег Пак? Все зам. министра Минкомсвязи участвуют в одном из советов фонда и только Олега Пака там нет совсем. Что случилось?
6. Как так получилось что в фонде распределяющим субсидии на миллиарды высшим должностным лицом является министр. Не вице премьер, не советник при Президенте РФ, а министр?

И, последний, возможно риторический, вопрос. А есть ли в России хотя бы один государственный фонд поддержки стартапов, технологий, раздачи грантов или субсидий и тд. который проходил бы регулярный независимый внешний аудит, хотя бы одной из компаний из "большой четверки" аудиторов в России ?

Ссылки:
[1] https://рфрит.рф
[2] https://рфрит.рф/support-measure
[3] https://рфрит.рф/attachment/13/download/ustav
[4] https://рфрит.рф/docs#tabs-5

#techpolitics #rfrit
Amazon, помимо того что уже давно является одним из лидеров ИТ инфраструктуры, теперь ещё и выходят в лидерство по работе с данными. Новый продукт Amazon Data Exchange [1] даёт возможность владельцам/операторам продавать данные, а покупателям приобретать их и всё это проделывать на инфраструктуре AWS. Это всё удобно и продавцам, поскольку это централизованный сервис охватывающий миллионы потребителей и для пользователей которые получают данные сразу внутри своей инфраструктуры.

Возможно ли подобное в России? О Data Exchange говорят многие, но реально построить подобное непросто, поскольку необходимо:
1. Привлечь продавцов/владельцев наиболее востребованных данных
2. Сконцентрировать клиентов на одной площадке, при том что у них много разной инфраструктуры, чаще внутренней чем внешней.

Например Яндекс или MRG не подходят к этой роли, у всех на рынке будет ощущение что их данные будут доступны этим компаниям забесплатно. Поэтому они не годятся как такие посредники. Теоретически подобное мог бы организовать один из крупных/крупнейших российских облачных провайдеров, но достаточно ли созрел рынок ?

А пока Амазон является довольно интересным источником альтернативных данных.

Ссылки:
[1] https://aws.amazon.com/ru/data-exchange/

#data #dataexchange
Проект OpenRefine, бесплатный инструмент с открытым кодом по обработке и очистке данных некогда выделенный Google как Google Refine, а далее перешедший в свободное плавание теперь получил грант на 200 тысяч долларов США от фонда Чан-Цукерберг [1]. Много это или мало? Для небольшого некоммерческого проекта - много, для стартапа - очень мало.

Грант предоставляется на две цели:
- развитие сообщества вокруг OpenRefine, для привлечения разработчиков контрибьюторов кода
- переделка ядра продукта и архитектуры инструмента для поддержки датасетов большего объёма и улучшения потоков данных.

Подробнее в их заявке на грант [2]

Этот и многие другие проекты поддержаны в рамках грантового конкурса Essential Open Source Software for Science [3] где более чем 32 проекта ориентированных на решение научных задач и все они обязательно с открытым кодом.

Оборотная сторона, позитивная сторона, ИТ гигантов и дата корпораций в том что почти весь мир использует, например, код Apache Foundation [4] или Numfocus [5] финансируемыеза счёт их поддержкии многие другие фонды открытого кода существуют на схожих принципах.


Ссылки:
[1] http://openrefine.org/blog/2019/11/14/czi-eoss.html
[2] http://openrefine.org/images/czi-eoss-proposal.pdf
[3] https://chanzuckerberg.com/eoss/proposals/
[4] https://www.apache.org/foundation/thanks
[5] https://numfocus.org/

#opensource #data #openrefine
Аналогичная инициатива во Франции натолкнулась на законодательный запрет в разработке алгоритмов предсказания судебных дел, поскольку алгоритмы создавали цифровой профиль судьи и могли помогать сторонам дела в выборе правильной стратегии. А в Казахстане наоборот, хотят "разгрузить судей".

Работать, быть может, будут в будущем и не роботы, но роботы-судьи в ближайшем будущем нас поджидают.

#data #ai
Электронный судья Казахстана

В 2020 году в Казахстане запустят систему с использованием искусственного интеллекта для предсказывания исхода судебных решений.

Палата казахстанских предпринимателей совместно с Верховным судом разрабатывает модель искусственного интеллекта, которая позволит прогнозировать исход судебного дела даже до подачи иска. Система будет работать на основе принципов smart-аналитики.

Разработчики заверяют, что новая система позволит в будущем разгрузить суды на 70%, ведь smart-аналитика позволит потенциальному истцу спрогнозировать исход дела даже до подачи иска. На специальном портале достаточно будет заявить ключевые слова для поиска, либо описательную часть иска. В базе уже загружено 1,2 млн судебных актов, 120 тыс. исковых заявлений. Что важно, после каждых новых 50 тыс. актов система будет автоматически переобучаться.

https://kursiv.kz/news/obschestvo/2019-11/v-kazakhstane-iskhod-sudebnogo-dela-budet-predskazyvat-iskusstvennyy
Вышел обзор Government at Glance 2019 [1] от ОЭСР, это не только аналитические материалы, но и статистика и сравнение по странам ОЭСР [2] по множеству рейтингов. Помимо разных полезных цифр по тому как развивается регулирование общественных финансов, госзакупок, государственных сервисов, там можно обратить внимание что если в прошлом году ОЭСР групировали показатели по группам "Open Government" и "Digital Government", а сейчас выделили отдельно "Open Government Data", а "Open Government" и "Digital Government" исчезли.

Ссылки:
[1] https://www.oecd.org/gov/govataglance.htm
[2] https://stats.oecd.org/Index.aspx?QueryId=94402

#opendata #data
В этом году, наконец-то открываем большой проект spending.gov.ru по мониторингу госрасходов. С особым акцентом на нац проектах, аналитике, рейтингах и данных. Я вскоре буду много писать об этом всё подробнее. Пока предлагаю для самостоятельного изучения

#spending #budget
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Самое время представить то, над чем мы работали несколько месяцев и причину моего переезда в Москву - проект «Госрасходы» (spending.gov.ru), новый портал Счетной палаты Российской Федерации на основе открытых финансовых данных.

Мы в ближайшее время будем много о нем говорить и писать, поэтому я выделю несколько основных особенностей проекта и причин, по которым мы его создавали:

1. Создание единой точки входа в мир финансовых данных для граждан, программистов и специалистов (в том числе и аудиторов) с минималистическим и понятным интерфейсом.

2. Интеграция данных из разных источников и реестров. Главная цель нашего проекта - построение финансовых цепочек: от выделения средств в бюджете до конечных получателей и результатов, а не предоставление отдельных реестров.

3. Агрегация данных по организациям: как госорганам, так и коммерческим компаниям. Существующие государственные порталы, содержащие финансовые данные, в основном ориентированы на отдельные сущности (контракты, субсидии, гранты) и не занимаются задачей объединения и анализа деятельности участников бюджетного процесса.

4. Проект, запускающийся в конце 2019 года, не может обойти стороной национальные проекты. Мы предоставляем нигде не публиковавшиеся ранее агрегированные данные по контрактам, субсидиям, получателям и распределителям средств в рамках нацпроектов и федпроектов.

5. Отличием проекта «Госрасходы» от других проектов является наличие аналитического блока, в котором мы разрабатываем методики для подсчета различных рейтингов и индикаторов на основе данных проекта.

6. Все данные проекта можно скачать в виде открытых данных или получить по API (ссылки и документацию на которое мы опубликуем в ближайшие пару недель).

7. Одним из самых важных пунктов является то, что в процессе разработки проекта и интеграции новых данных, мы выявляем ошибки и недоработки в открытых данных, поэтому побочным результатом работы портала может быть повышение качества данных, публикуемых Казначейством России, Минфином России и другими финансовыми госорганами. Также мы планируем работать над расширением перечня открытых данных, публикуемых госорганами.

8. Мы планируем развивать дата-лабораторию, в рамках которой будем предоставлять данные и консультировать представителей исследовательских и научных центров и университетов. Надеюсь, что мой альма-матер, Университет ИТМО, будет одним из первых партнёров.

9. Бюджеты, отчеты об исполнении и сводные бюджетные росписи должны стать ключевым источником данных на следующий год. Поэтому мы надеемся, что Минфин России повысит корректность текущих данных по федеральному бюджету и начнёт публиковать региональные и муниципальные данные.

10. Проект «Госрасходы» предназначен не только для граждан, но и для специалистов «Счетной палаты РФ» и контрольно-счетных органов, а также других органов контроля и аудита.

Мы запускаемся в бета-версии и будем рады предложениям, которые вы можете написать на spending@ach.gov.ru. Пишите, если вы хотите партнёрство в рамках Дата-лаборатории на parkhimovich_ov@ach.gov.ru

Большое спасибо всем участникам нашей команды, внешним экспертам, и опыту, накопленному на проектах АНО «Инфокультура», за то, что в такие сжатые сроки смогли сделать отличный проект и, конечно, Счетной Палате и ее председателю за то, что в 2019 году есть федеральный госорган, поддерживающий открытость и готовый к таким вызовам.
В Австралии исследователи из CSIRO Data61 и департамент индустрии, инновации и науки опубликовали дорожную карту по развитию искусственного интеллекта [1].

В дорожной карте определны 3 основные приоритеты для Австралии:
- Здоровье, старение и ограниченные возможности
- Города и инфраструктура
- Природные ресурсы и окружающая среда

Это хорошо изложенная стратегия со ссылками на многие другие стратегии искусственного интеллекта в мире, кроме российской.

Ссылки:
[1] https://www.data61.csiro.au/en/Our-Research/Our-Work/AI-Roadmap?featured=6EDF11D88EED4B6794F2FBDFD65766B2
#ai #data
Больше публикаций выходит в СМИ по поводу запущенного нами вчера проекта Госрасходы [1], например Ведомости пишут об измерении изолированности субъектов федерации [2], а РБК обнаружили суммы субсидий банкам (Сбербанк, ВТБ и др) на льготную семейную ипотеку [3].

FutureRussia (проект ТАСС) пишут о контрактах на рекультивацию земель в Московской области [4], а Новая Газета про срезанные розы [5]. Кстати Новая Газета неверно пишет указывая что проект "агрегатор закупок чиновников", во первых не только закупок, но всей информации о госфинансах/госрасходах и, во вторых, не только чиновников, но и корпораций, всех бюджетных учреждений и иных участников бюджетного процесса.

Также много других публикаций. Я лишь обращу внимание что главное отличие Госрасходов от иных проектов которые делались ранее нами и другими командами во взгляде на госфинансы от бюджета и до результата. Сейчас это через нац проекты, далее через госпрограммы, сводную бюджетную роспись и конкретные объекты созданные, построенные, закупленные, возникшие от исполнения субсидии и так далее.

В этом смысле модуль "Национальные проекты" [6] прообраз того как далее будет складываться аналитика внутри проекта. Через декомпозицию больших направлений госрасходов в конкретные контракты, субсидии, получателей средств, а далее и госзаданий и всех основных особенностей и явлений в госфинансах в РФ.

Ссылки:
[1] http://spending.gov.ru
[2] https://www.vedomosti.ru/economics/articles/2019/11/18/816545-mestnih-postavschikov
[3] https://realty.rbc.ru/news/5dd2ac2b9a79478c1780ab51
[4] https://futurerussia.gov.ru/nacionalnye-proekty/rekultivacia-podmoskovnogo-poligona-sliznevo-obojdetsa-v-13-mlrd-rublej
[5] https://www.novayagazeta.ru/articles/2019/11/18/82775-rozy-pianino-i-zhilie
[6] https://spending.gov.ru/np/

#spending #data
Для тех кому долго самостоятельно искать тот слив из банка на каймановых островах, вот прямая ссылка [1]. Он там под кодом "Sherwood"

Только помните - там 2 терабайта. Для опытного специалиста это несколько часов работы, для неопытного может занять месяцы. Для современного журналиста расследователя это должно быть по силам, а если чувствуете что "сложно это всё", то срочно беритесь за журналистику данных.

Ссылки:
[1] https://ddosecrets.com/data/corporations/

#leaks #data #datajournalism
Максим Акимов назвал сайт Госуслуг вторым по посещаемости госсайтом в мире [1] и что только посещаемость сайта налоговой службы США (IRS) выше в период сдачи деклараций.

Как бы это аккуратнее прокомментировать. В общем-то не сайт IRS наиболее популярный госсайт в США. Там первыми по списку идут:
- ncbi.nlm.nih.gov - 183 миллионов посещений за 30 дней
- tools.usps.com - 145 миллионов посещений за 30 дней
- medlineplus.gov - 51 миллион посещений за 30 дней
и так далее, полный список на специальном сайте [2]

Возможно у IRS есть и всплески в периоды подачи деклараций, но дело в том что у портала Госуслуг нет никакого общедоступного счетчика. Ни внутреннего, ни внешнего, несмотря на наличие подключенной Яндекс Метрики. Если сравнить gosuslugi.ru и irs.gov через Similarweb к примеру [3], то окажется что Госуслуги значительно более посещаемый ресурс, спору нет. Но если мы сравним его с сайтом Минздрава США (nih.gov) поддоменом которого является PubMed (ncbi.nlm.nih.gov), глобальная библиотека публикаций по здравоохранению, то gosuslugi.ru будут не так хороши [4].

Врядли Максим Акимов сам готовил эти цифры, но тем кто готовил ему выступление большой и жирный минус. А портал Госуслуг действительно один из наиболее посещаемых госпорталов в мире, с этим спору нет при любом раскладе. И счётчик его посещаемости давно бы пора, для приличия, открыть.

Ссылки:
[1] https://www.vedomosti.ru/politics/news/2019/11/19/816637-akimov-nazval-gosuslugi-vtorim-po-poseschaemosti-gosresursom
[2] https://analytics.usa.gov/
[3] https://www.similarweb.com/website/gosuslugi.ru?competitors=irs.gov
[4] https://www.similarweb.com/website/gosuslugi.ru?competitors=nih.gov

#data #webstats #government
А с другой стороны, тоже понятно откуда взята цифра 2. Из того же SimilarWeb в по рейтингу Top sites ranking for Law And Government > Government in the world [1]

Но первым там идёт service.gov.uk, портал госуслуг Великобритании. И тут косяк в общем. Кто-то обманывает заместителя премьер-министра нашего любимого Правительства.

Ссылки:
[1] https://www.similarweb.com/top-websites/category/law-and-government/government

#data #webstats
Небольшое, но нужное и важное обновление нашего небольшого проекта по созданию базу всех госдоменов и госсайтов. В репозиторий [1] выложен файл feddomains.csv [2] с доменами относящимся к федеральной власти размеченным по органам власти, типам сайтов, статусу (действует/не действует) и так далее.

Всего это 7577 доменов, не все, но значительная, если не подавляющая часть их включено.

К каждому домены собираются сведения:
- название
- тип сайта
- орган власти/организация
- статус
- государственная информационная система
- регион, если есть региональная привязка

Пока полностью завершена только привязка домена к госоргану/организации

Не завершены: классификация сайтов по типу, не заполнены данные по госсистемам, пока очень немного заполнено по региональной привязке.

Все домены можно также просмотреть в Airtable [3] где ведется оригинал базы данных.

Зачем это нужно? Первая и основная задача - это необходимо для архивации сайтов в рамках национального цифрового архива [4], другие задачи включают вопросы мониторинга приватности, например, проверку использования HTTPS вместо HTTP и доверенные сертификаты. По аналогии с pulse.cio.gov в США [5].

Дополнительно отмечу что весь этот маленький проект ведётся внутри Информационная культура без какого-либо финансирования. Фактически мы за Минкомсвязь РФ делаем их работу. Пусть хотя бы начнут пользоваться и мониторить госинфраструктуру, потому что есть подозрения что они сами не знают как там всё устроено;)

Вот некоторые цифры и факты:
- более 2500 сайтов (33% от общего числа) - это сайты судов и судебной системы из системы ГАС Правосудие
- чуть более 11% госдоменов находятся в зоне .gov.ru,
- не все домены в зоне .gov.ru ведутся госорганами, есть те которые ведут учреждённые государством НКО
- до сих пор у многих сайтов первичен доменный префикс www
- список доменов неполон, за эти годы несколько госорганов создали "фермы-сайтов" которые будет крайне сложно переносить на один домен, если правительство такое когда-либо задумает. Такие "фермы сайтов" есть у Минобороны, МВД, Судебного департамента, Следственного комитета, Роспотребнадзора и многих других.
- часть госорганов перевели все региональные сайты терр управлений на общий домен, а домены субъектов теперь перенаправляют на него. так сделали ПФР, ГИБДД, ФНС и др.
- сейчас почти не включены домены госучреждений, но они собраны из первосточников и тоже есть в репозитории.

Очищенные данные, исходный код и первичные данные - все выложены на GitHub. В конечном итоге результатом будет собранная база данных, API и веб интерфейс надстройки. И охват всех уровней власти конечно.

Ссылки:
[1] https://github.com/infoculture/govdomains/
[2] https://github.com/infoculture/govdomains/tree/master/refined
[3] https://airtable.com/invite/l?inviteId=inviQBG5Acys5mrEn&inviteToken=0b5ac06d25a4e88470b1c2916fcc4941008dd2dcb312dcfe88bdc2841af9774b
[4] http://ruarxive.org
[5] https://pulse.cio.gov

#opendata #data #government #domains
Для тех кто интересуется дата-журналистикой, робо-журналистикой и тд. подоспела новая тема - ИИ журналистика. Журналистика искусственного интеллекта. Хорошая библиография [1] есть в блоге Лондонской школы экономики. Очень будет полезно и для тех журналистов кто учится и выбирает темы для выпускных работ, и для тех журналистов кто хочет быть на краю технологий или думает о стартапах в своей отрасли

Ссылки:
[1] https://blogs.lse.ac.uk/polis/2019/10/25/journalism-and-artificial-intelligence-a-bibliography/

#ai #journalism
Много вопросов к нам приходит про то как будет развиваться проект Счетной палаты Российской Федерации Госрасходы [1], чем он отличается от уже существующих государственных проектов ЕИС [2] и ЕПБС [3].

Ответ в этой картинке, карта данных по госфинансам в вопросах и ответах.

Что мы будем делать? Отвечать на эти вопросы. А вот то в какой последовательности я пока не расскажу.

Потому что "Хочешь рассмешить Бога - расскажи ему о своих планах" (c).

А вот я напомню что в рамках проекта у нас предусмотрена "Дата лаборатория" [4] и мы не только сами будем публиковать результаты подготовки данных и исследований в виде материалов и кода в Jupyter Notebook, но и предполагаем партнерство со всеми научными центрами работающими с данными по госфинансам.

Пишите если хотите начать работать с этими данными, ведете исследования, пишите научную статью и так далее.

Ссылки:
[1] https://spending.gov.ru
[2] http://zakupki.gov.ru
[3] http://budget.gov.ru
[4] https://spending.gov.ru/datalab/

#opendata #spending #data
Для тех кто ищет инструменты цифровой трансформации, работы с данными, открытый код готовых проектов и тд. в мире, специальная подборка примеров:

- Observatory of Public sector innovation [1] проект ОЭСР по истематизации лучших практик организации проектирования госуслуг, государственных систем, организации форсайтов, мозговых штурмов и так далее.
Всего более 300 инструментов включая 9 игр [2]

- мобильное приложение цифрового гражданства Италии [3] и его открытый код с подробным описанием компонентов, организации процесса разработки и дорожной карты

- лучшие практики разработки исходного кода команды 18fF [5] в США. Охватывает языки Python/Ruby/Node, принципы выбора языка и разные стадии разработки

- австралийская система дизайна компонентов государственных сайтов [6], весьма детально проработанная с охватом всех возможных элементов работы приложений и сайтов

Ссылки:
[1] https://oecd-opsi.org/search-toolkits/
[2] https://oecd-opsi.org/search-toolkits/
[3] https://io.italia.it/
[4] https://github.com/teamdigitale/io-app
[5] https://github.com/18F/development-guide
[6] https://github.com/govau/design-system-components

#opendata #opensource #tools
Гриша Бобук @addmeto пишет про recreation.gov и о том что это хороший неполитический пример того что государство может делать хорошо. На самом деле таких примеров в мире немало и в России тоже есть, но в другой области. Лучший пример в России культура.рф [1].

Но как бы сказать поточнее, конечно это всё политика, не макро политика возможно, но качество госуправления и концентрация компетенций. Например, американская система закупок мягко говоря далека от идеала. Запуск healthcare.gov в США - это мыльная опера с элементами трагикомедии, а 18F - наоборот мирового уровня группа разработчиков с открытым кодом. Везде есть хорошее и плохое и та часть политики которая называется качеством государственной политики и госуправления. Не politics, но policy

[1] https://культура.рф
Forwarded from addmeto
А вот еще одно, и опять не про политику: recreation.gov это только что запущенный сайт о туризме в штатах, сделанный государством. И это что-то невероятное, действительно человечный и полезный ресурс с информацией о том, где что посмотреть и как туда добраться. А можно нам такой же по России? Хотя сначала придется дороги построить, конечно https://www.recreation.gov/