Ivan Begtin – Telegram

Ivan Begtin

8.02K subscribers

1.73K photos

3 videos

101 files

4.43K links

I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech

Download Telegram

About

Blog

Apps

Platform

8.02K subscribers

Я ведь говорил что самое самый закрытый регион в части информатизации - это Москва?

Вот наглядный пример.

Есть такая информационная система города АИС "Депозитарий договоров и соглашений ПМ"
Казалось бы, должна быть очень публичной, а по ней вообще никакой публичной информации кроме упоминания в "реестре информационных систем" под номером 100215 и так по списку там ещё много чего.

Другой пример, АИС ЕГФДЭМ Автоматизированная информационная система "Единый городской фонд данных экологического мониторинга. Сбор, анализ и прогноз экологической обстановки в городе Москве и представление экологической информации органам государственной власти и населению. ГИС "Экология города" [1],

Автоматизированная информационная система Мэрии Москвы без публичного контура, всё закрыто авторизацией. Сведений о системе также минимум, в основном из презентаций её разработчика [2].

Откуда можно узнать как она выглядит и то что частично сгружает данные на портал открытых данных Москвы. Существенное отличие того что есть в системе и того что отдаётся на портал - это то что отгружаются ежемесячно среднемесячные показатели, иначе говоря, агрегированные угрублённые данные не позволяющие принимать решения. А в оригинальной системе хранится всё.

Аналогично ещё со множеством других информационно аналитических систем города данные из которых не раскрываются, не публикуются, а те что ранее публиковались на data.mos.ru не обновляются уже долгое время.

Ссылки:
[1] http://ecomonitor.mos.ru
[2] https://russiasmartcity.ru/uploads/attachments/4f3d2319a0033b1abed17dcc3e33f34e.pdf

#opendata #moscow

2.6K viewsIvan Begtin, 10:04

То во что выродилась контрактная система в России можно увидеть на основе материала в Коммерсанте по выбору единственного исполнителя на систему Безопасный город [1]. Фактическая конкуренция идёт не на рыночном, а на административном уровне, между государственными структурами разных форм собственности и существования.

Фактические тренды в расходах государства на ИТ на уровне федеральных органов власти и администраций субъектов уже много лет такие:
- если можно создать АНО и дать ему субсидию, то так и происходит (остальные работы не подпадают под закон о госслужбе, 44-ФЗ и 223-ФЗ)
- если можно создать ФГАУ/ГАУ (автономное учреждение), то дать ему госзадание и субсидию на его выполнение, а ГАУ далее контрактуется по 223-ФЗ, условия проще, поставщиков можно не раскрывать
- если есть возможность, выбрать подчинённое ГБУ и осуществлять in-sourcing (нанимать сотрудников команды разработчиков внутри органа власти)
- на самом высоком уровне заключать контракты с ед. исполнителем отбираемым постановлением Правительства или Указом Президента

Все причины проистекают из 44-ФЗ, закона о госслужбе и регулирования бюджетных учреждений и органов власти, в первую очередь в части оплаты труда и требований к режимам работы.

Ссылки:
[1] https://www.kommersant.ru/doc/4449344

#government #digital

Коммерсантъ

«Безопасный город» берут штурмом

На создание IT-системы для МЧС появилось несколько претендентов

2.4K viewsIvan Begtin, 06:43

В качестве напоминания, один из небольших проектов в Инфокультуре, как часть национального цифрового архива [1], я веду реестр всех доменов органов власти в репозитории на Github [2].

Сейчас в репозитории два больших обновления:
1. В папку refined [3] выложена рабочая версия обогащённых и очищенных данных по 7500 доменам в зоне .gov.ru и иным корневым доменам федеральных органов власти.
Это включает следующие сведения:
* feddomains.csv - домены в ведении федеральных органов власти
* organizations.csv - организации управляющие доменами федеральных органов власти
* govsystems.csv - государственные информационные системы к которым домены привязаны
* asn.csv - подсети (ASN) с привязкой к ним доменов
* regions.csv - регионы к которым привязаны домены федеральных органов власти

2. В папку "regional/77" выложен обновлённый список доменов связанных с Правительством Москвы (большая часть это поддомены домена mos.ru), всего 2265 доменов. Эти пока нерассортированная, неверифицированная куча доменов каждый из которых необходимо будет верифицировать в будущем. Большая часть систем города Москвы делается через "прокладку" в лице ДИТ Москвы и точки выхода API, контентных сайтов и т.д. не всегда локализованы в конкретных поддоменах. За полтора года поддоменов домена mos.ru стало значительно больше, весьма, весьма больше.
—
Я очень давно хотел эту работу проделать чтобы систематизировать стратегию архивацию сведений с официальных сайтов. В последнее время появилось слишком много сайтов внутри которых есть те или иные ограничения из-за которых веб-архивация не работает. Кстати, сам сайт Мэрии Москвы www.mos.ru устроен именно так, значительная часть сведений на страницах отдаются через API и JSON, в результате веб архивация не работает, поиск по документам внешний поиск тоже работает не очень.

Поэтому сейчас каждому веб-сайту в экспортированном списке feddomains.csv указывается стратегия архивации, факт архивации и, в будущем, факты наличия архивов. Следующим, непростым шагом, задача по сопоставлению огромной свалки архивов которая хранится на серверах национального цифрового архива со списком доменов чтобы понять по каким сайтам архивы есть, а по каким нужно срочно запускать процесс архивации.

Обратите внимание что все приведенные выше материалы являются рабочими. Далеко не по всем сайтам определена их региональная привязка, не все информационные системы привязаны и далеко не все метаданные заполнены. Более менее полными можно считать пока сам список доменов, типизацию сайтов, список организаций и ASN.

Если хотите помочь в этом, то пожелания и предложения доменов/сайтов для каталогизации направляйте в репозиторий через механизм issues [5].

P.S.
Вообще лично я надеялся много лет что Минцифра или Минэкономразвития сама рано или поздно сделают нормальный реестр госдоменов, вместо убогого Gosmonitor'а [6], но не дождался и уже много лет делаю сводный реестр самостоятельно в рамках Инфокультуры @infoculture.

Ссылки:
[1] https://ruarxive.org
[2] https://github.com/infoculture/govdomains
[3] https://github.com/infoculture/govdomains/tree/master/refined
[4] https://github.com/infoculture/govdomains/tree/master/regional/77
[5] https://github.com/infoculture/govdomains/issues
[6] https://gosmonitor.ru

#government #govdomains #infoculture

Russian national digital archive (ruarxive.org) | Russian national digital archive (ruarxive.org)

Archive of digital-born websites, data, images, video and other objects

1.4K viewsIvan Begtin, 07:42

Я стараюсь находить на выходных по 1-2 часа времени для выкладки и актуализации старого кода и реестров.

Около 8 лет назад я занимался построением онтологии госуправления и экономической географии и в RDF/OWL моделировал и то и другое пытаясь сформировать эталонные справочники и правила их наполнения.

Далее эти справочники были нужны для незавершенного проекта по экономическим и социальным показателям/рейтингам по субъектам федерации.

Но других проектов идёт много, регулярно нужны эталонные справочники и такой справочник по субъектам федерации на выходных я раскопал, почистил и выложил сегодня в репозитории кода [1].

Многие из этих данных (не все) можно выковырять из Википедии и DBPedia, но в сведенном варианте их не было.

Справочник включает:
- наименованиях субъектов федерации
- коды субъектов (ОКАТО, КЛАДР, налоговые, автомобильные, коды по ISO 3166, коды по ГОСТ 67 и другие)
- сведения о макрорегионах в которые субъекты федерации входят
- сведения о пограничных регионах
- сведения о пограничных странах, если есть
- сведения о железных дорогах
- сведения о федеральных трассах
- сведения о морских побережьях (омывающих морях)
- сведения о наименованиях и ссылках органов власти субъектов федерации

Кому может пригодится такой справочник? Для каких задач?
1. Строите рейтинг по регионам и хотите сравнить позицию региона среди регионов входящих в тот же экономический район, федеральный округ, военный округ, с регионами с которыми у него общая граница и тд.
2. Ищите корреляции социально-экономического положения и других факторов, часть факторов есть в этих метаданных. Например есть ли у субъекта федерации выход к морю (is landlocked) или тип субъекта федерации (республика, область, город федерального значения) и так далее.
3. Нужно обогащение данных для организации навигации в своём проекте, расширение внутренних справочников и тд.

Наверняка есть другие области применения которые я не знаю.

Дальнейшие планы, в будущем:
1. Реестр должен быть актуализирован, поскольку многие ссылки не обновлялись с 2012 года.
2. Расширение реестра другими метаданными привязанными к субъектам федерации (площадь, численность населения и тд)
3. Постепенный охват крупнейших городов муниципальных образований и всех муниципальных образований в будущем

Если есть идеи и предложения какие ещё факторы/признаки/метаданные необходимы и полезны для работы, например, data scientist'ов, то обязательно напишите, реестр будет развиваться.

И, конечно, поскольку это открытый код/данные на Github то прямо в нем можно корректировать данные и вносить дополнения.

P.S. Я давно подумываю создать открытый репозиторий эталонных реестров и справочников, не только официальных государственных, а деятельностных, отсутствующих, но необходимых в работе.

Ссылки:
[1] https://github.com/infoculture/ruregions

#opendata #data #registries

GitHub - infoculture/ruregions: Registry of all Russian regions and regional metadata like codes, borders, macro and subregions…

Registry of all Russian regions and regional metadata like codes, borders, macro and subregions and e.t.c. - GitHub - infoculture/ruregions: Registry of all Russian regions and regional metadata li...

1.4K viewsIvan Begtin, 10:49

О культуре работы с данными в госорганах можно поговорить на примере Росреестра. Официальная позиция Росреестра сейчас "пользуйтесь нашим API, всё остальное запрещено". Во вчерашнем их твите про сайты двойники и их опасность [1] недосказанность в том что не было бы этих посредников если бы сервисы Росреестра нормально работали, если бы служба занималась не борьбой с бизнесом, а его легализацией.

Я могу описать 5-6 сценариев того как это можно сделать соблюдая все требования законодательства и это, мягко говоря, не так уж сложно. Просто надо работать, а не писать в твиттере о том какие эти посредники плохие, а Росреестр хороший.

Росреестр - это пример плохих сервисов работы с данными. И, к сожалению, становится только хуже.

Ссылки:
[1] https://twitter.com/rosreestr_info/status/1293210158273835009

#rosreestr #data #business

Росреестр

Чем опасны сайты-двойники Росреестра❓ Их деятельность противоречит целому ряду федеральных законодательных актов и направлена исключительно на извлечение прибыли. Официальные сайты: https://t.co/5vKySzGE13 и https://t.co/U6QRU5BKKH

1.3K viewsIvan Begtin, 06:07

Новость полезная для всех кто работает с международными данными и сравнением по странам. Всемирный банк изменил классификацию стран по доходам на душу населения, немного повысив критерии отнесения стран к группам.
Так ранее для стран с низким доходом населения (low income) сумма была в USD 1,026 в год, то теперь 1,036. Изменения небольшие, но они есть, полный список их есть в блоге Всемирного банка [1] и там же изменения в классификации стран по доходам в связи с этой корректировкой методологии и экономическим развитием.

Поднялись на категорию выше: Бенин, Индонезия, Маврикий, Науру, Непал, Румыния, Танзания.
Например, Румыния поднялась из upper-middle income до high income (то есть теперь выше России по классификации).

Опустились на одну категорию: Алжир, Шри Ланка, Судан.

В России сведения о ВРП за 2019 год до сих пор недоступны. Соответствующий показатель в системе ЕМИСС [1] охватывает только 1996-2018 годы, соответственно и измерить изменения в классификации регионов тоже затруднительно, хотя и было бы безусловно интересно

Ссылки:
[1] https://blogs.worldbank.org/opendata/new-world-bank-country-classifications-income-level-2020-2021
[2] https://fedstat.ru/indicator/42928

#opendata #data

World Bank Blogs

New World Bank country classifications by income level: 2020-2021

The World Bank assigns the world’s economies to four income groups — low, lower-middle, upper-middle, and high-income countries. The classifications are updated each year on July 1 and are based on GNI per capita in current USD...

2.8K viewsIvan Begtin, 06:50

В Algorithmwatch история о том как в Испании в 2016 году внедрили систему распознавания лиц на крупнейшем автобусном терминале [1].

Крупнейший в Испании автобусный терминал находится на юге Мадрида (Madrid South Station) и через него проходят около 20 миллионов человек, за 2019 год. В 2016 году на нём установили ПО по автоматическому распознаванию лиц, всего на 9 камерах из 100.

Всё это проходило в рамках частно-государственного партнерства и, в отличие от других проектов по распознаванию лиц в Испании, здесь всё работало и во время коронавируса и опасений правозащитников.

Ссылки:
[1] https://algorithmwatch.org/en/story/spain-mendez-alvaro-face-recognition/

#privacy #facerecognition

Spain’s largest bus terminal deployed live face recognition four years ago, but few noticed - AlgorithmWatch

Madrid South Station’s face recognition system automatically matches every visitor’s face against a database of suspects, and shares information with the Spanish police.

1.4K viewsIvan Begtin, 07:19

Не только в России данные и документы исчезают из госсайтов и информационных систем. Например, с сайта Департамента внутренних дел в США исчезли бюджетные корректировки (budget justifications) за 19 лет и остались только за последний год. Об этом пишут у себя в блоге [1] Environmental Data and Governance Initiative (EDGI), команда проекта по сохранению данных о изменении климата и мониторингу доступности государственных данных и проектов по измерению состояния окружающей среды.
Они же сделали об этом подробный доклад [2], разобрав ситуацию во всех подробностях.

Важная особенность общественного контроля именно в США в том что есть частные фонды финансирующую подобную деятельность. Так EDGI получили чуть менее 1 миллиона долларов грантами от Doris Duke Charitable Foundation и The David and Lucile Packard Foundation.

Кстати у команды проекта EDGI вышла весьма полезная научная статья Risk Assessment for Scientific Data [3], о том как прогнозировать риски исчезновения данных необходимых для академических исследований и о том как эти данные сохранять.

Ссылки:
[1] https://envirodatagov.org/financial-transparency-is-dwindling-at-doi/
[2] https://envirodatagov.org/wp-content/uploads/2020/07/AAR-13-DOI-Budgets-20200728.pdf
[3] https://datascience.codata.org/articles/10.5334/dsj-2020-010/

#data #opendata #datarisks

Environmental Data and Governance Initiative

Financial Transparency is Dwindling at DOI – Environmental Data and Governance Initiative

There has been a significant reduction in the financial transparency of the Department of the Interior (DOI). Between April and May 2020, DOI removed the budget justifications for all years prior to FY2020 that had been hosted on its DOI.gov website. The…

1.4K viewsIvan Begtin, 04:25

The Algorithmwatch статья [1] о польской системе STIR (System Teleinformatyczny Izby Rozliczeniowej) системе которая автоматически идентифицирует подозрительные транзакции и операции фирм однодневок.

Система работает на основе засекреченного алгоритма и отслеживает все операции с европейским аналогом НДС, VAT. Она идентифицирует случаи операций мошенничества и на основе её мониторинга глава налогового офиса и региональные представители налоговой службы в Польше принимают решения о заморозке счетов компаний от 72 часов до 3 месяцев и без уведомления самих компаний.

В 2018 году так заморозили 41 счет 23 организаций, в 2019 году 537 счет у 113 организаций. Польский Минфин оказался доволен внедренной системой [2], а Евросоюз предполагает внедрение аналогичной системы Central Electronic System of Payment information (CESOP) к 2024 году [3]

Ссылки:
[1] https://algorithmwatch.org/en/story/poland-stir-vat-fraud/
[2] https://podatki.gazetaprawna.pl/artykuly/1451268,stir-zablokowano-rachunek-bankowy.html
[3] https://ec.europa.eu/taxation_customs/taxation/central-electronic-system-payment-information-cesop_en

#data #taxes #eu #poland

Pre-crime at the tax office: How Poland automated the fight against VAT fraud. - AlgorithmWatch

In their fight against fraud, Polish tax authorities use STIR, an algorithm sifting through the data of millions of entrepreneurs. The government claims success, but dozens of companies have been hit, some say wrongly.

1.6K viewsIvan Begtin, 12:41

Вышла новая версия Jupiter Notebook, под новым названием Jupiter Book [1]
Из новых возможностей:
- переход на язык разметки MyST Markdown [2]
- новая система сборки с поддержкой Jupiter Cache [3], запускающая исполнение notebook'а только при изменении кода
- больше интерактивности
- возможность сборки с командной строки

Jupiter Book - это стандарт де-факто для работы аналитиков и специалистов по data science и изменения в нём важны для всех кто работает с данными на регулярной основе.

UPD. Как меня поправляют читатели, это не новая версия версия Jupiter Notebook, но возможность преобразовывать .ipynb в книжке в виде новой версии инструмента. Что, впрочем, не отменяет его полезность.

Ссылки:
[1] https://blog.jupyter.org/announcing-the-new-jupyter-book-cbf7aa8bc72e
[2] https://myst-parser.readthedocs.io/en/latest/
[3] https://jupyter-cache.readthedocs.io/

#data #datascience #python

Announcing the new Jupyter Book

Note: this announcement is cross-posted between the Jupyter Blog and the Executable Book Project updates blog

2.1K viewsIvan Begtin, edited 18:51

Те кто работал когда-либо с многочисленными библиотеками в языке Python знают про то как часто там одними и теми же словами называется разное или разными словами одинаковое и как оно часто несовместимо между собой.

Команда из Quansight Labs [1] сформировала консорциум по унификации API по работе с данными в языке Python [2], при поддержке таких компаний как Intel, Microsoft, Tensorflow, Google Research и других. О том почему это так важно и сколько накопилось отличий между библиотеками numpy, cupy, dask.array, jax, mxnet, pytorch и tensorflow они пишут в блоге этого консорциума [3]

Это хорошая инициатива, с открытым кодом [4] и полезными результатами для сообщества.

Ссылки:
[1] https://labs.quansight.org/
[2] https://data-apis.org
[3] https://data-apis.org/blog/announcing_the_consortium/
[4] https://github.com/data-apis

#python #data

Consortium for Python Data API Standards

1.4K viewsIvan Begtin, 19:03

В The Barrons статья Susan Ariel Aaronson о том почему личные данные американцев - это вопрос национальной безопасности [1] и о инициативе Clean Network по защите данных американцев от китайской коммунистической партии [2].

Автор в статье, при этом, как бы даже не намекает, а говорит прямо что указывать компаниям в других странах и юрисдикциях надо после того как навести порядок в самих США с нарушением приватности граждан.

А вот сама инициатива, Clean Network весьма примечательна. Она была анонсирована 5 августа и включает 5 направлений:
- Clean Carrier - не допускать китайские компании к подключению к телекому в США
- Clean Store - не допускать китайские приложения в магазины приложений в США
- Clean Apps - не допускать мобильным устройствам из Китая иметь предустановленные приложения и загружать из из магазинов приложений из других стран
- Clean Cloud - не допускать обработку персональных данных и иных чувствительных данных в китайских облачных сервисах
- Clean Cable - не допускать прослушку морских кабелей китайскими разведчиками.

И без меня достаточно желающих рассказать о том как, на самом деле, в США компании и разведывательные агентства следят за всем миром, так что я воздержусь от этого.

Но обращу внимание что что практика копирования зарубежного регулирования со своими модификациями распространена в России.

Ссылки:
[1] https://www.barrons.com/articles/why-personal-data-is-a-national-security-issue-51597244422
[2] https://www.state.gov/announcing-the-expansion-of-the-clean-network-to-safeguard-americas-assets/

#china #usa #personaldata #privacy

Why Personal Data Is a National Security Issue

Targeting TikTok, WeChat, and other Chinese apps won't solve America's fundamental data problems.

1.4K viewsIvan Begtin, 04:18

С января 2020 стартовал европейский проект TRUSTS [1] по созданию платформы торговли персональными и проприетарными данными с учётом всех правил и ограничений Евросоюза, включая GDPR. В проекте участвует консорциум из 17 организаций, академических, финансовых, стартапов в области данных, а Евросоюз выделил на него чуть менее 6 миллионов евро на 3 года [2].

Этот проект создан в рамках направления "Supporting the emergence of data markets and the data economy" [3] под которым в Евросоюзе создаются такие проекты как:
- Kraken Brokerage [4] платформа по защите персональных данных в облачных средах
- PIMCITY [5] повышение контроля пользователей за их данными собираемыми веб-сайтами
и многие другие проекты.

По моему опыту наблюдения за проектами в рамках Европейской исследовательской программы Horizon 2020 они редко превращаются в практические системы/стартапы/продукты, но очень часто прямо или косвенно влияют на выработку госполитики и регулирование в Евросоюзе.

Ссылки:
[1] https://www.trusts-data.eu/
[2] https://cordis.europa.eu/project/id/871481
[3] https://cordis.europa.eu/programme/id/H2020_ICT-13-2018-2019
[4] https://cordis.europa.eu/project/id/871473
[5] https://cordis.europa.eu/project/id/871370

#privacy #personaldata #eu

Project Partners

https://youtu.be/eitIXdxLUno
TRUSTS explained
Watch the video and get an insight into one of Europe's innovations!

2.2K viewsIvan Begtin, 04:36

Microsoft Flight Simulator [1] - авиасимулятор нового поколения, вышедший 18 августа этого года, вот это действительно большой и самый что ни на есть показательный пример применения открытых данных и технологий работы большими (очень большими) данными. Авиасимулятор работает на основе 2.5 петабайта данных, хранимых в облаке Azure и созданных на основе данных OpenStreetMap и Bing Maps, а также огромного объёма машинного обучения и определения цвета и типа крыш, типа зданий и тд. и тп.

В обзоре от Protocol [2] описывается как серьёзный шаг вперед о сравнению с современной облачной гейминдустрией.

Но не обошлось без казусов, поскольку используются краудосинговые данные которые не всегда хорошо проверены, иногда опечатка может приводить к странным результатам, как, например, гигантский обелиск у Мельбурна [3].

Авиасимулятор, ожидаемо, невероятно требователен к дисковому пространству, его необходимо не менее 150 гигабайт, к каналу связи, оперативной памяти и процессору.

Ссылки:
[1] https://en.wikipedia.org/wiki/Microsoft_Flight_Simulator_(2020_video_game)
[2] https://www.protocol.com/microsoft-flight-simulator-2020
[3] https://www.theverge.com/2020/8/21/21395084/microsoft-flight-simulator-melbourne-obelish-openstreetmap-bing-maps-data-glitch

#opendata #gaming

Microsoft Flight Simulator (2020 video game)

2020 flight simulator video game developed by Asobo Studio

2.4K viewsIvan Begtin, 06:19

Курс по дата-этике [1] от Jeremy Howard, создателя Kaggle - это бесплатный академический онлайн курс из 6 уроков:

1. Disinformation
2. Bias & Fairness
3. Ethical Foundations & Practical Tools
4. Privacy & surveillance
5. Our Ecosystem: Metrics, Venture Capital, & Losing the Forest for the Trees
6. Algorithmic Colonialism, and Next Steps

Ранее автор его лично читал в Университете Сан-Франциско в Data Institute в январе-феврале 2020 года [2] , а сейчас курс доступен всем желающим.

А я напомню и про другой курс, того же автора Practical Deep Learning for Coders [3] который связан с книгой Deep Learning for Coders with fastai and PyTorch: AI Applications Without a PhD [4] вышедшей 4 августа 2020 года.

Если Вы хотите разобраться в этике работы с данными при машинном обучении, то сейчас эти курсы, особенно первый, лучшее с чего можно начать

Ссылки:
[1] http://ethics.fast.ai/
[2] https://www.usfca.edu/data-institute
[3] https://course.fast.ai/
[4] https://www.amazon.com/Deep-Learning-Coders-fastai-PyTorch/dp/1492045527

#ai #deeplearning #dataethics

Practical Data Ethics

Free, online course from fast.ai and USF Data Institute covering disinformation, bias & fairness, ethical foundations, practical tools, privacy & surveillance, the silicon valley ecosystem, and algorithmic colonialism

2.1K viewsIvan Begtin, 08:00

За время коронавируса появляются новые отраслевые озёра данных (data lakes) для исследователей, многие с коммерческим уклоном. Например, CVID data lake [1] в рамках продукта Cortelis Research Intelligence от Clarivate [2] аналитического агентства с широким спектром продуктов для исследователей. Они анонсировали это облако, буквально, 5 дней назад, 20 августа [3] и, пока, без подробностей того что находится внутри него.

Существует и другое, бесплатное озеро данных, C3.ai COVID-19 Data Lake [4] от C3.ai соответственно. Подробностей чуть больше, есть демо и описание доступа к озеру через REST API с примерами в Jupiter Notebook и других научных записных книжках. О них была заметка в Forbes [5] ещё в мае 2020 года.

Чуть более простое и, также, бесплатное озеро данных по COVID-19 есть в Amazon AWS [6], включая базы данных и наборы данных особенно большого размера. Например, CORD19 [7], база исследований по коронавирусу для которой на базе AWS существует, в том числе, поисковик cord19.aws [8]

Несколько меньшее по объёму озеро данных есть и в облаке Microsoft Azure [9].

Озера данных это не единственный способ работы исследователей с данными связанными с коронавирусом. Офис стратегии по науке работы с данными при National Institutes of Health в США ведет реестр открытых (open access) ресурсов для исследователей [10] работающих с данных.

В целом складывается ощущение что формирование озер данных в отраслевом применении становится трендом и, в зависимости от выбранной стратегии, здесь большую роль могут сыграть крупнейшие игроки облачных сервисов. Фактически, постепенное развитие Azure Open Datasets, Google BigQuery и Open Data on AWS и показывает что большие общедоступные наборы данных - это хорошая приманка для пользователей облачных сервисов. Некоторые наборы и базы данных давно существуют, только, в облаках. Например, база поискового индекса Commoncrawl существует по умолчанию на Amazon AWS [11]

Для этого у Amazon есть Open Data Sponsorship program [12], у Microsoft есть Open Data Initiative [13], у Google нет отдельной программы, но есть рассказ о том как они работают над открытостью кода и данных [14]

Подводя итог, очень похоже что озера данных для исследователей окажутся устойчивым продуктом и далее будут существовать в двух формах. Профессиональной - закрытые озера данных для профессионалов, с большим числом узкоспециализированных инструментов и общедоступной форме где данные предоставляются крупнейшими игроками облачных решений в рамках их инициатив по открытым данным.

Ссылки:
[1] https://clarivate.com/cortellis/solutions/cvid-data-lake/
[2] https://en.wikipedia.org/wiki/Clarivate
[3] https://finance.yahoo.com/news/clarivate-launches-coronavirus-virology-infectious-140300688.html
[4] https://c3.ai/products/c3-ai-covid-19-data-lake/
[5] https://www.forbes.com/sites/adrianbridgwater/2020/05/27/tom-siebels-c3ai-charts-new-data-lake-for-covid-19-research/
[6] https://aws.amazon.com/ru/covid-19-data-lake/
[7] https://www.semanticscholar.org/cord19
[8] https://cord19.aws
[9] https://azure.microsoft.com/ru-ru/services/open-datasets/catalog/covid-19-data-lake/
[10] https://datascience.nih.gov/covid-19-open-access-resources
[11] https://registry.opendata.aws/commoncrawl/
[12] https://aws.amazon.com/ru/opendata/open-data-sponsorship-program/
[13] https://www.microsoft.com/en-us/open-data-initiative
[14] https://www.blog.google/technology/research/open-source-and-open-data/

#datalakes #data #opendata #covid19 #research

Coronavirus, Virology and Infectious Disease (CVID) Data Lake- Cortellis

Analyze the COVID-19 & infectious disease landscape like never before. Our CVID data lake combines comprehensive data assets, analytics and experts.

1.3K viewsIvan Begtin, 04:37

Правительство утвердило Концепцию регулирования технологий ИИ и робототехники, новость на сайте Минэкономразвития [1] и в Российской газете [2] почему-то не содержит ссылки на текст самого актуального документа этой концепции. И тут я не могу не напомнить про одну большую проблему с сайтом федерального правительства и доступности информации на нём. Документы там публикуются с задержкой в месяц, если сейчас (25 августа) открыть сайт в разделе поиска по документам [3] то там будут документы начиная с 25 июля 2020 года. Некоторые, избранные, документы публикуются чуть актуальнее, за 22 августа [4].

Для сравнения, материалы на официальном интернет-портале правовой информации (publication.pravo.gov.ru) публикуются с задержкой около 3-6 дней с момента подписания [5]. Конечно, надо делать коррекцию на выходные и праздничные дни, но, в общем и в целом, что-то не так с публикацией документов на сайте федерального правительства.

Отходя ещё дальше от концепции и взглянув на номера публикуемых документов мы можем увидеть что на 21 августа было принято 1262 Постановление Правительства (ПП) и 2141 Распоряжение Правительства (РП). В прошлом году всего было принято 1960 ППсок и 3273 РПсок.

Для сравнения, последний номер Указа Президента (УП) на 21 августа был номер 520, в прошлом году их было 604 за весь 2019 год. Кстати на сайте Президента (kremlin.ru) также задержка с публикацией документов в 1.5 месяца (45 дней) [6]

А вот федеральных законов (ФЗ) у нас уже 309 на 31 июля 2020 года, в прошлом году было всего 444, а на 30 июля их было всего 256 [7].

Подвожу итоги:
- количество принятия постановлений и распоряжений правительства, указов Президента и фед. законов выросло за 2020 год несмотря на коронавирус;
- мои оценочные прогнозы к концу года: 4000 РП, 2500 ПП, 800 УП и 600 ФЗ
- оперативность публикации документов на сайтах Правительства и Президента РФ значительно снизилась
- качество написанных документов лучше оценят специалисты

P.S. Статистику нормативной деятельности я веду в небольшом проекте lawstats на data.world где есть и цифры и визуализации по принятым НПА с 1994 по 2019 годы, а также списки самих НПА и статистика по ним.

Ссылки:
[1] https://economy.gov.ru/material/news/pravitelstvo_utverdilo_koncepciyu_regulirovaniya_tehnologiy_ii_i_robototehniki.html
[2] https://rg.ru/2020/08/24/utverzhdena-koncepciia-pravovogo-regulirovaniia-iskusstvennogo-intellekta.html
[3] http://government.ru/docs/all/
[4] http://government.ru/docs/
[5] http://publication.pravo.gov.ru/Search/Period?type=weekly
[6] http://kremlin.ru/acts/bank
[7] http://publication.pravo.gov.ru/Document/View/0001201907300064
[8] https://data.world/infoculture/lawstats

#laws #lawstats #ai

1.2K viewsIvan Begtin, edited 05:46

А вот и новости госзакупок связанных с данными в нашей столице. ООО "Центр налоговой политики" [1], директором и единственным бенефициаром которого является, Кирилл Никитин, руководитель российской практики PwC по оказанию услуг государственным органам и компаниям государственного сектора и кандидат в Мосгордуму (остальное желающие сами могут найти в сети), 19 августа выиграло контракт на 100 миллионов рублей [1] у ГБУ города Москвы "Аналитический центр".

Тема контракта весьма интересна: выполнение научно-исследовательской работы по теме «Разработка методологии и реализация комплекса мероприятий по оперативному индикативному мониторингу и прогнозированию состояния отраслей экономики города Москвы».

Фактически он про НИР про работу с данными о состоянии экономики Москвы, про анализ источников, систематизацию и тд.

На что стоит обратить внимание так это на то как этот контракт устроен поэтапно:
- этап 1: даты 20.08.2020 - 18.09.2020 -> ~50 млн. рублей
- этап 2: даты 19.09.2020 - 17.12.2020 -> ~30 млн. руб
- этап 3: даты 18.12.2020 - 30.06.2021 -> ~20 млн рублей

Если считать в такой "смешной" единице измерений как миллионо-день то получится:
- этап 1: 50 млн. руб / 29 дней = 1,72 млн. руб в день
- этап 2: 30 млн. руб / 89 дней = 0,337 млн. руб в день
- этап 3: 20 млн. руб / 194 дней = 0,103 млн. руб в день

А теперь самое интересное, задачи первого этапа из ТЗ контракта (барабанная дробь):
1. Разработка плана мероприятий по организации индикативного мониторинга и прогнозирования состояния экономики города Москвы
2. Разработка плана мероприятий по разработке требований к автоматизированной системе мониторинга и отраслевых мер налоговой и бюджетной политики, способствующих экономическому росту в ключевых отраслях экономики города Москвы
—
Стоит ли это 50 миллионов рублей за 29 дней? Серьёзно? Два плана мероприятий за месяц и 50 миллионов? Интересно, какая там "маржа" заложена к себестоимости, 1000% ?

Ссылки:
[1] https://www.tax-policy.ru/
[2] https://zakupki.gov.ru/epz/contract/contractCard/document-info.html?reestrNumber=2770483583420000012

#data #spending #moscowgovernment #moscow

2.1K viewsIvan Begtin, 07:37

Forwarded from Госзатраты

[1] Научные исследования: cамые дорогие контракты за прошедшую неделю 16.08.2020-23.08.2020:
Услуги, связанные с научными исследованиями и экспериментальными разработками в области прочих общественных наук и др.
Сумма контракта: 100 млн. руб.
Наименование заказчика: ГОСУДАРСТВЕННОЕ БЮДЖЕТНОЕ УЧРЕЖДЕНИЕ ГОРОДА МОСКВЫ "АНАЛИТИЧЕСКИЙ ЦЕНТР"
Поставщик: ООО "Центр налоговой политики"
Регион: Москва
Дата заключения: 19.08.2020

Подробнее о контракте
#научные_исследования

1.1K viewsIvan Begtin, 07:37

Forwarded from Ах, этот Минфин (Olya Parkhimovich)

Реестр субсидий на портале Электронного бюджета отображается в обновленном формате. Теперь в нем отсутствуют сведения о ГРБС (надеемся, это техническая ошибка, а не сокрытие данных, как в случае с поставщиками по 223-ФЗ). 🙂

Оперативно выявлять ошибки в открытых данных Минфина России и Казначейства России нам позволяет работа над проектами «Госрасходы» и «Госзатраты». Команды проектов не только собирают, преобразуют и структурируют данные, но и используют их (что редко встречается в госорганах).

Надеемся, указанные проблемы API и веб-интерфейса реестра субсидий будут быстро исправлены.

1.1K viewsIvan Begtin, 13:23

А вот и новости госзакупок связанных с данными в нашей столице. ООО "Центр налоговой политики" [1], директором и единственным бенефициаром которого является, Кирилл Никитин, руководитель российской практики PwC по оказанию услуг государственным органам и компаниям…

Вдогонку к моей прошлой публикации о контракте на индикативный мониторинг и прогнозирование в г. Москве со мной связался Кирилл Никитин, владелец Центра налоговой политики и привожу его комментарии:
- на самом деле цена первого этапа 30 миллионов рублей, а 20 миллионов рублей - это аванс по всему контракту
- с сентября 2019 года в PwC он не работает

Коллеги мне тут напомнили что Кирилл опытный консалтер и вполне возможно что его услуги/услуги его организации столько и стоят. Я не буду лично оценивать, не знаю. Готов выслушать разные мнения.

Но что безусловно, так, к сожалению, Правительство Москвы не публикует результаты таких контрактов. И к этом также очень и очень много вопросов, но уже не к исполнителям, а к заказчикам.

#spending #moscow #contracts

1.2K viewsIvan Begtin, 12:37