Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
О том как публикуются большие наборы исследовательских данных не могу не помнить про каталог данных данных компании Amazon [1]. Все опубликованные там данные не их, а данные исследовательских центров. Их немного, всего 220 наборов данных. Они самым простецким образом описаны вместе с исходным кодом на Github'е [2], но их объёмы - это десятки, сотни терабайт. Это одни из крупнейших наборов данных, один из известнейших из них - это Common Crawl [3] открытый поисковый индекс с 50 миллиардами проиндексированных веб-страниц. Только за февраль/март 2021 года в их индекс добавилось 280 терабайт распакованных данных (примерно 80 терабайт в архиве) [4]

Почему Amazon создали такой реестр и в открытую раздают такие объёмы данных? Всё просто, для тех кто работает в их инфраструктуре доступ к этим данным значительно удобнее. А там такие объёмы что их бессмысленно скачивать себе локально, проще арендовать в инфраструктуре Amazon Web Services сервер и через него работать с этими данными. Лично я так и делал несколько лет назад когда работал с веб архивами и с Common Crawl в частности, было куда проще с инфраструктуры Amazon.

При этом их каталог стабильно растёт именно большими исследовательскими наборами данных и это одна из лучших коммерческих инициатив по обеспечению доступности исследовательских данных.

Ссылки:
[1] https://registry.opendata.aws/
[2] https://github.com/awslabs/open-data-registry/
[3] https://registry.opendata.aws/commoncrawl/
[4] https://commoncrawl.org/2021/03/february-march-2021-crawl-archive-now-available/

#opendata #datacatalogs #aws
Слегка отвлекаясь от темы ИТ, команда учёных научилась выращивать мышей в механических матках (mechanical womb) и вырастили таким образом 1000 мышиных эмбрионов [1]. Пока нерешённой проблемой остаётся подача кровя эмбрионам, но рано или поздно она может быть решена.

Те кто читал и помнят в серии книг Лоис Буджолд о Барраяре была технология маточных репликаторов [2]

Остаётся вопрос о том сколько лет пройдет пока эта технология появится? Судя по темпам развития науки, через 10-15 лет такая технология может перейти в стадию промышленной эксплуатации.

И как тогда изменятся социальные отношения и устройство общества?

Ссылки:
[1] https://finance.yahoo.com/news/weizmann-institute-of-science-mechanical-womb-215003047.html
[2] http://cyclowiki.org/wiki/%D0%9C%D0%B0%D1%82%D0%BE%D1%87%D0%BD%D1%8B%D0%B9_%D1%80%D0%B5%D0%BF%D0%BB%D0%B8%D0%BA%D0%B0%D1%82%D0%BE%D1%80

#tech
В США Казначейство опубликовало набор данных о ежесуточных поступлениях в федеральный бюджет U.S. Government Revenue Collections [1]. Это данные начиная с октября 2004 года, обновляемые ежедневно и охватывающие 17 показателей за сутки включая сведения о суммах поступлений, тип поступления (электронно, по почте, через терминал) и других.

Если бы к этим данным ещё была декомпозиция по видам налогоплательщиков, видам налогов и неналоговых платежей - было бы ещё интереснее для анализа влияния COVID-19 и других глобальных и менее глобальных событий с точки зрения поступления средств на счета бюджета.

В целом же видно что казначейство США идёт по принципу что "лучше понемногу, но хорошего качества" и публикуют наборы данных с ежедневным и ежемесячным обновлением, с продуманными метаданными, документацией, удобным API и так далее. Что неплохо, но как-то уж очень медленно.

Ссылки:
[1] https://fiscaldata.treasury.gov/datasets/revenue-collections-management/u-s-government-revenue-collections

#opendata #usa #budgets
Написал в рассылку о том "Как реагировать на новое регулирование ИТ и цифры?" [1]. Формат не укладывается в короткие тексты в Telegram, напоминаю что я веду рассылку [2] где стараюсь регулярно рассылать лонгриды на то с чем сталкиваюсь.

Ссылки:
[1] https://begtin.substack.com/p/14
[2] https://begtin.substack.com

#laws #lawmaking #regulation
Полиция Великобритании предупредила студентов страны что доступ к сайту Sci-Hub нелегален. Об этом пишут BBC в заметке Police warn students to avoid science website [1], причём на удивление в стиле российских СМИ, а то есть журналистики официальной реакции, а не инфоповода и без погружения в тему.

Пока же можно узнать что полиция ещё не привлекает студентов к ответственности, но предупреждает что это доступ к незаконному контенту (незаконной интеллектуальной собственности) и рекомендует университетам заблокировать доступ к Sci-Hub.

Но факт остаётся фактом, если бы Sci Hub не существовал, то и давление по поводу открытия научных статей на крупнейшие научные издательства было бы куда слабее. Многие в научной среде считают что модель научной публикации с последующим доступом к статьям за деньги себя исчерпала и Sci Hub - это скорее благо.

Ссылки:
[1] https://www.bbc.com/news/education-56462390

#research #openaccess
Вышел большой доклад ФАО (Продовольственная и сельскохозяйственная организация ООН) о продовольственной безопасности на фоне COVID-19 "The impact of disasters and crises on agriculture and food security: 2021" [1]

В докладе много примеров того что происходит по миру в последние десятилетие и что нас ждёт к 2030 году. Пожалуй, важнейший вывод - это рост числа происшествий и критических ситуаций затрагивающих сельское хозяйство.

При составлении доклада авторы использовали базу FAO и базу EM-DAT [2] The International Disaster Database. Для некоммерческого использовалия эта база доступна и сейчас, например, для исследователей работающих с данными о чрезвычайных происшествиях.

Ссылки:
[1] http://www.fao.org/documents/card/ru/c/cb3673en/
[2] https://emdat.be/

#opendata #FAO #reports #data #disasters
А ведь когда-то федеральное казначейство и Минфин публиковали особенно много данных. А витрины данных хорошая была задумка, похожая на плакат Death&Taxes [1], но Timeplots забросили этот жанр в 2016 году и переключились на интерактивную инфографику. А у Росказны есть не то чтобы такая же, но упрощённая не такая уж плохая инфографика, последний раз опубликованная 2 года назад за 2018 год [2].

Ссылки:
[1] https://www.timeplots.com/collections/catalog/products/death-and-taxes-2016
[2] http://datamarts.roskazna.ru/infografika/ispolnenie-konsolidirovannogo-byudjeta-v-2018-godu/

#opendata
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
На сайте Федерального казначейства опубликован "Проект Итогового доклада о результатах деятельности Федерального казначейства за 2020 год". Про открытые данные там нет ни слова, но зато есть информация об актуализации витрин данных данными за 2019 год (даже скриншот приложен). Правда, на сайте этих данных нет...

https://roskazna.gov.ru/o-kaznachejstve/plany-i-otchety/o-rezultatakh-raboty-fk/
На CNews какая-то странная статья про ОС Fuchsia [1] разработку которой команда в Google ведёт довольно таки давно. Странная потому что явно часть материалов пересекается, например, с заметкой из 9to5google [2], но некоторые утверждения вроде Fuchsia, в отличие от Android, базируется на проприетарном ядре, написанном с нуля и получившем название Zircon совершенно необъяснимы. Также необъяснимо и полное отсутствие ссылок на первоисточник, исходный код Fuchsia доступный по адресу fuchsia.dev [3] где и можно найти это "проприетарное ядро" [4], с кодом под лицензией MIT.

А про саму операционную систему, действительно, много лет ходят разговоры и даже интересно надо ли учитывать крен в новые языки программирования которые станут популярны с выходом Fuchsia в промышленное использование или нет.

Ссылки:
[1] https://www.cnews.ru/news/top/2021-03-22_epoha_android_podhodit_k_kontsu
[2] https://9to5google.com/2021/03/19/fuchsia-friday-first-release-f1/
[3] https://fuchsia.dev
[4] https://cs.opensource.google/fuchsia/fuchsia/+/master:zircon/

#opensource #google
Новый отечественный госсервис, похоже что, информационная система, аналог Национальный Мультисканер virustest.gov.ru в виде системы проверки на вирусы [1] и это такой импортозамещённый VirusTotal [2], но, если VirusTotal поддерживает 60 антивирусов, то здесь их только 3, все отечественные и нет таких важнейших возможностей как проверка через API и ещё многое другое. VirusTotal выдает кратно больше информации о проверяемом файле. Если единственной особой характеристикой Национального Мультисканера является импортозамещённость то всё довольно печально. Вопрос как всегда один и тот же - зачем на это вообще потратили бюджетные средства?

Ссылки:
[1] https://virustest.gov.ru
[2] https://www.virustotal.com

#security #budget
Поскольку я тут регулярно ругаюсь в адрес многих государственных проектов, инициатив и тд., то иногда, для разнообразия, буду и хвалить. Когда есть за что и сразу по несколько.

Что хорошего делалось в наших ФОИВах за эти годы?
- Портал открытых данных Минкультуры [1] - реально лучший из порталов данных ФОИВов. Хороший движок, большая работа и реально много полезных данных и системный подход к его наполнению.
- Культура.РФ [2] когда то второй государственный портал по посещаемости, а теперь наверняка уже и наиболее посещаемый естественным трафиком. Третий [3] в топе рамблера в категории "Культура и искусство" и это не удивительно при ежесуточной посещаемости в 300-400 тысяч человек. Кстати я лично абсолютно убеждёт что если создавать туристический портал для иностранцев или просто проект о России на многих языках, то именно на базе Культура.РФ.
- Национальная электронная библиотека [4], возможно неидеальный, тяжело рождавшийся, но безусловно теперь уже важный электронный архив наследия и онлайн библиотека. Я также считаю что это из тех проектов которые должны и могут существовать на многих языках, не только на русском.
- Реестр государственных информационных систем Санкт-Петербурга [5] наиболее проработанный из всех известных мне реестров подобного рода. Ему нехватает открытых данных, но в остальном он чрезвычайно детален и проработан.
- API Роскачества [6] редкий случай когда доступно API к деятельности организации, обзорам продуктов. Причём API довольно хорошо структурировано и удивительно что его так редко используют.
- много проектов по открытости бюджетов в регионах и муниципалитетах. Даже в очень маленьких муниципалитетах [7] и, хотя, к примеру, @ahminfin часто их ругает, но в целом направление движения было очень верное. Сравнивая с тем что происходит в мире я могу сказать что в России всё очень даже неплохо было и частично сейчас тоже. Хочется надеяться что, к примеру, уход Татьяны Нестеренко из Минфина этот процесс не остановит.
- сайт "Поступай правильно" [8] для абитуриентов по выбору ВУЗа. Сделан неидеально, но весьма неплохо. Для полной идеальности нехватает только чтобы они задокументировали их недокументированное API и публиковали бы открытые данные что дало бы возможность работать студентам и командам в рамках конкурсов и хакатонов с этими данными.

Саморекламировать портал Госрасходы spending.gov.ru, наверное, будет лишним, просто не стесняйтесь писать команде проекта на официальне контакты на сайте, команда активно внедряет новые возможности по запросу пользователей.

И я повторюсь сказав что в российском госИТ есть немало, действительно немало, хорошо сделанных проектов. Если Вы такие знаете, не стесняйтесь, пишите в чат @begtinchat или мне напрямую в телеграм. В следующих постах уделю позитивной повестке больше внимания.

Ссылки:
[1] https://opendata.mkrf.ru
[2] https://www.culture.ru
[3] https://top100.rambler.ru/navi?categoryId=1085&page=1&subcategoryId&resourceId=4480430#4480430
[4] https://rusneb.ru/
[5] https://reestr-gis.gov.spb.ru
[6] https://rskrf.ru/about/dev/
[7] http://budget.admuyarsky.ru/
[8] http://abitur.cbias.ru

#government #it #positive
Вышла свежая редакция The Data Journalism Handbook [1] руководства для дата-журналистов по работе с данными. Книга хорошая для начинающих и полезна для продолжающих, состоит из десятков статей о том как работает дата журналистика, стандартах, инструментах и многом другом.


Ссылки:
[1] http://lilianabounegru.org/2021/03/23/data-journalism-handbook/

#data #datajournalism #opendata
В Испании общественная организация Civio провела анализ закупок страны при чрезвычайной ситуации COVID-19 и выявило 16 589 контрактов на 6.4 миллиарда евро [1] (текст на испанском языке) с самыми разными расходами, например, на кавалькаду верблюдов и на закупку тазерв для медперсонала.

Там есть немало и другого интересного.
Например, губернатор Мурсии (Gobierno de Murcia) передал корпорации CBM управление их общественным телевидением аргументируя тем что:
1) из-за пандемии административные коммуникации ухудшились.
2) телевидение необходимо для своевременного информирования о катастрофах и без утверждения этого контракта есть "значительная опасность жизни людей".

Там же ещё немало любопытного про то как государственные структуры контрактуются при чрезвычайных ситуациях.

Ссылки:
[1] https://civio.es/quien-cobra-la-obra/2021/03/23/cuatro-empresas-se-llevaron-uno-de-cada-diez-euros-adjudicados-de-emergencia-en-2020/

#spanish #spain #contracts #opendata
В Евросоюзе под одним доменом data.europa.eu [1] объединили сразу 5 инициатив по работе с данными в Евросоюзе:
- портал открытых данных институтов и организаций Европейского союза [2]
- европейский портал данных [3] как агрегатор данных стран евросоюза
- базу постоянных ссылок/коротких ссылок на ресурсы [4]
- европейский веб-архив [5]
- центр поддержки обмена данными [6]

Кстати на портале открытых данных Евросоюза собрано уже более 1 миллиона 136 тысяч наборов данных из 81 каталога 36 стран [7]. При этом около половины этих данных - это геоданные, то что в России в почти совсем не публикуется.

Ссылки:
[1] https://data.europa.eu/
[2] https://data.europa.eu/euodp/
[3] https://data.europa.eu/europeandataportal/
[4] https://data.europa.eu/URI.html
[5] https://data.europa.eu/webarchive/
[6] https://eudatasharing.eu/
[7] https://www.europeandataportal.eu/en

#opendata #data #eu
В рубрике интересные наборы данных - данные о международной деятельности в России. Эти данные публикуются по стандарту IATI в реестре IATI посвящённому международной помощи. По России там публикуют сведения 13 организаций [1], все данные в CSV и XML и их также можно увидеть на их портале [2]. Там не стоит искать сведения об организациях "иностранных агентах", Еврокомиссия и международные и национальные агентства развития давно уже не публикуют информацию о конкретных организациях в России получателях международных средств, они теперь отмечаются как "NON-GOVERNMENTAL ORGANISATIONS (NGOs) AND CIVIL SOCIETY", например, [3].

Однако там немало информации и о государственных проектах которые идут на территории России с поддержкой международных организаций. Например, STASYS II [4], реформа статистической системы в РФ при поддержке Всемирного банка заканчивается в этом году в декабре или Russian Cultural Heritage [5] другой проект Всемирного банка о поддержке культурного наследия до конца 2022 года. Там же многое другое, часто с ретроспективой в 15-25 лет, например кредиты International Finance Corporation (входит в группу Всемирного банка) начинают с 1996 года, их можно найти на сайте первоисточнике [6] и в реестре IATI в машиночитаемом формате [7]

Здесь надо оговориться что наборы данных IATI - это данные добровольно раскрываемые агентствами развития. Некоторые делают это очень хорошо, некоторые так себе и дают минимум информации, но есть много агентств развития и агентств культурного влияния которые ничего подобного не делают. Когда-то более полная информация была в проекте AidData [8]. Они до 2014 года довольно подобно собирали из всех источников, включая годовые отчеты, сайты и иной информации, но, увы, более этих данных нет.

Поэтому, например, в реестре IATI нет данных по проектам турецкого агентства развития TIKA [9], хотя Турция и на 6-м месте в мире по расходам на международную помощь (по данным ОЭСР) и потратила 8.6 милиардов долларов США только в 2019 году, правда 7.8 из них пошли на поддержку проектов связанных с Сирией. Не найти там и расходов, польского агентства Polish Aid [10] и ещё десятков других, чаще национальных инициатив связанных с "политикой мягкой силы", зато в реестр IATI очень много проектов и организаций публикующих связанных с помощью развивающимся странам, чаще африканским и восточноазиатским.

И, конечно, сведений о российской международной помощи в реестре IATI нет. Сведения о ней есть в других источниках, например, в обзорах ОЭСР [11] где также есть большой банк данных о международной помощи в виде статистических таблиц [12]

Ссылки:
[1] https://www.iatiregistry.org/dataset?q=&publisher_source_type=&secondary_publisher=&organization=&publisher_country=&publisher_organization_type=&country=Russian+Federation&filetype=
[2] http://d-portal.org/ctrack.html?country_code=RU#view=main
[3] http://d-portal.org/ctrack.html?country_code=RU#view=act&aid=XI-IATI-EC_NEAR-2020%2F416-194
[4] http://d-portal.org/ctrack.html?country_code=RU#view=act&aid=44000-P092429
[5] http://d-portal.org/ctrack.html?country_code=RU#view=act&aid=44000-P120219
[6] https://disclosures.ifc.org/enterprise-search-results-home
[7] https://www.iatiregistry.org/dataset/ifcwbg-ru
[8] http://dashboard.aiddata.org
[9] http://www.tika.gov.tr
[10] https://www.gov.pl/web/polishaid
[11] https://www.oecd-ilibrary.org/sites/dcr-2018-49-en/index.html?itemId=/content/component/dcr-2018-49-en
[12] https://www.oecd.org/dac/financing-sustainable-development/development-finance-data/

#opendata #data #international
Что нравится и о чём надо больше контента на канале?
anonymous poll

про данные и всё что с ними связано – 44
👍👍👍👍👍👍👍 31%

про приватность, слежку, защиту данных – 33
👍👍👍👍👍 23%

аналитика того что делается в госИТ в России – 19
👍👍👍 13%

Даёшь исследования и расследования! – 19
👍👍👍 13%

аналитика о том как всё работает за пределами России – 15
👍👍 10%

быстрые и регулярные новости по govtech, civictech и открытым данным – 8
👍 6%

Я просто хочу посмотреть результаты опроса – 6
👍 4%

👥 144 people voted so far.
Анонсы выступлений

Теплица социальных технологий 27-28 марта проводит мини-конференцию Админка [1], я там поучаствую с небольшим выступлением про исходный код в общественных проектах. О том что, как, почему, и зачем это нужно. Моё выступление будет 28 марта в 11:30

Комитет МТПП и МГУ проводят 31 марта вебинар "Этика использования больших данных" [2] я приму там участие с докладом в 13:40 по теме "Этические аспекты использования открытых данных". Очень полезное мероприятие и спасибо коллегам за его организацию.

В начале года я смотрел на свою папку презентаций за 2020 год и расстраивался как мало я их делал (и наоборот радовался что больше времени на бумажную/мыслительную работу), но публичные выступления это тоже часть моей работы поэтому, в течение года я, похоже, ещё с десяток раз буду выступать на мероприятиях. Самое тяжелое что меня ждёт - это переделать все презентации в BeautifulAI. Я с прошлого года начал новые презентации делать с помощью этого сервиса и всё прекрасно, кроме отсутствия импорта слайдов. А есть около 400 слайдов прошлых моих презентаций которые надо переносить руками.

Ссылки:
[1] https://te-st.ru/events/adminka/
[2] https://tekhnopark-kalibr-org.timepad.ru/event/1589594/

#events #data
...Реальность такова, что если бы Рособрнадзор и Минпросвещения двигались в сторону открытости, то и региональные власти такие сведения не скрывали бы. В ситуации, когда у нас образование закрыто чуть ли не больше, чем силовые органы, граждане по умолчанию относятся к политике в этой области без всякого доверия...

Вышла моя колонка "Государство скрывает данные по ЕГЭ " в Ведомостях [1]

P.S. На самом деле моя колонка была примерно в 3 раза больше и не влезла в формат издания. Я далее раскрою и другие темы доступности данных о качестве жизни.

P.P.S. В Ведомости я колонку писал, в Коммерсант писал, в Forbes писал, в РБК писал. Куда бы мне ещё колонку написать?

Ссылки:
[1] https://www.vedomosti.ru/opinion/articles/2021/03/25/863248-gosudarstvo-ege

#articles #opendata
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
109 трлн руб. составляет сумма планов закупок в 2021 году по 223-ФЗ. Из них планы на 91 трлн руб. были размещены в Санкт-Петербурге.

Для сравнения:
- за предыдущие годы объем планов закупок по России не превышал 20-25 трлн руб. в год,
- в 2020 году объем планов закупок СПб составил 1,4 трлн руб.,
- ВВП России в 2020 году составил 107 трлн руб.

В связи с этим вопрос:
1. Казначейство России, у вас все в порядке с подсчетами?
2. Если данные корректные, давайте найдем рекордный план закупок Петербурга