Ivan Begtin
8.09K subscribers
1.6K photos
3 videos
100 files
4.32K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике о закрытых данных в России, с октября 2022 года более не публикуются Оперативные данные «Единая энергетическая система России: промежуточные итоги». ранее публиковавшиеся в форме PDF отчетов информационных обзоров [1] со сведениями о энергопотреблении в России и другим индикаторам работы единой энергосистемы страны.

Ссылки:
[1] https://www.so-ups.ru/functioning/ups/ups-review/ups-review22/

#opendata #closeddata #russia #energy #statistics
Чуть менее года назад я писал про Малазийский портал статистики OpenDOSM [1] и вот на днях повторно взглянул на него и обнаружил большой прогресс.

В Малайзии перевели портал открытых данных data.gov.my на этот движок [2], создали ещё один портал KKMNOW [3] для публикации статистики по здравоохранению и обновили OpenDOSM [4].

Во всех случаях выглядит это завораживающе прекрасно потому что на этих порталах:
- все данные экспортируются в CSV и Parquet
- есть хорошо документированное API
- у каждого датасета есть примеры кода для его немедленного использования (Python и R)
- подробная методология сбора данных
- многие индикаторы обновляются ежесуточно и еженедельно. График обновления данных строго соблюдается
- есть автоматически построенные графики по всем датасетам
- все индикаторы собраны в удобно представленные дашборды
- поиск внутри каждого датасета

Для публикации статистики государством - это что-то невероятное и с открытым кодом, он на каждом портале показан. Единственный минус это то что старый их национальный портал открытых данных на CKAN переведен в архив [5] и то что с таким подходом не работает принцип Open by default, потому что не все данные табличные, не все данные статистики и так далее. Но думаю что свой баланс в удобстве и открытости по умолчанию они найдут.

А пока это очень крутые движки для публикации статистики, удобные одновременно, и аналитикам, и разработчикам.


Ссылки:
[1] https://t.me/begtin/4717
[2] https://data.gov.my/
[3] https://data.moh.gov.my
[4] https://open.dosm.gov.my/
[5] https://archive.data.gov.my/

#opendata #statistics #indicators #malaysia #datasets #datacatalogs
Кстати, про закрытые в России данные отдельная история о том что со временем, некоторые данные, воспроизводятся из других источников. Например, реальные данные по экспорту/импорту хотя российской таможней более не публикуются, но публикуются странами с которыми идёт торговля и доступны в международных базах открытых и коммерческих. Сейчас почти везде в открытых базах фигурирует статистика торговли за 2021 год, но где-то к середине 2024 года будут доступны цифры и за 2023 год и тогда в продуктах которые их используют можно будет много увидеть наглядно. Тот же Atlas of Economical complexity [1] более чем нагляден и в нём используется база COMTRADE. Правда, по России выдаёт данные только за 2020 год [2].

Но пока нет международных данных, есть возможность посмотреть на данные национальные, некоторые статслужбы публикуют их весьма оперативно и детально. Например, я недавно [не]случайно изучал статистику импорта и экспорта одной арабоязычной страны и там видно наглядно как импорт из России в 2021 году составляет $34.3 миллиона, в 2022 году $16.9 миллионов, а в 2023 году $8,6 миллионов. Там правда вполне очевидные последствия санкций на российских сталелитейщиков и угледобытчиков, тем не менее, за 2022-2023 годы изменения в структуре торговых балансов стран и изменения путей и объёмов поставок весьма существенные и есть источники данных на которые, например, российское Пр-во повлиять никак не может.

А это означает что можно собирать "данные о России которые находятся вне России". Впрочем есть риски что российские власти начнут (уже начали?) влиять на страны ЕАЭС для сокрытия их таможенной статистики, так что это ещё один из видов сведений требующих внимания и проактивной архивации.

Ссылки:
[1] https://atlas.cid.harvard.edu
[2] https://atlas.cid.harvard.edu/explore?country=186&queryLevel=location&product=undefined&year=2020&productClass=HS&target=Partner&partner=undefined&startYear=undefined

#russia #economy #statistics #customs #thoughts #data
И вновь про доступность данных, вопрос, а никто не знает куда подевалась статистика внешней торговли Казахстана с Россией и Беларусью?

Например, её нет в отчетах за 2022 год [1] и во всех остальных отчетах что я проверял с 2018 года, но может и раньше.

Ещё более странно, что нет статистики торговли с Арменией, хотя перепроверка по Армстату показывает что товарооборот между странами есть [2].

Просто таки даже интересно, это "военная цензура" в Казахстане и там перезалили все файлы таможенной статистики или вот уже много лет так публикуют, но тогда это очень и очень странно.

UPD. Похоже исключили вообще всю статистику торговли со странами ЕАЭС (Армения, Кыргызстан, Россия, Беларусь). Но в Армении эту статистику всё ещё публикуют

UPD2. Оказывается статистика торговли со странами ЕЭАС публикуется в отчетах на сайте Казстата [3], что делает вопрос ещё более интересным. Это на Казстате ещё не удалили эти данные или что-то не так с базой статистики на сайте Комитета госдоходов РК?

Ссылки:
[1] https://kgd.gov.kz/sites/default/files/exp_trade/svt_12n_22.zip
[2] https://www.armstat.am/en/?nid=717&thid%5B%5D=398&years%5B%5D=2023&years%5B%5D=2022&years%5B%5D=2021&years%5B%5D=2020&year%5B%5D=2023&year%5B%5D=2022&year%5B%5D=2021&year%5B%5D=2020&monid%5B%5D=1&monid%5B%5D=2&monid%5B%5D=3&monid%5B%5D=4&monid%5B%5D=5&monid%5B%5D=6&monid%5B%5D=7&monid%5B%5D=8&monid%5B%5D=9&monid%5B%5D=10&monid%5B%5D=11&monid%5B%5D=12&submit=Search
[3] https://stat.gov.kz/ru/industries/economy/foreign-market/spreadsheets/?year=2022&name=40108&period=&type=

#opendata #questions #kazakhstan #trade #statistics
Давно подумываю сделать небольшой список/коллекцию и обзор плохих практик публикации государственных данных. Причём, как технических, так и про доступ к ним. Вот очень небольшой но показательный пример. В статкомитете Кыргызской республики публикуют открытые данные под лицензией CC-BY-NC [1] (Creative Commons «Attribution-NonCommercial-ShareAlike»).

Помимо того что версии лицензии Creative Commons для некоммерческого использования не являются свободными, так ещё и применение их для официальной статистики более чем спорно. Официальная статистика создаётся на деньги налогоплательщиков и используется, как гражданами, так и журналистами, так и бизнесом. Коммерческие компании являются одним из основных типов потребителей официальной статистики. Поэтому CC-BY-NC - это очень странная и запретительная лицензия для распространения государственных данных. Ещё она странная потому что показывает что те кто её указали, как минимум прочитали про лицензии Creative Commons, и понимают отличия CC-BY от CC-BY-NC, но, почему-то, не понимают что данные созданные на деньги налогоплательщиков и в рамках выполнения органами власти своих функций таких ограничений содержать не могут.

Но чаще, конечно, большая часть официальной статистики на многочисленных сайтах статслужб по всему миру, не содержат вообще никакого указания на условия использования.

Ссылки:
[1] https://www.stat.kg/ru/opendata/

#opendata #kyrgizstan #statistics #licenses
Forwarded from Open Data Armenia
[en] Fresh data on Transfers of individuals sent to and received from abroad through commercial banks of RA by countries available from Central Bank of Armenia, in English [1], Armenian [2] and Russian [3]. It's a January 2013 - December 2023 time series
about money inflow and outflow for 50 countries.

It could be a great source for data visualization for everyone who would like to participate in our contest [4].

[ru] Свежие данные о Трансграничных переводах в пользу физических лиц полученные из-за рубежа и перечисления физическими лицами за рубеж осуществленные через банковскую систему РА по странам можно скачать с сайта Центрального Банка Армении на английском, армянском и русском языках. Данные охватывают период с января 2013 по декабрь 2023 года и 50 стран откуда и куда переводятся средства.

Данные могут быть отличным источником по визуализации данных для всех кто планирует участие или уже участвует в нашем конкурсе по открытым данным.

P.S. Хочется надеяться что ЦБ РА однажды начнёт публиковать данные как открытые данные данные, сразу в форматах CSV/Parquet, или через API в формате JSON. Но даже при этом, текущие данные в формате Excel тоже можно использовать после несложных преобразований.

[1] https://www.cba.am/stat/stat_data_eng/5_Money_transfers_of_individuals_by_countries-eng.xlsx
[2] https://www.cba.am/stat/stat_data_arm/5_Money_transfers_of_individuals_by_countries-arm.xlsx
[3] https://www.cba.am/stat/stat_data_rus/5_Money_transfers_of_individuals_by_countries-rus.xlsx
[4] https://contest.opendata.am

#opendata #timeseries #statistics #money #armenia #cbra #dataviz
Я сравнительно недавно писал про то Генпрокуратура перестала публиковать централизованно, и статистику преступности и, даже, ведомственную статистику [1], но не написал о том что теперь ведомственную статистику можно найти только разбросана по страницам региональных органов прокуратуры и везде она публикуется по разному.

Вот несколько примеров:
- В Воронежской области публикуют в виде файлов MS Word [2] последний из которых был опубликован в 12 декабря 2023 г., а вот за декабрь всё ещё нет, хотя уже 5 февраля.
- В Ивановской области публикуют в формате Excel (xls) [3] и даже есть цифры за декабрь 2023 г., размещены 25 января 2024 г.
- В Брянской области публикуют PDF файлами, последняя публикация была в сентябре с данными за август 2023 г. [4]
- А в Архангельской области последний раз размещали данные за 2018 год [5], хотя формально пишут что есть файл за 1-е полугодие 2019 года, но он размеров в 0 байт [6], в любом случае это уже более 5 лет прошло.

Теперь не только Crimestat.ru не работает, не только централизованно не публикуется ведомственная статистика, но и на "сайтах" (разделах единого сайта) региональных прокуратур данные публикуют кто как умеет, в любых форматах или вовсе не публикуют.

В общем, что-то явно внутри пошло не так (с). Особенно нехорошо выглядит отсутствие данных по некоторым регионам. Что там творится-то в Архангельской области?

Ссылки:
[1] https://t.me/begtin/5354
[2] https://epp.genproc.gov.ru/ru/web/proc_36/activity/statistics/office/result?item=92771174
[3] https://epp.genproc.gov.ru/ru/web/proc_37/activity/statistics/office/result?item=92878784
[4] https://epp.genproc.gov.ru/ru/web/proc_32/activity/statistics/office/result?item=90663788
[5] https://epp.genproc.gov.ru/web/proc_29/activity/statistics/office/result?item=2406428
[6] https://epp.genproc.gov.ru/web/proc_29/activity/statistics/office/result?item=4812210

#opendata #statistics #closeddata #russia #crime
Международные данные, подборка каталогов глобальных индикаторов и не только:
- Global Trade Data Portal [1] от Всемирной торговой организации. Помимо подборок данных и визуализаций от ВТО, там также представлены данные партнеров ВТО которые могут запрашивать исследователи для научных работ [2], самое интересное - это портовые грузоперевозки, ИМХО, впрочем для разных задач, разные данные.
- Data Futures Exchange [3] портал данных UNDP с разного рода показателями развития, а также множество продуктов на данных от того же UNDP включая GeoHub [4], каталог геоданных, и портал с данными для малых развивающихся островных государств SIDS [5]
- COVID-19 Data Portal [6] созданный в ЕС (EMBL-EBI) разросся до 30+ миллионов дата объектов из которых 29 миллионов это примеры и вирусные последовательности, ещё около 1 миллиона - это статьи и оставшиеся несколько десятков тысяч - это другие связанные с вирусом данные и данные по научной инфраструктуре.
- EUI Library Data Portal [7] большой систематизированный каталог описаний источников данных в European University Institute, Скорее даже не источник международных данных, а источник их описания.
- Gemstat Data Portal [8] портал данных проекта ООН по мониторингу качества питьевой воды по всему миру. Датчики во многих странах, данных много, очень много, но предоставляют их не самым удобным способом. Даже API не документировали.

Ссылки:
[1] https://globaltradedata.wto.org
[2] https://globaltradedata.wto.org/data-partnerships
[3] https://data.undp.org
[4] https://geohub.data.undp.org
[5] https://sids.data.undp.org
[6] https://www.covid19dataportal.org
[7] https://www.eui.eu/Research/Library/ResearchGuides/Economics/Statistics/DataPortal
[8] https://portal.gemstat.org

#opendata #dataportals #indicators #statistics
В рубрике закрытых в России данных. Министерство юстиции РФ с 2022 года не публикует в официальной статистике [1]:
- Сведения о контроле и надзоре в сфере государственной регистрации актов гражданского состояния
- Сведения о государственной регистрации актов гражданского состояния и органах ее осуществляющих

Кроме того, как минимум, с 2021 года в официальной статистике Минюста РФ не раскрываются сведения о регистрации смерти. Эти данные есть в статистике за 2019 год [2] и отсутствуют в статистике за 2021 [3].
Статистика за 2020 год на федеральном уровне не публиковалась.

При этом на региональном уровне, в некоторых регионах таких как Республика Алтай, терр управления Минюста РФ публикуют статистику, в том числе полугодовую и в том числе за 2023 год и в том числе о регистрации смертей [4]. В других регионах, терр. упр. по Владимирской области отправляют на оф. сайт Минюста РФ и сами ничего не публикуют [5], а в Республике Адыгея вообще ничего не размещают [6].

P.S. Фактически эти данные были одним из немногих источников сведений о смертности, полезные для перепроверки других источников. Но и они "были", и ненадёжны.

Ссылки:
[1] https://minjust.gov.ru/ru/activity/statistic/
[2] https://minjust.gov.ru/uploaded/files/sbornikpominyusturossii0261912.xls
[3] https://minjust.gov.ru/uploaded/files/kopiya-17241652-66814750.xls
[4] https://to02.minjust.gov.ru/ru/pages/svedeniya-o-gosudarstvennoj-reg29012024/
[5] https://to33.minjust.gov.ru/ru/activity/statistic/
[6] https://to01.minjust.gov.ru/ru/activity/statistic/

#closeddata #opendata #russia #statistics #demographics
В рубрике как это работает у них в Великобритании в Национальном архиве сохраняются копии всех сайтов ( и данных ) государственных органов страны и большая часть из них, когда меняют свои сайты, ссылаются на архивную копию в национальном архиве когда хотят сохранить доступ к материалам. Например, статистическая служба Великобритании несколько лет назад мводернизировала свой сайт и изменило базу хранения и предоставления статистических наборов данных. Данные все были сохранены, но к изменились ссылки и для тех кто хочет скачать архивные данные они предоставляют такую ссылку в разделе временных рядов [1].

В свою очередь копия сайта в национальном архиве [2] включает все документы которые были на оригинальном сайте.

А ещё точнее, множество копий за разные промежутки времени.


Ссылки:
[1] https://www.ons.gov.uk/timeseriestool
[2] https://webarchive.nationalarchives.gov.uk/ukgwa/20160105160709/http://www.ons.gov.uk/ons/index.html

#opendata #data #statistics #uk #webarchive #digitalpreservation #archives