Ivan Begtin
8.01K subscribers
1.75K photos
3 videos
101 files
4.46K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
И вновь про доступность данных, вопрос, а никто не знает куда подевалась статистика внешней торговли Казахстана с Россией и Беларусью?

Например, её нет в отчетах за 2022 год [1] и во всех остальных отчетах что я проверял с 2018 года, но может и раньше.

Ещё более странно, что нет статистики торговли с Арменией, хотя перепроверка по Армстату показывает что товарооборот между странами есть [2].

Просто таки даже интересно, это "военная цензура" в Казахстане и там перезалили все файлы таможенной статистики или вот уже много лет так публикуют, но тогда это очень и очень странно.

UPD. Похоже исключили вообще всю статистику торговли со странами ЕАЭС (Армения, Кыргызстан, Россия, Беларусь). Но в Армении эту статистику всё ещё публикуют

UPD2. Оказывается статистика торговли со странами ЕЭАС публикуется в отчетах на сайте Казстата [3], что делает вопрос ещё более интересным. Это на Казстате ещё не удалили эти данные или что-то не так с базой статистики на сайте Комитета госдоходов РК?

Ссылки:
[1] https://kgd.gov.kz/sites/default/files/exp_trade/svt_12n_22.zip
[2] https://www.armstat.am/en/?nid=717&thid%5B%5D=398&years%5B%5D=2023&years%5B%5D=2022&years%5B%5D=2021&years%5B%5D=2020&year%5B%5D=2023&year%5B%5D=2022&year%5B%5D=2021&year%5B%5D=2020&monid%5B%5D=1&monid%5B%5D=2&monid%5B%5D=3&monid%5B%5D=4&monid%5B%5D=5&monid%5B%5D=6&monid%5B%5D=7&monid%5B%5D=8&monid%5B%5D=9&monid%5B%5D=10&monid%5B%5D=11&monid%5B%5D=12&submit=Search
[3] https://stat.gov.kz/ru/industries/economy/foreign-market/spreadsheets/?year=2022&name=40108&period=&type=

#opendata #questions #kazakhstan #trade #statistics
Давно подумываю сделать небольшой список/коллекцию и обзор плохих практик публикации государственных данных. Причём, как технических, так и про доступ к ним. Вот очень небольшой но показательный пример. В статкомитете Кыргызской республики публикуют открытые данные под лицензией CC-BY-NC [1] (Creative Commons «Attribution-NonCommercial-ShareAlike»).

Помимо того что версии лицензии Creative Commons для некоммерческого использования не являются свободными, так ещё и применение их для официальной статистики более чем спорно. Официальная статистика создаётся на деньги налогоплательщиков и используется, как гражданами, так и журналистами, так и бизнесом. Коммерческие компании являются одним из основных типов потребителей официальной статистики. Поэтому CC-BY-NC - это очень странная и запретительная лицензия для распространения государственных данных. Ещё она странная потому что показывает что те кто её указали, как минимум прочитали про лицензии Creative Commons, и понимают отличия CC-BY от CC-BY-NC, но, почему-то, не понимают что данные созданные на деньги налогоплательщиков и в рамках выполнения органами власти своих функций таких ограничений содержать не могут.

Но чаще, конечно, большая часть официальной статистики на многочисленных сайтах статслужб по всему миру, не содержат вообще никакого указания на условия использования.

Ссылки:
[1] https://www.stat.kg/ru/opendata/

#opendata #kyrgizstan #statistics #licenses
И, кстати, не могу не добавить что ЦБ РФ с 2022 года не раскрывает данные по трансграничным переводам в РФ и из РФ http://www.cbr.ru/hd_base/tg/ и теперь чуть ли не один из многих способов узнать о них - это смотреть цифры в других странах, например в Армении. В Армении статистика, к тому же, более гранулярна, не ежеквартальная, а ежемесячная.
Forwarded from Open Data Armenia
[en] Fresh data on Transfers of individuals sent to and received from abroad through commercial banks of RA by countries available from Central Bank of Armenia, in English [1], Armenian [2] and Russian [3]. It's a January 2013 - December 2023 time series
about money inflow and outflow for 50 countries.

It could be a great source for data visualization for everyone who would like to participate in our contest [4].

[ru] Свежие данные о Трансграничных переводах в пользу физических лиц полученные из-за рубежа и перечисления физическими лицами за рубеж осуществленные через банковскую систему РА по странам можно скачать с сайта Центрального Банка Армении на английском, армянском и русском языках. Данные охватывают период с января 2013 по декабрь 2023 года и 50 стран откуда и куда переводятся средства.

Данные могут быть отличным источником по визуализации данных для всех кто планирует участие или уже участвует в нашем конкурсе по открытым данным.

P.S. Хочется надеяться что ЦБ РА однажды начнёт публиковать данные как открытые данные данные, сразу в форматах CSV/Parquet, или через API в формате JSON. Но даже при этом, текущие данные в формате Excel тоже можно использовать после несложных преобразований.

[1] https://www.cba.am/stat/stat_data_eng/5_Money_transfers_of_individuals_by_countries-eng.xlsx
[2] https://www.cba.am/stat/stat_data_arm/5_Money_transfers_of_individuals_by_countries-arm.xlsx
[3] https://www.cba.am/stat/stat_data_rus/5_Money_transfers_of_individuals_by_countries-rus.xlsx
[4] https://contest.opendata.am

#opendata #timeseries #statistics #money #armenia #cbra #dataviz
За текучкой дел я почти упустил и не успел посмотреть выступления на FOSSDEM и уж совсем упустил податься туда рассказать о том что делаю сам и с командой, тем не менее там много что есть посмотреть по теме данных и открытого кода и по теме Open Research [1] где как раз про открытые данные много.

На что стоит обратить внимание из связанного с данными:
- Updating open data standards [2]
- The French Open Science Monitor: steering the science based on open bibliographic databases [3]
- Unlocking Research Data Management with InvenioRDM [4]
- Cosma, a visualization tool for network synthesis [5]

Там ещё много узкотехнических докладов, не сомневаюсь что многие их если ещё не посмотрели, то посмотрят.

Ссылки:
[1] https://fosdem.org/2024/schedule/track/open-research/
[2] https://fosdem.org/2024/schedule/event/fosdem-2024-3109-updating-open-data-standards/
[3] https://fosdem.org/2024/schedule/event/fosdem-2024-3185-the-french-open-science-monitor-steering-the-science-based-on-open-bibliographic-databases/
[4] https://fosdem.org/2024/schedule/event/fosdem-2024-3452-unlocking-research-data-management-with-inveniordm/
[5] https://fosdem.org/2024/schedule/event/fosdem-2024-3394-cosma-a-visualization-tool-for-network-synthesis/

#opendata #data #events
Я сравнительно недавно писал про то Генпрокуратура перестала публиковать централизованно, и статистику преступности и, даже, ведомственную статистику [1], но не написал о том что теперь ведомственную статистику можно найти только разбросана по страницам региональных органов прокуратуры и везде она публикуется по разному.

Вот несколько примеров:
- В Воронежской области публикуют в виде файлов MS Word [2] последний из которых был опубликован в 12 декабря 2023 г., а вот за декабрь всё ещё нет, хотя уже 5 февраля.
- В Ивановской области публикуют в формате Excel (xls) [3] и даже есть цифры за декабрь 2023 г., размещены 25 января 2024 г.
- В Брянской области публикуют PDF файлами, последняя публикация была в сентябре с данными за август 2023 г. [4]
- А в Архангельской области последний раз размещали данные за 2018 год [5], хотя формально пишут что есть файл за 1-е полугодие 2019 года, но он размеров в 0 байт [6], в любом случае это уже более 5 лет прошло.

Теперь не только Crimestat.ru не работает, не только централизованно не публикуется ведомственная статистика, но и на "сайтах" (разделах единого сайта) региональных прокуратур данные публикуют кто как умеет, в любых форматах или вовсе не публикуют.

В общем, что-то явно внутри пошло не так (с). Особенно нехорошо выглядит отсутствие данных по некоторым регионам. Что там творится-то в Архангельской области?

Ссылки:
[1] https://t.me/begtin/5354
[2] https://epp.genproc.gov.ru/ru/web/proc_36/activity/statistics/office/result?item=92771174
[3] https://epp.genproc.gov.ru/ru/web/proc_37/activity/statistics/office/result?item=92878784
[4] https://epp.genproc.gov.ru/ru/web/proc_32/activity/statistics/office/result?item=90663788
[5] https://epp.genproc.gov.ru/web/proc_29/activity/statistics/office/result?item=2406428
[6] https://epp.genproc.gov.ru/web/proc_29/activity/statistics/office/result?item=4812210

#opendata #statistics #closeddata #russia #crime
Forwarded from Инфокультура
“Госзатратам” 10 лет!

4 февраля 2014, ровно 10 лет назад, был запущен проект “Госзатраты” (clearspending.ru) - один из первых в России информационно-аналитических проектов, направленных на повышение осведомленности граждан о состоянии, тенденциях, проблемах и рисках в сфере планирования и исполнения государственных расходов.

10 лет “Госзатрат” - это 10 тысяч уникальных посетителей в сутки (а за 10 лет - уже 16 миллионов), 53 миллиона просмотренных страниц и данные о 55 миллионах контрактов.

Вот уже 10 лет мы непрерывно скачиваем портала Госзакупок данные о госконтрактах, преобразовываем их и предоставляем разработчикам в формате API.

С 2014 по 2019 год мы активно проводили онлайн и офлайн-мероприятия – хакатоны и семинары по тематике госфинансов, команда проекта принимала участие в «Днях открытых данных».

С 2019 года по июль 2023 года наша команда разрабатывала проект СП РФ “Госрасходы” (spendging.gov.ru), поэтому “Госзатраты” оставались в режиме поддержки. Но, с учетом регулярно обновляющейся схемы данных портала госзакупок, работы нам и в этот период хватало :).

В конце 2023 года мы вернулись к активной разработке проекта и скоро представим вам новую базу данных и обновленный альфа-версию обновленного сайта проекта. Мы будем вести разработку в “открытом режиме”, поэтому у всех пользователей будет возможность протестировать и привыкнуть к новому интерфейсу, оставить обратную связь и предложения по новому функционалу. Предложения и комментарии можно будет оставлять в комментариях к этому посту или на почту oparkhimovich@infoculture.ru.

Также мы заранее анонсируем необходимость авторизации для использования API проекта, но у вас будет достаточно времени для регистрации и перехода на новую схему данных.

Благодарим всех наших пользователей, разработчиков, использующих API и открытые данные, поставщиков данных (Минфин России и Казначейство России, надеемся, что данные останутся доступными) и, конечно, команду проекта.
Google выключают доступ к кешированным страницам [1] которые ранее были доступны в их поиске, теперь эти страницы будут доступны только через Google Webmaster для владельцев сайтов [2]. Кеш Google активно использовался для восстановления недавно исчезнувших сайтов и просмотра удалённых веб страниц.

Сам сервис, напрямую, ещё работает [3], но в результатах поиска Google уже не отображается.

Теперь единственным крупным источником архивных веб страниц остаётсяv Интернет архив [4].

Ссылки:
[1] https://arstechnica.com/gadgets/2024/02/google-search-kills-off-cached-webpages/
[2] https://twitter.com/searchliaison/status/1753156161509916873
[3] https://webcache.googleusercontent.com/search?q=cache:https%3A%2F%2Fwww.wikipedia.org%2F
[4] https://web.archive.org

#archives #webarchive #google
В качестве регулярных напоминаний, помимо этого телеграм канала я время от времени пишу на других площадках:
- рассылка лонгридов на Substack на русском языке https://begtin.substack.com/
- блог в Medium на английском языке https://medium.com/@ibegtin
- в Фэйсбук'е https://www.facebook.com/ibegtin (почти дублируется с телеграм каналом)
- в VK https://vk.com/ivbeg пишу сильно реже, мне как и многим эта соцсеть не нравится, но часть аудитории там.

А также другие телеграм каналы:
- Инфокультура https://t.me/infoculture с анонсами проектов и новостями АНО Инфокультура
- Национального цифрового архива https://t.me/ruarxive о архивации цифрового русскоязычного и российского контента
- проекта Госзатраты https://t.me/clearspending - ведут мои коллеги в Инфокультуре, в основном туда роботы постят инфу про интересные госконтракты. Вот уже много лет
- Open Data Armenia https://t.me/opendatam - телеграм канал Open Data Armenia, армянской НКО которую я возглавляю (Yes hay em) и где на трёх языках: английском, армянском и русском про открытые данные в Армении


#readings #opendata #russia #armenia #telegram
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
Изостатистика - одна из первых книг по инфографике

Так как мы решаем большую задачу «собрать бюджеты России за 100 лет», приходится часто искать новые источники исторических книг и документов. Одной из самых интересных находок стала книга И.П. Иваницкого «Изостатистика. Изобразительная статистика и венский метод», изданная в «Москве-Ленинграде» в 1932 году.

Изостатистика, как оказалось, примерно то же самое, что в современном мире называют «инфографикой», и что в книге зовется «количественной системой диаграммирования».

Книга описывает базовые принципы создания диаграмм, приводит большое количество примеров исторических инфографик и разбирает каждую из них.

К сожалению, книга черно-белая, но все равно уникальная.

Скачать книгу можно с сайта НЭБ (уникальный источник исторических книг): https://rusneb.ru/catalog/000199_000009_005073846/

#открытыеданные #инфографика #диаграммы
Большая статья-исследование на сайте Mozilla о том как компании обучающие ИИ используют Common Crawl "Training Data for the Price of a Sandwich"[1], статья подробная, авторы провели большую работу анализируя то как наборы данных на базе Common Crawl создавались и как они используются. Краткие выводы в том что Common Crawl сильно неполный и не вполне доверительный датасет из-за отсутствия одного контента и отсутствия фильтров на разного рода некачественный контент. Выводом там много, вплоть до идей о том что надо создавать альтернативу Common Crawl с этическими мыслями в голове.

Я с такими выводами соглашаться не готов, но они не отменяют полезности этого обзора. Напомню что Common Crawl - это некоммерческий проект по индексации интернета по аналогии с поисковым индексом Google, но доступного как базы данных, файлы и всё под свободными лицензиями. Проект был создан в 2007 году и в последние годы он почти весь хранится и обновляется на ресурсах Amazon.

Ссылки:
[1] https://foundation.mozilla.org/en/research/library/generative-ai-training-data/common-crawl/

#opendata #data #web #commoncrawl #ai #mozilla
Forwarded from Open Data Armenia
Опубликовано видео на youtube-канале проекта!

Дорогие подписчики, опубликовали для вас видеозаписи, прошедших вебинаров, приуроченных к конкурсу Open Data Armenia Contest.

1. Вебинар "Обзор открытых данных Армении: лицензии и источники".

2. Вебинар "Введение в визуализацию данных: проекты, методы и инструменты".

📍Подписывайтесь на канал, ставьте лайки и жмите на колокольчик для получения уведомлений о новых видео: https://www.youtube.com/@OpenDataArmenia/videos
Свежий портал геоданных Республики Молдова geodata.gov.md [1] похоже что какой-то своей разработки и пока 16 карт и слоёв с данными. Внутри всё работает на Geoserver в котором слоёв уже побольше, 25 [2], но, всё равно, пока довольно скромно.

И удивительно что своя разработка, а не какой-нибудь Geonode, который с открытым кодом и даёт точно такой же портал.

В целом же данные страны проще пока найти на геокаталоге NSDI страны [3] где опубликовано 165 слоёв, а также в Молдове есть некоторое число общедоступных серверов ArcGIS и Geoserver, также, с геоданными.

Ссылки:
[1] https://geodata.gov.md/#/
[2] https://geodata.gov.md/geoserver
[3] https://geoportalinds.gov.md

#opendata #datasets #geodata #moldova
У меня уже очень долгое время в пассиве домен "kremlin.io" который я ещё давно хотел превратить в дата-проект, но всё это время откладывал и откладывал и откладывал и в этом году тоже отложу, потому что много всего другого в работе. Тоже про данные, но всякое другое.

Применить его можно про всякое. От исторического проекта про разные кремли с их панорамами обзорами, до дата-журналистики про то какой плохой/хороший основной Кремль как политическая институция.

До какого-нибудь софтверного продукта компонента с названием Kremlin, что будет странно по нынешним временам, но почему бы и нет?

Лично я когда-то хотел этот домен использовать в двух разных сценариях:
1. Как каталог данных про РФ именно про госуправление и госполитику.
2. Как проект по мониторингу государственной ИТ/цифровой политики в РФ.

Но оба сценария сейчас не проходят фильтра в виде вопроса "Зачем?", другие сценарии не придумываются, а домен превратился в пассив.
Так что готов его отдать за очень много денег которые все пожертвую на нашу НКО.

#questions #domains #kremlin
В рубрике пока ещё доступных российских данных, порталы радиационного мониторинга.

Единая государственная автоматизированная система мониторинга
радиационной обстановки на территории Российской Федерации
[1] включает данные мониторинга и ежемесячные отчёты. Открытых данных нет, есть недокументированные API и регулярные ежемесячные и годовые отчеты с детализацией до города/поселения

Радиационная обстановка на предприятиях Росатома [2] с ежесуточным обновлением. Открытых данных нет, есть недокументированное API.

Радиационная обстановка Красноярского края [3]. Открытых данных нет, есть ежесуточные данные, нет API, нет исторических данных в открытом доступе.

А также существует ещё как минимум десяток сайтов и порталов структур входящих в Росатом и Росприроднадзор публикующих регулярно обновляемые данные.

В форматах открытых данных их никто не публикуют, но и до сих пор не закрывают.

[1] https://egasmro.ru
[2] https://www.russianatom.ru
[3] http://www.krasecology.ru/operative/radio

#opendata #datasets #russia #radiation