Ivan Begtin
7.99K subscribers
1.76K photos
3 videos
101 files
4.47K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Forwarded from ministryofpoems
Рисуем стихи в схемах:)
Forwarded from Open Data Armenia
🏆 Results of the Open Data Armenia Contest Announced

Nomination "Data Visualization"

2nd place:
- Armenia's Energy Profile project (https://rasscrom.github.io/armenia-energy/). Authors: Beisenbaev Alikhan, Kushlevich Artem, Akynzhanov Tolegen.

3rd place:
- Armenian newborn children 2014-2023 project (https://yuu.space/2024/02/18/armenian-names-of-newborns-statistics). Author Ani Hovhannisyan.

- Project “Geoportal of Armenia build on new "Sloy" engine» (https://sloy.io/armenia). Authors:

- Project Խաղողագործության բնագավառի խնդիրները (Problems of viticulture sphere) (https://multimedia.alttv.am/page43582628.html). Authors: Khachik Danielyan, Angela Stepanyan.

Nomination "Cultural Apps"

2nd place:
- Armenian Literature project (https://arm-lit-archive.vercel.app). Author Mushegh Movsisyan.

Congratulations and thank you for your participation! In the coming days, the organizers will contact the authors of the prize-winning projects.
Свежие и полезные инструменты с открытым кодом для загрузки и обработки данных:
- PyAirbyte [1] библиотека для Python от команды Airbyte для того чтобы перенести логику этого движка по сбору данных в Python. Поддерживает все коннекторы Airbyte ранее написанные на Python
- dlt [2] Data Load Tool, явно созвучное dbt, библиотека для Python для реализации принципа Extract-Load-Transform. Выглядит довольно целостно, стоит изучить внимательнее
- ingestr [3] утилита командной строки по переносу баз данных из одного источника в другой. Поддерживает основные SQL СУБД
- sling [4] инструмент для выгрузки/загрузки данных с большинства основных СУБД включая облачные, файловых систем и различных дата файлов. Реализован на Go, важное ограничение GPL 2 лицензия (для сравнения у dlt лицензия Apache 2, а у ingestr MIT).

И конечно остаются такие инструменты как Meltano, Dagster, CloudQuery и многие другие

Ссылки:
[1] https://airbyte.com/blog/announcing-pyairbyte
[2] https://dlthub.com
[3] https://github.com/bruin-data/ingestr
[4] https://github.com/slingdata-io/sling-cli

#opensource #dataengineering
В рубрике как это работает у них городская панель управления (city dashboard) города Тайбэя [1].

Распространяется как открытый код [2] под лицензией AGPL, используется городскими властями внутри и для публики доступно общедоступное demo.

А также к продукту есть обширная документация [3].

Городские дашборды в юго-восточной Азии не редкость, например, есть такой у Гонконга как часть портала открытых данных [4], но к нему не припомню открытого кода.

А вот в Ирландии есть целый проект Building City Dashboards [5] с разными дашбордами, научными работами и открытым кодом. Можно сказать что системный подход к вопросу.

Ссылки:
[1] https://citydashboard.taipei/dashboard-demo/dashboard?index=childcare
[2] https://github.com/tpe-doit/Taipei-City-Dashboard
[3] https://tuic.gov.taipei/documentation/front-end/introduction
[4] https://data.gov.hk/en/city-dashboard#city
[5] https://dashboards.maynoothuniversity.ie/

#dataviz #opensource #opendata #opengov #cities #roc
В качестве регулярного напоминания, 6 лет назад мы в Инфокультуре @infoculture сделали множество карт данных, наглядной визуализации того где данные лежат. Это совершенно неформальный термин для простой и наглядной инфографики. Эти карты никуда не исчезли и по прежнему доступны на сайте [1]. При этом, конечно, за 6 лет уже произошли многие изменения, поэтому посмотреть на карты интересно и с точки зрения того как это было 6 лет назад и сравнить с тем что есть сейчас.

А я для полноты картины добавляю оригинальные карты данных которые создавались изначально в виде майндмапов.

Майндмапы удобны не всем, поэтому на сайте Инфокультуры инфографика в виде плакатов.

Ссылки:
[1] https://www.infoculture.ru/2018/12/10/datamaps/

#opendata #infoculture #data #russia #datamaps
Один мой товарищ на вопрос "Как дела?" отвечал "Ну как, в моменте хорошо, но это такой момент, секунда, когда ты летишь между 99 и 98 этажами, пока летишь то хорошо, но летишь то вниз".

Если говорить о том как в России с открытыми данными и общедоступностью информации, то в моменте хорошо и даже если с другими странами сравнивать, в моменте, то тоже будет не так уж плохо. Главное не забывать что это момент полёта между 99 и 98 этажами.

Тем не менее, 6 марта онлайн пройдет День открытых данных в форме мини-конференции с докладами.

Доклады будут на разные темы текущего состояния открытости/закрытости российских данных, проектах на их основе и многом другом.

Не забудьте зарегистрироваться и присоединиться!

#opendata #opendataday #events #russia
В рубрике интересных наборов данных данные по тестированию дисков от облачного провайдера Backblaze [1] огромный датасет замеров работы почти 270 тысяч жестких дисков, с зарегистрированными фактами почти 17 тысяч отказов.

Общий объём датасета более 100GB, там же много аналитики от Backblaze про сами диски и это бесценная информация для всех кто выбирает диски для долгосрочного хранения. У них же очень интересная аналитика [2] за многие годы.

Ссылки:
[1] https://www.backblaze.com/cloud-storage/resources/hard-drive-test-data
[2] https://www.backblaze.com/blog/backblaze-drive-stats-for-2023/

#opendata #data #datasets
Forwarded from Ах, этот Минфин (Olya Parkhimovich)
День открытых данных: 6 марта с 11:00

6 марта с 11:00 в онлайн-формате пройдет ежегодный День открытых данных. В этом году будут представлены выступления об открытых данных в российской науке, об особенностях работы со статистикой внешней торговли, презентация нового проекта Dateno и многое другое.

В 12:45 расскажу о том, что происходит в области открытых госфинансов: повышается ли уровень финансовой открытости, доступ к каким наборам данных мы потеряли, что ожидать в ближайшее время и над какими проектами мы сейчас работаем.

Заспойлерю несколько скриншотов обновленной версии сайта проекта «Госзатраты», расскажу как мы собираем 5 тысяч исторических документов о госфинансах и как мы победили в конкурсе СПб «Твой Бюджет 2.0», по результатам которого Петербургские госорганы опубликуют в открытом доступе 150 тысяч страниц о финансах Петербурга за 100 лет.

Регистрация по ссылке: https://opendataday.ru/msk
Завтра в День открытых данных я буду в 12:15 по Москве рассказывать про поисковую систему по датасетам над которой работал весь прошлый год. Сейчас подробностей рассказывать не буду, иначе неинтересно будет слушать, но могу сказать что целью было и есть создать альтернативу Google Data Search и собрать так много данных как только возможно и сделать удобный поисковик по ним всем. Полгода назад я рассказывал о том как шла работа над проектом на конференции Smart Data, там было много технических подробностей, но ещё не готовый продукт. А теперь продукт готов для бета пользователей.

Это будет второе публичное представление, первое было на ODD в Армении 2 марта, в оффлайне, для совсем небольшой аудитории. А это будет уже с записью и, можно сказать, как финальная тренировка перед представлением на весь мир.

#opendata #data #datasets #datacatalogs #datasearch