Ivan Begtin
9.38K subscribers
2.19K photos
4 videos
105 files
4.91K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and etc.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Email ivan@begtin.tech

Ads/promotion agent: @k0shk
Download Telegram
В рубрике интересных больших наборов данных Quantarctica [1] - это коллекция наборов данных для ГИС продукта QGIS с данными по Антарктиде. Данных там порядка 6ГБ, скачать их много со множества HTTP и FTP серверов, а сам пакет был создан в Норвежском Полярном Институте и распространяется как открытые данные.

И это пример, можно сказать, отдельного вида данных - датасетов для QGIS. У QGIS есть каталог QGIS Hub [2] где есть подборка некоторых слоёв карт, моделей и стилей. Относительно немного и того же пакета Quantarctica там нет, но тем не менее.

Ссылки"
[1] https://npolar.no/quantarctica/
[2] https://hub.qgis.org/

#opendata #geodata #datasets
В рубрике нерегулярного дата юмора мааленькая подборка мемов

#humour #dataengineering
В рубрике как это устроено у них портал визуализации статистики Саудовской Аравии DataSaudi [1]. Все данные представленные там происходят из официальной статистической службы страны и отличаются качественной визуальной подачей и разделением на тематики, регионы и их наглядное графическое отображение.

Делают этот портал, как ещё и аналогичные порталы около десятка стран, команда DataWheel стартапа по визуализации данных.

Причём в некоторых странах, например, в США с проектом DataUSA [2] они дают не только региональные, но и муниципальные профили территорий и профили отдельных университетов.

В Саудовской Аравии внедрение по масштабу и глубине поскромнее, но по наглядности на высоте. Мне их проекты нравятся визуально и не очень нравятся отсутствием API и датасетов, впрочем они основаны на открытых данных, а не предоставляют их, так что другой формат и вполне понятный.

По смыслу их графики далеко не идеальны, например, в режиме сравнения территорий они показывают графики в разной размерности что затрудняет сравнение, но с точки зрения "красивости" есть на что посмотреть.

Ссылки:
[1] https://datasaudi.sa
[2] https://datausa.io/

#dataviz #statistics #saudiarabia #datacatalogs
Продолжая про применение DuckDB для разного, то о чём я ранее не писал, это использование для задач подсчёта значения для последующей визуализации. Вот пример визуализации одного из старых слепков Dateno со взглядом на записи через типы каталогов данных. Можно увидеть и страны. Всё делается одной командой PIVOT которая разворачивает по колонкам значения по типам каталогов. Мне это нужно было для задачи оценки полноты (пустоты) по некоторым странам для измерения уровня покрытия Dateno. Можно увидеть что по некоторым странам есть только геоданные и показатели. Это одна из причин почему в Dateno есть сильный фокус на индексацию статистики, иначе не обеспечить разумное покрытие всех стран, а геоданных много потому что у многих стран есть геопорталы, но нет порталов открытых данных.

Это ещё не чистовой срез потому что там вперемешку коды стран и коды некоторых агрегатов, тем не менее весьма показательно. 100% покрытие стран сейчас только за счёт статистики. Это сейчас 71 страна и регион, все они бедные и развивающиеся страны.

Но, оговорюсь, это срез примерно полугодовой давности. Постепенно в Dateno будет больше не только статистики по странам, но и других датасетов, однако без статпоказателей просто никак.

А DuckDB очень удобный инструмент для подобных задач.

#datasets #datasearch #duckdb
В рубрике как это устроено у них о том как публикуется статистика в Латинской Америке. Большая часть переписей в Центральной и в Южной Америках публикуются с помощью ПО Redatam ( REcuperación de DATos para Almacenamiento en Microcomputadoras) разработанное в международном агентстве ECLAC и являющееся проприетарным продуктом для работы с метаданными и данными переписей и опросов публикуемых в форме микроданных. Я когда-то писал о нём [1]. Им пользуются не только латиноамериканские страны, но и многие страны Глобального Юга.

Хотя Redatam предлагается и с API [2], многие из инсталляций Redatam созданы довольно давно и для исследователей существует продукт Open Redatam [3] с помощью которого можно выгружать отдельные таблицы и работать с данными с помощью R и Python. На вход он принимает оригинальные файлы в формате dicx, а а на выходе выдает таблицы в CSV.

Ссылки:
[1] https://t.me/begtin/5087
[2] https://redatam.org/en
[3] https://github.com/litalbarkai/open-redatam

#opendata #datasets #statistics #census
Про "российский мессенжер" на базе VK идёт много разговоров после выступления Максута Шадаева, я бы тоже поиронизировал, да и почему "мессенжер", а не "вестоноша", к примеру, но давайте серьёзнее что так и что не так.

Это конечно всегда непросто, но я попробую описать свой взгляд максимально сухо и нейтрально.

Что так:
- альтернативные способы коммуникации для получения госуслуг помимо госпорталов. Ничего неблагоразумного тут не вижу, это глобальный тренд, он будет набирать обороты и дальше
- верифицированный документооборот при коммуникации с госорганами, с цифровыми подписями и тд. Может быть полезно для многих кто до сих пор взаимодействует на бумаге.

Что вызывает сомнения:
- госмессенжер - это китайский путь развития, он работает при высокой степени доверия общества государству и приемлемостью госпатернализма. В России, в этом смысле, очень европейское мышление, с недоверием государству по умолчанию. Просто государству не доверяют чуть меньше чем не доверяют другим общественным институтам.
- ограничения на зарубежные мессенжеры, они не приведут к росту пользователей, скорее к значительному общественному возражению и продолжению борьбы "брони и пушек"
- чтобы там не говорили VK нельзя относить к технологическим лидерам и значительная пользовательская база не означает её качества.

Что вызывает серьёзные вопросы:
- почему безальтернативный выбор VK? Нет других мессенжеров? А конкурс проводился? А предложения другие были?
- почему вообще и причём тут вообще мессенжер? Пример Казахстана с КаспиБанком показывает что банки прекрасно умеют оказывать госуслуги. Более того с текущим уровнем развития финтеха банки к этому более чем готовы как минимум топ 10 российских банков. Зачем тогда кузнец VK? Кузнец VK тут не нужен
- и, наконец, самый главный вопрос. Минцифры вложило очень много усилий в популяризацию приложения Госуслуг через который они точно также могут оказывать услуги и даже добавить функции мессенжера. Так кто же заставил Максута предлагать VK для этой задачи?;)

#russia #digital
Про всяческие инструменты для повседневной работы, то что можно назвать личным стеком приложений на десктопе. Ну а поскольку я уже много лет как мигрировал на связку W10 + WSL(Ubuntu) на десктопе, то и подборка приложений соответствующая.

Безопасное хранение
- Veracrypt - пожалуй лучший продукт с открытым кодом для использования зашифрованных томов. Плюсы - аудированность, хорошая наследование кода от предыдущего проекта Truecrypt. Минусы - томы фиксированного объёма, тяжелы в синхронизации с облаками.
- Cryptomator - для тех кто хранит защищённые файлы в "незащищённых местах", а то есть в облаках. Не так продвинут как Veracrypt, но позволяет сильно упростить синхронизацию с облачными сервисами
- KeePass - консервативный инструмент с открытым кодом для хранения паролей. Не самый удобный, но с открытым кодом

кстати относительно продуктов для личной паранойи лично я много лет придерживаюсь правила что хорошая безопасность такова что даже если ты перечислишь основные инструменты, то риски не возникают, потому что инструменты позволяют обеспечить необходимую защиту

Написание текстов и управление размышлениями
- Obsidian - пожалуй, лучший инструмент для ведения локальных заметок в Markdown с опциональной синхронизацией (за деньги) и возможностью публикации
- Quarto - инструмент подготовки научной документации. Оказался очень полезным для работы и описания некоторых данных
- Xmind инструмент для карт мыслей (mind mapping). Простой, универсальный, бесплатный для большей части всего или недорогой для расширенных функций

Управление кодом и разработкой
- VSCodium - IDE для программирования на базе VSCode, но без слежки от Microsoft
- Postman - приложение и сервис для проектирования и тестирования API
- APIDog - ещё одно приложение и сервис для проектирования и тестирования API

Для наглядности
- Beautiful AI - сервис и оффлайн плеер для презентаций. Когда надо сделать быстрые красивые презентации без Powerpoint'а
- Plottr - ПО для писателей по планированию книг. Пользуюсь не так часто потому что пишу синопсисы теперь в Obsidian

Работа с данными
- OpenRefine - для многочисленных задач очистки данных относительно небольшого объёма
- DuckDB - для задач анализа и преобразования данных условно любого объёма
- Excel, LibreOffice - для визуального просмотра данных, очень редко редактирования

Разное
- picoTorrent - ИМХО лучший инструмент выгрузки torrent'ов ещё и с открытым кодом. После того как uTorrent окончательно испортился
- Far Manager - чувствую себя реально старым, но продолжаю пользоваться аналогами Norton Commander'а 😂😜

Список неполный, ещё большая коллекция инструментов для локальных LLM

Почему я всё это вспомнил? Потому что второй день восстанавливаю ноутбук после переустановки W10 и этот эротический акт отнимает немало времени в восстановлении привычной среды. А это из тех задач которые сложно делегировать или ускорить.

#personal #software #recovery
В рубрике полезных ссылок про данные, технологии и не только:
- DTAI Sports Analytics Lab лаборатория в бельгийском университете KU Leuven посвящённая спортивной аналитике и футболу в частности. Несколько инструментов и много публикаций о предсказании результатов футбольных матчей с помощью машинного обучения
- Kicking the Tires on CedarDB's SQL обзор CedarDB, это такая инновационная база данных создаваемая в TUM и совместимая с Postgres. О ней полезно читать для понимания как разработка современных реляционных баз ведётся и сложности в оптимизации запросов
- Gravitino новый геораспределенный каталог метаданных с открытым кодом, заявлено много чего, но надо смотреть подробнее. Это не из тех каталогов которые создаются для документирования и комплаенс с контролем перс данных, а из тех каталогов которые позволяют централизовано управлять озерами и хранилищами, например, на Iceberg.
- quarkdown синтаксис и инструмент на базе Markdown для подготовки книг/статей/больших текстов. По сути под замену Latex и с ним же его и сравнивают. Наиболее близкая альтернатива ему это Typst созданный с теми же целями
- DataHub Secures $35 Million Series B о том что DataHub, создатели одноимённого каталога метаданных, подняли $35m инвестиций на применение ИИ для управления метаданными. Учитывая что DataHub сильно просел по разработке в сравнении с OpenMetadata - это скорее хорошая новость.

#opensource #analytics
Forwarded from ministryofpoems
Сделано_людьми_Последняя_рукопись.pdf
79.9 KB
Отчаяние толкает нас на безумные поступки. Такие как, например, прийти в тюрьму и сказать "Посадите меня!", но это было бы слишком просто, да бесплатно ныне в тюрьму не сядешь. Нужно совершить что-то достаточно преступное чтобы тебя арестовали, но недостаточно чтобы тебе вживили чип и отправили на общественные работы. Времена то поменялись, когда-то общественные работы - это было самое лёгкое наказание, идёшь себе метёшь улицы или работаешь санитаром. Всё то наказание - это убирать гавно и уставать до изнеможения, а тюрьма была настоящим наказанием. Всё теперь наоборот, тюрьма - это чуть ли не единственный способ изолироваться от общества, а "общественные работы" теперь это когда тебе внедряют чип-зомби в голову и ты беснуешься внутри своего тела пока оно тебе не принадлежит и выполняет всю ту же грязную работу.

Но я не убийца и не вор – я писатель, которого обвинили в самом страшном преступлении нашего времени: в использовании искусственного интеллекта для создания своих произведений ...
Где искать геоданные? Поскольку наша команда создает поисковик по данным Dateno, то, конечно же, с Dateno и стоит начать😉

Однако поиск геоданных это куда более сложная задача чем может показаться. Геопорталов в мире очень много и фрагментация геоданных очень высокая и далеко не все они попадают каталоги порталов открытых данных или научных репозиториев.

Помимо Dateno геоданные можно искать как минимум в двух поисковых системах: GeoSeer и ArcGIS Hub.

GeoSeer - это совсем маленький стартапчик позволяющий искать по точкам подключения к OGC совместимым сервисам (WMS, WFS, WMTS и тд.). Всего там заявляется 3.5 миллиона слоёв большая часть которых собрана через геопорталы на базе Geonetwork. У GeoSeer весьма ограниченный поиск, без фасетов и ИМХО, он скорее неудобный чем удобный, но тем не менее.

ArcGIS Hub - это сервис от крупнейшего провайдера геосервисов в мире, компании ArcGIS. Их Hub - это поисковик по порталам и по данным порталов открытых данных и геоданных которые пользователи облачных сервисов делали общедоступными. Это более 25 тысяч подсайтов, и около 300 тысяч слоёв карт, данных и документов.

Во всех случаях при работе с геоданными очень серьёзная проблема с дефицитом метаданных. Их объективно мало, при подключении к серверам GeoServer или корпоративным версиям ArcGIS их чаще нет, но, тем не менее, поиск по данным возможен и необходим.

Dateno всё ещё неидеален для поиска геоданных, но мы работаем над этим (с) и внимательно анализируем похожие сервисы.

#opendata #datasets #geodata #search