Ivan Begtin
7.99K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
А также эти данные доступны по всем странам мира, почти по всем вернее. И интересное Wiki https://www.gem.wiki от той же команды на базе Semantic MediaWiki. Про полноту не знаю, но подход у ребят системный, есть что поизучать
Forwarded from Open Data Armenia
(EN) Even more data about Armenia outside Armenia. Dataset from Global Energy Monitor and it's dashboard
and map.

There are first datasets released and available after registration under CC-BY 4.0 International license.

(RU) Еще больше данных об Армении за пределами Армении. Набор данных из Global Energy Monitor и его информационной панели
и карта.

Появились первые наборы данных , они выпущены и доступны после регистрации по международной лицензии CC-BY 4.0.

#opendata #datasets #energy
К вопрос о том как исчезают данные в РФ, и не только в РФ. Многие операторы баз данных онлайн - это коммерческие компании которые особенно в последнее время активно удаляют свой контент из поисковиков и агрегаторов. Какой-нибудь energybase.ru. В какой-то момент они прописали блокировку большей части поисковых и архивных ботов. Теперь все ссылки в gem.wiki, которую я только что упоминал, протухли потому что многие сайты, например, вместо ссылок на сайты давали и дают ссылки на Интернет архив. Например, https://www.gem.wiki/Nizhne-Bureyskaya_hydroelectric_plant и теперь ссылки эти протухли(

Если, в какой-то момент, Правительство РФ решит что размещение информации о критической инфраструктуре недопустимо и заставит все такие сайты удалить информацию то и в интернет архиве ничего не останется.

Все такие случаи не отследить( К сожалению и архивация коммерческих сайтов осложнена многим, в первую очередь, тем что они особенно оберегают свои права на контент.

#data #russia #dataavailability
В рубрике интересных наборов геоданных, данные по зданиям в КНР, Японии и обеих Кореях в виде датасета на 23GB в сжатом виде. Внутри SHP файлы и другие стандартизированные геоформаты, а сами данные разделены по городам. Опубликовали на Zenodo 7 китайских исследователей. Источник данных непонятен, подробностей о происхождении данных нет, но сам датасет очень интересен и изза масштаба и размера и области охвата.

Данные можно отнести к научным и, одновременно, полезным не только учёным.

По моему с ним связана вот эта научная статья, но это не точно.


#opendata #data #datasets
К вопросу о каталогах данных, которые я изучаю вот уже много лет, в особенности каталоги общедоступных и открытых данных, чем больше я наблюдаю рынок, экосистему и тд. в том числе относительно больших каталогов данных, тем больше убеждаюсь что весь этот рынок за очень короткое время может перемешать Microsoft или, с меньшей вероятностью, Gitlab, реализовав в Github/Gitlab такое понятие как репозиторий данных.

По сути и так огромное число датасетов публикуют через Git, особенно научные репозитории выкладывают на Github, а на размещённое там уже дают ссылки с какого нибудь Zenodo.

Причём сделать дата репозитории Microsoft может сделать очень дешёвым образом.
1. Добавить атрибут data к репозиториям с данными, чтобы их можно было бы выделить в поиске.
2. Добавить спецификацию в YAML с метаданными датасета/датасетов в этом репозитории. За основу можно взять DCAT.

К счастью или к сожалению, ничего такого они не делают и, как следствие, своего поиска по данным у Microsoft нет. Но если бы сделали то Github было бы проще индексировать с помощью Dateno.

#opendata #datasets #microsoft #github #thoughts
В рубрике как это устроено у них проект Metaspace [1] в Европейском Союзе в виде каталога данных аннотированных метаболических данных полученных через спектрометрию. Это более 11 тысячи датасетов, по большей части в форматах imzML и ibd специально для публикации такого рода данных.

Помимо многих метаданных специфичных именно для этой области, ещё одна особенность этого портала в том что на нем нет постоянных ссылок на данные и когда выбираешь опцию скачать данные тебе выдаётся ссылка протухающая через полчаса. Ещё один способ бороться с краулерами и автоматической выгрузкой данных.

Данных много, данные большин, но с очень узкой областью применения.

Ссылки:
[1] https://metaspace2020.eu

#opendata #dataseta #datacatalogs #massspectrometry
В рубрике как это устроено у них публикация данных высокой ценности в Испании.

Ожидаемо очень много данных о земле, много геоданных, очень много статистики всех уровней и другое. В принципе идея с публикацией ценных данных в ЕС - это очень разумный подход про приоритеты. Не во всех странах ЕС этих данных уже много, но вот пример Испании весьма показателен.

Самое сложное в Испании связано с публикацией сведений о юр. лицах, там очень коммерциализированная область и прозрачность даётся с трудом, но постепенно публикуют и эти данные. На всё это можно смотреть задаваясь вопросом: "А почему в моей стране гос-во не раскрывает данные также?"

#opendata #datasets #europe #spain
Симпатичная open source книжка DevOps for Data Science полезная для всех кто сисадминит и хочет развиваться в сторону дата инфраструктуры. Не охватывает платформы, охватывает большую часть фундаментальных вопросов. Полезное и для дата инженеров тоже.

#readings #data #datascience #devops
В рубрике интересных наборов данных 3D модель города Цюриха конца 1500 года опубликованная на их портале открытых данных [1] и доступная для просмотра интерактивно онлайн [2].

Опубликовано в форматах dxf, shp, gpkg и в виде веб сервисов OGC.

Кроме этого датасета в Цюрихе езё 15 датасетов с 3D моделями современных и исторических видов города [3].

Это интересная комбинация доступных данных и их исторического значения. Для тех кто изучает 3D моделирование и ищет готовые материалы это будет интересным подспорьем.

Сам портал открытых данных города включает 812 наборов данных из которых он на 50% состоит из геоданных, где-то на 30% из времянных рядов и оставшееся попадает во всё остальное.

Ссылки:
[1] https://data.stadt-zuerich.ch/dataset/geo_3d_stadtmodell_stadt_zuerich_jahresendstand_1500
[2] https://3d.stzh.ch/appl/3d/zuerich_4d_extern/#hintergrundkarte=Basiskarte%201500&easting=2683365.1302425126&northing=1246414.2127628734&blickhoehe=235.77&blickrichtung=359.35582275055935&blickwinkel=75.25719137722423&
[3] https://data.stadt-zuerich.ch/dataset?tags=3d

#opendata #datasets #switzerland #zurich #geodata #3d
Ещё один пример закрытия данных Банк России приостанавливает публикацию статистики внебиржевого валютного рынка [1].

А ведь совсем недавно, в апреле, эту статистику стали публиковать расширенно [2].

Этого раздела больше нет на сайте ЦБ РФ [3], причем удалили даже архив, что непохоже на ЦБ РФ которые, к примеру, после прекращения публикации данных по экспорту в 2022 году архивные данные не удаляли.

Некоторые данные всё ещё доступны в Интернет-Архиве [4], но в целом событие печалит ещё и тем что ЦБ РФ теперь подчищает архивы и нужна регулярная архивация их сайта. В последний раз мы делали это для Национального цифрового архива [5] в 2021 году и это была веб архивация, она не охватывала данные закрытые формами и POST запросами

Ссылки:
[1] https://cbr.ru/press/pr/?file=638566558563054550DKP.htm
[2] https://www.cbr.ru/press/pr/?file=638489599567862726DATABASES.htm
[3] https://www.cbr.ru/hd_base/vko/
[4] https://web.archive.org/web/20240706093400/https://cbr.ru/hd_base/vko/
[5] https://ruarxive.org

#opendata #closeddata #cbrf #statistics #russia #webarchive #digitalpreservation
Свежий open source инструмент/код по осмысленной интерпретации данных для LLM называется GraphRAG [1] весь код опубликован на Github.

Пока не могу сказать подробнее, надо экспериментировать, но выглядит просто таки очень интересно.

Ссылки:
[1] https://www.microsoft.com/en-us/research/blog/graphrag-new-tool-for-complex-data-discovery-now-on-github/

#opensource #llm #ai
Прямо интересное явление последних лет - это восхождение декларативного программирования когда дело касается данных и инфраструктуры в первую очередь. Вместо написания кода, пишутся YAML или TOML файлы и на их основе бегают конвейеры данных, разворачивается инфраструктура, создаются базы данных или API сервера.

Вижу всё больше и больше таких продуктов, особенно в областях devOps, dataOps и в продуктах типа ELT/ETL и других в области современного стека данных. Я и сам в инструментах что создавал или создаю делаю такое же.

Очень скоро работа с данными не потребует знаний даже SQL потому что всё будет в этом самом декларативном программировании. Из известных мне популярных ETL/ELT движков разве что Dagster не на декларативных языках, а по модели data-as-a-code, все написано на Python.

Внутри Dateno тоже используется декларативный сбор данных с помощью движка datacrafter [1] который я изначально делал для совсем других задач по извлечению данных из API и по преобразованию файлов. А также вместе с datacrafter там работает движок apibackuper [2] в котором тоже декларативный язык но в виде конфига для Python. Его, по хорошему, надо переписать для работы с конфигом в YAML и ещё многое поправить.

Достоинство декларативных языков в том что легко генерировать эти конфиги. В Dateno краулер создаёт тысячи конфигов под каждый сайт и запускает сбор данных вызовом datacrafter'а, и уже потом собирает результаты и складывает в базу данных.

Большая часть источников данных там - это API, для каждого из которых свой шаблон и свои правила выгрузки. Иногда довольно непростые, но стандартизованные. И из имеющихся ETL движков только dlt такое может. По сути миграция кода - это преобразование одних YAML файлов в другие, при соблюдении ряда условий конечно, что схожие операции можно воспроизвести в другом движке.

Пока главный недостаток почти всех инструментов такого рода в отсутствии хорошей поддержки NoSQL в целом и MongoDB в частности. Из-за чего и приходится пользоваться собственным стеком инструментов.

Ссылки:
[1] https://github.com/apicrafter/datacrafter/
[2] https://github.com/ruarxive/apibackuper

#opensource #dataengineering #thoughts
В рубрике как это работает у них, один из источников геоданных и их каталогизации - это геопорталы. Продуктов для их создания довольно, но есть наиболее популярные и типовые и один из них - это QGIS Web Client 2 (QWC2) [1], на его основе создано немало европейских и не только геопорталов. Например, геопорталы некоторых кантонов (регионов) Швейцарии работают на QWC2 [2] и слои карты используемые в его работе доступны онлайн через специальный файл themes.json [3]

Сами слои могут быть разным образом опубликованы, не всегда самыми очевидными геопродуктами. Получается что для их индексирования как раз эти файлы и являются наиболее удобным источником метаданных.

Слоёв данных там не так уж много, десятки, в среднем, но данные хорошо локализованы и удобно доступны.

А ещё у швейцарцев есть серия каталогов геоданных с дата моделями по их стандарту INTERLIS. Но о нём как-нибудь в другой раз. А пока в реестр Dateno вношу ряд каталогов на QWC2.

Ссылки:
[1] https://qwc-services.github.io/master/
[2] https://map.geo.gl.ch
[3] https://map.geo.gl.ch/themes.json

#opendata #datacatalogs #dateno
Forwarded from Open Data Armenia
[RU]
Немного о наших планах. Мы продолжаем наполнять каталог открытых данных data.opendata.am и отдельное огромное спасибо всем кто помогает нам собрать данные и сделать их общедоступными. Когда Пр-во страны решит создать национальный портал открытых данных страны, надеемся что наша работа вольётся в него и данных станет больше как и больше возможностей по работе с данными.

Коротко о планах на этот год:
1. Планируем добавить больше данных на портал открытых данных.
2. Осенью организуем следующий конкурс и, возможно, пока обсуждаем, хакатон.
3. Уже готовимся ко дню открытых данных на 2025 год.
4. Есть планы создать общественный геопортал Армении, уже собрали для него много геоданных
5. Ищем координатора сообщества внутри страны чтобы ещё активнее помогать сообществу. Скоро опубликуем вакансию
6. Будем организовывать семинары/вебинары как работать с данными.

Если есть какие-либо идеи/предложения/мысли что ещё хорошего можно сделать на данных

[EN]
A little bit about our plans. We continue to fill the catalog of open data data.opendata.am and a special thanks to everyone who helps us to collect data and make it publicly available. If the government of the country decides to create a national portal of open data, we hope that our work will be included in it and the data will become more available, as well as more opportunities to work with data.

Briefly about the plans for this year:
1. We plan to add more data to the Open Data Portal.
2. We will organize the next competition and possibly, still under discussion, a hackathon in autumn.
3. We are already preparing the Open Data Day for 2025.
4. There are plans to create a public geoportal of Armenia, we have already collected a lot of geodata for it.
5. We are looking for a community coordinator within the country to help the community even more actively. We will publish a job offer soon.
6. We will organize workshops/webinars on how to work with data.

If you have any ideas/suggestions/thoughts on what else can be done well with data, please let us know.

#opendata #armenia