Ivan Begtin
8.03K subscribers
1.72K photos
3 videos
101 files
4.42K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
В рубрике как это работает у них канадский официальный национальный геопортал Geo.ca [1]
включает 7659 геопространственных наборов данных в машиночитаемых форматах CSV, SHP, GeoJSON, Esri REST, KML. Все данные под канадской открытой лицензией [2]. Внутри базовых слоёв используется ESRI ArcGIS, компоненты платформы выложены открытым кодом [3].

Канадская особенность в том что все официальные материалы, включая данные, двуязычны и их описания и файлы дублируются.

А также в том что очень много общедоступных геоданных выложено на FTP сервере [4], но с минимальным описанием [5]

Всего же в Канаде огромное число общедоступных и открытых официальных баз и каталогов геоданных. Как я понимаю большая их часть постепенно будет переносится на Geo.ca

Ссылки:
[1] https://geo.ca
[2] http://open.canada.ca/en/open-government-licence-canada
[3] https://github.com/Canadian-Geospatial-Platform
[4] https://ftp.maps.canada.ca/pub/
[5] https://natural-resources.canada.ca/science-and-data/science-and-research/earth-sciences/geography/topographic-information/download-directory-documentation/17215

#opendata #canada #geodata #datacatalogs #data
В продолжении рубрики как это работает у них одним из крупнейших порталов данных в США можно считать каталог национальных архивов в котором, помимо документов, аудио и видео архивируются данные и карты (геоданные) [1] в объёме более чем 107 тысяч единиц. Это довольно много, в национальном каталоге данных США 292 тысячи наборов данных.

Национальные архивы США - это довольно уникальное явление, огромное по масштабу и несомненно интересное с точки зрения содержащихся там материалов, учитывая что существенная их часть оцифрована.

Ожидаемо многие данные являются историческими, например, там можно найти CSV файл с пассажирами [2] прибывшими в США с 1820 по 1902 годы из европейских стран.

Ссылки:
[1] https://catalog.archives.gov/search?availableOnline=true&typeOfMaterials=Data%20Files%2CMaps%20and%20Charts
[2] https://catalog.archives.gov/id/229630481

#opendata #datasets #digitalpreservation #datacatalogs #data #archives
В рубрике закрытых российских данных, более недоступен официальный сайт переписи 2020 года strana2020.ru [1], точная дата отключения неизвестна, известно лишь что в конце января 2023 года он ещё был доступен и копия сохранилась в интернет архиве [2]. Поскольку это был исключительно контентный сайт, его закрытие нельзя аргументировать тем что он был дорогостоящим в обслуживании и его поддержание требовало больших усилий.

Единственно доступные данные и информация о переписи остались на сайте Росстата [3] и в интернет архиве.

Ссылки:
[1] https://www.strana2020.ru
[2] https://web.archive.org/web/20230130185402/https://www.strana2020.ru/
[3] https://rosstat.gov.ru/vpn/2020

#russia #closeddata #data #opendata #census #rosstat
Forwarded from Open Data Armenia
[EN] Sharing the latest news and an important appeal.

First, the ex-website of the State Revenue Committee of Armenia (petekamutner.am) has ceased being publicly available, and the new one, at least for now, has only the most recent data. We timely archived the old site, so if you need data on tax and customs revenues, violations, etc., you know whom to ask.

Second, since September 22, 2023 we have archived all Artsakh-related websites we were aware of. Some of them were already unavailable at that time. Please, reach out to us if you need those sites for your projects.

If you happen to know of any endangered websites related to Armenia and Artsakh, please share them with us and we will archive them and upload them to the catalog.



[AM] Կիսվում ենք վերջին նորություններով և կարևոր կոչով:

Նախ՝ այլևս հասանելի չէ ՊԵԿ-ի նախկին կայքը (petekamutner.am), իսկ նորում, առնվազն առայժմ, հրապարակված են միայն վերջին տվյալները: Մենք հասցրել ենք արխիվացնել հին կայքը, այնպես որ, եթե ձեզ պետք գան հարկային և մաքսային եկամուտների, խախտումների և այլնի վերաբերյալ տվյալները, գիտեք, թե ում դիմել:

Երկրորդ՝ դեռևս 2023թ. սեպտեմբերի 22-ին սկսել էինք Արցախի հետ կապված մեզ հայտնի բոլոր կայքերի արխիվացումը։ Որոշ կայքէջեր անհասանելի էին արդեն այն պահին։ Կապվեք մեզ հետ, եթե դրանք ձեզ պետք են ձեր նախագծերի համար:

Եթե Ձեզ հայտնի են Հայաստանի և Արցախի հետ կապված այս կամ այն պատճառներով անհետացման վտանգի տակ գտնվող սոցիալական նշանակություն ունեցող կայքեր, խնդրում ենք մեզ էլ տեղյակ պահել: Մենք կարխիվացնենք դրանք և կհրապարակենք մեր գրացուցակում:



[RU] Делимся последними новостями и важным призывом.

Во-первых, из публичного доступа пропал прежний сайт Комитета госдоходов Армении (petekamutner.am), а на новом, по крайней мере пока, есть только свежие данные. Мы успели заархивировать старый сайт, так что если вам пригодятся данные по налоговым и таможенным поступлениям, нарушениям и т.п., вы знаете, к кому обращаться.

Во-вторых, ещё с 22-го сентября 2023 г. мы заархивировали все известные нам сайты, связанные с Арцахом. Некоторые из них были недоступны уже на тот момент. Свяжитесь с нами, если они нужны вам для ваших проектов.

Если вам известны связанные с Арменией и Арцахом социально значимые сайты, находящиеся под угрозой исчезновения, пожалуйста, поделитесь ими с нами, и мы заархивируем их и загрузим в каталог.
Те кто регулярно работает с научными данными знают о таком протоколе как OAI-PMH, это стандарт описывающий интерфейсы обмена данными для любых цифровых коллекций и метаданных. Активно применяемый в библиотечной, академической и архивной среде . Например, такие движки как DSpace или EPrints используются университетами для публикации научных работ, а эти материалы доступны по протоколу OAI-PMH. Его используют различные агрегаторы научных работ такие как BASE, OpenAIRE и Google Scholar.

Для индексации данных достаточно, казалось бы, было бы реализовать индексирование OAI-PMH и всего лишь отфильтровать результаты извлекая из них только записи относящиеся к данным, геоданным и тд. Это было бы самым простым и, с первого взгляда, очевидным решением, но, вместо него в Dateno сейчас применяется принциально другой подход в написании парсеров под несколько десятков разных API и интерфейсов под разные типы ПО . Почему это так?

1. OAI-PMH поддерживается, преимущественно, научными каталогами данных и некоторыми каталогами геоданных. Это существенная часть, но далеко не все порталы открытых данных. Если поддержать только его, то это означает создать очередной поисковик по научным данным которых уже много есть.
2. Это довольно старый протокол не позволяющий делать массовую выгрузку метаданных, с со множеством ограничений. Например, в OAI-PMH нет понятия файлов/ресурсов и если в каталоге данных больше одного файла, то через OAI-PMH они не будут видны. Поэтому каталоги типа OpenAIRE содержат ссылки на карточки датасетов, но не файлы внутри.
3. Существующие инструменты харвестинга OAI-PMH также часто архаичные, чаще пишут что-то свое. Написать под него парсер несложно, в любом случае.

Из всего этого самое критичное - отсутствие ссылок на файлы. Во внутренних метриках качества Dateno отсутствие ссылок на файлы у датасета пессимизирует его в выдаче и, в принципе, признак низкого качества самого датасета. Поэтому если сейчас добавить наборы данных из каталогов с OAI-PHM, это это глобально снизит качество поиска в Dateno и харвестинг OAI-PHM отложен пока есть более качественные каталоги данных. К большой радости, многие каталоги поддерживают OAI-PHM исключительно как legacy, для поисковиков по научным работам и, параллельно, имеют в реализации от одного до нескольких других API.

#opendata #datasets #dateno #data #datacatalogs #oai-pmh
В рубрике интересных проектов на данных Data Saudi [1] портал по визуализации и понятному представлению данных по Саудовской Аравии. Похоже что делалось всё той же командой Datawheel которые делали когда-то DataUSA [2] и ряд аналогичных проектов для Бразилии, Мексики, Эстонии и Чили [3].

Наглядно выглядит всё красиво, на практике не то чтобы очень функционально. Впрочем такие проекты делают не для аналитиков, а для тех кто вставляет статистику в презентации.

Для меня все эти проекты всё ещё оставляют вопрос в том считать ли их порталами с данными или нет. Данные там есть в VIZ Builder, вполне себе скачиваются и удобнее чем в первоисточнике, но, всё же, система визуализации - это не каталог данных.

Есть над чем подумать , возможно, стоит добавить такие проекты в реестр каталогов данных который я веду и, в будущем, индексировать в Dateno.

P.S. Я, кстати, думал про не создать ли такой проект про Армению, какие то данные под это даже есть, но работа Datawheel стоит очень дорого и интересно можно ли такое сделать дешевле и своими силами

Ссылки:
[1] https://datasaudi.mep.gov.sa/en
[2] https://datausa.io
[3] https://www.datawheel.us/

#opendata #dataviz #visualization #data #saudiarabia
Отличная тема в блоге DuckDB про 42.parquet или о том как запихнуть в Parquet файл 4 петабайта данных [1]. Для тех кто не вспомнил контекст, несколько лет назад по интернету ходил файл zip bomb, с названием 42.zip и размером в 42 килобайта. Внутри него, 5 вложенными слоями было по 16 пустых файлов в 4.3 ГБ. В общей сложности 4.3 петабайта. А это штука способная сильно испортить жизнь тем кто использует наивные антивирусы и другие сервисы распаковки архивов. Про него есть статья в Википедии по ссылками [2] для тех кто хочет изучить тему. Я специально про это не писал до 1 апреля во избежание обострения юмора у весёлых ребят;)

Как ни странно, Virustotal показывает [3] что запароленный zip bomb определяет только Fortinet, остальные сервисы и продукты его игнорируют. Может быть они незапароленные zip bomb ловят? Но пока не хочется проверять такое;)

А теперь то же самое для Parquet, 42.parquet от DuckDB. Может быть довольно жестокой шуткой над каким-то дата сайентистом, а может быть просто примером для тренировки навыков.

Я пока не знаю случаев когда сайты/информационные системы взламывали бы parquet файлами. Но может быть всё впереди? Например, начнут антивирусы и другие инфобезные продукты отслеживать утечки персональных данных из компаний и начнут сканировать parquet файлы, а тут им подсунут 42.parquet.

Похоже на реальный сценарий ;)

Ссылки:
[1] https://duckdb.org/2024/03/26/42-parquet-a-zip-bomb-for-the-big-data-age.html?
[2] https://en.wikipedia.org/wiki/Zip_bomb
[3] https://www.virustotal.com/gui/file/bbd05de19aa2af1455c0494639215898a15286d9b05073b6c4817fe24b2c36fa

#data #datatools #dataspecs #parquet #readings
В рубрике как это устроено у них La Referencia [1] портал агрегатор научных работ в Латинской Америке + Испания. В боле более 5.2 миллионов научных работ большая часть которых - это статьи, магистерские и докторские тезисы и многое другое. В том числе наборы данных в объёме 10 тысяч штук. Что очень немного по сравнению с общим числом других работ, около 0.2%, но немало для разного рода каталогов данных.

Правда, большая часть данных там из испанских научных репозиториев, но тем не менее.

Проект интегрирован с европейским проектом OpenAIRE и его материалы доступны через поиск в OpenAIRE.

#opendata #openaccess #openresearch
Кстати, пока без выводов, но наблюдаю что некоторые издатели научных материалов стали явным образом запрещать их использование для обучение ИИ. Пример - Elsevier в их условиях использования на всех их продуктах и сайтах что они управляют.

Интересно наблюдает ли кто-либо за изменениями в TOS именно относительно ИИ и запретов на его применение на контент?

#openaccess #ai
Статистика по миграционной политики пропала с сайта МВД РФ, об этом пишет RTVI [1] и приводит скриншоты того как эта статистика ранее выглядела, до апреля 2024 года. Сейчас сведения доступны в минимальном объёме, без индикаторов и любых исторических данных [2].

От себя лично добавлю что МВД РФ имеет крайне печальную практику массового сокрытия и уничтожения контента.

1. При создании централизованного портала mvd.ru были безвозвратно удалены все региональные порталы МВД, их контент нигде теперь уже недоступен.
2. После повторного включения ФМС и ФСКН в структуру МВД, буквально в тот же день их сайты и весь их контент исчезли.

Я писал об этом ещё в 2016 году [3], с той поры эта практика не прекратилась.

Ссылки:
[1] https://rtvi.com/news/s-sajta-mvd-propali-dannye-o-migraczionnoj-statistike-ih-mogli-udalit-posle-terakta-krokuse/
[2] https://мвд.рф/dejatelnost/statistics/migracionnaya
[3] https://t.me/begtin/168

#opendata #russia #closeddata #crime #migration #mvdrf
Redis, хорошо известный продукт для большинства разработчиков использующих NoSQL, меняет лицензию на SSPL и перестаёт быть проектом со свободным исходным кодом [1]. SSPL запрещает использование продукта облачными провайдерами, без раскрытия полного кода всего кода облака (интерфейса, бэкэнда, дизайна и тд).

Тем временем Linux Foundation создали Valkey [2], открытый код Redis'а. А другие команды переходят на KeyDB и другие альтернативы.

Ссылки:
[1] https://arstechnica.com/information-technology/2024/04/redis-license-change-and-forking-are-a-mess-that-everybody-can-feel-bad-about/
[2] https://www.linuxfoundation.org/press/linux-foundation-launches-open-source-valkey-community

#opensource #data #datatools
В рубрике малоизвестных российских каталогов данных Федеральный центр навигационных данных [1] Роскосмоса, включает данные мониторинга за спутниковыми навигационными группировками, ионосферных карт, суточных измерений ГЛОНАСС и многое другое. Все данные являются общедоступными, их можно скачать бесплатно, но не открытыми, для доступа надо зарегистрироваться и отсутствует какая-либо информация о юридическом статусе этих данных, ни условия, ни лицензии не присутствуют.

В то же время данных много, данные настоящие и регулярно обновляются

Ссылки:
[1] https://fcnd.ru/datasearch/collections/

#opendata #data #russia #satellites