Ivan Begtin
7.98K subscribers
1.82K photos
3 videos
101 files
4.53K links
I write about Open Data, Data Engineering, Government, Privacy, Digital Preservation and other gov related and tech stuff.

Founder of Dateno https://dateno.io

Telegram @ibegtin
Facebook - https://facebook.com/ibegtin
Secure contacts ivan@begtin.tech
Download Telegram
Из открытого доступа исчез портал открытых данных города Казани data.kzn.ru [1], последний раз он индексировался Интернет архивом в феврале 2023 года [2], при этом он всё ещё упоминается на сайте мэрии города в разделе "Проекты" [3]. На портале было опубликовано несколько сотен наборов данных, а также было доступно несколько API.

Событие неприятное, очередной шаг к снижению открытости, на сей раз в одном из крупнейших городов РФ.

Если Вы контактируете с мэрией Казани или видели анонс, спросите у них о причине закрытия. По хорошему, они должны были официально вывести информационную систему из эксплуатации.

Ссылки:
[1] https://data.kzn.ru
[2] https://web.archive.org/web/20230201014645mp_/http://data.kzn.ru/
[3] https://kzn.ru/meriya/ispolnitelnyy-komitet/uits/proekty/

#opendata #data #closeddata #tatarstan #kazan #russia
В качестве регулярных напоминаний для тех кто ищет данные по России и постсоветским странам, каталоги/источники данных собраны в проекте Datacatalogs.ru [1] поддерживаемом Инфокультурой (@infoculture)

Там кроме порталов данных собраны, также, ссылки на значимые списки наборов данных и порталы открытого бюджета. А также небольшое число каталогов данных по Казахстану, Узбекистану и ряду других пост-советских стран. Плюс - удобный поиск и наглядная визуализация.

Другой источник - реестр каталогов данных всего мира Common Data Index и каталоги из России в нём [2].Тут только порталы открытых данных и геопорталы, он полнее по метаданным, но не включает, например, порталы бюджетной системы. Сейчас здесь 142 каталога данных, частично лишь пересекаясь. Не всё что есть здесь есть в Datacatalogs.ru, поскольку первый наполнялся вручную, а этот реестр полуавтоматически.

А также сильно меньший по объёму, но удобный для редактирования всем и каждым Russian awesome open data list [3] на Github. Достаточно просто добавить новые источники данных через Pull request. Он очень давно создан (9 лет назад) и редко обновляется. Очень нехватает контрибьюторов.

К этому я лишь добавлю что сейчас работаю над проверкой доступности порталов данных по РФ. Потому что не только сайты органов власти недоступны за пределами российских подсетей, но и сайты региональных и муниципальных властей, региональных ГИС и тд. Без использования прокси внутри РФ невозможно теперь проверить жив ли тот или иной российский сайт блокирующий не-российский трафик.

Ссылки:
[1] https://www.datacatalogs.ru
[2] https://registry.commondata.io/country/RU
[3] https://github.com/infoculture/awesome-opendata-rus

#opendata #russia #datacatalogs
Исчез из открытого доступа портал открытых данных города Омска [1] последнее известное время его доступности это июнь 2022 года, на эту дату есть запись в Интернет архиве. Всего на сайте было 50 наборов данных, в основном по инфраструктуре города.

Архивная копия сайта нами была создана 15 апреля 2022 года в рамках проекта @ruarxive. В общей сложности 269 MB в формате WARC File.

Я только сейчас обнаружил что эти архивы мы всё ещё не выложили онлайн, так что сделаем это в этом году. Пока они все доступны по запросу, пишите если понадобятся.

Ссылки:
[1] http://opendata.admomsk.ru
[2] https://web.archive.org/web/20220622220148/http://opendata.admomsk.ru/

#opendata #closeddata #russia #omsk #digitalpreservation #webarchives
Обновлённая подборка ссылок на порталы с открытыми или общедоступными данными для машинного обучения.

Большие международные
- Kaggle kaggle.com/datasets - крупнейший по числу наборов данных каталог на платформ Kaggle
- Hagging Face huggingface.co/datasets/ - не такой большой количественно, но хорошо структурированный каталог на платформе Hagging Face
- Registry of Open Data on AWS registry.opendata.aws - данных особенно большого объёма в специальном каталоге открытых данных расположенных на платформе Amazon AWS
- Azure Open Datasets https://learn.microsoft.com/en-us/azure/open-datasets/dataset-catalog - данные особенно большого объёма на платформе Azure, тоже открытые
- OpenML Datasets openml.org - много данных - каталог данных на платформе OpenML
- UCL Machine learning repository archive-beta.ics.uci.edu - академический репозиторий данных для машинного обучения
- DagsHub dagshub.com/datasets - большая подборка наборов данных и библиотека для Python для работы с ними
- Papers With Code paperswithcode.com/datasets - наборы данных привязанные к "публикациям с кодом", чаще ссылки на другие порталы с данными
- Andaconda Datasets anaconda.org/search?q=dataset - программные пакеты для Python (Anaconda) для доступа ко многим наборам данных и включающие наборы данных

Японские
- ABCI Datasets datasets.abci.ai - научные наборы данных для ML

Корейские
- AI Hub aihub.or.kr - портал данных для ИИ в Южной Корее, большая часть данных требует регистрации и разрешения на использование

Российские
- MosMed datasets mosmed.ai/datasets - подборка наборов открытых данных для машинного обучения в области медицины

А также существуют многие другие, узкотематические и в виде подборок наборов данных.

#opendata #ml #data #ai #datacatalogs
В Узбекистане группа организаторов проводят хакатон по открытым данным Open Data Challenge [1] 27-29 января этого года, по направлениям:
- Государственный сектор
- Социальный сектор
- Бизнес
- Противодействия коррупции

То что проводятся мероприятия по открытым данным - это очень хорошо, больше таких нужно по всему миру. Тем временем я не могу не напомнить свою публикацию от 13 февраля 2023 года о проблемах с порталом открытых данных Узбекистана [2]. Если коротко, то "казаться" и "быть" - это разная жизнь. Портал выглядит так словно там тысячи наборов данных, а в реальности, на начало 2023 года, там было опубликовано всего 40 мегабайт и почти 3000 наборов данных были всего лишь записями в одну строку.

Это называется "фрагментация данных", искусственное создание большого числа наборов данных для симуляции масштаба. Российский Росстат тоже этим "развлекался" много лет. Иногда, нечасто, оно может быть обосновано лучшей находимостью данных когда надо искать, например, мировую статистику по странам и показатели могут разделять по территориям. Единственный известный мне пример - это портал данных банка международных расчётов, но они оперируют другими понятиями, не набором данных, а показателем, не претендуя что каждый показатель - это отдельный датасет.

Поэтому, конечно, я считаю что организаторам стоило бы добавить категорию по созданию наборов данных, сочетающих, объём и качество и указать источники для поиска данных участникам, потому что сейчас из сайта это непонятно.

На всякий случай, источники открытых данных в Узбекистане собраны в Common Data Index [3], там 5 геопорталов, один портал открытых данных и один портал индикаторов. Кроме того бесконечное число данных по Узбекистану рассеяно по сайтам органов власти страны и, конечно, много данных о странах находятся не в самих странах, а на сайтах порталов открытых данных международных проектов и институтов.

Ссылки:
[1] https://datahack.uz
[2] https://begtin.substack.com/p/31
[3] https://registry.commondata.io/country/UZ

#opendata #uzbekistan #vents
Что такое наборы данных ? (1/2)

Есть такой важный вопрос которым я задаюсь в последнее время особенно, который звучит банально, а ответ на него не так прост. А что такое данные? Что такое набор данных/датасет? Есть множество формальных определений, самое базовое это "dataset is a collection of data" , но на практике возникает множество нюансов.

Например, является ли изображение набором данных? Скорее всего нет, например, изображение обложки книги точно не набор данных. А если это карта? Или если это WMS сервис отдающий изображения? По сути - это метаданные + изображение. Он ближе к датасету, по крайней мере из практики использования. А если у нас изображение картины будет вместе с метаданными о нём? Это датасет ? Скорее нет чем да, но можно поспорить. А вот если это будет коллекция из тысяч изображений и метаданные к ним это уже точно набор данных. Возможно даже для машинного обучения. Точно также как и одна аудиозапись - это не набор данных, а тысячи аудиозаписи + метаданные + аннотации вполне себе типичный набор данных для ML.

#data #datasearch #datafragmentation #thoughts
Что такое наборы данных ? (2/2)

А от ответа на вопросы "что есть набор данных?" очень часто зависит реальная оценка их числа. К примеру, в Mendeley Data пишут что содержат 2,35 миллиона наборов данных из GBIF [1], но в GBIF реально лишь 91 тысяча наборов данных [2] так откуда остальные 2,24 миллиона ? На самом деле в Mendeley Data индексируют не только датасеты, но и "occurencies" (случаи, встречаемость) видов животных их там 2,66 миллионов и миллионы наборов данных имеют одно название Occurance Dowload.

Другой пример в виде Кэмбриджской базы молекул [4] по которой каждую молекулу в Mendeley показывают как датасет, хотя это, по факту, лишь отдельный записи единой базы данных. И такого там много, очень много. Это и фрагментация данных и подмена понятия набора данных другими. У OpenAIRE, европейского поисковика/графа по научным результатам, есть похожий поиск, но он выдаёт всего 2 миллиона наборов данных [5], потому что в какой-то момент его создатели разделили наборы данных сами по себе и остальные типы Research Data и, к примеру, там есть поиск по клиническим исследованиям, но сами исследования считаются отдельными типом Research Data. Как и изображения, звуки или 3D модели которые выделены как отдельные подтипы.

Поэтому Mendeley Data хотя и важный научный ресурс, но "подвирающий" про реальные объёмы данных которые
в нём охвачены.

А ответ на вопрос что такое набор данных всё ещё не так однозначен.

Ссылки:
[1] https://data.mendeley.com/research-data/?type=DATASET&source=gbif.gbif
[2] https://www.gbif.org/dataset/search
[3] https://www.gbif.org/occurrence/search
[4] https://data.mendeley.com/research-data/?type=DATASET&source=ccdc.csd
[5] https://explore.openaire.eu/search/find?type=%22datasets%22&resultbestaccessright=%22Open%2520Access%22&instancetypename=%22Dataset%22

#data #datasearch #datafragmentation #thoughts
Forwarded from Open Data Armenia
18 января в 12:00 (по Еревану, GMT+4) мы проведем первый вебинар, приуроченный к конкурсу «Open Data Armenia Contest».

Присоединяйтесь к вебинару, посвященному обзору открытых данных Армении. Это событие поможет участникам конкурса понять специфику открытых данных и преимущества их использования, а также узнать о многообразии доступных источников данных.

Вебинар будет состоять из двух частей:
Часть1. Введение в открытые данные и лицензии: определение, значение, виды и их влияние на распространение знаний. Спикер Иван Бегтин, руководитель проекта Open Data Armenia, эксперт в области open data и data discovery. Читается на русском языке.
Часть 2. Источники данных об Армении: обзор ключевых платформ и ресурсов с открытыми данными. Портал data.opendata.am. Спикер Валерия Бабаян, аналитик открытых данных, специалист в области data discovery. Читается на армянском языке.

Для участия необходимо зарегистрироваться: ссылка. Всем зарегистрированным участникам придет ссылка для подключения в Zoom.
Симпатичный свежий инструмент с открытым кодом по визуализации данных Trelliscope [1]. Написан на R, распространяется под лицензией MIT, команда, также, ведёт разработку пакета на Python [2].

Даёт возможность создавать недорогие интерактивные дашборды в короткие сроки, поверх стандартных датафреймов. Причём в примерах есть создание дашборда поверх больших наборов данных вроде поездок такси Нью Йорка (64GB, 1.6 миллиарда строк) [3].

Для очень многих задач когда данные большие или когда надо сделать визуализацию частью продукта, а лишних ресурсов нет, может оказаться очень полезным подспорьем.

И, кстати, будь такая штука удобным образом внедрена в один из сервисов/продуктов тетрадок вроде Jupyter Notebook, то совсем цены бы ей не было.

Ссылки:
[1] https://trelliscope.org/
[2] https://github.com/trelliscope/
[3] https://trelliscope.org/trelliscope/articles/bigdata.html

#opensource #dataviz #data #datatools
В рубрике как это работает у них [1] Open Context, проект про архивацию и создание наборов археологических наборов данных, как структурированных табличных файлов, так и совокупности изображений, видеозаписей, 3D моделей, записок исследователей археологов и так далее. В проекте эта совокупность данных называется Data publication, а сам он построен на привязке к контексту территории, исторической эпохи и так далее.

В общей сложности так опубликовано 136 наборов данных и тысячи медиа файлов, изображений и остального. Ближе всего они к датасетам для машинного обучения, поскольку являются смешением первичных и структурированных данных.

Большим достоинством Open Context является единая схема/модель описания публикаций, открытое API и публикация под свободными лицензиями.

Проект ведёт НКО The Alexandria Archive Institute [2], они же публикуют регулярно материалы по цифровой грамотности для археологов [3] и многое другое по Digital Humanities и Digital Preservation в контексте сохранения мирового наследия.

Ссылки:
[1] https://opencontext.org
[2] https://alexandriaarchive.org
[3] https://alexandriaarchive.org/data-literacy-program/

#opendata #datasets #datacatalogs #digitalhumanities #digitalpreservation #archeology
В рубрике интересных наборов данных Scans.io Stanford Internet Research Data Repository [1] коллекция больших наборов данных по инфраструктуре Интернета полученные путём сканирования всех доступных подсетей. Наборы данных там существуют, как созданные в Стенфордском университете, так и коммерческих компаний таких как Rapid7 и Censys.

Часть общедоступны, можно скачать сразу. Для доступа к данным от Rapid7 теперь уже какое-то время требуется написать им обоснование и рассказ о том для какого исследования Вам это нужно [2], а Censys уже давно большой коммерческий проект и к небольшой части своих данных они дают доступ через облако Google [3].

Применение у этих данных может быть не только в задачах инфобеза/кибербеза, но и в целях разного рода инструмента исследования инфрастурктуры. Или, например, data discovery. Многие из порталов данных мне удавалось найти через анализ базу DNS записей.

Ссылки:
[1] https://scans.io
[2] https://opendata.rapid7.com
[3] https://support.censys.io/hc/en-us/articles/360038761891-Research-Access-to-Censys-Data

#opendata #datasets #networksecurity #researchdata