К вопросу о том почему я так часто писал в последнее время про форматы данных вроде Parquet которые из data science постепенно перебираются в другие дисциплины работы с данными. Вот наглядный пример, у меня на руках датасет который в несжатом виде занимает 195GB, а в сжатом .tar.gz около 22GB. Его владелец распространяет его именно в сжатой форме, но понятно что для работы с ним его приходится распаковывать, особенно учитывая что tar.gz не тот формат с которым удобно работать без полного его разжатия. Внутри датасета сплошные .jsonl файлы, удобный при любой работе с NOSQL, но не для хранения.
При этом, если пересжать все данные в архиве в формат parquet, то они сожмутся до 8-12GB, и с ними можно будет продолжить работу. Загрузить в СУБД из parquet в общем-то не проблема.
В целом получается настолько большой выигрыш что игнорировать такие инструменты просто нельзя.
И сюда же, кстати, про мои давние размышления про поиск замены OpenRefine. Самым интересным продуктом было бы если бы внутренний движок OpenRefine можно было бы заменить на DuckDB. Тогда можно было бы на стандартном десктопном железе работать по очистке датасетов условно почти любого размера.
#data #datatools #parquet #duckdb
При этом, если пересжать все данные в архиве в формат parquet, то они сожмутся до 8-12GB, и с ними можно будет продолжить работу. Загрузить в СУБД из parquet в общем-то не проблема.
В целом получается настолько большой выигрыш что игнорировать такие инструменты просто нельзя.
И сюда же, кстати, про мои давние размышления про поиск замены OpenRefine. Самым интересным продуктом было бы если бы внутренний движок OpenRefine можно было бы заменить на DuckDB. Тогда можно было бы на стандартном десктопном железе работать по очистке датасетов условно почти любого размера.
#data #datatools #parquet #duckdb
На фоне закрытия доступа к поиску по данным судебных решений я не могу не повториться о том как сейчас устроены открытые данные в России.
1. Их всё ещё много, не всё машиночитаемо, но многое пригодно к сбору.
2. Они всё ещё активно используются в самых разных проектах, в том числе в деловом обороте.
3. Основная причина закрытие - это расследования и публикации на их основе.
Фактически данные начинают закрывать когда какие-либо активисты начинают на их основе создавать хоть как-то заметные медийные продукты. Чем больше вокруг них шума, тем больше вероятность что данные прикроют.
Поэтому, из того что я наблюдаю, многие предприниматели кто создавал продукт на данных начинают не немножечко ненавидеть тех расследователей из-за которых потом эти данные закрываются. Теперь успех журналистского материала на данных из РФ оборачивается проблемами для всех не журналистов пользователей этих данных.
Но непубличных медиа материалов не бывает, поэтому этот процесс не закончится. Лично я не готов кого-либо осуждать, я подсказываю многим журналистам ответ на вопрос "почему исчезли эти данные?" потому что Вы о них написали, вот почему! Это не значит что не надо писать, это значит что стоит понимать природу этого явления.
Лично я уже упоминал что практически перестал писать о разного рода интересных датасетах внутри РФ не по той причине что писать не о чем, а по той причине что эти данные закроют. И архив любых датасетов надо делать не после того как начали закрывать, а до и тихо.
К сожалению, не только в этом году, но и в ближайшие годы эта ситуация не поменяется.
Что, безусловно, очень печалит, но непонятно как это можно поменять. Поэтому делать проекты на открытых данных, по прежнему, можно, а вот делать их публично и шумно уже нельзя, не потеряв источники данных.
#opendata #thoughts #data #russia
1. Их всё ещё много, не всё машиночитаемо, но многое пригодно к сбору.
2. Они всё ещё активно используются в самых разных проектах, в том числе в деловом обороте.
3. Основная причина закрытие - это расследования и публикации на их основе.
Фактически данные начинают закрывать когда какие-либо активисты начинают на их основе создавать хоть как-то заметные медийные продукты. Чем больше вокруг них шума, тем больше вероятность что данные прикроют.
Поэтому, из того что я наблюдаю, многие предприниматели кто создавал продукт на данных начинают не немножечко ненавидеть тех расследователей из-за которых потом эти данные закрываются. Теперь успех журналистского материала на данных из РФ оборачивается проблемами для всех не журналистов пользователей этих данных.
Но непубличных медиа материалов не бывает, поэтому этот процесс не закончится. Лично я не готов кого-либо осуждать, я подсказываю многим журналистам ответ на вопрос "почему исчезли эти данные?" потому что Вы о них написали, вот почему! Это не значит что не надо писать, это значит что стоит понимать природу этого явления.
Лично я уже упоминал что практически перестал писать о разного рода интересных датасетах внутри РФ не по той причине что писать не о чем, а по той причине что эти данные закроют. И архив любых датасетов надо делать не после того как начали закрывать, а до и тихо.
К сожалению, не только в этом году, но и в ближайшие годы эта ситуация не поменяется.
Что, безусловно, очень печалит, но непонятно как это можно поменять. Поэтому делать проекты на открытых данных, по прежнему, можно, а вот делать их публично и шумно уже нельзя, не потеряв источники данных.
#opendata #thoughts #data #russia
Как и где искать наборы данных? Помимо Dateno, поисковика над которым работает наша команда, в мире существует некоторое количество поисковых систем в которых можно попробовать найти нужные данные.
Google Dataset Search
Все ещё имеет исследовательский статус, но уже содержит десятки миллионов ссылок на датасеты. Для индексирования использует описание Dataset из Schema.org что даёт возможность индексировать всё что вебмастера отметили как датасеты, и индексировать немало спама тоже.
Плюс: широта охвата, много данных для бизнеса, много научных данных
Минус: мало данных не научных и не коммерческих, сильная загрязненность SEO, не индексируется всё что не по Schema.org
BASE (Bielefeld Academic Search Engine)
Как видно из название система поиска по академическим результатам, более 363 миллионов разного рода research outputs (научных результатов) включая наборы данных которых там 21 миллион. Охватывает только научные источники и научные данные. Индексирует с помощью OAI-PMH краулера со всеми его достоинствами и недостатками.
Плюсы: много научных данных, хорошие фильтры для сужения поиска
Минус: мало ненаучных данных, невозможно скачивать ресурсы с файлами прямо из поиска
Datacite Commons
Поисковик по научным работам от DataCite, сервиса выдачи DOI для данных. Умеет искать по всем тем датасетам которым присвоен DOI. Охватывает несколько десятков миллионов научных данных и научных предметов. Дело в том что DOI могут присваиваться не только датасету, но и,к примеру, виду животных или химической формуле.
Плюсы: широкий охват научных данных
Минусы: отсутствие любых ненаучных данных, много мусора поскольку часто исследователи присваивают DOI документам и изображениям а не датасетам.
FinData
Китайский поисковик по научным данным от Центра компьютерных сетей при Академии наук. Охватывает , преимущественно, китайские и связанные с Китаем датасеты, в первую очередь из SciDB.
Плюсы: очень много очень китайских научных данных
Минусы: совсем нет ничего другого, мало фильтров при поиске
—
Итого поисковики есть, из крупных - это Google. У Bing и Yandex нет поиска по наборам данных. Большая часть остальных научные. Кроме них ещё есть немало поисковиков как агрегаторов, о них я тоже позже расскажу.
#datasearch #opendata #data #search #datasets #dateno
Google Dataset Search
Все ещё имеет исследовательский статус, но уже содержит десятки миллионов ссылок на датасеты. Для индексирования использует описание Dataset из Schema.org что даёт возможность индексировать всё что вебмастера отметили как датасеты, и индексировать немало спама тоже.
Плюс: широта охвата, много данных для бизнеса, много научных данных
Минус: мало данных не научных и не коммерческих, сильная загрязненность SEO, не индексируется всё что не по Schema.org
BASE (Bielefeld Academic Search Engine)
Как видно из название система поиска по академическим результатам, более 363 миллионов разного рода research outputs (научных результатов) включая наборы данных которых там 21 миллион. Охватывает только научные источники и научные данные. Индексирует с помощью OAI-PMH краулера со всеми его достоинствами и недостатками.
Плюсы: много научных данных, хорошие фильтры для сужения поиска
Минус: мало ненаучных данных, невозможно скачивать ресурсы с файлами прямо из поиска
Datacite Commons
Поисковик по научным работам от DataCite, сервиса выдачи DOI для данных. Умеет искать по всем тем датасетам которым присвоен DOI. Охватывает несколько десятков миллионов научных данных и научных предметов. Дело в том что DOI могут присваиваться не только датасету, но и,к примеру, виду животных или химической формуле.
Плюсы: широкий охват научных данных
Минусы: отсутствие любых ненаучных данных, много мусора поскольку часто исследователи присваивают DOI документам и изображениям а не датасетам.
FinData
Китайский поисковик по научным данным от Центра компьютерных сетей при Академии наук. Охватывает , преимущественно, китайские и связанные с Китаем датасеты, в первую очередь из SciDB.
Плюсы: очень много очень китайских научных данных
Минусы: совсем нет ничего другого, мало фильтров при поиске
—
Итого поисковики есть, из крупных - это Google. У Bing и Yandex нет поиска по наборам данных. Большая часть остальных научные. Кроме них ещё есть немало поисковиков как агрегаторов, о них я тоже позже расскажу.
#datasearch #opendata #data #search #datasets #dateno
Dateno
Dateno - datasets search engine
Search engine for datasets
Forwarded from Daniilak - канал
Опубликовал новый датасет на Kaggle: Кадастровые данные Чебоксар с полигонами
Содержит подробные кадастровые данные о земельных участках и объектах капитального строительства в Чебоксарах, включая геометрические данные в виде полигонов.
🔎 Вот некоторые из полей, которые вы найдете в этом датасете:
- Кадастровый номер объекта
- Тип объекта (например, Земельный участок)
- Площадь объекта в квадратных метрах
- Адрес объекта
- Категория земельного участка (например, Земли населенных пунктов)
- Разрешенное использование объекта
- Кадастровая стоимость объекта
- В геометрии объекта представлены полигоны
Cheboksary Cadastral Data with Polygons
#dataset
Содержит подробные кадастровые данные о земельных участках и объектах капитального строительства в Чебоксарах, включая геометрические данные в виде полигонов.
🔎 Вот некоторые из полей, которые вы найдете в этом датасете:
- Кадастровый номер объекта
- Тип объекта (например, Земельный участок)
- Площадь объекта в квадратных метрах
- Адрес объекта
- Категория земельного участка (например, Земли населенных пунктов)
- Разрешенное использование объекта
- Кадастровая стоимость объекта
- В геометрии объекта представлены полигоны
Cheboksary Cadastral Data with Polygons
#dataset
Не все данные называются наборами данных или базами данных или даже просто данными. Например, научные работы состоящие из данных или включающие данные могут называть datasets и, чаще всего, именно так и называют в репозиториях научных данных или в институциональных репозиториях научных и университетских исследовательских центров.
Однако, современные научные журналы - это, тоже, далеко не только тексты статей, там есть довольно много разных технологизированных тенденций и одна из них это публикация статей с данными. Такие статьи называют не datasets, а data paper, data report, data article и data note. Они включают сам текст статьи и уведомление о доступности данных включающее ссылки на первичные данные или данные полученные в результате работы.
Например, издательство Frontiers размещает data reports в своих онлайн изданиях [1]. Пока немного, всего 597 статей из 512 тысяч, это меньше чем 0.1%, но, тем не менее. Постепенно их число растёт.
В GBIF есть описание о том что такое data paper и примеры изданий их публикующих [2], подсказка , много таких изданий. Например, data paper есть в изданиях издательства Pensoft [3] и ещё немало специализированных журналов для данных вернее для статей с данными.
Есть подборки таких журналов [4] и их несложно найти при желании.
Подобные работы иногда сопровождаются приложенными дата файлами, а чаще ссылками на публикации данных в научных репозиториях. Таких как Dryad, Zenodo, Mendeley и ещё много других.
Для меня лично незакрытым вопросом остаётся воспринимать ли data papers как предмет индексирования поисковой системы по данным. С одной стороны большая часть данных из них доступны в каталогах данных, с другой стороны большая часть - это не все и многие данные в каталоги данных не попадают.
Ссылки:
[1] https://www.frontiersin.org/articles?publication-date=01%2F01%2F2007-06%2F04%2F2024&type=123
[2] https://www.gbif.org/data-papers
[3] https://mycokeys.pensoft.net/browse_journal_articles.php?form_name=filter_articles&sortby=0&journal_id=11&search_in_=0§ion_type%5B%5D=134
[4] https://zenodo.org/records/7082126
#openaccess #thoughts #research #data #datasets
Однако, современные научные журналы - это, тоже, далеко не только тексты статей, там есть довольно много разных технологизированных тенденций и одна из них это публикация статей с данными. Такие статьи называют не datasets, а data paper, data report, data article и data note. Они включают сам текст статьи и уведомление о доступности данных включающее ссылки на первичные данные или данные полученные в результате работы.
Например, издательство Frontiers размещает data reports в своих онлайн изданиях [1]. Пока немного, всего 597 статей из 512 тысяч, это меньше чем 0.1%, но, тем не менее. Постепенно их число растёт.
В GBIF есть описание о том что такое data paper и примеры изданий их публикующих [2], подсказка , много таких изданий. Например, data paper есть в изданиях издательства Pensoft [3] и ещё немало специализированных журналов для данных вернее для статей с данными.
Есть подборки таких журналов [4] и их несложно найти при желании.
Подобные работы иногда сопровождаются приложенными дата файлами, а чаще ссылками на публикации данных в научных репозиториях. Таких как Dryad, Zenodo, Mendeley и ещё много других.
Для меня лично незакрытым вопросом остаётся воспринимать ли data papers как предмет индексирования поисковой системы по данным. С одной стороны большая часть данных из них доступны в каталогах данных, с другой стороны большая часть - это не все и многие данные в каталоги данных не попадают.
Ссылки:
[1] https://www.frontiersin.org/articles?publication-date=01%2F01%2F2007-06%2F04%2F2024&type=123
[2] https://www.gbif.org/data-papers
[3] https://mycokeys.pensoft.net/browse_journal_articles.php?form_name=filter_articles&sortby=0&journal_id=11&search_in_=0§ion_type%5B%5D=134
[4] https://zenodo.org/records/7082126
#openaccess #thoughts #research #data #datasets
Frontiers
Articles | Frontiers
List of all peer-reviewed academic Articles published by Frontiers Media SA.
Немногие за пределами Китая знают о масштабах публикации там научных данных. При этом данных там много и, помимо таких проектов как SciDB и Findata существуют десятки крупных научных репозиториев с данными.
В большинстве из них в их основе лежит ПО InstDB [1] установленное в 72 научных учреждениях и служащее для раскрытия научных данных в режимах: открытости, доступа по авторизации и доступа по запросу.
Например, на InstDB работает центр научных данных академии наук Китая [2], репозиторий Института физики [3] и многих других научных организаций.
В Китае научных данных многократно больше чем на государственных порталах данных, которые тоже есть и которые, тоже, работают на типовом ПО. Но типовом местном ПО, разработанном китайскими компаниями. Это большая и важная страновая особенность по доступности данных. Ещё одна особенность в том что про китайские открытые данные почти не пишут в обзорах OKF или State of data. Это делает эти данные почти невидимыми для тех кто не знает о том как всё устроено.
А типовое ПО в виде InstDB позволило китайской академии наук создать поисковик Findata о котором я ранее писал.
Ссылки:
[1] https://market.csdb.cn/InstDB
[2] http://instdb.casdc.cn
[3] http://instdb.iphy.ac.cn
#opendata #china #datacatalogs #datasets
В большинстве из них в их основе лежит ПО InstDB [1] установленное в 72 научных учреждениях и служащее для раскрытия научных данных в режимах: открытости, доступа по авторизации и доступа по запросу.
Например, на InstDB работает центр научных данных академии наук Китая [2], репозиторий Института физики [3] и многих других научных организаций.
В Китае научных данных многократно больше чем на государственных порталах данных, которые тоже есть и которые, тоже, работают на типовом ПО. Но типовом местном ПО, разработанном китайскими компаниями. Это большая и важная страновая особенность по доступности данных. Ещё одна особенность в том что про китайские открытые данные почти не пишут в обзорах OKF или State of data. Это делает эти данные почти невидимыми для тех кто не знает о том как всё устроено.
А типовое ПО в виде InstDB позволило китайской академии наук создать поисковик Findata о котором я ранее писал.
Ссылки:
[1] https://market.csdb.cn/InstDB
[2] http://instdb.casdc.cn
[3] http://instdb.iphy.ac.cn
#opendata #china #datacatalogs #datasets
Подборка ссылок и моих наблюдений про то как публикуют данные в мире:
1. Китайский национальный центр по биоинформатике собирает базы общим размером более 51 петабайта [1] большая часть которых доступна для скачивания онлайн через их FTP сервер, посмотреть можно через веб интерфейс их FTP сервера [2]
2. THREDDS Data Server [3] софт с открытым кодом для публикации научных данных. Изначально создан для работы с метеорологическими данными и, в основном, так и применяется. Несколько десятков инсталляций по всему миру, хотя сам продукт очень консервативный и заточенный под конкретную область. Можно посмотреть пример такого каталога [4]
3. Github - это крупнейший каталог данных, но плохо структурированный. Опубликовать данные там просто, найти данные там сложно потому что будучи репозиторием кода датасеты там не структурированы в отдельную категорию. Можно искать их через правильные поисковые запросы, например, находя спецификации Frictionless Data которые в файлах datapackage.json [5]
4. Datamed [6] поисковик по биомедицинским датасетам, пишут что их там миллионы, по факту 1.2 миллиона из 49 репозиториев. Из них 80% датасетов из всего 4-х репозиториев имеющих более продвинутые формы поиска. Идея хорошая, реализация, на мой взгляд, не очень, недостаточно нового качества создаётся. Ну и индексируют они похоже отдельными парсерами под каждый источник и у них всё та же запутанность о том что считать датасетами.
5. Уже несколько раз сталкиваюсь с тем что, казалось бы, у типового ПО для публикации данных нет API. Нечасто но такое бывает и выясняется что это не нет API, а подход возврата разного содержания от передачи заголовка Accept: application/json в HTTP запросе. То есть, де-факто, API есть, но GET запрос не вернет JSON или другой машиночитаемый ответ. Любопытно насколько это распространено в публикации чего-то ещё, есть подозрение что это не такое редкое явление и не только про каталоги данных.
Ссылки:
[1] https://www.cncb.ac.cn/
[2] https://download.cncb.ac.cn/
[3] https://github.com/Unidata/tds
[4] https://thredds.rda.ucar.edu/thredds/catalog/catalog.html
[5] https://github.com/search?q=path%3A**%2Fdatapackage.json&type=code&ref=advsearch
[6] https://datamed.org/
#opendata #data #datasets #datatools #datacatalogs #datasearch
1. Китайский национальный центр по биоинформатике собирает базы общим размером более 51 петабайта [1] большая часть которых доступна для скачивания онлайн через их FTP сервер, посмотреть можно через веб интерфейс их FTP сервера [2]
2. THREDDS Data Server [3] софт с открытым кодом для публикации научных данных. Изначально создан для работы с метеорологическими данными и, в основном, так и применяется. Несколько десятков инсталляций по всему миру, хотя сам продукт очень консервативный и заточенный под конкретную область. Можно посмотреть пример такого каталога [4]
3. Github - это крупнейший каталог данных, но плохо структурированный. Опубликовать данные там просто, найти данные там сложно потому что будучи репозиторием кода датасеты там не структурированы в отдельную категорию. Можно искать их через правильные поисковые запросы, например, находя спецификации Frictionless Data которые в файлах datapackage.json [5]
4. Datamed [6] поисковик по биомедицинским датасетам, пишут что их там миллионы, по факту 1.2 миллиона из 49 репозиториев. Из них 80% датасетов из всего 4-х репозиториев имеющих более продвинутые формы поиска. Идея хорошая, реализация, на мой взгляд, не очень, недостаточно нового качества создаётся. Ну и индексируют они похоже отдельными парсерами под каждый источник и у них всё та же запутанность о том что считать датасетами.
5. Уже несколько раз сталкиваюсь с тем что, казалось бы, у типового ПО для публикации данных нет API. Нечасто но такое бывает и выясняется что это не нет API, а подход возврата разного содержания от передачи заголовка Accept: application/json в HTTP запросе. То есть, де-факто, API есть, но GET запрос не вернет JSON или другой машиночитаемый ответ. Любопытно насколько это распространено в публикации чего-то ещё, есть подозрение что это не такое редкое явление и не только про каталоги данных.
Ссылки:
[1] https://www.cncb.ac.cn/
[2] https://download.cncb.ac.cn/
[3] https://github.com/Unidata/tds
[4] https://thredds.rda.ucar.edu/thredds/catalog/catalog.html
[5] https://github.com/search?q=path%3A**%2Fdatapackage.json&type=code&ref=advsearch
[6] https://datamed.org/
#opendata #data #datasets #datatools #datacatalogs #datasearch
GitHub
GitHub - Unidata/tds: THREDDS Data Server
THREDDS Data Server. Contribute to Unidata/tds development by creating an account on GitHub.
Один из крупнейших каталогов геоданных в России - это ФГИС Территориального планирования (ФГИС ТП) [1] управляемое Минэкономразвития РФ. Значительная часть этих данных - это геоданные в форматах XML, GML и других, но их нельзя скачать, скачивать можно только данные в растровой форме - PDF, TIF, JPG, PNG
Хотя именно открытые геоданные составляют большую часть открытых данных в развитых странах, но это не про РФ, и не про ряд стран секретящих всё что связано с их территориями.
Эти данные не закрывались в 2022 году и позже поскольку не открывались никогда.
В общей сложности там порядка 200 тысяч принятых документов из которых не менее четверти должны содержать машиночитаемые геоданные.
Ссылки:
[1] https://fgistp.economy.gov.ru
#opendata #closeddata #geodata #russia
Хотя именно открытые геоданные составляют большую часть открытых данных в развитых странах, но это не про РФ, и не про ряд стран секретящих всё что связано с их территориями.
Эти данные не закрывались в 2022 году и позже поскольку не открывались никогда.
В общей сложности там порядка 200 тысяч принятых документов из которых не менее четверти должны содержать машиночитаемые геоданные.
Ссылки:
[1] https://fgistp.economy.gov.ru
#opendata #closeddata #geodata #russia
Я тут, внезапно, обнаружил что замечательный гайд Джошуа Тауберера по организации хакатонов [1] не переводился не то что на русский язык, но и на многие другие. Впрочем в том виде как он был написан ещё 10 лет назад его уже применять не стоит, очень многое перенеслось в онлайн и сами хакатоны стали уже другими, кроме них появилось немало других форм совместного кодирования/сбора данных/проведения конкурсов и многого другого.
С другой стороны я вижу отсутствие гайда/чеклиста для самих участников хакатонов. Понятно что в большинстве хакатонов участвуют начинающие разработчики, но одновременно - это тест на их способность расти дальше в навыках и карьере.
Ссылки:
[1] https://hackathon.guide/
#opensource #hackathons #guide
С другой стороны я вижу отсутствие гайда/чеклиста для самих участников хакатонов. Понятно что в большинстве хакатонов участвуют начинающие разработчики, но одновременно - это тест на их способность расти дальше в навыках и карьере.
Ссылки:
[1] https://hackathon.guide/
#opensource #hackathons #guide
Анализируя источники данных по всем буквально странам мира вижу довольно заметную и четкую корреляцию между развитостью страны, числом населения и числом каталогов данных и датасетов.
Причём именно в такой последовательности, вначале уровень развития (доход на душу населения, условно) и только далее уже число населения. К примеру, поэтому сотни тысяч наборов данных и более 200 каталогов данных в Нидерландах и почти ничего нет в Мьянме (Бирме). Собственно по этой причине нет почти никаких внутренних данных по Афганистану, Зимбабве, Туркменистану и ещё много каким странам. Но вот нельзя сказать что есть корреляция с политическим режимом в чистом виде. К примеру, в Китае более чем много данных публикуется.
Впрочем чуть ли не самым главным фактором является интегрированность страны в мировую экономику (науку, привлечение инвестиций и тд.), когда интегрированность высока то данных довольно много, особенно научных данных, кстати.
#opendata #datasets #data #thoughts
Причём именно в такой последовательности, вначале уровень развития (доход на душу населения, условно) и только далее уже число населения. К примеру, поэтому сотни тысяч наборов данных и более 200 каталогов данных в Нидерландах и почти ничего нет в Мьянме (Бирме). Собственно по этой причине нет почти никаких внутренних данных по Афганистану, Зимбабве, Туркменистану и ещё много каким странам. Но вот нельзя сказать что есть корреляция с политическим режимом в чистом виде. К примеру, в Китае более чем много данных публикуется.
Впрочем чуть ли не самым главным фактором является интегрированность страны в мировую экономику (науку, привлечение инвестиций и тд.), когда интегрированность высока то данных довольно много, особенно научных данных, кстати.
#opendata #datasets #data #thoughts
Подборка полезных ссылок про данные, технологии и не только:
- drawdb [1] визуальное проектирование баз данных и SQL генератор на базе draw.io. Открытый код на JS, лицензия MIT. Выглядит очень даже неплохо
- quickwit [2] альтернатива Datadog и подобным сервисам, но с открытым кодом. Реализует поисковую систему для наблюдаемости процессов. Лицензия AGPL или коммерческая, для бизнеса. Выглядит как минимум интересно, очередной пример YAML программирования, огромного числа файлов для настройки.
- paradedb [3] альтернатива Elasticsearch на базе Postgres, обещают что внутри файлы parquet и многократно выше скорость аналитических запросов. Обещают облачный сервис, пока доступен open source продукт. Лицензия AGPL для всех и коммерческая для бизнеса.
- traefik [4] реверсный прокси для HTTP для развертывания микросервисов и API, похож на альтернативу Kong и Tyk. Открытый код под MIT лицензией
Ссылки:
[1] https://github.com/drawdb-io/drawdb
[2] https://github.com/quickwit-oss/quickwit
[3] https://github.com/paradedb/paradedb
[4] https://github.com/traefik/traefik
#opensource #data #datatools #api #dataviz
- drawdb [1] визуальное проектирование баз данных и SQL генератор на базе draw.io. Открытый код на JS, лицензия MIT. Выглядит очень даже неплохо
- quickwit [2] альтернатива Datadog и подобным сервисам, но с открытым кодом. Реализует поисковую систему для наблюдаемости процессов. Лицензия AGPL или коммерческая, для бизнеса. Выглядит как минимум интересно, очередной пример YAML программирования, огромного числа файлов для настройки.
- paradedb [3] альтернатива Elasticsearch на базе Postgres, обещают что внутри файлы parquet и многократно выше скорость аналитических запросов. Обещают облачный сервис, пока доступен open source продукт. Лицензия AGPL для всех и коммерческая для бизнеса.
- traefik [4] реверсный прокси для HTTP для развертывания микросервисов и API, похож на альтернативу Kong и Tyk. Открытый код под MIT лицензией
Ссылки:
[1] https://github.com/drawdb-io/drawdb
[2] https://github.com/quickwit-oss/quickwit
[3] https://github.com/paradedb/paradedb
[4] https://github.com/traefik/traefik
#opensource #data #datatools #api #dataviz
GitHub
GitHub - drawdb-io/drawdb: Free, simple, and intuitive online database diagram editor and SQL generator.
Free, simple, and intuitive online database diagram editor and SQL generator. - drawdb-io/drawdb
Для тех кто интересуется поиском по данным и каталогами данных, реестр каталогов переехал на сайт Dateno и теперь доступен по адресу dateno.io/registry и содержит ещё и статистику из самого портала Dateno, по странам и по каждому каталогу в числе датасетов.
Собственно Dateno - это крупнейший открытый индекс и поисковик по данным и раскрытие по масштабу индексирования - это про то как он работает.
Пока в качестве преданонса, в поисковик загружаются ещё миллионы датасетов и это то что будет в следующем его обновлении. А вскоре будет и обещанное API, в первую очередь для beta тестирования и по запросу, а когда сделаем личный кабинет на сайте то и доступное для всех.
#dateno #datacatalogs #datasearch #data #opendata
Собственно Dateno - это крупнейший открытый индекс и поисковик по данным и раскрытие по масштабу индексирования - это про то как он работает.
Пока в качестве преданонса, в поисковик загружаются ещё миллионы датасетов и это то что будет в следующем его обновлении. А вскоре будет и обещанное API, в первую очередь для beta тестирования и по запросу, а когда сделаем личный кабинет на сайте то и доступное для всех.
#dateno #datacatalogs #datasearch #data #opendata
В рубрике больших каталогов открытых данных данные проекта ENCODE [1] энциклопедии элементов ДНК. Всего в проекте более 643 тысяч наборов данных в специализированных форматах bigWig, bed bed 3+, fastq, bam и других, общим количеством в несколько петабайт.
Эти же данные доступны исследователям через сервисы Amazon AWS и Azure Datasets.
Это очень специализированные данные которые ищут по своей логике и правилам. Например, мы без труда сможем добавить их в поисковый индекс Dateno , что сразу увеличит число датасетов привязанных к США, имеющих научную атрибуцию поскольку почти все эти данные созданы в США и более 80% в одной лаборатории.
Ссылки:
[1] https://www.encodeproject.org/datasets/
#opendata #datacatalogs #datasets #data
Эти же данные доступны исследователям через сервисы Amazon AWS и Azure Datasets.
Это очень специализированные данные которые ищут по своей логике и правилам. Например, мы без труда сможем добавить их в поисковый индекс Dateno , что сразу увеличит число датасетов привязанных к США, имеющих научную атрибуцию поскольку почти все эти данные созданы в США и более 80% в одной лаборатории.
Ссылки:
[1] https://www.encodeproject.org/datasets/
#opendata #datacatalogs #datasets #data
В рубрике как это устроено у них британское НКО Align to Innovate [1] сфокусированы на развитии открытости в биоинформатике через конкурсы, турниры и открытые данные в этой сфере. У них пример подхода к публикации данных через верификацию сообществом [2] начиная с dataset proposal (предложения конкретного набора данных) и продолжая сбором данных.
Очень логичная инициатива потому что подготовка больших верифицированных академических датасетов - это большая работа и дорогая к тому же. А здесь логичный процесс особенно если научные фонды понимают зачем создаются данные и то что надо финансировать процесс их создания.
Ссылки:
[1] https://alignbio.org
[2] https://alignbio.org/datasets-in-detail
#opendata #datasets #openaccess #data
Очень логичная инициатива потому что подготовка больших верифицированных академических датасетов - это большая работа и дорогая к тому же. А здесь логичный процесс особенно если научные фонды понимают зачем создаются данные и то что надо финансировать процесс их создания.
Ссылки:
[1] https://alignbio.org
[2] https://alignbio.org/datasets-in-detail
#opendata #datasets #openaccess #data