397 subscribers
226 photos
46 videos
11 files
305 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt

Буст канала тут - https://t.me/boost/data_engi
Download Telegram
😎 Открытые поисковые системы и хранилища данных по наборам данных

✔️ Google Dataset Search - открывает доступ к бесплатным публичным наборам данных. Ты можешь выбирать данные по разным темам и в разных форматах, включая .pdf, .csv, .jpg, .txt и другие. Использовать его так же просто, как и обычный поиск Google: просто введи в строку поиска название или интересующую тебя тему. По мере ввода система будет предлагать наборы данных с нужными ключевыми словами - ты можешь случайно наткнуться на что-то новое и интересное.

✔️ Открытые данные Всемирного банка - открытые данные Всемирного банка считаются одним из самых обширных и разнообразных источников статистической информации и общедоступных наборов данных. Ты можешь искать данные по различным категориям. Сайт Всемирного банка уникален тем, что предлагает бесплатные ресурсы и инструменты для общественного использования, такие как Data Bank - удобный инструмент для анализа и визуализации больших наборов данных

✔️ Data.world - эта платформа позволяет тебе получить доступ к бесплатным наборам данных и работать с ними прямо на сайте. Все, что нужно сделать, это создать бесплатную учётку, после чего тебе будет доступно 3 бесплатных проекта. При необходимости можнг перейти на платные планы с большим объемом хранилища. С помощью строки поиска ты можешь найти ключевые слова, ресурсы, организации или пользователей. А для более точного поиска ты можешь воспользоваться кнопкой «Создать расширенный фильтр», чтобы найти именно то, что тебе нужно.

✔️ DataHub — это платформа публикации данных (SaaS), разработанная Datopian, где ты можешь просматривать одну из самых разнообразных коллекций публичных наборов данных, организованных по темам. На платформе также есть блог с материалами по темам, связанным с Big Data Science.

✔️ Humanitarian Data Exchange — платформа для поиска наборов данных. Здесь ты можешь искать бесплатные наборы данных и фильтровать результаты по таким критериям, как местоположение, формат, организация и лицензия. Платформа также позволяет обмениваться данными по разным категориям.

✔️ UCI Machine Learning Repository — наименее обширный из всех упомянутых ресурсов, он остается полезным для тех, кто хочет построить модель машинного обучения. Несмотря на ограниченное количество наборов данных, ты также можешь искать данные по типу задачи, типу атрибута, формату данных и области применения.

✔️ Academic Torrents — если ты проводишь исследование, пишешь статью или магистерскую диссертацию, то Academic Torrents станет для тебя отличным помощником. Платформа предлагает множество больших наборов данных из научных публикаций, некоторые из которых достигают 2 терабайт. Использовать Academic Torrents очень просто: ты можешь искать наборы данных, статьи, курсы и коллекции, а также загружать собственные данные для работы с другими. Наборы данных бесплатны, но для их загрузки понадобится установленный на твоём устройстве торрент-клиент.

#data #datasets
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥8👏1