397 subscribers
226 photos
46 videos
11 files
305 links
Data Engineering Technologies.
SQL, Python, Kafka, Spark, Pandas, Airflow, Clickhouse, Greenplum, Postgres, dbt

Буст канала тут - https://t.me/boost/data_engi
Download Telegram
📝 Данные и их разметка в 2024 году: развивающиеся тенденции и требования будущего

Интересная статья о разметке данных. Ключевые моменты:

🤔 Текущие тенденции:

👍 Увеличение сложности наборов данных
👍 Переход на разметку в реальном времени
👍 Масштабное развитие автоматизированных инструментов в дополнение к ручной обработке

🤔 Прогнозы рынка:

👍 Ожидается рост до 8,22$ млрд к 2028 году при CAGR 26,6%
👍 Требования к качеству и скорости разметки растут и будут расти по экспоненте

😎 Технологические тенденции:

👍 Адаптивный ИИ
👍 Метавселенная
👍 Индустриальные облачные платформы
👍 Усовершенствование беспроводных технологий

Автор указывает, что индустрия разделения данных будет стремительно развиваться из-за растущего спроса на точные и надёжные данные для ИИ и машинного обучения.

Автоматизация, адаптивный ИИ и новые технологические решения повысят качество и скорость разделения данных.

#data #de #ai
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥6
😁142
🐝Hive против Spark🚀

Apache Hive и Apache Spark — мощные инструменты для работы с большими данными, но они по-разному выполняют распределённую обработку.

🔜 Hive: SQL-интерфейс для Hadoop

Плюсы:
✔️ Хорошо масштабируется для больших наборов данных (хранящихся в HDFS)
✔️ SQL-like язык (HiveQL) делает его удобным для пользователя
✔️ Отлично подходит для пакетной обработки

Минусы:
▶️ Высокая задержка запросов (использует MapReduce/Tez)
▶️ Медленнее по сравнению со Spark
▶️ Ограниченные возможности потоковой обработки в реальном времени

➡️ Spark: быстрая распределённая обработка

Плюсы:
✔️ Вычисления в памяти 🔜 высокая производительность
✔️ Поддержка обработки данных в реальном времени (структурированная потоковая передача)
✔️ Гибкость: работает с HDFS, S3, Cassandra, JDBC и другими

Минусы:
▶️ Требует больше оперативной памяти
▶️ Более сложное управление
▶️ Менее эффективен для пакетной обработки архивированных больших данных

💡 Выводы:
Используй Hive для сложных SQL-запросов и пакетной обработки.
Используйте Spark для аналитики в реальном времени и быстрой обработки данных.

#data #bigdata #hive #spark #sql
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥5👏2😁1
😁9
😎 Открытые поисковые системы и хранилища данных по наборам данных

✔️ Google Dataset Search - открывает доступ к бесплатным публичным наборам данных. Ты можешь выбирать данные по разным темам и в разных форматах, включая .pdf, .csv, .jpg, .txt и другие. Использовать его так же просто, как и обычный поиск Google: просто введи в строку поиска название или интересующую тебя тему. По мере ввода система будет предлагать наборы данных с нужными ключевыми словами - ты можешь случайно наткнуться на что-то новое и интересное.

✔️ Открытые данные Всемирного банка - открытые данные Всемирного банка считаются одним из самых обширных и разнообразных источников статистической информации и общедоступных наборов данных. Ты можешь искать данные по различным категориям. Сайт Всемирного банка уникален тем, что предлагает бесплатные ресурсы и инструменты для общественного использования, такие как Data Bank - удобный инструмент для анализа и визуализации больших наборов данных

✔️ Data.world - эта платформа позволяет тебе получить доступ к бесплатным наборам данных и работать с ними прямо на сайте. Все, что нужно сделать, это создать бесплатную учётку, после чего тебе будет доступно 3 бесплатных проекта. При необходимости можнг перейти на платные планы с большим объемом хранилища. С помощью строки поиска ты можешь найти ключевые слова, ресурсы, организации или пользователей. А для более точного поиска ты можешь воспользоваться кнопкой «Создать расширенный фильтр», чтобы найти именно то, что тебе нужно.

✔️ DataHub — это платформа публикации данных (SaaS), разработанная Datopian, где ты можешь просматривать одну из самых разнообразных коллекций публичных наборов данных, организованных по темам. На платформе также есть блог с материалами по темам, связанным с Big Data Science.

✔️ Humanitarian Data Exchange — платформа для поиска наборов данных. Здесь ты можешь искать бесплатные наборы данных и фильтровать результаты по таким критериям, как местоположение, формат, организация и лицензия. Платформа также позволяет обмениваться данными по разным категориям.

✔️ UCI Machine Learning Repository — наименее обширный из всех упомянутых ресурсов, он остается полезным для тех, кто хочет построить модель машинного обучения. Несмотря на ограниченное количество наборов данных, ты также можешь искать данные по типу задачи, типу атрибута, формату данных и области применения.

✔️ Academic Torrents — если ты проводишь исследование, пишешь статью или магистерскую диссертацию, то Academic Torrents станет для тебя отличным помощником. Платформа предлагает множество больших наборов данных из научных публикаций, некоторые из которых достигают 2 терабайт. Использовать Academic Torrents очень просто: ты можешь искать наборы данных, статьи, курсы и коллекции, а также загружать собственные данные для работы с другими. Наборы данных бесплатны, но для их загрузки понадобится установленный на твоём устройстве торрент-клиент.

#data #datasets
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥8👏1
4 столпа robust-моделирования данных

1️⃣ Масштабируемость - слоистая архитектура, чёткие границы.

2️⃣ Переиспользуемость - модульные модели и общие макросы.

3️⃣ Производительность - материализации, инкременты, партиции.

4️⃣ Качество - тесты, свежесть, наблюдаемость.

Делай данные как софт: маленькие блоки, общие стандарты, строгие контракты.

#de #data #dbt #analytics
Please open Telegram to view this post
VIEW IN TELEGRAM
16