Linux | OpenSource | Tech

🚀 Новинка для разработчиков: «Kafka Streams в действии» (2-е издание)

<a href="https://habr.com/ru/companies/piter/articles/918910/"><img src="https://habrastorage.org/webt/3w/iq/hy/3wiqhyfiz13v-3mzxdt5otn5fcm.jpeg" align="left"></a>В эпоху, когда данные льются рекой, умение работать с потоковыми событиями — ключевой навык. Новая книга Билла Беджека — это практический гид по Apache Kafka, одной из самых мощных платформ для обработки данных в реальном времени.

🔹 Что внутри?
✔ Основы и продвинутые техники Kafka Streams
✔ Интеграция с Kafka Connect и ksqlDB
✔ Работа с Schema Registry и тестирование приложений

📖 Для кого?
Разработчики, инженеры данных и все, кто хочет освоить потоковую обработку с помощью Kafka.

🔗 Подробнее: Читать на Habr

#Книги #Разработка #Kafka #BigData

2 views12:31

🔍 Как DoseSports обучала ML-модель для борьбы с подозрительными ставками

Привет, это Big Data Engineer Виктор. В DoseSports мы разработали систему обнаружения подозрительных паттернов в ставках. Рассказываю без воды — только архитектура, фичи и выводы.

💡 Что внутри:
- Как выявляли аномалии в поведении беттеров
- Какие модели и подходы использовали
- Практические итоги внедрения

📖 Читать полностью: Habr

#МL #Антифрод #BigData #Ставки

2 views08:07

Linux | OpenSource | Tech

🔧 Apache Airflow на практике: гид по оркестрации ETL-процессов

Apache Airflow уже стал must-have инструментом для инженеров данных. В статье разбираем:
✅ За что его любят в Data Engineering
✅ Как внедрить в аналитическую инфраструктуру
✅ Пошаговый гайд по развертыванию

Читайте и внедряйте → habr.com

#DataEngineering #ETL #ApacheAirflow #BigData

2 views13:23

Linux | OpenSource | Tech

Путь к современному MDM: как управлять клиентскими данными эффективно

🔹 Команда Data Sapience представила собственное MDM-решение Data Ocean Governance MDM, объединив опыт внедрения российских и зарубежных систем мастер-данных.

👉 Почему это важно?
- Современные MDM помогают бизнесу структурировать и контролировать данные, избегая дублирования и ошибок.
- Клиентский домен — один из ключевых: от качества данных зависит работа маркетинга, продаж и поддержки.

📌 Особенности решения:
✔️ Высокая производительность
✔️ Поддержка мультидоменности
✔️ Гибкость и удобство использования

🔗 Читать подробнее на Хабре

#MDM #DataManagement #BigData #DataSapience

2 views12:44

Linux | OpenSource | Tech

🔍 Малоиспользуемые возможности ES: векторный поиск

Хотите узнать, как использовать векторный поиск в Elasticsearch для мощного и точного поиска данных? 🚀

📌 В статье рассматривается:
✔️ Принцип работы векторного поиска
✔️ Как внедрить его в проект
✔️ Примеры использования и преимущества технологии

👉 Читать статью на Habr ↗

#Elasticsearch #Поиск #BigData #Программирование

7 views11:15

Linux | OpenSource | Tech

🧠 Как нейросетям перестать бояться и полюбить «синтетику»

LLM (большие языковые модели) требуют огромных объёмов данных для обучения, но скоро человечество просто не сможет их обеспечить. Проблемы:
- Ограниченность реальных данных
- Высокая стоимость и юридические сложности

🤖 Синтетические данные могли бы спасти ситуацию, но и у них есть свои риски. В статье разбираются:
- Что такое «ML-аутофагия» (когда ИИ начинает «пожирать» сам себя)
- Как разработчики борются с этим феноменом
- Перспективы и подводные камни синтетических датасетов

🔗 Читать полный разбор

#ИИ #Нейросети #LLM #BigData

4 views09:24

Linux | OpenSource | Tech

🔥 Вышла Apache Spark 4.0! Главные нововведения

Компания Apache представила долгожданную Spark 4.0 — новую версию фреймворка для распределённой обработки больших данных.

📌 Что изменилось?
Основные улучшения затронули Spark SQL и PySpark, но среди ключевых нововведений:
- Ускоренная обработка сложных запросов
- Оптимизация работы с DataFrame
- Новые API для удобства разработчиков

Подробный разбор — в статье на Habr 👇

Читать полностью →

#BigData #ApacheSpark #Технологии

4 views10:31

Linux | OpenSource | Tech

🔹 От сырого кликстрима к чистым датасетам: как в Lamoda Tech работают с данными

Команда Lamoda Tech рассказала о своём опыте построения эффективной инфраструктуры для обработки данных.

📌 Проблемы, с которыми столкнулись:
- Разрозненные подходы к подготовке данных среди команд
- Дублирование логики и вычислительных ресурсов
- Трудности с переиспользованием данных
- Рост времени на запуск новых ML-продуктов и экспериментов

💡 Решение:
👉 Feature Storage — фреймворк на базе Apache Spark для стандартизации работы с датасетами
👉 Action Storage — специализированное решение для кликстрим-данных

Эти инструменты теперь — стандарт в Lamoda, ускоряющий разработку ML-моделей и упрощающий взаимодействие между командами.

📖 Подробнее — в статье на Habr: Читать далее

#DataScience #ML #BigData #Lamoda

4 views07:11

Linux | OpenSource | Tech

📌 DWH без иллюзий: Реальные кейсы внедрения корпоративного хранилища данных

Строительство корпоративного хранилища данных (DWH) — это не просто установка софта, а комплексная трансформация подходов к работе с данными. Успех зависит от грамотного учета текущих процессов, целей компании и командных возможностей.

🔍 Три реальных кейса внедрения DWH в разных сферах:
1️⃣ Свой коннектор к Oracle – когда стандартные решения (вроде Debezium) не справились.
2️⃣ Миграция с Qlik – как построить DWH в условиях разрозненности команд.
3️⃣ Бюрократия vs DWH – сложности внедрения в около-государственном секторе.

📖 Читать подробнее на Habr

#DWH #BigData #Аналитика #Кейсы #IT

3 views12:42

Linux | OpenSource | Tech

Excel уже не тянет: как мы собрали аналитику для LMS на 10 млн строк без дата-инженеров

🔹 Проблема: разработчики создают системы, которые отлично записывают данные, но не справляются с их анализом. Попытка выгрузить большой объем данных часто "валит" систему.

🔹 Решение: в статье разбираются 2 ключевых подхода к хранению и обработке данных для аналитики в LMS-платформе.

📌 Выводы: выбор правильного стека и архитектуры помогли справиться с нагрузкой в 10 млн строк без привлечения дата-инженеров.

👉 Читать статью на Habr

#Разработка #Аналитика #BigData #LMS

3 views13:24

Linux | OpenSource | Tech

🚀 18 лет эволюции: как устроена T Data Platform в Т-Банке

Привет, подписчики! 👋 Сегодня разбираем, как менялась платформа для работы с данными в Т-Банке — от классических хранилищ до современных решений.

🔹 О чём речь?
Платформа обрабатывает данные для 17 000+ пользователей и прошла путь от «озёр» (Data Lake) до гибридных Lakehouse-решений.

🔹 Почему это важно?
Опыт Т-Банка показывает, как подходы к данным трансформируются с развитием технологий — без лишнего технарского жаргона.

📌 Что внутри статьи?
✔ История развития платформы
✔ Текущая архитектура (без сложных деталей)
✔ Ссылки на детальные материалы для любопытных

👉 Читать подробнее → Habr

#Банкинг #DataScience #BigData #Технологии

2 views09:08

Linux | OpenSource | Tech

🚀 Алгоритмы для работы с большими данными в Go: HyperLogLog и Count-Min Sketch

📌 О чём?
Эффективная обработка огромных объёмов данных с минимальными ресурсами — ключевая задача современных алгоритмов. В этой статье разбираем HyperLogLog и Count-Min Sketch, которые жертвуют точностью ради скорости и масштабируемости.

🔹 HyperLogLog — оценка уникальных элементов (например, уникальные посетители сайта) с фиксированным объёмом памяти.
🔹 Count-Min Sketch — частотный анализ данных (например, популярные поисковые запросы) с контролируемой погрешностью.

📖 Подробнее → Читать на Habr

#BigData #Go #Алгоритмы #Программирование

3 views05:18

About

Blog

Apps

Platform