🔍 Малоиспользуемые возможности ES: векторный поиск
Хотите узнать, как использовать векторный поиск в Elasticsearch для мощного и точного поиска данных? 🚀
📌 В статье рассматривается:
✔️ Принцип работы векторного поиска
✔️ Как внедрить его в проект
✔️ Примеры использования и преимущества технологии
👉 Читать статью на Habr ↗
#Elasticsearch #Поиск #BigData #Программирование
Хотите узнать, как использовать векторный поиск в Elasticsearch для мощного и точного поиска данных? 🚀
📌 В статье рассматривается:
✔️ Принцип работы векторного поиска
✔️ Как внедрить его в проект
✔️ Примеры использования и преимущества технологии
👉 Читать статью на Habr ↗
#Elasticsearch #Поиск #BigData #Программирование
🧠 Как нейросетям перестать бояться и полюбить «синтетику»
LLM (большие языковые модели) требуют огромных объёмов данных для обучения, но скоро человечество просто не сможет их обеспечить. Проблемы:
- Ограниченность реальных данных
- Высокая стоимость и юридические сложности
🤖 Синтетические данные могли бы спасти ситуацию, но и у них есть свои риски. В статье разбираются:
- Что такое «ML-аутофагия» (когда ИИ начинает «пожирать» сам себя)
- Как разработчики борются с этим феноменом
- Перспективы и подводные камни синтетических датасетов
🔗 Читать полный разбор
#ИИ #Нейросети #LLM #BigData
LLM (большие языковые модели) требуют огромных объёмов данных для обучения, но скоро человечество просто не сможет их обеспечить. Проблемы:
- Ограниченность реальных данных
- Высокая стоимость и юридические сложности
🤖 Синтетические данные могли бы спасти ситуацию, но и у них есть свои риски. В статье разбираются:
- Что такое «ML-аутофагия» (когда ИИ начинает «пожирать» сам себя)
- Как разработчики борются с этим феноменом
- Перспективы и подводные камни синтетических датасетов
🔗 Читать полный разбор
#ИИ #Нейросети #LLM #BigData
🔥 Вышла Apache Spark 4.0! Главные нововведения
Компания Apache представила долгожданную Spark 4.0 — новую версию фреймворка для распределённой обработки больших данных.
📌 Что изменилось?
Основные улучшения затронули Spark SQL и PySpark, но среди ключевых нововведений:
- Ускоренная обработка сложных запросов
- Оптимизация работы с DataFrame
- Новые API для удобства разработчиков
Подробный разбор — в статье на Habr 👇
Читать полностью →
#BigData #ApacheSpark #Технологии
Компания Apache представила долгожданную Spark 4.0 — новую версию фреймворка для распределённой обработки больших данных.
📌 Что изменилось?
Основные улучшения затронули Spark SQL и PySpark, но среди ключевых нововведений:
- Ускоренная обработка сложных запросов
- Оптимизация работы с DataFrame
- Новые API для удобства разработчиков
Подробный разбор — в статье на Habr 👇
Читать полностью →
#BigData #ApacheSpark #Технологии
🔹 От сырого кликстрима к чистым датасетам: как в Lamoda Tech работают с данными
Команда Lamoda Tech рассказала о своём опыте построения эффективной инфраструктуры для обработки данных.
📌 Проблемы, с которыми столкнулись:
- Разрозненные подходы к подготовке данных среди команд
- Дублирование логики и вычислительных ресурсов
- Трудности с переиспользованием данных
- Рост времени на запуск новых ML-продуктов и экспериментов
💡 Решение:
👉 Feature Storage — фреймворк на базе Apache Spark для стандартизации работы с датасетами
👉 Action Storage — специализированное решение для кликстрим-данных
Эти инструменты теперь — стандарт в Lamoda, ускоряющий разработку ML-моделей и упрощающий взаимодействие между командами.
📖 Подробнее — в статье на Habr: Читать далее
#DataScience #ML #BigData #Lamoda
Команда Lamoda Tech рассказала о своём опыте построения эффективной инфраструктуры для обработки данных.
📌 Проблемы, с которыми столкнулись:
- Разрозненные подходы к подготовке данных среди команд
- Дублирование логики и вычислительных ресурсов
- Трудности с переиспользованием данных
- Рост времени на запуск новых ML-продуктов и экспериментов
💡 Решение:
👉 Feature Storage — фреймворк на базе Apache Spark для стандартизации работы с датасетами
👉 Action Storage — специализированное решение для кликстрим-данных
Эти инструменты теперь — стандарт в Lamoda, ускоряющий разработку ML-моделей и упрощающий взаимодействие между командами.
📖 Подробнее — в статье на Habr: Читать далее
#DataScience #ML #BigData #Lamoda
📌 DWH без иллюзий: Реальные кейсы внедрения корпоративного хранилища данных
Строительство корпоративного хранилища данных (DWH) — это не просто установка софта, а комплексная трансформация подходов к работе с данными. Успех зависит от грамотного учета текущих процессов, целей компании и командных возможностей.
🔍 Три реальных кейса внедрения DWH в разных сферах:
1️⃣ Свой коннектор к Oracle – когда стандартные решения (вроде Debezium) не справились.
2️⃣ Миграция с Qlik – как построить DWH в условиях разрозненности команд.
3️⃣ Бюрократия vs DWH – сложности внедрения в около-государственном секторе.
📖 Читать подробнее на Habr
#DWH #BigData #Аналитика #Кейсы #IT
Строительство корпоративного хранилища данных (DWH) — это не просто установка софта, а комплексная трансформация подходов к работе с данными. Успех зависит от грамотного учета текущих процессов, целей компании и командных возможностей.
🔍 Три реальных кейса внедрения DWH в разных сферах:
1️⃣ Свой коннектор к Oracle – когда стандартные решения (вроде Debezium) не справились.
2️⃣ Миграция с Qlik – как построить DWH в условиях разрозненности команд.
3️⃣ Бюрократия vs DWH – сложности внедрения в около-государственном секторе.
📖 Читать подробнее на Habr
#DWH #BigData #Аналитика #Кейсы #IT
Excel уже не тянет: как мы собрали аналитику для LMS на 10 млн строк без дата-инженеров
🔹 Проблема: разработчики создают системы, которые отлично записывают данные, но не справляются с их анализом. Попытка выгрузить большой объем данных часто "валит" систему.
🔹 Решение: в статье разбираются 2 ключевых подхода к хранению и обработке данных для аналитики в LMS-платформе.
📌 Выводы: выбор правильного стека и архитектуры помогли справиться с нагрузкой в 10 млн строк без привлечения дата-инженеров.
👉 Читать статью на Habr
#Разработка #Аналитика #BigData #LMS
🔹 Проблема: разработчики создают системы, которые отлично записывают данные, но не справляются с их анализом. Попытка выгрузить большой объем данных часто "валит" систему.
🔹 Решение: в статье разбираются 2 ключевых подхода к хранению и обработке данных для аналитики в LMS-платформе.
📌 Выводы: выбор правильного стека и архитектуры помогли справиться с нагрузкой в 10 млн строк без привлечения дата-инженеров.
👉 Читать статью на Habr
#Разработка #Аналитика #BigData #LMS
🚀 18 лет эволюции: как устроена T Data Platform в Т-Банке
Привет, подписчики! 👋 Сегодня разбираем, как менялась платформа для работы с данными в Т-Банке — от классических хранилищ до современных решений.
🔹 О чём речь?
Платформа обрабатывает данные для 17 000+ пользователей и прошла путь от «озёр» (Data Lake) до гибридных Lakehouse-решений.
🔹 Почему это важно?
Опыт Т-Банка показывает, как подходы к данным трансформируются с развитием технологий — без лишнего технарского жаргона.
📌 Что внутри статьи?
✔ История развития платформы
✔ Текущая архитектура (без сложных деталей)
✔ Ссылки на детальные материалы для любопытных
👉 Читать подробнее → Habr
#Банкинг #DataScience #BigData #Технологии
Привет, подписчики! 👋 Сегодня разбираем, как менялась платформа для работы с данными в Т-Банке — от классических хранилищ до современных решений.
🔹 О чём речь?
Платформа обрабатывает данные для 17 000+ пользователей и прошла путь от «озёр» (Data Lake) до гибридных Lakehouse-решений.
🔹 Почему это важно?
Опыт Т-Банка показывает, как подходы к данным трансформируются с развитием технологий — без лишнего технарского жаргона.
📌 Что внутри статьи?
✔ История развития платформы
✔ Текущая архитектура (без сложных деталей)
✔ Ссылки на детальные материалы для любопытных
👉 Читать подробнее → Habr
#Банкинг #DataScience #BigData #Технологии
🚀 Алгоритмы для работы с большими данными в Go: HyperLogLog и Count-Min Sketch
📌 О чём?
Эффективная обработка огромных объёмов данных с минимальными ресурсами — ключевая задача современных алгоритмов. В этой статье разбираем HyperLogLog и Count-Min Sketch, которые жертвуют точностью ради скорости и масштабируемости.
🔹 HyperLogLog — оценка уникальных элементов (например, уникальные посетители сайта) с фиксированным объёмом памяти.
🔹 Count-Min Sketch — частотный анализ данных (например, популярные поисковые запросы) с контролируемой погрешностью.
📖 Подробнее → Читать на Habr
#BigData #Go #Алгоритмы #Программирование
📌 О чём?
Эффективная обработка огромных объёмов данных с минимальными ресурсами — ключевая задача современных алгоритмов. В этой статье разбираем HyperLogLog и Count-Min Sketch, которые жертвуют точностью ради скорости и масштабируемости.
🔹 HyperLogLog — оценка уникальных элементов (например, уникальные посетители сайта) с фиксированным объёмом памяти.
🔹 Count-Min Sketch — частотный анализ данных (например, популярные поисковые запросы) с контролируемой погрешностью.
📖 Подробнее → Читать на Habr
#BigData #Go #Алгоритмы #Программирование
🚀 Оптимизация инсертов в ClickHouse через Kafka Sink-коннекторы
💡 Проблема: Мелкие частые вставки через Kafka нагружали ClickHouse, создавая тысячи запросов и замедляя работу.
🔧 Решение:
✔ Настройка параметров потребителя Kafka
✔ Объединение партиций
✔ Группировка записей в крупные блоки
📈 Результат: Резкое снижение нагрузки и значительный рост пропускной способности.
📖 Подробности в статье от Артема Москалькова (ведущий инженер данных в Магнит OMNI):
👉 Читать на Habr
#ClickHouse #Kafka #Оптимизация #BigData
💡 Проблема: Мелкие частые вставки через Kafka нагружали ClickHouse, создавая тысячи запросов и замедляя работу.
🔧 Решение:
✔ Настройка параметров потребителя Kafka
✔ Объединение партиций
✔ Группировка записей в крупные блоки
📈 Результат: Резкое снижение нагрузки и значительный рост пропускной способности.
📖 Подробности в статье от Артема Москалькова (ведущий инженер данных в Магнит OMNI):
👉 Читать на Habr
#ClickHouse #Kafka #Оптимизация #BigData
🚀 Apache Flink 2.0: революция в real-time вычислениях
Команда BitDive тестирует новую версию фреймворка для обработки потоковых данных — и вот что изменилось:
🔹 Масштабируемость — устранены ключевые болевые точки (конфигурация, локальное состояние, разрыв batch/streaming).
🔹 Скорость — снижение задержек и ускорение recovery по сравнению с Flink 1.20.x.
🔹 AI-готовность — поддержка актуальных сценариев обработки данных в реальном времени.
Уже используется для анализа метрик, трассировок и выявления аномалий с меньшими затратами.
📌 Подробности: Читать на Habr
#BigData #RealTime #ApacheFlink #DataEngineering
Команда BitDive тестирует новую версию фреймворка для обработки потоковых данных — и вот что изменилось:
🔹 Масштабируемость — устранены ключевые болевые точки (конфигурация, локальное состояние, разрыв batch/streaming).
🔹 Скорость — снижение задержек и ускорение recovery по сравнению с Flink 1.20.x.
🔹 AI-готовность — поддержка актуальных сценариев обработки данных в реальном времени.
Уже используется для анализа метрик, трассировок и выявления аномалий с меньшими затратами.
📌 Подробности: Читать на Habr
#BigData #RealTime #ApacheFlink #DataEngineering
🚀 Реализация ELT-процесса в архитектуре Data Lakehouse на open-source стеке
🔍 Задача: Крупный строительный холдинг (10+ юрлиц) обратился за помощью в создании централизованного хранилища данных для аналитики и визуализации.
🛠 Технологии:
- Kafka – сбор данных
- Dagster – оркестрация
- S3 + Iceberg – хранилище
- Trino + ClickHouse – обработка
- DBT – трансформация
📊 Результат:
✔ Более 1000 моделей в DBT
✔ 1 ТБ сжатых данных (объем растёт)
✔ Интеграция с Power BI, веб-приложениями, MDX-кубами
💡 Особенности:
🔒 Закрытый контур (доступ через терминальные решения)
🔄 Greenfield-разработка
👥 Команда из 11 дата-инженеров
📅 Управление по методологии Scrum
👉 Читать подробнее: Habr
#DataEngineering #ETL #OpenSource #DBT #BigData
🔍 Задача: Крупный строительный холдинг (10+ юрлиц) обратился за помощью в создании централизованного хранилища данных для аналитики и визуализации.
🛠 Технологии:
- Kafka – сбор данных
- Dagster – оркестрация
- S3 + Iceberg – хранилище
- Trino + ClickHouse – обработка
- DBT – трансформация
📊 Результат:
✔ Более 1000 моделей в DBT
✔ 1 ТБ сжатых данных (объем растёт)
✔ Интеграция с Power BI, веб-приложениями, MDX-кубами
💡 Особенности:
🔒 Закрытый контур (доступ через терминальные решения)
🔄 Greenfield-разработка
👥 Команда из 11 дата-инженеров
📅 Управление по методологии Scrum
👉 Читать подробнее: Habr
#DataEngineering #ETL #OpenSource #DBT #BigData