🚀 Алгоритмы для работы с большими данными в Go: HyperLogLog и Count-Min Sketch
📌 О чём?
Эффективная обработка огромных объёмов данных с минимальными ресурсами — ключевая задача современных алгоритмов. В этой статье разбираем HyperLogLog и Count-Min Sketch, которые жертвуют точностью ради скорости и масштабируемости.
🔹 HyperLogLog — оценка уникальных элементов (например, уникальные посетители сайта) с фиксированным объёмом памяти.
🔹 Count-Min Sketch — частотный анализ данных (например, популярные поисковые запросы) с контролируемой погрешностью.
📖 Подробнее → Читать на Habr
#BigData #Go #Алгоритмы #Программирование
📌 О чём?
Эффективная обработка огромных объёмов данных с минимальными ресурсами — ключевая задача современных алгоритмов. В этой статье разбираем HyperLogLog и Count-Min Sketch, которые жертвуют точностью ради скорости и масштабируемости.
🔹 HyperLogLog — оценка уникальных элементов (например, уникальные посетители сайта) с фиксированным объёмом памяти.
🔹 Count-Min Sketch — частотный анализ данных (например, популярные поисковые запросы) с контролируемой погрешностью.
📖 Подробнее → Читать на Habr
#BigData #Go #Алгоритмы #Программирование
🚀 Оптимизация инсертов в ClickHouse через Kafka Sink-коннекторы
💡 Проблема: Мелкие частые вставки через Kafka нагружали ClickHouse, создавая тысячи запросов и замедляя работу.
🔧 Решение:
✔ Настройка параметров потребителя Kafka
✔ Объединение партиций
✔ Группировка записей в крупные блоки
📈 Результат: Резкое снижение нагрузки и значительный рост пропускной способности.
📖 Подробности в статье от Артема Москалькова (ведущий инженер данных в Магнит OMNI):
👉 Читать на Habr
#ClickHouse #Kafka #Оптимизация #BigData
💡 Проблема: Мелкие частые вставки через Kafka нагружали ClickHouse, создавая тысячи запросов и замедляя работу.
🔧 Решение:
✔ Настройка параметров потребителя Kafka
✔ Объединение партиций
✔ Группировка записей в крупные блоки
📈 Результат: Резкое снижение нагрузки и значительный рост пропускной способности.
📖 Подробности в статье от Артема Москалькова (ведущий инженер данных в Магнит OMNI):
👉 Читать на Habr
#ClickHouse #Kafka #Оптимизация #BigData
🚀 Apache Flink 2.0: революция в real-time вычислениях
Команда BitDive тестирует новую версию фреймворка для обработки потоковых данных — и вот что изменилось:
🔹 Масштабируемость — устранены ключевые болевые точки (конфигурация, локальное состояние, разрыв batch/streaming).
🔹 Скорость — снижение задержек и ускорение recovery по сравнению с Flink 1.20.x.
🔹 AI-готовность — поддержка актуальных сценариев обработки данных в реальном времени.
Уже используется для анализа метрик, трассировок и выявления аномалий с меньшими затратами.
📌 Подробности: Читать на Habr
#BigData #RealTime #ApacheFlink #DataEngineering
Команда BitDive тестирует новую версию фреймворка для обработки потоковых данных — и вот что изменилось:
🔹 Масштабируемость — устранены ключевые болевые точки (конфигурация, локальное состояние, разрыв batch/streaming).
🔹 Скорость — снижение задержек и ускорение recovery по сравнению с Flink 1.20.x.
🔹 AI-готовность — поддержка актуальных сценариев обработки данных в реальном времени.
Уже используется для анализа метрик, трассировок и выявления аномалий с меньшими затратами.
📌 Подробности: Читать на Habr
#BigData #RealTime #ApacheFlink #DataEngineering
🚀 Реализация ELT-процесса в архитектуре Data Lakehouse на open-source стеке
🔍 Задача: Крупный строительный холдинг (10+ юрлиц) обратился за помощью в создании централизованного хранилища данных для аналитики и визуализации.
🛠 Технологии:
- Kafka – сбор данных
- Dagster – оркестрация
- S3 + Iceberg – хранилище
- Trino + ClickHouse – обработка
- DBT – трансформация
📊 Результат:
✔ Более 1000 моделей в DBT
✔ 1 ТБ сжатых данных (объем растёт)
✔ Интеграция с Power BI, веб-приложениями, MDX-кубами
💡 Особенности:
🔒 Закрытый контур (доступ через терминальные решения)
🔄 Greenfield-разработка
👥 Команда из 11 дата-инженеров
📅 Управление по методологии Scrum
👉 Читать подробнее: Habr
#DataEngineering #ETL #OpenSource #DBT #BigData
🔍 Задача: Крупный строительный холдинг (10+ юрлиц) обратился за помощью в создании централизованного хранилища данных для аналитики и визуализации.
🛠 Технологии:
- Kafka – сбор данных
- Dagster – оркестрация
- S3 + Iceberg – хранилище
- Trino + ClickHouse – обработка
- DBT – трансформация
📊 Результат:
✔ Более 1000 моделей в DBT
✔ 1 ТБ сжатых данных (объем растёт)
✔ Интеграция с Power BI, веб-приложениями, MDX-кубами
💡 Особенности:
🔒 Закрытый контур (доступ через терминальные решения)
🔄 Greenfield-разработка
👥 Команда из 11 дата-инженеров
📅 Управление по методологии Scrum
👉 Читать подробнее: Habr
#DataEngineering #ETL #OpenSource #DBT #BigData