Data Analysis / Big Data
2.83K subscribers
568 photos
3 videos
2 files
2.88K links
Лучшие посты по анализу данных и работе с Big Data на русском и английском языке

Разместить рекламу: @tproger_sales_bot

Правила общения: https://tprg.ru/rules

Другие каналы: @tproger_channels
Download Telegram
VK публикует датасет коротких видео для рекомендаций

Сейчас в открытом доступе мало крупных датасетов сервисов коротких видео, но это уникальный формат для рекомендательных алгоритмов. В отличие от музыки или длинных видео они не могут потребляться в фоновом режиме, а каждый показанный ролик получает от пользователя реакцию. Даже если он не оставит лайк, досмотр видео до конца или пропуск уже считаются обратной связью. Именно поэтому мы выложили в открытый доступ датасет VK-LSVD. С его помощью инженеры и ученые смогут развивать и совершенствовать рекомендательные алгоритмы.
Как работать с VK-LSVD

Читать: https://habr.com/ru/companies/vk/articles/970350/

#ru

@big_data_analysis | Другие наши каналы
6 лайфхаков при внедрении СУБД: учимся на чужих граблях

Привет, Хабр! Меня зовут Кирилл Тарасов, я — инженер данных в K2Tех. Наша команда Big Data & Bi работает с 2006 года, мы активно занимаемся Greenplum, Arenadata Hadoop/Streaming и внедряем собственные наработки, такие как ELT Framework. Также с 2012 года мы создаём аналитические системы и хранилища данных, и за это время моя команда столкнулась с самыми разными ситуациями, которые вызывали различные проблемы для реальной продуктивной эксплуатации СУБД. Некоторые из них были связаны с настройками баз данных, другие — с компонентами защиты, а третьи были настолько необычными, что их причиной оказалось исключительно странное и редкое поведение бизнес-логики, с которым разработчики хранилищ данных почти не сталкиваются. В этой статье вы найдете шесть кейсов, которые могут встретиться на любом проекте. Они помогут избежать попадания «ложки дегтя» в ваше хранилище.


Читать: https://habr.com/ru/companies/k2tech/articles/970874/

#ru

@big_data_analysis | Другие наши каналы
Понимание и практические эксперименты с Tablet в StarRocks

внутренняя структура, репликации и балансировка, бакетизация и партиционирование, восстановление и MVCC, загрузка данных (Stream Load). Разбираем типичные сценарии и даём рекомендации для Data Engineers и DBAs.


Читать: https://habr.com/ru/articles/970880/

#ru

@big_data_analysis | Другие наши каналы
Опросили 100 жертв мошенников. Записали реальные разговоры и их методы

Мы опросили 100 жертв и изучили их методы обмана.
Нам удалось пообщаться с реальными мошенниками и заглянуть внутрь этих процессов.

Сначала обсудим основные этапы обмана, а потом изучим схемы с реальными диалогами и примерами.


Читать: https://habr.com/ru/companies/femida_search/articles/970892/

#ru

@big_data_analysis | Другие наши каналы
Как мы помирили маркетинг и продажи с помощью BI-аналитики

Топ-менеджеры юрфирмы по банкроству физлиц тратили несколько часов в день на подготовку к еженедельной планёрке. Например, руководитель колл-центра делал кучу выгрузок в amoCRM, открывал каждую сделку вручную, копировал и вставлял её в Excel.

На еженедельных планёрках собирались сразу несколько отделов — маркетинг, колл-центр, продажи и отдел качества. Каждый отдел готовил отчёт вручную, опираясь на свои источники данных. В итоге на обсуждении цифры не сходились.

Маркетинг утверждал: «Мы привели лиды, а вы просто не умеете продавать». Продажи отвечали: «Ваши лиды — говно».

В статье я расскажу, как мы помогли собственнику разобраться, кто прав, кто виноват, и что делать, чтобы достичь плановых показателей.


Читать: https://habr.com/ru/articles/971290/

#ru

@big_data_analysis | Другие наши каналы
Qwen3Guard: следующий шаг в модерации и контроле контента

Всем привет! Меня зовут Миша Мартьянов, я инженер по исследованиям и разработке в лаборатории AI R&D в red_mad_robot. В мои задачи входит проверка гипотез и развитие наших продуктов. Однако недостаточно просто улучшать продукты, необходимо также чтобы они работали устойчиво и безопасно.

Ранее я рассказывал разработку идеального контент-фильтра на базе Guardrails. Но время не стоит на месте: появляются новые модели и новые практики их применения. Этому и будет посвящён наш сегодняшний разговор.


Читать: https://habr.com/ru/companies/redmadrobot/articles/971388/

#ru

@big_data_analysis | Другие наши каналы
SQL vs NoSQL: реальный тест нагрузки на 1 млн запросов в минуту

В мире разработки баз данных часто возникает вечный спор: SQL или NoSQL? Теоретические статьи и маркетинговые блоги пестрят громкими обещаниями, но реальных цифр мало. В этой статье я делюсь реальным экспериментом, который мы провели в продакшене, чтобы проверить, как разные подходы справляются с нагрузкой 1 миллион запросов в минуту.


Читать: https://habr.com/ru/articles/971652/

#ru

@big_data_analysis | Другие наши каналы
Сравнительный анализ 18 LLM моделей: конец монополии?

🏆 Open-Source Догнал Топов: Что Произошло в Ноябре 2025?

Конец монополии! Kimi-K2-Thinking (MIT-лицензия) — новый чемпион мысли. Эта open-source модель сравнялась с Claude Sonnet 4, показала 84.5% на GPQA Diamond (научное рассуждение) и 94.5-100% на олимпиадной математике AIME, опередив GPT-4o более чем на 30 процентных пунктов.

Российский GigaChat3-702B взрывает кодинг! Сбер выпустил модель с архитектурой MoE (702B параметров) под MIT-лицензией, которая показала мировой рекорд на бенчмарке HumanEval+ (86.59%), обойдя все закрытые LLM, включая GPT и Claude.

MoE-магия для локального запуска: Qwen3-30B-A3B с архитектурой MoE (3.3B активных параметров) обеспечивает качество 70B+ модели, умещаясь на одной H100 — идеальный компромисс для стартапов и R&D.


Читать: https://habr.com/ru/articles/971864/

#ru

@big_data_analysis | Другие наши каналы
Инвест Гусь: телеграм-бот (Open-source) для прогноза стоимости акций и криптовалют

Мамкин инвестор знает, что если ежедневно ловить сигналы от мощных трейдеров, то скоро карманы будут набиты звенящей цифровой монетой. Но чтобы стать богаче всякого, в эпоху ИИ нужно нечно большее, чем какой-то сигнал. Нужно чтобы был карманный генератор сигналов по всем возможным активам.
Га!

Читать: https://habr.com/ru/articles/969964/

#ru

@big_data_analysis | Другие наши каналы
Теневые ИТ в энтерпрайзе: почему они случаются, как с ними бороться и как в дальнейшем их не допускать

Привет, Хабр!
Я Никита Дубина, руководитель команды автоматизации Департамента больших данных РСХБ. В этой статье расскажу о том, что такое теневые ИТ, почему они возникают в крупных организациях, особенно в банках, какие риски несут и как при правильном подходе могут стать источником новых идей. Делюсь опытом борьбы с ними.


Читать: https://habr.com/ru/companies/rshb/articles/972110/

#ru

@big_data_analysis | Другие наши каналы
Как мы строили хранилище на 70 ПБ данных и не планируем останавливаться

Привет, сегодня я расскажу о том, как наша команда строила платформу обработки и хранения данных для обучения GenAI-моделей в Сбере, и как мы выросли до 70 ПБ сырых данных. Меня зовут Александр, я работаю в Сбере и два года занимался развитием этой платформы.


Читать: https://habr.com/ru/companies/sberbank/articles/972078/

#ru

@big_data_analysis | Другие наши каналы
LLM Observability & AI Agent Tracing: большой гайд с обзором подходов и open-source решений

В этой статье я структурировал весь опыт и подходы к тому, как мониторить и трейсить LLM и AI-агентов на их основе. Это очень большая статья, но мне хотелось полностью закрыть всю тему за раз и создать крепкий бейзлайн для погружения в тему observability и трейсинга агентов.

Поговорим про то, почему все LLM-based решения требуют новых подходов, обсудим ключевые проблемы агентов, посмотрим несколько самых популярных решений и обзор всех опенсорсных и зафиналим трендами и направлением, куда все это движется.

Здесь будет про Langfuse, Phoenix, OpenLIT, Langtrace, LangWatch и Lunary. Про оценку (evaluations или evals) здесь не будет, но обязательно скоро будет отдельная статья и про это.

Поехали!


Читать: https://habr.com/ru/articles/972480/

#ru

@big_data_analysis | Другие наши каналы
Глубокое погружение в архитектуру Kafka: от простых сценариев до геокластера

Привет, Хабр! Меня зовут Андрей Комягин, я CTO компании STM Labs. Мы занимаемся разработкой очень больших распределённых высоконагруженных систем для различных отраслей, включая налоговое администрирование, телеком, track & trace и многие другие.

В своей работе мы широко используем open-source-решения, в том числе Apache Kafka. Этот распределённый программный брокер сейчас применяется практически во всех наших проектах, и сегодня я предлагаю заглянуть внутрь чёрного ящика, чтобы понять, как там всё внутри устроено. В своей работе мы широко используем open-source-решения, в том числе Apache Kafka. Этот распределённый программный брокер сейчас применяется практически во всех наших проектах, и сегодня я предлагаю заглянуть внутрь чёрного ящика, чтобы понять, как там всё внутри устроено.

Этот текст написан на основе моего доклада на конференции SaintHighload++ 2025 в Санкт Петербурге. Так что, если вы были там в качестве слушателя, информация не будет для вас новой. Впрочем, повтор полезного материала никогда не бывает лишним. Поехали!


Читать: https://habr.com/ru/articles/972788/

#ru

@big_data_analysis | Другие наши каналы
Язык и большие данные

Язык всегда строился на интуиции носителей, а его изучение зависело от интроспекции лингвистов. Теперь же большие данные абсолютно меняют эту систему.


Читать: https://habr.com/ru/articles/972916/

#ru

@big_data_analysis | Другие наши каналы
Как я осознал, что не умею кодить

Вчера мой скрипт завис. Процессор горел на 100%. Я убил процесс.

Я Senior Developer с 10 годами опыта. Пишу на Python, знаю Java и много модных фреймворков. Но в этот момент я понял: я не умею программировать. Точнее, я умею использовать инструменты. Но я не понимаю природу вычислений.

Эта статья — о том, как одна математическая задача изменила моё понимание разработки.

И почему через пару лет, когда ИИ будет писать весь код за меня, это понимание станет единственным, что меня спасёт.

Возможно, и тебя тоже.


Читать: https://habr.com/ru/articles/972630/

#ru

@big_data_analysis | Другие наши каналы
StarRocks 4.0: Real-Time Intelligence on Lakehouse

StarRocks 4.0: Real‑Time Intelligence on Lakehouse. Сквозная оптимизация конвейера в реальном времени, 3–15× ускорение JSON, SQL Plan Manager, Decimal256 и поддержка Apache Iceberg для нативной Lakehouse‑аналитики.


Читать: https://habr.com/ru/articles/973110/

#ru

@big_data_analysis | Другие наши каналы
Больше, чем BI: 23 фичи Luxms BI, которыми мы гордимся. Часть 3: решения для специализированных задач

Это третья часть серии «23 фичи Luxms BI, которыми мы гордимся». В первой мы говорили о платформенности и архитектуре, о том, на чем держится система. Во второй – о классическом BI-функционале, который делает систему BI-системой.

А сегодня мы расскажем, что происходит, когда бизнес-задачи перерастают рамки стандартной аналитики. Речь пойдет о функциях, которые превращают Luxms BI из инструмента визуализации в платформу для решения сложных, специализированных задач. Именно эти возможности наши заказчики чаще всего характеризуют фразой «а вот это – действительно больше, чем BI».


Читать: https://habr.com/ru/companies/luxms_bi/articles/972946/

#ru

@big_data_analysis | Другие наши каналы
Трансформеры для персональных рекомендаций на маркетплейсе: от гипотез до A/B-тестирования

Всем привет! На связи Ваня Ващенко, и я лид по развитию нейросетевых моделей в команде персональных рекомендаций Wildberries. Раньше я развивал B2C-рекомендации и нейросети кредитного скоринга в крупнейшем банке, а теперь вы видите результаты моей работы каждый раз, когда заходите на главную страницу любимого маркетплейса. Сегодняшний рассказ — о том, как мы развиваем WildBERT.


Читать: https://habr.com/ru/companies/wildberries/articles/972082/

#ru

@big_data_analysis | Другие наши каналы
StarRocks 4.0: FlatJSON — делаем запросы к JSON столь же эффективными, как к колоночному хранению

Статья объясняет, как StarRocks 4.0 делает запросы к JSON почти столь же быстрыми, как к нативным столбцам. FlatJSON на этапе загрузки «колоннизирует» частые поля и задействует индексы (включая ZoneMap), словарное кодирование и Global Dictionary, а также Late Materialization. В результате логовая, e‑commerce и IoT‑аналитика работает в реальном времени без тяжёлого ETL.


Читать: https://habr.com/ru/articles/973166/

#ru

@big_data_analysis | Другие наши каналы
От ClickHouse к StarRocks с разделением хранения и вычислений: практический апгрейд архитектуры UBT в Trip

This is a hands-on case study of migrating Trip’s UBT from ClickHouse to StarRocks with storage–compute separation. By redesigning partitioning, enabling DataCache and MergeCommit, and backfilling history via SparkLoad, we reduced average query latency from 1.4 s to 203 ms, P95 to 800 ms, cut storage from 2.6 PB to 1.2 PB, and decreased node count from 50 to 40. We detail Compaction tuning, partitioned materialized views, and second‑level elastic scaling without data migration, and compare gohangout vs. Flink in reliability and operability. The article targets data engineers and architects running high‑load real‑time OLAP workloads.


Читать: https://habr.com/ru/articles/973230/

#ru

@big_data_analysis | Другие наши каналы