Forwarded from WB Level Up
Как попасть на позицию ML-инженера в Wildberries & Russ: рассказывает Мария Жарова
Кстати, кто из МФТИ? Мария выступает у вас с темой «приемы ускорения обработки больших данных» 15 декабря в 16:00, подключайтесь🩷
Кстати, кто из МФТИ? Мария выступает у вас с темой «приемы ускорения обработки больших данных» 15 декабря в 16:00, подключайтесь
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍15❤🔥9🔥5❤3
StatQuest_book.pdf
29.4 MB
Привет, дорогие друзья! 🎄
Конец года - хороший момент, чтобы остановиться и оглянуться назад. Вспомнить, сколько всего было сделано, чему удалось научиться и, конечно, загадать желания на грядущий год✨
В Новом Году хочется пожелать вам вдохновения, ясности в целях и уверенности в себе. Чтобы хватало сил на важное, времени - на близких, а энергии - на то, что действительно интересно.
А для желающих погрызть гранит науки в каникулы, как всегда, оставляю пару находок😏
👉 GitHub А. Дьяконова - преподавателя и популяризатора ML, в его репозиториях можете найти массу полезных материалов. Например, тут огромная подборка конспектов по ML!
👉 Книга от создателя известного YouTube-канала StatQuest - редкий пример материала, где сложные темы по статистике и ML объясняются настолько понятно, что хочется записать каждую фразу.
‼️ Если найдётся пара свободных минут, буду рада вашей обратной связи по каналу - можно оставить любые пожелания и предложения в анонимной форме: ➡️ ссылка тут ⬅️
Пусть в Новом Году модели чаще сходятся, данные ведут себя прилично, а результаты экспериментов радуют не только в ноутбуке, но и в реальной жизни.
С Наступающим!✨
#classic_ml@data_easy
#dl@data_easy
#математика@data_easy
Конец года - хороший момент, чтобы остановиться и оглянуться назад. Вспомнить, сколько всего было сделано, чему удалось научиться и, конечно, загадать желания на грядущий год
В Новом Году хочется пожелать вам вдохновения, ясности в целях и уверенности в себе. Чтобы хватало сил на важное, времени - на близких, а энергии - на то, что действительно интересно.
А для желающих погрызть гранит науки в каникулы, как всегда, оставляю пару находок
👉 GitHub А. Дьяконова - преподавателя и популяризатора ML, в его репозиториях можете найти массу полезных материалов. Например, тут огромная подборка конспектов по ML!
👉 Книга от создателя известного YouTube-канала StatQuest - редкий пример материала, где сложные темы по статистике и ML объясняются настолько понятно, что хочется записать каждую фразу.
Пусть в Новом Году модели чаще сходятся, данные ведут себя прилично, а результаты экспериментов радуют не только в ноутбуке, но и в реальной жизни.
С Наступающим!
#classic_ml@data_easy
#dl@data_easy
#математика@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
2❤15🎄6🎉4🎅3☃2👍2🔥1
Привет, друзья!
Пока все обсуждали LLMи доедали салаты, в мире генеративного видео вышла новая модель LTX-2 от Lightricks, которая умеет генерировать видео по тексту, анимировать изображения и управляемо модифицирует сцены, сохраняя их структуру и движение. А главное - эта модель open-source, так что всё можно запустить локально 😏
Классических численных бенчмарков в статье нет, но по человеческим оценкам LTX-2 уже сравнима с Veo 3 и самой свежей Sora 2 по качеству картинки и согласованности аудио-видео.
🤩 Технические детали
LTX-2 построена на Diffusion Transformer (DiT) - это гибрид диффузионной модели и трансформера, специально адаптированный под видео.
Упрощённо, обычные diffusion-модели думают кадр за кадром, а LTX-2 думает сразу про всю временную последовательность.
Поэтому мы получаем:
— меньше “дрожания” и случайных артефактов
— движения выглядят более непрерывными
— объекты реже “ломаются” между кадрами
Плюс модель оптимизирована под реальный инференс.
🤩 Что это значит для нас?
LTX-2 - редкий пример качественной open-source video-модели, которую можно запускать локально, воспроизводить результаты и использовать для реальных экспериментов. При этом их код - это не research-прототип, а полноценный фреймворк: убедитесь сами, заглянув в репозиторий.
🤩 Полезные ссылки:
— статья с arxiv: тык
— GitHub (там же в README вся документация и инструкции по запуску): тык
— веса на HF: тык
— гайд, как писать промпты для модели: тык
Ждём, когда тик-ток окончательно погрязнет в ИИ-контенте👊
#cv@data_easy
#полезный_ии@data_easy
Пока все обсуждали LLM
Классических численных бенчмарков в статье нет, но по человеческим оценкам LTX-2 уже сравнима с Veo 3 и самой свежей Sora 2 по качеству картинки и согласованности аудио-видео.
LTX-2 построена на Diffusion Transformer (DiT) - это гибрид диффузионной модели и трансформера, специально адаптированный под видео.
Упрощённо, обычные diffusion-модели думают кадр за кадром, а LTX-2 думает сразу про всю временную последовательность.
Поэтому мы получаем:
— меньше “дрожания” и случайных артефактов
— движения выглядят более непрерывными
— объекты реже “ломаются” между кадрами
Плюс модель оптимизирована под реальный инференс.
LTX-2 - редкий пример качественной open-source video-модели, которую можно запускать локально, воспроизводить результаты и использовать для реальных экспериментов. При этом их код - это не research-прототип, а полноценный фреймворк: убедитесь сами, заглянув в репозиторий.
— статья с arxiv: тык
— GitHub (там же в README вся документация и инструкции по запуску): тык
— веса на HF: тык
— гайд, как писать промпты для модели: тык
Ждём, когда тик-ток окончательно погрязнет в ИИ-контенте
#cv@data_easy
#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
arXiv.org
LTX-2: Efficient Joint Audio-Visual Foundation Model
Recent text-to-video diffusion models can generate compelling video sequences, yet they remain silent -- missing the semantic, emotional, and atmospheric cues that audio provides. We introduce...
1👍11🔥6❤🔥5
Привет, друзья! 👋
Некоторые из вас знают, что рекомендательные системы - моя отдельная профессиональная любовь: занимаюсь ими и на работе, и в научной деятельности.
И как-то так вышло, что до сих пор мне ни разу не довелось провести отдельный вебинар, целиком посвящённый рекомендациям.
И вот наконец это свершится😁
В этот вторник подключусь к эфиру от Simulative, где разберу теорию и практику по рекомендательным системам.
Поговорим:
📱 какие бывают типы рексистем и почему не существует «одной универсальной»;
📱 в каких сценариях можно применять рекомендательные системы;
📱 где лучше работают простые методы, а где без ML уже не обойтись;
📱 и как всё это выглядит на конкретных прикладных примерах.
А в практической части попробуем вместе собрать простенькую рексистему и посмотреть на результат. По ходу дела заодно освежим в памяти тренды-профессии-2026 с ноября✌️
Стартуем 20 января, в 19:00 по мск
📱 Ссылка на регистрацию: тык 📱
Некоторые из вас знают, что рекомендательные системы - моя отдельная профессиональная любовь: занимаюсь ими и на работе, и в научной деятельности.
И как-то так вышло, что до сих пор мне ни разу не довелось провести отдельный вебинар, целиком посвящённый рекомендациям.
И вот наконец это свершится😁
В этот вторник подключусь к эфиру от Simulative, где разберу теорию и практику по рекомендательным системам.
Поговорим:
А в практической части попробуем вместе собрать простенькую рексистему и посмотреть на результат. По ходу дела заодно освежим в памяти тренды-профессии-2026 с ноября✌️
Стартуем 20 января, в 19:00 по мск
Please open Telegram to view this post
VIEW IN TELEGRAM
Telegram
Симулейтив
Бот-помощник онлайн школы simulative.ru 🧡
Нажимая на кнопку «Старт», вы соглашаетесь на обработку персональных данных
Нажимая на кнопку «Старт», вы соглашаетесь на обработку персональных данных
🔥22👍6🎉6❤🔥4❤1
Привет, друзья!
Недавно наткнулась на классный образовательный ютуб-канал freeCodeCamp - кладезь уроков, многие из которых - полные университетские курсы от ведущих ВУЗов мира.
Ниже подборка видео по темам из DS и ML:
📚 Python с нуля
16-часовой курс от Гарварда по Python - от основ до ООП
➡️ ссылка
📚 Git для новичков
Свежее видео на 2026 про все основные команды за полтора часа
➡️ ссылка
📚 Алгоритмы и структуры данных
Целых 48 часов теории с примерами😱
➡️ ссылка
📚 Базы данных и SQL
Ещё один курс от Гарварда в одном 11-часовом видео
➡️ ссылка
📚 LLM с нуля
За 6 часов объяснение MoE, SFT, RLHF и разбор того, как обучаются современные LLM
➡️ ссылка
📚 Fine-tuning LLM
Продолжение темы: что, зачем и как дообучать, и где это вообще имеет смысл
➡️ ссылка
📚 Разбор Qwen
Отдельное видео про архитектуру и детали (здесь найдёте про muon)
➡️ ссылка
📚 Гайд по агентам
Если интересна агентная логика, пайплайны и взаимодействие LLM с окружением
➡️ ссылка
И конечно, всех с Днём Студента!Для нашей профессии пословица "век живи - век учись" особенно актуальна 👩🎓
#python@data_easy
#nlp@data_easy
#classic_ml@data_easy
Недавно наткнулась на классный образовательный ютуб-канал freeCodeCamp - кладезь уроков, многие из которых - полные университетские курсы от ведущих ВУЗов мира.
Ниже подборка видео по темам из DS и ML:
16-часовой курс от Гарварда по Python - от основ до ООП
➡️ ссылка
Свежее видео на 2026 про все основные команды за полтора часа
➡️ ссылка
Целых 48 часов теории с примерами😱
➡️ ссылка
Ещё один курс от Гарварда в одном 11-часовом видео
➡️ ссылка
За 6 часов объяснение MoE, SFT, RLHF и разбор того, как обучаются современные LLM
➡️ ссылка
Продолжение темы: что, зачем и как дообучать, и где это вообще имеет смысл
➡️ ссылка
Отдельное видео про архитектуру и детали (здесь найдёте про muon)
➡️ ссылка
Если интересна агентная логика, пайплайны и взаимодействие LLM с окружением
➡️ ссылка
И конечно, всех с Днём Студента!
#python@data_easy
#nlp@data_easy
#classic_ml@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥29❤15❤🔥1👍1😍1
Привет, друзья!
Если вы устали от медленного pip, сложных poetry.lock и зоопарка инструментов вокруг Python-окружений, то стоит посмотреть на uv.
🔥 uv - это современный менеджер зависимостей и окружений для Python, который написан на Rust. Почему это не очередной инструмент, а реально новая эра?
😐 Все в одном бинаре: установка пакетов, создание и управление виртуальными окружениями, разрешение зависимостей, lock-файлы, запуск Python-команд в изоляции… раньше это приходилось собирать из pip, venv/virtualenv, pip-tools и poetry - а теперь достаточно только uv! Всего один бинарь, и ничего лишнего.
😐 Скорость: Rust-реализация + собственная система расчёта зависимостей = мгновенные установки и пересборки, особенно на больших ML-проектах и при CI/CD. Говорят, что может достигать 100x по скорости в сравнении с pip!
😐 Глобальный кэш: пакеты, уже скачанные для одного проекта, повторно используются и в других окружениях - как итог, меньше запросов и экономия места на диске.
😐 Отличие от poetry / pip: uv не использует за основу существующие инструменты, а сам полностью управляет всем процессом. Это не только быстрее, но и гораздо более предсказуемо - lock-файл читаемый, стабильный и действительно воспроизводимый.
Главное тут, что uv не “оборачивает pip”, а заменяет его функциональность!
🔥 А основные команды до боли напоминают уже знакомые инструменты...
🔥 Полезные ссылки:
• официальная документация тут
• а для любителей покопаться в коде открыт официальный репозиторий
Вероятно, мы на пороге новой эры управления Python-зависимостями.
Всем продуктивного февраля!✨
#python@data_easy
#mlops@data_easy
Если вы устали от медленного pip, сложных poetry.lock и зоопарка инструментов вокруг Python-окружений, то стоит посмотреть на uv.
Главное тут, что uv не “оборачивает pip”, а заменяет его функциональность!
# установка самого uv
curl -LsSf https://astral.sh/uv/install.sh | sh
# проверка
uv --version
# создание окружения и установка зависимостей
uv venv
uv pip install numpy pandas scikit-learn
• официальная документация тут
• а для любителей покопаться в коде открыт официальный репозиторий
Вероятно, мы на пороге новой эры управления Python-зависимостями.
Всем продуктивного февраля!
#python@data_easy
#mlops@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
1👍11🔥7❤5❤🔥2😐1
Привет, друзья!
Занятный, но логичный факт: большинство AI-стартапов - это просто вызов LLM🌚
Это выяснил инженер Теджа Кусиредди. Он решил проверить, сколько “прорывных ИИ-компаний” на самом деле имеют собственные модели. Для этого он проанализировал сетевой трафик, фронтовый код и API-вызовы примерно у 200 стартапов.
То есть формула получилась простая: LLM API + интерфейс + упаковка = AI-стартап.
Автор мониторил сетевой трафик приложений, смотрел SDK, разбирал JS-бандлы и отслеживал, куда реально уходят запросы. Поводом стало наблюдение за компанией, которая только что привлекла $4.3M - и при этом дёргала OpenAI API буквально каждые несколько секунд без какой-либо собственной инференс-логики.
Когда он масштабировал анализ, выяснилось, что это скорее правило, чем исключение… По статистике OpenAI выступает главным инфраструктурным слоем, Claude регулярно встречается как альтернативный бэкенд, а собственные модели - совсем редкость.
Сам факт использования API - не проблема; если продукт честно решает пользовательскую задачу, добавляет ценность поверх модели и не притворяется “новой AGI” - это нормальный продуктовый слой. Вопросы начинаются там, где стартап продаёт инвесторам историю про “уникальный AI-движок”, будучи по сути реселлером чужой модели.
Порог входа в AI-продукты сейчас настолько низкий, что многие “стартапы” из расследования можно собрать буквально за вечер. Я тоже решила проверить и накидала несколько десятков строк кода для тг-бота с запросами к бесплатному API - зацените!😁
Оригинал расследования тут
Удачи вашим стартапам!🥳 🥳
#полезный_ии@data_easy
#nlp@data_easy
Занятный, но логичный факт: большинство AI-стартапов - это просто вызов LLM
Это выяснил инженер Теджа Кусиредди. Он решил проверить, сколько “прорывных ИИ-компаний” на самом деле имеют собственные модели. Для этого он проанализировал сетевой трафик, фронтовый код и API-вызовы примерно у 200 стартапов.
Результат оказался громким: около73% не имеют своей ИИ-архитектуры. Под капотом просто вызовы к OpenAI, Claude и другим крупным провайдерам.
То есть формула получилась простая: LLM API + интерфейс + упаковка = AI-стартап.
Автор мониторил сетевой трафик приложений, смотрел SDK, разбирал JS-бандлы и отслеживал, куда реально уходят запросы. Поводом стало наблюдение за компанией, которая только что привлекла $4.3M - и при этом дёргала OpenAI API буквально каждые несколько секунд без какой-либо собственной инференс-логики.
Когда он масштабировал анализ, выяснилось, что это скорее правило, чем исключение… По статистике OpenAI выступает главным инфраструктурным слоем, Claude регулярно встречается как альтернативный бэкенд, а собственные модели - совсем редкость.
Сам факт использования API - не проблема; если продукт честно решает пользовательскую задачу, добавляет ценность поверх модели и не притворяется “новой AGI” - это нормальный продуктовый слой. Вопросы начинаются там, где стартап продаёт инвесторам историю про “уникальный AI-движок”, будучи по сути реселлером чужой модели.
Порог входа в AI-продукты сейчас настолько низкий, что многие “стартапы” из расследования можно собрать буквально за вечер. Я тоже решила проверить и накидала несколько десятков строк кода для тг-бота с запросами к бесплатному API - зацените!
Оригинал расследования тут
Удачи вашим стартапам!
#полезный_ии@data_easy
#nlp@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Google
innovative_startup.ipynb
Colab notebook
🔥16❤🔥13❤2👍2😱1
Поговорили с МФТИ о том, что нужно дата-сайентисту сегодня. Навыки, которые были полезны, становятся необходимыми😊
Please open Telegram to view this post
VIEW IN TELEGRAM
❤🔥5👍3
Forwarded from МФТИ Digital
📊Создавать модели — недостаточно: как дата-сайентисту повысить свою ценность на рынке
Говорят, что сегодня дата-сайентист не только разрабатывает модели машинного обучения, но и помогает компаниям принимать решения и развивать технологии. Так ли это?
Редакция Пуска решила разобраться в этом вопросе и обратилась к Марии Жаровой, ML-инженеру в команде рекомендаций Wildberries и эксперту Центра «Пуск» МФТИ. В карточках Мария рассказала о востребованных навыках дата-сайентиста.
⬇️ А в комментариях предлагаем поделиться, что сейчас влияет на вашу профессиональную ценность
Говорят, что сегодня дата-сайентист не только разрабатывает модели машинного обучения, но и помогает компаниям принимать решения и развивать технологии. Так ли это?
Редакция Пуска решила разобраться в этом вопросе и обратилась к Марии Жаровой, ML-инженеру в команде рекомендаций Wildberries и эксперту Центра «Пуск» МФТИ. В карточках Мария рассказала о востребованных навыках дата-сайентиста.
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍13❤7❤🔥5🙏1
Привет, друзья!
Вышло очередное долгожданное исследование Habr-карьеры про ЗП IT-специалистов во 2-й половине 2025. Как всегда, можно посмотреть детализацию по языкам программирования, городам и направлениям - но отдельно про DS/ML снова не написали😢
Однако благодаря логам нашего канала мы можем провести собственную аналитику😏
Сравнение с точными прошлогодними цифрами для тех, кто назвал себя Data Scientist и ML-разработчик, можете оценить на первых двух скринах (указаны сумма ЗП и премий net). Общий вердикт таков:
• интенсивный рост остановился - в совокупности во всём IT в Москве медианная ЗП поднялась на 4%; если брать все города - не более чем на 2%
• в разрезе грейдов у джунов, стажеров и мидлов ЗП выросла; у сеньоров не особо; а у лидов упала (надеюсь, те кто выбыл из выборки, просто стали тех. директорами 🙂 )
• забавно, что у удалёнщиков не-джунов ЗП больше, чем у работающих в офисе! подтверждение на последнем скрине😎
• на графике динамики ЗП производная >0, правда уже не такая большая по модулю относительно прошлого года👋
По другому свежему исследованию HH.ru мы всё ещё сохраняем позиции в ТОПе самых высокооплачиваемых профессий: DS занял 2-е место с медианной ЗП 250k после...сварщика с ЗП 267k
Пишите ваши варианты, что случилось с лидами и почему удалёнщики больше ценятся:)
Всем хорошей недели и много💸
#карьера@data_easy
Вышло очередное долгожданное исследование Habr-карьеры про ЗП IT-специалистов во 2-й половине 2025. Как всегда, можно посмотреть детализацию по языкам программирования, городам и направлениям - но отдельно про DS/ML снова не написали
Однако благодаря логам нашего канала мы можем провести собственную аналитику
Сравнение с точными прошлогодними цифрами для тех, кто назвал себя Data Scientist и ML-разработчик, можете оценить на первых двух скринах (указаны сумма ЗП и премий net). Общий вердикт таков:
• интенсивный рост остановился - в совокупности во всём IT в Москве медианная ЗП поднялась на 4%; если брать все города - не более чем на 2%
• в разрезе грейдов у джунов, стажеров и мидлов ЗП выросла; у сеньоров не особо; а у лидов упала (
• забавно, что у удалёнщиков не-джунов ЗП больше, чем у работающих в офисе! подтверждение на последнем скрине
• на графике динамики ЗП производная >0, правда уже не такая большая по модулю относительно прошлого года
По другому свежему исследованию HH.ru мы всё ещё сохраняем позиции в ТОПе самых высокооплачиваемых профессий: DS занял 2-е место с медианной ЗП 250k после...
Пишите ваши варианты, что случилось с лидами и почему удалёнщики больше ценятся:)
Всем хорошей недели и много
#карьера@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
2👍11❤7❤🔥2🕊1🫡1
Привет, друзья!
LLM хоть до сих пор и выглядят как «хайповая новинка», за последние пару лет вокруг них уже успело накопиться достаточно знаний, разборов и практических гайдов. Собрала несколько самых свежих/интересных материалов от статей до видеокурсов😔
📝 Hugging Face Smol Training Playbook
Компактный и прикладной гайд по обучению небольших и средних LLM: здесь всё про инфраструктуру, рецепты стабилизации и повышения качества в формате чек-листа.
Язык: english
Ссылка: тык
📝 Alex Wa's Blog, Frontier model training methodologies
Более глубокий инженерный разбор того, как тренируют SOTA-модели. Можно освежить базу (трансформеры, лоссы, оптимизаторы), а затем погрузиться в современные архитектуры, этапы обучения и реальные инженерные приёмы - по сути, это мини-книга с множеством практических инсайтов.
Язык: english
Ссылка: тык
📝 Курсы APXML
Тут найдёте огромную подборку мини-курсов: от базового Python до полного цикла работы с LLM. Есть как вводные материалы, так и про детали обучения, продакшен-аспекты и так называемый LLMOps. Всё в формате статей с указанием примерного времени прохождения - удобно планировать.
Язык: english
Ссылка: тык
📝 GPT Week от Яндекса
Это относительно не новый плейлист лекций и демо по GPT-технологиям 2023 года. Но материалы остаются весьма актуальными - особенно для новичков или тех, кто хочет системно освежить фундамент.
Язык: русский
Ссылка: тык
📝 LLM Scaling Week от Яндекса
А это свежий интенсив ноября 2025 с очень насыщенной программой: сначала теория, затем глубокое погружение в инфраструктурные вопросы, оптимизацию и инференс LLM. В описаниях к видео найдёте презентации и код - так что можно не просто слушать, а попробовать всё руками.
Язык: русский
Ссылка: тык (видео доступны по ссылкам, список внизу страницы)
Стабильного обучения и быстрого инференса!
#nlp@data_easy
LLM хоть до сих пор и выглядят как «хайповая новинка», за последние пару лет вокруг них уже успело накопиться достаточно знаний, разборов и практических гайдов. Собрала несколько самых свежих/интересных материалов от статей до видеокурсов
Компактный и прикладной гайд по обучению небольших и средних LLM: здесь всё про инфраструктуру, рецепты стабилизации и повышения качества в формате чек-листа.
Язык: english
Ссылка: тык
Более глубокий инженерный разбор того, как тренируют SOTA-модели. Можно освежить базу (трансформеры, лоссы, оптимизаторы), а затем погрузиться в современные архитектуры, этапы обучения и реальные инженерные приёмы - по сути, это мини-книга с множеством практических инсайтов.
Язык: english
Ссылка: тык
Тут найдёте огромную подборку мини-курсов: от базового Python до полного цикла работы с LLM. Есть как вводные материалы, так и про детали обучения, продакшен-аспекты и так называемый LLMOps. Всё в формате статей с указанием примерного времени прохождения - удобно планировать.
Язык: english
Ссылка: тык
Это относительно не новый плейлист лекций и демо по GPT-технологиям 2023 года. Но материалы остаются весьма актуальными - особенно для новичков или тех, кто хочет системно освежить фундамент.
Язык: русский
Ссылка: тык
А это свежий интенсив ноября 2025 с очень насыщенной программой: сначала теория, затем глубокое погружение в инфраструктурные вопросы, оптимизацию и инференс LLM. В описаниях к видео найдёте презентации и код - так что можно не просто слушать, а попробовать всё руками.
Язык: русский
Ссылка: тык (видео доступны по ссылкам, список внизу страницы)
Стабильного обучения и быстрого инференса!
#nlp@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
huggingface.co
The Smol Training Playbook - a Hugging Face Space by HuggingFaceTB
The secrets to building world-class LLMs
🔥20❤7👍3🍓3🙏1
Привет, друзья!
Сегодня вместо туториалов несколько реальных кейсов из жизни ML-щика. Попробуйте предположить, в чём могут быть проблемы🧐
😔 Кейс 1 (про ранжирование)
😔 Кейс 2 (про калибровку вероятностей)
😔 Кейс 3 (прогноз возврата товара)
Пишите ваши варианты в комментарияхили в блокноте - в пятницу выложу ответы 😏
А если хотите кейсы из NLP или CV - ставьте 🐳
#карьера@data_easy
#classic_ml@data_easy
Сегодня вместо туториалов несколько реальных кейсов из жизни ML-щика. Попробуйте предположить, в чём могут быть проблемы
Команда построила улучшенную модель (относительно текущей), которая ранжирует статьи на портале по вероятности клика.
Модель обучается как обычный бинарный классификатор: предсказывает вероятность клика для каждой статьи.
Offline-показатели (в т.ч. на валидации) выглядят отлично:
• ROC-AUC выше, чем у предыдущей версии модели
• LogLoss падает, переобучения нет
Но в онлайн-эксперименте CTR почти не вырос:(
👉 В чем проблема этой модели и как её улучшить?
Есть модель бинарной классификации (например, обнаружение мошеннических операций). Команда решила откалибровать вероятности.❤️ Напомним: то что предсказывает классификатор - это "степень уверенности модели", а процедура калибровки переводит предсказания в интерпретируемые вероятности в математическом смысле.
После калибровки, на отложенной выборке:
• ROC-AUC почти не изменился
• Recall заметно упал...
👉 Почему это могло произойти и как исправить?
Модель предсказывает, вернёт ли пользователь товар после покупки. Таргет простой: returned = 1, если пользователь оформил возврат, и 0 - иначе.
Команда разработала улучшенную версию модели, метрики на offline-валидации получились отличными. Чтобы получить как можно лучшие результаты и в A/B-тесте, команда переобучила модель для тестовой группы на самых свежих данных за последнюю неделю.
Однако после запуска A/B-теста онлайн-метрики новой модели стали заметно проигрывать в первую неделю эксперимента...
👉 Где команда просчиталась?
Пишите ваши варианты в комментариях
А если хотите кейсы из NLP или CV - ставьте 🐳
#карьера@data_easy
#classic_ml@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🐳26👍6❤3🔥1
Привет, друзья!
Время разбирать кейсы из прошлого поста😔
Ниже скрыты разгадки…
🙂 Кейс 1 (про ранжирование)
🙂 Кейс 2 (про калибровку вероятностей)
🙂 Кейс 3 (прогноз возврата товара)
🐳 В следующий раз разбираем NLP и CV 🐳
Хороших выходных!
#карьера@data_easy
#classic_ml@data_easy
Время разбирать кейсы из прошлого поста
Ниже скрыты разгадки…
Самая главная проблема: задача была про ранжирование, а модель обучалась как обычный классификатор.
Хоть такой подход и имеет место быть, стоит помнить, что ROC-AUC и LogLoss оценивают качество вероятностей - но не обязательно отражают качество порядка объектов. В ранжировании важно, какие статьи окажутся выше других, а не только насколько хорошо модель предсказывает вероятность клика в среднем.
Поэтому в первую очередь необходимо попробовать ранжирующие функции потерь (например, pairwise и listwise подходы), и на валидации оценить метрики ранжирования (NDCG, MAP, Precision@k).
Идеи взять более сложный алгоритм, учитывать популярность, временные факторы и т.п. также могут дополнительно улучшить модель:)
Почему так произошло? Идейно калибровка не меняет порядок объектов, а лишь монотонно преобразует вероятности, изменяя их распределение.
ROC-AUC как раз зависит только от порядка предсказаний и не зависит от порога - поэтому он почти не изменился. А вот Recall напрямую связан с порогом - и видимо, его старое значение перестало быть оптимальным.
Чтобы это исправить, достаточно просто переподобрать порог классификатора.
Проблема кроется во фразе: “Команда обучила модель на данных за последнюю неделю…” Если таргет - возврат товара, то он, как правило, происходит через некоторое время после покупки. Поэтому если обучаться только на “самых свежих” данных, то для многих заказов возврат ещё просто не успел произойти - соответственно, такие покупки помечаются как returned = 0.
В качестве решения необходимо по историческим данным рассчитать типичную задержку между событием и таргетом и на её основе выбрать подходящий диапазон данных - чтобы обучаться только на заказах, для которых уже прошло достаточно времени, чтобы возврат мог произойти.
🐳 В следующий раз разбираем NLP и CV 🐳
Хороших выходных!
#карьера@data_easy
#classic_ml@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥12❤8🎉2👍1
This media is not supported in your browser
VIEW IN TELEGRAM
Привет, друзья!
Сегодня разберём громкую новинку уходящей недели - Gemini Embedding 2. Это первая омнимодальная модель от Google: она умеет мапить текст, изображения, видео, аудио и документы в единое векторное пространство.
👍 Технические детали:
- Длина вектора 3072, модель может принимать сразу несколько типов данных (но может и один).
- Есть ограничения по входу для каждой модальности:
- Доступ сейчас через Gemini API / Vertex (Public Preview) - а значит нужно учитывать квоты, биллинг, приватность данных и потенциальные задержки API.
- Благодаря MRL (Matryoshka Representation Learning) размерность эмбеддингов можно уменьшать без повторного вычисления.
- Отлично подходит для семантического поиска и мультимодального RAG.
👍 Но не спешите выбрасывать multi-vector архитектуры в окно!
Объединённый эмбеддинг удобен для общей семантики, но в реальных системах один объект всё равно часто представляют несколькими векторами - это помогает лучше решать разноплановые задачи и экономит время/место для простых задач (кстати, хранилища вроде Milvus тоже рекомендуют гибридные схемы).
Так что, Gemini Embedding 2 - важный шаг вперёд: единое пространство эмбеддингов для разных типов данных упрощает кросс-модальный поиск и RAG + позволяет быстрее собрать MVP.
Но в проде всё равно часто используют гибридные схемы - с доп. векторами, фильтрацией по атрибутам, а также ищут решения, которые можно запускать локально.
👍 Полезные ссылки:
• Официальный анонс
• Документация, Vertex и спецификации
• Ещё раз статейка от milvus
#полезный_ии@data_easy
Сегодня разберём громкую новинку уходящей недели - Gemini Embedding 2. Это первая омнимодальная модель от Google: она умеет мапить текст, изображения, видео, аудио и документы в единое векторное пространство.
- Длина вектора 3072, модель может принимать сразу несколько типов данных (но может и один).
- Есть ограничения по входу для каждой модальности:
• текст - до 8192 входных токенов
• изображения - до 6 файлов PNG или JPEG в одном запросе
• видео - до 120 секунд в формате MP4 или MOV
• аудио - принимается без транскрибации (обычно лимит ~80 сек, но здесь явно не пишут)
• документы - PDF до 6 страниц
- Доступ сейчас через Gemini API / Vertex (Public Preview) - а значит нужно учитывать квоты, биллинг, приватность данных и потенциальные задержки API.
- Благодаря MRL (Matryoshka Representation Learning) размерность эмбеддингов можно уменьшать без повторного вычисления.
- Отлично подходит для семантического поиска и мультимодального RAG.
Объединённый эмбеддинг удобен для общей семантики, но в реальных системах один объект всё равно часто представляют несколькими векторами - это помогает лучше решать разноплановые задачи и экономит время/место для простых задач (кстати, хранилища вроде Milvus тоже рекомендуют гибридные схемы).
Так что, Gemini Embedding 2 - важный шаг вперёд: единое пространство эмбеддингов для разных типов данных упрощает кросс-модальный поиск и RAG + позволяет быстрее собрать MVP.
Но в проде всё равно часто используют гибридные схемы - с доп. векторами, фильтрацией по атрибутам, а также ищут решения, которые можно запускать локально.
• Официальный анонс
• Документация, Vertex и спецификации
• Ещё раз статейка от milvus
#полезный_ии@data_easy
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥11❤3👍2