Запуск ML-экспериментов через ClearML
Как можно создавать ML-эксперименты обучения и тестирования, их настраивать, ставить в очередь и запускать прям из веб-интерфейса Хочу изучить подробнее
#clearml #machinelearning #machine_learning #artificial_intelligence #artificial_neural_network | @habr_ai
Как можно создавать ML-эксперименты обучения и тестирования, их настраивать, ставить в очередь и запускать прям из веб-интерфейса Хочу изучить подробнее
#clearml #machinelearning #machine_learning #artificial_intelligence #artificial_neural_network | @habr_ai
Хабр
Запуск ML-экспериментов через ClearML
Привет, товарищи! В предыдущем посте я рассказывал, зачем нужен менеджер ML-экспериментов, поговорили про базовый функционал ClearML. А теперь мы рассмотрим, как можно создавать эксперименты, их...
Как мы в Авито предсказываем категории объявлений по описанию
Привет! Меня зовут Руслан Гилязев, я работаю в подразделении DS SWAT в Авито, руковожу командой платформы Item2param. В этой статье рассказываю, с помощью каких технологий мы решаем задачу классификации объявлений и почему это важно для бизнеса. Материал будет полезен DS-инженерам любого грейда и backend-инженерам, которые интересуются темой data science. Читать далее
#nlp #ml #mlops #machinelearning #labeling #automl #авито | @habr_ai
Привет! Меня зовут Руслан Гилязев, я работаю в подразделении DS SWAT в Авито, руковожу командой платформы Item2param. В этой статье рассказываю, с помощью каких технологий мы решаем задачу классификации объявлений и почему это важно для бизнеса. Материал будет полезен DS-инженерам любого грейда и backend-инженерам, которые интересуются темой data science. Читать далее
#nlp #ml #mlops #machinelearning #labeling #automl #авито | @habr_ai
Хабр
Как мы в Авито предсказываем категории объявлений по описанию
Привет! Меня зовут Руслан Гилязев, я работаю в подразделении DS SWAT в Авито , руковожу командой платформы Item2param. Одна из моих задач — развивать модели, которые предсказывают параметры...
Юнит тесты роя агентов
🐝 Тестирование роя агентов
Юнит тесты - единственный способ принять работу промпт инженера, так как не понятно, действительно ли он всё это время чатился с моделью или списал в работу на 5 минут пару недель времени. Так же, статья содержит типовые галлюцинации роя агентов, которые обязательно нужно проверить Читать далее
#typescript #javascript #python #openai #jest #unit_testing #mock #ai #machinelearning #llm | @habr_ai
🐝 Тестирование роя агентов
Юнит тесты - единственный способ принять работу промпт инженера, так как не понятно, действительно ли он всё это время чатился с моделью или списал в работу на 5 минут пару недель времени. Так же, статья содержит типовые галлюцинации роя агентов, которые обязательно нужно проверить Читать далее
#typescript #javascript #python #openai #jest #unit_testing #mock #ai #machinelearning #llm | @habr_ai
Хабр
Юнит тесты роя агентов
Исходный код, разобранный в статье, опубликован в этом репозитории При разработке роя агентов встает вопрос юнит тестирования. Рой агентов позволяет использовать разные LLM с выбором другой активной...
Как Duolingo юзает машинное обучение для прокачки английского: кратко и по делу
Теперь всё, что раньше делали люди — создание курсов, проверку ответов, адаптацию персонализированных заданий — почти полностью взял на себя ИИ.
Duolingo — это уже давно не просто приложение с разноцветными совами и скучными заданиями. В 2025-м генеративный ИИ позволил Duolingo быстро создавать новые курсы, и за год почти удвоить число языковых курсов! Как им это удалось и что это значит лично для тебя — рассказываем подробнее... Читать далее
#duolingo #data_science #machinelearning #datafeeling | @habr_ai
Теперь всё, что раньше делали люди — создание курсов, проверку ответов, адаптацию персонализированных заданий — почти полностью взял на себя ИИ.
Duolingo — это уже давно не просто приложение с разноцветными совами и скучными заданиями. В 2025-м генеративный ИИ позволил Duolingo быстро создавать новые курсы, и за год почти удвоить число языковых курсов! Как им это удалось и что это значит лично для тебя — рассказываем подробнее... Читать далее
#duolingo #data_science #machinelearning #datafeeling | @habr_ai
Хабр
Как Duolingo юзает машинное обучение для прокачки английского: кратко и по делу
Привет, чемпионы! Duolingo — это уже давно не просто приложение с разноцветными совами и скучными заданиями. С 2023 года и особенно в 2025-м они вкатились в тему искусственного интеллекта (ИИ) и...
Подборка для ML-инженера: как прокачаться джуниору
Привет! Меня зовут Антон Моргунов, я инженер МО в «Базис.Центре» и программный эксперт курса «Инженер машинного обучения» в Яндекс Практикуме. В этой статье я поделюсь бесплатными мини-курсами, учебниками, книгами и ресурсами, которые помогут прокачаться в профессии или даже войти в неё с нуля. Читать далее
#машинное_обучение #ml #machinelearning #machine_learning #ml_инженер | @habr_ai
Привет! Меня зовут Антон Моргунов, я инженер МО в «Базис.Центре» и программный эксперт курса «Инженер машинного обучения» в Яндекс Практикуме. В этой статье я поделюсь бесплатными мини-курсами, учебниками, книгами и ресурсами, которые помогут прокачаться в профессии или даже войти в неё с нуля. Читать далее
#машинное_обучение #ml #machinelearning #machine_learning #ml_инженер | @habr_ai
Хабр
Подборка для ML-инженера: как прокачаться джуниору
Привет! Меня зовут Антон Моргунов, я инженер МО в «Базис.Центре» и программный эксперт курса «Инженер машинного обучения» в Яндекс Практикуме. В этой статье я поделюсь бесплатными мини-курсами,...
NEAT. Основы
Сегодня "теорию" NEAT, который появился в далёком 2004-м году, но при этом остается мейнстримом среди нейроэволюционных алгоритмов. Мы разберём классический вариант, так как это основа и все остальные варианты(CoDeepNEAT, HyperNEAT и т.д.) будут намного сложнее в имплементации, то есть шанс применить за разумное время обычному человеку стремится к нулю и понять их без изначального варианта представляется почти невозможным.
NEAT - алгоритм расширяющихся топологий, является, наверно, самым неприхотливым в использовании к входным данным. Не нужно знать окончательный, абсолютно правильный ответ, неважна разбивка на подзадачи, все что ему нужно это какая-то метрика(фитнес функция) по которой мы оцениваем популяцию. Из-за этого он может проигрывать скорости обучения моделей для того же алгоритма обратном распространении или обучения с подкреплением, но по итогу всегда даст правильный, порой очень неожиданный и эффективный результат. Читать далее
#neat #ml #нейоросеть #нейросети #эволюция #нейроэволюционные_алгоритмы #алгоритмы #machinelearning #machine_learning #искусственный_интеллект | @habr_ai
Сегодня "теорию" NEAT, который появился в далёком 2004-м году, но при этом остается мейнстримом среди нейроэволюционных алгоритмов. Мы разберём классический вариант, так как это основа и все остальные варианты(CoDeepNEAT, HyperNEAT и т.д.) будут намного сложнее в имплементации, то есть шанс применить за разумное время обычному человеку стремится к нулю и понять их без изначального варианта представляется почти невозможным.
NEAT - алгоритм расширяющихся топологий, является, наверно, самым неприхотливым в использовании к входным данным. Не нужно знать окончательный, абсолютно правильный ответ, неважна разбивка на подзадачи, все что ему нужно это какая-то метрика(фитнес функция) по которой мы оцениваем популяцию. Из-за этого он может проигрывать скорости обучения моделей для того же алгоритма обратном распространении или обучения с подкреплением, но по итогу всегда даст правильный, порой очень неожиданный и эффективный результат. Читать далее
#neat #ml #нейоросеть #нейросети #эволюция #нейроэволюционные_алгоритмы #алгоритмы #machinelearning #machine_learning #искусственный_интеллект | @habr_ai
Хабр
NEAT. Основы
Введение Сегодня изучим "теорию" NEAT, который появился в далёком 2004-м году, но при этом остается мейнстримом среди нейроэволюционных алгоритмов. Мы разберём классический вариант, так как это основа...
❤1
Как алгоритм Recovering Difference Softmax (RDS) делает рекомендации и уведомления точнее и эффективнее
Алгоритм Recovering Difference Softmax (RDS) — полноценный подход к оптимизации уведомлений и контента для повышения вовлеченности пользователей. Алгоритм выбирает единственно лучший вариант, удерживая пользователей дольше и возвращая их чаще.
Если коротко, улучшает работу алгоритмов машинного обучения, особенно когда нужно делать выбор из нескольких вариантов.
Как RDS превращает простые сигналы в рост вовлечённости? Разбираемся в статье! Читать далее
#recovering_difference_softmax #rds #duolingo #data_science #machinelearning #datafeeling | @habr_ai
Алгоритм Recovering Difference Softmax (RDS) — полноценный подход к оптимизации уведомлений и контента для повышения вовлеченности пользователей. Алгоритм выбирает единственно лучший вариант, удерживая пользователей дольше и возвращая их чаще.
Если коротко, улучшает работу алгоритмов машинного обучения, особенно когда нужно делать выбор из нескольких вариантов.
Как RDS превращает простые сигналы в рост вовлечённости? Разбираемся в статье! Читать далее
#recovering_difference_softmax #rds #duolingo #data_science #machinelearning #datafeeling | @habr_ai
Хабр
Как алгоритм Recovering Difference Softmax (RDS) делает рекомендации и уведомления точнее и эффективнее
Привет, чемпионы! Алгоритм Recovering Difference Softmax (RDS) — это не просто очередной метод машинного обучения , а полноценный подход к оптимизации уведомлений и контента для повышения...
FEDOT, да не тот
Привет, Хабр!
Меня зовут Марина, я Head of Analytics and ML в SENSE, занимаюсь анализом данных уже более 5 лет. Сначала препарировала спектры в физике высоких энергий и сотрудничала с ЦЕРН-ом, а теперь строю рекомендательные системы и аналитику.
В статье расскажу про опыт работы с пакетом FEDOT для прогнозирования временных рядов. Статья пригодится тем, кто хочет вкатиться в тему временных рядов и потыкать свои первые модельки на примере отечественных библиотек. Объясняю на примере задачи прогнозирования выходов кандидатов.
Дисклеймер: во временных рядах я только начинаю свой путь, так что делюсь всеми своими фейлами и буду рада обратной связи в комментах. Читать далее
#модели_временных_рядов #machinelearning #statistics #timeseries | @habr_ai
Привет, Хабр!
Меня зовут Марина, я Head of Analytics and ML в SENSE, занимаюсь анализом данных уже более 5 лет. Сначала препарировала спектры в физике высоких энергий и сотрудничала с ЦЕРН-ом, а теперь строю рекомендательные системы и аналитику.
В статье расскажу про опыт работы с пакетом FEDOT для прогнозирования временных рядов. Статья пригодится тем, кто хочет вкатиться в тему временных рядов и потыкать свои первые модельки на примере отечественных библиотек. Объясняю на примере задачи прогнозирования выходов кандидатов.
Дисклеймер: во временных рядах я только начинаю свой путь, так что делюсь всеми своими фейлами и буду рада обратной связи в комментах. Читать далее
#модели_временных_рядов #machinelearning #statistics #timeseries | @habr_ai
Хабр
FEDOT, да не тот
Привет, Хабр! Меня зовут Марина, я Head of Analytics and ML в SENSE , занимаюсь анализом данных уже более 5 лет. Сначала препарировала спектры в физике высоких энергий и сотрудничала с ЦЕРН-ом, а...
Оптимизация нейронных сетей для AI — переводчика
Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи.
В этой статье рассматриваются несколько подходов, которые помогают повысить эффективность и качество языковых моделей для перевода. В качестве основы для тренировки моделей мы используем OpenNMT-tf.
Мы поговорим о методах, которые способствуют постепенной настройке параметров модели, что может привести к более стабильным процессам обучения. Эти техники позволяют тонко настроить процесс обновления весов модели, что улучшает сходимость и в конечном итоге дает лучшие результаты.
Кроме того, в статье обсуждаются стратегии управления темпами обучения, которые играют ключевую роль в том, насколько быстро модель обучается. Понимание того, как правильно корректировать темп обучения с течением времени, может существенно повлиять на динамику обучения и сделать модели более быстрыми и точными.
Наконец, мы затронем важность управления контрольными точками, что позволяет эффективнее использовать обученные модели, усредняя веса из нескольких сессий обучения. Это помогает снизить риск переобучения и обеспечивает сохранение лучших характеристик модели, приобретенных в процессе обучения. Читать далее
#машинное_обучение #machinelearning #translator #ai #language_model #deeplearning #машинный_перевод #языковые_модели #нейросети #искусственный_интеллект | @habr_ai
Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex, которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи.
В этой статье рассматриваются несколько подходов, которые помогают повысить эффективность и качество языковых моделей для перевода. В качестве основы для тренировки моделей мы используем OpenNMT-tf.
Мы поговорим о методах, которые способствуют постепенной настройке параметров модели, что может привести к более стабильным процессам обучения. Эти техники позволяют тонко настроить процесс обновления весов модели, что улучшает сходимость и в конечном итоге дает лучшие результаты.
Кроме того, в статье обсуждаются стратегии управления темпами обучения, которые играют ключевую роль в том, насколько быстро модель обучается. Понимание того, как правильно корректировать темп обучения с течением времени, может существенно повлиять на динамику обучения и сделать модели более быстрыми и точными.
Наконец, мы затронем важность управления контрольными точками, что позволяет эффективнее использовать обученные модели, усредняя веса из нескольких сессий обучения. Это помогает снизить риск переобучения и обеспечивает сохранение лучших характеристик модели, приобретенных в процессе обучения. Читать далее
#машинное_обучение #machinelearning #translator #ai #language_model #deeplearning #машинный_перевод #языковые_модели #нейросети #искусственный_интеллект | @habr_ai
Хабр
Оптимизация нейронных сетей для AI — переводчика
Всем привет! Меня зовут Алексей Рудак, и я – основатель компании Lingvanex , которая уже 8 лет занимается решениями в области машинного перевода и транскрипции речи. В этой статье...
Вычисление функции потерь и градиентов в AI переводчике
Привет, Хабр!
Меня зовут Алексей Рудак, я основатель компании Lingvanex, которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен переводчик на нейронных сетях изнутри. И сейчас хочу рассказать про работу функции потерь. Для тренировки модели используется opensource фреймворк OpenNMT-tf.
Статья предоставляет всесторонний обзор вычисления функции потерь в машинном обучении, особенно в контексте моделей последовательностей. Она начинается с подробного описания того, как матрица логитов, генерируемая после преобразований в декодере, обрабатывается через функцию cross_entropy_sequence_loss. Эта функция играет ключевую роль в измерении расхождения между предсказанными выводами и фактическими метками. В статье описаны шаги, включая преобразование логитов в подходящий формат, применение сглаживания меток для создания сглаженных меток и вычисление кросс-энтропийных потерь с использованием softmax. Каждый этап подробно объясняется, чтобы было понятно, как каждый компонент вносит вклад в общую оценку потерь.
Кроме вычисления потерь, статья рассматривает механизм выравнивания, используемый для улучшения работы модели. Описано, как значение потерь корректируется на основе направляемого выравнивания, что позволяет модели лучше учитывать взаимосвязи между исходными и целевыми последовательностями. Также подробно рассматривается процесс вычисления и применения градиентов, иллюстрируя, как оптимизатор обновляет веса модели для минимизации потерь. Читать далее
#машинное_обучение #machinelearning #переводчик #переводчики #машинный_перевод #ии #искусственный_интеллект #языковые_модели #transformers #neural_networks | @habr_ai
Привет, Хабр!
Меня зовут Алексей Рудак, я основатель компании Lingvanex, которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен переводчик на нейронных сетях изнутри. И сейчас хочу рассказать про работу функции потерь. Для тренировки модели используется opensource фреймворк OpenNMT-tf.
Статья предоставляет всесторонний обзор вычисления функции потерь в машинном обучении, особенно в контексте моделей последовательностей. Она начинается с подробного описания того, как матрица логитов, генерируемая после преобразований в декодере, обрабатывается через функцию cross_entropy_sequence_loss. Эта функция играет ключевую роль в измерении расхождения между предсказанными выводами и фактическими метками. В статье описаны шаги, включая преобразование логитов в подходящий формат, применение сглаживания меток для создания сглаженных меток и вычисление кросс-энтропийных потерь с использованием softmax. Каждый этап подробно объясняется, чтобы было понятно, как каждый компонент вносит вклад в общую оценку потерь.
Кроме вычисления потерь, статья рассматривает механизм выравнивания, используемый для улучшения работы модели. Описано, как значение потерь корректируется на основе направляемого выравнивания, что позволяет модели лучше учитывать взаимосвязи между исходными и целевыми последовательностями. Также подробно рассматривается процесс вычисления и применения градиентов, иллюстрируя, как оптимизатор обновляет веса модели для минимизации потерь. Читать далее
#машинное_обучение #machinelearning #переводчик #переводчики #машинный_перевод #ии #искусственный_интеллект #языковые_модели #transformers #neural_networks | @habr_ai
Хабр
Вычисление функции потерь и градиентов в AI переводчике
Привет, Хабр! Меня зовут Алексей Рудак, я основатель компании Lingvanex , которая разрабатывает решения в области машинного перевода и транскрипции речи. Продолжаю цикл статей о том, как устроен...
Что думают инженеры OpenAI, Microsoft и AWS о будущем AI: честные ответы с AI Engineer World's Fair 2025
Всем привет! Я провела три дня на AI Engineer World's Fair в Сан‑Франциско вместе с 3000 лучших AI‑инженеров мира, CTO компаний из Fortune 500 и основателями стартапов. Это третий год конференции, и она стала местом, где ведущие AI‑лаборатории, компании и инженерные команды показывают свои последние работы.
Я поговорила с инженерами и руководителями из OpenAI, Microsoft, AWS, Pydantic и YC‑стартапов. Хочу поделиться их откровенными мнениями и ключевыми инсайтами, которые определяют, как мы будем строить AI‑системы в 2025 году и далее.
18 треков конференции охватывали всё: от MCP до reinforcement learning, AI и робототехники. Доминирующая тема — AI‑агенты, но специфически агенты, готовые к production использованию. Разговор сместился от «что могут делать агенты» к «как мы деплоим их надёжно и в масштабе».
Если вам больше нравится формат видео, можете посмотреть их тут и тут на моем канале. Буду рада связаться с вами через LinkedIn, чтобы вы не пропустили новые апдейты из мира ИИ. Читать далее
#ai #искусственный_интеллект #artificial_intelligence #machinelearning #conference #career #career_advice #career_in_it | @habr_ai
Всем привет! Я провела три дня на AI Engineer World's Fair в Сан‑Франциско вместе с 3000 лучших AI‑инженеров мира, CTO компаний из Fortune 500 и основателями стартапов. Это третий год конференции, и она стала местом, где ведущие AI‑лаборатории, компании и инженерные команды показывают свои последние работы.
Я поговорила с инженерами и руководителями из OpenAI, Microsoft, AWS, Pydantic и YC‑стартапов. Хочу поделиться их откровенными мнениями и ключевыми инсайтами, которые определяют, как мы будем строить AI‑системы в 2025 году и далее.
18 треков конференции охватывали всё: от MCP до reinforcement learning, AI и робототехники. Доминирующая тема — AI‑агенты, но специфически агенты, готовые к production использованию. Разговор сместился от «что могут делать агенты» к «как мы деплоим их надёжно и в масштабе».
Если вам больше нравится формат видео, можете посмотреть их тут и тут на моем канале. Буду рада связаться с вами через LinkedIn, чтобы вы не пропустили новые апдейты из мира ИИ. Читать далее
#ai #искусственный_интеллект #artificial_intelligence #machinelearning #conference #career #career_advice #career_in_it | @habr_ai
Хабр
Что думают инженеры OpenAI, Microsoft и AWS о будущем AI: честные ответы с AI Engineer World's Fair 2025
Всем привет! Я провела три дня на AI Engineer World's Fair в Сан‑Франциско вместе с 3000 лучших AI‑инженеров мира, CTO компаний из Fortune 500 и основателями стартапов. Это третий...
Как мы учим роботов ходить плавно, или Почему градиент градиента — это не опечатка, а ключ к безопасной робототехнике
Привет, Хабр! Меня зовут Лёша Лещанкин, я руковожу проектом Humanoids в Яндексе. В начале 2025 года мы запустили это направление при поддержке фонда технологических инициатив компании — Yet Another Tech Fund, созданного специально для реализации новаторских идей сотрудников. Наша цель — создать гуманоидных роботов, которые смогут уверенно и безопасно работать рядом с людьми в самых разных условиях: от логистики и промышленности до сферы обслуживания.
В рамках нашего проекта мы тестируем разные RL‑модели. И сегодня расскажу об одном из методов, который позволил нам перейти от «робот дёргается и падает» к «робот ходит плавно 500 шагов подряд» — Lipschitz‑Constrained reinforcement learning. Читать далее
#яндекс #machinelearning #robotics #llm #ml | @habr_ai
Привет, Хабр! Меня зовут Лёша Лещанкин, я руковожу проектом Humanoids в Яндексе. В начале 2025 года мы запустили это направление при поддержке фонда технологических инициатив компании — Yet Another Tech Fund, созданного специально для реализации новаторских идей сотрудников. Наша цель — создать гуманоидных роботов, которые смогут уверенно и безопасно работать рядом с людьми в самых разных условиях: от логистики и промышленности до сферы обслуживания.
В рамках нашего проекта мы тестируем разные RL‑модели. И сегодня расскажу об одном из методов, который позволил нам перейти от «робот дёргается и падает» к «робот ходит плавно 500 шагов подряд» — Lipschitz‑Constrained reinforcement learning. Читать далее
#яндекс #machinelearning #robotics #llm #ml | @habr_ai
Хабр
Как мы учим роботов ходить плавно, или Почему градиент градиента — это не опечатка, а ключ к безопасной робототехнике
Привет, Хабр! Меня зовут Лёша Лещанкин, я руковожу проектом Humanoids в Яндексе. В начале 2025 года мы запустили это направление при поддержке фонда технологических инициатив...
Speaker Recognition. Как искать человека по голосу
Поговорим про задачу Speaker Recognition. О том, как работает такая система, из каких этапов состоит, как мы ее оцениваем. Читать далее
#machinelearning #machine_learning #artificial_intelligence #artifical_neural_networks #metric_learning #speaker_identification #speaker_verification | @habr_ai
Поговорим про задачу Speaker Recognition. О том, как работает такая система, из каких этапов состоит, как мы ее оцениваем. Читать далее
#machinelearning #machine_learning #artificial_intelligence #artifical_neural_networks #metric_learning #speaker_identification #speaker_verification | @habr_ai
Хабр
Speaker Recognition. Как искать человека по голосу
Приветствую, Хабр! В этой статье мы поговорим про задачу Speaker Recognition. О том, как работает такая система, как мы ее оцениваем. И хотя речь пойдет про распознавание человека по голосу, этот же...
ICLR-2025: что нового в мультимодальном ранжировании
Всем привет! Недавно мы — Алексей Спасёнов и Кирилл Никоров из ML‑команды Мультимедиа Поиска Яндекса (Картинки и Видео) — и ещё 90 яндексоидов побывали на конференции ICLR-2025 и рады рассказать о свежих направлениях исследований в области мультимодального ранжирования.
С каждым годом эта область ML приобретает всё более важной. Люди всё чаще предпочитают получать информацию из визуальных медиа и кратких ИИ‑выжимок, а не привычных текстовых статей. При этом область мультимодального ранжирования является довольно сложной и интересной, так как она постоянно использует разные данные (тексты, аудио, изображения) и требует высокой вычислительной эффективности.
В этой статье мы хотели бы поделиться самыми интересными и перспективными для нашей области работами, которые мы выделили на конференции. Читать далее
#machinelearning #нейросети #машинное_обучение #мультимодальное_ранжирование #искусственный_интеллект #iclr #конференция #статьи | @habr_ai
Всем привет! Недавно мы — Алексей Спасёнов и Кирилл Никоров из ML‑команды Мультимедиа Поиска Яндекса (Картинки и Видео) — и ещё 90 яндексоидов побывали на конференции ICLR-2025 и рады рассказать о свежих направлениях исследований в области мультимодального ранжирования.
С каждым годом эта область ML приобретает всё более важной. Люди всё чаще предпочитают получать информацию из визуальных медиа и кратких ИИ‑выжимок, а не привычных текстовых статей. При этом область мультимодального ранжирования является довольно сложной и интересной, так как она постоянно использует разные данные (тексты, аудио, изображения) и требует высокой вычислительной эффективности.
В этой статье мы хотели бы поделиться самыми интересными и перспективными для нашей области работами, которые мы выделили на конференции. Читать далее
#machinelearning #нейросети #машинное_обучение #мультимодальное_ранжирование #искусственный_интеллект #iclr #конференция #статьи | @habr_ai
Хабр
ICLR-2025: что нового в мультимодальном ранжировании
Всем привет! Недавно мы — Алексей Спасёнов и Кирилл Никоров @KIIN из ML‑команды Мультимедиа Поиска Яндекса (Картинки и Видео) — и ещё 90 яндексоидов побывали на конференции...
Разбираем на запчасти поисковый сервис в Яндекс Лавке
Привет! Меня зовут Николай Смирнов, я ML-инженер в команде поиска Яндекс Лавки. В этой статье я расскажу немного о закулисье:
— Как наша команда шаг за шагом строила поисковый сервис, начиная с алгоритма Ахо — Корасик, SaaS-решений и Маркета, и дошла до собственной архитектуры на C++ с userver и многослойным «бургером» из ML-моделей.
— Зачем поиску Лавки понадобилось сразу несколько технологий — BM25, DSSM, BERT и CatBoost — и чем полезна каждая из них.
— Как наш поиск собирает данные о вас и о товарах и почему ML-модели приходится дообучать.
А ещё вместе «сломаем» прод — посмотрим, что произойдёт, если выключить какую-нибудь из моделей, и почему даже самые продвинутые нейросети не являются серебряной пулей.
В общем, будет немного истории, самое интересное из архитектуры, инженерные находки и живые примеры того, как поиск в Лавке принимает решения. Если интересно, как на самом деле работает поиск, — погнали! Читать далее
#поиск #mlops #ml_design #bm25 #dssm #catboost #яндекс_лавка #machinelearning | @habr_ai
Привет! Меня зовут Николай Смирнов, я ML-инженер в команде поиска Яндекс Лавки. В этой статье я расскажу немного о закулисье:
— Как наша команда шаг за шагом строила поисковый сервис, начиная с алгоритма Ахо — Корасик, SaaS-решений и Маркета, и дошла до собственной архитектуры на C++ с userver и многослойным «бургером» из ML-моделей.
— Зачем поиску Лавки понадобилось сразу несколько технологий — BM25, DSSM, BERT и CatBoost — и чем полезна каждая из них.
— Как наш поиск собирает данные о вас и о товарах и почему ML-модели приходится дообучать.
А ещё вместе «сломаем» прод — посмотрим, что произойдёт, если выключить какую-нибудь из моделей, и почему даже самые продвинутые нейросети не являются серебряной пулей.
В общем, будет немного истории, самое интересное из архитектуры, инженерные находки и живые примеры того, как поиск в Лавке принимает решения. Если интересно, как на самом деле работает поиск, — погнали! Читать далее
#поиск #mlops #ml_design #bm25 #dssm #catboost #яндекс_лавка #machinelearning | @habr_ai
Хабр
Разбираем на запчасти поисковый сервис в Яндекс Лавке
Привет! Меня зовут Николай Смирнов, я ML-инженер в команде поиска Яндекс Лавки. В этой статье я расскажу немного о закулисье: Как наша команда шаг за шагом строила поисковый сервис, начиная с...
Топ вопросов с Data Science собеседований: Основы Classic ML, Линейные модели, Метрики классификации и регрессии
Секрет успешного трудоустройства — в дотошной подготовке к собеседованиям!
Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по классическому ML. Кратко, по делу, с акцентом на то, что действительно спрашивают.
В этой части разберем: основы машинного обучения, переобучение и кросс-валидация, линейные модели, метрики классификации и регрессии. Узнать вопросы и ответы на них
#ml #data_science #data_scientist #machinelearning #собеседование #машинное_обучение #наука_о_данных #метрики #линейные_модели #ml_engineer | @habr_ai
Секрет успешного трудоустройства — в дотошной подготовке к собеседованиям!
Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр, по которому стоит пройтись перед техническим интервью по классическому ML. Кратко, по делу, с акцентом на то, что действительно спрашивают.
В этой части разберем: основы машинного обучения, переобучение и кросс-валидация, линейные модели, метрики классификации и регрессии. Узнать вопросы и ответы на них
#ml #data_science #data_scientist #machinelearning #собеседование #машинное_обучение #наука_о_данных #метрики #линейные_модели #ml_engineer | @habr_ai
Хабр
Топ вопросов с Data Science собеседований: Основы Classic ML, Линейные модели, Метрики классификации и регрессии
Секрет успешного трудоустройства — в дотошной подготовке к собеседованиям! Этот материал не рассчитан на изучение тем с нуля. Это чеклист и тренажёр , по которому стоит пройтись перед техническим...
Titanic + CatBoost (Первое решение, первый Jupyter Notebook)
Решение первого соревнования на kaggle титаник с помощью библиотеки от яндекса catboost. Два способа: обычная модель и второй: с перебором гиперпараметров с помощью randomizedsearch. Сравнение результатов. Читать далее
#kaggle #titanic #ml #машинноеобучение #machinelearning #scikitlearn #catboost #eda #соревнование #juniorml | @habr_ai
Решение первого соревнования на kaggle титаник с помощью библиотеки от яндекса catboost. Два способа: обычная модель и второй: с перебором гиперпараметров с помощью randomizedsearch. Сравнение результатов. Читать далее
#kaggle #titanic #ml #машинноеобучение #machinelearning #scikitlearn #catboost #eda #соревнование #juniorml | @habr_ai
Хабр
Titanic + CatBoost (Первое решение, первый Jupyter Notebook)
#Импортируем все необходимые библиотеки import pandas as pd from catboost import CatBoostClassifier from sklearn.model_selection import train_test_split from sklearn.metrics import accuracy_score...
Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?
Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena?
Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.
TL/DR:
* Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;
* У нас есть отобранная команда аннотаторов и автоматический фильтр качества;
* Мы научились фильтровать фрод и мусорные промпты лучше, чем стандартные крауд-платформы;;
* Теперь мы можем быстро тестировать новые модели и выдавать предрейтинг до массового запуска. Читать далее
#llm #llmarena #краудсорсинг #ии #ai #оценка_моделей #нейросети #machinelearning #ml #open_source | @habr_ai
Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч реальных пользователей на нашем сайте LLM Arena?
Причём не в жёсткой парадигме «оцени по инструкции», а приближаясь к реальному user preference, когда пользователь выбирает то, что ему субъективно больше нравится.
TL/DR:
* Мы можем за 3 дня воспроизвести пользовательский рейтинг LLM с точностью 90%+;
* У нас есть отобранная команда аннотаторов и автоматический фильтр качества;
* Мы научились фильтровать фрод и мусорные промпты лучше, чем стандартные крауд-платформы;;
* Теперь мы можем быстро тестировать новые модели и выдавать предрейтинг до массового запуска. Читать далее
#llm #llmarena #краудсорсинг #ии #ai #оценка_моделей #нейросети #machinelearning #ml #open_source | @habr_ai
Хабр
Воспроизводимый рейтинг: можно ли с помощью краудсорсинга предсказать выбор пользователей LLM?
Всем привет! Сегодня хотим поделиться историей нашего эксперимента, который начался с простого вопроса: а можно ли с помощью краудсорсинга воссоздать рейтинг нейросетей, который мы получаем от тысяч...
[Перевод] Скорость, стратегия и алгоритмы: будущее Формулы-1 в эпоху AI
Формула-1 всегда была местом пересечения инженерии и инноваций. В последние годы эта область инноваций расширилась за счёт внедрения искусственного интеллекта и машинного обучения.
От стратегии по выбору шин до аэродинамического дизайна — эти технологии меняют то, как команды планируют работу, реагируют на вызовы и развиваются. Они не заменяют человеческих специалистов, принимающих решения, но трансформируют набор инструментов, с которыми ведут борьбу за результат. Читать далее
#formula_1 #ai #machinelearning #machine_learning #reinforcement_learning #pca #cfd #cfd_моделирование #generative_design #ии | @habr_ai
Формула-1 всегда была местом пересечения инженерии и инноваций. В последние годы эта область инноваций расширилась за счёт внедрения искусственного интеллекта и машинного обучения.
От стратегии по выбору шин до аэродинамического дизайна — эти технологии меняют то, как команды планируют работу, реагируют на вызовы и развиваются. Они не заменяют человеческих специалистов, принимающих решения, но трансформируют набор инструментов, с которыми ведут борьбу за результат. Читать далее
#formula_1 #ai #machinelearning #machine_learning #reinforcement_learning #pca #cfd #cfd_моделирование #generative_design #ии | @habr_ai
Хабр
Скорость, стратегия и алгоритмы: будущее Формулы-1 в эпоху AI
Формула-1 всегда была местом пересечения инженерии и инноваций. В последние годы эта область инноваций расширилась за счёт внедрения искусственного интеллекта и машинного обучения. От стратегии по...
Как прошел RecSys Meetup? Рассказываем об ивенте и делимся записями докладов
Привет! 28 августа прошел RecSys Meetup — поговорили о том, как работают рекомендательные алгоритмы Wildberries & Russ: от блока «вам может понравиться» до сложных моделей, влияющих на выдачу товаров.
В программе было четыре интересных доклада, классный мерч и полезный нетворкинг. В статье вы найдете видеозаписи с ивента и фотоотчет :) Читать далее
#recsys #рекомендательные_системы #ml #machinelearning #машинное_обучение #митап #meetup #доклады #ds #data_science | @habr_ai
Привет! 28 августа прошел RecSys Meetup — поговорили о том, как работают рекомендательные алгоритмы Wildberries & Russ: от блока «вам может понравиться» до сложных моделей, влияющих на выдачу товаров.
В программе было четыре интересных доклада, классный мерч и полезный нетворкинг. В статье вы найдете видеозаписи с ивента и фотоотчет :) Читать далее
#recsys #рекомендательные_системы #ml #machinelearning #машинное_обучение #митап #meetup #доклады #ds #data_science | @habr_ai
Хабр
Как прошел RecSys Meetup? Рассказываем об ивенте и делимся записями докладов
Привет! 28 августа прошел RecSys Meetup — поговорили о том, как работают рекомендательные алгоритмы Wildberries & Russ: от блока «вам может понравиться» до сложных моделей, влияющих на выдачу...