Интересное что-то

58 views17:49

По следам Turbo ML Conf 2025
#праздное #иб_для_ml #ml_для_иб

Отличная конференция, ребятам из Т-Банка - спасибо)

Общие впечатления
Много писать не буду, скажу одним предложением - содержательные доклады, QnA зоны для спикеров, достаточно свободного места и кресел, тематическое оформление, и, конечно, шикарный кейтеринг).

Доклады, которые я посетил, мне все понравились.

🔃

Трек LLM App, «Workflow-агенты на стероидах: 5 прототипов бизнес-автоматизаций за квартал», Валерий Ковальский, red_mad_robot.
Подробнейший рассказ про практику интеграции RAG в различных компаниях (преимущественно девелоперы), основывающейся на подходе трехуровневой системы управления знаниями - Domain, Collection, Document (DCD). Идея в том, чтобы запросы маршрутизировать сначала по доменам знаний (пользовательские соглашения, описания услуг, документация по ЖК, ...), а потом по коллекциям, и только затем на документы (похоже на статью HiRAG).
Но что самое крутое, Валерий уделил внимание и практике построения гардрейлов. Осветил подход к их проектированию (шлюз с фильтрацией промптов и ответов с базой промптов, интеграция с ролевой моделью, DLP, и защита RAG от галлюцинаций. По исполнению гардрейлы это правила, BERT'ы и LLM. Там много практических, например, по его опыту, на этапе эксплутации регэкспы/листы добавляют ~150 мс, BERT'ы еще ~150 мс, а LLM плюс ~600 мс. Точность их гардрейлов - 94%.

⚙

Трек LLM App, «LLM, агенты и MCP: от «модно» до «можно»», Ярослав Хрипков, Авито.
Оказалось, в Avito тоже строят гардрейлы. Правда, про них был всего один слайд: делайте хотя бы регулярки, least privilege access, mTLS-авторизацию, и сандбоксинг ллм-генерированного кода. А вообще доклад посвящен практике внедрения MCP. Тут и про влияние количества инструментов на качество (спойлер - 10 это край, а лучше 5). Посчитали также, что при росте количества инструментов и количества серверов сильно разрастается количество токенов, требуемого для их описания. Показали схему динамического тулинга, путь Авито к мультиагентным системам, лучшие модели для тулинга по лидерборду BFCL (лучшая - xLAM-2-70b).

🖼

Трек RnD, «Мультимодальные агенты — что уже есть и что будет дальше», Георгий Бредис, Т-Банк.
Обзорный доклад с инфой о текущих вызовах в мультимодальности и статусе их решения. Мультимодальных агентов (пусть будут ММА) можно учить на трех видах данных: интерфейсы программ, роботы, и игры. Пространство их действий при этом тоже бывает трех видов: дискретные действия (вправо/влево, вперед/назад, взять/положить, уже существующие внутри среды), непрерывные действия (у роботов), и текстовые/числовые действия (ввод в строку поиска, координаты точки нажатия). Для решения задач непрерывных действий, например, показана идея двухуровневой системы, где большой трансформер дает редкие и общие команды (типа "пройти до двери"), а маленькие дает частые и конкретные (повернуться, пройти вперед). Ризонинг - считается решенной задачей, достижение aha-moment при обучении уже стоит на потоке. Но многоступенчатые сложные задачи еще не поддаются сегодняшним ризонерам.
Сегодняшние проблемы ММА:
1. Knowing-doing-gap - модель знает, что происходит, но не может перевести в действие
2. Модель не различает k-й и k+1-й кадр
3. Память и планирование
Многообещающим подходом является Learn by interaction. Учиться без наград от среды, а через intrinsic-награду, когда модель сама говорит об уверенности в своих действий. Есть подход generative value estimation в эту сторону. Очень круто, интересно, что будет дальше)

🍑

Трек RnD, «Ненадежность современных LLM и методы борьбы с ней», Егор Швецов, Skoltech.
Докладчик показал несколько исследований его команды, самое интересное из которых - определение в трансформерах голов внимания (кусочков архитектуры), наиболее уязвимых к генерации галлюцинаций. Благодаря этому удалось эффективного снизить количество галлюцинаций на контрольной выборке. Еще из интересных наблюдений - квантизация разрушает выравнивание и усиливает галлюны.

Пока ждем выкладки докладов, я выложу фотки слайдов в комментарии)

А когда выложат презентации и записи, добавлю ссылки.

Please open Telegram to view this post

VIEW IN TELEGRAM

62 views17:49