вот такой рисерч
253 subscribers
3 photos
8 links
Прагматично про рисерч по теме рексистем и информационного поиска.

Автор @evfro – PhD, руководитель группы «Технологии персонализации» AIRI, доцент ФКН ВШЭ, с.н.с. Сколтеха.
Download Telegram
Этого поста, как и канала, не должно было появиться.

Зачем, в самом деле, делиться с миром особенностями рисерча? Все нужное уже есть в статьях или докладах на конференциях. В крайнем случае, можно обсудить больше деталей где-то в «кулуарах» на профессиональных мероприятиях.
Долгое время я придерживался именно такой точки зрения.

Но в последние годы мне все чаще приходится объяснять студентам и аспирантам не только технические, но и концептуальные стороны работы исследователя. В итоге я все же решил завести этот канал – как платформу для выражения экспертного взгляда «изнутри».

Меня зовут Евгений Фролов. Моя профессиональная история в сфере ИИ началась в аспирантуре под руководством Ивана Оселедца. Именно тогда, совмещая академические исследования с первыми индустриальными проектами по теме рекомендательных систем, я понял, что это моё направление.

С тех пор прошло больше 10 лет. Сейчас я руковожу группой «Технологии персонализации» в AIRI, и по совместительству работаю старшим научным сотрудником в НИУ ВШЭ и Сколтехе. Моя цель – делать рекомендательные системы точнее и практичнее, замыкая друг на друга достижения из разных областей и направлений компьютерных наук. Иногда это работает и в обратную сторону, позволяя перенести опыт и инсайты из рексистем в другие домены и задачи.

Здесь я буду писать о том, что мотивирует и волнует меня в профессиональном контексте. В первую очередь это будет касаться всего, что связано с персонализацией и рекомендательными системами. Забегая несколько вперед, надеюсь, что этим не ограничится. Но всему свое время и место.

Этот канал скорее о принципах, а не о хайпе. Писать буду редко, но по делу.
🔥3514👍13❤‍🔥3
На фоне очередной волны переосмысления того, что же такое AGI, в исполнении главы OpenAI, очень пригодился бы пост в этом канале из 2023 года о том, как я вижу движение в сторону AGI и как его определяю. Но канал в тот момент еще не существовал. Поэтому придется написать об этом сейчас.

Почему именно из 2023-го? Тогда я присоединился к AIRI и почти сразу же попал на одну из внутренних стратсессий, нацеленную на формирование возможного образа AGI и путей продвижения к нему. И на этот вопрос я взглянул с прагматической точки зрения (сказывается профдеформация работы в рексисе): если так трудно обозначить четкие контуры AGI, то почему бы не воспользоваться известным утиным тестом (duck-test)?

Какими признаками с точки зрения неискушенного пользователя мог бы обладать сильный ИИ? Предложу программу минимум:
🟢 он должен понимать индивидуальные потребности человека и предлагать какие-то шаги и действия для их удовлетворения;
🟢 при этом уметь мгновенно реагировать на обратную связь в формате общения на естественном языке;
🟢 в соответствии с этим адаптировать свои ответы в моменте, учитывая как текущий контекст взаимодействия, так и долгосрочные интересы конкретного пользователя.

Если выполнить эти условия, то, вероятнее всего, пользователю будет неважно, правда ли за этим всем стоит сильный ИИ или это что-то другое. В бытовых ситуациях отличить будет крайне сложно. Отсюда напрашивается вопрос – а насколько мы близки к реализации такого варианта и на основе каких технологий могли бы его реализовать? Те, кто знают меня давно, вероятно, уже догадываются, к чему я клоню. Но об этом будет следующий пост, а пока с интересом почитал бы ваши варианты в комментариях.
Please open Telegram to view this post
VIEW IN TELEGRAM
👍166👨‍💻5🔥3🆒2
Итак, в предыдущем посте, опираясь на принцип утиного теста, я предложил три критерия мимикрии под AGI — понимание потребности пользователя, моментальная реакция на обратную связь и способность адаптироваться под запросы в контексте.

— Но ведь это же описание идеальной рекомендательной системы! — могли бы радостно воскликнуть студенты, успешно прошедшие мой одноименный курс. И были бы правы. Если быть более точным – это описание интерактивного персонального интеллектуального ассистента. Всеведущего как Анатолий Вассерман и понимающего с полуслова как близкий друг. Отчасти мы уже к этому приблизились. Пользователи по всему миру отмечают как общение с GPT-моделями помогает им решать острые вопросы, в том числе и личные. ИИ предоставляет как информационную, так и психотерапевтическую поддержку. Однако это хорошо работает там, где проблемы и их решения относительно легко перекладываются на естественный язык. Это прекрасно иллюстрируется примерами из области рексистем, где большие языковые модели давно тестируют для замены более классических подходов, но хороший результат удается продемонстрировать в ограниченном наборе доменов, преимущественно текстовых (таких как рекомендации книг, например).

В общем случае для произвольных доменов такой подход сталкивается с серьезными препятствиями (описание которых сейчас не принципиально и, может быть, станет темой одного из будущих постов). И это, на мой взгляд, ключевое наблюдение.

Необходимо реализовать более универсальный подход. Участие LLM (или какой-то новой архитектуры, которая придет на смену) при этом не исключается, т.к. элемент интерактивного взаимодействия на человеческом языке является неотъемлемой составляющей интеллектуального ассистента. Но нужно также развить способность хорошо понимать как краткосрочные, так и долгосрочные особенности поведения человека. Научиться аппроксимировать механизм принятия им решений, не имея при этом возможности построить явную интерпретируемую модель этого механизма. Единственный известный мне способ этого достичь – коллаборативная фильтрация, «рабочая лошадка» всех современных рексистем, реализующая принцип «мудрости толпы». Мы пронаблюдаем как люди ведут себя в большом количестве ситуаций выбора, обучим модель, «впитывающую» из этих данных общие поведенческие паттерны, и будем ее использовать для прогнозирования уже на индивидуальном уровне, учитывая особенности конкретного пользователя и текущий контекст. Здесь, конечно, скрываются некоторые нюансы. Но о них расскажу уже в следующем посте.
👍185🔥5
Завершая короткую серию постов о прагматичном взгляде на определение AGI и его связи с методами коллаборативной фильтрации, остается ответить на вопрос: что же еще требуется, чтобы увидеть отражение такого взгляда в реальных приложениях? На мой взгляд, все необходимые компоненты для этого по отдельности существуют.

Методы коллаборативной фильтрации достигли такого уровня точности, что некоторым компаниям (запрещенным на территории РФ, поэтому называть не буду) приходилось даже принудительно занижать прогностические способности своих рекомендательных алгоритмов, чтобы не провоцировать у пользователей паранойю и навязчивые мысли о слежке. Вопрос моделирования долгосрочных интересов можно считать решенным при условии наличия достаточного объема поведенческих данных и доступа к ним.

Вопрос интерактивности и учета краткосрочных контекстов активно исследуется, и LLM играют в этом направлении исследований важную роль. Необходимо научиться строить персонализированную базу знаний об интересах пользователя и обеспечить сквозной механизм ее работы с долгосрочными представлениями модели. Кроме того нужен механизм динамического обновления такой базы на основе новых циклов получения обратной связи от пользователя в интерактивном режиме. В целом, такое решение чем-то напоминает связку LLM+RAG в диалоговых системах, но более продвинутую и принципиально нестационарную.

Что это дало бы? Например, в преддверии новогоднего праздника вы хотите послушать хорошую и подходящую музыку. Современные решения уже позволяют учесть контекст ваших прежних прослушиваний, но проблема возникнет сразу же, как только вы попытаетесь добавить нюансов. Например, «хочу новогоднюю музыку, но в стиле retrowave и без акцентных битов». Скорее всего виртуальный ассистент сломается уже на этапе попытки предоставить ему такую обратную связь, не говоря уже о том, чтобы ее правильно распарсить и отреагировать. Здесь я не буду останавливаться на том, что современные сервисы в принципе не предоставляют удобных инструментов для такого формата взаимодействия. Даже если намеки на такие настройки присутствуют, это запрятано так, что только самые пытливые и безутешные могут до этого добраться и понять, как воспользоваться.

Знаю, что в индустрии существует мнение, что такие инструменты и не нужны, что пользователям в большинстве случаев нужна лишь одна простая кнопка «сделай хорошо», и они не хотят ничего настраивать и изучать. Этот взгляд понятен и в текущих реалиях оправдан. Но мы просто еще не достигли того состояния, в котором эта самая настройка будет протекать естественным для пользователя образом в формате диалога с кем-то, кто тебя понимает с полуслова.

Как далеко мы от этого? Думаю, не очень далеко. Вопрос в том, как объединить все компоненты в end-to-end архитектуру. По стечению обстоятельств, в моей научной группе ведется исследовательская работа во многих из обозначенных выше направлений. Мы планомерно решаем связанные с ними задачи. Одной из миссий моей группы является формирование стэка технологий для создания интерактивных персональных интеллектуальных ассистентов. Что из всего описанного нам удастся реализовать – вопрос риторический. Но скучно, похоже, не будет.
🔥1465👍2
Для тех, кто следит за развитием рексистем, не новость, что сейчас проходит одна из ведущих международных конференций в этой области — ACM RecSys. У моей команды в этом году представлено 4 работы на этой конференции (1 статья в Reproducibility и 3 статьи в секции Late-breaking Results). О них я еще отдельно упомяну. Но пока напишу про занятное совпадение.

Буквально спустя час после моего предыдущего поста, на конференции прозвучал доклад от команды музыкального сервиса Deezer про использование LLM для построения «вкусового профиля» пользователя. Сам доклад был скорее про анализ возможных смещений в получаемом результате. Но авторы в том числе затронули и тему учета обратной связи от пользователя для формирования более точного описания его вкусов. Картинка в этом посте как раз иллюстрирует, что имеется в виду (автор доклада любезно предоставил ее мне по запросу и разрешил пользоваться).

Но итоговые результаты работы были как раз подтверждением озвученного мной тезиса — одной лишь LLM не обойтись. В частности, авторы показали, что LLM в целом плохо справляются с пониманием интересов пользователя. Исключения наблюдались лишь в двух случаях: для specialist users, т.е. пользователей с очень конкретными интересами и небольшой историей прослушивания, а также для пользователей старшего возраста, склонных слушать хорошо известные трэки. А вот для молодых пользователей сервиса, преимущественно слушающих что-то современное и имеющих нюансированные вкусы, создать точный профиль не удавалось.

Исследование Deezer наглядно показывает границы применимости LLM в реальных условиях. Большие языковые модели, с одной стороны, служат источником глубокого понимания мира, но с другой — не подходят напрямую для работы в высокодинамичных условиях, т.е. в естественной «среде обитания» рекомендательных систем. Для создания по-настоящему персональных ассистентов будущего потребуется более глубокая интеграция разных методов и подходов.
🔥136👍51👏1🏆1🦄1
Пришло время рассказать подробнее о наших активностях на конференции RecSys'25, о которых я упомянул ранее. Сегодня от нас будет устный доклад в исполнении двух моих аспирантов — Данила Гусака и Анны Володкевич. Название доклада начинается с интригующей фразы Time to Split.

Примечательна эта работа тем, что мы не просто улучшили очередной алгоритм, а предложили новый стандарт проведения экспериментов для всего направления рекомендательных систем при обучении на последовательностях. Была проделана кропотливая методологическая работа, напрямую нацеленная на повышение воспроизводимости исследований и надежности вывода моделей в продакшн.

Методология экспериментальной проверки традиционно является одним из слабых мест в области рексистем в силу целого ряда факторов. Это не только вносит неоднозначность в оценку результатов конкретных работ, но и в целом мешает понимаю прогресса во всей области. Добавление особых сценариев, таких как обучение на последовательностях, ещё больше осложняет ситуацию, создавая новые источники проблем и неоднозначностей.

В ходе предварительного анализа мы выявили, что порядка 90% статей с ведущих конференций последних лет используют нестрогие методики оценки. Это приводит к неконсистентным результатам и риску отбора заведомо неоптимальных решений, например, для последующего A/B тестирования. Для устранения этой системной проблемы мы предложили выверенный протокол для подготовки и разбиения данных и вычисления метрик качества. Не обошлось без неожиданных твистов, в которых корректный, на первый взгляд, выбор методологии на самом деле оказывается ненадежным. Подробнее про это читайте в нашей статье, либо можно послушать сегодня вживую в 12:50 по пражскому времени, если вы на конференции.

Отдельно отмечу, что результат был получен в ходе плодотворной совместной работы с Лабораторией ИИ Сбера, с которой мы тесно сотрудничаем. Помимо статуса Oral, работа была также отмечена экспертами, попав в топ-3 профильного дайджеста наряду с работами команд из Huawei и ByteDance.

вот такой рисерч
🔥16👍54👏1🎉1🏆1
Сегодня продолжаю освещать наши работы, принятые на конференции RecSys'25. Речь пойдет о 3 статьях, принятых в секции Late-breaking Results и представленных в формате постеров.

Рекомендательные системы во многом работают на основе построения неявных и неинтерпретируемых моделей принятия решений человеком. И поэтому многие механизмы работы рексистем можно понять и улучшить только правильно поставив эксперимент. В такую категорию попадает как уже упомянутая работа, так и следующая.

1. Recommendation Is a Dish Better Served Warm

Мы решили проверить, когда пользователь или товар перестают быть «холодными» — то есть когда данных о взаимодействиях становится достаточно для качественных рекомендаций алгоритмами коллаборативной фильтрации. До сих пор это определялось скорее интуитивно и порой даже противоречиво. Мы же провели масштабное численное исследование, которое позволяет определить данный порог активности более формально. Реализованная нами схема даёт возможность обоснованно переключаться между алгоритмами для «холодных» и «тёплых» объектов, что особенно важно в начале взаимодействия пользователя с сервисом. Подробнее уже у постера расскажут мои аспиранты – Никита Сухоруков и Данил Гусак.

Но, конечно же, не над всем в исследованиях рексистем главенствует эксперимент. Порой удается вначале обнаружить связь между теоретическими конструкциями и наблюдениями из реального мира, а затем уже подтвердить ее экспериментом. Одним из таких примеров является следующая работа.


2. Leveraging Geometric Insights in Hyperbolic Triplet Loss

Использование гиперболической геометрии имеет ряд преимуществ (конечно же, заслуживающих отдельного поста), что легло в основу целой серии работ от нас в этом направлении (раз, два, три). В представленной здесь работе мы заметили проблему в подходах на основе triplet-loss: иногда случайные нерелевантные товары оказывались ближе к пользователю, чем те, что ему действительно интересны. Чтобы это исправить, мы решили заменить функции расстояния на аналоги специального вида в гиперболическом пространстве. Это не только повысило качество рекомендаций, но и сделало модель более согласованной, избегая смешивания релевантных и нерелевантных объектов. Наш подход оказался лучше не только Евклидовых, но и других гиперболических моделей в рассматриваемом классе. Кроме того, наш подход также позволил повысить эффективность вычислений в гиперболической геометрии, чем не могут похвастаться большинство существующих решений. Главный автор – Вячеслав Юсупов – работающий под руководством Максима Рахубы и меня, не смог добраться до конференции, поэтому рассказывать о применении гиперболической геометрии в рексистемах буду я.

В заключение, ещё одна наша совместная работа с Лабораторией ИИ Сбера.

3. PNFRec: Modeling Explicit Positive and Negative Feedback

Стандартные рекомендательные модели часто игнорируют явные негативные сигналы от пользователя — скипы или дизлайки. Мы предложили архитектуру с двумя трансформерами: один учится на том, что нравится пользователю, другой — на том, что не нравится. Это позволяет явно противопоставлять позитивные и негативные паттерны, снижая количество рекомендаций, которые могут разочаровать пользователя. У постера будет моя аспирантка и главный автор работы – Вероника Иванова.

Если вы на конференции – приходите пообщаться.

вот такой рисерч
🔥14👍54🏆2❤‍🔥1👏1👀1
Неотъемлемая часть научной деятельности — делиться результатами исследований на профильных мероприятиях, конференциях, семинарах. И часто — говорить об одном и том же на разных площадках. Но я все еще порой ловлю себя на мысли: «Зачем повторяться? Все уже в курсе!». Так же иногда думают и мои подопечные, особенно начинающие. Но практика показывает: напоминать о значимых работах не только можно, но и нужно.

Очередным поводом задуматься на этот счет стало мое участие в конференции Сбера по рекомендательным системам. Но дело не в моем докладе. Несколько раз была затронута тема масштабирования трансформерных моделей для работы с большими каталогами. Проблема лежит на поверхности: чтобы ранжировать товары из огромного каталога, модель по сути решает задачу экстремальной классификации, где число классов равно числу товаров. Попытка вычисления полной кросс-энтропии в таком сетапе мгновенно исчерпает память даже самой современной GPU. Классический выход — аппроксимация. В небезызвестной модели SASRec авторы заменяют полную кросс-энтропию (CE) бинарной с сэмплированием отрицательных примеров (BCE). Этим достигается некоторый компромисс между нагрузкой на память и качеством модели. Но итоговый результат зачастую оказывается заметно слабее варианта с полной CE.

Над улучшением такой аппроксимации стали активно трудиться в последние годы. Уместно вспомнить подход gBCE Александра Петрова, реализующий поправки к сэмплированной BCE. Позднее командой Алексея Васильева был показан способ аппроксимации CE напрямую, реализующий механизм внутрибатчевого сэмплирования как в GRU4Rec. Об этом механизме было как раз упомянуто на конференции Сбера в докладе Дарьи Тихонович. В той же секции был и доклад Кирилла Хрыльченко об успехах в дальнейшем улучшении сэмплированной CE на основе корректирующей нормировки к софтмакс-распределению.

Но за кадром обсуждений остался еще один подход с принципиально другим взглядом на исходную постановку. Еще в 24-м году на конференции ACM RecSys 2024 мы показали, что проблему эффективного обучения на основе полной CE можно свести к задаче MIPS (Maximum Inner Product Search). Для ее решения мы применили рандомизированный подход (по заветам уже классической работы) и получили не только сокращение пиковой нагрузки, но и увеличение метрик качества. В частности, при качестве на уровне полной CE, наш подход Scalable CE (SCE) позволяет сократить нагрузку на память в 100 раз, заодно ускоряя обучение почти в 7 раз. А если есть возможность не ограничивать память — прирост метрик может составить до 18%. Это уже относительно SOTA-варианта сасрека на основе CE!

Почему же в 2025 году не звучат упоминания нашего подхода? Спишу это на то, что слишком мало повторял об успехах. Исправляюсь. Мы сами постоянно используем данный подход для эффективной утилизации наших ресурсов. Если и вам это кажется полезным, но не знаете с чего начать — посмотрите в наш репозиторий. Или обращайтесь напрямую — покажем, поможем донастроить под ваши нужды. Независимо от того, сотрудник вы компании, отвечающий за внедрение моделей в свой контур, или студент, поднимающий свой pet project — приходите, мы проконсультируем, поможем извлечь максимум из обучения. А если вы уже пробуете наш метод или только планируете, дайте обратную связь. Для нас это очень ценно.
14👍10🔥3💯2👏1🤩1🏆1