Интересное что-то

35 views13:30

Forwarded from rizzearch

Multi-Fidelity Policy Gradient Algorithms

если вы углублялись в концепцию полиси градиентов (ппо или рейнфорс например), то сталкивались с вопросом разброса такого обжектива, о чем уже достаточно давно говорят

еще критичнее это становится в относительно дорогих симуляторах (или же вообще непосредственно в реальном мире) с данными “высокого разрешения/точности”: из-за дисперсии надо дольше учиться, дольше гонять симулятор подороже, который еще и больше чувствителен к предиктивным ошибкам

но что если у нас есть возможность получать обедненные данные в бОльшем количестве (иначе смысла нет), так называемых low-fidelity environments, может ли это как-то помочь снизить нам разброс в градиент апдейтах?

и вот авторы смогли примерно что-то такое сделать из такого предположения. полиси обучаются при помощи high- & low-fidelity энвах, при том для обновления на более точных данных используется поправка с контрольной переменной, где вычитается скоррелированное слагаемое из основного приближения полиси градиента. и поскольку обедненная энва предполагает и того же агента, и примерно ту же динамику среды, то корреляцию можно считать выполненной (при том чем выше коррреляция тем сильнее эффект снижения дисперсии что интуитивно понятно)

обучали в такой манере рейнфорс и ппо - по результатам выглядит все довольно вкусно

- в 10 раз меньше можно использовать семплов из более крутой энвы по сравнению с бейзлайнами
- обучение становится стабильнее (просто потому что данных можно побольше нафигачить хоть и качества похуже)
- однако для скоррелированости нужно, чтобы у действий для обоих сред было одинаковое вероятностное пространство, то есть семплить действия в соответствии с одинаковым сидом (для непрерывных действий этому помогает reparametrization trick, для дискретных - Gumbel-max)

однако есть как раз-таки нюанс с вот этим low-fidelity энвами

- в качестве экспериментов обедненные среды делали просто упрощенными версиями таргет сред
- для картпола (который определяется диффуром второго порядка) - линеаризовали динамику
- для муджоко - инвертнули ревард, сохраняли 70%-90% гравитации изначальной среды

и по идее да, это более лайтовые энвы, но например в случае муджоко симуляция получается не прям дешевой-дешевой (из govna конфетку не получить). если же в качестве low-fidelity брать что-то совсем игрушечное, то корреляция между средами (спекулирую) сильно полетит и результаты могут получаться даже хуже бейзлайнов имхо (присказка для future work)

👀LINK

40 views13:30

Интересное что-то

#recommender #papers

36 views13:36

Интересное что-то

Forwarded from Персонализация неизбежна

Наша статья принята на SIGIR (конференция уровня A*) 2025 🎉!

Мы долго шли к этому моменту - и вот, наконец, наша с коллегами статья принята на SIGIR 2025, международную конференцию в Италии 🇮🇹! Это уже третья итальянская конференция за год, куда нам посчастливилось пройти.

SIGIR (Special Interest Group on Information Retrieval) — по данным Вики, проводится с 1978 года. Конференция в целом посвящена информационному поиску: обычный поиск, рекомендательные системы, ответы на вопросы по базам знаний и т. д.

Наша статья посвящена новому способу диверсификации (= внесения разнообразия) в выдачах. Он был придуман из практических соображений, после того как мы попробовали хорошо известные MMR и DPP. Про статью и наш метод напишу после публикации, пока же — пару мыслей про диверсификацию.

Откуда возникает потребность в диверсификации?

Представим, что у нас есть бустинг-ранкер, который ранжирует айтемы и формирует финальную выдачу. Скорее всего, важными окажутся следующие признаки:

1) Схожесть пользователя с айтемом.
2) Схожесть + счётчики взаимодействий между пользователем и категорией/жанром/типом айтема.
3) Схожесть + счётчики взаимодействий между кластером пользователя (соцдемом/другим) и категорией/жанром/типом айтема.
4) Счётчики по категории/жанру/типу айтема.

Пусть среди айтемов-кандидатов есть 300 смартфонов. Тогда все 4 типа признаков у этих 300 телефонов будут примерно одинаковы! И если ранкер присвоит хоть одному смартфону высокий скор, то и остальным 299 смартфонам придётся выставить столь же высокие скоры (если другие группы фичей не позволят их различать).

Теперь представим, что мы играем с пользователем в «Поле чудес». Пользователь загадывает слово (где буквы — его интересы), а мы угадываем его, предлагая айтемы в ленте. В этом случае лента с 300 смартфонами без диверсификации — это как если бы мы называли одну и ту же букву снова и снова. Даже если пользователь говорит «нет» (= не взаимодействует с ними), мы продолжаем предлагать ему ту же самую «букву». Чтобы использовать попытки разумнее, можно попробовать назвать что-то менее вероятное, но зато другое. Тогда шанс угадать вырастет.

В целом, MMR и DPP — это эвристики, которые помогают «играть» в эту игру эффективнее, если у нас есть оценки релевантности айтемов и функции сходства между ними. Без таких эвристик система может составлять ленту из полностью однотипного контента, потому что обычно скоры рекомендаций рассчитываются для каждого айтема независимо. Когда модель рекомендует смартфон на 50-й позиции, она не знает, что выше уже было 49 смартфонов, и поэтому всё так же уверена, что 50-му нужно присвоить высокий скор.

Кому интересно копнуть чуть глубже в моделирование для автоматической диверсификации - советую прочитать статью 2024 года от LinkedIn и статью про Generative Next-Basket Recommendation от Tencent (постер скину в комментариях). Однако на практике, кажется, пока не существует хорошего автоматического диверсификатора, который был бы широко распространён и не являлся бы эвристикой.

44 views13:36

Интересное что-то

#llm #petproject

41 views13:46

Интересное что-то

Forwarded from Синтографист

Превратите любой текст в умные, действенные заметки . Идеально подходит для студентов, исследователей и профессионалов, которым нужно быстро извлечь ценность.

✨ Основные характеристики

📝 Анализируйте тексты любой длины (статьи, отчеты, стенограммы)
🚀 Создавайте неограниченное количество заметок с помощью ИИ
🔍 Интеллектуальное обнаружение ключевых слов и выделение контекста
📂 Экспорт в форматах Markdown, JSON и Text
⚡ Приоритетный доступ к поддержке
🎯 Почему вам это понравится

Студенты: «Погружены в учебу? Text2Note быстро схватывает ключевые концепции».
Юристы: «Каждая строка имеет решающее значение? Мы отмечаем прецеденты и обязательные к знанию пункты».
Разработчики: «Документация раздута? Мгновенно извлекает спецификации API и фрагменты кода».
Дизайнеры: «Интервью пользователя — это беспорядок? Выявляет скрытые болевые точки».
Исследователи: «Тонем в статьях? Вытаскиваем методологии и выводы».
Умные заметки, никаких усилий. Просто вставьте и вперед. text2note.com

Text2Note

Text2Note - Convert Text to Notes

Convert text to notes with AI-powered analysis. Automatically highlights key information, summarizes paragraphs, and extracts insights from research papers, books, and reports. Free trial for 1 month.

50 views13:46

Интересное что-то

#recommender #papers

48 views13:50

Интересное что-то

Forwarded from РИСЕРЧОШНАЯ

✅

YouTube выкинул item ID и поднял качество рекомендаций. Почему это сработало?

Недавно наткнулся на статью с RecSys 2024 — Better Generalization with Semantic IDs. Ребята из Google Research разобрали, как улучшить рекомендательные системы, чтобы они не тупили на новых или редких объектах.

📥

Проблема старая, как мир
Обычно в РС каждому видео или товару дают случайный ID — просто номерок, за которым стоит эмбеддинг. Модель запоминает, что популярно, и круто ранжирует хиты. Но стоит появиться новому видео или нишевому контенту — всё, привет, она теряется. Почему? Потому что ID ничего не говорит о смысле: два похожих ролика для модели — как чужие. Плюс таблицы эмбеддингов раздуваются до миллиардов строк, а хеширование ID в кучу только добавляет шума.

😊 Что придумали?
Авторы предложили Semantic IDs — коды, которые не просто числа, а отражают содержание. Берут контент видео (аудио, картинку), прогоняют через нейронку (VideoBERT), получают вектор, а потом сжимают его в 8 коротких кодов с помощью RQ-VAE. Главное — похожие видео получают похожие коды. Например, два ролика про котиков будут частично совпадать, и модель это поймет.

Сначала коды генерят и замораживают, а потом пихают в ранжирующую модель YouTube. Есть два варианта: разбить коды на кусочки (N-граммы) или сделать умное разбиение через SentencePiece (SPM). SPM оказался круче — он сам решает, где склеить частые комбинации, а где оставить детали для редких видео.

Тестили на миллиардах видео YouTube. Обычные контентные эмбеддинги без ID провалились — модель забыла популярное. А вот Semantic IDs дали прирост: новые видео (cold-start) стали ранжироваться лучше, редкие тоже, а хиты не пострадали. SPM вообще показал себя звездой — гибко балансирует между запоминанием и обобщением.

⭐ Что это значит?
С такими ID модель не просто зубрит, а понимает связи между контентом. Новое видео про котиков сразу подхватывает опыт старых — и в топ! Плюс экономия памяти: вместо миллиардов эмбеддингов — тысячи осмысленных кодов. Масштабируется на ура.

🌸 Куда дальше?
Можно прикрутить это к профилям юзеров, улучшить кодировщик или даже замиксовать с генеративными рекомендациями. Короче, будущее РС — за умными ID, которые не просто цифры, а смысл.

➡️

Статья тут

Что думаете, зайдет такой подход в реальной жизни?

#RESEARCH #RECSYS

Please open Telegram to view this post

VIEW IN TELEGRAM

51 views13:50

Интересное что-то

#startup

53 views13:59

Интересное что-то

Forwarded from Пресидский залив

Что самое главное в b2c маркетинге? 💻

Как вы наверное заметили, я не маркетолог 😅 Но в стартапе иногда приходится делать все и сразу, поэтому сейчас я занимаюсь в том числе этим направлением. Мой подход довольно фундаментальный - я верю, что везде, и в кодинге, и в маркетинге должна быть система и фреймворк, а не "я так чувствую" или "делаю по опыту" особенно когда этого опыта нет 🐵

👀 Поэтому чем больше изучаю эту тему, общаюсь с другими фаундерами, CPO и CMO, тем больше убеждаюсь, что самое важное - это не бюджет и не количество креаторов, а:

- Четкое понимание ценности продукта для пользователей
- Трендвотчинг

Если с первым все индивидуально и требует глубокого погружения в продукт, то со вторым есть общий фреймворк, который значительно снижает рандомность и помогает привлекать именно ту аудиторию, которая вам нужна. И это работает на любой площадке: инста, тик ток, шортс, что угодно 🙂

Лично мне невероятно помогла разобраться в этой теме Саша - наш эдвайзор по маркетингу, которая умеет разложить все по полочкам: от трендвотчинга до стратегий роста. Сейчас у нее небольшое агентство, и она фокусируется на стартапах, выходящих на US и Европу.

Например, для американского бьюти-бренда с фаундером из снг она разработала коммуникационную стратегию, которая попала прямо в сердце аудитории: себестоимость контента снизилась в 3 раза, а один из роликов набрал 55М просмотров ⚡️

Если вы ищете мощную экспертизу в маркетинге, трендвотчинге и стратегиях роста на западные рынки, очень рекомендую обратиться к Саше

😎

Кстати, а вот и тот самый гайд по трендвотчингу 🤝

Please open Telegram to view this post

VIEW IN TELEGRAM

58 views13:59

Интересное что-то

#rl #llm #papers

51 views14:14

Интересное что-то

Forwarded from я обучала одну модель

🤔

There May Not be Aha Moment in R1-Zero-like Training — A Pilot Study

- Здесь аналогичное наблюдение, что "Aha moment" (которое в статье про r1 преподносилось как доказательство emergent capability к рефлексии своего ответа) наблюдается и до обучения, особенно у моделей Qwen и особенно при высоких температурах
- При этом, в base models (без RL-дообучения) эти размышления большую часть времени не приводят к правильному ответу или исправляют ответ на неправильный в ходе решения (это оценивали по Qwen2.5-Math-1.5B, но хотелось бы увидеть и модель побольше если честно)
- Еще одно наблюдение про связь длины ответа и reasoning capabilities: в своем эксперименте с возспроизведением тренировки r1 авторы показываеют, что на начальных шагах обучения модель больше всего выбивает реворд из следования формату, так как это выучить проще всего. В течение этой стадии, средняя длина ответа падает. Дальше модель начинает пытаться получать более высокий реворд за счет правильных ответов. Здесь длина генераций начинает расти, так как модель предепринимает много попыток прийти к правильному решению за раз. Как побочный эффект появляются и superficial self-reflections, когда модель рассуждает долго, но к правильному ответу не приходит, из-за такого специфичного misalignment. Получается, что все правильные ответы достигаются при длинных рассуждениях, и модель учится генерировать много, но не обязательно правильно
- При этом, дополнительно авторы показывают, что с длиной ответа не растет число self-reflection keywords вроде "check again", "let's verify" и так далее. До есть длина ответа снова получается не гарант того, что модель чему-то полезному научилась

Это как будто порождает еще больше новых вопросов касательно того, за счет чего скоры в ходе RL-тренировки продолжают расти, если увеличивается только длина, но не объем какой-то полезной саморефлексии. Может быть, наиболее правильные и выигрышные цепочки рассуждений просто требуют больше текста, даже если он не разбивается на большее число повторений "let's revisit our solution" и подобных? И можно ли найти тогда оптимальную длину ответа, при которой уже есть какое-от насыщение от ризонинга, и остановиться тогда на ней, вместо того, чтобы дальше скейлить число токенов?

🤔

SFT Memorizes, RL Generalizes: A Comparative Study of Foundation Model Post-training

Очень хорошая статья, тем более обожаю когда выводы в названии. Еще там необычные задачи для RL – карточная игра и визуальная задача по навигации по картам – обе из которых можно решить в pure language и vision-language формате
- SFT и для языковой, и для VLM модели лучше себя показывает, когда нужно просто выучить правила какой-нибудь игры, но только RL оказывается способен генерализоваться достаточно, чтобы решать out of distribution вариации задачи
- Но при этом SFT очень нужен, если модель изначально плохо следует формату или инструкциям – тогда RL просто не заводится
- RL скейлится с числом verification steps на инференсе, что уже в принципе было понятно из тех же экспериментов NVIDIA с генерацией cuda kernels по кругу, добавляя фидбек от модели-критика в промпт. Но теперь на это есть целая академическая ссылка ✏️

Для меня эта статья объясняет немного успех SFT-файнтюна на reasoning traces в стиле s1, о котором я писала парой постов выше. Если стартовать с уже неплохой модели (Qwen) и трениться, как это обычно делают, на математике, то ожидаемо вырастут скоры на математическихх и кодерским бенчах, на которые сейчас все смотрят. Но вряд ли из этого получится модель класса o1 / r1 в целом

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

67 views14:14

Интересное что-то

#llm

57 views14:57

Интересное что-то

Forwarded from LLM под капотом

SO CoT - самый полезный паттерн при создании продуктов с LLM под капотом

Так выходит, если судить по комментариям в моем прошлом опросе.

Я обещал расписать самый полезный паттерн постом в канале. Поскольку сам ответ не влазит в масштаб и формат поста, вот вам две статьи с более подробным описанием и примерами:

- Structured Output (SO): https://abdullin.com/structured-output/
- Custom Chain of Thought (SO CoT): https://abdullin.com/custom-chain-of-thought/

Ваш, @llm_under_hood 🤗

64 views14:57

Интересное что-то

#interesting

57 views09:28

Интересное что-то

Forwarded from Валентин Бочкарёв

Как получить магистратуру по Computer Science в топовом вузе США без переезда и лишних трат (и почему я в итоге отказался)

Я уже работал в IT, писал код в Barclays, но у меня была четкая цель — попасть в Microsoft. Я знал, что это не будет просто, поэтому плотно готовился: учил алгоритмы, разбирал задачи, шлифовал резюме.

Меня 6 раз рефералили в Microsoft, и 5 раз мне отказывали на этапе резюме. Это было странно, потому что я не просто на коленке резюме писал, а консультировался с профессионалами, разбирал каждую деталь. Но отказы продолжались.

В какой-то момент я начал задаваться вопросом: а может, проблема не в резюме, а в образовании?

У меня инженерный бэкграунд, но не Computer Science. И хотя я уже работал в индустрии, у меня засела мысль: а вдруг рекрутеры просто срезают меня по этому критерию?

И тут я подумал: а что, если получить CS-образование?

⸻

Можно ли получить американский диплом по CS онлайн?

Я начал искать варианты и наткнулся на удивительную штуку: оказывается, несколько топовых американских университетов предлагают магистратуру по CS онлайн. Не какие-то сомнительные курсы, а полноценный Master’s Degree с дипломом.

Я сразу решил, что если и учиться, то только в американском вузе – раз я хочу в американскую компанию, то и образование должно быть соответствующее.

И тут я нашел идеальный вариант – Georgia Tech (Georgia Institute of Technology).

💡 Почему Georgia Tech?
✔ Высокий рейтинг:
• Топ-40 среди всех вузов США.
• Топ-10 среди государственных университетов.
✔ Цена – просто космос (в хорошем смысле): вся магистратура стоит $7,000, а не $50-70K, как у других вузов.
✔ Полностью онлайн: можно учиться, не переезжая в США.
✔ Гибкость: можно учиться в своем темпе, брать паузы.
✔ Можно приехать на выпускной и получить диплом на церемонии, как в американских фильмах.

Я подумал: ну все, это оно! Начал изучать процесс поступления.

⸻

Как поступить в OMSCS в Georgia Tech?

📌 Дедлайны:
• Осенний семестр – до 1 марта.
• Весенний семестр – до 15 августа.

📌 Что нужно для поступления?
✔ Диплом бакалавра (желательно в CS, но не обязательно).
✔ GPA 3.0 и выше.
✔ TOEFL / IELTS (если ты не учился в англоязычном вузе).
✔ Три рекомендации (от коллег, преподавателей).

😎 GRE сдавать не нужно!

После поступления нужно в первый год пройти два базовых курса и сдать их на B или выше – это что-то типа теста на прочность.

⸻

Как проходит обучение?

👨‍🎓 Для получения диплома нужно 30 кредитных часов (примерно 10 курсов).

🔹 Можно выбрать специализацию:
• Machine Learning
• Computing Systems
• Robotics & AI
• Interactive Intelligence

🔹 Темп обучения – как хочешь:
• 1 курс за семестр → закончишь за ~3,5-4 года.
• 2 курса за семестр → можно уложиться в 2-2,5 года.
• Можно делать перерывы, но всё нужно закончить за 6 лет.

💰 Стоимость:
• $195 за кредитный час.
• Тех. сбор – $107 за семестр.
• Вся магистратура ~$7,000 (что для США — просто подарок). Например, та же программа в очном формате стоит порядка $60,000.

⸻

Почему я в итоге не поступил?

Я был настолько замотивирован, что уже начал готовиться к TOEFL, чтобы податься в следующий прием.

Но… внезапно мне пришло приглашение на собеседование в Microsoft.

Вы сами понимаете, все приоритеты мгновенно изменились. Я переключился на подготовку к собеседованию, и в итоге… я его прошел.

Магистратура уже не была нужна – цель-то была достигнута.

⸻

Вывод

Если у вас нет CS-образования, но хочется американский диплом без переезда и за нормальные деньги, Georgia Tech OMSCS – топовый вариант.

Мне он в итоге не пригодился, но сам факт, что можно получить американскую магистратуру по CS онлайн за $7,000, – это очень крутая возможность, о которой мало кто знает.

Если эта возможность вас заинтересовала, вот несколько статей от выпускников программы, которые мне попадались, когда я глубже изучал этот вопрос.

https://habr.com/en/articles/645663/

https://habr.com/en/articles/682310/

Официальный сайт Georgia Tech, где помимо онлайн-магистратуры по Computer Science также доступны:
• Online Master of Science in Analytics

68 views09:28

About

Blog

Apps

Platform