Self-Supervised Diffusion Processes for Electron-Aware Molecular Representation Learning
Нейронки для молекул обычно имеют доступ только к геометрической структуре молекулы. Ничего больше, только атомные числа и позиции. Авторы метода DELID считают, что мы может относительно легко получить информацию на электронном уровне, которая может нам получить хорошие репрезентации. Давайте посмотрим как это сделать с помощью диффузий!
Идея DELID заключается в том, чтобы получить неизвестную информацию о электронах исходя из формулировки вариационной диффузии. Изначальную молекулу бьют на части с помощью фрагментации. Это есть неполная информация о молекуле, некое информативное априорное распределение. Из него с помощью диффузионного процесса мы пытаемся получить исходную молекулу. Вторая диффузия пытается сделать тоже самое только на неизвестной электронной информации. Скажете, а как мы будем это учить все, когда у нас вообще нет таргета? Тут конечно, не прямо нет таргета, а дело в том, что для отдельных фрагментов авторы берут информацию из открытых химических баз, что позволяет не использовать тяжелые квантовохимические вычисления для всей молекулы. Таргет свойство предсказывается как сумма выхода отдельного энкодера и электронной информации с диффузионного процесса
Итого, имея две диффузии, авторы выражают оптимизационную задачу через информацию связности (атомарные признаки остаются прежними) и нижнюю границу для log-правдоподобия электронной информации без четкого таргета. Эксперименты включают в себя популярные датасеты для 2D молекул: Lipop, ESOL, ADMET и другие
Метод прикольный. Но, конечно метод не прям self-supervised, просто мы понимажаем сложность вычисления информации через фрагментацию. Приняли на ICLR 2025
👀 LINK
Нейронки для молекул обычно имеют доступ только к геометрической структуре молекулы. Ничего больше, только атомные числа и позиции. Авторы метода DELID считают, что мы может относительно легко получить информацию на электронном уровне, которая может нам получить хорошие репрезентации. Давайте посмотрим как это сделать с помощью диффузий!
Идея DELID заключается в том, чтобы получить неизвестную информацию о электронах исходя из формулировки вариационной диффузии. Изначальную молекулу бьют на части с помощью фрагментации. Это есть неполная информация о молекуле, некое информативное априорное распределение. Из него с помощью диффузионного процесса мы пытаемся получить исходную молекулу. Вторая диффузия пытается сделать тоже самое только на неизвестной электронной информации. Скажете, а как мы будем это учить все, когда у нас вообще нет таргета? Тут конечно, не прямо нет таргета, а дело в том, что для отдельных фрагментов авторы берут информацию из открытых химических баз, что позволяет не использовать тяжелые квантовохимические вычисления для всей молекулы. Таргет свойство предсказывается как сумма выхода отдельного энкодера и электронной информации с диффузионного процесса
Итого, имея две диффузии, авторы выражают оптимизационную задачу через информацию связности (атомарные признаки остаются прежними) и нижнюю границу для log-правдоподобия электронной информации без четкого таргета. Эксперименты включают в себя популярные датасеты для 2D молекул: Lipop, ESOL, ADMET и другие
Метод прикольный. Но, конечно метод не прям self-supervised, просто мы понимажаем сложность вычисления информации через фрагментацию. Приняли на ICLR 2025
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥5
Steering Your Generalists: Improving Robotic Foundation Models via Value Guidance
широко известные в особо узких кругах авторы из беркли, карнеги меллона и дипмаинд забубенили Q-value функцию для роботик политик, которая работает в black-box манере и не требует файнтюна
в принципе они это сделали, потому что на их опытах с клешней опенсурс модели (OpenVLA, octo, RT-X) - где в том числе есть и диффузионное окто, а не только классические трансформер-based политики - выдают не очень качество: либо не могут поднять предмет, либо не так уж и точно его кладут, либо не могут отпустить (в принципе с клешней вроде как других проблем не может быть, если не считать совсем неадекватные)
вполне разумное и наиболее вероятное предположение - проблема в датасете, ведь там присутствуют mixed quality данные → в рльке такая проблема решается выставлением реварда и обучением функции значимости для адаптации к такому
ну вот авторы поэтому такое и сделали: под капотом скрывается резнет с muse (хз как и зачем откопали, еще и на тензорфлоу) как картиночные и текстовые энкодеры соответственно. объединяются они же через FiLM (который иногда выручает)
обучали на bridge & fractals датасетах → поскольку хочется использовать одного критика (функции значимости, Q функции) сразу на любую робо политику, то желательно чтобы она хорошо генерализовалась на ООД действия и все такое → обучать надо в оффлайн манере при помощи Cal-QL (потому что метод правда прикольный, ну и первый автор этой работы так же основной автор этого оффлайн рл метода. в аппендиксе так же добавили инфу, что и на iql все тоже хорошо заводится). ревард же получали через метки -1/0, где нуль был у нескольких последних степов в траектории
а в пайплайн же этот критик встраивается через категориальное распределение по семплированным из политики действиям + так же в этом распределении интересную интуицию несет параметр температуры: трейдофф между тем, как сильно мы доверяем политике и тем, как сильно мы полагаемся на критика
в аблациях так же есть измерение по прибавке ко времени инференса. авторы утверждают, что оверхед некритичный
👀 link, code, demo
широко известные в особо узких кругах авторы из беркли, карнеги меллона и дипмаинд забубенили Q-value функцию для роботик политик, которая работает в black-box манере и не требует файнтюна
в принципе они это сделали, потому что на их опытах с клешней опенсурс модели (OpenVLA, octo, RT-X) - где в том числе есть и диффузионное окто, а не только классические трансформер-based политики - выдают не очень качество: либо не могут поднять предмет, либо не так уж и точно его кладут, либо не могут отпустить (в принципе с клешней вроде как других проблем не может быть, если не считать совсем неадекватные)
вполне разумное и наиболее вероятное предположение - проблема в датасете, ведь там присутствуют mixed quality данные → в рльке такая проблема решается выставлением реварда и обучением функции значимости для адаптации к такому
ну вот авторы поэтому такое и сделали: под капотом скрывается резнет с muse (хз как и зачем откопали, еще и на тензорфлоу) как картиночные и текстовые энкодеры соответственно. объединяются они же через FiLM (который иногда выручает)
обучали на bridge & fractals датасетах → поскольку хочется использовать одного критика (функции значимости, Q функции) сразу на любую робо политику, то желательно чтобы она хорошо генерализовалась на ООД действия и все такое → обучать надо в оффлайн манере при помощи Cal-QL (потому что метод правда прикольный, ну и первый автор этой работы так же основной автор этого оффлайн рл метода. в аппендиксе так же добавили инфу, что и на iql все тоже хорошо заводится). ревард же получали через метки -1/0, где нуль был у нескольких последних степов в траектории
а в пайплайн же этот критик встраивается через категориальное распределение по семплированным из политики действиям + так же в этом распределении интересную интуицию несет параметр температуры: трейдофф между тем, как сильно мы доверяем политике и тем, как сильно мы полагаемся на критика
в аблациях так же есть измерение по прибавке ко времени инференса. авторы утверждают, что оверхед некритичный
👀 link, code, demo
🔥3❤2
Vision-Language Models Provide Promptable Representations for Reinforcement Learning
беркли и дипмаинд решили использовать VLM в довольно нетривиальном виде для рл - вместо того, чтобы подавать эмбеддинги влмки в ответ на текстовый запрос о действии напрямую в политику, авторы привносят то, что они называют promptable representations через текст и CoT, которые пытаются раскрыть world knowledge из модели.
то есть их метод не является instruction-following, а задает контекстуальный бекграунд (что бы это ни значило) в рамках рл формулировки
например - в майнкрафте они тестировали таску “грохнуть паука”. для этого они выдают в влм не текст “убей паука”, а что-то типа “пауки в майне черные, сейчас на кадре есть паук?”, что позволяет получить (интуитивно) более обобщенные репрезентации, которые полезны для мульти-таск сетапа и (возможно) более эффективного обучения
почему так? да потому что в принципе VLM (в данном случае InstructBLIP и PrismaticVLM) не обучены на то, чтобы принимать действия в среде (иначе это было бы VLA), а следовать инструкциям и отвечать на вопросы о картинках → так давайте и спрашивать про визуальную составляющую и семантику наблюдаемых действий, нежели сходу просить предпринять действие (это пусть решает политика)
модно-молодежно: показывают и оч жесткий sample-efficiency по сравнению с сотой на майнкрафте, мол в 10 раз меньше данных надо. верим, но имеем в виду что довольно сильно рaзнятся методы обучения
большой пункт для future work может заключаться в том, что эти промптабл промпты очень сильно подогнаны под евал среды (есть ли на картинке из майнкрафта паук)
👀 link, code (в виде юпитер ноутбука мда)
если что VLM используют активно и в роботике - например здесь
беркли и дипмаинд решили использовать VLM в довольно нетривиальном виде для рл - вместо того, чтобы подавать эмбеддинги влмки в ответ на текстовый запрос о действии напрямую в политику, авторы привносят то, что они называют promptable representations через текст и CoT, которые пытаются раскрыть world knowledge из модели.
то есть их метод не является instruction-following, а задает контекстуальный бекграунд (что бы это ни значило) в рамках рл формулировки
например - в майнкрафте они тестировали таску “грохнуть паука”. для этого они выдают в влм не текст “убей паука”, а что-то типа “пауки в майне черные, сейчас на кадре есть паук?”, что позволяет получить (интуитивно) более обобщенные репрезентации, которые полезны для мульти-таск сетапа и (возможно) более эффективного обучения
почему так? да потому что в принципе VLM (в данном случае InstructBLIP и PrismaticVLM) не обучены на то, чтобы принимать действия в среде (иначе это было бы VLA), а следовать инструкциям и отвечать на вопросы о картинках → так давайте и спрашивать про визуальную составляющую и семантику наблюдаемых действий, нежели сходу просить предпринять действие (это пусть решает политика)
модно-молодежно: показывают и оч жесткий sample-efficiency по сравнению с сотой на майнкрафте, мол в 10 раз меньше данных надо. верим, но имеем в виду что довольно сильно рaзнятся методы обучения
большой пункт для future work может заключаться в том, что эти промптабл промпты очень сильно подогнаны под евал среды (есть ли на картинке из майнкрафта паук)
👀 link, code (в виде юпитер ноутбука мда)
❤3
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤14👍3 3
Can LLMs Maintain Fundamental Abilities under KV Cache Compression?
уже мы писали и про сжатие (например тут и тут), и про компрессию кв кэша в том числе, включая идею с ретривал головами и аттеншн синками
а авторы из китая этой статьи решили уточнить момент, что в основном при компрессии кэша происходит проверка на длинных контекстах как лонгбенч или иголка в сене
и, как оказывается, эта неполная картина скрывает факт того, что начинают хериться другие способности модели
- арифметика и language understanding (которые проверялись при помощи GSM8K & MMLU) начинают сбоить
- при том с уменьшением длины промпта просадка по качеству ощущается еще больше (имхо потому что и так становится меньше ключей/значений, за которые можно зацепиться, так мы еще и сверху их урезаем)
- так еще и по таскам, где сильная зависимость от промптированной информации (нельзя выехать за счет knowledge которая непосредственно присутствует в весах модели) очевидно наблюдается деградация с учетом пунктов выше
- но при этом дипсик чуть получше при этом всем выступает чем альтернативы в виде лламы
- еще выявлен эвиденс о том, что chunk-based методы компрессии медленнее деградируют при сравнении с другими → можно использовать этот факт (чтобы сделать папиру не только с результатами о том как что-то не получается у existing methods но и предложить свой хайповый сота момент)
назвали метод The ShotKV (Prefill-Decoding Separated Shot-aware KV Cache Compression), который проверяли на трех моделях 8б (в принципе как и другие методы компрессии): ллама 3.1 классическа, инструктированная и дипсик-р1-дистилл
идея такая - давайте для few-shot примеров оставлять статичный сжатый кв кэш, а именно расчитывать самые значимые примеры (по аттеншн скорам) и оставлять только их, не вылезая за часть бюджета и оставим ее фиксированной
а вторую часть бюджета будем динамически обновлять, оставляя только самые важные сгенерированные токены, где важность так же будет определяться по аттеншн скору
и вроде сохраняется концепция компрессии по чанкам, и в то же время присутствует постоянная адаптация из-за перевычислений скоров декодированных токенов
по их результатам конечно типо обгоняют, но кода нет и видимо не планируется
👀LINK
уже мы писали и про сжатие (например тут и тут), и про компрессию кв кэша в том числе, включая идею с ретривал головами и аттеншн синками
а авторы из китая этой статьи решили уточнить момент, что в основном при компрессии кэша происходит проверка на длинных контекстах как лонгбенч или иголка в сене
и, как оказывается, эта неполная картина скрывает факт того, что начинают хериться другие способности модели
- арифметика и language understanding (которые проверялись при помощи GSM8K & MMLU) начинают сбоить
- при том с уменьшением длины промпта просадка по качеству ощущается еще больше (имхо потому что и так становится меньше ключей/значений, за которые можно зацепиться, так мы еще и сверху их урезаем)
- так еще и по таскам, где сильная зависимость от промптированной информации (нельзя выехать за счет knowledge которая непосредственно присутствует в весах модели) очевидно наблюдается деградация с учетом пунктов выше
- но при этом дипсик чуть получше при этом всем выступает чем альтернативы в виде лламы
- еще выявлен эвиденс о том, что chunk-based методы компрессии медленнее деградируют при сравнении с другими → можно использовать этот факт (чтобы сделать папиру не только с результатами о том как что-то не получается у existing methods но и предложить свой хайповый сота момент)
назвали метод The ShotKV (Prefill-Decoding Separated Shot-aware KV Cache Compression), который проверяли на трех моделях 8б (в принципе как и другие методы компрессии): ллама 3.1 классическа, инструктированная и дипсик-р1-дистилл
идея такая - давайте для few-shot примеров оставлять статичный сжатый кв кэш, а именно расчитывать самые значимые примеры (по аттеншн скорам) и оставлять только их, не вылезая за часть бюджета и оставим ее фиксированной
а вторую часть бюджета будем динамически обновлять, оставляя только самые важные сгенерированные токены, где важность так же будет определяться по аттеншн скору
и вроде сохраняется концепция компрессии по чанкам, и в то же время присутствует постоянная адаптация из-за перевычислений скоров декодированных токенов
по их результатам конечно типо обгоняют, но кода нет и видимо не планируется
👀LINK