Интересное что-то
517 subscribers
2.72K photos
253 videos
138 files
4.52K links
Материалы и мысли, понадерганные отовсюду
Блог: https://t.me/asisakov_channel
Чат: https://t.me/youknowds_chat
Download Telegram
Forwarded from Sinекура
Недавно вышла работа о безопасности AI с >40 авторов из OpenAI, Anthropic, DeepMind, METR, Redwood Research, Meta, UK AI Security Institute, Apollo Research... Среди авторов — Йошуа Бенджи, Войцех Заремба, знаменитые "AI-безопасники" Нил Нанда, Анка Драган, Дэн Хендрикс, Виктория Краковна, среди "expert endorsers" — Джеффри Хинтон, Сэм Боумэн, Джон Шульман и Илья Суцкевер... На чём же все они смогли сойтись? Написал об этом пост, сюда выкладываю сокращённую версию:

Не выключайте прослушку: о важности CoT для интерпретируемости

Весь смысл статьи "Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety" сводится к тому, чтобы сказать разработчикам LLM: не отказывайтесь от простого советского человекочитаемого CoT (chain of thought, "листочек для записей" у рассуждающих моделей)! Почему?

Для AI safety очень важна интерпретируемость; я недавно писал об этом большой пост, а Дарио Амодеи — эссе "The Urgency of Interpretability"; интересующимся рекомендую как минимум второе, но буду рад, если прочитаете и первое. Успехи там есть, но не полные, до понимания того, как большая нейронная сеть принимает решения, нам ещё очень далеко.

И вот появляется CoT, который даёт максимально прямой путь: если модель "думает" на человеческом языке, мы можем буквально читать её мысли! И оказывается, что эти мысли пока что действительно правдивы, и мы действительно видим, что модель думает, даже в тех случаях, когда она потом решает нас обмануть!

Мониторинг CoT — уникальная возможность для обеспечения безопасности AI-систем. Например, Meincke et al. (2024) рассказывают о том, что модели уже способны преследовать скрытые цели, не признаваясь в этом, но CoT всегда всё выдаёт (рис. 2), а Baker et al. (2025) написали целую статью про CoT monitoring, и там тоже постоянно встречаются примеры, когда модель просто честно думает, что собирается делать, даже если в итоге финальные действия выглядят безобидно (рис. 3).

Это прекрасная возможность, но довольно хрупкая. Korbak et al. (2025) предупреждают о нескольких факторах, которые могут её разрушить.

Язык может стать непонятным из-за использования RL. При масштабировании обучения с подкреплением модели могут начать использовать всё менее понятные человеку "языки" для своих рассуждений (Korbak et al., 2022).

Оптимизация CoT, и прямая, и непрямая, портит его. Например, бывают process reward models (модели, оценивающие путь к решению в RL, а не только ответ), которые следят за тем, чтобы LLM не совершали "мыслепреступлений"; результатом этого, разумеется, может стать то, что модели просто не будут думать лишнего в открытом виде. К обфускации CoT может привести даже непрямая оптимизация вроде "давайте покажем CoT людям, которые оценивают результат в RLHF, и это повлияет на их оценки" (Baker et al., 2025).

Рассуждения в латентном пространстве не порождают CoT. Модели, способные проводить рассуждения в латентном пространстве без вербализации, могут полностью обойти необходимость в понятных человеку записях в "блокнотике". Это направление сейчас весьма активно развивается, кстати (Hao et al., 2024; Geiping et al., 2025).

Что же делать? Korbak et al. (2025) рекомендуют разработать эффективные метрики для того, насколько возможно следить за CoT (monitorability), а потом публиковать эти метрики и учитывать их. Кстати, в реальности не нужно, чтобы мониторинг срабатывал в 99% случаев, если его можно перезапускать несколько раз так, чтобы ошибки не слишком коррелировали; см., например, (Bhatt et al., 2025).

В философии сознания есть проблема: можем ли мы доверять тому, что кто-то говорит о своих мыслях? А здесь ещё и сами "мысли" являются результатом оптимизации. Модели могут порождать правдоподобные, но вводящие в заблуждение объяснения — и очень важно, чтобы мы никоим образом не пытались это поощрять. Скорее всего, человеческий язык — удобное, но не идеальное промежуточное представление, и для того, чтобы мониторинг CoT оставался возможным, нам нужно приложить нетривиальные усилия. Это окно в мышление LLM может закрыться быстрее, чем нам бы хотелось.
Forwarded from Sinекура
Хочется наслаждаться летом, но вместо этого постоянно дедлайн форсмажором погоняет. Нынешний форсмажор так и вовсе изрядно подрывает веру в человечество; с другой стороны, в итоге пришлось взять в руки шашки и попрограммировать самостоятельно, чем-то это даже и приятно.

В общем, несмотря ни на что (подобно Гомеру и Борхесу), наслаждаться летом всё равно стараюсь! И в этом направлении даже кое-что получается. :) Но писать много новых постов пока вряд ли буду, давайте вместо этого сегодня продолжим начатый в прошлый раз ностальгический обзор моего блога из Synthesis AI, который сейчас переезжает на мой сайт.

Driving Model Performance with Synthetic Data — большая серия, которая во многом потом вошла в книгу "Synthetic Data for Deep Learning" (естественно, в сильно расширенном виде). Здесь посты уже становятся побольше и посвящены разным вещам, так что перечислю их отдельно; серию я иллюстрировал через Мерилин Монро, но, кажется, в последнем посте что-то пошло не так.)

Part I: Augmentations in Computer Vision — про аугментации, Albumentations и всё такое прочее; самый простой, но и самый полезный на практике вид синтетических данных

Part II: Smart Augmentations — про то, как делать более умные аугментации, а именно о том, как автоматически настраивать лучшие возможные композиции аугментации, и о Mixup; состязательных аугментаций тогда ещё, кажется, не придумали, но они бы тоже попали именно сюда

Part III: Domain Adaptation Overview — какие бывают варианты того, как модель, обученную на одном виде данных, приспособить к другому; пути здесь (в 2021 году было) по сути два: refinement данных или adaptation самой модели

Part IV: Gaze Estimation and GANs — про статью от Apple, которая когда-то была фактически первым успешным примером именно synthetic-to-real data refinement: как GAN'ом перерисовать картинку так, чтобы синтетические картинки стали более реалистичными (и могли потом использоваться для gaze estimation, оценки направления взгляда)

Part V: Synthetic-to-Real Refinement — дальнейшее развитие этой идеи, обзор других подходов, тоже в то время почти неизбежно основанных на GAN'ах (да и сейчас в style transfer, кажется, GAN'ы ещё не умерли, в отличие от text-to-image)

Part VI: Real-to-Synthetic Data — а можно сделать и наоборот, реальные данные сделать более похожими на синтетику, чтобы лучше работала обученная на синтетике модель; этот сюжет, кажется, особого развития потом не получил, но переворот любопытный

Part VII: Model-Based Domain Adaptation — ну и собственно о том, как модель адаптировать; здесь в основном про основополагающую работу Ганина и Лемпицкого, где они обращали градиенты, и о том, как это потом развилось в domain separation networks

В общем, давно всё это было, но приятно было открыть ещё раз. В следующий раз анонсирую более "вечные" посты, надеюсь, будет интереснее.
Мемы с разных ракурсов от Seedance 1.0

Модель Seedance 1.0 позволяет генерировать видео на основе одного статичного фото с разными углами обзора камеры. Юзер Framer прогнал несколько мемов в качестве демонстрации технологии.

Пример промпта, который он использовал кину в комменты. Длительность видео составляет 5 секунд, стоимость генерации 0,15$. Автор пишет, что достаточно 1-3 попытки для такого результата.

Тред от того же чувака про персонажей знаменитых картины с разных ракурсов.