Как я писал раньше, блог Synthesis AI должен будет превратиться в блог Mach Labs, но последнего как-то пока всё не появляется. Но в любом случае мы договорились, что свои старые посты я сохраню самостоятельно, перенеся их на свой собственный сайт.
На выходных начал заливать старые посты в блог на сайте. К сожалению, оказалось, что хотя и тот и другой блог в WordPress, это не просто export и import, технической работы при переносе довольно много. С другой стороны, постов не то чтобы безграничное количество, так что я уже дошёл до начала мега-серии про generative AI.
Поностальгировал знатно. Конечно, большинство этих постов (кроме исторических) уже вряд ли интересны по существу, но прикольно было вспомнить, как оно было пять лет назад. Давайте я попробую и вам напомнить, но разобью на несколько постов — у меня сейчас по свежему материалу затишье, а тут прямо много всего, вдруг будет интересно.
Вот какие посты и мини-серии были в 2020 году (даю уже ссылки на новый сайт); здесь всё про синтетические данные, главный фокус Synthesis AI.
— The Data Problem (Part I, Part II, Part III, Part IV; рис. 1): зачем вообще нужны синтетические данные, в чём "the data problem" у моделей машинного обучения (сейчас в контексте LLM, кстати, она опять актуальна, но это отдельный разговор);
— Synthetic Data: The Early Days (Part I, Part II; рис. 2): история синтетических данных в машинном обучении с 1960-х годов;
— Synthetic Data for Robots (Part I, Part II; рис. 3): почему синтетические симуляторы необходимы в роботике (это до сих пор, конечно, так и есть); первая часть опять же начинает с ранней истории, с того самого Stanford Cart, любопытно было вспомнить;
— Synthetic Data Research Review: Context-Agnostic Cut-and-Paste (рис. 4): промежуточный пост об одной важной (тогда) статье;
— Object Detection with Synthetic Data (Part I, Part II, Part III, Part IV, Part V; рис. 5): длинная серия о том, как синтетические данные используются для распознавания объектов; в первой части говорю о том, что это за задача такая вообще (обвести объекты в bounding boxes), а потом в основном обсуждаю существующие синтетические датасеты для object detection и последние (в 2020) результаты.
Наверное, хватит для начала.) Если будет желание, посмотрите особенно исторические посты и первые части серий, их вполне можно читать и сейчас. Ну и, конечно, всё это было тесно связано с моей книгой "Synthetic Data for Deep Learning", но это уже совсем другая история.
На выходных начал заливать старые посты в блог на сайте. К сожалению, оказалось, что хотя и тот и другой блог в WordPress, это не просто export и import, технической работы при переносе довольно много. С другой стороны, постов не то чтобы безграничное количество, так что я уже дошёл до начала мега-серии про generative AI.
Поностальгировал знатно. Конечно, большинство этих постов (кроме исторических) уже вряд ли интересны по существу, но прикольно было вспомнить, как оно было пять лет назад. Давайте я попробую и вам напомнить, но разобью на несколько постов — у меня сейчас по свежему материалу затишье, а тут прямо много всего, вдруг будет интересно.
Вот какие посты и мини-серии были в 2020 году (даю уже ссылки на новый сайт); здесь всё про синтетические данные, главный фокус Synthesis AI.
— The Data Problem (Part I, Part II, Part III, Part IV; рис. 1): зачем вообще нужны синтетические данные, в чём "the data problem" у моделей машинного обучения (сейчас в контексте LLM, кстати, она опять актуальна, но это отдельный разговор);
— Synthetic Data: The Early Days (Part I, Part II; рис. 2): история синтетических данных в машинном обучении с 1960-х годов;
— Synthetic Data for Robots (Part I, Part II; рис. 3): почему синтетические симуляторы необходимы в роботике (это до сих пор, конечно, так и есть); первая часть опять же начинает с ранней истории, с того самого Stanford Cart, любопытно было вспомнить;
— Synthetic Data Research Review: Context-Agnostic Cut-and-Paste (рис. 4): промежуточный пост об одной важной (тогда) статье;
— Object Detection with Synthetic Data (Part I, Part II, Part III, Part IV, Part V; рис. 5): длинная серия о том, как синтетические данные используются для распознавания объектов; в первой части говорю о том, что это за задача такая вообще (обвести объекты в bounding boxes), а потом в основном обсуждаю существующие синтетические датасеты для object detection и последние (в 2020) результаты.
Наверное, хватит для начала.) Если будет желание, посмотрите особенно исторические посты и первые части серий, их вполне можно читать и сейчас. Ну и, конечно, всё это было тесно связано с моей книгой "Synthetic Data for Deep Learning", но это уже совсем другая история.
🔥15👍2
Максим Абрамов прислал забавную ссылку на новость в канале его команды бакалавриата "Искусственный интеллект и наука о данных"; англоязычная аббревиатура в ссылке очень богатая получается, я Максиму написал, надеюсь, сменят.) Спасибо коллегам, что из всей программы решили подсветить мой доклад, но на самом деле это было маленькое отчётное выступление в ряду нескольких десятков таких же от разных вузов. Это именно то, чем я занимался большую часть прошлой недели: повышал в ИТМО квалификацию по программе "Руководство образовательной программой по ИИ топ-уровня: компетентностно-ролевой подход".
В реальности это значило, что я изучал компетентностно-ролевую модель в области AI, которую разработали коллеги из ИТМО, и переводил на её шершавый язык учебный план бакалавриата "AI360: Математика машинного обучения", которым я теперь руковожу. Более того, руковожу даже не чисто формально — в ИТМО я как раз проходил повышение квалификации и защищал программы СПбГУ по искусственному интеллекту, которые выиграли соответствующие конкурсы (вот новость на сайте СПбГУ, например). И надеюсь начиная с осени активнее участвовать в жизни факультета, только что обсуждали эти планы со Станиславом Смирновым.
И вот: смотрите, завидуйте, я — РОП программы ТОП-ДС со звёздочкой! РОП – это "руководитель образовательной программы", но не спрашивайте, почему "Top" написано большими русскими буквами (да, это именно top, никак не расшифровывается), а науки о данных имеют аббревиатуру "ДС"; казалось бы, или "НоД", или "DS"... но нет, "ДС".
На самом деле я хоть и подшучиваю, но очень далёк от того, чтобы всерьёз критиковать получившуюся у ИТМО модель. Если бы мне поставили задачу разработать такой мегаплан всей области AI-образования, я бы точно лучше не справился. Если принять необходимость существования подобного документа как выбитую на скрижали данность, то сам документ получился очень разумный. Да и многие лекции на программе повышения квалификации были действительно интересные. Но по сути основное, что от нас там требовалось, конечно, свелось к большой и не слишком содержательной бюрократической деятельности.
Лично я ещё и болел всю прошлую неделю, и к пятнице, когда нужно было защищать программы, как раз была фаза, когда температура уже не слишком высокая, но одновременно болит горло и текут сопли. Так что фотография полностью отражает моё внутреннее и внешнее состояние в тот момент.)
К чему я это всё рассказываю? Ну разумеется, к тому, чтобы порекламировать новый бакалавриат на МКН СПбГУ! Приходите к нам, у нас много курсов про машинное обучение и большие стипендии:
AI360: Математика машинного обучения
Все "старые" бакалавриаты МКН тоже, разумеется, по-прежнему великолепны, никакой, как это изящно назвали коллеги из ИТМО, "каннибализации" у нас не происходит и не предполагается. Пройти мой трёх-четырёхсеместровый курс машинного обучения можно на любой программе, и вообще все эти программы тоже разворачиваются лицом к искусственному интеллекту – что поделать, нынче жизнь такая:
Математика
Науки о данных
Современное программирование
Понятия не имею, имеет ли смысл реклама сейчас или это уже только на следующий год, но в любом случае приходите к нам!
В реальности это значило, что я изучал компетентностно-ролевую модель в области AI, которую разработали коллеги из ИТМО, и переводил на её шершавый язык учебный план бакалавриата "AI360: Математика машинного обучения", которым я теперь руковожу. Более того, руковожу даже не чисто формально — в ИТМО я как раз проходил повышение квалификации и защищал программы СПбГУ по искусственному интеллекту, которые выиграли соответствующие конкурсы (вот новость на сайте СПбГУ, например). И надеюсь начиная с осени активнее участвовать в жизни факультета, только что обсуждали эти планы со Станиславом Смирновым.
И вот: смотрите, завидуйте, я — РОП программы ТОП-ДС со звёздочкой! РОП – это "руководитель образовательной программы", но не спрашивайте, почему "Top" написано большими русскими буквами (да, это именно top, никак не расшифровывается), а науки о данных имеют аббревиатуру "ДС"; казалось бы, или "НоД", или "DS"... но нет, "ДС".
На самом деле я хоть и подшучиваю, но очень далёк от того, чтобы всерьёз критиковать получившуюся у ИТМО модель. Если бы мне поставили задачу разработать такой мегаплан всей области AI-образования, я бы точно лучше не справился. Если принять необходимость существования подобного документа как выбитую на скрижали данность, то сам документ получился очень разумный. Да и многие лекции на программе повышения квалификации были действительно интересные. Но по сути основное, что от нас там требовалось, конечно, свелось к большой и не слишком содержательной бюрократической деятельности.
Лично я ещё и болел всю прошлую неделю, и к пятнице, когда нужно было защищать программы, как раз была фаза, когда температура уже не слишком высокая, но одновременно болит горло и текут сопли. Так что фотография полностью отражает моё внутреннее и внешнее состояние в тот момент.)
К чему я это всё рассказываю? Ну разумеется, к тому, чтобы порекламировать новый бакалавриат на МКН СПбГУ! Приходите к нам, у нас много курсов про машинное обучение и большие стипендии:
AI360: Математика машинного обучения
Все "старые" бакалавриаты МКН тоже, разумеется, по-прежнему великолепны, никакой, как это изящно назвали коллеги из ИТМО, "каннибализации" у нас не происходит и не предполагается. Пройти мой трёх-четырёхсеместровый курс машинного обучения можно на любой программе, и вообще все эти программы тоже разворачиваются лицом к искусственному интеллекту – что поделать, нынче жизнь такая:
Математика
Науки о данных
Современное программирование
Понятия не имею, имеет ли смысл реклама сейчас или это уже только на следующий год, но в любом случае приходите к нам!
🔥48🥰6👍5
Написал небольшой пост о новой статье, которая сама по себе революцию не делает, но кажется хорошим моментом, чтобы обсудить некоторые тенденции. Полностью пост на сайте, ниже приведу краткую выжимку:
Mixture-of-Recursions: думаем над токенами рекурсивно и адаптивно
Исследователи из KAIST и Google Bae et al. (2025) представили идею под названием Mixture-of-Recursions (MoR, смесь рекурсий). Она объединяет три основные стратегии повышения эффективности трансформеров без радикальной смены архитектуры (без перехода на Mamba, например):
— Mixture-of-Experts (MoE) добавляет разреженность активаций при инференсе: специальный роутер выбирает, какую подсеть-эксперта использовать для каждого токена на каждом слое; в результате параметров у сети очень много, но на каждый токен активируется только небольшое подмножество; MoE — это большая наука, о которой я, надеюсь, скоро расскажу подробнее;
— layer tying уменьшает число параметров за счёт переиспользования весов в разных слоях; это было ещё в Universal Transformers и продолжает появляться до сих пор (Gholami, Omar, 2023; Bae et al., 2025b);
— early exiting тоже добавляет разреженности, но за счёт остановки обработки на ранних слоях для более простых токенов; идея восходит к Depth-Adaptive Transformers и продолжает развиваться (Elhoushi et al., 2024).
Первым важным предшественником MoR стала Mixture-of-Depths (MoD; Raposo et al., 2024). Они ввели маршрутизацию на уровне токенов для адаптивных вычислений: MoE-модели обучают маршрутизатор выбирать между разными подсетями-экспертами, а MoD — выбирать, использовать ли слой или обойти вокруг (рис. 2).
А если объединить связывание слоёв и ранние выходы, получатся рекурсивные трансформеры (Recursive Transformers, Bae et al., 2025b), которые повторяют блок из K слоёв несколько раз в цикле. Например, вместо 30 слоёв в рекурсивной модели будет всего 10, которые применяются трижды, то есть втрое меньше параметров. По ходу рекурсии слои модифицируются LoRA-адаптерами (рис. 3).
И вот Bae et al. (2025) делают следующий шаг: вводят механизмы маршрутизации, которые для каждого токена индивидуально решают, сколько раз применять рекурсивные блоки. "Смесь рекурсий" значит, что небольшие подсети-маршрутизаторы динамически назначают разлную глубину рекурсии отдельным токенам. То есть если нужно породить простое функциональное слово, сеть сможет остановиться после первого прохода через блок, а если нужно подумать, чтобы предсказать следующее слово, то можно прогнать три итерации.
На рис. 4 показаны (a) структура маршрутизатора, (b) общая структура модели и (c) пример того, как более простые токены производятся меньшим числом шагов рекурсии, чем семантически богатые. Идея в том, чтобы дать каждому токену ровно столько времени обработки, сколько ему нужно — ни больше, ни меньше.
Такую адаптивную маршрутизацию можно реализовать по-разному, и в посте я объясняю новые прикольные идеи, которые предлагают Bae et al., но сюда они не влезут.
В целом MoR — вряд ли последнее слово, но направление крутое. Эксперименты, правда, пока очень маленькие: самая большая модель в статье — это Gemma 2B; но будет удивительно, если MoR вдруг перестанет работать при масштабировании. Кстати, MoR естественным образом поддерживает test-time scaling: регулируя глубину рекурсии во время инференса, можно настраивать компромисс между качеством и скоростью.
Вся эта серия работ — MoD, рекурсивные трансформеры, MoR — выглядит очень перспективно. Получаются большие AI-модели, адаптивные не только в том, какие подсети они используют (как обычные MoE), но и в том, сколько вычислений они используют. Кстати, было бы легко объединить MoR и MoE, это естественный следующий шаг; я бы не удивился, если бы в скором времени в этом направлении появилась "3D-разреженная" модель: токены x глубина x эксперты.
Как я всегда говорю, даже если физическое масштабирование остановится (сложно уже транзисторы уменьшать), алгоритмический прогресс принесёт нам ещё немало иксов улучшения эффективности. Будем следить за прогрессом!
Mixture-of-Recursions: думаем над токенами рекурсивно и адаптивно
Исследователи из KAIST и Google Bae et al. (2025) представили идею под названием Mixture-of-Recursions (MoR, смесь рекурсий). Она объединяет три основные стратегии повышения эффективности трансформеров без радикальной смены архитектуры (без перехода на Mamba, например):
— Mixture-of-Experts (MoE) добавляет разреженность активаций при инференсе: специальный роутер выбирает, какую подсеть-эксперта использовать для каждого токена на каждом слое; в результате параметров у сети очень много, но на каждый токен активируется только небольшое подмножество; MoE — это большая наука, о которой я, надеюсь, скоро расскажу подробнее;
— layer tying уменьшает число параметров за счёт переиспользования весов в разных слоях; это было ещё в Universal Transformers и продолжает появляться до сих пор (Gholami, Omar, 2023; Bae et al., 2025b);
— early exiting тоже добавляет разреженности, но за счёт остановки обработки на ранних слоях для более простых токенов; идея восходит к Depth-Adaptive Transformers и продолжает развиваться (Elhoushi et al., 2024).
Первым важным предшественником MoR стала Mixture-of-Depths (MoD; Raposo et al., 2024). Они ввели маршрутизацию на уровне токенов для адаптивных вычислений: MoE-модели обучают маршрутизатор выбирать между разными подсетями-экспертами, а MoD — выбирать, использовать ли слой или обойти вокруг (рис. 2).
А если объединить связывание слоёв и ранние выходы, получатся рекурсивные трансформеры (Recursive Transformers, Bae et al., 2025b), которые повторяют блок из K слоёв несколько раз в цикле. Например, вместо 30 слоёв в рекурсивной модели будет всего 10, которые применяются трижды, то есть втрое меньше параметров. По ходу рекурсии слои модифицируются LoRA-адаптерами (рис. 3).
И вот Bae et al. (2025) делают следующий шаг: вводят механизмы маршрутизации, которые для каждого токена индивидуально решают, сколько раз применять рекурсивные блоки. "Смесь рекурсий" значит, что небольшие подсети-маршрутизаторы динамически назначают разлную глубину рекурсии отдельным токенам. То есть если нужно породить простое функциональное слово, сеть сможет остановиться после первого прохода через блок, а если нужно подумать, чтобы предсказать следующее слово, то можно прогнать три итерации.
На рис. 4 показаны (a) структура маршрутизатора, (b) общая структура модели и (c) пример того, как более простые токены производятся меньшим числом шагов рекурсии, чем семантически богатые. Идея в том, чтобы дать каждому токену ровно столько времени обработки, сколько ему нужно — ни больше, ни меньше.
Такую адаптивную маршрутизацию можно реализовать по-разному, и в посте я объясняю новые прикольные идеи, которые предлагают Bae et al., но сюда они не влезут.
В целом MoR — вряд ли последнее слово, но направление крутое. Эксперименты, правда, пока очень маленькие: самая большая модель в статье — это Gemma 2B; но будет удивительно, если MoR вдруг перестанет работать при масштабировании. Кстати, MoR естественным образом поддерживает test-time scaling: регулируя глубину рекурсии во время инференса, можно настраивать компромисс между качеством и скоростью.
Вся эта серия работ — MoD, рекурсивные трансформеры, MoR — выглядит очень перспективно. Получаются большие AI-модели, адаптивные не только в том, какие подсети они используют (как обычные MoE), но и в том, сколько вычислений они используют. Кстати, было бы легко объединить MoR и MoE, это естественный следующий шаг; я бы не удивился, если бы в скором времени в этом направлении появилась "3D-разреженная" модель: токены x глубина x эксперты.
Как я всегда говорю, даже если физическое масштабирование остановится (сложно уже транзисторы уменьшать), алгоритмический прогресс принесёт нам ещё немало иксов улучшения эффективности. Будем следить за прогрессом!
🔥22❤2
На этой неделе играл в один очень интересный проект, но не успел доиграть, так что пятнично расскажу опять о Culture Series Иэна Бэнкса. Я раньше писал о том, что мне порекомендовали эту серию, и немного рассказывал о первых двух книгах. Теперь вот прочитал ещё две, отчитываюсь.
The State of the Art
Это сборник рассказов, и, как часто бывает в научной фантастике, рассказы читаются легко и приятно. В каждом есть какая-то идея, иногда забавная, иногда раскрывающая мир. Насколько я понял, многие из этих рассказов Бэнкс написал ещё до начала Culture Series, и большая их часть вообще не об этом мире. Мне особенно понравились два: про Локерби и про разумное дерево, которое очень романтично играло в ромашку.
Но главный рассказ, даже, наверное, новелла – The State of the Art – именно о контакте "Культуры" с Землёй, точнее, о том, как контакта не получилось. Там тоже много интересных наблюдений, мир Культуры, правда, совсем не прописан, но и господь с ним. Мне в целом понравилось, и к следующей книге я переходил с некоторым энтузиазмом.
Use of Weapons
Но тут опять началась какая-то боевая фантастика. Набор небольших сюжетов, каждый из которых опять происходит в своём очень странном мире, опять бесконечный парад гуманоидных и не очень инопланетян, которые делают друг с другом разные неприятные вещи. Набор объединён главным героем (точнее, несколькими, но главный один), который выполняет разные заказы Культуры, но при этом к ней на самом деле не относится.
Сюжет действительно крутой. И интересно продумана структура книги: два нарративных потока, которые идут в разных направлениях и потихоньку смешиваются. Но этот структурный эксперимент мешает читать книгу расслабленно: прочитал главу, отложил, через несколько дней прочитал следующую, а она про совсем другое, а когда ещё через несколько прочитал следующую, уже всё в голове смешалось и ничего не помнишь... В общем, тут лучше читать запоем за один день, но настолько эта книга меня, конечно, не увлекла.
Если честно, я уже не уверен, что хочу продолжать Culture Series. Кажется, основной смысл той самой Культуры и её проблем я уже понял, и дальше будут примерно те же щи. Если вдруг вы знаете, что вот-вот всё изменится, серия сделает поворот и станет гораздо интереснее, сообщите без спойлеров, пожалуйста.) Ну и просто порекомендуйте, пожалуйста, что-нибудь хорошее; свежее не обязательно, я туп и необразован и мало что читал в своей жизни.
The State of the Art
Это сборник рассказов, и, как часто бывает в научной фантастике, рассказы читаются легко и приятно. В каждом есть какая-то идея, иногда забавная, иногда раскрывающая мир. Насколько я понял, многие из этих рассказов Бэнкс написал ещё до начала Culture Series, и большая их часть вообще не об этом мире. Мне особенно понравились два: про Локерби и про разумное дерево, которое очень романтично играло в ромашку.
Но главный рассказ, даже, наверное, новелла – The State of the Art – именно о контакте "Культуры" с Землёй, точнее, о том, как контакта не получилось. Там тоже много интересных наблюдений, мир Культуры, правда, совсем не прописан, но и господь с ним. Мне в целом понравилось, и к следующей книге я переходил с некоторым энтузиазмом.
Use of Weapons
Но тут опять началась какая-то боевая фантастика. Набор небольших сюжетов, каждый из которых опять происходит в своём очень странном мире, опять бесконечный парад гуманоидных и не очень инопланетян, которые делают друг с другом разные неприятные вещи. Набор объединён главным героем (точнее, несколькими, но главный один), который выполняет разные заказы Культуры, но при этом к ней на самом деле не относится.
Сюжет действительно крутой. И интересно продумана структура книги: два нарративных потока, которые идут в разных направлениях и потихоньку смешиваются. Но этот структурный эксперимент мешает читать книгу расслабленно: прочитал главу, отложил, через несколько дней прочитал следующую, а она про совсем другое, а когда ещё через несколько прочитал следующую, уже всё в голове смешалось и ничего не помнишь... В общем, тут лучше читать запоем за один день, но настолько эта книга меня, конечно, не увлекла.
Если честно, я уже не уверен, что хочу продолжать Culture Series. Кажется, основной смысл той самой Культуры и её проблем я уже понял, и дальше будут примерно те же щи. Если вдруг вы знаете, что вот-вот всё изменится, серия сделает поворот и станет гораздо интереснее, сообщите без спойлеров, пожалуйста.) Ну и просто порекомендуйте, пожалуйста, что-нибудь хорошее; свежее не обязательно, я туп и необразован и мало что читал в своей жизни.
❤8👀3
Недавно вышла работа о безопасности AI с >40 авторов из OpenAI, Anthropic, DeepMind, METR, Redwood Research, Meta, UK AI Security Institute, Apollo Research... Среди авторов — Йошуа Бенджи, Войцех Заремба, знаменитые "AI-безопасники" Нил Нанда, Анка Драган, Дэн Хендрикс, Виктория Краковна, среди "expert endorsers" — Джеффри Хинтон, Сэм Боумэн, Джон Шульман и Илья Суцкевер... На чём же все они смогли сойтись? Написал об этом пост, сюда выкладываю сокращённую версию:
Не выключайте прослушку: о важности CoT для интерпретируемости
Весь смысл статьи "Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety" сводится к тому, чтобы сказать разработчикам LLM: не отказывайтесь от простого советского человекочитаемого CoT (chain of thought, "листочек для записей" у рассуждающих моделей)! Почему?
Для AI safety очень важна интерпретируемость; я недавно писал об этом большой пост, а Дарио Амодеи — эссе "The Urgency of Interpretability"; интересующимся рекомендую как минимум второе, но буду рад, если прочитаете и первое. Успехи там есть, но не полные, до понимания того, как большая нейронная сеть принимает решения, нам ещё очень далеко.
И вот появляется CoT, который даёт максимально прямой путь: если модель "думает" на человеческом языке, мы можем буквально читать её мысли! И оказывается, что эти мысли пока что действительно правдивы, и мы действительно видим, что модель думает, даже в тех случаях, когда она потом решает нас обмануть!
Мониторинг CoT — уникальная возможность для обеспечения безопасности AI-систем. Например, Meincke et al. (2024) рассказывают о том, что модели уже способны преследовать скрытые цели, не признаваясь в этом, но CoT всегда всё выдаёт (рис. 2), а Baker et al. (2025) написали целую статью про CoT monitoring, и там тоже постоянно встречаются примеры, когда модель просто честно думает, что собирается делать, даже если в итоге финальные действия выглядят безобидно (рис. 3).
Это прекрасная возможность, но довольно хрупкая. Korbak et al. (2025) предупреждают о нескольких факторах, которые могут её разрушить.
— Язык может стать непонятным из-за использования RL. При масштабировании обучения с подкреплением модели могут начать использовать всё менее понятные человеку "языки" для своих рассуждений (Korbak et al., 2022).
— Оптимизация CoT, и прямая, и непрямая, портит его. Например, бывают process reward models (модели, оценивающие путь к решению в RL, а не только ответ), которые следят за тем, чтобы LLM не совершали "мыслепреступлений"; результатом этого, разумеется, может стать то, что модели просто не будут думать лишнего в открытом виде. К обфускации CoT может привести даже непрямая оптимизация вроде "давайте покажем CoT людям, которые оценивают результат в RLHF, и это повлияет на их оценки" (Baker et al., 2025).
— Рассуждения в латентном пространстве не порождают CoT. Модели, способные проводить рассуждения в латентном пространстве без вербализации, могут полностью обойти необходимость в понятных человеку записях в "блокнотике". Это направление сейчас весьма активно развивается, кстати (Hao et al., 2024; Geiping et al., 2025).
Что же делать? Korbak et al. (2025) рекомендуют разработать эффективные метрики для того, насколько возможно следить за CoT (monitorability), а потом публиковать эти метрики и учитывать их. Кстати, в реальности не нужно, чтобы мониторинг срабатывал в 99% случаев, если его можно перезапускать несколько раз так, чтобы ошибки не слишком коррелировали; см., например, (Bhatt et al., 2025).
В философии сознания есть проблема: можем ли мы доверять тому, что кто-то говорит о своих мыслях? А здесь ещё и сами "мысли" являются результатом оптимизации. Модели могут порождать правдоподобные, но вводящие в заблуждение объяснения — и очень важно, чтобы мы никоим образом не пытались это поощрять. Скорее всего, человеческий язык — удобное, но не идеальное промежуточное представление, и для того, чтобы мониторинг CoT оставался возможным, нам нужно приложить нетривиальные усилия. Это окно в мышление LLM может закрыться быстрее, чем нам бы хотелось.
#ai #longreads
Не выключайте прослушку: о важности CoT для интерпретируемости
Весь смысл статьи "Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety" сводится к тому, чтобы сказать разработчикам LLM: не отказывайтесь от простого советского человекочитаемого CoT (chain of thought, "листочек для записей" у рассуждающих моделей)! Почему?
Для AI safety очень важна интерпретируемость; я недавно писал об этом большой пост, а Дарио Амодеи — эссе "The Urgency of Interpretability"; интересующимся рекомендую как минимум второе, но буду рад, если прочитаете и первое. Успехи там есть, но не полные, до понимания того, как большая нейронная сеть принимает решения, нам ещё очень далеко.
И вот появляется CoT, который даёт максимально прямой путь: если модель "думает" на человеческом языке, мы можем буквально читать её мысли! И оказывается, что эти мысли пока что действительно правдивы, и мы действительно видим, что модель думает, даже в тех случаях, когда она потом решает нас обмануть!
Мониторинг CoT — уникальная возможность для обеспечения безопасности AI-систем. Например, Meincke et al. (2024) рассказывают о том, что модели уже способны преследовать скрытые цели, не признаваясь в этом, но CoT всегда всё выдаёт (рис. 2), а Baker et al. (2025) написали целую статью про CoT monitoring, и там тоже постоянно встречаются примеры, когда модель просто честно думает, что собирается делать, даже если в итоге финальные действия выглядят безобидно (рис. 3).
Это прекрасная возможность, но довольно хрупкая. Korbak et al. (2025) предупреждают о нескольких факторах, которые могут её разрушить.
— Язык может стать непонятным из-за использования RL. При масштабировании обучения с подкреплением модели могут начать использовать всё менее понятные человеку "языки" для своих рассуждений (Korbak et al., 2022).
— Оптимизация CoT, и прямая, и непрямая, портит его. Например, бывают process reward models (модели, оценивающие путь к решению в RL, а не только ответ), которые следят за тем, чтобы LLM не совершали "мыслепреступлений"; результатом этого, разумеется, может стать то, что модели просто не будут думать лишнего в открытом виде. К обфускации CoT может привести даже непрямая оптимизация вроде "давайте покажем CoT людям, которые оценивают результат в RLHF, и это повлияет на их оценки" (Baker et al., 2025).
— Рассуждения в латентном пространстве не порождают CoT. Модели, способные проводить рассуждения в латентном пространстве без вербализации, могут полностью обойти необходимость в понятных человеку записях в "блокнотике". Это направление сейчас весьма активно развивается, кстати (Hao et al., 2024; Geiping et al., 2025).
Что же делать? Korbak et al. (2025) рекомендуют разработать эффективные метрики для того, насколько возможно следить за CoT (monitorability), а потом публиковать эти метрики и учитывать их. Кстати, в реальности не нужно, чтобы мониторинг срабатывал в 99% случаев, если его можно перезапускать несколько раз так, чтобы ошибки не слишком коррелировали; см., например, (Bhatt et al., 2025).
В философии сознания есть проблема: можем ли мы доверять тому, что кто-то говорит о своих мыслях? А здесь ещё и сами "мысли" являются результатом оптимизации. Модели могут порождать правдоподобные, но вводящие в заблуждение объяснения — и очень важно, чтобы мы никоим образом не пытались это поощрять. Скорее всего, человеческий язык — удобное, но не идеальное промежуточное представление, и для того, чтобы мониторинг CoT оставался возможным, нам нужно приложить нетривиальные усилия. Это окно в мышление LLM может закрыться быстрее, чем нам бы хотелось.
#ai #longreads
❤12🔥5
Хочется наслаждаться летом, но вместо этого постоянно дедлайн форсмажором погоняет. Нынешний форсмажор так и вовсе изрядно подрывает веру в человечество; с другой стороны, в итоге пришлось взять в руки шашки и попрограммировать самостоятельно, чем-то это даже и приятно.
В общем, несмотря ни на что (подобно Гомеру и Борхесу), наслаждаться летом всё равно стараюсь! И в этом направлении даже кое-что получается. :) Но писать много новых постов пока вряд ли буду, давайте вместо этого сегодня продолжим начатый в прошлый раз ностальгический обзор моего блога из Synthesis AI, который сейчас переезжает на мой сайт.
Driving Model Performance with Synthetic Data — большая серия, которая во многом потом вошла в книгу "Synthetic Data for Deep Learning" (естественно, в сильно расширенном виде). Здесь посты уже становятся побольше и посвящены разным вещам, так что перечислю их отдельно; серию я иллюстрировал через Мерилин Монро, но, кажется, в последнем посте что-то пошло не так.)
Part I: Augmentations in Computer Vision — про аугментации, Albumentations и всё такое прочее; самый простой, но и самый полезный на практике вид синтетических данных
Part II: Smart Augmentations — про то, как делать более умные аугментации, а именно о том, как автоматически настраивать лучшие возможные композиции аугментации, и о Mixup; состязательных аугментаций тогда ещё, кажется, не придумали, но они бы тоже попали именно сюда
Part III: Domain Adaptation Overview — какие бывают варианты того, как модель, обученную на одном виде данных, приспособить к другому; пути здесь (в 2021 году было) по сути два: refinement данных или adaptation самой модели
Part IV: Gaze Estimation and GANs — про статью от Apple, которая когда-то была фактически первым успешным примером именно synthetic-to-real data refinement: как GAN'ом перерисовать картинку так, чтобы синтетические картинки стали более реалистичными (и могли потом использоваться для gaze estimation, оценки направления взгляда)
Part V: Synthetic-to-Real Refinement — дальнейшее развитие этой идеи, обзор других подходов, тоже в то время почти неизбежно основанных на GAN'ах (да и сейчас в style transfer, кажется, GAN'ы ещё не умерли, в отличие от text-to-image)
Part VI: Real-to-Synthetic Data — а можно сделать и наоборот, реальные данные сделать более похожими на синтетику, чтобы лучше работала обученная на синтетике модель; этот сюжет, кажется, особого развития потом не получил, но переворот любопытный
Part VII: Model-Based Domain Adaptation — ну и собственно о том, как модель адаптировать; здесь в основном про основополагающую работу Ганина и Лемпицкого, где они обращали градиенты, и о том, как это потом развилось в domain separation networks
В общем, давно всё это было, но приятно было открыть ещё раз. В следующий раз анонсирую более "вечные" посты, надеюсь, будет интереснее.
В общем, несмотря ни на что (подобно Гомеру и Борхесу), наслаждаться летом всё равно стараюсь! И в этом направлении даже кое-что получается. :) Но писать много новых постов пока вряд ли буду, давайте вместо этого сегодня продолжим начатый в прошлый раз ностальгический обзор моего блога из Synthesis AI, который сейчас переезжает на мой сайт.
Driving Model Performance with Synthetic Data — большая серия, которая во многом потом вошла в книгу "Synthetic Data for Deep Learning" (естественно, в сильно расширенном виде). Здесь посты уже становятся побольше и посвящены разным вещам, так что перечислю их отдельно; серию я иллюстрировал через Мерилин Монро, но, кажется, в последнем посте что-то пошло не так.)
Part I: Augmentations in Computer Vision — про аугментации, Albumentations и всё такое прочее; самый простой, но и самый полезный на практике вид синтетических данных
Part II: Smart Augmentations — про то, как делать более умные аугментации, а именно о том, как автоматически настраивать лучшие возможные композиции аугментации, и о Mixup; состязательных аугментаций тогда ещё, кажется, не придумали, но они бы тоже попали именно сюда
Part III: Domain Adaptation Overview — какие бывают варианты того, как модель, обученную на одном виде данных, приспособить к другому; пути здесь (в 2021 году было) по сути два: refinement данных или adaptation самой модели
Part IV: Gaze Estimation and GANs — про статью от Apple, которая когда-то была фактически первым успешным примером именно synthetic-to-real data refinement: как GAN'ом перерисовать картинку так, чтобы синтетические картинки стали более реалистичными (и могли потом использоваться для gaze estimation, оценки направления взгляда)
Part V: Synthetic-to-Real Refinement — дальнейшее развитие этой идеи, обзор других подходов, тоже в то время почти неизбежно основанных на GAN'ах (да и сейчас в style transfer, кажется, GAN'ы ещё не умерли, в отличие от text-to-image)
Part VI: Real-to-Synthetic Data — а можно сделать и наоборот, реальные данные сделать более похожими на синтетику, чтобы лучше работала обученная на синтетике модель; этот сюжет, кажется, особого развития потом не получил, но переворот любопытный
Part VII: Model-Based Domain Adaptation — ну и собственно о том, как модель адаптировать; здесь в основном про основополагающую работу Ганина и Лемпицкого, где они обращали градиенты, и о том, как это потом развилось в domain separation networks
В общем, давно всё это было, но приятно было открыть ещё раз. В следующий раз анонсирую более "вечные" посты, надеюсь, будет интереснее.
❤16🔥2👍1🙏1