Sinекура

Всю неделю занимаюсь формальными бумажками и болею изо всех сил, да и вообще во всём летнее затишье, так что постов нынче мало. Пусть хотя бы пятничный пост будет как обычно.

Snufkin: Melody of Moominvalley

Милая и незамысловатая игра про муми-троллей. Формально это RPG, там есть уровни и сайд-квесты, но на самом деле, конечно, это простенькое линейное приключение. Всё заканчивается быстро, за 3-4 часа вы спасёте Муми-дол, перетянете злых персонажей на сторону добра и увидите много всяческой милоты в довольно классической мумитролльной стилистике.

Если вы любите муми-троллей, рекомендую однозначно. Если любите детские добрые игры и нравится эстетика, тоже. Хотя, кстати, сами муми-тролли не такие уж детские по нынешним временам, они скорее искренне-жизненные. Вот, например, из "Муми-папа и море":

— Мы нашли ящик виски, — сообщил Муми-тролль.
— Великолепно! — сказала Муми-мама. — Теперь мы должны устроить пикник!

Лично я в целом не пожалел, что прошёл, это было очень мило. Но и не сказать, что очень увлекательно, особых твистов сюжета или крутого геймплея тут не ждите. Но расслабиться на вечер или в поездке отлично, мне на два самолёта хватило.

Timelie

Игра-головоломка, где основная механика — это стелс через управление временем. В каждой головоломке ты должен (то есть должна) пройти в дверь, не попадаясь на глаза роботам, и ты можешь перематывать время туда-обратно в любой момент очень детально. Есть, конечно, и ещё несколько механик, в том числе ужасно милый котик, который управляется отдельно и умеет привлекать внимание через мяукание — котики любой игре дают +1 балл сразу, конечно же.

Как головоломка Timelie работает хорошо: в основном проходится легко, но иногда есть о чём подумать, а перемотка времени гарантирует, что нет никакого бэктрекинга и переигрывания по новой, чем часто грешат чистые головоломки. Любителям пазлов рекомендую однозначно.

Но лично мне в игре всё время очень не хватало сюжета. Что вообще в игре происходит, решительно непонятно, всё очень, очень абстрактно. То, куда мы идём и зачем, мотивировано разве что тем, что за нами иногда гонится непонятная волна разрушения. Наверняка это какая-нибудь мощная метафора какой-нибудь потери (котика?). Если бы тут ещё и был хороший сюжет, как было, например, в чистой головоломке Filament (я её здесь не обозревал, а зря, надо бы вернуться к обзорам из архивов), это была бы игра на 8-9 баллов для меня.

Year Walk

Вот это тот жанр, который мне нравится! Очень короткая игра, которая рассказывает тебе интересные вещи, да ещё и немножко играет с четвёртой стеной. Советую просто взять и пройти, это займёт не больше пары часов и будет действительно интересно.

Year walk (Årsgång) — это реально существовавшая шведская традиция особого гадания, когда люди перед Новым годом или Рождеством сначала себя всячески очищали, а потом отправлялись в долгую ритуальную прогулку. Если у них всё на прогулке получалось, то они могли там увидеть будущее, отображение событий наступающего года. Но в игре, кроме шведского фольклора, есть ещё и сюжет (большая часть которого начинается после титров, не пропустите!), и всё умещается в два часа, так что спойлерить особо не буду, просто рекомендую попробовать.

❤17

2.18K views12:12

Sinекура

Как я писал раньше, блог Synthesis AI должен будет превратиться в блог Mach Labs, но последнего как-то пока всё не появляется. Но в любом случае мы договорились, что свои старые посты я сохраню самостоятельно, перенеся их на свой собственный сайт.

На выходных начал заливать старые посты в блог на сайте. К сожалению, оказалось, что хотя и тот и другой блог в WordPress, это не просто export и import, технической работы при переносе довольно много. С другой стороны, постов не то чтобы безграничное количество, так что я уже дошёл до начала мега-серии про generative AI.

Поностальгировал знатно. Конечно, большинство этих постов (кроме исторических) уже вряд ли интересны по существу, но прикольно было вспомнить, как оно было пять лет назад. Давайте я попробую и вам напомнить, но разобью на несколько постов — у меня сейчас по свежему материалу затишье, а тут прямо много всего, вдруг будет интересно.

Вот какие посты и мини-серии были в 2020 году (даю уже ссылки на новый сайт); здесь всё про синтетические данные, главный фокус Synthesis AI.

— The Data Problem (Part I, Part II, Part III, Part IV; рис. 1): зачем вообще нужны синтетические данные, в чём "the data problem" у моделей машинного обучения (сейчас в контексте LLM, кстати, она опять актуальна, но это отдельный разговор);

— Synthetic Data: The Early Days (Part I, Part II; рис. 2): история синтетических данных в машинном обучении с 1960-х годов;

— Synthetic Data for Robots (Part I, Part II; рис. 3): почему синтетические симуляторы необходимы в роботике (это до сих пор, конечно, так и есть); первая часть опять же начинает с ранней истории, с того самого Stanford Cart, любопытно было вспомнить;

— Synthetic Data Research Review: Context-Agnostic Cut-and-Paste (рис. 4): промежуточный пост об одной важной (тогда) статье;

— Object Detection with Synthetic Data (Part I, Part II, Part III, Part IV, Part V; рис. 5): длинная серия о том, как синтетические данные используются для распознавания объектов; в первой части говорю о том, что это за задача такая вообще (обвести объекты в bounding boxes), а потом в основном обсуждаю существующие синтетические датасеты для object detection и последние (в 2020) результаты.

Наверное, хватит для начала.) Если будет желание, посмотрите особенно исторические посты и первые части серий, их вполне можно читать и сейчас. Ну и, конечно, всё это было тесно связано с моей книгой "Synthetic Data for Deep Learning", но это уже совсем другая история.

🔥15👍2

1.7K views09:23

Sinекура

Максим Абрамов прислал забавную ссылку на новость в канале его команды бакалавриата "Искусственный интеллект и наука о данных"; англоязычная аббревиатура в ссылке очень богатая получается, я Максиму написал, надеюсь, сменят.) Спасибо коллегам, что из всей программы решили подсветить мой доклад, но на самом деле это было маленькое отчётное выступление в ряду нескольких десятков таких же от разных вузов. Это именно то, чем я занимался большую часть прошлой недели: повышал в ИТМО квалификацию по программе "Руководство образовательной программой по ИИ топ-уровня: компетентностно-ролевой подход".

В реальности это значило, что я изучал компетентностно-ролевую модель в области AI, которую разработали коллеги из ИТМО, и переводил на её шершавый язык учебный план бакалавриата "AI360: Математика машинного обучения", которым я теперь руковожу. Более того, руковожу даже не чисто формально — в ИТМО я как раз проходил повышение квалификации и защищал программы СПбГУ по искусственному интеллекту, которые выиграли соответствующие конкурсы (вот новость на сайте СПбГУ, например). И надеюсь начиная с осени активнее участвовать в жизни факультета, только что обсуждали эти планы со Станиславом Смирновым.

И вот: смотрите, завидуйте, я — РОП программы ТОП-ДС со звёздочкой! РОП – это "руководитель образовательной программы", но не спрашивайте, почему "Top" написано большими русскими буквами (да, это именно top, никак не расшифровывается), а науки о данных имеют аббревиатуру "ДС"; казалось бы, или "НоД", или "DS"... но нет, "ДС".

На самом деле я хоть и подшучиваю, но очень далёк от того, чтобы всерьёз критиковать получившуюся у ИТМО модель. Если бы мне поставили задачу разработать такой мегаплан всей области AI-образования, я бы точно лучше не справился. Если принять необходимость существования подобного документа как выбитую на скрижали данность, то сам документ получился очень разумный. Да и многие лекции на программе повышения квалификации были действительно интересные. Но по сути основное, что от нас там требовалось, конечно, свелось к большой и не слишком содержательной бюрократической деятельности.

Лично я ещё и болел всю прошлую неделю, и к пятнице, когда нужно было защищать программы, как раз была фаза, когда температура уже не слишком высокая, но одновременно болит горло и текут сопли. Так что фотография полностью отражает моё внутреннее и внешнее состояние в тот момент.)

К чему я это всё рассказываю? Ну разумеется, к тому, чтобы порекламировать новый бакалавриат на МКН СПбГУ! Приходите к нам, у нас много курсов про машинное обучение и большие стипендии:

AI360: Математика машинного обучения

Все "старые" бакалавриаты МКН тоже, разумеется, по-прежнему великолепны, никакой, как это изящно назвали коллеги из ИТМО, "каннибализации" у нас не происходит и не предполагается. Пройти мой трёх-четырёхсеместровый курс машинного обучения можно на любой программе, и вообще все эти программы тоже разворачиваются лицом к искусственному интеллекту – что поделать, нынче жизнь такая:

Математика
Науки о данных
Современное программирование

Понятия не имею, имеет ли смысл реклама сейчас или это уже только на следующий год, но в любом случае приходите к нам!

🔥48🥰6👍5

1.89K viewsedited 12:17

Sinекура

Написал небольшой пост о новой статье, которая сама по себе революцию не делает, но кажется хорошим моментом, чтобы обсудить некоторые тенденции. Полностью пост на сайте, ниже приведу краткую выжимку:

Mixture-of-Recursions: думаем над токенами рекурсивно и адаптивно

Исследователи из KAIST и Google Bae et al. (2025) представили идею под названием Mixture-of-Recursions (MoR, смесь рекурсий). Она объединяет три основные стратегии повышения эффективности трансформеров без радикальной смены архитектуры (без перехода на Mamba, например):

— Mixture-of-Experts (MoE) добавляет разреженность активаций при инференсе: специальный роутер выбирает, какую подсеть-эксперта использовать для каждого токена на каждом слое; в результате параметров у сети очень много, но на каждый токен активируется только небольшое подмножество; MoE — это большая наука, о которой я, надеюсь, скоро расскажу подробнее;

— layer tying уменьшает число параметров за счёт переиспользования весов в разных слоях; это было ещё в Universal Transformers и продолжает появляться до сих пор (Gholami, Omar, 2023; Bae et al., 2025b);

— early exiting тоже добавляет разреженности, но за счёт остановки обработки на ранних слоях для более простых токенов; идея восходит к Depth-Adaptive Transformers и продолжает развиваться (Elhoushi et al., 2024).

Первым важным предшественником MoR стала Mixture-of-Depths (MoD; Raposo et al., 2024). Они ввели маршрутизацию на уровне токенов для адаптивных вычислений: MoE-модели обучают маршрутизатор выбирать между разными подсетями-экспертами, а MoD — выбирать, использовать ли слой или обойти вокруг (рис. 2).

А если объединить связывание слоёв и ранние выходы, получатся рекурсивные трансформеры (Recursive Transformers, Bae et al., 2025b), которые повторяют блок из K слоёв несколько раз в цикле. Например, вместо 30 слоёв в рекурсивной модели будет всего 10, которые применяются трижды, то есть втрое меньше параметров. По ходу рекурсии слои модифицируются LoRA-адаптерами (рис. 3).

И вот Bae et al. (2025) делают следующий шаг: вводят механизмы маршрутизации, которые для каждого токена индивидуально решают, сколько раз применять рекурсивные блоки. "Смесь рекурсий" значит, что небольшие подсети-маршрутизаторы динамически назначают разлную глубину рекурсии отдельным токенам. То есть если нужно породить простое функциональное слово, сеть сможет остановиться после первого прохода через блок, а если нужно подумать, чтобы предсказать следующее слово, то можно прогнать три итерации.

На рис. 4 показаны (a) структура маршрутизатора, (b) общая структура модели и (c) пример того, как более простые токены производятся меньшим числом шагов рекурсии, чем семантически богатые. Идея в том, чтобы дать каждому токену ровно столько времени обработки, сколько ему нужно — ни больше, ни меньше.

Такую адаптивную маршрутизацию можно реализовать по-разному, и в посте я объясняю новые прикольные идеи, которые предлагают Bae et al., но сюда они не влезут.

В целом MoR — вряд ли последнее слово, но направление крутое. Эксперименты, правда, пока очень маленькие: самая большая модель в статье — это Gemma 2B; но будет удивительно, если MoR вдруг перестанет работать при масштабировании. Кстати, MoR естественным образом поддерживает test-time scaling: регулируя глубину рекурсии во время инференса, можно настраивать компромисс между качеством и скоростью.

Вся эта серия работ — MoD, рекурсивные трансформеры, MoR — выглядит очень перспективно. Получаются большие AI-модели, адаптивные не только в том, какие подсети они используют (как обычные MoE), но и в том, сколько вычислений они используют. Кстати, было бы легко объединить MoR и MoE, это естественный следующий шаг; я бы не удивился, если бы в скором времени в этом направлении появилась "3D-разреженная" модель: токены x глубина x эксперты.

Как я всегда говорю, даже если физическое масштабирование остановится (сложно уже транзисторы уменьшать), алгоритмический прогресс принесёт нам ещё немало иксов улучшения эффективности. Будем следить за прогрессом!

🔥22❤2

2.17K views10:55

Sinекура

На этой неделе играл в один очень интересный проект, но не успел доиграть, так что пятнично расскажу опять о Culture Series Иэна Бэнкса. Я раньше писал о том, что мне порекомендовали эту серию, и немного рассказывал о первых двух книгах. Теперь вот прочитал ещё две, отчитываюсь.

The State of the Art

Это сборник рассказов, и, как часто бывает в научной фантастике, рассказы читаются легко и приятно. В каждом есть какая-то идея, иногда забавная, иногда раскрывающая мир. Насколько я понял, многие из этих рассказов Бэнкс написал ещё до начала Culture Series, и большая их часть вообще не об этом мире. Мне особенно понравились два: про Локерби и про разумное дерево, которое очень романтично играло в ромашку.

Но главный рассказ, даже, наверное, новелла – The State of the Art – именно о контакте "Культуры" с Землёй, точнее, о том, как контакта не получилось. Там тоже много интересных наблюдений, мир Культуры, правда, совсем не прописан, но и господь с ним. Мне в целом понравилось, и к следующей книге я переходил с некоторым энтузиазмом.

Use of Weapons

Но тут опять началась какая-то боевая фантастика. Набор небольших сюжетов, каждый из которых опять происходит в своём очень странном мире, опять бесконечный парад гуманоидных и не очень инопланетян, которые делают друг с другом разные неприятные вещи. Набор объединён главным героем (точнее, несколькими, но главный один), который выполняет разные заказы Культуры, но при этом к ней на самом деле не относится.

Сюжет действительно крутой. И интересно продумана структура книги: два нарративных потока, которые идут в разных направлениях и потихоньку смешиваются. Но этот структурный эксперимент мешает читать книгу расслабленно: прочитал главу, отложил, через несколько дней прочитал следующую, а она про совсем другое, а когда ещё через несколько прочитал следующую, уже всё в голове смешалось и ничего не помнишь... В общем, тут лучше читать запоем за один день, но настолько эта книга меня, конечно, не увлекла.

Если честно, я уже не уверен, что хочу продолжать Culture Series. Кажется, основной смысл той самой Культуры и её проблем я уже понял, и дальше будут примерно те же щи. Если вдруг вы знаете, что вот-вот всё изменится, серия сделает поворот и станет гораздо интереснее, сообщите без спойлеров, пожалуйста.) Ну и просто порекомендуйте, пожалуйста, что-нибудь хорошее; свежее не обязательно, я туп и необразован и мало что читал в своей жизни.

❤8👀3

2.02K views08:51

Sinекура

Недавно вышла работа о безопасности AI с >40 авторов из OpenAI, Anthropic, DeepMind, METR, Redwood Research, Meta, UK AI Security Institute, Apollo Research... Среди авторов — Йошуа Бенджи, Войцех Заремба, знаменитые "AI-безопасники" Нил Нанда, Анка Драган, Дэн Хендрикс, Виктория Краковна, среди "expert endorsers" — Джеффри Хинтон, Сэм Боумэн, Джон Шульман и Илья Суцкевер... На чём же все они смогли сойтись? Написал об этом пост, сюда выкладываю сокращённую версию:

Не выключайте прослушку: о важности CoT для интерпретируемости

Весь смысл статьи "Chain of Thought Monitorability: A New and Fragile Opportunity for AI Safety" сводится к тому, чтобы сказать разработчикам LLM: не отказывайтесь от простого советского человекочитаемого CoT (chain of thought, "листочек для записей" у рассуждающих моделей)! Почему?

Для AI safety очень важна интерпретируемость; я недавно писал об этом большой пост, а Дарио Амодеи — эссе "The Urgency of Interpretability"; интересующимся рекомендую как минимум второе, но буду рад, если прочитаете и первое. Успехи там есть, но не полные, до понимания того, как большая нейронная сеть принимает решения, нам ещё очень далеко.

И вот появляется CoT, который даёт максимально прямой путь: если модель "думает" на человеческом языке, мы можем буквально читать её мысли! И оказывается, что эти мысли пока что действительно правдивы, и мы действительно видим, что модель думает, даже в тех случаях, когда она потом решает нас обмануть!

Мониторинг CoT — уникальная возможность для обеспечения безопасности AI-систем. Например, Meincke et al. (2024) рассказывают о том, что модели уже способны преследовать скрытые цели, не признаваясь в этом, но CoT всегда всё выдаёт (рис. 2), а Baker et al. (2025) написали целую статью про CoT monitoring, и там тоже постоянно встречаются примеры, когда модель просто честно думает, что собирается делать, даже если в итоге финальные действия выглядят безобидно (рис. 3).

Это прекрасная возможность, но довольно хрупкая. Korbak et al. (2025) предупреждают о нескольких факторах, которые могут её разрушить.

— Язык может стать непонятным из-за использования RL. При масштабировании обучения с подкреплением модели могут начать использовать всё менее понятные человеку "языки" для своих рассуждений (Korbak et al., 2022).

— Оптимизация CoT, и прямая, и непрямая, портит его. Например, бывают process reward models (модели, оценивающие путь к решению в RL, а не только ответ), которые следят за тем, чтобы LLM не совершали "мыслепреступлений"; результатом этого, разумеется, может стать то, что модели просто не будут думать лишнего в открытом виде. К обфускации CoT может привести даже непрямая оптимизация вроде "давайте покажем CoT людям, которые оценивают результат в RLHF, и это повлияет на их оценки" (Baker et al., 2025).

— Рассуждения в латентном пространстве не порождают CoT. Модели, способные проводить рассуждения в латентном пространстве без вербализации, могут полностью обойти необходимость в понятных человеку записях в "блокнотике". Это направление сейчас весьма активно развивается, кстати (Hao et al., 2024; Geiping et al., 2025).

Что же делать? Korbak et al. (2025) рекомендуют разработать эффективные метрики для того, насколько возможно следить за CoT (monitorability), а потом публиковать эти метрики и учитывать их. Кстати, в реальности не нужно, чтобы мониторинг срабатывал в 99% случаев, если его можно перезапускать несколько раз так, чтобы ошибки не слишком коррелировали; см., например, (Bhatt et al., 2025).

В философии сознания есть проблема: можем ли мы доверять тому, что кто-то говорит о своих мыслях? А здесь ещё и сами "мысли" являются результатом оптимизации. Модели могут порождать правдоподобные, но вводящие в заблуждение объяснения — и очень важно, чтобы мы никоим образом не пытались это поощрять. Скорее всего, человеческий язык — удобное, но не идеальное промежуточное представление, и для того, чтобы мониторинг CoT оставался возможным, нам нужно приложить нетривиальные усилия. Это окно в мышление LLM может закрыться быстрее, чем нам бы хотелось.

#ai #longreads

❤12🔥5

1.77K views10:17

About

Blog

Apps

Platform