Sinекура
3.34K subscribers
947 photos
15 videos
268 links
Канал Сергея Николенко обо всём, но в основном об AI.

Сайт с выступлениями, лекциями и публикациями: https://sergeynikolenko.ru/
Download Telegram
Главный девиз Google — "Don't be evil" — почему-то совсем не даётся OpenAI. За что ни возьмутся, какая-то мутная ерунда получается. И хотя на этот раз сами результаты, кажется, под сомнение не ставят, давайте вспомним сложные отношения OpenAI с математикой. Я написал большой пост, здесь приведу сокращённый кусочек про FrontierMATH и IMO 2025:

Deep Think и IMO 2025: сложные отношения OpenAI и математики

В январе 2025 года разразился целый "бенчмарк-гейт". Датасет FrontierMATH — сверхсложный математический бенчмарк от Epoch AI, содержащий задачи хоть и с заранее известными ответами, но близкие к исследовательской математике. Я много раз рассказывал о нём в докладах; последний был на CS Space митапе.

И вот OpenAI анонсирует, что o3 набрала на FrontierMATH 25% в то время, как другие модели набирают около 2%. Величайший прорыв в математических рассуждениях? Нууу... в общем да, но со звёздочкой. Оказалось, что OpenAI профинансировала создание FrontierMATH и имела доступ к задачам, а писавшие задачи математики не знали о связях с OpenAI! Потом выяснилось, что есть "holdout" набор задач, к которому у OpenAI нет доступа, но всё это звучало подозрительно. В том, насколько это мутная история, легко убедиться по первоисточникам: просто посмотрите на саму статью Glazer et al. (2024) о FrontierMATH; arXiv помнит всё, и рис. 2 показывает разные версии этой статьи.

Независимая проверка показала, что o3-mini набирает на тестовом множестве FrontierMATH всего 11%. Потом o4-mini показала себя гораздо лучше, и сейчас две верхние строчки с огромным отрывом занимает o4, да и дальше только Gemini 2.5 Pro может конкурировать (рис. 3). Но все до сих пор вспоминают объявление о 25%.

А сегодня мы собрались ради IMO 2025. Мы только что обсуждали, что экспериментальная модель OpenAI решила 5 из 6 задач и достигла уровня золотой медали. Результат действительно впечатляющий... но опять есть нюанс. По словам инсайдеров, организаторы IMO попросили все AI-компании не красть внимание у детей и подождать неделю после церемонии закрытия, прежде чем объявлять свои результаты (рис. 4, рис. 5). А OpenAI объявила результаты сразу после церемонии закрытия, но за неделю до срока, о котором просили; более того, OpenAI не сотрудничала с IMO для официального тестирования.

А вот Google DeepMind повела себя корректно. Их модель Deep Think тоже решила 5 из 6 задач IMO 2025. Как и у OpenAI, речь идёт не об Alpha Proof 2, а о том, что обычная LLM, экспериментальный вариант Gemini под названием Deep Think, решал задачи на естественном языке.

Но, во-первых, Google дождалась официальной сертификации результатов IMO, прежде чем делать объявление. Во-вторых — и это куда важнее для нас, пользователей — модель, которая участвовала в IMO, "на самом деле очень близка к основной модели Gemini, которую мы предлагаем людям". То есть почти готовый продукт, а OpenAI заявляла, что до релиза их модели ещё не меньше нескольких месяцев.

В-третьих, решения Deep Think опубликованы, и вот как они выглядят: сравните рис. 6 (OpenAI) и рис. 7 (Deep Think); у Deep Think куда человечнее. Наверняка можно попросить LLM переписать решения от OpenAI более понятно — но это отчасти подтверждает заявления о более близком релизе.

История отношений OpenAI с математическими бенчмарками — пример того, как не надо строить репутацию. Каждый раз компания технически ничего не нарушает, но ведёт себя мутно, и осадочек всё накапливается и накапливается... Хотя о чём это я, осадок от OpenAI уже давно высыпается из бокала.

В итоге получается странно: в обоих случаях OpenAI ведь и правда сделала большие прорывы в AI для математики. Текущие результаты o4-mini на FrontierMATH никто под сомнение не ставит, да и решения задач IMO, скорее всего, получены честно. Но я уверен, что репутация OpenAI от этих историй проиграла, а не выиграла. И зачем, спрашивается, так было делать?

Как говорится, я решил пятьдесят задач из FrontierMATH, но никто не называет меня "Сэм-Великий-Математик"; я решил пять из шести задач IMO 2025, но никто не называет меня "Сэм-Чемпион-Олимпиад"...
👍2684🤨3😁1🤔1🕊1💔1
Всю неделю занимаюсь формальными бумажками и болею изо всех сил, да и вообще во всём летнее затишье, так что постов нынче мало. Пусть хотя бы пятничный пост будет как обычно.

Snufkin: Melody of Moominvalley


Милая и незамысловатая игра про муми-троллей. Формально это RPG, там есть уровни и сайд-квесты, но на самом деле, конечно, это простенькое линейное приключение. Всё заканчивается быстро, за 3-4 часа вы спасёте Муми-дол, перетянете злых персонажей на сторону добра и увидите много всяческой милоты в довольно классической мумитролльной стилистике.

Если вы любите муми-троллей, рекомендую однозначно. Если любите детские добрые игры и нравится эстетика, тоже. Хотя, кстати, сами муми-тролли не такие уж детские по нынешним временам, они скорее искренне-жизненные. Вот, например, из "Муми-папа и море":

— Мы нашли ящик виски, — сообщил Муми-тролль.
— Великолепно! — сказала Муми-мама. — Теперь мы должны устроить пикник!


Лично я в целом не пожалел, что прошёл, это было очень мило. Но и не сказать, что очень увлекательно, особых твистов сюжета или крутого геймплея тут не ждите. Но расслабиться на вечер или в поездке отлично, мне на два самолёта хватило.

Timelie

Игра-головоломка, где основная механика — это стелс через управление временем. В каждой головоломке ты должен (то есть должна) пройти в дверь, не попадаясь на глаза роботам, и ты можешь перематывать время туда-обратно в любой момент очень детально. Есть, конечно, и ещё несколько механик, в том числе ужасно милый котик, который управляется отдельно и умеет привлекать внимание через мяукание — котики любой игре дают +1 балл сразу, конечно же.

Как головоломка Timelie работает хорошо: в основном проходится легко, но иногда есть о чём подумать, а перемотка времени гарантирует, что нет никакого бэктрекинга и переигрывания по новой, чем часто грешат чистые головоломки. Любителям пазлов рекомендую однозначно.

Но лично мне в игре всё время очень не хватало сюжета. Что вообще в игре происходит, решительно непонятно, всё очень, очень абстрактно. То, куда мы идём и зачем, мотивировано разве что тем, что за нами иногда гонится непонятная волна разрушения. Наверняка это какая-нибудь мощная метафора какой-нибудь потери (котика?). Если бы тут ещё и был хороший сюжет, как было, например, в чистой головоломке Filament (я её здесь не обозревал, а зря, надо бы вернуться к обзорам из архивов), это была бы игра на 8-9 баллов для меня.

Year Walk

Вот это тот жанр, который мне нравится! Очень короткая игра, которая рассказывает тебе интересные вещи, да ещё и немножко играет с четвёртой стеной. Советую просто взять и пройти, это займёт не больше пары часов и будет действительно интересно.

Year walk (Årsgång) — это реально существовавшая шведская традиция особого гадания, когда люди перед Новым годом или Рождеством сначала себя всячески очищали, а потом отправлялись в долгую ритуальную прогулку. Если у них всё на прогулке получалось, то они могли там увидеть будущее, отображение событий наступающего года. Но в игре, кроме шведского фольклора, есть ещё и сюжет (большая часть которого начинается после титров, не пропустите!), и всё умещается в два часа, так что спойлерить особо не буду, просто рекомендую попробовать.
17
Как я писал раньше, блог Synthesis AI должен будет превратиться в блог Mach Labs, но последнего как-то пока всё не появляется. Но в любом случае мы договорились, что свои старые посты я сохраню самостоятельно, перенеся их на свой собственный сайт.

На выходных начал заливать старые посты в блог на сайте. К сожалению, оказалось, что хотя и тот и другой блог в WordPress, это не просто export и import, технической работы при переносе довольно много. С другой стороны, постов не то чтобы безграничное количество, так что я уже дошёл до начала мега-серии про generative AI.

Поностальгировал знатно. Конечно, большинство этих постов (кроме исторических) уже вряд ли интересны по существу, но прикольно было вспомнить, как оно было пять лет назад. Давайте я попробую и вам напомнить, но разобью на несколько постов — у меня сейчас по свежему материалу затишье, а тут прямо много всего, вдруг будет интересно.

Вот какие посты и мини-серии были в 2020 году (даю уже ссылки на новый сайт); здесь всё про синтетические данные, главный фокус Synthesis AI.

The Data Problem (Part I, Part II, Part III, Part IV; рис. 1): зачем вообще нужны синтетические данные, в чём "the data problem" у моделей машинного обучения (сейчас в контексте LLM, кстати, она опять актуальна, но это отдельный разговор);

Synthetic Data: The Early Days (Part I, Part II; рис. 2): история синтетических данных в машинном обучении с 1960-х годов;

Synthetic Data for Robots (Part I, Part II; рис. 3): почему синтетические симуляторы необходимы в роботике (это до сих пор, конечно, так и есть); первая часть опять же начинает с ранней истории, с того самого Stanford Cart, любопытно было вспомнить;

Synthetic Data Research Review: Context-Agnostic Cut-and-Paste (рис. 4): промежуточный пост об одной важной (тогда) статье;

Object Detection with Synthetic Data (Part I, Part II, Part III, Part IV, Part V; рис. 5): длинная серия о том, как синтетические данные используются для распознавания объектов; в первой части говорю о том, что это за задача такая вообще (обвести объекты в bounding boxes), а потом в основном обсуждаю существующие синтетические датасеты для object detection и последние (в 2020) результаты.

Наверное, хватит для начала.) Если будет желание, посмотрите особенно исторические посты и первые части серий, их вполне можно читать и сейчас. Ну и, конечно, всё это было тесно связано с моей книгой "Synthetic Data for Deep Learning", но это уже совсем другая история.
🔥15👍2
Максим Абрамов прислал забавную ссылку на новость в канале его команды бакалавриата "Искусственный интеллект и наука о данных"; англоязычная аббревиатура в ссылке очень богатая получается, я Максиму написал, надеюсь, сменят.) Спасибо коллегам, что из всей программы решили подсветить мой доклад, но на самом деле это было маленькое отчётное выступление в ряду нескольких десятков таких же от разных вузов. Это именно то, чем я занимался большую часть прошлой недели: повышал в ИТМО квалификацию по программе "Руководство образовательной программой по ИИ топ-уровня: компетентностно-ролевой подход".

В реальности это значило, что я изучал компетентностно-ролевую модель в области AI, которую разработали коллеги из ИТМО, и переводил на её шершавый язык учебный план бакалавриата "AI360: Математика машинного обучения", которым я теперь руковожу. Более того, руковожу даже не чисто формально — в ИТМО я как раз проходил повышение квалификации и защищал программы СПбГУ по искусственному интеллекту, которые выиграли соответствующие конкурсы (вот новость на сайте СПбГУ, например). И надеюсь начиная с осени активнее участвовать в жизни факультета, только что обсуждали эти планы со Станиславом Смирновым.

И вот: смотрите, завидуйте, я — РОП программы ТОП-ДС со звёздочкой! РОП – это "руководитель образовательной программы", но не спрашивайте, почему "Top" написано большими русскими буквами (да, это именно top, никак не расшифровывается), а науки о данных имеют аббревиатуру "ДС"; казалось бы, или "НоД", или "DS"... но нет, "ДС".

На самом деле я хоть и подшучиваю, но очень далёк от того, чтобы всерьёз критиковать получившуюся у ИТМО модель. Если бы мне поставили задачу разработать такой мегаплан всей области AI-образования, я бы точно лучше не справился. Если принять необходимость существования подобного документа как выбитую на скрижали данность, то сам документ получился очень разумный. Да и многие лекции на программе повышения квалификации были действительно интересные. Но по сути основное, что от нас там требовалось, конечно, свелось к большой и не слишком содержательной бюрократической деятельности.

Лично я ещё и болел всю прошлую неделю, и к пятнице, когда нужно было защищать программы, как раз была фаза, когда температура уже не слишком высокая, но одновременно болит горло и текут сопли. Так что фотография полностью отражает моё внутреннее и внешнее состояние в тот момент.)

К чему я это всё рассказываю? Ну разумеется, к тому, чтобы порекламировать новый бакалавриат на МКН СПбГУ! Приходите к нам, у нас много курсов про машинное обучение и большие стипендии:

AI360: Математика машинного обучения

Все "старые" бакалавриаты МКН тоже, разумеется, по-прежнему великолепны, никакой, как это изящно назвали коллеги из ИТМО, "каннибализации" у нас не происходит и не предполагается. Пройти мой трёх-четырёхсеместровый курс машинного обучения можно на любой программе, и вообще все эти программы тоже разворачиваются лицом к искусственному интеллекту – что поделать, нынче жизнь такая:

Математика
Науки о данных
Современное программирование

Понятия не имею, имеет ли смысл реклама сейчас или это уже только на следующий год, но в любом случае приходите к нам!
🔥48🥰6👍5
Написал небольшой пост о новой статье, которая сама по себе революцию не делает, но кажется хорошим моментом, чтобы обсудить некоторые тенденции. Полностью пост на сайте, ниже приведу краткую выжимку:

Mixture-of-Recursions: думаем над токенами рекурсивно и адаптивно

Исследователи из KAIST и Google Bae et al. (2025) представили идею под названием Mixture-of-Recursions (MoR, смесь рекурсий). Она объединяет три основные стратегии повышения эффективности трансформеров без радикальной смены архитектуры (без перехода на Mamba, например):

Mixture-of-Experts (MoE) добавляет разреженность активаций при инференсе: специальный роутер выбирает, какую подсеть-эксперта использовать для каждого токена на каждом слое; в результате параметров у сети очень много, но на каждый токен активируется только небольшое подмножество; MoE — это большая наука, о которой я, надеюсь, скоро расскажу подробнее;

layer tying уменьшает число параметров за счёт переиспользования весов в разных слоях; это было ещё в Universal Transformers и продолжает появляться до сих пор (Gholami, Omar, 2023; Bae et al., 2025b);

early exiting тоже добавляет разреженности, но за счёт остановки обработки на ранних слоях для более простых токенов; идея восходит к Depth-Adaptive Transformers и продолжает развиваться (Elhoushi et al., 2024).

Первым важным предшественником MoR стала Mixture-of-Depths (MoD; Raposo et al., 2024). Они ввели маршрутизацию на уровне токенов для адаптивных вычислений: MoE-модели обучают маршрутизатор выбирать между разными подсетями-экспертами, а MoD — выбирать, использовать ли слой или обойти вокруг (рис. 2).

А если объединить связывание слоёв и ранние выходы, получатся рекурсивные трансформеры (Recursive Transformers, Bae et al., 2025b), которые повторяют блок из K слоёв несколько раз в цикле. Например, вместо 30 слоёв в рекурсивной модели будет всего 10, которые применяются трижды, то есть втрое меньше параметров. По ходу рекурсии слои модифицируются LoRA-адаптерами (рис. 3).

И вот Bae et al. (2025) делают следующий шаг: вводят механизмы маршрутизации, которые для каждого токена индивидуально решают, сколько раз применять рекурсивные блоки. "Смесь рекурсий" значит, что небольшие подсети-маршрутизаторы динамически назначают разлную глубину рекурсии отдельным токенам. То есть если нужно породить простое функциональное слово, сеть сможет остановиться после первого прохода через блок, а если нужно подумать, чтобы предсказать следующее слово, то можно прогнать три итерации.

На рис. 4 показаны (a) структура маршрутизатора, (b) общая структура модели и (c) пример того, как более простые токены производятся меньшим числом шагов рекурсии, чем семантически богатые. Идея в том, чтобы дать каждому токену ровно столько времени обработки, сколько ему нужно — ни больше, ни меньше.

Такую адаптивную маршрутизацию можно реализовать по-разному, и в посте я объясняю новые прикольные идеи, которые предлагают Bae et al., но сюда они не влезут.

В целом MoR — вряд ли последнее слово, но направление крутое. Эксперименты, правда, пока очень маленькие: самая большая модель в статье — это Gemma 2B; но будет удивительно, если MoR вдруг перестанет работать при масштабировании. Кстати, MoR естественным образом поддерживает test-time scaling: регулируя глубину рекурсии во время инференса, можно настраивать компромисс между качеством и скоростью.

Вся эта серия работ — MoD, рекурсивные трансформеры, MoR — выглядит очень перспективно. Получаются большие AI-модели, адаптивные не только в том, какие подсети они используют (как обычные MoE), но и в том, сколько вычислений они используют. Кстати, было бы легко объединить MoR и MoE, это естественный следующий шаг; я бы не удивился, если бы в скором времени в этом направлении появилась "3D-разреженная" модель: токены x глубина x эксперты.

Как я всегда говорю, даже если физическое масштабирование остановится (сложно уже транзисторы уменьшать), алгоритмический прогресс принесёт нам ещё немало иксов улучшения эффективности. Будем следить за прогрессом!
🔥222
На этой неделе играл в один очень интересный проект, но не успел доиграть, так что пятнично расскажу опять о Culture Series Иэна Бэнкса. Я раньше писал о том, что мне порекомендовали эту серию, и немного рассказывал о первых двух книгах. Теперь вот прочитал ещё две, отчитываюсь.

The State of the Art

Это сборник рассказов, и, как часто бывает в научной фантастике, рассказы читаются легко и приятно. В каждом есть какая-то идея, иногда забавная, иногда раскрывающая мир. Насколько я понял, многие из этих рассказов Бэнкс написал ещё до начала Culture Series, и большая их часть вообще не об этом мире. Мне особенно понравились два: про Локерби и про разумное дерево, которое очень романтично играло в ромашку.

Но главный рассказ, даже, наверное, новелла – The State of the Art – именно о контакте "Культуры" с Землёй, точнее, о том, как контакта не получилось. Там тоже много интересных наблюдений, мир Культуры, правда, совсем не прописан, но и господь с ним. Мне в целом понравилось, и к следующей книге я переходил с некоторым энтузиазмом.

Use of Weapons

Но тут опять началась какая-то боевая фантастика. Набор небольших сюжетов, каждый из которых опять происходит в своём очень странном мире, опять бесконечный парад гуманоидных и не очень инопланетян, которые делают друг с другом разные неприятные вещи. Набор объединён главным героем (точнее, несколькими, но главный один), который выполняет разные заказы Культуры, но при этом к ней на самом деле не относится.

Сюжет действительно крутой. И интересно продумана структура книги: два нарративных потока, которые идут в разных направлениях и потихоньку смешиваются. Но этот структурный эксперимент мешает читать книгу расслабленно: прочитал главу, отложил, через несколько дней прочитал следующую, а она про совсем другое, а когда ещё через несколько прочитал следующую, уже всё в голове смешалось и ничего не помнишь... В общем, тут лучше читать запоем за один день, но настолько эта книга меня, конечно, не увлекла.

Если честно, я уже не уверен, что хочу продолжать Culture Series. Кажется, основной смысл той самой Культуры и её проблем я уже понял, и дальше будут примерно те же щи. Если вдруг вы знаете, что вот-вот всё изменится, серия сделает поворот и станет гораздо интереснее, сообщите без спойлеров, пожалуйста.) Ну и просто порекомендуйте, пожалуйста, что-нибудь хорошее; свежее не обязательно, я туп и необразован и мало что читал в своей жизни.
8👀3