В июне прошёл интересный спор, вызванный статьёй от исследователей из Apple "The Illusion of Thinking". Спор привлёк внимание таких известных исследователей, как C. Opus и G. Pro, а также вышел на весьма любопытный мета-уровень, так что я написал об этом небольшой пост:
The Illusion of The Illusion of The Illusion of Thinking
Tl;dr — никакого потрясения основ из этой статьи, конечно, не получилось. В ней нашлись очень смешные ошибки (читайте пост, если ещё не в курсе), а рассуждающие модели как работали, так и работают. Это оказался даже не то чтобы хороший пример jagged frontier возможностей LLM, о котором действительно есть смысл говорить.
Но кажется, что случай интересный: во-первых, он породил интересную дискуссию, а во-вторых, в этой дискуссии уже открытым текстом слышен голос языковых моделей. Кажется, и академический мир уже не будет прежним...
The Illusion of The Illusion of The Illusion of Thinking
Tl;dr — никакого потрясения основ из этой статьи, конечно, не получилось. В ней нашлись очень смешные ошибки (читайте пост, если ещё не в курсе), а рассуждающие модели как работали, так и работают. Это оказался даже не то чтобы хороший пример jagged frontier возможностей LLM, о котором действительно есть смысл говорить.
Но кажется, что случай интересный: во-первых, он породил интересную дискуссию, а во-вторых, в этой дискуссии уже открытым текстом слышен голос языковых моделей. Кажется, и академический мир уже не будет прежним...
❤17👍3
Пятничный пост снова про игры, всего две, но обе симпатичные.
The Operator
Маленькая, на четыре часа, но весьма интересная история. Вы становитесь "оператором" федерального бюро FDI (видимо, комбинация FBI и CIA), то есть ваша задача — помогать агентам FDI с поиском информации, "пробивать по базам", пытаться совмещать разные данные и так далее.
Что понравилось — в первую очередь сама история. Хотя каждый персонаж здесь максимально клиширован (опытный полевой агент-техасец, начинающий агент-девушка, взламывающий всё на свете кулхацкер и т.д.), в сюжете есть пара крутых твистов, которые я не буду спойлерить. Следить за развитием событий было интересно.
Что не понравилось — то, что хотя игра пытается создать впечатление игрового процесса, по сути ты тут именно что следишь за развитием событий. Загадки тривиальные, плюс тебе всегда рад подсказать шеф, никаких выборов ты ни в какой момент не делаешь, отказаться от кое-каких "заманчивых предложений" на самом деле нельзя, и вся история едет по рельсам к интересной, но единственной развязке. Но в целом безусловно рекомендую, игра точно не успевает наскучить.
Harold Halibut
Ужасно милая игра, very, very cute. Первое и главное — это, конечно, стиль. Студия Slow Bros, оправдывая своё название, делала её двенадцать лет: сначала собирались сделать прямо stop motion анимацию, но потом всё-таки оцифровали свои куклы. Но все куклы и обстановка реально были сделаны физически! В итоге получился уникальный художественный стиль, который я по задумке, объёму работы и результату могу сравнить разве что с The Neverhood.
Во-вторых, история, точнее даже не столько история, сколько персонажи. Заглавный персонаж, Гарольд, — разнорабочий на космической станции, который всем помогает делать то, на что им жалко тратить время. Ему уже, кажется, под тридцать, он совсем не глуп и часто задаётся вопросом о том, неужели это и есть его место в жизни и предназначение. И все остальные персонажи тоже хорошо прописаны, колоритны и снабжены отличными полностью озвученными диалогами.
Всё это происходит на космической станции, которая улетела с Земли, потому что на Земле становилось невозможно жить. Этот ковчег человечества так и не нашёл полностью пригодной для жизни планеты и в итоге застрял на одной из планет под водой с неочевидными шансами выбраться. Но тем временем на Земле всё наладилось, так что все глобальные события в игре тоже поднимают ту же тему бессмысленности жизни. А дальше эта тема развивается и приходит к кульминации через новые твисты, которые я спойлерить не буду.
Минусов здесь два. Во-первых, всё очень медленно. Показательно, что игра даже не подсказывает, где там кнопка бега; она есть, но её всё равно недостаточно. Ты всё время бегаешь туда-сюда и смотришь непропускаемые анимации перехода между локациями (поездки по их Tube). Во-вторых, совсем нет геймплея, причём по неясным причинам. По форме это квест, там есть задания, и есть даже мини-игры, которые очень приятно оформлены; авторам ничего бы не стоило сделать настоящий разнообразный и интересный квест. Но абсолютно все задания и все мини-игры совершенно тривиальны; не в смысле "загадки для детей", а в смысле буквального отсутствия загадок: приди в указанное место, поговори с человеком, rinse, repeat. Даже мини-игры тоже такие: человек тебе говорит, какие три кнопки надо нажать, а потом... ты их нажимаешь!
Но эти минусы не мешают насладиться игрой. Просто понимайте, что подписываетесь на медленный и расслабленный симулятор ходьбы, и наслаждайтесь редкой красоты арт-стилем, ламповой кукольной анимацией, интересным сюжетом и прекрасной озвучкой.
The Operator
Маленькая, на четыре часа, но весьма интересная история. Вы становитесь "оператором" федерального бюро FDI (видимо, комбинация FBI и CIA), то есть ваша задача — помогать агентам FDI с поиском информации, "пробивать по базам", пытаться совмещать разные данные и так далее.
Что понравилось — в первую очередь сама история. Хотя каждый персонаж здесь максимально клиширован (опытный полевой агент-техасец, начинающий агент-девушка, взламывающий всё на свете кулхацкер и т.д.), в сюжете есть пара крутых твистов, которые я не буду спойлерить. Следить за развитием событий было интересно.
Что не понравилось — то, что хотя игра пытается создать впечатление игрового процесса, по сути ты тут именно что следишь за развитием событий. Загадки тривиальные, плюс тебе всегда рад подсказать шеф, никаких выборов ты ни в какой момент не делаешь, отказаться от кое-каких "заманчивых предложений" на самом деле нельзя, и вся история едет по рельсам к интересной, но единственной развязке. Но в целом безусловно рекомендую, игра точно не успевает наскучить.
Harold Halibut
Ужасно милая игра, very, very cute. Первое и главное — это, конечно, стиль. Студия Slow Bros, оправдывая своё название, делала её двенадцать лет: сначала собирались сделать прямо stop motion анимацию, но потом всё-таки оцифровали свои куклы. Но все куклы и обстановка реально были сделаны физически! В итоге получился уникальный художественный стиль, который я по задумке, объёму работы и результату могу сравнить разве что с The Neverhood.
Во-вторых, история, точнее даже не столько история, сколько персонажи. Заглавный персонаж, Гарольд, — разнорабочий на космической станции, который всем помогает делать то, на что им жалко тратить время. Ему уже, кажется, под тридцать, он совсем не глуп и часто задаётся вопросом о том, неужели это и есть его место в жизни и предназначение. И все остальные персонажи тоже хорошо прописаны, колоритны и снабжены отличными полностью озвученными диалогами.
Всё это происходит на космической станции, которая улетела с Земли, потому что на Земле становилось невозможно жить. Этот ковчег человечества так и не нашёл полностью пригодной для жизни планеты и в итоге застрял на одной из планет под водой с неочевидными шансами выбраться. Но тем временем на Земле всё наладилось, так что все глобальные события в игре тоже поднимают ту же тему бессмысленности жизни. А дальше эта тема развивается и приходит к кульминации через новые твисты, которые я спойлерить не буду.
Минусов здесь два. Во-первых, всё очень медленно. Показательно, что игра даже не подсказывает, где там кнопка бега; она есть, но её всё равно недостаточно. Ты всё время бегаешь туда-сюда и смотришь непропускаемые анимации перехода между локациями (поездки по их Tube). Во-вторых, совсем нет геймплея, причём по неясным причинам. По форме это квест, там есть задания, и есть даже мини-игры, которые очень приятно оформлены; авторам ничего бы не стоило сделать настоящий разнообразный и интересный квест. Но абсолютно все задания и все мини-игры совершенно тривиальны; не в смысле "загадки для детей", а в смысле буквального отсутствия загадок: приди в указанное место, поговори с человеком, rinse, repeat. Даже мини-игры тоже такие: человек тебе говорит, какие три кнопки надо нажать, а потом... ты их нажимаешь!
Но эти минусы не мешают насладиться игрой. Просто понимайте, что подписываетесь на медленный и расслабленный симулятор ходьбы, и наслаждайтесь редкой красоты арт-стилем, ламповой кукольной анимацией, интересным сюжетом и прекрасной озвучкой.
❤10👍6✍1👀1
Вчерашний митап "LLM в математике и алгоритмах" прошёл категорически успешно. Напишу о нём, когда появятся хорошие фотографии, а сейчас расскажу вам о квизе, который я для митапа подготовил и провёл. Вот полная версия поста:
Люди против роботов: пьеса в трёх модальностях
Идея была в том, чтобы сделать такой квиз, на котором LLM смогут соревноваться с людьми, и ни у людей, ни у "роботов" не будет заведомого преимущества. Про один из туров — обычное ЧГК из базы — у меня особых сомнений не было: хотя я ещё в октябре 2024 года заметил, что рассуждающие LLM могут играть в ЧГК, тут пока несложно найти вопросы, на которых заведомого преимущества не будет. Например, у всех LLM сложно с игрой в буквы, потому что токены с буквами не сходятся (да, считать r в strawberry тоже сложно именно по этой причине), а если это ещё и по-русски происходит, то вообще, скорее всего, до свидания.
Но хотелось и как-то разнообразить программу, например сделать туры с разными модальностями. Это бы тоже могло оказаться сложным или хотя бы интересным для LLM. Спросил об этом Claude... и, конечно, тут же получил прекрасные идеи. Вот буквально под номерами 1 и 2 шли идеи, которые в итоге и попали в квиз (рис. 2).
Так что для второго тура я подобрал несколько интересных фотографий рукописей великих математиков. Получилось, кажется, действительно интересное задание (см в посте и презентации примеры).
А со звуком опять попросил Claude написать код, который этот звук сгенерирует — и он, конечно же, без проблем справился. Правда, в итоге выяснилось, что эту конкретную идею всё-таки Claude не сам придумал, а взял из "Sound of Sorting" Тимо Бингманна, так что звуки алгоритмов поиска я сгенерировал, а для алгоритмов сортировки взял из готового видео.
Квиз мы больше нигде играть не будем, так что вот, выкладываю финальную презентацию:
Квиз против LLM — LLM в математике и алгоритмах — 5 июля 2025 года
И вот на рис. 3 результаты (ссылка на таблицу).
Как и ожидалось, LLM было сложно со звуком: Claude просто не принимает звук на вход, так что из раунда был дисквалифицирован, а вот o3-pro и o4-mini-high, казалось бы, всё поняли, но почему-то ответов правильных дали мало. На рис. 4 o3-pro идеально разложил аргументы про алгоритмы сортировки (аудио можно послушать в видео)... но почему-то все перепутал, я даже засомневался, не было ли какой ошибки в названиях файлов.
С картинками LLM справились почти идеально, в этом они куда лучше людей. Только задание про первую языковую модель Андрея Андреевича Маркова вызвало серьёзные проблемы у LLM — справился только o3-pro, а остальные писали что-то про криптографию.
А вот с ЧГК получилось, как я и ожидал, по-разному. Например, вот первый вопрос:
Алгоритм Дейкстры позволяет искать в графе кратчайшие пути, начинающиеся в стартовой вершине. Есть вариант его запуска из стартовой и конечной вершин одновременно. Юрий Натаров предложил для этой модификации в название алгоритма добавить четыре буквы. Какие?
Здесь я ожидал, что с буквами будут проблемы, и действительно, из LLM не взял никто; правда, проблемы оказались скорее с юмором и пониманием сути ЧГК, потому что почти все модели ответили Bidi от bidirectional, что логично, но совершенно не смешно и не повод для вопроса. Лучше всех здесь снова выступила o3-pro — её идея не соответствует форме вопроса, но это всё равно гениально; см. рис. 5.
В посте ещё пару примеров привожу, здесь уже не помещается.
А в целом вышло так, что только o3-pro по сумме трёх раундов победила всех человеков. Да и то скорее за счёт того, что картинки рукописей o3-pro скорее всего подгугливала, и запретить ей это не получалось. Но очевидно, что этот фронтир тоже потихоньку движется вперёд; надеюсь, что LLM скоро всё-таки смогут и юмор понимать, и буквы переставлять, и вообще станут полноценными ЧГК-помощниками и тренерами.
В этом уж точно нет ничего апокалиптического, сплошные плюсы.
Люди против роботов: пьеса в трёх модальностях
Идея была в том, чтобы сделать такой квиз, на котором LLM смогут соревноваться с людьми, и ни у людей, ни у "роботов" не будет заведомого преимущества. Про один из туров — обычное ЧГК из базы — у меня особых сомнений не было: хотя я ещё в октябре 2024 года заметил, что рассуждающие LLM могут играть в ЧГК, тут пока несложно найти вопросы, на которых заведомого преимущества не будет. Например, у всех LLM сложно с игрой в буквы, потому что токены с буквами не сходятся (да, считать r в strawberry тоже сложно именно по этой причине), а если это ещё и по-русски происходит, то вообще, скорее всего, до свидания.
Но хотелось и как-то разнообразить программу, например сделать туры с разными модальностями. Это бы тоже могло оказаться сложным или хотя бы интересным для LLM. Спросил об этом Claude... и, конечно, тут же получил прекрасные идеи. Вот буквально под номерами 1 и 2 шли идеи, которые в итоге и попали в квиз (рис. 2).
Так что для второго тура я подобрал несколько интересных фотографий рукописей великих математиков. Получилось, кажется, действительно интересное задание (см в посте и презентации примеры).
А со звуком опять попросил Claude написать код, который этот звук сгенерирует — и он, конечно же, без проблем справился. Правда, в итоге выяснилось, что эту конкретную идею всё-таки Claude не сам придумал, а взял из "Sound of Sorting" Тимо Бингманна, так что звуки алгоритмов поиска я сгенерировал, а для алгоритмов сортировки взял из готового видео.
Квиз мы больше нигде играть не будем, так что вот, выкладываю финальную презентацию:
Квиз против LLM — LLM в математике и алгоритмах — 5 июля 2025 года
И вот на рис. 3 результаты (ссылка на таблицу).
Как и ожидалось, LLM было сложно со звуком: Claude просто не принимает звук на вход, так что из раунда был дисквалифицирован, а вот o3-pro и o4-mini-high, казалось бы, всё поняли, но почему-то ответов правильных дали мало. На рис. 4 o3-pro идеально разложил аргументы про алгоритмы сортировки (аудио можно послушать в видео)... но почему-то все перепутал, я даже засомневался, не было ли какой ошибки в названиях файлов.
С картинками LLM справились почти идеально, в этом они куда лучше людей. Только задание про первую языковую модель Андрея Андреевича Маркова вызвало серьёзные проблемы у LLM — справился только o3-pro, а остальные писали что-то про криптографию.
А вот с ЧГК получилось, как я и ожидал, по-разному. Например, вот первый вопрос:
Алгоритм Дейкстры позволяет искать в графе кратчайшие пути, начинающиеся в стартовой вершине. Есть вариант его запуска из стартовой и конечной вершин одновременно. Юрий Натаров предложил для этой модификации в название алгоритма добавить четыре буквы. Какие?
Здесь я ожидал, что с буквами будут проблемы, и действительно, из LLM не взял никто; правда, проблемы оказались скорее с юмором и пониманием сути ЧГК, потому что почти все модели ответили Bidi от bidirectional, что логично, но совершенно не смешно и не повод для вопроса. Лучше всех здесь снова выступила o3-pro — её идея не соответствует форме вопроса, но это всё равно гениально; см. рис. 5.
В посте ещё пару примеров привожу, здесь уже не помещается.
А в целом вышло так, что только o3-pro по сумме трёх раундов победила всех человеков. Да и то скорее за счёт того, что картинки рукописей o3-pro скорее всего подгугливала, и запретить ей это не получалось. Но очевидно, что этот фронтир тоже потихоньку движется вперёд; надеюсь, что LLM скоро всё-таки смогут и юмор понимать, и буквы переставлять, и вообще станут полноценными ЧГК-помощниками и тренерами.
В этом уж точно нет ничего апокалиптического, сплошные плюсы.
❤27🔥17🎉2
Появились фотографии со школы "Управление, информация и оптимизация" имени Поляка, так что вот, как и обещал, делюсь и напоминаю о своих там докладах. Во-первых и в-главных, большое спасибо Александру Гасникову за приглашение! Это было очень интересно, было много внимательных слушателей, которые не стеснялись задавать острые вопросы. Познакомился и повстречался на школе с массой интересных и очень крутых людей. Да и в самом Иннополисе я очень давно не был, там много нового появилось, многое изменилось к лучшему. Главное — в университете чувствуется очень активная жизнь даже несмотря на то, что летняя школа была, собственно, летом, в июле, когда никакого учебного процесса там не было. Кажется, там одновременно с нами шли ещё две конференции, по университету всё время бегали какие-то стайки школьников, и в целом жизнь цвела и бурлила.
У меня было там, формально говоря, три выступления: большая лекция на стандартную свою тему про AI Safety (из двух частей с перерывом на обед, то есть суммарно вышло два с половиной часа), а потом круглый стол, тоже на два с лишним часа, с замечательными учёными: Владимиром Спокойным, Константином Воронцовым, Александром Дьяконовым и собственно Александром Гасниковым. Мне, кстати, круглый стол очень понравился, кажется, что вроде как и не спорили друг с другом, но отвечали немножко с разных позиций, и получилось реально интересно.
Все видео сразу же были выложены Университетом Иннополис, а потом я и на свой сайт добавил (разумеется, интеграция с VK Video получилась с одного запроса к Codex).
Раздел "Выступления", там первые три пункта сейчас из школы Поляка
AI Safety: Готовы ли мы к сильному искусственному интеллекту (слайды)
Первая часть на VKVideo, вторая часть, круглый стол
Возможно, будут и ещё какие-то видео и материалы из Иннополиса — ещё раз большое спасибо за приглашение, и буду очень рад приехать ещё!
#talks #lifestyle #ai
У меня было там, формально говоря, три выступления: большая лекция на стандартную свою тему про AI Safety (из двух частей с перерывом на обед, то есть суммарно вышло два с половиной часа), а потом круглый стол, тоже на два с лишним часа, с замечательными учёными: Владимиром Спокойным, Константином Воронцовым, Александром Дьяконовым и собственно Александром Гасниковым. Мне, кстати, круглый стол очень понравился, кажется, что вроде как и не спорили друг с другом, но отвечали немножко с разных позиций, и получилось реально интересно.
Все видео сразу же были выложены Университетом Иннополис, а потом я и на свой сайт добавил (разумеется, интеграция с VK Video получилась с одного запроса к Codex).
Раздел "Выступления", там первые три пункта сейчас из школы Поляка
AI Safety: Готовы ли мы к сильному искусственному интеллекту (слайды)
Первая часть на VKVideo, вторая часть, круглый стол
Возможно, будут и ещё какие-то видео и материалы из Иннополиса — ещё раз большое спасибо за приглашение, и буду очень рад приехать ещё!
#talks #lifestyle #ai
❤16🔥15⚡1