Давеча мне для одного проекта нужно было сделать широкий поиск по всем топ-конференциям в нашей области за последние годы. Это было кстати для того, чтобы попробовать способности GPT-5 к программированию (впрочем, я и более серьёзным проектом уже его тестировал, но тот показать вряд ли смогу).
В итоге GPT-5 написал мне прекрасный скрейпер для всех топ-конференций, и я задумался, что из этого можно сделать. Рисовать тематические кластеры полезно для дела, но уже давно совсем никому не интересно, very 2015. Вот первая небольшая идея, которую мы с GPT-5 реализовали на моём сайте:
Figure Roulette
Это игра "угадай статью по картинке": вам показывают иллюстрацию, вырезанную из статьи, и дают пять вариантов названия. Нужно угадать правильный; игра рудиментарно ведёт счёт внутри вашей сессии, но, конечно, никаких пользователей с авторизацией я к ней не прикручивал. Наверняка там куча багов и недоделок, но вроде забавная штука получилась, а если не работает, попробуйте full refresh.) Добавил пока два NeurIPS'а, но легко будет добавить и ещё, если вдруг это кому-то будет интересно.
Надо сказать, что даже в этой поделке спрятано довольно много нетривиальных подзадач:
— скрейпер, скачивающий статьи с конференций и отдельно ходящий к openalex и crossref за информацией об авторах (увы, её всё равно маловато, очень часто аффилиации нигде не находятся);
— скрипт, вырезающий картинки из pdf; он, конечно, на основе внешнего тула, pdffigures2, но всё равно скрипт немаленький вышел;
— порождение вариантов ответов; это тоже отдельная штука на основе ближайших соседей из paragraph-level embeddings (BGE-M3 в данном случае);
— фронтенд самой игры к моему сайту на next.js, а также ещё сопутствующие вещи вроде того, как и где хранить все эти картинки.
Оценить, лучше ли GPT-5, чем o3[-pro], которой я раньше пользовался, на паре примеров сложно, но одну вещь я уже точно заметил: в GPT-5 очень крутая работа с контекстом. У меня были два супер-длинных чатика, связанных с двумя проектами, и GPT-5 ни разу не потерял контекст, не зашёл в порочный круг, всё время отвечал по делу, и начинать новый чат ни разу не хотелось. Это были первые случаи в истории моего взаимодействия с LLM, когда обновлять контекст приходилось не потому, что для LLM так будет лучше, а потому, что само приложение начинало безбожно тормозить, загружая гигантские чаты.
Может быть, у вас есть идеи, что ещё сделать с этими данными? Считайте, что у меня есть все статьи с A*-конференций по AI за последние пару лет, включая абстракты и pdf.
В итоге GPT-5 написал мне прекрасный скрейпер для всех топ-конференций, и я задумался, что из этого можно сделать. Рисовать тематические кластеры полезно для дела, но уже давно совсем никому не интересно, very 2015. Вот первая небольшая идея, которую мы с GPT-5 реализовали на моём сайте:
Figure Roulette
Это игра "угадай статью по картинке": вам показывают иллюстрацию, вырезанную из статьи, и дают пять вариантов названия. Нужно угадать правильный; игра рудиментарно ведёт счёт внутри вашей сессии, но, конечно, никаких пользователей с авторизацией я к ней не прикручивал. Наверняка там куча багов и недоделок, но вроде забавная штука получилась, а если не работает, попробуйте full refresh.) Добавил пока два NeurIPS'а, но легко будет добавить и ещё, если вдруг это кому-то будет интересно.
Надо сказать, что даже в этой поделке спрятано довольно много нетривиальных подзадач:
— скрейпер, скачивающий статьи с конференций и отдельно ходящий к openalex и crossref за информацией об авторах (увы, её всё равно маловато, очень часто аффилиации нигде не находятся);
— скрипт, вырезающий картинки из pdf; он, конечно, на основе внешнего тула, pdffigures2, но всё равно скрипт немаленький вышел;
— порождение вариантов ответов; это тоже отдельная штука на основе ближайших соседей из paragraph-level embeddings (BGE-M3 в данном случае);
— фронтенд самой игры к моему сайту на next.js, а также ещё сопутствующие вещи вроде того, как и где хранить все эти картинки.
Оценить, лучше ли GPT-5, чем o3[-pro], которой я раньше пользовался, на паре примеров сложно, но одну вещь я уже точно заметил: в GPT-5 очень крутая работа с контекстом. У меня были два супер-длинных чатика, связанных с двумя проектами, и GPT-5 ни разу не потерял контекст, не зашёл в порочный круг, всё время отвечал по делу, и начинать новый чат ни разу не хотелось. Это были первые случаи в истории моего взаимодействия с LLM, когда обновлять контекст приходилось не потому, что для LLM так будет лучше, а потому, что само приложение начинало безбожно тормозить, загружая гигантские чаты.
Может быть, у вас есть идеи, что ещё сделать с этими данными? Считайте, что у меня есть все статьи с A*-конференций по AI за последние пару лет, включая абстракты и pdf.
👍18🔥8
Вчера таки отпраздновал день рождения, так что сегодня пост из категории lifestyle. Всем огромное спасибо, что пришли! Кажется, праздник удался, и я знаю, кого за это благодарить.)
Уже много лет мои праздники удаются в основном благодаря моей лучшей подруге Инне — она всегда идеально организует все мои дни рождения и не только.) Увы, единой ссылки, чтобы можно было прорекламировать, у неё нету, но Инна сомелье, устраивает дегустации, винные казино и прочие подобные штуки в Питере, и по этим вопросам можно ей писать на @zhivchiksr (телеграм или другое слово с тем же греческим корнем).
К ней присоединилась прекрасная Ира; давайте здесь дам ссылку на один из её проектов, "Одарённая молодёжь" (и телеграм-канал тоже есть), который помогает найти себя тем талантливым подросткам, кто по разным причинам не успевает попасть в стандартную питерскую мясорубку кружков и олимпиад (попадать в неё, как многие знают, желательно с детсада, а то и раньше). Там есть кнопочка "Поддержать проект", не стесняйтесь.)
И, насколько я понял, отдельное спасибо Ане за помощь с квизом. Да, был квиз — тоже почти каждый год бывает, я всегда ужасно благодарен тому, как много сил люди вкладывают в мой день рождения. В этот раз тема квиза будет знакома подписчикам — каждый раунд был посвящён одной из игр, которые я обозревал здесь или раньше. После каждого раунда были специально сделанные мини-тортики — смотрите фото, это правда очень круто получилось. Отдельное уважение тем, кто поймёт отсылку из мини-тортика с малинкой.
А ещё, кроме тёплых пожеланий и тортиков, мне подарили Майлза! Вылитый же, правда?
Всем спасибо!!! ❤️❤️❤️
Уже много лет мои праздники удаются в основном благодаря моей лучшей подруге Инне — она всегда идеально организует все мои дни рождения и не только.) Увы, единой ссылки, чтобы можно было прорекламировать, у неё нету, но Инна сомелье, устраивает дегустации, винные казино и прочие подобные штуки в Питере, и по этим вопросам можно ей писать на @zhivchiksr (телеграм или другое слово с тем же греческим корнем).
К ней присоединилась прекрасная Ира; давайте здесь дам ссылку на один из её проектов, "Одарённая молодёжь" (и телеграм-канал тоже есть), который помогает найти себя тем талантливым подросткам, кто по разным причинам не успевает попасть в стандартную питерскую мясорубку кружков и олимпиад (попадать в неё, как многие знают, желательно с детсада, а то и раньше). Там есть кнопочка "Поддержать проект", не стесняйтесь.)
И, насколько я понял, отдельное спасибо Ане за помощь с квизом. Да, был квиз — тоже почти каждый год бывает, я всегда ужасно благодарен тому, как много сил люди вкладывают в мой день рождения. В этот раз тема квиза будет знакома подписчикам — каждый раунд был посвящён одной из игр, которые я обозревал здесь или раньше. После каждого раунда были специально сделанные мини-тортики — смотрите фото, это правда очень круто получилось. Отдельное уважение тем, кто поймёт отсылку из мини-тортика с малинкой.
А ещё, кроме тёплых пожеланий и тортиков, мне подарили Майлза! Вылитый же, правда?
Всем спасибо!!! ❤️❤️❤️
❤53🔥13👏3👍1
И второй пост о MoE-моделях. Это уже, думаю, будет самый последний пост в блоге Synthesis AI, ну и опять выкладываю в свой блог ещё раньше, чем туда:
A Mixed Blessing II: MoE for Images and Video
В первой части мы говорили о базовой идее mixture-of-experts и о том, как она применяется в современных текстовых LLM. А во второй части переходим к картинкам, видео и мультимодальным моделям. Началось это с V-MoE, который по сути ViT+MoE, продолжилось DiT-MoE, дальше были сразу пять модальностей в Uni-MoE и переход к синтезу видео на примере CogVideoX.
Ещё в посте обзор нескольких свежих статей, из 2025 года, а ещё два "дополнительных" раздела: один математический, о variational diffusion distillation, где диффузионная модель дистиллируется в смесь экспертов через вариационный вывод, и один немного "в сторону", о модели mixture-of-recursions, о которой я недавно писал пост по-русски.
Enjoy!)
A Mixed Blessing II: MoE for Images and Video
В первой части мы говорили о базовой идее mixture-of-experts и о том, как она применяется в современных текстовых LLM. А во второй части переходим к картинкам, видео и мультимодальным моделям. Началось это с V-MoE, который по сути ViT+MoE, продолжилось DiT-MoE, дальше были сразу пять модальностей в Uni-MoE и переход к синтезу видео на примере CogVideoX.
Ещё в посте обзор нескольких свежих статей, из 2025 года, а ещё два "дополнительных" раздела: один математический, о variational diffusion distillation, где диффузионная модель дистиллируется в смесь экспертов через вариационный вывод, и один немного "в сторону", о модели mixture-of-recursions, о которой я недавно писал пост по-русски.
Enjoy!)
❤15🎉1
Когда я был в Иннополисе на летней школе имени Поляка, со мной в студии Иннополиса записали подкаст. Вдруг вспомнил о нём — и оказалось, что в конце июля он уже вышел!
Выложил на страницу "Выступления"
Прямая ссылка в VKVideo
На записи было забавное ощущение: ведущий начал издалека, поспрашивал про меня, про историю моей жизни, потом понемногу начал подбираться к науке и образованию. Я думал: "Ого, мы полчаса делаем вступление, сколько же этот подкаст будет длиться"... и тут он закончился.)
Но вроде бы всё равно что-то интересное получилось; надеюсь, что он заслуживает больше чем 600 просмотров за месяц. :)
Выложил на страницу "Выступления"
Прямая ссылка в VKVideo
На записи было забавное ощущение: ведущий начал издалека, поспрашивал про меня, про историю моей жизни, потом понемногу начал подбираться к науке и образованию. Я думал: "Ого, мы полчаса делаем вступление, сколько же этот подкаст будет длиться"... и тут он закончился.)
Но вроде бы всё равно что-то интересное получилось; надеюсь, что он заслуживает больше чем 600 просмотров за месяц. :)
😁25🔥12❤5
Современные LLM, даже рассуждающие, всё равно очень плохи в алгоритмических задачах. И вот, кажется, намечается прогресс: Hierarchical Reasoning Model (HRM), в которой друг с другом взаимодействуют две рекуррентные сети на двух уровнях, с жалкими 27 миллионами параметров обошла системы в тысячи раз больше на задачах, требующих глубокого логического мышления. Как у неё это получилось, и может ли это совершить новую мини-революцию в AI? Давайте разберёмся...
Hierarchical Reasoning Model: как 27М параметров решают судоку и ARC-AGI
(Пост довольно большой, так что приведу тут только введение, дальше читайте по ссылке.)
Возможности современных LLM слегка парадоксальны: модели, которые пишут симфонии и объясняют квантовую хромодинамику, не могут решить судоку уровня "эксперт". На подобного рода алгоритмических головоломках точность даже лучших LLM в мире стремится к нулю.
Это не баг, а фундаментальное ограничение архитектуры. Вспомните базовый курс алгоритмов (или менее базовый курс теории сложности, если у вас такой был): есть задачи класса P (решаемые за полиномиальное время), а есть задачи, решаемые схемами постоянной глубины (AC⁰). Трансформеры, при всей их мощи, застряли во втором классе, ведь у них фиксированная и не слишком большая глубина.
Представьте это так: вам дают лабиринт и просят найти выход. Это несложно, но есть нюанс: смотреть на лабиринт можно ровно три секунды, вне зависимости от того, это лабиринт 5×5 или 500×500. Именно так работают современные LLM — у них фиксированное число слоёв (обычно несколько десятков), через которые проходит информация. Миллиарды и триллионы параметров относятся к ширине обработки (числу весов в каждом слое), а не к глубине мышления (числу слоёв).
Да, начиная с семейства OpenAI o1 у нас есть “рассуждающие” модели, которые могут думать долго. Но это ведь на самом деле “костыль”: они порождают промежуточные токены, эмулируя цикл через текст. Честно говоря, подозреваю, что для самой LLM это как программировать на Brainfuck — технически возможно, но мучительно неэффективно. Представьте, например, что вам нужно решить судоку с такими ограничениями:
— смотреть на картинку можно две секунды,
— потом нужно записать обычными словами на русском языке то, что вы хотите запомнить,
— и потом вы уходите и возвращаетесь через пару дней (полностью “очистив контекст”), получая только свои предыдущие записи на естественном языке плюс ещё две секунды на анализ самой задачи.
Примерно так современные LLM должны решать алгоритмические задачи — так что кажется неудивительным, что они это очень плохо делают!
И вот Wang et al. (2025) предлагают архитектуру Hierarchical Reasoning Model (HRM), которая, кажется, умеет думать нужное время естественным образом... Как у них это получилось?
Hierarchical Reasoning Model: как 27М параметров решают судоку и ARC-AGI
(Пост довольно большой, так что приведу тут только введение, дальше читайте по ссылке.)
Возможности современных LLM слегка парадоксальны: модели, которые пишут симфонии и объясняют квантовую хромодинамику, не могут решить судоку уровня "эксперт". На подобного рода алгоритмических головоломках точность даже лучших LLM в мире стремится к нулю.
Это не баг, а фундаментальное ограничение архитектуры. Вспомните базовый курс алгоритмов (или менее базовый курс теории сложности, если у вас такой был): есть задачи класса P (решаемые за полиномиальное время), а есть задачи, решаемые схемами постоянной глубины (AC⁰). Трансформеры, при всей их мощи, застряли во втором классе, ведь у них фиксированная и не слишком большая глубина.
Представьте это так: вам дают лабиринт и просят найти выход. Это несложно, но есть нюанс: смотреть на лабиринт можно ровно три секунды, вне зависимости от того, это лабиринт 5×5 или 500×500. Именно так работают современные LLM — у них фиксированное число слоёв (обычно несколько десятков), через которые проходит информация. Миллиарды и триллионы параметров относятся к ширине обработки (числу весов в каждом слое), а не к глубине мышления (числу слоёв).
Да, начиная с семейства OpenAI o1 у нас есть “рассуждающие” модели, которые могут думать долго. Но это ведь на самом деле “костыль”: они порождают промежуточные токены, эмулируя цикл через текст. Честно говоря, подозреваю, что для самой LLM это как программировать на Brainfuck — технически возможно, но мучительно неэффективно. Представьте, например, что вам нужно решить судоку с такими ограничениями:
— смотреть на картинку можно две секунды,
— потом нужно записать обычными словами на русском языке то, что вы хотите запомнить,
— и потом вы уходите и возвращаетесь через пару дней (полностью “очистив контекст”), получая только свои предыдущие записи на естественном языке плюс ещё две секунды на анализ самой задачи.
Примерно так современные LLM должны решать алгоритмические задачи — так что кажется неудивительным, что они это очень плохо делают!
И вот Wang et al. (2025) предлагают архитектуру Hierarchical Reasoning Model (HRM), которая, кажется, умеет думать нужное время естественным образом... Как у них это получилось?
🔥32❤21👍9
Сегодня в пятничном посте две игры, и обе на первый взгляд кажутся совершенно стандартными, но в итоге обе очень понравились.
Islets
Это. Просто. Хорошая. Метроидвания. Абсолютно стандартная, по канонам. Рисованные мышки спасают свой маленький мир от злых роботов и прочих созданий. Мыш, за которого мы играем, получает новые способности вроде двойного прыжка или приклеивания к стенкам, что открывает новые проходы в разных местах. После победы над боссом летающие острова приклеиваются друг к другу, что тоже открывает новые проходы.
Но хорошо сделано! Прыгать приятно, сражаться приятно, летать на небольшом деревянном самолётике приятно, арт-стиль милый, боссы нетривиальные, но не душные, история ни на что не претендующая, но с забавными шуточками. Вот просто всё сделано компетентно и с любовью, нет ни одной провальной стороны.
И в результате игра, которая снаружи кажется стандартной, чуть ли не унылой и не имеющей никакой особой фишки, на самом деле восхитительно играется. С большим удовольствием прошёл и всем рекомендую; это для меня примерно такой же hidden gem, каким когда-то оказался Teslagrad в жанре пазл-платформеров. Надо будет, кстати, рассказать про него при случае.
Crow Country
А это просто хороший survival horror в стиле игр с PlayStation 1. После того как мне (немного неожиданно для самого себя) зашёл Signalis, я решил попробовать другого представителя жанра. И не был разочарован!
Здесь нет никакой суперзагадочной истории: ты детектив, приезжающий в заброшенный парк развлечений искать пропавших людей и хозяина парка. Дальше, конечно, происходит много странного и антинаучного, нападают странные мутанты, но история разворачивается достаточно логично, записки объясняют весь контекст, и следить за происходящим интересно. Есть только один небольшой твист в конце, который ни на что не влияет (и на самом деле непонятно зачем добавлен).
Собственно, и хоррора никакого нет: не было даже того постоянного дискомфорта и давящей атмосферы, которые создаёт Signalis. А в Crow Country вся рисовка скорее мультяшная, скримеров никаких нету, и даже чересчур неприятных вещей ни с кем не происходит.
Но мне очень понравились загадки; они не совсем тривиальные, но достаточно простые. Так что получается, что ты нигде не застреваешь (та редкая игра, где я ни разу не пользовался гайдами), а просто идёшь вперёд и решаешь загадку за загадкой... но тебе при этом не скучно! В Crow Country есть даже карта секретов, которая сразу показывает, в каких комнатах их искать. В итоге я после обычного прохождения получил все achievements, кроме одного, которое требует перепрохождения — да, там есть что-то вроде NG+, но туда я уже не полез, конечно.
В общем, рекомендую любителям жанра, да и нелюбителей эта игра может переубедить.
#games #tgif
Islets
Это. Просто. Хорошая. Метроидвания. Абсолютно стандартная, по канонам. Рисованные мышки спасают свой маленький мир от злых роботов и прочих созданий. Мыш, за которого мы играем, получает новые способности вроде двойного прыжка или приклеивания к стенкам, что открывает новые проходы в разных местах. После победы над боссом летающие острова приклеиваются друг к другу, что тоже открывает новые проходы.
Но хорошо сделано! Прыгать приятно, сражаться приятно, летать на небольшом деревянном самолётике приятно, арт-стиль милый, боссы нетривиальные, но не душные, история ни на что не претендующая, но с забавными шуточками. Вот просто всё сделано компетентно и с любовью, нет ни одной провальной стороны.
И в результате игра, которая снаружи кажется стандартной, чуть ли не унылой и не имеющей никакой особой фишки, на самом деле восхитительно играется. С большим удовольствием прошёл и всем рекомендую; это для меня примерно такой же hidden gem, каким когда-то оказался Teslagrad в жанре пазл-платформеров. Надо будет, кстати, рассказать про него при случае.
Crow Country
А это просто хороший survival horror в стиле игр с PlayStation 1. После того как мне (немного неожиданно для самого себя) зашёл Signalis, я решил попробовать другого представителя жанра. И не был разочарован!
Здесь нет никакой суперзагадочной истории: ты детектив, приезжающий в заброшенный парк развлечений искать пропавших людей и хозяина парка. Дальше, конечно, происходит много странного и антинаучного, нападают странные мутанты, но история разворачивается достаточно логично, записки объясняют весь контекст, и следить за происходящим интересно. Есть только один небольшой твист в конце, который ни на что не влияет (и на самом деле непонятно зачем добавлен).
Собственно, и хоррора никакого нет: не было даже того постоянного дискомфорта и давящей атмосферы, которые создаёт Signalis. А в Crow Country вся рисовка скорее мультяшная, скримеров никаких нету, и даже чересчур неприятных вещей ни с кем не происходит.
Но мне очень понравились загадки; они не совсем тривиальные, но достаточно простые. Так что получается, что ты нигде не застреваешь (та редкая игра, где я ни разу не пользовался гайдами), а просто идёшь вперёд и решаешь загадку за загадкой... но тебе при этом не скучно! В Crow Country есть даже карта секретов, которая сразу показывает, в каких комнатах их искать. В итоге я после обычного прохождения получил все achievements, кроме одного, которое требует перепрохождения — да, там есть что-то вроде NG+, но туда я уже не полез, конечно.
В общем, рекомендую любителям жанра, да и нелюбителей эта игра может переубедить.
#games #tgif
❤22