Нажал — и мир двинулся: Matrix-Game 2.0 делает видео интерактивным в реальном времени
ИИ умеет генерировать видео, но жить внутри него у него не получалось: когда нужно двигать камерой и управлять объектами, модели тормозили, забывали начало ролика и накапливали ошибки — да ещё и нормальных данных с точными нажатиями почти не было.
Matrix-Game 2.0 - это интерактивная модель мира. Она ставит цель сделать видео, которое реагирует на мышь и клавиатуру как игра, в реальном времени. Для этого собрали около 1200 часов данных в Unreal Engine и GTA5 и обучили авторегрессивную модель: трёхмерный автоэнкодер ужимает кадры, диффузия сведена к нескольким шагам, генерация идёт потоком с кэшем, а действия мыши и клавиш подаются отдельно и аккуратно.
Результат — 25 кадров в секунду на одной H100, минуты устойчивого видео без провалов памяти и точный отклик кадр-в-кадр; в тестах система обгоняет решения уровня Oasis в Minecraft и держит динамику на уровне YUME при большей устойчивости. По дороге выяснилось, что слишком большой кэш портит длинные ролики, а умеренное окно работает лучше.
Вывод: когда миру, сгенерированному ИИ, добавляешь тактильность «нажал — и поехало», видеодиффузия становится базой для интерактивных агентов — тем более что код и веса обещают выпустить в открытый доступ.
📜 Полный обзор
ИИ умеет генерировать видео, но жить внутри него у него не получалось: когда нужно двигать камерой и управлять объектами, модели тормозили, забывали начало ролика и накапливали ошибки — да ещё и нормальных данных с точными нажатиями почти не было.
Matrix-Game 2.0 - это интерактивная модель мира. Она ставит цель сделать видео, которое реагирует на мышь и клавиатуру как игра, в реальном времени. Для этого собрали около 1200 часов данных в Unreal Engine и GTA5 и обучили авторегрессивную модель: трёхмерный автоэнкодер ужимает кадры, диффузия сведена к нескольким шагам, генерация идёт потоком с кэшем, а действия мыши и клавиш подаются отдельно и аккуратно.
Результат — 25 кадров в секунду на одной H100, минуты устойчивого видео без провалов памяти и точный отклик кадр-в-кадр; в тестах система обгоняет решения уровня Oasis в Minecraft и держит динамику на уровне YUME при большей устойчивости. По дороге выяснилось, что слишком большой кэш портит длинные ролики, а умеренное окно работает лучше.
Вывод: когда миру, сгенерированному ИИ, добавляешь тактильность «нажал — и поехало», видеодиффузия становится базой для интерактивных агентов — тем более что код и веса обещают выпустить в открытый доступ.
📜 Полный обзор
Telegraph
Нажал — и мир двинулся: Matrix-Game 2.0 делает видео интерактивным в реальном времени
Интерактивные модели мира — это способ учить ИИ «ощущать» мир, а не только описывать его словами. Но до недавнего времени у таких моделей было три больших препятствия: не хватало качественных данных с точной пометкой действий; классические видеодиффузоры…
Как дообучать LLM на лету с помощью памяти вместо файнтюнинга
Один красивый промпт давно не спасает: сложные задачи требуют планов, инструментов и памяти, а текущие агенты либо жестко заскриптованы, либо стоят дорого из‑за дообучения.
Цель AgentFly — научить агента улучшаться «на лету» без трогания весов модели.
Метод простой по идее и аккуратный в реализации: агент хранит прошлые удачные шаги как кейсы, формализует процесс как MDP с памятью, планировщик извлекает нужные примеры и пишет краткий план, исполнитель решает задачу с инструментами (веб, код, MCP), а мягкое Q‑обучение учит выбирать по‑настоящему полезные кейсы.
Результат: GAIA — 87.88%, SimpleQA — 95%, в HLE — 24.4% и второе место.
Вывод: небольшая, тщательно отобранная память дает перенос на новые домены и стабильный рост качества — без дорогого дообучения, по‑человечески копя опыт.
📜 Полный обзор
Один красивый промпт давно не спасает: сложные задачи требуют планов, инструментов и памяти, а текущие агенты либо жестко заскриптованы, либо стоят дорого из‑за дообучения.
Цель AgentFly — научить агента улучшаться «на лету» без трогания весов модели.
Метод простой по идее и аккуратный в реализации: агент хранит прошлые удачные шаги как кейсы, формализует процесс как MDP с памятью, планировщик извлекает нужные примеры и пишет краткий план, исполнитель решает задачу с инструментами (веб, код, MCP), а мягкое Q‑обучение учит выбирать по‑настоящему полезные кейсы.
Результат: GAIA — 87.88%, SimpleQA — 95%, в HLE — 24.4% и второе место.
Вывод: небольшая, тщательно отобранная память дает перенос на новые домены и стабильный рост качества — без дорогого дообучения, по‑человечески копя опыт.
📜 Полный обзор
Telegraph
Как дообучать LLM на лету с помощью памяти вместо файнтюнинга
Когда мы просим большую языковую модель (LLM) решить сложную задачу, один красивый промт уже не спасает. В реальности это последовательность действий: надо искать, читать, писать код, проверять, исправлять. Агент должен планировать шаги, пользоваться инструментами…
Как построить мультиагентную систему, которая реально работает без магии и костылей
LLM уже неплохо рассуждают, но как только им нужно что-то сделать — сходить в базу, позвать API, управлять браузером — всё ломается из-за разнобоя интерфейсов и кода.
AgentScope 1.0 ставит простую цель: сделать из таких моделей аккуратных исполнителей. Для этого авторы собирают систему из понятных блоков — единый формат сообщений, общее API для моделей, память на короткие и длинные дистанции, инструменты через единый Toolkit и MCP — и запускают их в цикл ReAct с асинхронностью и параллельными вызовами. Сверху добавлены готовые агенты для ресерча и веб‑действий, мультиагентные сценарии, встроенная оценка и визуальный интерфейс с точной трассировкой, а для продакшна — безопасный runtime с песочницами и протоколами.
На практике это даёт меньше кода, больше скорости и прозрачный контроль качества. Итог простой: когда размышления и действия живут в одном фреймворке, модели становятся не собеседниками, а надёжными исполнителями с заделом на рост и сложные среды.
📜 Полный обзор
LLM уже неплохо рассуждают, но как только им нужно что-то сделать — сходить в базу, позвать API, управлять браузером — всё ломается из-за разнобоя интерфейсов и кода.
AgentScope 1.0 ставит простую цель: сделать из таких моделей аккуратных исполнителей. Для этого авторы собирают систему из понятных блоков — единый формат сообщений, общее API для моделей, память на короткие и длинные дистанции, инструменты через единый Toolkit и MCP — и запускают их в цикл ReAct с асинхронностью и параллельными вызовами. Сверху добавлены готовые агенты для ресерча и веб‑действий, мультиагентные сценарии, встроенная оценка и визуальный интерфейс с точной трассировкой, а для продакшна — безопасный runtime с песочницами и протоколами.
На практике это даёт меньше кода, больше скорости и прозрачный контроль качества. Итог простой: когда размышления и действия живут в одном фреймворке, модели становятся не собеседниками, а надёжными исполнителями с заделом на рост и сложные среды.
📜 Полный обзор
Telegraph
Как построить мультиагентную систему, которая реально работает без магии и костылей
Большие языковые модели (LLM) уже неплохо рассуждают, но настоящая ценность появляется, когда они умеют делать что‑то за пределами генерации текста: обращаться к базам данных, вызывать API, считать, ходить в веб‑браузер. Здесь появляются трудности: у разных…
Как Avengers‑Pro превращает зоопарк LLM в супер-роутер за счёт одного ползунка
Один ползунок — и все ваши языковые модели вдруг начинают работать как слаженная команда. Банально выбирать между «дорого, но точно» и «дёшево, но кое-как» больше не обязательно: Avengers‑Pro предлагает куда более хитрую стратегию. Он невыразимо просто сочетает разные LLM — от топовых GPT‑5 до резвых Qwen — и учится менять баланс между качеством и затратами одним движением. Всё прозрачно, гибко и легко регулируется, а результат — система, способная удивить даже опытных инженеров. Как удалось приручить весь этот зоопарк моделей и что это даёт на практике?
📜 Полный обзор
Один ползунок — и все ваши языковые модели вдруг начинают работать как слаженная команда. Банально выбирать между «дорого, но точно» и «дёшево, но кое-как» больше не обязательно: Avengers‑Pro предлагает куда более хитрую стратегию. Он невыразимо просто сочетает разные LLM — от топовых GPT‑5 до резвых Qwen — и учится менять баланс между качеством и затратами одним движением. Всё прозрачно, гибко и легко регулируется, а результат — система, способная удивить даже опытных инженеров. Как удалось приручить весь этот зоопарк моделей и что это даёт на практике?
📜 Полный обзор
Telegraph
Как Avengers‑Pro превращает зоопарк LLM в супер-роутер за счёт одного ползунка
Зачем вообще нужен умный роутинг Каждый, кто пробовал подключать большую языковую модель (LLM) к реальному продукту, сталкивался с простым выбором: либо точнее, но дорого, либо дешевле, но хуже. GPT‑5, по словам авторов работы, уже движется к решению за счёт…
AudioStory: ИИ в роли звукорежиссера
Сделать так, чтобы генерация звуковых историй с помощью ИИ была не просто приемлемой, а по-настоящему убедительной и атмосферной — долгое время казалось задачей на грани фантастики. Нейросети легко создают короткие аудиофрагменты, но стоит попросить их рассказать целую историю — получается нечто из лоскутков: перебивы, потерянная логика, путаные эмоции и швы между эпизодами. Весь тот вау-эффект, который обычно вкладывает звуковой режиссёр, будто бы ускользает.
Но вот появляется AudioStory. Теперь сюжет строится шаг за шагом, сцена за сценой, а ИИ постепенно учится не просто воспроизводить инструкции, а создавать цельные, логичные и реалистичные звуковые истории, где события тянутся друг за другом так же плавно, как и в настоящих фильмах или аудиокнигах. Как им это удалось и что внутри такого ИИ-звукорежиссёра?
📜 Полный обзор
Сделать так, чтобы генерация звуковых историй с помощью ИИ была не просто приемлемой, а по-настоящему убедительной и атмосферной — долгое время казалось задачей на грани фантастики. Нейросети легко создают короткие аудиофрагменты, но стоит попросить их рассказать целую историю — получается нечто из лоскутков: перебивы, потерянная логика, путаные эмоции и швы между эпизодами. Весь тот вау-эффект, который обычно вкладывает звуковой режиссёр, будто бы ускользает.
Но вот появляется AudioStory. Теперь сюжет строится шаг за шагом, сцена за сценой, а ИИ постепенно учится не просто воспроизводить инструкции, а создавать цельные, логичные и реалистичные звуковые истории, где события тянутся друг за другом так же плавно, как и в настоящих фильмах или аудиокнигах. Как им это удалось и что внутри такого ИИ-звукорежиссёра?
📜 Полный обзор
Telegraph
AudioStory: ИИ в роли звукорежиссера
Задача генерации коротких аудио давно решена. Но стоит попросить модель создать несколько минут цельного звукового повествования — с плавными переходами, повторяющимися темами, меняющейся эмоцией — всё рассыпается. Теряется логика и заметны артефакты. Именно…
Аккуратные дипфейки: как невидимые подмены лиц рушат доверие к видео
Многие привыкли думать о дипфейках как о полностью поддельных видео: будто кто-то взял, полностью заменил лицо или сгенерировал всё с нуля. Но на деле всё становится куда тоньше — и опаснее. Представьте, если в знакомом ролике тихо изменили всего один жест, переставили предмет на фоне или ловко стерли пару кадров. Такие незаметные правки почти не отличить ни невооружённым глазом, ни специальными программами. И вот это — уже сегодняшняя реальность. Исследователи придумали для таких скрытых подделок отдельный термин, собрали крупный набор примеров и даже показали, почему современные детекторы и мы сами так часто оказываемся в дураках. Как работают эти новые "невидимые" дипфейки, чем они опасны и что вообще с этим делать — в новом разборе.
📜 Полный обзор
Многие привыкли думать о дипфейках как о полностью поддельных видео: будто кто-то взял, полностью заменил лицо или сгенерировал всё с нуля. Но на деле всё становится куда тоньше — и опаснее. Представьте, если в знакомом ролике тихо изменили всего один жест, переставили предмет на фоне или ловко стерли пару кадров. Такие незаметные правки почти не отличить ни невооружённым глазом, ни специальными программами. И вот это — уже сегодняшняя реальность. Исследователи придумали для таких скрытых подделок отдельный термин, собрали крупный набор примеров и даже показали, почему современные детекторы и мы сами так часто оказываемся в дураках. Как работают эти новые "невидимые" дипфейки, чем они опасны и что вообще с этим делать — в новом разборе.
📜 Полный обзор
Telegraph
Аккуратные дипфейки: как невидимые подмены лиц рушат доверие к видео
Часто мы думаем о дипфейках как о полностью синтетических роликах. Но в реальной жизни все чаще встречаются такие аккуратные подмены, когда меняют не все видео, а лишь небольшую часть: жесты, лицо, объект на столе или несколько кадров в середине. Такие точечные…
Увидел-кликнул-победил: как UItron управляет компьютером по-человечески
Могут ли нейросети действительно пользоваться компьютером — видеть обычный экран, выбирать нужные кнопки, запускать приложения, одним словом, действовать как живой человек с мышкой и клавиатурой? Оказывается, такие агенты уже не фантастика.
⠀
В свежем исследовании команда UItron показала, как можно научить ИИ не просто понимать команды, а самостоятельно разбираться в сложных интерфейсах, планировать свои действия и шаг за шагом решать сложные задачи. Интересно, что для этого им пришлось переосмыслить саму идею о том, что значит "опыт" для машины.
Разбираемся, как всё это работает, — в новом обзоре.
📜 Полный обзор
Могут ли нейросети действительно пользоваться компьютером — видеть обычный экран, выбирать нужные кнопки, запускать приложения, одним словом, действовать как живой человек с мышкой и клавиатурой? Оказывается, такие агенты уже не фантастика.
⠀
В свежем исследовании команда UItron показала, как можно научить ИИ не просто понимать команды, а самостоятельно разбираться в сложных интерфейсах, планировать свои действия и шаг за шагом решать сложные задачи. Интересно, что для этого им пришлось переосмыслить саму идею о том, что значит "опыт" для машины.
Разбираемся, как всё это работает, — в новом обзоре.
📜 Полный обзор
Telegraph
Увидел-кликнул-победил: как UItron управляет компьютером по-человечески
Могут ли когда-нибудь ИИ-агенты работать с компьютерами так же, как люди — видеть, понимать, кликать мышкой, запускать приложения и выполнять длинные цепочки заданий? Сегодня это уже не фантастика. Новое поколение моделей, таких как UItron, обещает перевернуть…
Память для роботов: как машины учатся видеть мир осознанно
Как научить робота не просто идти по указке, а видеть окружающий мир осмысленно — почти как человек? Сейчас даже самые продвинутые ИИ в роботах часто живут «здесь и сейчас»: увидели диван — пошли к дивану, только камера повернулась — всё забыли. В итоге их навигация напоминает путешествие вслепую, где нет места памяти о прошлом и настоящему планированию. А у человеческого мозга с этим всё хорошо: карта местности в голове и опыт, который легко пересобирается под цель.
Команда исследователей посмотрела, как наше мышление можно перенести на алгоритмы, и собрала для робота не просто память, а целую когнитивную карту. В результате он начинает думать маршрутами, оперировать ориентирами, «удивляться» новому и экономно хранить только важное. Ведь когда машина впервые учится замечать не только объекты вокруг, но и структуру событий — это совсем другой уровень ИИ.
Как устроен этот подход и что получилось в реальных экспериментах — обо всём по порядку.
📜 Полный обзор
Как научить робота не просто идти по указке, а видеть окружающий мир осмысленно — почти как человек? Сейчас даже самые продвинутые ИИ в роботах часто живут «здесь и сейчас»: увидели диван — пошли к дивану, только камера повернулась — всё забыли. В итоге их навигация напоминает путешествие вслепую, где нет места памяти о прошлом и настоящему планированию. А у человеческого мозга с этим всё хорошо: карта местности в голове и опыт, который легко пересобирается под цель.
Команда исследователей посмотрела, как наше мышление можно перенести на алгоритмы, и собрала для робота не просто память, а целую когнитивную карту. В результате он начинает думать маршрутами, оперировать ориентирами, «удивляться» новому и экономно хранить только важное. Ведь когда машина впервые учится замечать не только объекты вокруг, но и структуру событий — это совсем другой уровень ИИ.
Как устроен этот подход и что получилось в реальных экспериментах — обо всём по порядку.
📜 Полный обзор
Telegraph
Память для роботов: как машины учатся видеть мир осознанно
Сегодня многие ИИ-агенты остаются реактивными: видят кадр — действуют, видят следующий — снова действуют, а связной картины мира не формируют. Отсюда проблемы с дальними маршрутами, переиспользованием опыта и гибкостью. В биологии это решено элегантно: мозг…
Почему Text-to-SQL до сих пор ломается и как это исправить
Если вы когда-нибудь пытались получить нужный отчет из базы данных с помощью ИИ — скорее всего, столкнулись с забавной загадкой: почему-то даже продвинутые языковые модели то спотыкаются на связях между таблицами, то забывают ключевую фильтрацию, то просто возвращают не тот ответ. Формально запрос работает, а по сути — совсем не то. Почему так происходит? И можно ли научить ИИ писать правильный SQL, а не гадать до бесконечности?
В новой статье исследователи предлагают необычный подход: они учат модель распознавать собственные ошибки и исправлять логику, а не просто механически менять структуру запроса. Заодно выясняем, насколько такая система помогает избежать классических промахов и что изменится для пользователей, которым важно получать не просто рабочий код, а действительно осмысленный результат.
📜 Полный обзор
Если вы когда-нибудь пытались получить нужный отчет из базы данных с помощью ИИ — скорее всего, столкнулись с забавной загадкой: почему-то даже продвинутые языковые модели то спотыкаются на связях между таблицами, то забывают ключевую фильтрацию, то просто возвращают не тот ответ. Формально запрос работает, а по сути — совсем не то. Почему так происходит? И можно ли научить ИИ писать правильный SQL, а не гадать до бесконечности?
В новой статье исследователи предлагают необычный подход: они учат модель распознавать собственные ошибки и исправлять логику, а не просто механически менять структуру запроса. Заодно выясняем, насколько такая система помогает избежать классических промахов и что изменится для пользователей, которым важно получать не просто рабочий код, а действительно осмысленный результат.
📜 Полный обзор
Telegraph
Почему Text-to-SQL до сих пор ломается и как это исправить
Превратить вопрос человека в корректный SQL — задача на удивление непростая. Большие языковые модели хорошо пишут валидный синтаксис, но легко промахиваются в логике: путают таблицы, соединяют не тем ключом, забывают GROUP BY, ставят неправильные фильтры.…
Vision Language World Model: язык как картина мира
До сих пор искусственный интеллект воспринимает мир как набор пикселей. Но что, если научить ИИ понимать смысл увиденного, а не только картинки? Один из свежих подходов — VLWM: модель, которая переводит реальность в слова и смыслы, позволяя роботам строить осмысленные планы на будущее. В этой статье разбираемся, как агенты научились планировать, проверять гипотезы внутри своей модели мира и выбирать самый разумный вариант.
📜 Полный обзор
До сих пор искусственный интеллект воспринимает мир как набор пикселей. Но что, если научить ИИ понимать смысл увиденного, а не только картинки? Один из свежих подходов — VLWM: модель, которая переводит реальность в слова и смыслы, позволяя роботам строить осмысленные планы на будущее. В этой статье разбираемся, как агенты научились планировать, проверять гипотезы внутри своей модели мира и выбирать самый разумный вариант.
📜 Полный обзор
Telegraph
Vision Language World Model: язык как картина мира
Когда мы просим машину помочь нам приготовить обед или заменить SIM‑карту, она должна не просто распознать предметы в кадре, а представить, как мир будет меняться от шага к шагу. Пока большинство систем видят пиксели и отвечают короткими фразами, планирование…
ИИ как соавтор: как агенты меняют науку прямо сейчас
Пару лет назад казалось, что искусственный интеллект в науке — это про умных помощников: они сортируют данные, визуализируют графики, подсказывают формулы, но остаются просто искусными руками для человека.
Но теперь всё меняется. На горизонте появился новый герой — научный агент. Он уже не ждет указаний, а сам берется за чтение статей, формулирует свежие гипотезы, ставит эксперименты, а если что-то идет не так — может сам себя скорректировать. Такой ИИ — это не просто ассистент, а почти полноценный соавтор в лаборатории.
Пока одни ученые еще скептически приглядываются к этой идее, в биологии, химии и материаловедении научные агенты уже совершают реальные открытия. Кажется, научный цикл меняется прямо на наших глазах.
📜 Полный обзор
Пару лет назад казалось, что искусственный интеллект в науке — это про умных помощников: они сортируют данные, визуализируют графики, подсказывают формулы, но остаются просто искусными руками для человека.
Но теперь всё меняется. На горизонте появился новый герой — научный агент. Он уже не ждет указаний, а сам берется за чтение статей, формулирует свежие гипотезы, ставит эксперименты, а если что-то идет не так — может сам себя скорректировать. Такой ИИ — это не просто ассистент, а почти полноценный соавтор в лаборатории.
Пока одни ученые еще скептически приглядываются к этой идее, в биологии, химии и материаловедении научные агенты уже совершают реальные открытия. Кажется, научный цикл меняется прямо на наших глазах.
📜 Полный обзор
Telegraph
ИИ как соавтор: как агенты меняют науку прямо сейчас
Зачем вообще говорить об агентной науке Мы привыкли к ИИ как к умному калькулятору: он помогает с анализом данных, но решения и эксперименты остаются за людьми. Исследователи предлагают другой взгляд: агентный ИИ переходит к роли автономного научного партнера.…
Глубокие исследования без границ: выбираем свою LLM и управляем стратегией поиска
Инструменты для поиска и анализа информации на базе LLM становятся все умнее, но есть один нюанс: почти всегда они работают по заранее заданному сценарию. Вы набрали запрос — а дальше модель сама решит, какие источники ей искать, как проверять данные и что включить в отчет. Но большинство таких сервисов не предлагают никаких особых подходов — например, собственные правила проверки, любимую LLM или уникальную стратегия поиска.
В свежем исследовании Nvidia появилась идея: а что, если сделать так, чтобы вы сами могли выбирать, какая LLM будет искать для вас информацию, и описывать свои собственные алгоритмы исследования простым человеческим языком без программирования. По сути, это попытка дать пользователю то самое управление, которого раньше так не хватало.
Как это выглядит на практике и зачем вообще отдавать в руки человека стратегию глубокого поиска — разбираемся в деталях.
📜 Полный обзор
Инструменты для поиска и анализа информации на базе LLM становятся все умнее, но есть один нюанс: почти всегда они работают по заранее заданному сценарию. Вы набрали запрос — а дальше модель сама решит, какие источники ей искать, как проверять данные и что включить в отчет. Но большинство таких сервисов не предлагают никаких особых подходов — например, собственные правила проверки, любимую LLM или уникальную стратегия поиска.
В свежем исследовании Nvidia появилась идея: а что, если сделать так, чтобы вы сами могли выбирать, какая LLM будет искать для вас информацию, и описывать свои собственные алгоритмы исследования простым человеческим языком без программирования. По сути, это попытка дать пользователю то самое управление, которого раньше так не хватало.
Как это выглядит на практике и зачем вообще отдавать в руки человека стратегию глубокого поиска — разбираемся в деталях.
📜 Полный обзор
Telegraph
Глубокие исследования без границ: выбираем свою LLM и управляем стратегией поиска
Когда мы говорим о “глубоких исследованиях”, чаще всего имеем в виду сервисы, которые сами планируют поиск, бродят по источникам, собирают цитаты и выдают аккуратный отчет. Это удобно, но почти всегда жестко привязано к одной стратегии и одному семейству…
Почему LLM врут с умным видом
Иногда кажется, что большие языковые модели уверены в себе больше, чем большинство людей в понедельник утром. Задаёшь простой вопрос — а в ответ получаешь удивительный факт, на который хочется переспросить: а ты точно знаешь, о чем говоришь или просто угадываешь?
Оказывается, у этой привычки «галлюцинировать» и выдавать ответы даже тогда, когда стоило бы промолчать, есть вполне логичные основания. Проблема заложена ещё на этапе обучения и подкрепляется тем, как мы потом оцениваем работу LLM. Почему даже самые продвинутые модели чаще выбирают угадать, чем признаться в собственном незнании, и что с этим делать — свежее исследование предлагает неожиданно простое объяснение.
📜 Полный обзор
Иногда кажется, что большие языковые модели уверены в себе больше, чем большинство людей в понедельник утром. Задаёшь простой вопрос — а в ответ получаешь удивительный факт, на который хочется переспросить: а ты точно знаешь, о чем говоришь или просто угадываешь?
Оказывается, у этой привычки «галлюцинировать» и выдавать ответы даже тогда, когда стоило бы промолчать, есть вполне логичные основания. Проблема заложена ещё на этапе обучения и подкрепляется тем, как мы потом оцениваем работу LLM. Почему даже самые продвинутые модели чаще выбирают угадать, чем признаться в собственном незнании, и что с этим делать — свежее исследование предлагает неожиданно простое объяснение.
📜 Полный обзор
Telegraph
Почему LLM врут с умным видом
Почему LLM продолжают уверенно ошибаться, даже когда лучше честно сказать «не знаю»? Исследователи из OpenAI предлагают ясный ответ: корень проблем статистический, он возникает уже на этапе предобучения, а затем закрепляется способами, которыми мы оцениваем…
Что скрыто за характером LLM: читаем поведенческие отпечатки
Задумывались ли вы когда-нибудь, почему две языковые модели с одинаковыми оценками на тестах ведут себя совершенно по-разному в реальном общении? Оценки вроде бы одни и те же, а ощущения от общения — совсем нет: одна охотно подыгрывает, другая спорит до последнего, третья резко меняет мнение из-за незначительной формулировки. Кажется, за сухими числами мы теряем самое интересное — характер и повадки моделей.
Исследователи решили перестать мерить всё под одну гребёнку и попробовали разобраться, какими чертами личности и поведения на самом деле отличаются современные LLM. В ход пошли не только бенчмарки, но и целый профиль моделей — от умения мыслить абстрактно до устойчивости к лести.
Что оказалось на поверхности, какие неожиданные черты всплывают и почему выбор ИИ — это теперь не только про точность, но и про стиль взаимодействия?Подглядываем в поведенческие отпечатки моделей, чтобы понять: что за личность сидит внутри LLM.
📜 Полный обзор
Задумывались ли вы когда-нибудь, почему две языковые модели с одинаковыми оценками на тестах ведут себя совершенно по-разному в реальном общении? Оценки вроде бы одни и те же, а ощущения от общения — совсем нет: одна охотно подыгрывает, другая спорит до последнего, третья резко меняет мнение из-за незначительной формулировки. Кажется, за сухими числами мы теряем самое интересное — характер и повадки моделей.
Исследователи решили перестать мерить всё под одну гребёнку и попробовали разобраться, какими чертами личности и поведения на самом деле отличаются современные LLM. В ход пошли не только бенчмарки, но и целый профиль моделей — от умения мыслить абстрактно до устойчивости к лести.
Что оказалось на поверхности, какие неожиданные черты всплывают и почему выбор ИИ — это теперь не только про точность, но и про стиль взаимодействия?Подглядываем в поведенческие отпечатки моделей, чтобы понять: что за личность сидит внутри LLM.
📜 Полный обзор
Telegraph
Что скрыто за характером LLM: читаем поведенческие отпечатки
Сегодня оценка больших языковых моделей сводится к одному числу на бенчмарке. Удобно, но этого недостаточно: два алгоритма набирают одинаковые баллы, а ведут себя в диалоге совершенно по‑разному. Исследователи предлагают посмотреть глубже — снять «поведенческий…
Как оживить научные статьи: превращаем исследования в интерактивных ИИ-ассистентов
Обычная научная статья ― это десятки страниц текста, сложные графики и ссылка на репозиторий где-то в глубине интернетов. Часто кажется, что в этот мир допускаются только те, кто готов неделями разбираться с чужим кодом и настраивать окружение через танцы с бубном. А что если бы статья могла сама «оживать» и превращаться в настоящего ИИ-ассистента, с которым можно разговаривать на обычном языке и сразу запускать любые её методы?
В свежем исследовании авторы предлагают именно это: новый инструмент, который берет научную работу и делает из неё агента-напарника. Теперь из пассивного PDF получается активный собеседник — он объясняет, считает, строит графики и даже сам проверяет свои результаты. Звучит как будущее, которое только что стало чуть ближе.
📜 Полный обзор
Обычная научная статья ― это десятки страниц текста, сложные графики и ссылка на репозиторий где-то в глубине интернетов. Часто кажется, что в этот мир допускаются только те, кто готов неделями разбираться с чужим кодом и настраивать окружение через танцы с бубном. А что если бы статья могла сама «оживать» и превращаться в настоящего ИИ-ассистента, с которым можно разговаривать на обычном языке и сразу запускать любые её методы?
В свежем исследовании авторы предлагают именно это: новый инструмент, который берет научную работу и делает из неё агента-напарника. Теперь из пассивного PDF получается активный собеседник — он объясняет, считает, строит графики и даже сам проверяет свои результаты. Звучит как будущее, которое только что стало чуть ближе.
📜 Полный обзор
Telegraph
Как оживить научные статьи: превращаем исследования в интерактивных ИИ-ассистентов
Мы привыкли к тому, что научная статья — это текст, рисунки и где-то в репозитории код. Дальше начинается рутина: искать зависимости, настраивать окружение, разбираться в API и форматах данных. Для многих это высокий порог входа. Paper2Agent предлагает простой…
Как ИИ начинает понимать чёрный юмор
Уловить тонкую грань между остроумной шуткой и чем-то оскорбительным — часто задача не из простых даже для человека. В мемах всё ещё сложнее: идея прячется на стыке картинки, подписи и культурного бэкграунда. Как объяснить искусственному интеллекту, что вызывает улыбку, а что — горький смех? Оказывается, учить нейросети разбирать чёрный юмор — занятие не только любопытное, но и полезное для понимания того, как машины читают человеческие смыслы между строк. Исследователи решили подойти к теме с новой стороны: они собрали датасет мемов, где шутки далеко не всегда безобидные, и научили ИИ не просто распознавать юмор, но ещё и объяснять, из-за чего тот становится чёрным. Разбираемся, как у них это получилось.
📜 Полный обзор
Уловить тонкую грань между остроумной шуткой и чем-то оскорбительным — часто задача не из простых даже для человека. В мемах всё ещё сложнее: идея прячется на стыке картинки, подписи и культурного бэкграунда. Как объяснить искусственному интеллекту, что вызывает улыбку, а что — горький смех? Оказывается, учить нейросети разбирать чёрный юмор — занятие не только любопытное, но и полезное для понимания того, как машины читают человеческие смыслы между строк. Исследователи решили подойти к теме с новой стороны: они собрали датасет мемов, где шутки далеко не всегда безобидные, и научили ИИ не просто распознавать юмор, но ещё и объяснять, из-за чего тот становится чёрным. Разбираемся, как у них это получилось.
📜 Полный обзор
Telegraph
Как ИИ начинает понимать чёрный юмор
Шутка шутке рознь. Чистый юмор держится на игре слов и безобидных несоответствиях, чёрный — на болезненных темах, культурных намёках и тонких контрастах между картинкой и подписью. В мемах это особенно заметно: изображение говорит одно, текст — другое, а…
Репозитории на автопилоте: как ИИ сам поднимает окружение и запускает код
Открытые репозитории — это кладезь готовых моделей, скриптов и датасетов, но работа с ними порой напоминает сборку конструктора без инструкции. Сначала разбираешься, как всё устроено, потом ловишь баги на ровном месте, устанавливаешь зависимости — и только после этого кое-как запускаешь нужную задачу. А как было бы здорово, если бы сами репозитории умели понимать, что от них хотят, настраивать себе среду и ещё договариваться между собой!
Вот тут на сцену выходит EnvX — система, которая превращает обычные проекты в автономных агентов: они читают документацию, поднимают окружение, выполняют нужные функции и… общаются друг с другом. Получается совсем новый взгляд на то, каким может стать open-source.
📜 Полный обзор
Открытые репозитории — это кладезь готовых моделей, скриптов и датасетов, но работа с ними порой напоминает сборку конструктора без инструкции. Сначала разбираешься, как всё устроено, потом ловишь баги на ровном месте, устанавливаешь зависимости — и только после этого кое-как запускаешь нужную задачу. А как было бы здорово, если бы сами репозитории умели понимать, что от них хотят, настраивать себе среду и ещё договариваться между собой!
Вот тут на сцену выходит EnvX — система, которая превращает обычные проекты в автономных агентов: они читают документацию, поднимают окружение, выполняют нужные функции и… общаются друг с другом. Получается совсем новый взгляд на то, каким может стать open-source.
📜 Полный обзор
Telegraph
Репозитории на автопилоте: как ИИ сам поднимает окружение и запускает код
Открытые репозитории полны готовых решений: скрипты, модели, датасеты, демо. Но чтобы собрать всё и запустить, нужен ручной труд: поставить зависимости, скачать артефакты, прочесть документацию, не ошибиться со вступными параметрами. EnvX предлагает простой…
Агенты без скриптов: что происходит, когда ИИ сталкивается с реальностью
Звучит просто: подключил суперсовременную LLM к десятку инструментов — и пусть решает любые задачи в реальном времени. Только вот на практике всё выходит куда прозаичнее. Даже самые мощные модели уверенно работают в лабораторных условиях, где всё строго по шаблону. А стоит им оказаться в живой, шумной среде — появляются ошибки, неожиданные сбои и довольно неожиданные выводы о том, где у современных ИИ-агентов на самом деле слабые места. Новое исследование показывает, что, когда у модели есть сотня способов решить задачу, успех — далеко не гарантирован. Почему даже мощные LLM так часто спотыкаются на пустом месте и что им мешает делать работу, как человек — разберёмся на ярких примерах из нового бенчмарка LiveMCP-101.
📜 Полный обзор
Звучит просто: подключил суперсовременную LLM к десятку инструментов — и пусть решает любые задачи в реальном времени. Только вот на практике всё выходит куда прозаичнее. Даже самые мощные модели уверенно работают в лабораторных условиях, где всё строго по шаблону. А стоит им оказаться в живой, шумной среде — появляются ошибки, неожиданные сбои и довольно неожиданные выводы о том, где у современных ИИ-агентов на самом деле слабые места. Новое исследование показывает, что, когда у модели есть сотня способов решить задачу, успех — далеко не гарантирован. Почему даже мощные LLM так часто спотыкаются на пустом месте и что им мешает делать работу, как человек — разберёмся на ярких примерах из нового бенчмарка LiveMCP-101.
📜 Полный обзор
Telegraph
Агенты без скриптов: что происходит, когда ИИ сталкивается с реальностью
Агенты на базе MCP сегодня умеют многое: искать в вебе, работать с файлами, строить графики, считать и вызывать внешние API. Но одно дело — демонстрация на единичной задаче, другое — устойчивая работа в реалистичной, меняющейся среде, где ответы сервисов…
Как обучение с подкреплением перестраивает мышление LLM
Когда говорят о продвинутых ИИ-моделях, чаще всего обсуждают точность фактов или впечатляющую скорость ответа. Но если копнуть глубже, становится ясно: настоящая магия — в умении рассуждать и строить сложные цепочки мыслей. Недавнее исследование показало, что обычное обучение с подкреплением меняет не только цифры в метриках, но и заставляет модель внутренне перестраиваться. Постепенно появляется четкое разделение — где просто выполняется инструкция, а где возникает настоящий план, со своими “давай попробуем” и “а что если”. Оказывается, важнее всего — это скрытая стратегия, которая позволяет моделям ловить редкие инсайты, делать ошибки на совершенно новом уровне и обыгрывать старые методы по всем фронтам. Как это устроено на практике и почему отдельные группы токенов вдруг становятся стратегами — об этом и пойдет речь.
📜 Полный обзор
Когда говорят о продвинутых ИИ-моделях, чаще всего обсуждают точность фактов или впечатляющую скорость ответа. Но если копнуть глубже, становится ясно: настоящая магия — в умении рассуждать и строить сложные цепочки мыслей. Недавнее исследование показало, что обычное обучение с подкреплением меняет не только цифры в метриках, но и заставляет модель внутренне перестраиваться. Постепенно появляется четкое разделение — где просто выполняется инструкция, а где возникает настоящий план, со своими “давай попробуем” и “а что если”. Оказывается, важнее всего — это скрытая стратегия, которая позволяет моделям ловить редкие инсайты, делать ошибки на совершенно новом уровне и обыгрывать старые методы по всем фронтам. Как это устроено на практике и почему отдельные группы токенов вдруг становятся стратегами — об этом и пойдет речь.
📜 Полный обзор
Telegraph
Как обучение с подкреплением перестраивает мышление LLM
Задачи на рассуждение — больное место многих ИИ-систем, даже если у них хорошие фактические знания. Новая работа показывает, что усиление через RL (Reinforcement Learning, обучение с подкреплением) не просто повышает точность, а перестраивает внутреннюю логику…
Как мозг предсказывает следующее слово и при чем тут ИИ
Наш мозг всё время пытается угадать следующее слово, почти как современные большие языковые модели. Это не просто метафора: недавнее исследование показало, что предсказания ИИ удивительно совпадают с тем, что происходит в мозге человека во время восприятия речи. Учёные выяснили, что чем точнее ожидание слова, тем меньше усилий требуется мозгу для его обработки, и наоборот. Чтобы доказать это, они посадили добровольцев в томограф, включили им аудиокнигу и сопоставили электрическую активность мозга с оценками предсказуемости из модели. Разберёмся, как именно проходил эксперимент и что эти результаты могут значить для будущего нейротехнологий.
📜 Полный обзор
Наш мозг всё время пытается угадать следующее слово, почти как современные большие языковые модели. Это не просто метафора: недавнее исследование показало, что предсказания ИИ удивительно совпадают с тем, что происходит в мозге человека во время восприятия речи. Учёные выяснили, что чем точнее ожидание слова, тем меньше усилий требуется мозгу для его обработки, и наоборот. Чтобы доказать это, они посадили добровольцев в томограф, включили им аудиокнигу и сопоставили электрическую активность мозга с оценками предсказуемости из модели. Разберёмся, как именно проходил эксперимент и что эти результаты могут значить для будущего нейротехнологий.
📜 Полный обзор
Telegraph
Как мозг предсказывает следующее слово и при чем тут ИИ
Зачем мозгу предсказывать слова Мы редко слушаем речь как поток неожиданных звуков. Мозг постоянно строит догадки о следующем слове и проверяет себя по мере поступления звука. Такой режим экономит силы: чем точнее ожидание, тем меньше усилий на распознавание.…
ИИ-агенты выходят на рынок: как строится новая агентная экономика
Когда мы слышим про ИИ-агентов, многие представляют себе умных помощников. Но что если эти агенты уже сегодня учатся не просто помогать, а напрямую участвовать в цифровой экономике? Они торгуются между собой, обмениваются данными, зарабатывают репутацию, заключают сделки, а иногда — принимают решения быстрее, чем человек успеет моргнуть. Становится похоже на новую игру, правила которой ещё только пишутся. Как устроены эти “песочницы”, где автономные агенты учатся жить по своим законам, почему рынок будет меняться гораздо быстрее, чем кажется, и какие подводные камни ждут впереди — разбираемся на свежем примере из исследовательской лаборатории Google DeepMind.
📜 Полный обзор
Когда мы слышим про ИИ-агентов, многие представляют себе умных помощников. Но что если эти агенты уже сегодня учатся не просто помогать, а напрямую участвовать в цифровой экономике? Они торгуются между собой, обмениваются данными, зарабатывают репутацию, заключают сделки, а иногда — принимают решения быстрее, чем человек успеет моргнуть. Становится похоже на новую игру, правила которой ещё только пишутся. Как устроены эти “песочницы”, где автономные агенты учатся жить по своим законам, почему рынок будет меняться гораздо быстрее, чем кажется, и какие подводные камни ждут впереди — разбираемся на свежем примере из исследовательской лаборатории Google DeepMind.
📜 Полный обзор
Telegraph
ИИ-агенты выходят на рынок: как строится новая агентная экономика
Автономные ИИ‑агенты становятся не просто помощниками, а участниками растущих цифровых рынков: договариваются, закупают данные, планируют, пишут код, управляют роботами. Авторы работы предлагают смотреть на это как на зарождающуюся агентную экономику — связку…