Секрет уверенного робота — в умении указывать
Почему роботы так часто зависают между пониманием и действием? Они видят чашку, но не знают, как обойти тарелку рядом и куда эту чашку поставить. Этот разрыв между зрением и действием — главный барьер на пути к по-настоящему автономным системам. Команда Embodied-R1 предлагает неожиданно простой и мощный выход: научить робота языку «указаний» — точкам и следам на картинке. Такой язык одинаково понятен и человеку, и машине, он напрямую связывает восприятие с действием, делая поведение робота предсказуемым, устойчивым и уверенным даже в незнакомых условиях.
📜 Полный обзор
Почему роботы так часто зависают между пониманием и действием? Они видят чашку, но не знают, как обойти тарелку рядом и куда эту чашку поставить. Этот разрыв между зрением и действием — главный барьер на пути к по-настоящему автономным системам. Команда Embodied-R1 предлагает неожиданно простой и мощный выход: научить робота языку «указаний» — точкам и следам на картинке. Такой язык одинаково понятен и человеку, и машине, он напрямую связывает восприятие с действием, делая поведение робота предсказуемым, устойчивым и уверенным даже в незнакомых условиях.
📜 Полный обзор
Telegraph
Покажи — и робот поймёт: как Embodied‑R1 сокращает разрыв между «вижу» и «делаю»
Зачем роботам нужен «указательный» язык Роботы всё чаще видят мир камерой и читают наши текстовые инструкции. Но часто это «знание» не превращается в верное действие: модель понимает, что такое «чашка», но не знает, куда её ставить и как обойти соседние предметы.…
OmniTry: виртуальная примерка одежды и аксессуаров без масок — система сама найдёт, куда «надеть»
Онлайн‑примерка одежды без масок и ручной разметки сегодня становится реальностью. OmniTry — диффузионный трансформер, который сам локализует объект на фото и сохраняет идентичность конкретного товара — от очков и серёжек до сумок и галстуков. В статье — разбираемся с двухэтапным обучением, «стиранием без следов» и собственным бенчмарком на 12 категорий предметов.
📜 Полный обзор
Онлайн‑примерка одежды без масок и ручной разметки сегодня становится реальностью. OmniTry — диффузионный трансформер, который сам локализует объект на фото и сохраняет идентичность конкретного товара — от очков и серёжек до сумок и галстуков. В статье — разбираемся с двухэтапным обучением, «стиранием без следов» и собственным бенчмарком на 12 категорий предметов.
📜 Полный обзор
Telegraph
OmniTry: виртуальная примерка одежды и аксессуаров без масок — система сама найдёт, куда «надеть»
Если вы когда‑нибудь пытались «примерить» очки или галстук на своё фото с помощью приложения, вы знаете главный подвох: системе нужно руками подсказать область замены — нарисовать маску или рамку. Для сотен типов предметов это неудобно и плохо масштабируется.…
Нажал — и мир двинулся: Matrix-Game 2.0 делает видео интерактивным в реальном времени
ИИ умеет генерировать видео, но жить внутри него у него не получалось: когда нужно двигать камерой и управлять объектами, модели тормозили, забывали начало ролика и накапливали ошибки — да ещё и нормальных данных с точными нажатиями почти не было.
Matrix-Game 2.0 - это интерактивная модель мира. Она ставит цель сделать видео, которое реагирует на мышь и клавиатуру как игра, в реальном времени. Для этого собрали около 1200 часов данных в Unreal Engine и GTA5 и обучили авторегрессивную модель: трёхмерный автоэнкодер ужимает кадры, диффузия сведена к нескольким шагам, генерация идёт потоком с кэшем, а действия мыши и клавиш подаются отдельно и аккуратно.
Результат — 25 кадров в секунду на одной H100, минуты устойчивого видео без провалов памяти и точный отклик кадр-в-кадр; в тестах система обгоняет решения уровня Oasis в Minecraft и держит динамику на уровне YUME при большей устойчивости. По дороге выяснилось, что слишком большой кэш портит длинные ролики, а умеренное окно работает лучше.
Вывод: когда миру, сгенерированному ИИ, добавляешь тактильность «нажал — и поехало», видеодиффузия становится базой для интерактивных агентов — тем более что код и веса обещают выпустить в открытый доступ.
📜 Полный обзор
ИИ умеет генерировать видео, но жить внутри него у него не получалось: когда нужно двигать камерой и управлять объектами, модели тормозили, забывали начало ролика и накапливали ошибки — да ещё и нормальных данных с точными нажатиями почти не было.
Matrix-Game 2.0 - это интерактивная модель мира. Она ставит цель сделать видео, которое реагирует на мышь и клавиатуру как игра, в реальном времени. Для этого собрали около 1200 часов данных в Unreal Engine и GTA5 и обучили авторегрессивную модель: трёхмерный автоэнкодер ужимает кадры, диффузия сведена к нескольким шагам, генерация идёт потоком с кэшем, а действия мыши и клавиш подаются отдельно и аккуратно.
Результат — 25 кадров в секунду на одной H100, минуты устойчивого видео без провалов памяти и точный отклик кадр-в-кадр; в тестах система обгоняет решения уровня Oasis в Minecraft и держит динамику на уровне YUME при большей устойчивости. По дороге выяснилось, что слишком большой кэш портит длинные ролики, а умеренное окно работает лучше.
Вывод: когда миру, сгенерированному ИИ, добавляешь тактильность «нажал — и поехало», видеодиффузия становится базой для интерактивных агентов — тем более что код и веса обещают выпустить в открытый доступ.
📜 Полный обзор
Telegraph
Нажал — и мир двинулся: Matrix-Game 2.0 делает видео интерактивным в реальном времени
Интерактивные модели мира — это способ учить ИИ «ощущать» мир, а не только описывать его словами. Но до недавнего времени у таких моделей было три больших препятствия: не хватало качественных данных с точной пометкой действий; классические видеодиффузоры…
Как дообучать LLM на лету с помощью памяти вместо файнтюнинга
Один красивый промпт давно не спасает: сложные задачи требуют планов, инструментов и памяти, а текущие агенты либо жестко заскриптованы, либо стоят дорого из‑за дообучения.
Цель AgentFly — научить агента улучшаться «на лету» без трогания весов модели.
Метод простой по идее и аккуратный в реализации: агент хранит прошлые удачные шаги как кейсы, формализует процесс как MDP с памятью, планировщик извлекает нужные примеры и пишет краткий план, исполнитель решает задачу с инструментами (веб, код, MCP), а мягкое Q‑обучение учит выбирать по‑настоящему полезные кейсы.
Результат: GAIA — 87.88%, SimpleQA — 95%, в HLE — 24.4% и второе место.
Вывод: небольшая, тщательно отобранная память дает перенос на новые домены и стабильный рост качества — без дорогого дообучения, по‑человечески копя опыт.
📜 Полный обзор
Один красивый промпт давно не спасает: сложные задачи требуют планов, инструментов и памяти, а текущие агенты либо жестко заскриптованы, либо стоят дорого из‑за дообучения.
Цель AgentFly — научить агента улучшаться «на лету» без трогания весов модели.
Метод простой по идее и аккуратный в реализации: агент хранит прошлые удачные шаги как кейсы, формализует процесс как MDP с памятью, планировщик извлекает нужные примеры и пишет краткий план, исполнитель решает задачу с инструментами (веб, код, MCP), а мягкое Q‑обучение учит выбирать по‑настоящему полезные кейсы.
Результат: GAIA — 87.88%, SimpleQA — 95%, в HLE — 24.4% и второе место.
Вывод: небольшая, тщательно отобранная память дает перенос на новые домены и стабильный рост качества — без дорогого дообучения, по‑человечески копя опыт.
📜 Полный обзор
Telegraph
Как дообучать LLM на лету с помощью памяти вместо файнтюнинга
Когда мы просим большую языковую модель (LLM) решить сложную задачу, один красивый промт уже не спасает. В реальности это последовательность действий: надо искать, читать, писать код, проверять, исправлять. Агент должен планировать шаги, пользоваться инструментами…
Как построить мультиагентную систему, которая реально работает без магии и костылей
LLM уже неплохо рассуждают, но как только им нужно что-то сделать — сходить в базу, позвать API, управлять браузером — всё ломается из-за разнобоя интерфейсов и кода.
AgentScope 1.0 ставит простую цель: сделать из таких моделей аккуратных исполнителей. Для этого авторы собирают систему из понятных блоков — единый формат сообщений, общее API для моделей, память на короткие и длинные дистанции, инструменты через единый Toolkit и MCP — и запускают их в цикл ReAct с асинхронностью и параллельными вызовами. Сверху добавлены готовые агенты для ресерча и веб‑действий, мультиагентные сценарии, встроенная оценка и визуальный интерфейс с точной трассировкой, а для продакшна — безопасный runtime с песочницами и протоколами.
На практике это даёт меньше кода, больше скорости и прозрачный контроль качества. Итог простой: когда размышления и действия живут в одном фреймворке, модели становятся не собеседниками, а надёжными исполнителями с заделом на рост и сложные среды.
📜 Полный обзор
LLM уже неплохо рассуждают, но как только им нужно что-то сделать — сходить в базу, позвать API, управлять браузером — всё ломается из-за разнобоя интерфейсов и кода.
AgentScope 1.0 ставит простую цель: сделать из таких моделей аккуратных исполнителей. Для этого авторы собирают систему из понятных блоков — единый формат сообщений, общее API для моделей, память на короткие и длинные дистанции, инструменты через единый Toolkit и MCP — и запускают их в цикл ReAct с асинхронностью и параллельными вызовами. Сверху добавлены готовые агенты для ресерча и веб‑действий, мультиагентные сценарии, встроенная оценка и визуальный интерфейс с точной трассировкой, а для продакшна — безопасный runtime с песочницами и протоколами.
На практике это даёт меньше кода, больше скорости и прозрачный контроль качества. Итог простой: когда размышления и действия живут в одном фреймворке, модели становятся не собеседниками, а надёжными исполнителями с заделом на рост и сложные среды.
📜 Полный обзор
Telegraph
Как построить мультиагентную систему, которая реально работает без магии и костылей
Большие языковые модели (LLM) уже неплохо рассуждают, но настоящая ценность появляется, когда они умеют делать что‑то за пределами генерации текста: обращаться к базам данных, вызывать API, считать, ходить в веб‑браузер. Здесь появляются трудности: у разных…
Как Avengers‑Pro превращает зоопарк LLM в супер-роутер за счёт одного ползунка
Один ползунок — и все ваши языковые модели вдруг начинают работать как слаженная команда. Банально выбирать между «дорого, но точно» и «дёшево, но кое-как» больше не обязательно: Avengers‑Pro предлагает куда более хитрую стратегию. Он невыразимо просто сочетает разные LLM — от топовых GPT‑5 до резвых Qwen — и учится менять баланс между качеством и затратами одним движением. Всё прозрачно, гибко и легко регулируется, а результат — система, способная удивить даже опытных инженеров. Как удалось приручить весь этот зоопарк моделей и что это даёт на практике?
📜 Полный обзор
Один ползунок — и все ваши языковые модели вдруг начинают работать как слаженная команда. Банально выбирать между «дорого, но точно» и «дёшево, но кое-как» больше не обязательно: Avengers‑Pro предлагает куда более хитрую стратегию. Он невыразимо просто сочетает разные LLM — от топовых GPT‑5 до резвых Qwen — и учится менять баланс между качеством и затратами одним движением. Всё прозрачно, гибко и легко регулируется, а результат — система, способная удивить даже опытных инженеров. Как удалось приручить весь этот зоопарк моделей и что это даёт на практике?
📜 Полный обзор
Telegraph
Как Avengers‑Pro превращает зоопарк LLM в супер-роутер за счёт одного ползунка
Зачем вообще нужен умный роутинг Каждый, кто пробовал подключать большую языковую модель (LLM) к реальному продукту, сталкивался с простым выбором: либо точнее, но дорого, либо дешевле, но хуже. GPT‑5, по словам авторов работы, уже движется к решению за счёт…
AudioStory: ИИ в роли звукорежиссера
Сделать так, чтобы генерация звуковых историй с помощью ИИ была не просто приемлемой, а по-настоящему убедительной и атмосферной — долгое время казалось задачей на грани фантастики. Нейросети легко создают короткие аудиофрагменты, но стоит попросить их рассказать целую историю — получается нечто из лоскутков: перебивы, потерянная логика, путаные эмоции и швы между эпизодами. Весь тот вау-эффект, который обычно вкладывает звуковой режиссёр, будто бы ускользает.
Но вот появляется AudioStory. Теперь сюжет строится шаг за шагом, сцена за сценой, а ИИ постепенно учится не просто воспроизводить инструкции, а создавать цельные, логичные и реалистичные звуковые истории, где события тянутся друг за другом так же плавно, как и в настоящих фильмах или аудиокнигах. Как им это удалось и что внутри такого ИИ-звукорежиссёра?
📜 Полный обзор
Сделать так, чтобы генерация звуковых историй с помощью ИИ была не просто приемлемой, а по-настоящему убедительной и атмосферной — долгое время казалось задачей на грани фантастики. Нейросети легко создают короткие аудиофрагменты, но стоит попросить их рассказать целую историю — получается нечто из лоскутков: перебивы, потерянная логика, путаные эмоции и швы между эпизодами. Весь тот вау-эффект, который обычно вкладывает звуковой режиссёр, будто бы ускользает.
Но вот появляется AudioStory. Теперь сюжет строится шаг за шагом, сцена за сценой, а ИИ постепенно учится не просто воспроизводить инструкции, а создавать цельные, логичные и реалистичные звуковые истории, где события тянутся друг за другом так же плавно, как и в настоящих фильмах или аудиокнигах. Как им это удалось и что внутри такого ИИ-звукорежиссёра?
📜 Полный обзор
Telegraph
AudioStory: ИИ в роли звукорежиссера
Задача генерации коротких аудио давно решена. Но стоит попросить модель создать несколько минут цельного звукового повествования — с плавными переходами, повторяющимися темами, меняющейся эмоцией — всё рассыпается. Теряется логика и заметны артефакты. Именно…
Аккуратные дипфейки: как невидимые подмены лиц рушат доверие к видео
Многие привыкли думать о дипфейках как о полностью поддельных видео: будто кто-то взял, полностью заменил лицо или сгенерировал всё с нуля. Но на деле всё становится куда тоньше — и опаснее. Представьте, если в знакомом ролике тихо изменили всего один жест, переставили предмет на фоне или ловко стерли пару кадров. Такие незаметные правки почти не отличить ни невооружённым глазом, ни специальными программами. И вот это — уже сегодняшняя реальность. Исследователи придумали для таких скрытых подделок отдельный термин, собрали крупный набор примеров и даже показали, почему современные детекторы и мы сами так часто оказываемся в дураках. Как работают эти новые "невидимые" дипфейки, чем они опасны и что вообще с этим делать — в новом разборе.
📜 Полный обзор
Многие привыкли думать о дипфейках как о полностью поддельных видео: будто кто-то взял, полностью заменил лицо или сгенерировал всё с нуля. Но на деле всё становится куда тоньше — и опаснее. Представьте, если в знакомом ролике тихо изменили всего один жест, переставили предмет на фоне или ловко стерли пару кадров. Такие незаметные правки почти не отличить ни невооружённым глазом, ни специальными программами. И вот это — уже сегодняшняя реальность. Исследователи придумали для таких скрытых подделок отдельный термин, собрали крупный набор примеров и даже показали, почему современные детекторы и мы сами так часто оказываемся в дураках. Как работают эти новые "невидимые" дипфейки, чем они опасны и что вообще с этим делать — в новом разборе.
📜 Полный обзор
Telegraph
Аккуратные дипфейки: как невидимые подмены лиц рушат доверие к видео
Часто мы думаем о дипфейках как о полностью синтетических роликах. Но в реальной жизни все чаще встречаются такие аккуратные подмены, когда меняют не все видео, а лишь небольшую часть: жесты, лицо, объект на столе или несколько кадров в середине. Такие точечные…
Увидел-кликнул-победил: как UItron управляет компьютером по-человечески
Могут ли нейросети действительно пользоваться компьютером — видеть обычный экран, выбирать нужные кнопки, запускать приложения, одним словом, действовать как живой человек с мышкой и клавиатурой? Оказывается, такие агенты уже не фантастика.
⠀
В свежем исследовании команда UItron показала, как можно научить ИИ не просто понимать команды, а самостоятельно разбираться в сложных интерфейсах, планировать свои действия и шаг за шагом решать сложные задачи. Интересно, что для этого им пришлось переосмыслить саму идею о том, что значит "опыт" для машины.
Разбираемся, как всё это работает, — в новом обзоре.
📜 Полный обзор
Могут ли нейросети действительно пользоваться компьютером — видеть обычный экран, выбирать нужные кнопки, запускать приложения, одним словом, действовать как живой человек с мышкой и клавиатурой? Оказывается, такие агенты уже не фантастика.
⠀
В свежем исследовании команда UItron показала, как можно научить ИИ не просто понимать команды, а самостоятельно разбираться в сложных интерфейсах, планировать свои действия и шаг за шагом решать сложные задачи. Интересно, что для этого им пришлось переосмыслить саму идею о том, что значит "опыт" для машины.
Разбираемся, как всё это работает, — в новом обзоре.
📜 Полный обзор
Telegraph
Увидел-кликнул-победил: как UItron управляет компьютером по-человечески
Могут ли когда-нибудь ИИ-агенты работать с компьютерами так же, как люди — видеть, понимать, кликать мышкой, запускать приложения и выполнять длинные цепочки заданий? Сегодня это уже не фантастика. Новое поколение моделей, таких как UItron, обещает перевернуть…
Память для роботов: как машины учатся видеть мир осознанно
Как научить робота не просто идти по указке, а видеть окружающий мир осмысленно — почти как человек? Сейчас даже самые продвинутые ИИ в роботах часто живут «здесь и сейчас»: увидели диван — пошли к дивану, только камера повернулась — всё забыли. В итоге их навигация напоминает путешествие вслепую, где нет места памяти о прошлом и настоящему планированию. А у человеческого мозга с этим всё хорошо: карта местности в голове и опыт, который легко пересобирается под цель.
Команда исследователей посмотрела, как наше мышление можно перенести на алгоритмы, и собрала для робота не просто память, а целую когнитивную карту. В результате он начинает думать маршрутами, оперировать ориентирами, «удивляться» новому и экономно хранить только важное. Ведь когда машина впервые учится замечать не только объекты вокруг, но и структуру событий — это совсем другой уровень ИИ.
Как устроен этот подход и что получилось в реальных экспериментах — обо всём по порядку.
📜 Полный обзор
Как научить робота не просто идти по указке, а видеть окружающий мир осмысленно — почти как человек? Сейчас даже самые продвинутые ИИ в роботах часто живут «здесь и сейчас»: увидели диван — пошли к дивану, только камера повернулась — всё забыли. В итоге их навигация напоминает путешествие вслепую, где нет места памяти о прошлом и настоящему планированию. А у человеческого мозга с этим всё хорошо: карта местности в голове и опыт, который легко пересобирается под цель.
Команда исследователей посмотрела, как наше мышление можно перенести на алгоритмы, и собрала для робота не просто память, а целую когнитивную карту. В результате он начинает думать маршрутами, оперировать ориентирами, «удивляться» новому и экономно хранить только важное. Ведь когда машина впервые учится замечать не только объекты вокруг, но и структуру событий — это совсем другой уровень ИИ.
Как устроен этот подход и что получилось в реальных экспериментах — обо всём по порядку.
📜 Полный обзор
Telegraph
Память для роботов: как машины учатся видеть мир осознанно
Сегодня многие ИИ-агенты остаются реактивными: видят кадр — действуют, видят следующий — снова действуют, а связной картины мира не формируют. Отсюда проблемы с дальними маршрутами, переиспользованием опыта и гибкостью. В биологии это решено элегантно: мозг…
Почему Text-to-SQL до сих пор ломается и как это исправить
Если вы когда-нибудь пытались получить нужный отчет из базы данных с помощью ИИ — скорее всего, столкнулись с забавной загадкой: почему-то даже продвинутые языковые модели то спотыкаются на связях между таблицами, то забывают ключевую фильтрацию, то просто возвращают не тот ответ. Формально запрос работает, а по сути — совсем не то. Почему так происходит? И можно ли научить ИИ писать правильный SQL, а не гадать до бесконечности?
В новой статье исследователи предлагают необычный подход: они учат модель распознавать собственные ошибки и исправлять логику, а не просто механически менять структуру запроса. Заодно выясняем, насколько такая система помогает избежать классических промахов и что изменится для пользователей, которым важно получать не просто рабочий код, а действительно осмысленный результат.
📜 Полный обзор
Если вы когда-нибудь пытались получить нужный отчет из базы данных с помощью ИИ — скорее всего, столкнулись с забавной загадкой: почему-то даже продвинутые языковые модели то спотыкаются на связях между таблицами, то забывают ключевую фильтрацию, то просто возвращают не тот ответ. Формально запрос работает, а по сути — совсем не то. Почему так происходит? И можно ли научить ИИ писать правильный SQL, а не гадать до бесконечности?
В новой статье исследователи предлагают необычный подход: они учат модель распознавать собственные ошибки и исправлять логику, а не просто механически менять структуру запроса. Заодно выясняем, насколько такая система помогает избежать классических промахов и что изменится для пользователей, которым важно получать не просто рабочий код, а действительно осмысленный результат.
📜 Полный обзор
Telegraph
Почему Text-to-SQL до сих пор ломается и как это исправить
Превратить вопрос человека в корректный SQL — задача на удивление непростая. Большие языковые модели хорошо пишут валидный синтаксис, но легко промахиваются в логике: путают таблицы, соединяют не тем ключом, забывают GROUP BY, ставят неправильные фильтры.…
Vision Language World Model: язык как картина мира
До сих пор искусственный интеллект воспринимает мир как набор пикселей. Но что, если научить ИИ понимать смысл увиденного, а не только картинки? Один из свежих подходов — VLWM: модель, которая переводит реальность в слова и смыслы, позволяя роботам строить осмысленные планы на будущее. В этой статье разбираемся, как агенты научились планировать, проверять гипотезы внутри своей модели мира и выбирать самый разумный вариант.
📜 Полный обзор
До сих пор искусственный интеллект воспринимает мир как набор пикселей. Но что, если научить ИИ понимать смысл увиденного, а не только картинки? Один из свежих подходов — VLWM: модель, которая переводит реальность в слова и смыслы, позволяя роботам строить осмысленные планы на будущее. В этой статье разбираемся, как агенты научились планировать, проверять гипотезы внутри своей модели мира и выбирать самый разумный вариант.
📜 Полный обзор
Telegraph
Vision Language World Model: язык как картина мира
Когда мы просим машину помочь нам приготовить обед или заменить SIM‑карту, она должна не просто распознать предметы в кадре, а представить, как мир будет меняться от шага к шагу. Пока большинство систем видят пиксели и отвечают короткими фразами, планирование…