Dataism Science Hub
113 subscribers
92 links
🤖 Дневник ИИ-исследователя: обзор новых статей в области искусственного интеллекта

@andre_dataist
Download Telegram
Channel created
Секрет уверенного робота — в умении указывать

Почему роботы так часто зависают между пониманием и действием? Они видят чашку, но не знают, как обойти тарелку рядом и куда эту чашку поставить. Этот разрыв между зрением и действием — главный барьер на пути к по-настоящему автономным системам. Команда Embodied-R1 предлагает неожиданно простой и мощный выход: научить робота языку «указаний» — точкам и следам на картинке. Такой язык одинаково понятен и человеку, и машине, он напрямую связывает восприятие с действием, делая поведение робота предсказуемым, устойчивым и уверенным даже в незнакомых условиях.

📜 Полный обзор
OmniTry: виртуальная примерка одежды и аксессуаров без масок — система сама найдёт, куда «надеть»

Онлайн‑примерка одежды без масок и ручной разметки сегодня становится реальностью. OmniTry — диффузионный трансформер, который сам локализует объект на фото и сохраняет идентичность конкретного товара — от очков и серёжек до сумок и галстуков. В статье — разбираемся с двухэтапным обучением, «стиранием без следов» и собственным бенчмарком на 12 категорий предметов.

📜 Полный обзор
Нажал — и мир двинулся: Matrix-Game 2.0 делает видео интерактивным в реальном времени

ИИ умеет генерировать видео, но жить внутри него у него не получалось: когда нужно двигать камерой и управлять объектами, модели тормозили, забывали начало ролика и накапливали ошибки — да ещё и нормальных данных с точными нажатиями почти не было.

Matrix-Game 2.0 - это интерактивная модель мира. Она ставит цель сделать видео, которое реагирует на мышь и клавиатуру как игра, в реальном времени. Для этого собрали около 1200 часов данных в Unreal Engine и GTA5 и обучили авторегрессивную модель: трёхмерный автоэнкодер ужимает кадры, диффузия сведена к нескольким шагам, генерация идёт потоком с кэшем, а действия мыши и клавиш подаются отдельно и аккуратно.

Результат — 25 кадров в секунду на одной H100, минуты устойчивого видео без провалов памяти и точный отклик кадр-в-кадр; в тестах система обгоняет решения уровня Oasis в Minecraft и держит динамику на уровне YUME при большей устойчивости. По дороге выяснилось, что слишком большой кэш портит длинные ролики, а умеренное окно работает лучше.

Вывод: когда миру, сгенерированному ИИ, добавляешь тактильность «нажал — и поехало», видеодиффузия становится базой для интерактивных агентов — тем более что код и веса обещают выпустить в открытый доступ.

📜 Полный обзор
Как дообучать LLM на лету с помощью памяти вместо файнтюнинга

Один красивый промпт давно не спасает: сложные задачи требуют планов, инструментов и памяти, а текущие агенты либо жестко заскриптованы, либо стоят дорого из‑за дообучения.

Цель AgentFly — научить агента улучшаться «на лету» без трогания весов модели.

Метод простой по идее и аккуратный в реализации: агент хранит прошлые удачные шаги как кейсы, формализует процесс как MDP с памятью, планировщик извлекает нужные примеры и пишет краткий план, исполнитель решает задачу с инструментами (веб, код, MCP), а мягкое Q‑обучение учит выбирать по‑настоящему полезные кейсы.

Результат: GAIA — 87.88%, SimpleQA — 95%, в HLE — 24.4% и второе место.

Вывод: небольшая, тщательно отобранная память дает перенос на новые домены и стабильный рост качества — без дорогого дообучения, по‑человечески копя опыт.

📜 Полный обзор
Как построить мультиагентную систему, которая реально работает без магии и костылей

LLM уже неплохо рассуждают, но как только им нужно что-то сделать — сходить в базу, позвать API, управлять браузером — всё ломается из-за разнобоя интерфейсов и кода.

AgentScope 1.0 ставит простую цель: сделать из таких моделей аккуратных исполнителей. Для этого авторы собирают систему из понятных блоков — единый формат сообщений, общее API для моделей, память на короткие и длинные дистанции, инструменты через единый Toolkit и MCP — и запускают их в цикл ReAct с асинхронностью и параллельными вызовами. Сверху добавлены готовые агенты для ресерча и веб‑действий, мультиагентные сценарии, встроенная оценка и визуальный интерфейс с точной трассировкой, а для продакшна — безопасный runtime с песочницами и протоколами.

На практике это даёт меньше кода, больше скорости и прозрачный контроль качества. Итог простой: когда размышления и действия живут в одном фреймворке, модели становятся не собеседниками, а надёжными исполнителями с заделом на рост и сложные среды.

📜 Полный обзор
Как Avengers‑Pro превращает зоопарк LLM в супер-роутер за счёт одного ползунка

Один ползунок — и все ваши языковые модели вдруг начинают работать как слаженная команда. Банально выбирать между «дорого, но точно» и «дёшево, но кое-как» больше не обязательно: Avengers‑Pro предлагает куда более хитрую стратегию. Он невыразимо просто сочетает разные LLM — от топовых GPT‑5 до резвых Qwen — и учится менять баланс между качеством и затратами одним движением. Всё прозрачно, гибко и легко регулируется, а результат — система, способная удивить даже опытных инженеров. Как удалось приручить весь этот зоопарк моделей и что это даёт на практике?

📜 Полный обзор
AudioStory: ИИ в роли звукорежиссера

Сделать так, чтобы генерация звуковых историй с помощью ИИ была не просто приемлемой, а по-настоящему убедительной и атмосферной — долгое время казалось задачей на грани фантастики. Нейросети легко создают короткие аудиофрагменты, но стоит попросить их рассказать целую историю — получается нечто из лоскутков: перебивы, потерянная логика, путаные эмоции и швы между эпизодами. Весь тот вау-эффект, который обычно вкладывает звуковой режиссёр, будто бы ускользает.

Но вот появляется AudioStory. Теперь сюжет строится шаг за шагом, сцена за сценой, а ИИ постепенно учится не просто воспроизводить инструкции, а создавать цельные, логичные и реалистичные звуковые истории, где события тянутся друг за другом так же плавно, как и в настоящих фильмах или аудиокнигах. Как им это удалось и что внутри такого ИИ-звукорежиссёра?

📜 Полный обзор
Аккуратные дипфейки: как невидимые подмены лиц рушат доверие к видео

Многие привыкли думать о дипфейках как о полностью поддельных видео: будто кто-то взял, полностью заменил лицо или сгенерировал всё с нуля. Но на деле всё становится куда тоньше — и опаснее. Представьте, если в знакомом ролике тихо изменили всего один жест, переставили предмет на фоне или ловко стерли пару кадров. Такие незаметные правки почти не отличить ни невооружённым глазом, ни специальными программами. И вот это — уже сегодняшняя реальность. Исследователи придумали для таких скрытых подделок отдельный термин, собрали крупный набор примеров и даже показали, почему современные детекторы и мы сами так часто оказываемся в дураках. Как работают эти новые "невидимые" дипфейки, чем они опасны и что вообще с этим делать — в новом разборе.

📜 Полный обзор
Увидел-кликнул-победил: как UItron управляет компьютером по-человечески

Могут ли нейросети действительно пользоваться компьютером — видеть обычный экран, выбирать нужные кнопки, запускать приложения, одним словом, действовать как живой человек с мышкой и клавиатурой? Оказывается, такие агенты уже не фантастика.

В свежем исследовании команда UItron показала, как можно научить ИИ не просто понимать команды, а самостоятельно разбираться в сложных интерфейсах, планировать свои действия и шаг за шагом решать сложные задачи. Интересно, что для этого им пришлось переосмыслить саму идею о том, что значит "опыт" для машины.

Разбираемся, как всё это работает, — в новом обзоре.

📜 Полный обзор
Память для роботов: как машины учатся видеть мир осознанно

Как научить робота не просто идти по указке, а видеть окружающий мир осмысленно — почти как человек? Сейчас даже самые продвинутые ИИ в роботах часто живут «здесь и сейчас»: увидели диван — пошли к дивану, только камера повернулась — всё забыли. В итоге их навигация напоминает путешествие вслепую, где нет места памяти о прошлом и настоящему планированию. А у человеческого мозга с этим всё хорошо: карта местности в голове и опыт, который легко пересобирается под цель.

Команда исследователей посмотрела, как наше мышление можно перенести на алгоритмы, и собрала для робота не просто память, а целую когнитивную карту. В результате он начинает думать маршрутами, оперировать ориентирами, «удивляться» новому и экономно хранить только важное. Ведь когда машина впервые учится замечать не только объекты вокруг, но и структуру событий — это совсем другой уровень ИИ.

Как устроен этот подход и что получилось в реальных экспериментах — обо всём по порядку.

📜 Полный обзор
Почему Text-to-SQL до сих пор ломается и как это исправить

Если вы когда-нибудь пытались получить нужный отчет из базы данных с помощью ИИ — скорее всего, столкнулись с забавной загадкой: почему-то даже продвинутые языковые модели то спотыкаются на связях между таблицами, то забывают ключевую фильтрацию, то просто возвращают не тот ответ. Формально запрос работает, а по сути — совсем не то. Почему так происходит? И можно ли научить ИИ писать правильный SQL, а не гадать до бесконечности?

В новой статье исследователи предлагают необычный подход: они учат модель распознавать собственные ошибки и исправлять логику, а не просто механически менять структуру запроса. Заодно выясняем, насколько такая система помогает избежать классических промахов и что изменится для пользователей, которым важно получать не просто рабочий код, а действительно осмысленный результат.

📜 Полный обзор
Vision Language World Model: язык как картина мира

До сих пор искусственный интеллект воспринимает мир как набор пикселей. Но что, если научить ИИ понимать смысл увиденного, а не только картинки? Один из свежих подходов — VLWM: модель, которая переводит реальность в слова и смыслы, позволяя роботам строить осмысленные планы на будущее. В этой статье разбираемся, как агенты научились планировать, проверять гипотезы внутри своей модели мира и выбирать самый разумный вариант.

📜 Полный обзор