Dataism Science Hub

Channel created

16:25

Секрет уверенного робота — в умении указывать

Почему роботы так часто зависают между пониманием и действием? Они видят чашку, но не знают, как обойти тарелку рядом и куда эту чашку поставить. Этот разрыв между зрением и действием — главный барьер на пути к по-настоящему автономным системам. Команда Embodied-R1 предлагает неожиданно простой и мощный выход: научить робота языку «указаний» — точкам и следам на картинке. Такой язык одинаково понятен и человеку, и машине, он напрямую связывает восприятие с действием, делая поведение робота предсказуемым, устойчивым и уверенным даже в незнакомых условиях.

📜 Полный обзор

Telegraph

Покажи — и робот поймёт: как Embodied‑R1 сокращает разрыв между «вижу» и «делаю»

Зачем роботам нужен «указательный» язык Роботы всё чаще видят мир камерой и читают наши текстовые инструкции. Но часто это «знание» не превращается в верное действие: модель понимает, что такое «чашка», но не знает, куда её ставить и как обойти соседние предметы.…

34 views20:18

Dataism Science Hub

OmniTry: виртуальная примерка одежды и аксессуаров без масок — система сама найдёт, куда «надеть»

Онлайн‑примерка одежды без масок и ручной разметки сегодня становится реальностью. OmniTry — диффузионный трансформер, который сам локализует объект на фото и сохраняет идентичность конкретного товара — от очков и серёжек до сумок и галстуков. В статье — разбираемся с двухэтапным обучением, «стиранием без следов» и собственным бенчмарком на 12 категорий предметов.

📜 Полный обзор

Telegraph

OmniTry: виртуальная примерка одежды и аксессуаров без масок — система сама найдёт, куда «надеть»

Если вы когда‑нибудь пытались «примерить» очки или галстук на своё фото с помощью приложения, вы знаете главный подвох: системе нужно руками подсказать область замены — нарисовать маску или рамку. Для сотен типов предметов это неудобно и плохо масштабируется.…

54 views20:21

Dataism Science Hub

Нажал — и мир двинулся: Matrix-Game 2.0 делает видео интерактивным в реальном времени

ИИ умеет генерировать видео, но жить внутри него у него не получалось: когда нужно двигать камерой и управлять объектами, модели тормозили, забывали начало ролика и накапливали ошибки — да ещё и нормальных данных с точными нажатиями почти не было.

Matrix-Game 2.0 - это интерактивная модель мира. Она ставит цель сделать видео, которое реагирует на мышь и клавиатуру как игра, в реальном времени. Для этого собрали около 1200 часов данных в Unreal Engine и GTA5 и обучили авторегрессивную модель: трёхмерный автоэнкодер ужимает кадры, диффузия сведена к нескольким шагам, генерация идёт потоком с кэшем, а действия мыши и клавиш подаются отдельно и аккуратно.

Результат — 25 кадров в секунду на одной H100, минуты устойчивого видео без провалов памяти и точный отклик кадр-в-кадр; в тестах система обгоняет решения уровня Oasis в Minecraft и держит динамику на уровне YUME при большей устойчивости. По дороге выяснилось, что слишком большой кэш портит длинные ролики, а умеренное окно работает лучше.

Вывод: когда миру, сгенерированному ИИ, добавляешь тактильность «нажал — и поехало», видеодиффузия становится базой для интерактивных агентов — тем более что код и веса обещают выпустить в открытый доступ.

📜 Полный обзор

Telegraph

Нажал — и мир двинулся: Matrix-Game 2.0 делает видео интерактивным в реальном времени

Интерактивные модели мира — это способ учить ИИ «ощущать» мир, а не только описывать его словами. Но до недавнего времени у таких моделей было три больших препятствия: не хватало качественных данных с точной пометкой действий; классические видеодиффузоры…

72 views22:47

Dataism Science Hub

Как дообучать LLM на лету с помощью памяти вместо файнтюнинга

Один красивый промпт давно не спасает: сложные задачи требуют планов, инструментов и памяти, а текущие агенты либо жестко заскриптованы, либо стоят дорого из‑за дообучения.

Цель AgentFly — научить агента улучшаться «на лету» без трогания весов модели.

Метод простой по идее и аккуратный в реализации: агент хранит прошлые удачные шаги как кейсы, формализует процесс как MDP с памятью, планировщик извлекает нужные примеры и пишет краткий план, исполнитель решает задачу с инструментами (веб, код, MCP), а мягкое Q‑обучение учит выбирать по‑настоящему полезные кейсы.

Результат: GAIA — 87.88%, SimpleQA — 95%, в HLE — 24.4% и второе место.

Вывод: небольшая, тщательно отобранная память дает перенос на новые домены и стабильный рост качества — без дорогого дообучения, по‑человечески копя опыт.

📜 Полный обзор

Telegraph

Как дообучать LLM на лету с помощью памяти вместо файнтюнинга

Когда мы просим большую языковую модель (LLM) решить сложную задачу, один красивый промт уже не спасает. В реальности это последовательность действий: надо искать, читать, писать код, проверять, исправлять. Агент должен планировать шаги, пользоваться инструментами…

127 viewsedited 09:52

Dataism Science Hub

Как построить мультиагентную систему, которая реально работает без магии и костылей

LLM уже неплохо рассуждают, но как только им нужно что-то сделать — сходить в базу, позвать API, управлять браузером — всё ломается из-за разнобоя интерфейсов и кода.

AgentScope 1.0 ставит простую цель: сделать из таких моделей аккуратных исполнителей. Для этого авторы собирают систему из понятных блоков — единый формат сообщений, общее API для моделей, память на короткие и длинные дистанции, инструменты через единый Toolkit и MCP — и запускают их в цикл ReAct с асинхронностью и параллельными вызовами. Сверху добавлены готовые агенты для ресерча и веб‑действий, мультиагентные сценарии, встроенная оценка и визуальный интерфейс с точной трассировкой, а для продакшна — безопасный runtime с песочницами и протоколами.

На практике это даёт меньше кода, больше скорости и прозрачный контроль качества. Итог простой: когда размышления и действия живут в одном фреймворке, модели становятся не собеседниками, а надёжными исполнителями с заделом на рост и сложные среды.

📜 Полный обзор

Telegraph

Как построить мультиагентную систему, которая реально работает без магии и костылей

Большие языковые модели (LLM) уже неплохо рассуждают, но настоящая ценность появляется, когда они умеют делать что‑то за пределами генерации текста: обращаться к базам данных, вызывать API, считать, ходить в веб‑браузер. Здесь появляются трудности: у разных…

130 viewsedited 09:11

Dataism Science Hub

Как Avengers‑Pro превращает зоопарк LLM в супер-роутер за счёт одного ползунка

Один ползунок — и все ваши языковые модели вдруг начинают работать как слаженная команда. Банально выбирать между «дорого, но точно» и «дёшево, но кое-как» больше не обязательно: Avengers‑Pro предлагает куда более хитрую стратегию. Он невыразимо просто сочетает разные LLM — от топовых GPT‑5 до резвых Qwen — и учится менять баланс между качеством и затратами одним движением. Всё прозрачно, гибко и легко регулируется, а результат — система, способная удивить даже опытных инженеров. Как удалось приручить весь этот зоопарк моделей и что это даёт на практике?

📜 Полный обзор

Telegraph

Как Avengers‑Pro превращает зоопарк LLM в супер-роутер за счёт одного ползунка

Зачем вообще нужен умный роутинг Каждый, кто пробовал подключать большую языковую модель (LLM) к реальному продукту, сталкивался с простым выбором: либо точнее, но дорого, либо дешевле, но хуже. GPT‑5, по словам авторов работы, уже движется к решению за счёт…

98 viewsedited 15:07

Dataism Science Hub

AudioStory: ИИ в роли звукорежиссера

Сделать так, чтобы генерация звуковых историй с помощью ИИ была не просто приемлемой, а по-настоящему убедительной и атмосферной — долгое время казалось задачей на грани фантастики. Нейросети легко создают короткие аудиофрагменты, но стоит попросить их рассказать целую историю — получается нечто из лоскутков: перебивы, потерянная логика, путаные эмоции и швы между эпизодами. Весь тот вау-эффект, который обычно вкладывает звуковой режиссёр, будто бы ускользает.

Но вот появляется AudioStory. Теперь сюжет строится шаг за шагом, сцена за сценой, а ИИ постепенно учится не просто воспроизводить инструкции, а создавать цельные, логичные и реалистичные звуковые истории, где события тянутся друг за другом так же плавно, как и в настоящих фильмах или аудиокнигах. Как им это удалось и что внутри такого ИИ-звукорежиссёра?

📜 Полный обзор

Telegraph

AudioStory: ИИ в роли звукорежиссера

Задача генерации коротких аудио давно решена. Но стоит попросить модель создать несколько минут цельного звукового повествования — с плавными переходами, повторяющимися темами, меняющейся эмоцией — всё рассыпается. Теряется логика и заметны артефакты. Именно…

78 views08:04

Dataism Science Hub

Аккуратные дипфейки: как невидимые подмены лиц рушат доверие к видео

Многие привыкли думать о дипфейках как о полностью поддельных видео: будто кто-то взял, полностью заменил лицо или сгенерировал всё с нуля. Но на деле всё становится куда тоньше — и опаснее. Представьте, если в знакомом ролике тихо изменили всего один жест, переставили предмет на фоне или ловко стерли пару кадров. Такие незаметные правки почти не отличить ни невооружённым глазом, ни специальными программами. И вот это — уже сегодняшняя реальность. Исследователи придумали для таких скрытых подделок отдельный термин, собрали крупный набор примеров и даже показали, почему современные детекторы и мы сами так часто оказываемся в дураках. Как работают эти новые "невидимые" дипфейки, чем они опасны и что вообще с этим делать — в новом разборе.

📜 Полный обзор

Telegraph

Аккуратные дипфейки: как невидимые подмены лиц рушат доверие к видео

Часто мы думаем о дипфейках как о полностью синтетических роликах. Но в реальной жизни все чаще встречаются такие аккуратные подмены, когда меняют не все видео, а лишь небольшую часть: жесты, лицо, объект на столе или несколько кадров в середине. Такие точечные…

64 views12:27

Dataism Science Hub

Увидел-кликнул-победил: как UItron управляет компьютером по-человечески

Могут ли нейросети действительно пользоваться компьютером — видеть обычный экран, выбирать нужные кнопки, запускать приложения, одним словом, действовать как живой человек с мышкой и клавиатурой? Оказывается, такие агенты уже не фантастика.
⠀
В свежем исследовании команда UItron показала, как можно научить ИИ не просто понимать команды, а самостоятельно разбираться в сложных интерфейсах, планировать свои действия и шаг за шагом решать сложные задачи. Интересно, что для этого им пришлось переосмыслить саму идею о том, что значит "опыт" для машины.

Разбираемся, как всё это работает, — в новом обзоре.

📜 Полный обзор

Telegraph

Увидел-кликнул-победил: как UItron управляет компьютером по-человечески

Могут ли когда-нибудь ИИ-агенты работать с компьютерами так же, как люди — видеть, понимать, кликать мышкой, запускать приложения и выполнять длинные цепочки заданий? Сегодня это уже не фантастика. Новое поколение моделей, таких как UItron, обещает перевернуть…

74 viewsedited 12:47

Dataism Science Hub

Память для роботов: как машины учатся видеть мир осознанно

Как научить робота не просто идти по указке, а видеть окружающий мир осмысленно — почти как человек? Сейчас даже самые продвинутые ИИ в роботах часто живут «здесь и сейчас»: увидели диван — пошли к дивану, только камера повернулась — всё забыли. В итоге их навигация напоминает путешествие вслепую, где нет места памяти о прошлом и настоящему планированию. А у человеческого мозга с этим всё хорошо: карта местности в голове и опыт, который легко пересобирается под цель.

Команда исследователей посмотрела, как наше мышление можно перенести на алгоритмы, и собрала для робота не просто память, а целую когнитивную карту. В результате он начинает думать маршрутами, оперировать ориентирами, «удивляться» новому и экономно хранить только важное. Ведь когда машина впервые учится замечать не только объекты вокруг, но и структуру событий — это совсем другой уровень ИИ.

Как устроен этот подход и что получилось в реальных экспериментах — обо всём по порядку.

📜 Полный обзор

Telegraph

Память для роботов: как машины учатся видеть мир осознанно

Сегодня многие ИИ-агенты остаются реактивными: видят кадр — действуют, видят следующий — снова действуют, а связной картины мира не формируют. Отсюда проблемы с дальними маршрутами, переиспользованием опыта и гибкостью. В биологии это решено элегантно: мозг…

69 views10:28

Dataism Science Hub

Почему Text-to-SQL до сих пор ломается и как это исправить

Если вы когда-нибудь пытались получить нужный отчет из базы данных с помощью ИИ — скорее всего, столкнулись с забавной загадкой: почему-то даже продвинутые языковые модели то спотыкаются на связях между таблицами, то забывают ключевую фильтрацию, то просто возвращают не тот ответ. Формально запрос работает, а по сути — совсем не то. Почему так происходит? И можно ли научить ИИ писать правильный SQL, а не гадать до бесконечности?

В новой статье исследователи предлагают необычный подход: они учат модель распознавать собственные ошибки и исправлять логику, а не просто механически менять структуру запроса. Заодно выясняем, насколько такая система помогает избежать классических промахов и что изменится для пользователей, которым важно получать не просто рабочий код, а действительно осмысленный результат.

📜 Полный обзор

Telegraph

Почему Text-to-SQL до сих пор ломается и как это исправить

Превратить вопрос человека в корректный SQL — задача на удивление непростая. Большие языковые модели хорошо пишут валидный синтаксис, но легко промахиваются в логике: путают таблицы, соединяют не тем ключом, забывают GROUP BY, ставят неправильные фильтры.…

83 views16:20

Dataism Science Hub

Vision Language World Model: язык как картина мира

До сих пор искусственный интеллект воспринимает мир как набор пикселей. Но что, если научить ИИ понимать смысл увиденного, а не только картинки? Один из свежих подходов — VLWM: модель, которая переводит реальность в слова и смыслы, позволяя роботам строить осмысленные планы на будущее. В этой статье разбираемся, как агенты научились планировать, проверять гипотезы внутри своей модели мира и выбирать самый разумный вариант.

📜 Полный обзор

Telegraph

Vision Language World Model: язык как картина мира

Когда мы просим машину помочь нам приготовить обед или заменить SIM‑карту, она должна не просто распознать предметы в кадре, а представить, как мир будет меняться от шага к шагу. Пока большинство систем видят пиксели и отвечают короткими фразами, планирование…

108 views15:29

About

Blog

Apps

Platform