OmniTry: виртуальная примерка одежды и аксессуаров без масок — система сама найдёт, куда «надеть»
Онлайн‑примерка одежды без масок и ручной разметки сегодня становится реальностью. OmniTry — диффузионный трансформер, который сам локализует объект на фото и сохраняет идентичность конкретного товара — от очков и серёжек до сумок и галстуков. В статье — разбираемся с двухэтапным обучением, «стиранием без следов» и собственным бенчмарком на 12 категорий предметов.
📜 Полный обзор
Онлайн‑примерка одежды без масок и ручной разметки сегодня становится реальностью. OmniTry — диффузионный трансформер, который сам локализует объект на фото и сохраняет идентичность конкретного товара — от очков и серёжек до сумок и галстуков. В статье — разбираемся с двухэтапным обучением, «стиранием без следов» и собственным бенчмарком на 12 категорий предметов.
📜 Полный обзор
Telegraph
OmniTry: виртуальная примерка одежды и аксессуаров без масок — система сама найдёт, куда «надеть»
Если вы когда‑нибудь пытались «примерить» очки или галстук на своё фото с помощью приложения, вы знаете главный подвох: системе нужно руками подсказать область замены — нарисовать маску или рамку. Для сотен типов предметов это неудобно и плохо масштабируется.…
Нажал — и мир двинулся: Matrix-Game 2.0 делает видео интерактивным в реальном времени
ИИ умеет генерировать видео, но жить внутри него у него не получалось: когда нужно двигать камерой и управлять объектами, модели тормозили, забывали начало ролика и накапливали ошибки — да ещё и нормальных данных с точными нажатиями почти не было.
Matrix-Game 2.0 - это интерактивная модель мира. Она ставит цель сделать видео, которое реагирует на мышь и клавиатуру как игра, в реальном времени. Для этого собрали около 1200 часов данных в Unreal Engine и GTA5 и обучили авторегрессивную модель: трёхмерный автоэнкодер ужимает кадры, диффузия сведена к нескольким шагам, генерация идёт потоком с кэшем, а действия мыши и клавиш подаются отдельно и аккуратно.
Результат — 25 кадров в секунду на одной H100, минуты устойчивого видео без провалов памяти и точный отклик кадр-в-кадр; в тестах система обгоняет решения уровня Oasis в Minecraft и держит динамику на уровне YUME при большей устойчивости. По дороге выяснилось, что слишком большой кэш портит длинные ролики, а умеренное окно работает лучше.
Вывод: когда миру, сгенерированному ИИ, добавляешь тактильность «нажал — и поехало», видеодиффузия становится базой для интерактивных агентов — тем более что код и веса обещают выпустить в открытый доступ.
📜 Полный обзор
ИИ умеет генерировать видео, но жить внутри него у него не получалось: когда нужно двигать камерой и управлять объектами, модели тормозили, забывали начало ролика и накапливали ошибки — да ещё и нормальных данных с точными нажатиями почти не было.
Matrix-Game 2.0 - это интерактивная модель мира. Она ставит цель сделать видео, которое реагирует на мышь и клавиатуру как игра, в реальном времени. Для этого собрали около 1200 часов данных в Unreal Engine и GTA5 и обучили авторегрессивную модель: трёхмерный автоэнкодер ужимает кадры, диффузия сведена к нескольким шагам, генерация идёт потоком с кэшем, а действия мыши и клавиш подаются отдельно и аккуратно.
Результат — 25 кадров в секунду на одной H100, минуты устойчивого видео без провалов памяти и точный отклик кадр-в-кадр; в тестах система обгоняет решения уровня Oasis в Minecraft и держит динамику на уровне YUME при большей устойчивости. По дороге выяснилось, что слишком большой кэш портит длинные ролики, а умеренное окно работает лучше.
Вывод: когда миру, сгенерированному ИИ, добавляешь тактильность «нажал — и поехало», видеодиффузия становится базой для интерактивных агентов — тем более что код и веса обещают выпустить в открытый доступ.
📜 Полный обзор
Telegraph
Нажал — и мир двинулся: Matrix-Game 2.0 делает видео интерактивным в реальном времени
Интерактивные модели мира — это способ учить ИИ «ощущать» мир, а не только описывать его словами. Но до недавнего времени у таких моделей было три больших препятствия: не хватало качественных данных с точной пометкой действий; классические видеодиффузоры…
Как дообучать LLM на лету с помощью памяти вместо файнтюнинга
Один красивый промпт давно не спасает: сложные задачи требуют планов, инструментов и памяти, а текущие агенты либо жестко заскриптованы, либо стоят дорого из‑за дообучения.
Цель AgentFly — научить агента улучшаться «на лету» без трогания весов модели.
Метод простой по идее и аккуратный в реализации: агент хранит прошлые удачные шаги как кейсы, формализует процесс как MDP с памятью, планировщик извлекает нужные примеры и пишет краткий план, исполнитель решает задачу с инструментами (веб, код, MCP), а мягкое Q‑обучение учит выбирать по‑настоящему полезные кейсы.
Результат: GAIA — 87.88%, SimpleQA — 95%, в HLE — 24.4% и второе место.
Вывод: небольшая, тщательно отобранная память дает перенос на новые домены и стабильный рост качества — без дорогого дообучения, по‑человечески копя опыт.
📜 Полный обзор
Один красивый промпт давно не спасает: сложные задачи требуют планов, инструментов и памяти, а текущие агенты либо жестко заскриптованы, либо стоят дорого из‑за дообучения.
Цель AgentFly — научить агента улучшаться «на лету» без трогания весов модели.
Метод простой по идее и аккуратный в реализации: агент хранит прошлые удачные шаги как кейсы, формализует процесс как MDP с памятью, планировщик извлекает нужные примеры и пишет краткий план, исполнитель решает задачу с инструментами (веб, код, MCP), а мягкое Q‑обучение учит выбирать по‑настоящему полезные кейсы.
Результат: GAIA — 87.88%, SimpleQA — 95%, в HLE — 24.4% и второе место.
Вывод: небольшая, тщательно отобранная память дает перенос на новые домены и стабильный рост качества — без дорогого дообучения, по‑человечески копя опыт.
📜 Полный обзор
Telegraph
Как дообучать LLM на лету с помощью памяти вместо файнтюнинга
Когда мы просим большую языковую модель (LLM) решить сложную задачу, один красивый промт уже не спасает. В реальности это последовательность действий: надо искать, читать, писать код, проверять, исправлять. Агент должен планировать шаги, пользоваться инструментами…
Как построить мультиагентную систему, которая реально работает без магии и костылей
LLM уже неплохо рассуждают, но как только им нужно что-то сделать — сходить в базу, позвать API, управлять браузером — всё ломается из-за разнобоя интерфейсов и кода.
AgentScope 1.0 ставит простую цель: сделать из таких моделей аккуратных исполнителей. Для этого авторы собирают систему из понятных блоков — единый формат сообщений, общее API для моделей, память на короткие и длинные дистанции, инструменты через единый Toolkit и MCP — и запускают их в цикл ReAct с асинхронностью и параллельными вызовами. Сверху добавлены готовые агенты для ресерча и веб‑действий, мультиагентные сценарии, встроенная оценка и визуальный интерфейс с точной трассировкой, а для продакшна — безопасный runtime с песочницами и протоколами.
На практике это даёт меньше кода, больше скорости и прозрачный контроль качества. Итог простой: когда размышления и действия живут в одном фреймворке, модели становятся не собеседниками, а надёжными исполнителями с заделом на рост и сложные среды.
📜 Полный обзор
LLM уже неплохо рассуждают, но как только им нужно что-то сделать — сходить в базу, позвать API, управлять браузером — всё ломается из-за разнобоя интерфейсов и кода.
AgentScope 1.0 ставит простую цель: сделать из таких моделей аккуратных исполнителей. Для этого авторы собирают систему из понятных блоков — единый формат сообщений, общее API для моделей, память на короткие и длинные дистанции, инструменты через единый Toolkit и MCP — и запускают их в цикл ReAct с асинхронностью и параллельными вызовами. Сверху добавлены готовые агенты для ресерча и веб‑действий, мультиагентные сценарии, встроенная оценка и визуальный интерфейс с точной трассировкой, а для продакшна — безопасный runtime с песочницами и протоколами.
На практике это даёт меньше кода, больше скорости и прозрачный контроль качества. Итог простой: когда размышления и действия живут в одном фреймворке, модели становятся не собеседниками, а надёжными исполнителями с заделом на рост и сложные среды.
📜 Полный обзор
Telegraph
Как построить мультиагентную систему, которая реально работает без магии и костылей
Большие языковые модели (LLM) уже неплохо рассуждают, но настоящая ценность появляется, когда они умеют делать что‑то за пределами генерации текста: обращаться к базам данных, вызывать API, считать, ходить в веб‑браузер. Здесь появляются трудности: у разных…
Как Avengers‑Pro превращает зоопарк LLM в супер-роутер за счёт одного ползунка
Один ползунок — и все ваши языковые модели вдруг начинают работать как слаженная команда. Банально выбирать между «дорого, но точно» и «дёшево, но кое-как» больше не обязательно: Avengers‑Pro предлагает куда более хитрую стратегию. Он невыразимо просто сочетает разные LLM — от топовых GPT‑5 до резвых Qwen — и учится менять баланс между качеством и затратами одним движением. Всё прозрачно, гибко и легко регулируется, а результат — система, способная удивить даже опытных инженеров. Как удалось приручить весь этот зоопарк моделей и что это даёт на практике?
📜 Полный обзор
Один ползунок — и все ваши языковые модели вдруг начинают работать как слаженная команда. Банально выбирать между «дорого, но точно» и «дёшево, но кое-как» больше не обязательно: Avengers‑Pro предлагает куда более хитрую стратегию. Он невыразимо просто сочетает разные LLM — от топовых GPT‑5 до резвых Qwen — и учится менять баланс между качеством и затратами одним движением. Всё прозрачно, гибко и легко регулируется, а результат — система, способная удивить даже опытных инженеров. Как удалось приручить весь этот зоопарк моделей и что это даёт на практике?
📜 Полный обзор
Telegraph
Как Avengers‑Pro превращает зоопарк LLM в супер-роутер за счёт одного ползунка
Зачем вообще нужен умный роутинг Каждый, кто пробовал подключать большую языковую модель (LLM) к реальному продукту, сталкивался с простым выбором: либо точнее, но дорого, либо дешевле, но хуже. GPT‑5, по словам авторов работы, уже движется к решению за счёт…
AudioStory: ИИ в роли звукорежиссера
Сделать так, чтобы генерация звуковых историй с помощью ИИ была не просто приемлемой, а по-настоящему убедительной и атмосферной — долгое время казалось задачей на грани фантастики. Нейросети легко создают короткие аудиофрагменты, но стоит попросить их рассказать целую историю — получается нечто из лоскутков: перебивы, потерянная логика, путаные эмоции и швы между эпизодами. Весь тот вау-эффект, который обычно вкладывает звуковой режиссёр, будто бы ускользает.
Но вот появляется AudioStory. Теперь сюжет строится шаг за шагом, сцена за сценой, а ИИ постепенно учится не просто воспроизводить инструкции, а создавать цельные, логичные и реалистичные звуковые истории, где события тянутся друг за другом так же плавно, как и в настоящих фильмах или аудиокнигах. Как им это удалось и что внутри такого ИИ-звукорежиссёра?
📜 Полный обзор
Сделать так, чтобы генерация звуковых историй с помощью ИИ была не просто приемлемой, а по-настоящему убедительной и атмосферной — долгое время казалось задачей на грани фантастики. Нейросети легко создают короткие аудиофрагменты, но стоит попросить их рассказать целую историю — получается нечто из лоскутков: перебивы, потерянная логика, путаные эмоции и швы между эпизодами. Весь тот вау-эффект, который обычно вкладывает звуковой режиссёр, будто бы ускользает.
Но вот появляется AudioStory. Теперь сюжет строится шаг за шагом, сцена за сценой, а ИИ постепенно учится не просто воспроизводить инструкции, а создавать цельные, логичные и реалистичные звуковые истории, где события тянутся друг за другом так же плавно, как и в настоящих фильмах или аудиокнигах. Как им это удалось и что внутри такого ИИ-звукорежиссёра?
📜 Полный обзор
Telegraph
AudioStory: ИИ в роли звукорежиссера
Задача генерации коротких аудио давно решена. Но стоит попросить модель создать несколько минут цельного звукового повествования — с плавными переходами, повторяющимися темами, меняющейся эмоцией — всё рассыпается. Теряется логика и заметны артефакты. Именно…
Аккуратные дипфейки: как невидимые подмены лиц рушат доверие к видео
Многие привыкли думать о дипфейках как о полностью поддельных видео: будто кто-то взял, полностью заменил лицо или сгенерировал всё с нуля. Но на деле всё становится куда тоньше — и опаснее. Представьте, если в знакомом ролике тихо изменили всего один жест, переставили предмет на фоне или ловко стерли пару кадров. Такие незаметные правки почти не отличить ни невооружённым глазом, ни специальными программами. И вот это — уже сегодняшняя реальность. Исследователи придумали для таких скрытых подделок отдельный термин, собрали крупный набор примеров и даже показали, почему современные детекторы и мы сами так часто оказываемся в дураках. Как работают эти новые "невидимые" дипфейки, чем они опасны и что вообще с этим делать — в новом разборе.
📜 Полный обзор
Многие привыкли думать о дипфейках как о полностью поддельных видео: будто кто-то взял, полностью заменил лицо или сгенерировал всё с нуля. Но на деле всё становится куда тоньше — и опаснее. Представьте, если в знакомом ролике тихо изменили всего один жест, переставили предмет на фоне или ловко стерли пару кадров. Такие незаметные правки почти не отличить ни невооружённым глазом, ни специальными программами. И вот это — уже сегодняшняя реальность. Исследователи придумали для таких скрытых подделок отдельный термин, собрали крупный набор примеров и даже показали, почему современные детекторы и мы сами так часто оказываемся в дураках. Как работают эти новые "невидимые" дипфейки, чем они опасны и что вообще с этим делать — в новом разборе.
📜 Полный обзор
Telegraph
Аккуратные дипфейки: как невидимые подмены лиц рушат доверие к видео
Часто мы думаем о дипфейках как о полностью синтетических роликах. Но в реальной жизни все чаще встречаются такие аккуратные подмены, когда меняют не все видео, а лишь небольшую часть: жесты, лицо, объект на столе или несколько кадров в середине. Такие точечные…
Увидел-кликнул-победил: как UItron управляет компьютером по-человечески
Могут ли нейросети действительно пользоваться компьютером — видеть обычный экран, выбирать нужные кнопки, запускать приложения, одним словом, действовать как живой человек с мышкой и клавиатурой? Оказывается, такие агенты уже не фантастика.
⠀
В свежем исследовании команда UItron показала, как можно научить ИИ не просто понимать команды, а самостоятельно разбираться в сложных интерфейсах, планировать свои действия и шаг за шагом решать сложные задачи. Интересно, что для этого им пришлось переосмыслить саму идею о том, что значит "опыт" для машины.
Разбираемся, как всё это работает, — в новом обзоре.
📜 Полный обзор
Могут ли нейросети действительно пользоваться компьютером — видеть обычный экран, выбирать нужные кнопки, запускать приложения, одним словом, действовать как живой человек с мышкой и клавиатурой? Оказывается, такие агенты уже не фантастика.
⠀
В свежем исследовании команда UItron показала, как можно научить ИИ не просто понимать команды, а самостоятельно разбираться в сложных интерфейсах, планировать свои действия и шаг за шагом решать сложные задачи. Интересно, что для этого им пришлось переосмыслить саму идею о том, что значит "опыт" для машины.
Разбираемся, как всё это работает, — в новом обзоре.
📜 Полный обзор
Telegraph
Увидел-кликнул-победил: как UItron управляет компьютером по-человечески
Могут ли когда-нибудь ИИ-агенты работать с компьютерами так же, как люди — видеть, понимать, кликать мышкой, запускать приложения и выполнять длинные цепочки заданий? Сегодня это уже не фантастика. Новое поколение моделей, таких как UItron, обещает перевернуть…
Память для роботов: как машины учатся видеть мир осознанно
Как научить робота не просто идти по указке, а видеть окружающий мир осмысленно — почти как человек? Сейчас даже самые продвинутые ИИ в роботах часто живут «здесь и сейчас»: увидели диван — пошли к дивану, только камера повернулась — всё забыли. В итоге их навигация напоминает путешествие вслепую, где нет места памяти о прошлом и настоящему планированию. А у человеческого мозга с этим всё хорошо: карта местности в голове и опыт, который легко пересобирается под цель.
Команда исследователей посмотрела, как наше мышление можно перенести на алгоритмы, и собрала для робота не просто память, а целую когнитивную карту. В результате он начинает думать маршрутами, оперировать ориентирами, «удивляться» новому и экономно хранить только важное. Ведь когда машина впервые учится замечать не только объекты вокруг, но и структуру событий — это совсем другой уровень ИИ.
Как устроен этот подход и что получилось в реальных экспериментах — обо всём по порядку.
📜 Полный обзор
Как научить робота не просто идти по указке, а видеть окружающий мир осмысленно — почти как человек? Сейчас даже самые продвинутые ИИ в роботах часто живут «здесь и сейчас»: увидели диван — пошли к дивану, только камера повернулась — всё забыли. В итоге их навигация напоминает путешествие вслепую, где нет места памяти о прошлом и настоящему планированию. А у человеческого мозга с этим всё хорошо: карта местности в голове и опыт, который легко пересобирается под цель.
Команда исследователей посмотрела, как наше мышление можно перенести на алгоритмы, и собрала для робота не просто память, а целую когнитивную карту. В результате он начинает думать маршрутами, оперировать ориентирами, «удивляться» новому и экономно хранить только важное. Ведь когда машина впервые учится замечать не только объекты вокруг, но и структуру событий — это совсем другой уровень ИИ.
Как устроен этот подход и что получилось в реальных экспериментах — обо всём по порядку.
📜 Полный обзор
Telegraph
Память для роботов: как машины учатся видеть мир осознанно
Сегодня многие ИИ-агенты остаются реактивными: видят кадр — действуют, видят следующий — снова действуют, а связной картины мира не формируют. Отсюда проблемы с дальними маршрутами, переиспользованием опыта и гибкостью. В биологии это решено элегантно: мозг…
Почему Text-to-SQL до сих пор ломается и как это исправить
Если вы когда-нибудь пытались получить нужный отчет из базы данных с помощью ИИ — скорее всего, столкнулись с забавной загадкой: почему-то даже продвинутые языковые модели то спотыкаются на связях между таблицами, то забывают ключевую фильтрацию, то просто возвращают не тот ответ. Формально запрос работает, а по сути — совсем не то. Почему так происходит? И можно ли научить ИИ писать правильный SQL, а не гадать до бесконечности?
В новой статье исследователи предлагают необычный подход: они учат модель распознавать собственные ошибки и исправлять логику, а не просто механически менять структуру запроса. Заодно выясняем, насколько такая система помогает избежать классических промахов и что изменится для пользователей, которым важно получать не просто рабочий код, а действительно осмысленный результат.
📜 Полный обзор
Если вы когда-нибудь пытались получить нужный отчет из базы данных с помощью ИИ — скорее всего, столкнулись с забавной загадкой: почему-то даже продвинутые языковые модели то спотыкаются на связях между таблицами, то забывают ключевую фильтрацию, то просто возвращают не тот ответ. Формально запрос работает, а по сути — совсем не то. Почему так происходит? И можно ли научить ИИ писать правильный SQL, а не гадать до бесконечности?
В новой статье исследователи предлагают необычный подход: они учат модель распознавать собственные ошибки и исправлять логику, а не просто механически менять структуру запроса. Заодно выясняем, насколько такая система помогает избежать классических промахов и что изменится для пользователей, которым важно получать не просто рабочий код, а действительно осмысленный результат.
📜 Полный обзор
Telegraph
Почему Text-to-SQL до сих пор ломается и как это исправить
Превратить вопрос человека в корректный SQL — задача на удивление непростая. Большие языковые модели хорошо пишут валидный синтаксис, но легко промахиваются в логике: путают таблицы, соединяют не тем ключом, забывают GROUP BY, ставят неправильные фильтры.…
Vision Language World Model: язык как картина мира
До сих пор искусственный интеллект воспринимает мир как набор пикселей. Но что, если научить ИИ понимать смысл увиденного, а не только картинки? Один из свежих подходов — VLWM: модель, которая переводит реальность в слова и смыслы, позволяя роботам строить осмысленные планы на будущее. В этой статье разбираемся, как агенты научились планировать, проверять гипотезы внутри своей модели мира и выбирать самый разумный вариант.
📜 Полный обзор
До сих пор искусственный интеллект воспринимает мир как набор пикселей. Но что, если научить ИИ понимать смысл увиденного, а не только картинки? Один из свежих подходов — VLWM: модель, которая переводит реальность в слова и смыслы, позволяя роботам строить осмысленные планы на будущее. В этой статье разбираемся, как агенты научились планировать, проверять гипотезы внутри своей модели мира и выбирать самый разумный вариант.
📜 Полный обзор
Telegraph
Vision Language World Model: язык как картина мира
Когда мы просим машину помочь нам приготовить обед или заменить SIM‑карту, она должна не просто распознать предметы в кадре, а представить, как мир будет меняться от шага к шагу. Пока большинство систем видят пиксели и отвечают короткими фразами, планирование…
ИИ как соавтор: как агенты меняют науку прямо сейчас
Пару лет назад казалось, что искусственный интеллект в науке — это про умных помощников: они сортируют данные, визуализируют графики, подсказывают формулы, но остаются просто искусными руками для человека.
Но теперь всё меняется. На горизонте появился новый герой — научный агент. Он уже не ждет указаний, а сам берется за чтение статей, формулирует свежие гипотезы, ставит эксперименты, а если что-то идет не так — может сам себя скорректировать. Такой ИИ — это не просто ассистент, а почти полноценный соавтор в лаборатории.
Пока одни ученые еще скептически приглядываются к этой идее, в биологии, химии и материаловедении научные агенты уже совершают реальные открытия. Кажется, научный цикл меняется прямо на наших глазах.
📜 Полный обзор
Пару лет назад казалось, что искусственный интеллект в науке — это про умных помощников: они сортируют данные, визуализируют графики, подсказывают формулы, но остаются просто искусными руками для человека.
Но теперь всё меняется. На горизонте появился новый герой — научный агент. Он уже не ждет указаний, а сам берется за чтение статей, формулирует свежие гипотезы, ставит эксперименты, а если что-то идет не так — может сам себя скорректировать. Такой ИИ — это не просто ассистент, а почти полноценный соавтор в лаборатории.
Пока одни ученые еще скептически приглядываются к этой идее, в биологии, химии и материаловедении научные агенты уже совершают реальные открытия. Кажется, научный цикл меняется прямо на наших глазах.
📜 Полный обзор
Telegraph
ИИ как соавтор: как агенты меняют науку прямо сейчас
Зачем вообще говорить об агентной науке Мы привыкли к ИИ как к умному калькулятору: он помогает с анализом данных, но решения и эксперименты остаются за людьми. Исследователи предлагают другой взгляд: агентный ИИ переходит к роли автономного научного партнера.…
Глубокие исследования без границ: выбираем свою LLM и управляем стратегией поиска
Инструменты для поиска и анализа информации на базе LLM становятся все умнее, но есть один нюанс: почти всегда они работают по заранее заданному сценарию. Вы набрали запрос — а дальше модель сама решит, какие источники ей искать, как проверять данные и что включить в отчет. Но большинство таких сервисов не предлагают никаких особых подходов — например, собственные правила проверки, любимую LLM или уникальную стратегия поиска.
В свежем исследовании Nvidia появилась идея: а что, если сделать так, чтобы вы сами могли выбирать, какая LLM будет искать для вас информацию, и описывать свои собственные алгоритмы исследования простым человеческим языком без программирования. По сути, это попытка дать пользователю то самое управление, которого раньше так не хватало.
Как это выглядит на практике и зачем вообще отдавать в руки человека стратегию глубокого поиска — разбираемся в деталях.
📜 Полный обзор
Инструменты для поиска и анализа информации на базе LLM становятся все умнее, но есть один нюанс: почти всегда они работают по заранее заданному сценарию. Вы набрали запрос — а дальше модель сама решит, какие источники ей искать, как проверять данные и что включить в отчет. Но большинство таких сервисов не предлагают никаких особых подходов — например, собственные правила проверки, любимую LLM или уникальную стратегия поиска.
В свежем исследовании Nvidia появилась идея: а что, если сделать так, чтобы вы сами могли выбирать, какая LLM будет искать для вас информацию, и описывать свои собственные алгоритмы исследования простым человеческим языком без программирования. По сути, это попытка дать пользователю то самое управление, которого раньше так не хватало.
Как это выглядит на практике и зачем вообще отдавать в руки человека стратегию глубокого поиска — разбираемся в деталях.
📜 Полный обзор
Telegraph
Глубокие исследования без границ: выбираем свою LLM и управляем стратегией поиска
Когда мы говорим о “глубоких исследованиях”, чаще всего имеем в виду сервисы, которые сами планируют поиск, бродят по источникам, собирают цитаты и выдают аккуратный отчет. Это удобно, но почти всегда жестко привязано к одной стратегии и одному семейству…
Почему LLM врут с умным видом
Иногда кажется, что большие языковые модели уверены в себе больше, чем большинство людей в понедельник утром. Задаёшь простой вопрос — а в ответ получаешь удивительный факт, на который хочется переспросить: а ты точно знаешь, о чем говоришь или просто угадываешь?
Оказывается, у этой привычки «галлюцинировать» и выдавать ответы даже тогда, когда стоило бы промолчать, есть вполне логичные основания. Проблема заложена ещё на этапе обучения и подкрепляется тем, как мы потом оцениваем работу LLM. Почему даже самые продвинутые модели чаще выбирают угадать, чем признаться в собственном незнании, и что с этим делать — свежее исследование предлагает неожиданно простое объяснение.
📜 Полный обзор
Иногда кажется, что большие языковые модели уверены в себе больше, чем большинство людей в понедельник утром. Задаёшь простой вопрос — а в ответ получаешь удивительный факт, на который хочется переспросить: а ты точно знаешь, о чем говоришь или просто угадываешь?
Оказывается, у этой привычки «галлюцинировать» и выдавать ответы даже тогда, когда стоило бы промолчать, есть вполне логичные основания. Проблема заложена ещё на этапе обучения и подкрепляется тем, как мы потом оцениваем работу LLM. Почему даже самые продвинутые модели чаще выбирают угадать, чем признаться в собственном незнании, и что с этим делать — свежее исследование предлагает неожиданно простое объяснение.
📜 Полный обзор
Telegraph
Почему LLM врут с умным видом
Почему LLM продолжают уверенно ошибаться, даже когда лучше честно сказать «не знаю»? Исследователи из OpenAI предлагают ясный ответ: корень проблем статистический, он возникает уже на этапе предобучения, а затем закрепляется способами, которыми мы оцениваем…
Что скрыто за характером LLM: читаем поведенческие отпечатки
Задумывались ли вы когда-нибудь, почему две языковые модели с одинаковыми оценками на тестах ведут себя совершенно по-разному в реальном общении? Оценки вроде бы одни и те же, а ощущения от общения — совсем нет: одна охотно подыгрывает, другая спорит до последнего, третья резко меняет мнение из-за незначительной формулировки. Кажется, за сухими числами мы теряем самое интересное — характер и повадки моделей.
Исследователи решили перестать мерить всё под одну гребёнку и попробовали разобраться, какими чертами личности и поведения на самом деле отличаются современные LLM. В ход пошли не только бенчмарки, но и целый профиль моделей — от умения мыслить абстрактно до устойчивости к лести.
Что оказалось на поверхности, какие неожиданные черты всплывают и почему выбор ИИ — это теперь не только про точность, но и про стиль взаимодействия?Подглядываем в поведенческие отпечатки моделей, чтобы понять: что за личность сидит внутри LLM.
📜 Полный обзор
Задумывались ли вы когда-нибудь, почему две языковые модели с одинаковыми оценками на тестах ведут себя совершенно по-разному в реальном общении? Оценки вроде бы одни и те же, а ощущения от общения — совсем нет: одна охотно подыгрывает, другая спорит до последнего, третья резко меняет мнение из-за незначительной формулировки. Кажется, за сухими числами мы теряем самое интересное — характер и повадки моделей.
Исследователи решили перестать мерить всё под одну гребёнку и попробовали разобраться, какими чертами личности и поведения на самом деле отличаются современные LLM. В ход пошли не только бенчмарки, но и целый профиль моделей — от умения мыслить абстрактно до устойчивости к лести.
Что оказалось на поверхности, какие неожиданные черты всплывают и почему выбор ИИ — это теперь не только про точность, но и про стиль взаимодействия?Подглядываем в поведенческие отпечатки моделей, чтобы понять: что за личность сидит внутри LLM.
📜 Полный обзор
Telegraph
Что скрыто за характером LLM: читаем поведенческие отпечатки
Сегодня оценка больших языковых моделей сводится к одному числу на бенчмарке. Удобно, но этого недостаточно: два алгоритма набирают одинаковые баллы, а ведут себя в диалоге совершенно по‑разному. Исследователи предлагают посмотреть глубже — снять «поведенческий…
Как оживить научные статьи: превращаем исследования в интерактивных ИИ-ассистентов
Обычная научная статья ― это десятки страниц текста, сложные графики и ссылка на репозиторий где-то в глубине интернетов. Часто кажется, что в этот мир допускаются только те, кто готов неделями разбираться с чужим кодом и настраивать окружение через танцы с бубном. А что если бы статья могла сама «оживать» и превращаться в настоящего ИИ-ассистента, с которым можно разговаривать на обычном языке и сразу запускать любые её методы?
В свежем исследовании авторы предлагают именно это: новый инструмент, который берет научную работу и делает из неё агента-напарника. Теперь из пассивного PDF получается активный собеседник — он объясняет, считает, строит графики и даже сам проверяет свои результаты. Звучит как будущее, которое только что стало чуть ближе.
📜 Полный обзор
Обычная научная статья ― это десятки страниц текста, сложные графики и ссылка на репозиторий где-то в глубине интернетов. Часто кажется, что в этот мир допускаются только те, кто готов неделями разбираться с чужим кодом и настраивать окружение через танцы с бубном. А что если бы статья могла сама «оживать» и превращаться в настоящего ИИ-ассистента, с которым можно разговаривать на обычном языке и сразу запускать любые её методы?
В свежем исследовании авторы предлагают именно это: новый инструмент, который берет научную работу и делает из неё агента-напарника. Теперь из пассивного PDF получается активный собеседник — он объясняет, считает, строит графики и даже сам проверяет свои результаты. Звучит как будущее, которое только что стало чуть ближе.
📜 Полный обзор
Telegraph
Как оживить научные статьи: превращаем исследования в интерактивных ИИ-ассистентов
Мы привыкли к тому, что научная статья — это текст, рисунки и где-то в репозитории код. Дальше начинается рутина: искать зависимости, настраивать окружение, разбираться в API и форматах данных. Для многих это высокий порог входа. Paper2Agent предлагает простой…
Как ИИ начинает понимать чёрный юмор
Уловить тонкую грань между остроумной шуткой и чем-то оскорбительным — часто задача не из простых даже для человека. В мемах всё ещё сложнее: идея прячется на стыке картинки, подписи и культурного бэкграунда. Как объяснить искусственному интеллекту, что вызывает улыбку, а что — горький смех? Оказывается, учить нейросети разбирать чёрный юмор — занятие не только любопытное, но и полезное для понимания того, как машины читают человеческие смыслы между строк. Исследователи решили подойти к теме с новой стороны: они собрали датасет мемов, где шутки далеко не всегда безобидные, и научили ИИ не просто распознавать юмор, но ещё и объяснять, из-за чего тот становится чёрным. Разбираемся, как у них это получилось.
📜 Полный обзор
Уловить тонкую грань между остроумной шуткой и чем-то оскорбительным — часто задача не из простых даже для человека. В мемах всё ещё сложнее: идея прячется на стыке картинки, подписи и культурного бэкграунда. Как объяснить искусственному интеллекту, что вызывает улыбку, а что — горький смех? Оказывается, учить нейросети разбирать чёрный юмор — занятие не только любопытное, но и полезное для понимания того, как машины читают человеческие смыслы между строк. Исследователи решили подойти к теме с новой стороны: они собрали датасет мемов, где шутки далеко не всегда безобидные, и научили ИИ не просто распознавать юмор, но ещё и объяснять, из-за чего тот становится чёрным. Разбираемся, как у них это получилось.
📜 Полный обзор
Telegraph
Как ИИ начинает понимать чёрный юмор
Шутка шутке рознь. Чистый юмор держится на игре слов и безобидных несоответствиях, чёрный — на болезненных темах, культурных намёках и тонких контрастах между картинкой и подписью. В мемах это особенно заметно: изображение говорит одно, текст — другое, а…
Репозитории на автопилоте: как ИИ сам поднимает окружение и запускает код
Открытые репозитории — это кладезь готовых моделей, скриптов и датасетов, но работа с ними порой напоминает сборку конструктора без инструкции. Сначала разбираешься, как всё устроено, потом ловишь баги на ровном месте, устанавливаешь зависимости — и только после этого кое-как запускаешь нужную задачу. А как было бы здорово, если бы сами репозитории умели понимать, что от них хотят, настраивать себе среду и ещё договариваться между собой!
Вот тут на сцену выходит EnvX — система, которая превращает обычные проекты в автономных агентов: они читают документацию, поднимают окружение, выполняют нужные функции и… общаются друг с другом. Получается совсем новый взгляд на то, каким может стать open-source.
📜 Полный обзор
Открытые репозитории — это кладезь готовых моделей, скриптов и датасетов, но работа с ними порой напоминает сборку конструктора без инструкции. Сначала разбираешься, как всё устроено, потом ловишь баги на ровном месте, устанавливаешь зависимости — и только после этого кое-как запускаешь нужную задачу. А как было бы здорово, если бы сами репозитории умели понимать, что от них хотят, настраивать себе среду и ещё договариваться между собой!
Вот тут на сцену выходит EnvX — система, которая превращает обычные проекты в автономных агентов: они читают документацию, поднимают окружение, выполняют нужные функции и… общаются друг с другом. Получается совсем новый взгляд на то, каким может стать open-source.
📜 Полный обзор
Telegraph
Репозитории на автопилоте: как ИИ сам поднимает окружение и запускает код
Открытые репозитории полны готовых решений: скрипты, модели, датасеты, демо. Но чтобы собрать всё и запустить, нужен ручной труд: поставить зависимости, скачать артефакты, прочесть документацию, не ошибиться со вступными параметрами. EnvX предлагает простой…
Агенты без скриптов: что происходит, когда ИИ сталкивается с реальностью
Звучит просто: подключил суперсовременную LLM к десятку инструментов — и пусть решает любые задачи в реальном времени. Только вот на практике всё выходит куда прозаичнее. Даже самые мощные модели уверенно работают в лабораторных условиях, где всё строго по шаблону. А стоит им оказаться в живой, шумной среде — появляются ошибки, неожиданные сбои и довольно неожиданные выводы о том, где у современных ИИ-агентов на самом деле слабые места. Новое исследование показывает, что, когда у модели есть сотня способов решить задачу, успех — далеко не гарантирован. Почему даже мощные LLM так часто спотыкаются на пустом месте и что им мешает делать работу, как человек — разберёмся на ярких примерах из нового бенчмарка LiveMCP-101.
📜 Полный обзор
Звучит просто: подключил суперсовременную LLM к десятку инструментов — и пусть решает любые задачи в реальном времени. Только вот на практике всё выходит куда прозаичнее. Даже самые мощные модели уверенно работают в лабораторных условиях, где всё строго по шаблону. А стоит им оказаться в живой, шумной среде — появляются ошибки, неожиданные сбои и довольно неожиданные выводы о том, где у современных ИИ-агентов на самом деле слабые места. Новое исследование показывает, что, когда у модели есть сотня способов решить задачу, успех — далеко не гарантирован. Почему даже мощные LLM так часто спотыкаются на пустом месте и что им мешает делать работу, как человек — разберёмся на ярких примерах из нового бенчмарка LiveMCP-101.
📜 Полный обзор
Telegraph
Агенты без скриптов: что происходит, когда ИИ сталкивается с реальностью
Агенты на базе MCP сегодня умеют многое: искать в вебе, работать с файлами, строить графики, считать и вызывать внешние API. Но одно дело — демонстрация на единичной задаче, другое — устойчивая работа в реалистичной, меняющейся среде, где ответы сервисов…
Как обучение с подкреплением перестраивает мышление LLM
Когда говорят о продвинутых ИИ-моделях, чаще всего обсуждают точность фактов или впечатляющую скорость ответа. Но если копнуть глубже, становится ясно: настоящая магия — в умении рассуждать и строить сложные цепочки мыслей. Недавнее исследование показало, что обычное обучение с подкреплением меняет не только цифры в метриках, но и заставляет модель внутренне перестраиваться. Постепенно появляется четкое разделение — где просто выполняется инструкция, а где возникает настоящий план, со своими “давай попробуем” и “а что если”. Оказывается, важнее всего — это скрытая стратегия, которая позволяет моделям ловить редкие инсайты, делать ошибки на совершенно новом уровне и обыгрывать старые методы по всем фронтам. Как это устроено на практике и почему отдельные группы токенов вдруг становятся стратегами — об этом и пойдет речь.
📜 Полный обзор
Когда говорят о продвинутых ИИ-моделях, чаще всего обсуждают точность фактов или впечатляющую скорость ответа. Но если копнуть глубже, становится ясно: настоящая магия — в умении рассуждать и строить сложные цепочки мыслей. Недавнее исследование показало, что обычное обучение с подкреплением меняет не только цифры в метриках, но и заставляет модель внутренне перестраиваться. Постепенно появляется четкое разделение — где просто выполняется инструкция, а где возникает настоящий план, со своими “давай попробуем” и “а что если”. Оказывается, важнее всего — это скрытая стратегия, которая позволяет моделям ловить редкие инсайты, делать ошибки на совершенно новом уровне и обыгрывать старые методы по всем фронтам. Как это устроено на практике и почему отдельные группы токенов вдруг становятся стратегами — об этом и пойдет речь.
📜 Полный обзор
Telegraph
Как обучение с подкреплением перестраивает мышление LLM
Задачи на рассуждение — больное место многих ИИ-систем, даже если у них хорошие фактические знания. Новая работа показывает, что усиление через RL (Reinforcement Learning, обучение с подкреплением) не просто повышает точность, а перестраивает внутреннюю логику…
Как мозг предсказывает следующее слово и при чем тут ИИ
Наш мозг всё время пытается угадать следующее слово, почти как современные большие языковые модели. Это не просто метафора: недавнее исследование показало, что предсказания ИИ удивительно совпадают с тем, что происходит в мозге человека во время восприятия речи. Учёные выяснили, что чем точнее ожидание слова, тем меньше усилий требуется мозгу для его обработки, и наоборот. Чтобы доказать это, они посадили добровольцев в томограф, включили им аудиокнигу и сопоставили электрическую активность мозга с оценками предсказуемости из модели. Разберёмся, как именно проходил эксперимент и что эти результаты могут значить для будущего нейротехнологий.
📜 Полный обзор
Наш мозг всё время пытается угадать следующее слово, почти как современные большие языковые модели. Это не просто метафора: недавнее исследование показало, что предсказания ИИ удивительно совпадают с тем, что происходит в мозге человека во время восприятия речи. Учёные выяснили, что чем точнее ожидание слова, тем меньше усилий требуется мозгу для его обработки, и наоборот. Чтобы доказать это, они посадили добровольцев в томограф, включили им аудиокнигу и сопоставили электрическую активность мозга с оценками предсказуемости из модели. Разберёмся, как именно проходил эксперимент и что эти результаты могут значить для будущего нейротехнологий.
📜 Полный обзор
Telegraph
Как мозг предсказывает следующее слово и при чем тут ИИ
Зачем мозгу предсказывать слова Мы редко слушаем речь как поток неожиданных звуков. Мозг постоянно строит догадки о следующем слове и проверяет себя по мере поступления звука. Такой режим экономит силы: чем точнее ожидание, тем меньше усилий на распознавание.…