Dataism Science Hub – Telegram

Dataism Science Hub

@dataism_science

110 subscribers

89 links

🤖 Дневник ИИ-исследователя: обзор новых статей в области искусственного интеллекта

@andre_dataist

Download Telegram

About

Blog

Apps

Platform

Dataism Science Hub

110 subscribers

Dataism Science Hub

Как ИИ-очки предсказывают ваши желания прежде чем вы о них подумаете

ИИ-ассистенты уже достаточно эволюционировали, но есть ньюанс: даже самые умные ассистенты чаще всего остаются пассивными наблюдателями. Они ждут команды от человека и не берут на себя инициативу. Так почему ИИ до сих пор не угадывает наши желания?

Исследователи нашли ответ на этот вопрос: дело не в “прокачанности” нейросетей, а в самом подходе к взаимодействию с ИИ. Они научили ИИ-очки не просто реагировать, а чувствовать ситуацию — вмешиваться ровно тогда, когда помощь действительно уместна, и делать это почти незаметно. В результате получилась система, которая не раздражает бесконечными подсказками, а помогает точно в момент сомнения — будь то партия в блэкджек или выбор свитера в магазине.

В этом обзоре — как работает проактивный ассистент и почему именно способность заговорить вовремя способна перевернуть представление о будущем ИИ-интерфейсов.

📜 Полный обзор

Как ИИ-очки предсказывают ваши желания прежде чем вы о них подумаете

В отличие от нынешних голосовых ассистентов, команда AI for Service предлагает более интерактивный подход. Они считают, что ИИ должен сам распознавать ситуации, когда человеку требуется помощь, и предлагать ее без предварительного запроса. Такой подход, который…

🔥1

63 views10:00

Dataism Science Hub

Эпоха автономных аналитиков: как ИИ меняет науку о данных

Мы думали, что аналитика с помощью ИИ сможет освободить нас от рутинных задач, но она оказалась бессильна перед неожиданными ситуациями. Даже самые совершенные ИИ-агенты не справляются, когда дело касается задач, выходящих за рамки заранее установленных сценариев. Агенты сталкиваются с трудностями при выполнении задач, требующих адаптивности и самостоятельного мышления. В то время как разговорные модели демонстрируют впечатляющие успехи, «автоматический дата саентист» почему-то не может преодолеть этот барьер и достичь полной самостоятельности.

Последнее исследование привнесло неожиданный поворот: эффективность не определяется размером модели или набором жестких правил, а обусловлена самой конструкцией ее рассуждений. Модель освоила не просто последовательное выполнение отдельных задач, но и гибкое управление анализом данных. Она научилась понимать ход событий, планировать действия, корректировать подход в процессе, экспериментировать с новыми подходами, допускать ошибки и учиться на собственном опыте, при этом все меньше полагаясь на вмешательство человека.

Что лежит в основе этой «встроенной интуиции»? Давайте разберемся в возможностях модели DeepAnalyze-8B и методах ее обучения, а также рассмотрим, как это может повлиять на сферу продвинутой аналитики и искусственного интеллекта.

📜 Полный обзор

Эпоха автономных аналитиков: как ИИ меняет науку о данных

Автономная наука о данных — давняя мечта: от сырых таблиц и файлов до аккуратных графиков и связного аналитического отчета без постоянного участия человека. Большие языковые модели (LLM) продвинули нас вперед, но типичные workflow-агенты живут за счет заранее…

72 views09:47

Dataism Science Hub

Агентная операционная система — новая парадигма взаимодействия человека и машины

Раньше голосовой ассистент в телефоне был просто еще одной кнопкой — попросил включить будильник, получил результат и разговор закончен. Но мобильные интерфейсы усложнились: привычные сценарии часто ломаются, если что-то изменилось на экране. На практике выясняется, что ИИ-агенты, даже самые продвинутые, часто путаются в простых вещах — теряют суть задачи, не могут учесть предпочтения человека и забывают свои же действия спустя пару шагов.

Исследователи показали, что дело не столько в размере моделей, сколько в том, как они учатся рассуждать и адаптироваться к реальному взаимодействию. Вместо агента, который просто кликает за пользователя, появился агент, который держит контекст, реально пытается понять, что именно нужно, и даже сам уточняет детали по ходу сценария.

В этом обзоре посмотрим, как шаг за шагом учат такие модели быть ближе к человеку — помнить, ошибаться и учиться на своих ошибках, идти навстречу даже в нестандартных ситуациях. Это меняет представление о будущем ИИ-систем и показывает, на что они будут способны буквально завтра.

📜 Полный обзор

Агентная операционная система — новая парадигма взаимодействия человека и машины

Нам привычно взаимодействовать с системами, где мы нажимаем кнопки, и система молча выполняет наши команды. Однако мобильный мир вносит свои коррективы. В сложных сценариях, будь то заказ еды или настройка приложений, необходим посредник, способный понять…

69 views23:06

Dataism Science Hub

Почему ИИ-агенты для интерфейсов учатся в симуляции лучше, чем в реальности

ИИ с каждым годом становится умнее — на тестах и демонстрациях модели поражают логикой и ловкостью, но стоит выпустить их в реальный интернет или мобильное приложение, как начинается череда странных ошибок. Почему даже продвинутые агенты испытывают сложности на обычных сайтах и кнопках, хотя под капотом у них миллиарды параметров?

Новое исследование показывает, что дело вовсе не в дефиците данных. Оказывается, гораздо эффективнее обучать ИИ на сгенерированных симуляциях интерфейсов, а не на живых задачах из реального мира — и на выходе агенты становятся не только умнее, но и куда более стойкими к любым неожиданностям.

Разбираемся, как современные подходы меняют понимание того, что значит "обучить ИИ действовать по-человечески" — и почему выигрывает не тот, кто учится в реальности, а тот, кто научился играть с фантазией.

📜 Полный обзор

Почему ИИ-агенты для интерфейсов учатся в симуляции лучше, чем в реальности

ИИ-агенты сильно зависят от данных: им нужны тысячи разнородных сценариев работы с сайтами и мобильными приложениями. Создать такой набор руками тяжело и дорого. Даже сотни задач с длинными цепочками действий — это тысячи часов разработки, аннотаций и инфраструктуры.…

77 views20:23

Dataism Science Hub

Почему ИИ-агенты теряются в море MCP-серверов

Когда агентов на базе LLM используют в реальных задачах, то ожидания сталкиваются с реальностью: вроде бы используется умная модель, но всё равно она путается в инструментах и не может довести простую задачу до конца.

Недавний бенчмарк показал интересную картину: оказывается, дело не только в размере модели или количестве параметров. Когда агенту приходится выбирать один инструмент из тысяч возможных, то даже самые умные агенты пасуют. Особенно если это приходится делать на лету.

Почему так происходит и что на самом деле мешает моделям успешно выполнять задачи в запутанных корпоративных сценариях? Разбираемся, как агенты учатся выбирать правильные инструменты и почему это станет ключевым навыком для будущих ИИ-систем.

📜 Полный обзор

Почему ИИ-агенты теряются в море MCP-серверов

Исследователи из Microsoft предложили новый бенчмарк для агентов, которые решают задачи не через браузер, а напрямую вызывают инструменты по протоколу MCP. Они собрали более 18 тысяч инструментов из Azure, GitLab, RocketChat, Plane и ownCloud, сопроводили…

👍1

73 viewsedited 18:57

Dataism Science Hub

Как ИИ-агенты научились писать аналитические отчёты не хуже профессиональных аналитиков

Сегодня ИИ-системы, генерирующие длинные тексты, оперируют сложными понятиями и красиво структурируют материал, но загляните в документы, которые готовят для реального бизнеса или инвесторов. Вы готовы использовать или вложиться в то, что рекомендует ИИ? Оправдывает ли красивый текст потерю деталей, отсутствие ссылок на источники или объяснения каждого утверждения? На практике у многих моделей хорошо получается именно красивая подача, но страдает содержимое. Эффектная обертка — это завуалированный метод обмана пользователей.

Новое исследование делает неожиданный вывод: для достижении высокого качества текстов важна не столько конструкция модели или количество параметров, сколько тщательно продуманная система рассуждений и выполнение кода со специализированными инструментами на каждом этапе. Когда подготовка отчёта разделена между разными агентами, которые используют не только текстовые, но и специализированные инструменты (например, код, визуализацию и сбор информации), то отчёты получаются более осмысленными. При таком подходе ИИ обгоняет другие системы и даже, порой, опытных людей.

В этой статье мы рассмотрим, как мультиагентная система с исполнением кода учится собирать информацию, анализировать её, строить графики и писать содержательные отчёты, где каждая цифра, слово и выводы подтверждены данными и их анализом. Как ИИ может стать не просто писателем, а именно исследователем и помощником в сложных задачах.

📜 Полный обзор

Как ИИ-агенты научились писать аналитические отчёты не хуже профессиональных аналитиков

Финансовый отчёт — это не просто текст: его сила в проверяемых цифрах и понятных графиках со ссылками на источники. LLM хороши в написании текстов, но склонны к галлюцинациям. Команда FinSight решила эту проблему с помощью отдельной группы агентов, отвечающих…

87 views19:19

Dataism Science Hub

Почему слова мешают ИИ-агентам понимать друг друга

ИИ-агенты становятся все умнее и сообразительнее, но почему, когда собирается команда из агентов, возникает неразбериха и неожиданные ошибки? Если агенты уже умеют рассуждать индивидуально, почему они продолжают спорить по простым вопросам и ошибаться там, где не споткнулся бы человек?

Новое исследование подсказывает неожиданный ответ: проблемы командной работы ИИ могут исходить не только от интеллекта модели, но и от языка, используемого для общения между собой. Оказывается, язык является узким горлышком, из-за которого сообщения теряют часть смысла, что затрудняет понимание ИИ друг друга. Исследование предполагает радикально иное решение: что, если бы ИИ делились своими мыслями напрямую, используя язык, отличный от человеческого?

Далее мы обсудим, почему текстовое общение не позволяет ИИ понять друг друга, как другой язык может помочь и почему этот «язык мыслей» не фантастика, а реальность, которую мы можем реализовать сегодня.

📜 Полный обзор

Почему слова мешают ИИ-агентам понимать друг друга

Казалось бы, несколько моделей в мультиагентной системе отвечают на один и тот же вопрос, даже немного спорят и поправляют друг друга, но в итоге приходят к компромиссу, который не всегда верен. Язык помогает им, но в тоже время является узким горлышком,…

👍1

102 views12:20

Dataism Science Hub

Длинное мышление против жёстких пайплайнов: как DeepAgent превращает рассуждение в действие

Почему ИИ-агенты в реальных задачах за пределами академических экспериментов до сих пор часто наступают на хорошо знакомые грабли: путаются в деталях, не удерживают цель при длинных рассуждениях и теряют контекст использования инструментов?

Неожиданная идея решения проблемы пришла в недавнем исследовании DeepAgent. Кажется, что дело вовсе не в размере модели и не в промтах для ее использования. Ключом к прогрессу явилась связная логика рассуждений на протяжении всей задачи. Агент не просто каждый раз делает привычный сценарий с паузой: «обдумал-предпринял действие» - а ведет мысль по длинному связнму сценарию, сам выбирает какой памятью ему пользоваться и когда применять нужные инструменты.

В этом обзоре: что меняется в поведении агента, когда у него появляется возможность связанно использовать различные инструменты на протяжении всей задачи, какие методы используются и как это приближает нас к по-настоящему автономному ИИ.

📜 Полный обзор

Длинное мышление против жёстких пайплайнов: как DeepAgent превращает рассуждение в действие

LLM-агенты умеют рассуждать, но этого недостаточно в решении реальных задач. Необходимо уметь вызывать сторонние инструменты, справляться с длинными сценариями и оставаться автономными на протяжении десятков шагов. Этому мешают строгие пайплайны с фиксированными…

🔥2

96 viewsedited 13:24

Dataism Science Hub

От хаоса данных к управляемому знанию: как ИИ-агенты помогают бизнесу принимать верные решения

В мире бизнеса сейчас из каждого колодца слышится, как искусственный интеллект готов избавить нас от рутинных задач, сделать аналитику и выявить своевременные идеи, чтобы стимулировать рост компании. Однако на практике существует значительный разрыв между тем, что могут сделать даже самые продвинутые нейросети, и реальными потребностями бизнеса. ИИ-агенты часто функционируют как черные ящики, оставляя организации с туманным представлением о том, как или почему был получен определенный результат.

Исследователи из Salesforce AI переосмыслили способ использования ИИ для поддержки бизнес-исследований. Они утверждают, что дело не только в размерах моделей или скорости генерации, но и в лучшем понимании того, как ИИ формирует свои ответы, и в возможности проверить этот процесс. Их новая мультиагентная система под названием Enterprise Deep Research Framework делает ИИ для глубоких исследований более понятным и контролируемым.

Давайте рассмотрим, как современные ИИ-агенты помогают бизнесу принимать более обоснованные решения.

📜 Полный обзор

От хаоса данных к управляемому знанию: как ИИ-агенты помогают бизнесу принимать верные решения

Корпоративные данные сейчас могут расползаться по разным письмам, отчетам, базам и репозиториям кода. Ответы на сложные вопросы часто требуют не одного, а множества фактов, а также умения синтезировать данные из сотен источников с проверяемыми ссылками и…

120 views16:49

Dataism Science Hub

Динамическая память: как ИИ-агенты научились сворачивать контекст и думать на 100 шагов вперёд

ИИ-агенты становятся все более сложными, но они начинают страдать, когда сталкиваются со слишком большим количеством задач. Они легко забывают, запутываются или оставляют задачи незаконченными. Существует парадокс: использование большего количества памяти и более крупных моделей не дает прироста производительности агентов в реальных сценариях.

Недавнее исследование подчеркивает, что ключевым фактором является не размер модели, а способность агента аккуратно очищать свою память. Агент должен иметь возможность сворачивать прошлое, чтобы не потеряться в длинных задачах или даже поменять стартегию, если он зашел в тупик.

В этой статье рассматриваем фреймворк для такого рода сворачивания. Оказывается, что динамическое управление памятью значительно повышает производительность веб-агентов.

📜 Полный обзор

Проактивная память: как ИИ-агенты научились сворачивать контекст и думать на 100 шагов вперёд

Задачи, которые требуют навыков использования инструментов и многократного поиска в интернете, обычно создают длинные сценарии, которые ломают большинство LLM-агентов: либо они просто копят всю историю, что достаточно больно для использования в контексте…

105 views15:15

Dataism Science Hub

Как ИИ-агенты учатся параллелить задачи с помощью графа размышлений

Часто ИИ-агенты не справляются даже с самыми простыми прикладными задачами: не могут забронировать отель на нужную дату или сделать коммит в нужную ветку в гите. В чем же дело и почему столь умные системы не работают там, где человеу понадобится всего пара минут?

Исследователи утверждают: всё дело в том, как модель организует своё мышление. Оказывается, если вместо классического пошагового подхода построить нечто вроде графа размышлений, на которые нужно разбить задачу, то получается гораздо лучше и быстрее.

В этом обзоре мы разберём, как агенты учатся думать над задачами и почему будущее ИИ лежит в умении строить правильную структуру размышлений.

📜 Полный обзор

Как ИИ-агенты учатся параллелить задачи с помощью графа размышлений

Автономные агенты всегда используют вызовы других инструментов. Однако, почти все популярные агентные фреймворки делают это в строгой последовательности. Агент думает и на каждый шаг вызывает нужный инструмент, ждёт результат и смотрит, что делать дальше.…

111 views18:07

Dataism Science Hub

Будущее программирования — мультимодальное: как JanusCoder научился видеть интерфейс, который сам создает

ИИ уже давно умеет генерировать код. Однако если попросить его построить интерактивный график или сгенерировать анимацию, он часто не справляется с задачей.
По большому счёту, он игнорирует то, как будет визуализироваться код, и в итоге результат приходится дорабатывать вручную.

Почему ИИ-модели для генерации кода плохо справляются с этим?

Свежее исследование показывает, что ключ к решению заключается в создании модели, которая умеет и изучить задачу, и написать код, и посмотреть на результат как на картинку, чтобы доработать его.

Сегодня мы рассмотрим, как обучали такую модель и почему её появление может изменить то, как разработчики создают интерфейсы, аналитики визуализируют данные, а ИИ-агенты начинают по-настоящему понимать, что именно они программируют.

📜 Полный обзор

Будущее программирования — мультимодальное: как JanusCoder научился видеть интерфейс, который сам создает

Научные графики, интерактивные интерфейсы, а также анимации различных теорем – всё это, по сути, визуальное представление кода. Однако сегодня системы искусственного интеллекта учитывают только текстовую модальность и не принимают во внимание, как код будет…

98 views18:33

Dataism Science Hub

ИИ в белом халате: как он учится ставить диагнозы в виртуальной клинике

ИИ уже достаточно давно научился искать симптомы, отвечать на вопросы из учебников и угадывать диагнозы на тестах, кажется, что следующий рубеж уже совсем близко и они смогут заменить врачей-диагностов. Однако, на более сложных и приближённых к реальности задачах, когда нужно самому принимать решения по ходу, многие из существующих ИИ-моделей почему-то оказываются не способны рассуждать на уровне врача-эксперта: они часто не могут понять, когда стоит остановиться, не знают какие анализы назначить или попросту действуют по шаблону.

Новое исследование, наоборот, утверждает, что всё о чём мы думали раньше вообще не важно — и размер модели и количество данных — всё это практически не влияет на итог, а самое главное это то, как именно ИИ учится рассуждать и стратегически мыслить. Авторы помещают ИИ в виртуальную клинику, где каждое действие имеет значение, а решение о неправильном выборе будущего анализа повлияет на конечный диагноз. При этом, ИИ получает обратную связь не только за финальный точный диагноз, но и за всю цепочку принятых решений.

Давайте разберёмся, почему для успеха ИИ недостаточно просто «знать правильный ответ» из учебника и почему обучение на реалистичных медицинских сценариях позволяет делать рассуждения ИИ похожими на врачебные. Всё это меняет не только подход к диагностике, но и то, как вообще следует использовать ИИ в медицине.

📜 Полный обзор

ИИ в белом халате: как он учится ставить диагнозы в виртуальной клинике

В медицине клинический диагноз часто требует от врача нескольких действий: построения разумной гипотезы на основании симптомов пациента, проведения соответствующих тестов для подтверждения или исключения этой гипотезы, а также окончательного решения о том…

119 views20:33

Dataism Science Hub

Децентрализованный ИИ: как рой нейросетей побеждает большие модели

ИИ становятся все умнее, но когда дело доходит до практического применения, энтузиасты и ученые обнаруживают, что некоторые ИИ-модели не справляются с отдельными задачами.

Казалось бы, мы все время увеличиваем размеры моделей; посмотрите только на LLM которые сжигают все больше энергии, чтобы получить крошечное улучшение производительности на некоторых задачах, сохраняя при этом уязвимость ко всем видам атак. Однако по мере того, как растет стоимость, растут и требования к их надежности и стабильности.

Вот неожиданный поворот: недавние исследования показывают, что успех ИИ-систем часто определяется не размерами моделей, а тем, как различные модели объединяются или, что еще более важно, как они приходят к консенсусу или «договариваются» между собой. Фактически, небольшой рой разнородных ИИ-моделей, который умеет сравнивать решения между собой, часто может превзойти отдельную большую модель и, как правило, гораздо более устойчив к промт-инъекциям и другим видам атак.

Итак, как устроена эта коллективная мыслительная система и почему организации, стремящиеся создать децентрализованный ИИ, могут обратить на нее внимание?

📜 Полный обзор

Децентрализованный ИИ: как рой нейросетей побеждает большие модели

Сегодня большие языковые модели добрались до уровня продвинутого эксперта в разных задачах. Чтобы повысить качество и надежность при децентрализованном использовании есть лишь вариант существенно увеличить их размер, но это затратно и не экономически эффективно.…

🔥3

124 views22:43

Dataism Science Hub

Как ИИ-браузер ChatGPT Atlas разгадал судоку за пару минут, но проиграл в Flappy Bird

ИИ умеет пользоваться браузером: видеть веб-страницы и решать на какую клавишу нажать. Но может ли ИИ играть в браузерные игры?

ChatGPT Atlas прошёл это испытание. Он быстро справился с судоку, не делая ни одной ошибки. Зато во Flappy Bird он также быстро проиграл, не набрав ни одного очка.

Что мешает браузерным агентам полноценно играть в игры? Разбираемся в новом обзоре.

📜 Полный обзор

Как ИИ-браузер ChatGPT Atlas разгадал судоку за пару минут, но проиграл в Flappy Bird

Что если мы дадим агенту глаза и руки в браузере, и он получит не только контекст на странице, но и намерение, и сможет выполнять целенаправленные клики и нажатия клавиш? Исследователи решили проверить как поведет себя агент на нескольких веб-играх. Думаю…

99 views15:06

Dataism Science Hub

От пикселей к смыслу: как SVG помогает ИИ понимать мир

ИИ становится всё лучше в обработке текстов и решении задач, требующих обширных размышлений. Но когда речь заходит об изображениях, он начинает страдать. Модели видят тысячи пикселей и могут распознавать объекты, но если попросить их объяснить, что изображено на картинке или почему что-то было нарисовано определённым образом, их ответы часто звучат неубедительно.

В недавнем исследовании эксперты высказали предположение, что мы предоставляем изображения ИИ не в том виде. Они показывают, что формирование изображений на естественных языках, вероятно, не оптимально для обобщающих рассуждений. Вместо этого изображение следует сначала преобразовать в компактный, но осмысленный SVG-код, а уже затем передавать его для рассуждений на естественном языке. Интересно, что такой подход улучшает обобщающую рассуждения способность модели.

Давайте разберёмся, почему так происходит и как преобразование изображения из пикселей в символьный код может помочь моделям лучше рассуждать, используя изображения.

📜 Полный обзор

От пикселей к смыслу: как SVG помогает ИИ понимать мир

Современные визуально-языковые модели видят картинку как массив пикселей. Но чтобы по-настоящему понимать картинку, им нужно работать не с пикселями, а с символами — как с кодом. Это хорошо работает с распознаванием изображений, но плохо — для использования…

110 views17:02

Dataism Science Hub

Как ИИ-ученый пишет научные статьи о машинном обучении на уровне джуна

Заголовки статей, да и бенчмарки говорят о том, что ИИ становится всё умнее. Но когда дело доходит до реальных научных исследований, на практике многие автономные «ИИ-учёные» всё ещё не справляются с задачей. Их проблемы и решения выглядят расплывчатыми, а эффективность часто ниже, чем у студентов. Но почему?

Новое исследование из Японии предполагает интересный подход: вместо того, чтобы давать волю машине заниматься исследованием отдельной области, авторы попробовали сфокусировать её на одном исследовании - и получили заметный результат. Казалось бы, небольшой сдвиг, но результаты получаются лучше.

Что это значит для будущего ИИ-исследователей? Как машины учатся ориентироваться в реальных задачах и почему им всё ещё нужен человеческий надзор.

📜 Полный обзор

Как ИИ-ученый пишет научные статьи о машинном обучении на уровне джуна

В последнее время автономные агенты позиционировались как системы, которые умеют генерировать идеи и код на их основе, самостоятельно проводить эксперименты и писать научные статьи. Однако на практике такие системы часто оказывались неэффективными: генерируемые…

👍1

111 views22:02

Dataism Science Hub

Почему мышление через видео может быть следующим шагом в развитии ИИ

Кажется, что для развития ИИ нам нужно только увеличить объем данных и количество слоев нейросетей, чтобы достичь новых рекордов. Однако часто современные модели все еще сбиваются с толку из-за вещей, которые кажутся нам простыми. Почему это так?

В недавней работе исследователи предложили совершенно новый взгляд на этот вопрос. Они предполагают, что ключ может крыться не только в тексте или изображениях, а в видео. Они показывают, что обучение модели рассуждению с помощью видео помогает увязать вместе язык, логику и геометрию. Некоторые задачи выглядят иначе, когда гипотезы проверяются, а формулы пишутся в реальном времени.

Речь не о генерации привлекательных видеороликов, а об обучении модели рассуждать, действовать и учиться на своем опыте. В этой статье объясняю, почему видеогенератор может стать универсальной моделью мира для ИИ.

📜 Полная статья

Почему мышление через видео может быть следующим шагом в развитии ИИ

Когда мы просим модель рассуждать, она делает это с помощью слов в случае текста или с помощью статичной сцены в случае картинки. Однако окружающий мир не является статичным: объекты могут перемещаться, а правила часто складываются только по их поведению…

👍2

106 views06:04

Dataism Science Hub

Как обучить ИИ работать за компьютером

ИИ-агенты всё лучше справляются с решением тестов на общее развитие, поиском информации, рисованием картинок и даже программированием, но вот с интерфейсами на рабочем столе они пока не очень. Оказывается, реальные пользовательские интерфейсы с сотнями мелких элементов, шумом и похожими иконками – всё ещё сложное испытание. Количество опций на экране слишком велико для тривиального перебора, так что агенту надо понимать, что происходит на экране и где именно тот элемент, который нужен по инструкции пользователя.

Как ни странно, но не большие обезличенные датасеты делают агента умнее, а много человеческой и плотной разметки. Вместо миллионов сгенерированных картинок откуда‑то взятые десятки тысяч реальных сценариев использования с ручным выделением и подписью каждого элемента. Почему это важно и что это меняет для разработки агентов – давайте разбираться на примере нового исследования.

📜 Полный обзор

Как обучить ИИ работать за компьютером

Агенты, которые умеют управлять компьютером, часто не справляются с, казалось бы, простым шагом: найти на экране элемент, описанный в человеческой инструкции. Сделать такую привязку особенно трудно на интерфейсах с обилием мелких элементов, похожих панелей…

94 viewsedited 09:25

Dataism Science Hub

Как универсальный ИИ-агент учится жить в открытом мире

ИИ уже давно обыгрывает людей в сложные игры вроде шахмат и Dota 2. Однако, стоит поместить их в менее структурированные неигровые или даже игровые цифровые миры, как их работоспособность резко снижается. Например, одна и та же модель, которая эффективно работает на фиксированных целях, может казаться совершенно беспомощной, если цели меняются и агенты должны сами понимать, как их достичь.

Недавние исследования показывают, что агенты все еще далеки от идеального поведения в открытых средах, при этом размер модели и архитектурные ухищрения играют меньшую роль, чем считалось ранее. Все большее значение приобретает способность агентов использовать мышление. В этой статье мы рассмотрим Lumine — агента, который способен выживать в большом мире, продуманно выбирая действия и обучаясь на своем опыте.

В обзоре расскажу, почему для агентного ИИ важно не только копировать действия игроков, но и осваивать особое гибридное планирование и обучение, а также размышлять только тогда, когда это необходимо.

📜 Полный обзор

Как универсальный ИИ-агент учится жить в открытом мире

Проблема универсальных агентов снова вышла на передний план. Разработчики Lumine предлагают конкретный путь, как собрать агента, который будет устойчиво проходить сложные задачи с 3D навигацией, головоломками и диалогами в открытом мире Genshin Impact в течение…

👍1

92 viewsedited 20:17

Dataism Science Hub

Как ИИ-агенты научились рефакторить код: что получается хорошо, а что не очень

ИИ-агенты берут на себя задачи по улучшению кода, исправлению ошибок и даже автоматической отправке pull request’ов. Эти агенты также обещают значительно ускорить рефакторинг.

Недавнее исследование показало, что современные ИИ-агенты хорошо исправляют код с типовыми улучшениями, но почти не трогают код, требующий улучшения архитектуры или исправления сложного технического долга. Также выяснилось, что ИИ мало дать большое количество данных и простые инструкции для существенного улучшения производительности, ему также нужны механизмы рассуждений и встроенные инструменты.

В этом обзоре мы обсудим текущие возможности ИИ-агентов для рефакторинга, как их подход отличается от человеческого, и что может привести к следующему скачку производительности. Всё это повлияет на то, как мы будем работать с кодом и распределять задачи между людьми и машинами.

📜 Полный обзор

Как ИИ-агенты научились рефакторить код: что получается хорошо, а что не очень

Когда ИИ-агенты пишут код, они берут на себя всё больше сугубо человеческих задач - планирование, прогон тестов, да и даже последовательный рефакторинг. Авторы статьи Agentic Refactoring: An Empirical Study of AI Coding Agents впервые широко и глубоко посмотрели…

❤2🔥1

114 views18:09