Dataism Science Hub
113 subscribers
90 links
🤖 Дневник ИИ-исследователя: обзор новых статей в области искусственного интеллекта

@andre_dataist
Download Telegram
ИИ-агенты выходят на рынок: как строится новая агентная экономика

Когда мы слышим про ИИ-агентов, многие представляют себе умных помощников. Но что если эти агенты уже сегодня учатся не просто помогать, а напрямую участвовать в цифровой экономике? Они торгуются между собой, обмениваются данными, зарабатывают репутацию, заключают сделки, а иногда — принимают решения быстрее, чем человек успеет моргнуть. Становится похоже на новую игру, правила которой ещё только пишутся. Как устроены эти “песочницы”, где автономные агенты учатся жить по своим законам, почему рынок будет меняться гораздо быстрее, чем кажется, и какие подводные камни ждут впереди — разбираемся на свежем примере из исследовательской лаборатории Google DeepMind.

📜 Полный обзор
Эмоции на длинной дистанции: как ИИ учится быть эмпатичным

Почти все тесты на «эмоции» у больших языковых моделей — это короткие реплики: вежливый ответ, парочка поддерживающих слов, и всё на этом. Но в жизни всё работает иначе. Когда разговор затягивается, люди уводят тему в сторону, вспоминают старое, возвращаются — и именно тогда важные нюансы легко теряются. Могут ли современные ИИ не сбиться с эмоциональной нити на длинной дистанции, когда речь идёт не о паре фраз, а о десятках страниц и сложных диалогах? Исследователи решили проверить это на практике: собрали стресс‑тест для моделей с объемными, реальными сценариями, в которых приходится дотошно разбирать переживания и поддерживать разговор до конца. И вместе с этим придумали пару довольно интересных трюков, чтобы дать моделям шанс не «утонуть» в потоке эмоций. Как ИИ справился с этим марафоном — и что из этого вышло, читайте ниже.

📜 Полный обзор
Агенты, которые не теряют цель: как полуонлайн‑обучение научило ИИ решать многошаговые задачи

Открыть телефон, быстро найти нужный файл, перенести данные между приложениями — для нас привычная рутина, а для ИИ-агентов с их умением «видеть» экран это настоящее испытание. Важно не просто нажать правильные кнопки, а удерживать замысел: дойти до финала, не сбиться на полпути и не потерять контекст. Крупные языковые модели уже умеют работать со скриншотами и даже рассуждать о шагах, но когда задача требует больше двух-трех действий подряд, начинается настоящее веселье. Почему ИИ так легко «теряет нить», и как свежие исследования учат его держать в голове весь сценарий — рассказываем на живых примерах и с неожиданными находками из мира полуонлайн-обучения.

📜Полный обзор
Как научить ИИ-агентов работать с инструментами без ручной разметки

Как сделать так, чтобы ИИ-агент уверенно бронировал рейсы, проверял балансы, собирал ответы из нескольких сервисов — и не упирался в кучу искусственных ограничений? Команда исследователей решила взглянуть на этот вопрос иначе: если мир реальных инструментов слишком хаотичен, почему бы не построить для агента полноценную тренировочную среду — с тысячами функций и строгим контролем каждого шага? Оказалось, что такой виртуальный полигон способен научить модели не только формально вызывать API, но и действовать так, будто она действительно понимает происходящее. Что придумали авторы — в подробностях этой статьи.

📜 Полный обзор
Как научить ИИ мыслить по-человечески: разбор WebResearcher и его революционной стратегии

Зачем ИИ нужен блокнот, а не бесконечная свалка знаний? Большинство современных исследовательских агентов просто складывают всё, что нашли, в одно огромное окно памяти, пока оно не превращается в шумный архив, где сложно что-то найти. Но авторы WebResearcher решила пойти другим путём — её ИИ не тащит за собой весь багаж знаний, а регулярно останавливается, выписывает главное на черновик и начинает следующий раунд с чистой страницей. Получается своего рода интеллектуальная прокачка: агент учится рассуждать шаг за шагом, не захлёбываясь лишней информацией, а данные для таких «марафонов» ему готовит целая фабрика сложных задач. Новая стратегия уже показала себя на бенчмарках — и местами обошла крупные коммерческие решения. Как всё это устроено, почему помогает мыслить по-человечески и что будет дальше — разбираемся в деталях.

📜 Полный обзор
Маленькая модель с большими возможностями: как K2‑Think обыгрывает гигантов в математике и программировании

Большие языковые модели всё чаще хвастаются миллиардами параметров, но гонка гигантов приносит не всегда ожидаемые плоды. Что, если не обязательно наращивать размер весов, чтобы решать сложные математические задачи и писать проверяемый код на уровне топовых LLM? Взять компактную модель, научить её размышлять длинно и пошагово — и вдруг она начинает конкурировать с лидерами, опережая габаритных собратьев.

K2‑Think в этом сезоне стала маленькой сенсацией. Инженеры собрали доступную 32B‑модель и вложили не столько вычислений, сколько ума в этапы её обучения и применения. Получилось не просто обогнать на повороте — на ряде бенчмарков по математике и коду она стоит в одной линии с самыми мощными открытыми системами, а кое-где и оставляет их позади. Как такое возможно и что внутри у этой модели? Обзор, в котором длинные цепочки рассуждений и смекалка оказываются сильнее грубой силы.

📜 Полный обзор
RPG для кода: как ИИ собирает целые проекты с помощью графов

ИИ-агенты легко справляются с написанием отдельных функций и файлов — но стоит перейти к целому проекту, всё начинает идти наперекосяк. Где-то разъехались интерфейсы, там устоявшийся план рассыпался, а итоговый код больше напоминает сборник случайных кусков, чем работающую программу.
Но вот исследователи предлагают неожиданный ход: взять на вооружение гибкую структуру из мира графов, чтобы учить ИИ правильно собирать полноценные репозитории. Дальше — интереснее. Новый фреймворк ZeroRepo не только рисует карту будущего проекта, но и превращает её в работающий продукт шаг за шагом, с тестами и реальной архитектурой.
В статье — как устроен этот подход, почему он оказался на голову выше старых решений и что необычного выяснилось на практике, когда ИИ попросили «написать» аналоги scikit-learn, pandas и даже django — с нуля и под прицелом эталонных тестов.

📜 Полный обзор
Меньше примеров — больше интеллекта

Сколько раз мы слышали: чтобы ИИ стал по-настоящему умным, его нужно кормить тоннами данных. Кажется, что без тысяч и тысяч примеров — никак. Но вот несколько исследователей решили пойти наперекор: они собрали всего 78 небольших, но очень насыщенных жизнью эпизодов, чтобы научить модель не просто давать ответы, а работать как настоящий агент — строить планы, исправлять ошибки, действовать вместе с человеком. Результат — LIMI, система, которая показывает, что главное не количество, а качество каждого шага и решения. Почему подход «меньше — значит больше» вдруг стал неожиданной находкой для всей индустрии ИИ — история намного интереснее банальной экономии ресурсов.

📜 Полный обзор
👍1
Почему ИИ в программировании спотыкается в реальной работе: новый бенчмарк показал всю правду

Казалось бы, ИИ в программировании уже уверенно прописался в наших кодовых репозиториях: он чинит баги, предлагает патчи и с легкостью проходит тесты на привычных бенчмарках. Отсюда и растет ощущение, что полноценные ИИ-программисты — вот‑вот станут реальностью. Но как только дело доходит до задач из настоящей индустрии, вся сияющая картинка начинает трещать по швам. Новый бенчмарк SWE-Bench Pro устроил моделям суровый экзамен и показал, насколько велика пропасть между вежливым автокомплитом и работой инженерного уровня. Что именно не так — и почему даже самые продвинутые системы вдруг оказываются не у дел, если попросить их разобраться в большом и сложном проекте? Статья про честную проверку возможностей ИИ в мире реальных задач.

📜 Полный обзор
👍1
ИИ-агенты против людей: кто сегодня пишет лучший код?

Кажется, что за последний год ИИ-агенты успели стать полноценными коллегами: они сами планируют работу, пишут код, запускают тесты и даже оформляют pull request как настоящие участники проектов. Их код проходит ревью и конкурирует с работой живых людей. Но насколько они самостоятельны? Что на самом деле происходит в реальных open source-проектах, когда к команде подключается такой ИИ-агент? В свежем исследовании разбираемся, что у ИИ-агентов получается лучше всего, как их работу принимают люди, и насколько часто без человеческой поддержки всё рассыпается.

📜 Полный обзор
👍1
Умеют ли нейросети создавать игры?

Как вы думаете, может ли нейросеть не просто писать код, а придумать игру с нуля — чтобы герои прыгали, анимации радовали, а всё это реально хотелось попробовать самому? Оказалось, для ИИ с этим не всё так просто. Одно дело — решить алгоритмическую задачку. Совсем другое — создать что-то, что приятно выглядит и не разбивается при первом запуске. Недавно исследователи придумали способ честно сравнивать, какой ИИ справляется с этой задачей лучше: они собрали целый полигон игровых примеров, где важна не только работа кода, но и то, что появляется на экране. Получилось не просто сравнение — а взгляд на настоящее и будущее генерации игр силами нейросетей.

📜 Полный обзор
Агентная федерация: как мультиагентные системы учатся работать сообща

Большинство мультиагентных систем устроены довольно просто: у каждого своя роль, сценарий расписан заранее, и кажется, что всё работает. Но стоит выйти за границы прототипов — и выясняется, что этот подход трещит по швам. Хаос реального мира не прощает жестких шаблонов. Где найти исполнителя под специфичную задачу, если агентов — сотни, а сеть нестабильна?

Исследователи предлагают новую идею: пусть агенты не делят между собой роли, а находят друг друга по навыкам, причём делают это на лету. Внутри такой “живой федерации” команды собираются динамично — как будто поле задачи само притягивает тех, кто лучше всего с ней справится. Как это работает и почему оказывается намного эффективнее привычных ансамблей — разбираемся на примере архитектуры Federation of Agents.

📜 Полный обзор
2
Как думают ИИ-модели: раскладываем рассуждения на эпизоды

Последние поколения LLM умеют долго рассуждать. И вот недавно исследователи решили взглянуть на этот процесс иначе — как на развернутую историю, где каждая мысль занимает свое место в последовательности эпизодов. Оказывается, у логики моделей есть неожиданные параллели с тем, как задачи решают люди: сначала читают, потом анализируют, строят план, пробуют варианты, а иногда теряются и возвращаются на пару шагов назад. Какой путь проходит ИИ, пока ищет ответ, и насколько этот путь похож на человеческий? Новая работа с аккуратной разметкой и яркими визуализациями открывает этот скрытый внутренний театр рассуждений.

📜 Полный обзор
Прямой диалог с лентой или будущее рекомендательных систем

Порой кажется, что ленты рекомендаций появились вместе с интернетом — мы уже привыкли к их настойчивым попыткам угодить нам по лайкам и кликам. Но кто из нас не сталкивался с однообразными подборками в своём информационном пузыре?

Исследователи решили попробовать новый подход к рекомендациям — дать пользователю право голоса прямо в ленте: теперь можно просто сказать «это слишком дорого», и рекомендация тут же поменяется. Как устроены такие рекомендательные системы — разбираемся в новом обзоре.

📜 Полный обзор
Что будет, если заставить ИИ-агента работать с тысячами API

Вы когда-нибудь задумывались, как ИИ-агента научить сразу работать с тысячами разных API? В обычной жизни всё просто — приложение вызывает одну-две привычные функции, а тут задача куда масштабнее: собрать из разрозненных инструментов настоящий швейцарский нож, который не теряется в сложных цепочках вызовов и правильно управляет аргументами, даже если сценарии усложняются. Команда ByteDance решила попробовать — «а что если научить ИИ действовать в среде, где инструментов не просто много, а очень много, и всё это в единой логике?» Получился AgentScaler: агент, который тренируется сразу в тысячах мини-миров, учится планировать, исправлять ошибки на ходу и удивительно бодро справляется даже с нестандартными задачами.

О том, как устроена эта вселенная для ИИ, как там моделируют работу инструментов и почему такой подход кардинально меняет обучение агентов — в новом разборе.

📜 Полный обзор
Увидел-указал-полетел: как управлять автономными дронами без обучения с нуля

Когда дроны только появились, ими можно было управлять разве что с пульта или через текстовые команды — «поверни налево», «лети прямо», «вверх на два метра». Всё это выглядело немного старомодно и, прямо скажем, неудобно: попробуй опиши словами маршрут, если дрон видит перед собой живую картинку, а тебе надо всё переводить в текст. И вот появился довольно неожиданный подход — вместо текстовых инструкций просто показывать дрону, куда лететь, буквально указывая нужную точку в кадре.

Теперь команда для беспилотника — это не набор слов, а пиксель на изображении, а значит, связь между вашим замыслом и настоящим полетом стала куда более непосредственной. Модель сама определяет, как лететь к этой точке, одновременно замечает препятствия и быстро реагирует, если что-то изменится. Что получилось из этой попытки «разговаривать» с дроном языком зрения — и c какими проблемами исследователи столкнулись на практике? Всё оказалось интереснее, чем кажется на первый взгляд.

📜 Полный обзор
Агент-исследователь: как научить LLM работать с поиском в интернете

Модели давно научились отвечать на вопросы и решать задачи, но в живом поиске по интернету они пока скорее теряются, чем становятся настоящими помощниками. Ведь здесь всё не так просто: обычного запроса не хватает, приходится возвращаться к предыдущим шагам, уточнять детали, сопоставлять факты из разных источников. Команда InfoAgent решила прокачать LLM так, чтобы она вела себя не как угадывающий бот, а как упорный веб-детектив — способный шаг за шагом пробираться через паутину ссылок и находить нужное даже в запутанных случаях. Как устроена такая система, почему старые подходы уже не работают, и что из этого вышло — обо всём по порядку.

📜 Полный обзор
2
Как ИИ-агенты учатся работать с временными рядами

В мире данных однотипные графики часто выглядят уныло, а работа с ними — еще скучнее: очистка, бесконечные проверки, подбор моделей и объяснения для любопытного начальства. Классические алгоритмы предсказаний временных рядов давно знакомы аналитикам, но когда массив данных огромен, а требования к прозрачности все выше — старые методы начинают давать сбои.

Вместо того чтобы снова изобретать “лучшую” модель, команда исследователей решила взглянуть на задачу по-новому: построить мультиагентную систему, в которой несколько ИИ-агентов делят между собой всю рутину аналитика — от первой чистки до финального отчета. Что они придумали и почему это на самом деле похоже на работу настоящего исследователя? Разбираемся на живом примере из энергетики.

📜 Полный обзор
👍1
Как выжать максимум смысла из тысяч строк кода

Сколько смыслов можно уместить в тысяче строк кода? Этот вопрос становится совсем не теоретическим, когда к делу подключаются современные LLM — им всё чаще приходится разбираться в огромных проектах, где важно не просто “прочитать всё”, а вытащить из бесконечного кода именно то, что нужно. При этом стандартные методы экономят время и память… но нередко теряют самую суть, упуская важные связи между частями программы.

В свежей работе исследователи предлагают неожиданно простой трюк: вместо того чтобы скармливать модели лишние мегабайты, они аккуратно выжимают из репозитория только те фрагменты, которые реально двигают модель к правильному ответу. При этом смысл сохраняется, а мусор уходит.

Оказалось, даже совсем не обучая модель и не вникая во внутренности LLM, можно кратно повысить скорость и снизить стоимость анализа длинного кода — и иногда добиться даже лучшего качества. Как это работает, почему эффект оказался внушительным и к каким деталям тут всё сводится — разбираемся на примере LongCodeZip.

📜 Полный обзор
🔥1
Как управлять интернетом вещей с помощью LLM

ИИ сегодня уверенно распознаёт тексты, пишет программный код и подсказывает сложные решения — но как только его просят поработать с реальными датчиками или «умным» домом, всё становится неожиданно сложно. Один и тот же датчик может передавать данные в разных форматах, соединения обрываются, взаимодействие превращается в квест с кучей костылей и кастомных скриптов.

Однако совсем недавно инженеры предложили элегантное решение этой застарелой проблемы: не добавлять «ещё один слой» или велосипедить интеграции, а полностью переосмыслить, как LLM взаимодействуют с миром железа. В основе нового подхода — чистая, структурная логика, где роли чётко распределены и всё работает более похоже на реальную команду, чем на беспокойную толпу серверов.

Почему это важно? Такой сдвиг — не просто удобство для разработчиков, а первый реальный шаг к тому, чтобы ИИ начал по-настоящему работать с физическим миром. Как это получилось, где скрыты ключевые идеи и почему новая архитектура может стать стандартом для всего IoT — рассказываю простыми словами.

📜 Полный обзор
Графики по щелчку: как ИИ-агенты берут на себя работу дата-аналитика

ИИ уже неплохо пишет код для простых задач, но когда дело доходит до сложных данных и красивых графиков, всё начинает ломаться: легенды не совпадают, подписи съезжают, а обработка больших таблиц приводит к ошибкам. Почему машина, способная решать головоломки на олимпиадах, не может уверенно справиться с простой визуализацией данных в реальных задачах?

Неожиданный поворот: новое исследование показывает, что дело не только в мощности используемой модели. Группа учёных из Google предложила решать задачу создания графиков не одиночной нейросетью, а целой командой специализированных ИИ-агентов, где у каждого своя роль — от архитектора до критика. Такой подход значительно превзошёл предыдущие методы и показал стабильные результаты даже на сложных сценариях.

Как устроено это командное ИИ-мышление, в чём секрет их коллективной работы? Разобрались, как машины учатся думать шаг за шагом и почему это открывает новый взгляд на будущее автоматизации аналитики.

📜 Полный обзор