Dataism Science Hub – Telegram

Dataism Science Hub

@dataism_science

113 subscribers

90 links

🤖 Дневник ИИ-исследователя: обзор новых статей в области искусственного интеллекта

@andre_dataist

Download Telegram

About

Blog

Apps

Platform

Dataism Science Hub

113 subscribers

Dataism Science Hub

Как обучение с подкреплением перестраивает мышление LLM

Когда говорят о продвинутых ИИ-моделях, чаще всего обсуждают точность фактов или впечатляющую скорость ответа. Но если копнуть глубже, становится ясно: настоящая магия — в умении рассуждать и строить сложные цепочки мыслей. Недавнее исследование показало, что обычное обучение с подкреплением меняет не только цифры в метриках, но и заставляет модель внутренне перестраиваться. Постепенно появляется четкое разделение — где просто выполняется инструкция, а где возникает настоящий план, со своими “давай попробуем” и “а что если”. Оказывается, важнее всего — это скрытая стратегия, которая позволяет моделям ловить редкие инсайты, делать ошибки на совершенно новом уровне и обыгрывать старые методы по всем фронтам. Как это устроено на практике и почему отдельные группы токенов вдруг становятся стратегами — об этом и пойдет речь.

📜 Полный обзор

Как обучение с подкреплением перестраивает мышление LLM

Задачи на рассуждение — больное место многих ИИ-систем, даже если у них хорошие фактические знания. Новая работа показывает, что усиление через RL (Reinforcement Learning, обучение с подкреплением) не просто повышает точность, а перестраивает внутреннюю логику…

55 views11:54

Dataism Science Hub

Как мозг предсказывает следующее слово и при чем тут ИИ

Наш мозг всё время пытается угадать следующее слово, почти как современные большие языковые модели. Это не просто метафора: недавнее исследование показало, что предсказания ИИ удивительно совпадают с тем, что происходит в мозге человека во время восприятия речи. Учёные выяснили, что чем точнее ожидание слова, тем меньше усилий требуется мозгу для его обработки, и наоборот. Чтобы доказать это, они посадили добровольцев в томограф, включили им аудиокнигу и сопоставили электрическую активность мозга с оценками предсказуемости из модели. Разберёмся, как именно проходил эксперимент и что эти результаты могут значить для будущего нейротехнологий.

📜 Полный обзор

Как мозг предсказывает следующее слово и при чем тут ИИ

Зачем мозгу предсказывать слова Мы редко слушаем речь как поток неожиданных звуков. Мозг постоянно строит догадки о следующем слове и проверяет себя по мере поступления звука. Такой режим экономит силы: чем точнее ожидание, тем меньше усилий на распознавание.…

75 views11:57

Dataism Science Hub

ИИ-агенты выходят на рынок: как строится новая агентная экономика

Когда мы слышим про ИИ-агентов, многие представляют себе умных помощников. Но что если эти агенты уже сегодня учатся не просто помогать, а напрямую участвовать в цифровой экономике? Они торгуются между собой, обмениваются данными, зарабатывают репутацию, заключают сделки, а иногда — принимают решения быстрее, чем человек успеет моргнуть. Становится похоже на новую игру, правила которой ещё только пишутся. Как устроены эти “песочницы”, где автономные агенты учатся жить по своим законам, почему рынок будет меняться гораздо быстрее, чем кажется, и какие подводные камни ждут впереди — разбираемся на свежем примере из исследовательской лаборатории Google DeepMind.

📜 Полный обзор

ИИ-агенты выходят на рынок: как строится новая агентная экономика

Автономные ИИ‑агенты становятся не просто помощниками, а участниками растущих цифровых рынков: договариваются, закупают данные, планируют, пишут код, управляют роботами. Авторы работы предлагают смотреть на это как на зарождающуюся агентную экономику — связку…

60 views12:05

Dataism Science Hub

Эмоции на длинной дистанции: как ИИ учится быть эмпатичным

Почти все тесты на «эмоции» у больших языковых моделей — это короткие реплики: вежливый ответ, парочка поддерживающих слов, и всё на этом. Но в жизни всё работает иначе. Когда разговор затягивается, люди уводят тему в сторону, вспоминают старое, возвращаются — и именно тогда важные нюансы легко теряются. Могут ли современные ИИ не сбиться с эмоциональной нити на длинной дистанции, когда речь идёт не о паре фраз, а о десятках страниц и сложных диалогах? Исследователи решили проверить это на практике: собрали стресс‑тест для моделей с объемными, реальными сценариями, в которых приходится дотошно разбирать переживания и поддерживать разговор до конца. И вместе с этим придумали пару довольно интересных трюков, чтобы дать моделям шанс не «утонуть» в потоке эмоций. Как ИИ справился с этим марафоном — и что из этого вышло, читайте ниже.

📜 Полный обзор

Эмоции на длинной дистанции: как ИИ учится быть эмпатичным

Большая часть проверок эмоционального интеллекта у LLM сосредоточена на коротких, аккуратно размеченных фразах. В реальности всё сложнее: люди говорят долго, отвлекаются, меняют тему, возвращаются к старым переживаниям. На такой дистанции модели начинают…

74 views17:29

Dataism Science Hub

Агенты, которые не теряют цель: как полуонлайн‑обучение научило ИИ решать многошаговые задачи

Открыть телефон, быстро найти нужный файл, перенести данные между приложениями — для нас привычная рутина, а для ИИ-агентов с их умением «видеть» экран это настоящее испытание. Важно не просто нажать правильные кнопки, а удерживать замысел: дойти до финала, не сбиться на полпути и не потерять контекст. Крупные языковые модели уже умеют работать со скриншотами и даже рассуждать о шагах, но когда задача требует больше двух-трех действий подряд, начинается настоящее веселье. Почему ИИ так легко «теряет нить», и как свежие исследования учат его держать в голове весь сценарий — рассказываем на живых примерах и с неожиданными находками из мира полуонлайн-обучения.

📜Полный обзор

Агенты, которые не теряют цель: как полуонлайн‑обучение научило ИИ решать многошаговые задачи

Автоматизация интерфейсов на экране — мечта многих: открыть приложение, найти нужную кнопку, выполнить серию шагов и довести задачу до конца. Сегодня это делают агенты на базе больших языковых моделей, которые умеют видеть скриншоты, рассуждать и действовать.…

50 views10:57

Dataism Science Hub

Как научить ИИ-агентов работать с инструментами без ручной разметки

Как сделать так, чтобы ИИ-агент уверенно бронировал рейсы, проверял балансы, собирал ответы из нескольких сервисов — и не упирался в кучу искусственных ограничений? Команда исследователей решила взглянуть на этот вопрос иначе: если мир реальных инструментов слишком хаотичен, почему бы не построить для агента полноценную тренировочную среду — с тысячами функций и строгим контролем каждого шага? Оказалось, что такой виртуальный полигон способен научить модели не только формально вызывать API, но и действовать так, будто она действительно понимает происходящее. Что придумали авторы — в подробностях этой статьи.

📜 Полный обзор

Как научить ИИ-агентов работать с инструментами без ручной разметки

Последний год все обсуждают, как научить агентов уверенно работать с инструментами: бронировать билеты, уточнять статус доставки, проверять баланс, собирать ответы из нескольких API. Затык один и тот же: не хватает реалистичных, разнообразных траекторий,…

57 views12:39

Dataism Science Hub

Как научить ИИ мыслить по-человечески: разбор WebResearcher и его революционной стратегии

Зачем ИИ нужен блокнот, а не бесконечная свалка знаний? Большинство современных исследовательских агентов просто складывают всё, что нашли, в одно огромное окно памяти, пока оно не превращается в шумный архив, где сложно что-то найти. Но авторы WebResearcher решила пойти другим путём — её ИИ не тащит за собой весь багаж знаний, а регулярно останавливается, выписывает главное на черновик и начинает следующий раунд с чистой страницей. Получается своего рода интеллектуальная прокачка: агент учится рассуждать шаг за шагом, не захлёбываясь лишней информацией, а данные для таких «марафонов» ему готовит целая фабрика сложных задач. Новая стратегия уже показала себя на бенчмарках — и местами обошла крупные коммерческие решения. Как всё это устроено, почему помогает мыслить по-человечески и что будет дальше — разбираемся в деталях.

📜 Полный обзор

Как научить ИИ мыслить по-человечески: разбор WebResearcher и его революционной стратегии

Большинство открытых исследований по глубокому поиску работают по простому принципу: складывать всё найденное в одно большое окно контекста. С каждым шагом туда летят новые выдержки, ссылки, заметки. В итоге полезное тонет в шуме, ранние ошибки остаются навсегда…

86 views22:39

Dataism Science Hub

Маленькая модель с большими возможностями: как K2‑Think обыгрывает гигантов в математике и программировании

Большие языковые модели всё чаще хвастаются миллиардами параметров, но гонка гигантов приносит не всегда ожидаемые плоды. Что, если не обязательно наращивать размер весов, чтобы решать сложные математические задачи и писать проверяемый код на уровне топовых LLM? Взять компактную модель, научить её размышлять длинно и пошагово — и вдруг она начинает конкурировать с лидерами, опережая габаритных собратьев.

K2‑Think в этом сезоне стала маленькой сенсацией. Инженеры собрали доступную 32B‑модель и вложили не столько вычислений, сколько ума в этапы её обучения и применения. Получилось не просто обогнать на повороте — на ряде бенчмарков по математике и коду она стоит в одной линии с самыми мощными открытыми системами, а кое-где и оставляет их позади. Как такое возможно и что внутри у этой модели? Обзор, в котором длинные цепочки рассуждений и смекалка оказываются сильнее грубой силы.

📜 Полный обзор

Маленькая модель с большими возможностями: как K2‑Think обыгрывает гигантов в математике и программировании

За последний год стало ясно: чтобы лучше решать сложные задачи, LLM не обязательно должны только расти в параметрах. Важнее научить модель думать длинно и структурировано, а часть вычислений перенести на этап выполнения запроса. K2‑Think — яркий пример этого…

102 views19:01

Dataism Science Hub

RPG для кода: как ИИ собирает целые проекты с помощью графов

ИИ-агенты легко справляются с написанием отдельных функций и файлов — но стоит перейти к целому проекту, всё начинает идти наперекосяк. Где-то разъехались интерфейсы, там устоявшийся план рассыпался, а итоговый код больше напоминает сборник случайных кусков, чем работающую программу.
Но вот исследователи предлагают неожиданный ход: взять на вооружение гибкую структуру из мира графов, чтобы учить ИИ правильно собирать полноценные репозитории. Дальше — интереснее. Новый фреймворк ZeroRepo не только рисует карту будущего проекта, но и превращает её в работающий продукт шаг за шагом, с тестами и реальной архитектурой.
В статье — как устроен этот подход, почему он оказался на голову выше старых решений и что необычного выяснилось на практике, когда ИИ попросили «написать» аналоги scikit-learn, pandas и даже django — с нуля и под прицелом эталонных тестов.

📜 Полный обзор

RPG для кода: как ИИ собирает целые проекты с помощью графов

Большие языковые модели уверенно пишут функции и отдельные файлы, но теряются, когда нужно собрать проект целиком. На длинной дистанции естественный язык становится ненадежным: расплывчатые формулировки, несовпадающие интерфейсы, утечки зависимостей, рассыпавшаяся…

126 views09:19

Dataism Science Hub

Меньше примеров — больше интеллекта

Сколько раз мы слышали: чтобы ИИ стал по-настоящему умным, его нужно кормить тоннами данных. Кажется, что без тысяч и тысяч примеров — никак. Но вот несколько исследователей решили пойти наперекор: они собрали всего 78 небольших, но очень насыщенных жизнью эпизодов, чтобы научить модель не просто давать ответы, а работать как настоящий агент — строить планы, исправлять ошибки, действовать вместе с человеком. Результат — LIMI, система, которая показывает, что главное не количество, а качество каждого шага и решения. Почему подход «меньше — значит больше» вдруг стал неожиданной находкой для всей индустрии ИИ — история намного интереснее банальной экономии ресурсов.

📜 Полный обзор

Меньше примеров — больше интеллекта

Индустрия давно ждёт от ИИ не только красивых ответов, но и действий: спланировать задачу, выбрать инструменты, исправить ошибки и довести дело до результата. Авторы LIMI (Less Is More for Intelligent Agency) предлагают смелую идею: чтобы «воспитать» агентность…

👍1

72 views08:29

Dataism Science Hub

Почему ИИ в программировании спотыкается в реальной работе: новый бенчмарк показал всю правду

Казалось бы, ИИ в программировании уже уверенно прописался в наших кодовых репозиториях: он чинит баги, предлагает патчи и с легкостью проходит тесты на привычных бенчмарках. Отсюда и растет ощущение, что полноценные ИИ-программисты — вот‑вот станут реальностью. Но как только дело доходит до задач из настоящей индустрии, вся сияющая картинка начинает трещать по швам. Новый бенчмарк SWE-Bench Pro устроил моделям суровый экзамен и показал, насколько велика пропасть между вежливым автокомплитом и работой инженерного уровня. Что именно не так — и почему даже самые продвинутые системы вдруг оказываются не у дел, если попросить их разобраться в большом и сложном проекте? Статья про честную проверку возможностей ИИ в мире реальных задач.

📜 Полный обзор

Почему ИИ в программировании спотыкается в реальной работе: новый бенчмарк показал всю правду

За последние пару лет агенты на базе больших языковых моделей уверенно вошли в повседневную разработку: умеют читать репозитории, чинить баги, предлагать патчи и гонять тесты. На классическом SWE-Bench-Verified топовые системы уверенно берут более 70% задач…

👍1

68 views14:44

Dataism Science Hub

ИИ-агенты против людей: кто сегодня пишет лучший код?

Кажется, что за последний год ИИ-агенты успели стать полноценными коллегами: они сами планируют работу, пишут код, запускают тесты и даже оформляют pull request как настоящие участники проектов. Их код проходит ревью и конкурирует с работой живых людей. Но насколько они самостоятельны? Что на самом деле происходит в реальных open source-проектах, когда к команде подключается такой ИИ-агент? В свежем исследовании разбираемся, что у ИИ-агентов получается лучше всего, как их работу принимают люди, и насколько часто без человеческой поддержки всё рассыпается.

📜 Полный обзор

ИИ-агенты против людей: кто сегодня пишет лучший код?

Последние месяцы разработчики массово пишут код с помощью агентов — автономных помощников на базе LLM, которые сами планируют шаги, вносят изменения, запускают тесты и сразу открывают pull request. В теории это экономит часы рутины. На практике до сих пор…

👍1

61 views12:53

Dataism Science Hub

Умеют ли нейросети создавать игры?

Как вы думаете, может ли нейросеть не просто писать код, а придумать игру с нуля — чтобы герои прыгали, анимации радовали, а всё это реально хотелось попробовать самому? Оказалось, для ИИ с этим не всё так просто. Одно дело — решить алгоритмическую задачку. Совсем другое — создать что-то, что приятно выглядит и не разбивается при первом запуске. Недавно исследователи придумали способ честно сравнивать, какой ИИ справляется с этой задачей лучше: они собрали целый полигон игровых примеров, где важна не только работа кода, но и то, что появляется на экране. Получилось не просто сравнение — а взгляд на настоящее и будущее генерации игр силами нейросетей.

📜 Полный обзор

Умеют ли нейросети создавать игры?

Сделать игру — это не просто заставить код выполняться. Нужны понятная механика, приятная картинка, плавная анимация и стабильные 60 FPS. Большие языковые модели уверенно решают алгоритмические задачи, но в оценках их кода редко учитывают играбельность и…

76 views18:01

Dataism Science Hub

Агентная федерация: как мультиагентные системы учатся работать сообща

Большинство мультиагентных систем устроены довольно просто: у каждого своя роль, сценарий расписан заранее, и кажется, что всё работает. Но стоит выйти за границы прототипов — и выясняется, что этот подход трещит по швам. Хаос реального мира не прощает жестких шаблонов. Где найти исполнителя под специфичную задачу, если агентов — сотни, а сеть нестабильна?

Исследователи предлагают новую идею: пусть агенты не делят между собой роли, а находят друг друга по навыкам, причём делают это на лету. Внутри такой “живой федерации” команды собираются динамично — как будто поле задачи само притягивает тех, кто лучше всего с ней справится. Как это работает и почему оказывается намного эффективнее привычных ансамблей — разбираемся на примере архитектуры Federation of Agents.

📜 Полный обзор

Агентная федерация: как мультиагентные системы учатся работать сообща

Сегодняшние мультиагентные системы часто напоминают постановку с заранее распределёнными ролями: у каждого агента свой домен, свой канал, свой сценарий. Это удобно для прототипов, но ломается в реальных задачах. Кто что умеет делать? По каким правилам? Как…

❤2

89 views13:22

Dataism Science Hub

Как думают ИИ-модели: раскладываем рассуждения на эпизоды

Последние поколения LLM умеют долго рассуждать. И вот недавно исследователи решили взглянуть на этот процесс иначе — как на развернутую историю, где каждая мысль занимает свое место в последовательности эпизодов. Оказывается, у логики моделей есть неожиданные параллели с тем, как задачи решают люди: сначала читают, потом анализируют, строят план, пробуют варианты, а иногда теряются и возвращаются на пару шагов назад. Какой путь проходит ИИ, пока ищет ответ, и насколько этот путь похож на человеческий? Новая работа с аккуратной разметкой и яркими визуализациями открывает этот скрытый внутренний театр рассуждений.

📜 Полный обзор

Как думают ИИ-модели: раскладываем рассуждения на эпизоды

Большие модели рассуждений (Large Reasoning Models, LRM) сегодня не просто отвечают, а разворачивают длинные цепочки размышлений. Это помогает им решать более сложные задачи, но создает новую проблему: как понять структуру этих рассуждений и насколько они…

82 views16:38

Dataism Science Hub

Прямой диалог с лентой или будущее рекомендательных систем

Порой кажется, что ленты рекомендаций появились вместе с интернетом — мы уже привыкли к их настойчивым попыткам угодить нам по лайкам и кликам. Но кто из нас не сталкивался с однообразными подборками в своём информационном пузыре?

Исследователи решили попробовать новый подход к рекомендациям — дать пользователю право голоса прямо в ленте: теперь можно просто сказать «это слишком дорого», и рекомендация тут же поменяется. Как устроены такие рекомендательные системы — разбираемся в новом обзоре.

📜 Полный обзор

Прямой диалог с лентой или будущее рекомендательных систем

Мы давно привыкли к лентам рекомендаций, которые будто сами знают, что нам показать. Но чаще всего они угадывают по косвенным признакам — кликам, лайкам, редким дизлайкам. Это пассивная петля: система что‑то показывает, мы как‑то реагируем, а дальше алгоритм…

68 views11:25

Dataism Science Hub

Что будет, если заставить ИИ-агента работать с тысячами API

Вы когда-нибудь задумывались, как ИИ-агента научить сразу работать с тысячами разных API? В обычной жизни всё просто — приложение вызывает одну-две привычные функции, а тут задача куда масштабнее: собрать из разрозненных инструментов настоящий швейцарский нож, который не теряется в сложных цепочках вызовов и правильно управляет аргументами, даже если сценарии усложняются. Команда ByteDance решила попробовать — «а что если научить ИИ действовать в среде, где инструментов не просто много, а очень много, и всё это в единой логике?» Получился AgentScaler: агент, который тренируется сразу в тысячах мини-миров, учится планировать, исправлять ошибки на ходу и удивительно бодро справляется даже с нестандартными задачами.

О том, как устроена эта вселенная для ИИ, как там моделируют работу инструментов и почему такой подход кардинально меняет обучение агентов — в новом разборе.

📜 Полный обзор

Что будет, если заставить ИИ-агента работать с тысячами API

Большинству полезных агентов не хватает одного: устойчивого и точного function calling. Это не про красивый ответ, а про правильные вызовы инструментов с корректными аргументами и в нужном порядке. Проблема в том, что данных с такими сценариями почти нет…

73 views19:42

Dataism Science Hub

Увидел-указал-полетел: как управлять автономными дронами без обучения с нуля

Когда дроны только появились, ими можно было управлять разве что с пульта или через текстовые команды — «поверни налево», «лети прямо», «вверх на два метра». Всё это выглядело немного старомодно и, прямо скажем, неудобно: попробуй опиши словами маршрут, если дрон видит перед собой живую картинку, а тебе надо всё переводить в текст. И вот появился довольно неожиданный подход — вместо текстовых инструкций просто показывать дрону, куда лететь, буквально указывая нужную точку в кадре.

Теперь команда для беспилотника — это не набор слов, а пиксель на изображении, а значит, связь между вашим замыслом и настоящим полетом стала куда более непосредственной. Модель сама определяет, как лететь к этой точке, одновременно замечает препятствия и быстро реагирует, если что-то изменится. Что получилось из этой попытки «разговаривать» с дроном языком зрения — и c какими проблемами исследователи столкнулись на практике? Всё оказалось интереснее, чем кажется на первый взгляд.

📜 Полный обзор

Увидел-указал-полетел: как управлять автономными дронами без обучения с нуля

Навигация по текстовым инструкциям — давний вызов для автономных дронов. Традиционные алгоритмы на основе обучения с подкреплением требуют больших датасетов и плохо переносятся на новые домены. Недавняя волна решений на базе визуально-языковых моделей обещала…

82 views16:37

Dataism Science Hub

Агент-исследователь: как научить LLM работать с поиском в интернете

Модели давно научились отвечать на вопросы и решать задачи, но в живом поиске по интернету они пока скорее теряются, чем становятся настоящими помощниками. Ведь здесь всё не так просто: обычного запроса не хватает, приходится возвращаться к предыдущим шагам, уточнять детали, сопоставлять факты из разных источников. Команда InfoAgent решила прокачать LLM так, чтобы она вела себя не как угадывающий бот, а как упорный веб-детектив — способный шаг за шагом пробираться через паутину ссылок и находить нужное даже в запутанных случаях. Как устроена такая система, почему старые подходы уже не работают, и что из этого вышло — обо всём по порядку.

📜 Полный обзор

Агент-исследователь: как научить LLM работать с поиском в интернете

Мы давно научили модели разговаривать и решать уравнения, но в реальном мире они спотыкаются о поиск и проверку фактов. Одного запроса в поиске часто мало: нужно идти по следам, уточнять, сопоставлять. Команда InfoAgent предложила именно такого «веб-детектива»…

❤2

75 views18:17

Dataism Science Hub

Как ИИ-агенты учатся работать с временными рядами

В мире данных однотипные графики часто выглядят уныло, а работа с ними — еще скучнее: очистка, бесконечные проверки, подбор моделей и объяснения для любопытного начальства. Классические алгоритмы предсказаний временных рядов давно знакомы аналитикам, но когда массив данных огромен, а требования к прозрачности все выше — старые методы начинают давать сбои.

Вместо того чтобы снова изобретать “лучшую” модель, команда исследователей решила взглянуть на задачу по-новому: построить мультиагентную систему, в которой несколько ИИ-агентов делят между собой всю рутину аналитика — от первой чистки до финального отчета. Что они придумали и почему это на самом деле похоже на работу настоящего исследователя? Разбираемся на живом примере из энергетики.

📜 Полный обзор

Как ИИ-агенты учатся работать с временными рядами

В реальных компаниях на стол падают десятки тысяч коротких, шумных временных рядов с пропусками и скачущими горизонтом и частотой. Главная боль — не сама модель, а всё вокруг: очистка данных, грамотная валидация, ансамбли, отчеты для аудита. Узкоспециализированные…

👍1

77 views09:52

Dataism Science Hub

Как выжать максимум смысла из тысяч строк кода

Сколько смыслов можно уместить в тысяче строк кода? Этот вопрос становится совсем не теоретическим, когда к делу подключаются современные LLM — им всё чаще приходится разбираться в огромных проектах, где важно не просто “прочитать всё”, а вытащить из бесконечного кода именно то, что нужно. При этом стандартные методы экономят время и память… но нередко теряют самую суть, упуская важные связи между частями программы.

В свежей работе исследователи предлагают неожиданно простой трюк: вместо того чтобы скармливать модели лишние мегабайты, они аккуратно выжимают из репозитория только те фрагменты, которые реально двигают модель к правильному ответу. При этом смысл сохраняется, а мусор уходит.

Оказалось, даже совсем не обучая модель и не вникая во внутренности LLM, можно кратно повысить скорость и снизить стоимость анализа длинного кода — и иногда добиться даже лучшего качества. Как это работает, почему эффект оказался внушительным и к каким деталям тут всё сводится — разбираемся на примере LongCodeZip.

📜 Полный обзор

Как выжать максимум смысла из тысяч строк кода

LLM для кодинга уже умеют дополнять, объяснять и чинить код, но в реальных проектах им приходится читать тысячи строк. Большие окна контекста помогают, но бьют по времени и цене, а ещё парадоксально ухудшают точность: модель начинает теряться в деталях и…

🔥1

74 views15:00