AI Синопсис
188 subscribers
1.05K photos
21 videos
1 file
1.06K links
AI Синопсис – ваш ежедневный гид по миру AI. Только самые свежие новости максимально быстро и со ссылками на источники.
Download Telegram
Представлен MMGR: новый бенчмарк для оценки мультимодальных генеративных моделей

Исследователи представили MMGR (Multi-Modal Generative Reasoning Evaluation and Benchmark) — новую комплексную систему оценки, разработанную для измерения способностей к рассуждению мультимодальных генеративных моделей. Этот подход призван преодолеть ограничения существующих метрик, которые часто фокусируются лишь на визуальном качестве.

Существующие метрики, такие как Frechet Video Distance (FVD), делают акцент на перцептивное качество и упускают из виду ошибки рассуждений, включая нарушения причинности, физики и глобальной согласованности.

MMGR оценивает модели по пяти ключевым параметрам рассуждений: физическому, логическому, 3D-пространственному, 2D-пространственному и временному, охватывая такие области, как абстрактное мышление, навигация в пространстве и физический здравый смысл. Тестирование показало значительные пробелы в производительности: модели демонстрируют умеренные успехи в задачах физического здравого смысла, но слабо справляются с абстрактным мышлением (менее 10% точности на ARC-AGI) и долгосрочным пространственным планированием.

Наш анализ выявляет ключевые ограничения современных моделей, включая чрезмерную зависимость от перцептивных данных, слабую глобальную согласованность состояний и цели, которые вознаграждают визуальную правдоподобность, а не причинную корректность.

MMGR предлагает унифицированный диагностический инструмент, способствующий разработке генеративных моделей мира, ориентированных на рассуждение. 🧠

Источник
Перевод статьи на русский
Сравнительный анализ: ИИ-агенты пытаются воссоздать "Сапёра", демонстрируя как успехи, так и ограничения

Ars Technica провела эксперимент, попросив четыре ведущих ИИ-агента (OpenAI Codex, Anthropic Claude Code, Google Gemini CLI и Mistral Vibe) воссоздать классическую игру "Сапёр" с дополнительной "весёлой" функцией. Результаты показали различные уровни компетентности: OpenAI Codex оказался наиболее успешным, включив важную функцию "хординга", в то время как Google Gemini CLI полностью провалился. Исследование подчёркивает, что ИИ-агенты пока что наиболее эффективны как инструменты, дополняющие человеческие навыки, а не полностью их заменяющие.
"Тем не менее, мы считаем, что наш общий опыт работы с кодирующими агентами в других проектах (подробнее об этом в будущей статье) в целом подтверждает идею о том, что они в настоящее время лучше всего функционируют как интерактивные инструменты, которые дополняют человеческие навыки, а не заменяют их."


Источник
Перевод статьи на русский
Измерение способности ИИ выполнять длительные задачи: Экспоненциальный рост производительности и перспективы автономных агентов

Исследователи предлагают измерять производительность ИИ по длительности задач, которые агенты способны выполнить. За последние шесть лет этот показатель постоянно рос в экспоненциальной прогрессии, удваиваясь примерно каждые 7 месяцев. Экстраполяция этой тенденции предполагает, что менее чем через десятилетие ИИ-агенты смогут автономно выполнять значительную часть задач по разработке программного обеспечения, на которые в настоящее время у людей уходят дни или недели. Это исследование подчеркивает важность новых метрик для оценки реального влияния ИИ и прогнозирования его будущих возможностей.
Резюме: Мы предлагаем измерять производительность ИИ с точки зрения длительности задач, которые ИИ-агенты могут выполнять. Мы показываем, что этот показатель постоянно экспоненциально увеличивается на протяжении последних 6 лет, с временем удвоения около 7 месяцев. Экстраполяция этой тенденции предсказывает, что менее чем через десятилетие мы увидим ИИ-агентов, которые смогут самостоятельно выполнять большую часть задач по разработке программного обеспечения, на которые в настоящее время у людей уходят дни или недели.


Источник
Перевод статьи на русский
Google представляет A2UI: открытый проект для создания динамических пользовательских интерфейсов с помощью ИИ-агентов

Google объявил о запуске A2UI, открытого проекта, который позволяет ИИ-агентам генерировать контекстуально релевантные и кросс-платформенные пользовательские интерфейсы. Этот формат разработан для решения проблем взаимодействия, позволяя агентам создавать подходящие интерфейсы для фронтенд-приложений, вместо статических текстовых ответов. A2UI представляет собой декларативный формат данных, а не исполняемый код, что обеспечивает безопасность и позволяет клиенту полностью контролировать стиль и внешний вид, интегрируя с такими фреймворками, как Lit, Angular и Flutter. Это значительный шаг к созданию более интуитивных и эффективных взаимодействий с ИИ, особенно в корпоративных средах для автоматизации рабочих процессов.
«Нашим клиентам нужно, чтобы их агенты не просто отвечали на вопросы; им нужно, чтобы агенты направляли сотрудников через сложные рабочие процессы. A2UI позволит разработчикам, работающим на Gemini Enterprise, создавать динамические, настраиваемые пользовательские интерфейсы, необходимые для любой задачи, от форм ввода данных до панелей утверждения, что значительно ускорит автоматизацию рабочих процессов.» — Фред Джаббур, продакт-менеджер, Gemini Enterprise


Источник
Перевод статьи на русский
Исследование: «отрицательные векторы» не удаляют данные в FAISS, но взвешенные ядра способны обеспечить истинное «разучивание»

Новое исследование доказывает, что вставка отрицательных векторов в индексы Approximate Nearest Neighbor (ANN), такие как FAISS, не приводит к удалению данных. Однако операторно-основанные структуры данных (OBDS) с весовыми ядрами и знаковой суперпозицией могут достигать истинного «разучивания» (unlearning) со сложностью O(1) за счет деструктивной интерференции. Это фундаментальное различие между моделями, где ANN-индексы выбирают дискретные элементы, а OBDS работают с непрерывными полями. Это имеет критическое значение для соблюдения норм GDPR/CCPA, поскольку текущие векторные базы данных не могут гарантировать удаление данных без перестройки индекса. OBDS же предоставляет криптографически проверяемое удаление, где отрицательный вес ядра служит доказательством примененной отмены. Для RAG-систем это открывает возможность реализовать «контекстную амнезию» для чувствительных запросов, поддерживая маски удаления в виде отрицательных ядер.
«Текущие векторные базы данных не могут гарантировать стирание данных без реконструкции индекса. OBDS обеспечивает криптографически проверяемое удаление: отрицательный вес может быть зарегистрирован как доказательство того, что отмена была применена.»


Источник
Перевод статьи на русский
Нарастающий 'кризис' на рынке труда в сфере технологий: безработица растет, несмотря на инвестиции в ИИ.

Новые данные о рынке труда рисуют мрачную картину для технологической индустрии, где продолжаются массовые увольнения. Уровень безработицы в технологическом секторе неуклонно растет с мая, достигнув 4% в ноябре.

«Данные однозначно показывают, что технологическая отрасль испытывает трудности. В индустрии наблюдается рецессия рабочих мест, и, похоже, это будет продолжаться, учитывая снижение количества вакансий», — заявил Марк Занди, главный экономист Moody’s.

Крупные технологические компании, включая Amazon, Meta и Microsoft, уволили тысячи сотрудников, несмотря на рост доходов и значительные инвестиции в искусственный интеллект, что указывает на грядущие трудности, даже при найме на ИИ-специальности.

Источник
Перевод статьи на русский
ИИ-кодирование: революция или ложные обещания? Исследование MIT Technology Review о влиянии ИИ на разработчиков 🚀

Использование инструментов ИИ в разработке программного обеспечения становится повсеместным, но их влияние на продуктивность и качество кода остаётся предметом споров. С одной стороны, технологические гиганты, такие как Microsoft и Google, сообщают о значительном проценте кода, генерируемого ИИ, что свидетельствует о существенном росте эффективности. С другой стороны, разработчики сталкиваются с такими проблемами, как ограниченное «окно контекста» у больших языковых моделей (LLM), их неспособность понимать существующие конвенции кодирования и склонность к «галлюцинациям», из-за чего ошибки трудно обнаруживаются.

«Именно так модель способна кодировать, в отличие от простого разговора о кодировании», — говорит Борис Черны, руководитель Claude Code, кодирующего агента Anthropic.

Несмотря на эти сложности, прогресс в области ИИ-инструментов впечатляет. Например, модель Claude 4.5 Sonnet от Anthropic теперь способна кодировать автономно более 30 часов без значительного снижения производительности, используя новые функции для управления контекстом и взаимодействия с суб-агентами. Это открывает новые горизонты для разработки, хотя и требует от инженеров переосмысления подхода к работе и адаптации к быстро меняющимся возможностям ИИ.

Источник
Перевод статьи на русский
Измерение способности ИИ выполнять длительные задачи: Экспоненциальный рост производительности и перспективы автономных агентов

Исследователи предлагают измерять производительность ИИ по длительности задач, которые агенты способны выполнить. За последние шесть лет этот показатель постоянно рос в экспоненциальной прогрессии, удваиваясь примерно каждые 7 месяцев. Экстраполяция этой тенденции предполагает, что менее чем через десятилетие ИИ-агенты смогут автономно выполнять значительную часть задач по разработке программного обеспечения, на которые в настоящее время у людей уходят дни или недели. Это исследование подчеркивает важность новых метрик для оценки реального влияния ИИ и прогнозирования его будущих возможностей.
Резюме: Мы предлагаем измерять производительность ИИ с точки зрения длительности задач, которые ИИ-агенты могут выполнять. Мы показываем, что этот показатель постоянно экспоненциально увеличивается на протяжении последних 6 лет, с временем удвоения около 7 месяцев. Экстраполяция этой тенденции предсказывает, что менее чем через десятилетие мы увидим ИИ-агентов, которые смогут самостоятельно выполнять большую часть задач по разработке программного обеспечения, на которые в настоящее время у людей уходят дни или недели.


Источник
Перевод статьи на русский
Z.AI представила GLM-4.7: новые возможности для программирования и многошагового рассуждения

Z.AI анонсировала выпуск своей флагманской модели GLM-4.7, которая значительно улучшает возможности программирования и обеспечивает более стабильное многошаговое рассуждение и выполнение задач. Модель демонстрирует существенные улучшения в выполнении сложных агентских задач, предлагая при этом более естественный опыт взаимодействия и превосходную эстетику интерфейса. GLM-4.7 поддерживает длину контекста до 200K и максимальное количество выходных токенов до 128K.

GLM-4.7 демонстрирует значительный прорыв в трех измерениях: программирование, рассуждение и возможности агентов.

Улучшения включают значительный рост производительности в многоязычном агентском кодировании и задачах, ориентированных на терминал, а также значительное продвижение в качестве пользовательского интерфейса, генерируя более чистые и современные веб-страницы. Модель также показала улучшенные результаты в использовании инструментов и сложном рассуждении.

Источник
Перевод статьи на русский
OpenAI укрепляет ChatGPT Atlas от атак с помощью инъекций промптов

OpenAI активно работает над повышением безопасности своего агента ChatGPT Atlas, представляя новые методы для защиты от атак с использованием инъекций промптов. Основное внимание уделяется автоматизированному "красному тестированию" (red teaming), основанному на обучении с подкреплением, что позволяет проактивно выявлять и устранять уязвимости еще до того, как они будут использованы злоумышленниками.

Мы рассматриваем инъекции промптов как долгосрочную проблему безопасности ИИ, и нам потребуется постоянно усиливать нашу защиту от них (подобно постоянно развивающимся онлайн-мошенничествам, нацеленным на людей). Наш последний цикл быстрого реагирования показывает ранние перспективы как критически важный инструмент на этом пути: мы обнаруживаем новые стратегии атак внутри компании до того, как они появятся в дикой природе.

Эти меры помогают обеспечить безопасную работу агента в браузере, который может сталкиваться с недоверенными инструкциями в электронных письмах, документах и на веб-страницах, что подчеркивает необходимость постоянного совершенствования защитных механизмов.

Источник
Перевод статьи на русский
Microsoft планирует полностью избавиться от C и C++ к 2030 году, перейдя на Rust с помощью AI

Microsoft поставила перед собой амбициозную цель — полностью уйти от использования языков программирования C и C++ в своих продуктах к 2030 году, заменив их на Rust. Для достижения этой цели компания активно использует инновационный подход, сочетающий искусственный интеллект и алгоритмы для переписывания огромных кодовых баз.

Моя цель — к 2030 году избавиться от каждой строчки кода на C и C++ в Microsoft. Наша стратегия состоит в том, чтобы объединить ИИ и алгоритмы для переписывания крупнейших кодовых баз Microsoft. Наша «Полярная звезда» — «1 инженер, 1 месяц, 1 миллион строк кода».

В рамках этой инициативы команда CoreAI в Microsoft разрабатывает мощную инфраструктуру обработки кода, которая позволяет AI-агентам, управляемым алгоритмами, модифицировать код в масштабе. Идет поиск инженера для развития инфраструктуры, обеспечивающей перевод C и C++ систем на Rust, с обязательным опытом работы с Rust на системном уровне.

Источник
Перевод статьи на русский
Google делится 40 советами по использованию ИИ в 2025 году: от Gemini 3 до умной работы с данными

Google представил подборку из 40 советов по эффективному использованию своих AI-продуктов в 2025 году, демонстрируя глубокую интеграцию искусственного интеллекта в повседневные задачи. Особое внимание уделяется новым возможностям Gemini 3, которая значительно упрощает работу со сложной информацией.

Gemini 3 отлично справляется с разбиением сложных тем: он может принимать любые входные данные — от текста до видео, кода и многого другого — и помогать вам учиться так, как вам удобно, например, с помощью интерактивного руководства, основанного на объемной исследовательской работе.

Кроме того, Gemini 3 в режиме AI Mode в Поиске предлагает создание индивидуальных интерактивных интерфейсов, например, для сравнения кредитных предложений, что стало возможным благодаря его мультимодальному пониманию и мощным возможностям агентного кодирования.

Среди других ключевых улучшений — Gemini в Chrome, способный работать с несколькими вкладками для быстрого сравнения и обобщения информации, и Gemini Deep Research с интеграцией Workspace. Последний позволяет использовать контекст из Gmail, Google Диска и Чата для создания всеобъемлющих отчетов, обеспечивая новый уровень персонализации и эффективности в работе с данными.

Источник
Перевод статьи на русский
🔥1
Реальные ограничения LLM: неудачи в медицинских рекомендациях и юридических консультациях.

Новые исследования показывают, что, несмотря на впечатляющие достижения в других областях, большие языковые модели (LLM) демонстрируют серьезные недостатки при применении в таких критически важных сферах, как медицина и юриспруденция. В частности, было обнаружено, что LLM могут успешно ставить некоторые медицинские диагнозы, но их рекомендации по лечению часто оказываются ошибочными. Аналогично, в правовой сфере модели дают противоречивые и некорректные советы. Эксперты приходят к выводу, что «имеющиеся доказательства категорически не соответствуют необходимому бремени доказывания» для широкого внедрения ИИ в этих высокоответственных областях, что требует пересмотра ожиданий и более осторожного подхода к интеграции.
Исследователи обнаружили, что LLM могут ставить некоторые медицинские диагнозы, но ошибаются в рекомендациях по лечению. Что касается юриспруденции, исследователи выяснили, что LLM часто дают противоречивые и неверные советы. «Таким образом, имеющиеся доказательства категорически не соответствуют необходимому бремени доказывания», — заключили авторы.


Источник
Перевод статьи на русский
LangChain расширяет возможности ИИ-агентов с помощью списков задач для эффективного планирования

В статье рассматривается, как агенты на основе больших языковых моделей (LLM) могут эффективно использовать списки задач для планирования и управления сложными операциями. Этот подход, реализованный в LangChain через `TodoListMiddleware`, позволяет агентам разбивать задачи, отслеживать прогресс и координировать действия с несколькими инструментами, тем самым обеспечивая прозрачность и повышая способность агентов справляться с длительными и многоступенчатыми процессами. Особое внимание уделяется структуре элемента задачи, хранению списка задач в состоянии агента, инструменту для записи и обновления списка, а также обновлению системного промпта, который направляет агента в использовании этого механизма. Интеграция таких списков задач помогает агентам поддерживать постоянную память вне контекстного окна, что существенно улучшает управление и сохранение релевантного контекста со временем, демонстрируя значительный шаг к созданию более автономных и надежных ИИ-систем.
Используйте этот инструмент для создания и управления структурированным списком задач для вашей текущей рабочей сессии. Это помогает отслеживать прогресс, организовывать сложные задачи и демонстрировать пользователю тщательность.


Источник
Перевод статьи на русский
Генеративный ИИ вызывает сбои в умных домах: вместо обещанной автоматизации — непредсказуемость.

Смарт-дома сталкиваются с неожиданными проблемами из-за интеграции генеративного ИИ. Вместо того чтобы упростить управление устройствами, новые голосовые помощники на базе больших языковых моделей (LLM), такие как Alexa Plus от Amazon и Gemini for Home от Google, демонстрируют непредсказуемость в выполнении базовых команд, таких как включение света или приготовление кофе. Эксперты объясняют это фундаментальными различиями между LLM, которые изначально стохастичны и гибки, и традиционными голосовыми помощниками, основанными на жестких правилах. LLM, стремясь к более естественному общению, вводят элемент случайности и усложняют процесс точного вызова API, что приводит к ошибкам.
«Это оказалось не таким тривиальным обновлением, как все изначально думали. LLM гораздо больше понимают и открыты для более произвольных способов общения, что, в свою очередь, делает их подверженными интерпретации и ошибкам интерпретации.» — Марк Ридл.


Источник
Перевод статьи на русский
Обзор: Топ-7 открытых OCR моделей, способных локально обрабатывать документы с высокой точностью.

Новая статья представляет обзор семи лучших открытых моделей оптического распознавания символов (OCR), которые можно запускать локально. Эти модели значительно превосходят предыдущие поколения, преобразуя документы, таблицы и диаграммы в безупречные копии в формате Markdown с высокой точностью.
"Прошли те времена, когда загрузка PDF-файла означала получение простого текста с множеством проблем. Теперь у нас есть полные преобразования, новые модели ИИ, которые понимают документы, таблицы, диаграммы, разделы и различные языки, преобразуя их в очень точный текст формата Markdown. Это создает подлинную цифровую копию вашего текста в соотношении 1 к 1."
Это открывает широкие возможности для автоматизации обработки документов и интеграции в локальные системы анализа на основе ИИ, что крайне важно для профессионалов, работающих с большими объемами неструктурированных данных.

Источник
Перевод статьи на русский
1👍1
Эпоха ИИ-агентов с полным доступом и новые вызовы приватности данных

Крупные ИИ-компании столкнулись с критикой из-за сбора больших объемов данных из открытого интернета. С развитием ИИ-агентов следующая волна сбора данных будет гораздо более конфиденциальной, что вызывает новые вопросы о приватности и этике использования личной информации. Этот сдвиг требует внимательного рассмотрения новых механизмов регулирования и защиты данных, поскольку ИИ-агенты начинают взаимодействовать с более личными аспектами нашей цифровой жизни.
Big AI companies courted controversy by scraping wide swaths of the public internet. With the rise of AI agents, the next data grab is far more private.


Источник
Перевод статьи на русский
Amazon сталкивается с «дилеммой лидера» в отношении ИИ-шопинг-ботов.

Amazon оказывается между двумя противоположными стратегиями в условиях распространения ИИ-агентов для покупок от OpenAI, Google, Perplexity и Microsoft. Компания либо блокирует их для защиты своего доминирующего положения, либо сотрудничает, чтобы не отстать от рынка. До сих пор Amazon в основном занимала оборонительную позицию, блокируя 47 ботов и даже подав в суд на Perplexity. Однако позиция Amazon, похоже, меняется, о чем свидетельствуют планы сотрудничества с сторонними агентами и разработка собственных инструментов, таких как чат-бот Rufus и агент Buy For Me.

Источник
Перевод статьи на русский
Майнеры биткойнов массово переходят на ИИ, перепрофилируя свои дата-центры

В связи с падением прибыльности майнинга биткойнов, многие компании в этой сфере переориентируют свою деятельность на обслуживание быстрорастущего рынка искусственного интеллекта. Они перепрофилируют свои масштабные, энергоемкие дата-центры, системы охлаждения, земельные участки и контракты на электроэнергию для обучения и питания моделей ИИ. Этот переход, хоть и требует переоборудования под специализированные нужды ИИ (например, замена оборудования для майнинга на графические процессоры для ИИ), позволяет крупным ИИ-компаниям расширяться быстрее и дешевле. Для майнеров это открывает новый источник долгосрочных контрактов и значительно повышает их акции: например, ETF CoinShares Bitcoin Mining вырос примерно на 90% в этом году.
«Возможность для майнеров перейти на ИИ — это одна из величайших возможностей, которые я только могу себе представить», — заявил Адам Салливан, генеральный директор Core Scientific, компании, которая переключилась на дата-центры для ИИ.


Источник
Перевод статьи на русский
🔥1👏1
Генеральный директор Cursor предупреждает, что «вайб-кодирование» создает «шаткие основы», которые в конечном итоге разрушатся

Майкл Труэлл, генеральный директор и соучредитель Cursor, подчеркивает различие между тщательной разработкой с помощью ИИ и менее контролируемым подходом, известным как «вайб-кодирование». Он сравнил этот метод, при котором пользователи «закрывают глаза и не смотрят на код вообще, а просто просят ИИ создать для них что-то», со строительством дома без понимания его внутренней проводки или фундамента. Труэлл предупреждает, что такой подход может подойти для быстрого создания прототипа игры или веб-сайта, но более сложные проекты сталкиваются с реальными рисками, поскольку «если вы закрываете глаза и не смотрите на код, а ИИ создает вещи с шаткими основами, то при добавлении этажа за этажом все начинает рушиться».

Источник
Перевод статьи на русский