Заметки LLM-энтузиаста

#nvidia #news #agents #llm

NVIDIA представляет семейство моделей Llama Nemotron для построения агентных AI-платформ 🚀

🔍 NVIDIA только что выпустила новое семейство моделей с открытым исходным кодом — Llama Nemotron, специально разработанных для создания продвинутых ИИ-агентов, способных решать сложные задачи самостоятельно или в команде.

Что в этом особенного? 🤔
Эти модели поставляются в трех размерах:
• Nano (8B) — идеально для ПК и устройств на периферии
• Super (49B) — лучшая точность и производительность на одном GPU
• Ultra (249B) — максимальная точность на мульти-GPU серверах

🔄 Самая интересная особенность — переключатель режима рассуждений. Можно включать/выключать режим глубокого рассуждения прямо во время работы, в зависимости от задачи!

Впечатляющие результаты 📊
• На 20% выше точность по сравнению с базовыми моделями Llama
• В 5 раз быстрее других открытых моделей рассуждения
• Превосходит Llama 3.3 и DeepSeek R1 в тестах по STEM и использованию инструментов

Кто уже использует? 🏢
Microsoft, SAP, ServiceNow, Accenture и другие технологические гиганты уже интегрируют эти модели в свои платформы.

Что дальше? 🔮
В апреле NVIDIA выпустит фреймворк "AI-Q Blueprint", который поможет компаниям соединить ИИ-агентов с существующими системами и источниками данных. Тулкит уже доступен на github.

Похоже, что NVIDIA строит полноценную экосистему для эры агентного ИИ — от железа до высококачественных reasoning-моделей.

#NVIDIA #LlamaNemotron #ИскусственныйИнтеллект #АгентныйИИ #ГлубокоеОбучение #ТехНовости #AI #MachineLearning

👍4🔥4

267 viewsedited 10:24

Заметки LLM-энтузиаста

MCP и Function Calling: соперники или дополняющие друг друга технологии ?

В мире искусственного интеллекта постоянно появляются новые технологии и стандарты, которые могут сбивать с толку даже опытных разработчиков. Одна из таких пар технологий — MCP (Model Сontext Protocol) и Function Calling. Давайте разберемся, в чем их отличия и могут ли они дополнять друг друга.

Главный спойлер: они не конкурируют, а дополняют друг друга! 🤝

Про MCP уже много раз писал здесь и тут, поэтому начнем с технологии Function Calling, которая "календарно" появилась значительно раньше, но сейчас по силе "хайпа" значительно уступает MCP.

Что такое Function Calling?

Function Calling — это способность языковых моделей (LLM) определять, когда необходимо использовать внешние инструменты для решения задачи. По сути, это механизм, который позволяет ИИ:

1️⃣ Распознавать ситуации, требующие применения внешних функций
2️⃣ Структурировать параметры для выполнения этих функций
3️⃣ Работать в контексте одного приложения
4️⃣ Определять, ЧТО и КОГДА нужно использовать

При этом сам процесс запуска инструмента остается на стороне разработчика.
Простыми словами: Function Calling — это когда ИИ говорит "Мне нужно сейчас выполнить поиск в интернете".

Что такое MCP?

MCP (Model Context Protocol) — это стандартизированный протокол, который определяет:

1️⃣ Как инструменты предоставляются и обнаруживаются
2️⃣ Последовательный протокол для хостинга инструментов
3️⃣ Возможность обмена инструментами в рамках всей экосистемы
4️⃣ Разделение реализации инструмента от его использования

MCP отвечает на вопрос КАК инструменты предоставляются и обнаруживаются стандартизированным способом. Это похоже на то, как если бы MCP говорил: "Вот как любой инструмент может быть последовательно доступен для любой системы ИИ".

Ключевые различия ⚡️

• Function Calling: определяет КАКОЙ инструмент использовать и КОГДА его применять
• MCP: устанавливает КАК инструменты предоставляются и обнаруживаются в стандартизированном виде

Почему это важно? 🤔

MCP имеет потенциал стать "REST для ИИ-инструментов" — повсеместным стандартом, который предотвращает фрагментацию экосистемы. Он позволяет разработчикам сосредоточиться на создании качественных инструментов, а не на изобретении новых способов их хостинга

Как они работают вместе?

Эти технологии не конкурируют, а дополняют друг друга:

• Function Calling определяет необходимость использования инструмента
• MCP обеспечивает стандартизированный способ доступа к этому инструменту

Важные мысли 💡

• По мере усложнения систем ИИ, стандартизированные протоколы вроде MCP становятся необходимыми для обеспечения совместимости.
• Компании, которые внедряют обе технологии, смогут быстрее создавать более надежные системы ИИ.
• В конечном счете, будущее не в выборе между MCP и Function Calling, а в их эффективном совместном использовании для создания более мощных и гибких ИИ-систем.

Что еще почитать по теме "Function Calling и/или MCP?"

• https://medium.com/@genai.works/%EF%B8%8F-function-calling-vs-mcp-what-smart-ai-teams-need-to-know-7c319267b6db
• https://www.gentoro.com/blog/function-calling-vs-model-context-protocol-mcp
• https://neon.tech/blog/mcp-vs-llm-function-calling

А вы уже используете MCP в своих проектах или пока ограничиваетесь базовым Function Calling?
Поделитесь своим опытом в комментариях! 👇

#ИскусственныйИнтеллект #LLM #MCP #FunctionCalling #РазработкаИИ

❤2👍2🔥2

281 views13:11

Заметки LLM-энтузиаста

Уязвимости AI-агентов: Часть I и II

Недавно прочитал интересный цикл статей (часть 1, часть 2) по безопасности AI-агентов.
Ниже привожу краткий обзор исследования о критических уязвимостях в AI-агентах, работающих на основе больших языковых моделей (LLM).

Часть I: Введение в уязвимости AI-агентов

🔍 Основные риски безопасности AI-агентов:

• Неавторизованное выполнение вредоносного кода
• Кража конфиденциальных данных компании или пользователей
• Манипуляция ответами, генерируемыми ИИ
• Непрямые инъекции промптов, ведущие к постоянным эксплойтам

🤖 Разница между LLM и сервисами на базе LLM:

• LLM — это нейросетевая модель, которая принимает текст и генерирует наиболее вероятное следующее слово
• AI-агенты (например, ChatGPT) — это сложные системы, построенные на основе LLM, с дополнительными функциями, такими как выполнение кода, сохранение памяти и доступ в интернет

🧪 Интересный подход к тестированию:

• Для выявления уязвимостей исследователи разработали специальный AI-агент Pandora
• Pandora расширяет функциональность ChatGPT, включая доступ в интернет и неограниченное выполнение кода в песочнице на базе Docker
• С помощью Pandora были обнаружены уязвимости, такие как непрямая инъекция промптов и техники обхода песочницы
• Этот агент используется в серии статей для демонстрации многих обсуждаемых уязвимостей

Оригинальная статья здесь

Часть II: Уязвимости выполнения кода

⚠️ Ключевые выводы:

• Исследование выявило уязвимости, затрагивающие любые AI-агенты на базе LLM с возможностями выполнения кода, загрузки документов и доступа в интернет
• Эти уязвимости могут позволить злоумышленникам запускать неавторизованный код, внедрять вредоносный контент в файлы, получать контроль и похищать конфиденциальную информацию
• Организации, использующие ИИ для математических вычислений, анализа данных и других сложных процессов, должны быть бдительны в отношении связанных рисков безопасности

🔒 Необходимость выполнения кода в LLM:

• Современные AI-агенты могут выполнять код для точных вычислений, анализа сложных данных и помощи в структурированных расчетах
• Это обеспечивает точные результаты в таких областях, как математика
• Преобразуя запросы пользователей в исполняемые скрипты, LLM компенсируют свои ограничения в арифметических рассуждениях

🧪 Реализации песочниц:

• AI-агенты используют технологии песочниц для изоляции выполнения кода
• Существуют две основные стратегии: контейнеризованные песочницы (например, ChatGPT Data Analyst) и песочницы на основе WASM (WebAssembly) [например, ChatGPT Canvas]

🚨 Выявленные уязвимости:

• Непроверенные передачи данных: злоумышленники могут создавать файлы для обхода проверок безопасности
• Компрометация пользовательских файлов с помощью фоновых служб: атакующие могут создавать фоновые процессы для мониторинга и модификации пользовательских документов
• Динамическая обфускация и выполнение промптов: код для фоновой службы может быть изменен различными способами для усложнения обнаружения

📋 Рекомендации по безопасности:

1️⃣ Ограничение системных возможностей:
• Отключение фоновых процессов или ограничение их конкретными операциями
• Применение более строгих разрешений на доступ к файловой системе

2️⃣ Ограничение ресурсов:
• Установка лимитов на использование ресурсов песочницы (память, CPU, время выполнения)

3️⃣ Контроль доступа в интернет:
• Управление внешним доступом из песочницы для уменьшения поверхности атаки

4️⃣ Мониторинг вредоносной активности:
• Отслеживание действий аккаунтов, сбоев и необычного поведения
• Использование инструментов анализа поведения для выявления подозрительных операций

5️⃣ Валидация входных данных:
• Проверка и очистка данных в обоих направлениях (от пользователя к песочнице и от песочницы к пользователю)

6️⃣ Обеспечение соответствия схеме:
• Проверка соответствия всех выходных данных ожидаемым форматам

7️⃣ Явная обработка ошибок:
• Перехват, очистка и регистрация ошибок на каждом этапе

Оригинальная статья здесь

#AI #Cybersecurity #LLM #AIagents #security

Trendmicro

Unveiling AI Agent Vulnerabilities Part I: Introduction to AI Agent Vulnerabilities - Security News

This introductory post kicks off a blog series on AI agent vulnerabilities, outlining key security risks like prompt injection and code execution, and sets the stage for future parts, which will dive deeper into issues such as code execution flaws, data exfiltration…

❤2👍1🔥1

343 viewsedited 16:56

Заметки LLM-энтузиаста

Claude 4: Новое поколение AI-моделей от Anthropic 🚀

Как и ожидалось компания Anthropic представила новое поколение своих языковых моделей: Claude Opus 4 и Claude Sonnet 4. Обе модели устанавливают новые стандарты в программировании, аналитическом мышлении и автономной работе.

Ключевые особенности новых моделей 🔍

• Расширенное мышление с использованием инструментов (бета): Обе модели могут использовать инструменты, такие как веб-поиск, во время процесса мышления, чередуя рассуждения и применение инструментов для улучшения ответов.

• Новые возможности: Модели могут использовать инструменты параллельно, точнее следовать инструкциям и демонстрируют значительно улучшенные возможности памяти при доступе к локальным файлам.

• Claude Code теперь общедоступен: После положительных отзывов во время тестирования, Claude Code теперь поддерживает фоновые задачи через GitHub Actions и имеет нативные интеграции с VS Code и JetBrains.

• Новые возможности API: Выпущены четыре новые функции для API Anthropic, которые позволяют разработчикам создавать более мощных AI-агентов.

Характеристики моделей 💻

Claude Opus 4 — самая мощная модель компании на сегодняшний день и, по их заявлению, лучшая модель для программирования в мире. Она лидирует в бенчмарках SWE-bench (72,5%) и Terminal-bench (43,2%). Модель способна поддерживать высокую производительность на длительных задачах, требующих сосредоточенных усилий и тысяч шагов, с возможностью непрерывной работы в течение нескольких часов.

Claude Sonnet 4 значительно улучшает возможности Sonnet 3.7, демонстрируя впечатляющие результаты в программировании с показателем 72,7% на SWE-bench. Модель обеспечивает оптимальное сочетание возможностей и практичности.

Доступность и цены 💰

Обе модели доступны в двух режимах: мгновенные ответы и расширенное мышление для более глубоких рассуждений. Планы Pro, Max, Team и Enterprise включают обе модели и расширенное мышление, а Sonnet 4 также доступен бесплатным пользователям.

Модели доступны через API Anthropic, Amazon Bedrock и Google Cloud's Vertex AI. Цены остаются на уровне предыдущих моделей:
1️⃣ Opus 4: $15/$75 за миллион токенов (ввод/вывод)
2️⃣ Sonnet 4: $3/$15 за миллион токенов

В Cursor уже доступны обе модели (см. скриншот)

Улучшения в моделях 🛠

Помимо расширенного мышления с использованием инструментов, параллельного выполнения инструментов и улучшений памяти, компания значительно снизила вероятность использования моделями shortcuts (ярлыки) или loopholes (лазейки) для выполнения задач. Обе модели на 65% реже демонстрируют такое поведение по сравнению с Sonnet 3.7.

Claude Opus 4 также значительно превосходит все предыдущие модели по возможностям памяти. При доступе к локальным файлам Opus 4 умело создает и поддерживает "файлы памяти" для хранения ключевой информации, что обеспечивает лучшую осведомленность о долгосрочных задачах и согласованность.

#ai #claude #anthropic #llm #coding

👍3❤1🔥1

248 views20:56

Заметки LLM-энтузиаста

DeepSeek-R1-0528: новая модель с открытым исходным кодом 🤖

Компания DeepSeek выпустила обновленную версию своей модели R1-0528, которая теперь доступна с открытым исходным кодом на платформе HuggingFace.

Основные характеристики модели:

• Выполняет глубокий анализ и генерацию текста
• Обладает естественным стилем рассуждений
• Поддерживает длительную обработку задач
• Может работать над одной задачей до 30-60 минут
• Основана на DeepSeek-V3-0324 с 660B параметрами

Результаты тестирования 📊

На бенчмарке LiveCodeBench новая модель показала результаты:

1️⃣ Сопоставимые с o3-mini (High) и o4-mini (Medium) 2️⃣ Превосходящие Gemini 2.5 Pro 3️⃣ Значительное улучшение способностей к программированию

Модель представляет собой заметный шаг вперед для open-source решений в области ИИ. Веса модели уже доступны для загрузки, хотя описание на HuggingFace пока не обновлено.
Модель уже можно использовать в AI-кодерах Roo Code/Cline, например, через https://www.requesty.ai/ (на openrouter пока нет)

🔗 Ссылка: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

#deepseek #opensource #ai #llm #reasoning

❤2👍2

323 views12:11

Заметки LLM-энтузиаста

7 стратегий промптинга из "утечки" системного промпта Claude 4

Недавно в сети появился предполагаемый системный промпт Claude 4 объемом 10,000 слов. Независимо от его подлинности, документ содержит ценные принципы для создания эффективных промптов 📝

Я решил провести анализ этого системного промпта для Claude 4, используя Claude 4 :)
Вот здесь результат анализа
А тут универсальный промпт, который я использовал (формировал и улучшал его по методике, которую описывал чуть раньше).

Затем мне на глаза попалась интересная статья на medium про 7 стратегий промптинга, которые используются в системном промпте Claude 4
Что порадовало - выводы практически совпадают. Только мой промпт, выявил 6, а не 7 приемов. Ну и мне были интересны также рекомендации по улучшению имеющихся промптов от самой модели, которая должна им следовать :)

Ключевая идея: промпт — это не магическое заклинание, а конфигурационный файл операционной системы. 90% внимания уделяется предотвращению ошибок, и только 10% — желаемому результату.

Основные стратегии:

1️⃣ Якорение идентичности
Начинайте промпт с фиксированных фактов: идентичность модели, дата, основные возможности. Это снижает нагрузку на рабочую память и стабилизирует рассуждения.

2️⃣ Явные условные блоки
Используйте четкие конструкции "если X, то Y" для граничных случаев. Неопределенность приводит к непоследовательности — будьте конкретны.

3️⃣ Трехуровневая маршрутизация неопределенности
• Вечная информация → прямой ответ
• Медленно меняющаяся → ответ + предложение проверки
• Актуальная → немедленный поиск

4️⃣ Грамматика инструментов с контрпримерами
Показывайте как правильные, так и неправильные примеры использования API. Негативные примеры учат не хуже позитивных.

5️⃣ Бинарные правила стиля
Вместо размытых указаний ("будь краток") используйте четкие запреты ("никогда не начинай с лести", "никаких эмодзи без запроса").

6️⃣ Позиционное усиление
В длинных промптах повторяйте критические ограничения каждые 500 токенов — внимание модели ослабевает в длинном контексте.

7️⃣ Рефлексия после использования инструментов
Добавляйте паузу для "размышлений" после вызова функций. Это улучшает точность в многошаговых цепочках рассуждений 🤔 (то, что мой промпт-анализатор не обнаружил)

Практический вывод

Думайте о промптах как об операционных системах. Будьте точны в намерениях и не бойтесь "оборонительного программирования" — детально прописывайте, чего модель делать НЕ должна.

Декларативный подход "если X, всегда Y" часто эффективнее императивного "сначала X, потом Y" ⚡️

@llm_notes

#claude4 #ai_engineering #llm_optimization #prompt

⚡6❤‍🔥3👍3

383 views16:06

Заметки LLM-энтузиаста

OpenAI снизила цены на o3 на 80% и представила o3-pro 🚀

OpenAI объявила о значительном снижении стоимости модели o3 и запуске новой версии o3-pro через API.

Новые цены на o3: 💰
• Входящие токены: $2 за миллион
• Исходящие токены: $8 за миллион

Сама модель не изменилась — улучшили только инфраструктуру для более дешевого инференса.

o3-pro — более мощная версия: ⚡️
1️⃣ Входящие токены: $20 за миллион
2️⃣ Исходящие токены: $80 за миллион
3️⃣ На 87% дешевле предыдущей o1-pro
4️⃣ OpenAI советует использовать фоновый режим с o3-pro для долгих задач — это позволяет избежать таймаутов и дает возможность задачам завершаться асинхронно. Получается, это классный кандидат для Cursor Background Agents.

Ключевые особенности o3-pro: 🎯
• Превосходит конкурентов в математике и науке на PhD уровне
• Поддерживает веб-поиск и анализ данных (но пока не поддерживает генерацию картинок и Canvas)
• Работает медленнее базовой версии

Доступность: 📅
• ChatGPT Pro/Team — уже доступно
• Enterprise и Edu — на следующей неделе

Что говорят тестировщики:
🔍 По словам тестера Бена Хайлака, o3-pro ощущается "намного умнее" предшественника и "очень отличается" от других передовых моделей. Самое удивительное в этом релизе — это ценообразование: модель стоит в разы дешевле старых версий при значительном скачке в интеллекте и возможностях.
Похоже что теперь для стадии планирования в vibecoding это самый подходящий вариант 😁

Кажется, что Windsurf и Cursor обновили цены на o3 сразу после анонса 📊

@llm_notes

#openai #o3pro #pricing #llm #chatgpt

❤‍🔥3👍3❤2

410 views12:06

Заметки LLM-энтузиаста

🤖 xAI представила Grok 4 и Grok 4 Heavy

Похоже ожидания этого лета (Grok 4 и GPT 5) постепенно оправдываются :)

Компания Илона Маска анонсировала новые модели искусственного интеллекта, которые показывают высокие результаты в различных тестах и бенчмарках.

Основные характеристики:

• Grok 4 — однозадачная модель с поддержкой голоса, изображений и контекстным окном 128K токенов
• Grok 4 Heavy — продвинутая версия с мультиагентной архитектурой для сложных задач
• Обе модели показали лучшие результаты на тестах Humanity's Last Exam (см. скриншот), Arc-AGI-2 и AIME
• Превосходят по показателям Gemini 2.5 Pro и OpenAI o3

Результаты тестирования от Artificial Analysis:

1️⃣ Индекс интеллекта: 73 балла (выше o3 и Gemini 2.5 Pro — по 70 баллов) 2️⃣ GPQA Diamond: рекордные 88% (предыдущий рекорд Gemini 2.5 Pro — 84%) 3️⃣ Humanity's Last Exam: 24% (против 21% у Gemini 2.5 Pro) 4️⃣ Скорость: 75 токенов/сек 5️⃣ Контекст: 256K токенов через API (меньше, чем у Gemini =1M, но больше, чем у Claude и Openai o3 = 200k)

Доступность и цены:

1️⃣ Grok 4 — подписка SuperGrok за $30/месяц
2️⃣ Grok 4 Heavy — план SuperGrok Heavy за $300/месяц
3️⃣ API доступ с контекстом 256K токенов — $3 за миллион входящих и $15 за миллион исходящих токенов

Контекст релиза 📊

Выпуск новых моделей происходит после критики предыдущей версии Grok 3, которая генерировала неприемлемый контент. xAI продолжает конкурировать с крупными игроками рынка ИИ, используя мощности суперкомпьютера Colossus.

@llm_notes

#grok4 #xai #llm #elonmusk #ai

👍2👎1🤔1

400 viewsedited 06:11

Заметки LLM-энтузиаста

0:22

Media is too big

VIEW IN TELEGRAM

Qwen3-Code: новый конкурент Claude Code 🚀

Alibaba выпустила Qwen3-Code — модель для программирования с 480 миллиардами параметров (35 млрд активных). Модель поддерживает контекст до 256K токенов нативно и до 1M через экстраполяцию.

Ключевые особенности:
• Mixture of Experts архитектура
• Обучена на 7.5 триллионах токенов (70% код)
• Поддержка агентных задач: кодирование, браузер, инструменты
• Производительность сравнима с Claude Sonnet 4

Инструменты разработки: 🛠

1️⃣ Qwen Code — CLI инструмент (форк Gemini Code)
2️⃣ Интеграция с Claude Code — через API совместимость (подробности в блоге по ссылке)
3️⃣ Поддержка в Cline

Результаты тестирования:
• SWE-Bench Verified: выше Kimi K2 (которая при в 4-5 раз меньшей стоимости показывает результаты всего лишь немного хуже, чем Claude Sonnet 4), ниже Sonnet 4
• Хорошо справляется с задачами, где требуется использование внешних инструментов (tools)
• Более лаконичные ответы по сравнению с Kimi

Доступность и цены: 💰

✅ Бесплатно: chat.qwen.ai
✅ Дешево: Hyperbolic ($2), Parasail ($2-$3.5) - через openrouter.ai
❌ Дорого: официальный API ($6-60 за 1M токенов) и из РФ не так то просто завести учетку на alibabacloud (нужна не только карточка иностранного банка, но и иностранный мобильный номер при регистрации)

Ограничения:
• Пока доступна только большая модель (480B)
• Контекст 256K (больше, чем у Claude)
• Спорные результаты бенчмарков от разработчиков

Установка Qwen Code:

npm i -g @qwen-code/qwen-code

Модель показывает хорошие результаты в задачах AI-программирования, но требует осторожности при выборе провайдера API из-за разброса цен 📊
Теперь в случае когда Claude Sonnet сбоит (как это было на прошлой неделе), у нас есть неплохая замена: Qwen3-code и Kimi-2 (оба варианта можно использовать в Claude Code)

@llm_notes

#qwen #vibecoding #llm #programming #opensource

1👍6

690 views16:57

Заметки LLM-энтузиаста

🚀 Claude Sonnet 4 получил поддержку контекстного окна в 1 миллион токенов

Anthropic наконец-то увеличила контекстное окно Claude Sonnet 4 до 1 млн токенов — это в 5 раз больше предыдущего лимита (то, чего я ждал еще в мае :)
Теперь модель может обрабатывать целые кодовые базы с 75,000+ строк кода или десятки исследовательских работ за один запрос.

Новые возможности:

• Анализ больших кодовых баз — загрузка исходного кода, тестов и документации для понимания архитектуры проекта
• Синтез документов — обработка обширных наборов документов: контрактов, исследований, технических спецификаций
• Контекстно-зависимые агенты — создание агентов, которые сохраняют контекст на протяжении сотен вызовов инструментов

💰 Ценообразование API:

1️⃣ Промпты ≤ 200K токенов: $3/MTok (вход), $15/MTok (выход)

2️⃣ Промпты > 200K токенов: $6/MTok (вход), $22.50/MTok (выход)

При использовании кэширования промптов и пакетной обработки можно получить дополнительную экономию до 50% 📉

Отзывы клиентов:

🔧 Bolt.new — CEO Eric Simons отмечает, что расширенный контекст позволяет работать с крупными проектами, сохраняя высокую точность (мой комментарий: возможно, кстати, недавние успехи bolt, которые я наблюдал, при решении практических задач, связаны с тем, что они использовали модель с расширенным контекстным окном)

⚡️ iGent AI — разработчики AI-партнера Maestro для создания кода. CEO Sean Ward подчеркивает, что 1M токенов открывает возможности для многодневных сессий работы с реальными кодовыми базами.

📅 Доступность:

Функция пока находится в публичной бете для клиентов с Tier 4 и кастомными лимитами на Anthropic API (подробнее про Tier 4 здесь). Также доступна в Amazon Bedrock, скоро появится в Google Cloud Vertex AI.
В течение ближайших недель обещают распространить на более широкий круг пользователей.
Ждем с нетерпением!

• Официальный анонс по ссылке.
• Подробная документация тут.

@llm_notes

#claude #anthropic #context #ai #llm #1m

Claude

Claude Sonnet 4 now supports 1M tokens of context | Claude

Claude Sonnet 4 now supports up to 1 million tokens of context—a 5x increase that lets you process entire codebases, synthesize extensive document sets, and build agents that maintain coherence across hundreds of tool calls.

1❤2❤‍🔥2☃1

422 views14:34

Заметки LLM-энтузиаста

🆕 Новые бесплатные AI-модели с контекстом 2 млн токенов

На openrouter.ai стали доступны две новые модели: Sonoma Dusk Alpha и Sonoma Sky Alpha.

Обе работают бесплатно и поддерживают контекстное окно в 2 миллиона токенов.

Где протестировать:

1️⃣ Через любой бесплатный AI-кодер (Roo/Cline/Kilo/...), где можно указать openrouter в качестве провайдера (на requesty.ai пока нет)

Внутри Kilo есть свой провайдер Kilo Code (но модели все равно в названии имеют openrouter: openrouter/sonoma-sky-alpha и openrouter/sonoma-dusk-alpha)

2️⃣ Напрямую через OpenRouter API

Что известно:

• Некоторые эксперты предполагают, что за моделями стоит xAI
• Другие считают их новыми версиями Gemini 3
• Модели собирают данные промптов для улучшения работы ⚠️

Особенности:

• Бесплатное использование 💰
• Большой контекст (2M токенов) 📊
• Возможны ограничения по скорости запросов ⏱️

Рекомендую самостоятельно протестировать модели и сравнить их качество и производительность с другими моделями, например, такой трендовой как Grok Code Fast 1.

Я тестировал, используя Kilo Code на примере игры в сапера. Результаты можно посмотреть в комментариях.

Я использовал в Kilo Code режимы Architect и Code и один и тот же промпт: Создай, пожалуйста, игру Сапер, используя JS, CSS и HTML.

Мой выбор из трех упомянутых выше моделей: sonoma-dusk-alpha
Она лучше всех показала себя при решении этой простой задачи:
1) Короткий, но по делу "To-Do" лист
2) Быстрое написание кода
3) Рабочий прототип за пару десятков секунд, в котором ничего не надо было исправлять.

@llm_notes

#llm #free #large_context #sonoma #openrouter #kilo

🔥6

770 viewsedited 16:11

Заметки LLM-энтузиаста

8:00

Media is too big

VIEW IN TELEGRAM

🧠 Контекст-инжиниринг для AI-агентов: 5 ключевых принципов

На выходных посмотрел очень интересный видео-подкаст с участием Лэнса Мартина из LangChain (автора самой популярной открытой версии Deep Research), в котором обсуждались вопросы управления контекстом в агентах - искусство давать LLM ровно тот контекст, который нужен для следующего агентного шага 🎯 Не обошлось и без сравнения моно- и мульти-агентных подходов (см. заметку)

Ниже привожу краткие тезисы, а на скрепке подготовил видео-нарезку основных тезисов с субтитрами на русском языке (8 минут).
Более полная интерактивная версия конспекта доступна по ссылке (а классический вариант конспекта здесь)

🔧 Пять столпов контекст-инжиниринга:

1️⃣ Offloading (Выгрузка)
• Не тащить всё в контекст — сохранять данные отдельно
• В историю записывать краткие сводки с возможностью подгрузки
• Экономия токенов и денег 💰

2️⃣ Context Isolation (Изоляция)
• Мультиагенты хороши для "чтения", один агент — для "письма"
• Параллельные задачи изолировать, связанные — объединять

3️⃣ Retrieval (Извлечение)
• llm.txt с качественными описаниями часто лучше сложного RAG
• Агентный поиск без индексации может превосходить векторный поиск
• Ключ успеха — хорошие описания файлов 📝

4️⃣ Reducing Context (Сжатие)
• Суммаризация на границах инструментов
• Баланс между экономией токенов и потерей информации
• Сохранять возможность восстановить исходник

5️⃣ Caching (Кеширование)
• Снижает стоимость и задержки
• Не решает проблему "context rot" от длинного контекста ⚠️

🔍 Context rot — деградация качества ответов LLM при слишком длинном контексте. Модель "теряется" в большом объёме информации и хуже понимает, что важно для текущей задачи 📉

💡 Практические инсайты:

• Работа с памятью через человека — пользователь явно сохраняет важное, система учится предпочтениям
• Горький урок AI — используй структурный подход сегодня, но будь готов отказаться от него завтра
• MCP-стандарты снижают когнитивную нагрузку

⚡️ Золотые правила:
• Избегай наивного накопления всего контекста
• Качественная суммаризация лучше агрессивного сжатия
• Простые решения часто превосходят сложные
• Фреймворки должны легко "разбираться"

Философия: "Добавляй структуру, чтобы работало сегодня, и будь готов отказаться от нее завтра" 🚀

P.S. мне также очень понравились ссылки на дополнительные материалы в описании к ролику, некоторые из них я включил в эту заметку

@llm_notes

#context_engineering #agents #langchain #langgraph #llm_optimization

11🔥10❤1

845 viewsedited 09:41

Заметки LLM-энтузиаста

🤖 Anthropic представила Claude Sonnet 4.5

Наконец-то!
Компания Anthropic выпустила новую версию своей языковой модели — Claude Sonnet 4.5. По заявлению разработчиков, это их самая мощная модель на данный момент.

🔧 Основные улучшения:

• Лидирует в бенчмарке SWE-bench Verified для оценки навыков программирования
• Показывает 61.4% на OSWorld (тесты работы с компьютером)
• Может поддерживать фокус на сложных задачах более 30 часов
• Улучшенные способности в математике и логических рассуждениях

💼 Практические возможности:

1️⃣ Генерация и редактирование кода
2️⃣ Работа с браузером и заполнение таблиц (см. здесь демо плагина для google chrome)
3️⃣ Создание файлов (документы, презентации, таблицы)
4️⃣ Выполнение многоэтапных задач

🛡 Безопасность:

Модель прошла дополнительное обучение для снижения нежелательного поведения:
• Уменьшение склонности к лести и обману
• Защита от prompt injection атак
• Соответствие стандартам безопасности ASL-3

💰 Доступность:

• Цена остается прежней: $3/$15 за миллион токенов
• Доступна через Claude API под именем claude-sonnet-4-5
• Обновления Claude Code доступны всем пользователям

🔬 Дополнительно:

Anthropic также выпустила Claude Agent SDK — инфраструктуру для создания AI-агентов, которая используется в их собственных продуктах (отличный ответ Openai Agents SDK)

Временно доступен исследовательский проект "Imagine with Claude" — демонстрация генерации программного обеспечения в реальном времени. Вот ссылка чтоб попробовать: https://claude.ai/imagine/
Я попросил его сделать такое же приложение для детей по изучению математики, что и lovable в предыдущем посте. Результаты можно посмотреть в комментариях.

📚 Источники:
• Официальный анонс
• System Card
• Claude Agent SDK
• Документация API

@llm_notes

#claude #anthropic #vibecoding #llm

1❤3🔥2❤‍🔥1🆒1

418 views18:01

Заметки LLM-энтузиаста

🚀 DeepSeek представила V3.2-Exp с технологией разреженного внимания

Опенсорс также не остался в стороне от потока позитивных новостей :)
Компания DeepSeek выпустила экспериментальную версию своей модели V3.2-Exp, которая использует новый механизм разреженного внимания (DeepSeek Sparse Attention).

Ключевые особенности:

• Снижение стоимости обработки длинных контекстов на 85%
• Обработка только 2K наиболее важных токенов из 128K
• Сохранение качества на уровне V3.1-Terminus
• Снижение цен API более чем на 50%

Технические характеристики:

🔹 Модель игнорирует нерелевантные токены
🔹 Фокусируется на топ-2K токенах из контекста 128K
🔹 Значительное улучшение эффективности обучения и инференса

Доступность:

1️⃣ Hugging Face
2️⃣ Официальное приложение DeepSeek
3️⃣ Web-интерфейс
4️⃣ API с пониженными ценами (-50%)

Я жду пока появится на openrouter.ai или requesty.ai чтобы потестировать на нескольких задачах AI-кодинга средней сложности как чуть ранее делал для модели code-supernova здесь (тестировал через github codespaces - очень удобно, не нужно загружать свой ПК)

Производительность:
Тестирование показало сопоставимые результаты с V3.1-Terminus по основным бенчмаркам, включая MMLU-Pro, GPQA-Diamond и LiveCodeBench.

Модель доступна под лицензией MIT и поддерживается популярными фреймворками для инференса SGLang и vLLM 📊

Источники:
🔗 [GitHub репозиторий]
🔗 [Hugging Face]

@llm_notes

#deepseek #sparseattention #longcontext #llm #opensource

❤3👍1

464 views16:14

Заметки LLM-энтузиаста

6:48

Media is too big

VIEW IN TELEGRAM

🧠 Контекстная инженерия для AI-агентов: практические уроки от LangChain и Manus

В этот вторник на youtube канале Langchain опубликовали, пожалуй, один из лучших глубоких разборов контекстной инженерии в сети — часовой мастер-класс с реальными инсайтами от LangChain и Manus. Рассматриваются продвинутые техники для AI-агентов: выгрузка, сжатие и изоляция контекста, плюс свежий взгляд на многоуровневые пространства действий. Много практических выводов, никакой воды.
В продолжении темы подкаста про "Контекст-инжиниринг для AI-агентов: 5 ключевых принципов", который я разбирал в заметках ранее, команды LangChain и Manus провели детальный разбор одной из ключевых проблем современных AI-агентов — управления контекстом. Делюсь главными выводами.

🔍 Суть проблемы

AI-агенты накапливают огромное количество контекста через вызовы инструментов. Типичная задача требует ~50 вызовов, продакшн-агенты могут делать сотни ходов. При этом производительность моделей падает с ростом контекста — классический парадокс.

⚙️ Пять основных подходов к решению:

🔸 Выгрузка контекста — перенос данных в файловую систему вместо хранения в истории сообщений

🔸 Сокращение контекста — суммирование или сжатие информации (Claude 4.5 уже поддерживает из коробки)

🔸 Извлечение контекста — индексирование + семантический поиск vs простые файловые инструменты

🔸 Изоляция контекста — разделение между под-агентами с собственными контекстными окнами

🔸 Кэширование контекста — переиспользование вычислений

💡 Практические находки от Manus:

Компактизация vs Суммирование
• Компактизация — обратимое сжатие (убираю данные, которые можно восстановить из файлов)
• Суммирование — необратимое, но с сохранением ключевой информации в файлах

Многоуровневое пространство действий
1️⃣ Вызов функций — базовые атомарные операции
2️⃣ Утилиты песочницы — предустановленные команды Linux
3️⃣ Пакеты и API — Python-скрипты для сложных вычислений

Два паттерна изоляции контекста:
• Коммуникация — под-агент получает только инструкцию
• Разделение памяти — под-агент видит всю историю, но имеет свой промпт

📊 Практические советы:

• Используй структурированные схемы вместо свободного суммирования
• Приоритизируй форматы на основе строк для удобства grep/поиска
• Не превышай ~30 инструментов в контексте
• Тестируй архитектуру переключением между моделями разной силы
• Избегай чрезмерной инженерии — простота часто работает лучше

🎯 Главный вывод

Контекстная инженерия — это баланс между конфликтующими целями. Цель не в создании сложных систем, а в упрощении работы модели. Самые большие улучшения часто приходят от удаления лишнего, а не добавления нового.

📹 Дополнительно

• Оригинальное видео (1 час) по ссылке
• Краткая (7 мин) видео-нарезка основных тезисов обсуждения - прикрепил к заметке
• Интерактивный транскрипт с исходниками презентаций здесь (очень рекомендую хотя бы "пробежаться глазами" если нет времени смотреть оригинальное видео - там много интересных инсайтов)

@llm_notes

#context_engineering #agents #langchain #prompt_engineering #llm_optimization #manus #transcript

❤‍🔥6❤4👍2

525 viewsedited 13:34

About

Blog

Apps

Platform