Заметки LLM-энтузиаста
468 subscribers
131 photos
16 videos
1 file
161 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и LLM-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
#nvidia #news #agents #llm

NVIDIA представляет семейство моделей Llama Nemotron для построения агентных AI-платформ 🚀

🔍 NVIDIA только что выпустила новое семейство моделей с открытым исходным кодом — Llama Nemotron, специально разработанных для создания продвинутых ИИ-агентов, способных решать сложные задачи самостоятельно или в команде.

Что в этом особенного? 🤔
Эти модели поставляются в трех размерах:
• Nano (8B) — идеально для ПК и устройств на периферии
• Super (49B) — лучшая точность и производительность на одном GPU
• Ultra (249B) — максимальная точность на мульти-GPU серверах

🔄 Самая интересная особенность — переключатель режима рассуждений. Можно включать/выключать режим глубокого рассуждения прямо во время работы, в зависимости от задачи!

Впечатляющие результаты 📊
• На 20% выше точность по сравнению с базовыми моделями Llama
• В 5 раз быстрее других открытых моделей рассуждения
• Превосходит Llama 3.3 и DeepSeek R1 в тестах по STEM и использованию инструментов

Кто уже использует? 🏢
Microsoft, SAP, ServiceNow, Accenture и другие технологические гиганты уже интегрируют эти модели в свои платформы.

Что дальше? 🔮
В апреле NVIDIA выпустит фреймворк "AI-Q Blueprint", который поможет компаниям соединить ИИ-агентов с существующими системами и источниками данных. Тулкит уже доступен на github.

Похоже, что NVIDIA строит полноценную экосистему для эры агентного ИИ — от железа до высококачественных reasoning-моделей.

#NVIDIA #LlamaNemotron #ИскусственныйИнтеллект #АгентныйИИ #ГлубокоеОбучение #ТехНовости #AI #MachineLearning
👍4🔥4
MCP и Function Calling: соперники или дополняющие друг друга технологии ?

В мире искусственного интеллекта постоянно появляются новые технологии и стандарты, которые могут сбивать с толку даже опытных разработчиков. Одна из таких пар технологий — MCP (Model Сontext Protocol) и Function Calling. Давайте разберемся, в чем их отличия и могут ли они дополнять друг друга.

Главный спойлер: они не конкурируют, а дополняют друг друга! 🤝

Про MCP уже много раз писал здесь и тут, поэтому начнем с технологии Function Calling, которая "календарно" появилась значительно раньше, но сейчас по силе "хайпа" значительно уступает MCP.

Что такое Function Calling?

Function Calling — это способность языковых моделей (LLM) определять, когда необходимо использовать внешние инструменты для решения задачи. По сути, это механизм, который позволяет ИИ:

1️⃣ Распознавать ситуации, требующие применения внешних функций
2️⃣ Структурировать параметры для выполнения этих функций
3️⃣ Работать в контексте одного приложения
4️⃣ Определять, ЧТО и КОГДА нужно использовать

При этом сам процесс запуска инструмента остается на стороне разработчика.
Простыми словами: Function Calling — это когда ИИ говорит "Мне нужно сейчас выполнить поиск в интернете".

Что такое MCP?

MCP (Model Context Protocol) — это стандартизированный протокол, который определяет:

1️⃣ Как инструменты предоставляются и обнаруживаются
2️⃣ Последовательный протокол для хостинга инструментов
3️⃣ Возможность обмена инструментами в рамках всей экосистемы
4️⃣ Разделение реализации инструмента от его использования

MCP отвечает на вопрос КАК инструменты предоставляются и обнаруживаются стандартизированным способом. Это похоже на то, как если бы MCP говорил: "Вот как любой инструмент может быть последовательно доступен для любой системы ИИ".

Ключевые различия ⚡️

Function Calling: определяет КАКОЙ инструмент использовать и КОГДА его применять
MCP: устанавливает КАК инструменты предоставляются и обнаруживаются в стандартизированном виде

Почему это важно? 🤔

MCP имеет потенциал стать "REST для ИИ-инструментов" — повсеместным стандартом, который предотвращает фрагментацию экосистемы. Он позволяет разработчикам сосредоточиться на создании качественных инструментов, а не на изобретении новых способов их хостинга

Как они работают вместе?

Эти технологии не конкурируют, а дополняют друг друга:

• Function Calling определяет необходимость использования инструмента
• MCP обеспечивает стандартизированный способ доступа к этому инструменту

Важные мысли 💡

• По мере усложнения систем ИИ, стандартизированные протоколы вроде MCP становятся необходимыми для обеспечения совместимости.
• Компании, которые внедряют обе технологии, смогут быстрее создавать более надежные системы ИИ.
• В конечном счете, будущее не в выборе между MCP и Function Calling, а в их эффективном совместном использовании для создания более мощных и гибких ИИ-систем.

Что еще почитать по теме "Function Calling и/или MCP?"

https://medium.com/@genai.works/%EF%B8%8F-function-calling-vs-mcp-what-smart-ai-teams-need-to-know-7c319267b6db
https://www.gentoro.com/blog/function-calling-vs-model-context-protocol-mcp
https://neon.tech/blog/mcp-vs-llm-function-calling

А вы уже используете MCP в своих проектах или пока ограничиваетесь базовым Function Calling?
Поделитесь своим опытом в комментариях! 👇

#ИскусственныйИнтеллект #LLM #MCP #FunctionCalling #РазработкаИИ
2👍2🔥2
Уязвимости AI-агентов: Часть I и II

Недавно прочитал интересный цикл статей (часть 1, часть 2) по безопасности AI-агентов.
Ниже привожу краткий обзор исследования о критических уязвимостях в AI-агентах, работающих на основе больших языковых моделей (LLM).

Часть I: Введение в уязвимости AI-агентов


🔍 Основные риски безопасности AI-агентов:

• Неавторизованное выполнение вредоносного кода
• Кража конфиденциальных данных компании или пользователей
• Манипуляция ответами, генерируемыми ИИ
• Непрямые инъекции промптов, ведущие к постоянным эксплойтам

🤖 Разница между LLM и сервисами на базе LLM:

LLM — это нейросетевая модель, которая принимает текст и генерирует наиболее вероятное следующее слово
• AI-агенты (например, ChatGPT) — это сложные системы, построенные на основе LLM, с дополнительными функциями, такими как выполнение кода, сохранение памяти и доступ в интернет

🧪 Интересный подход к тестированию:

• Для выявления уязвимостей исследователи разработали специальный AI-агент Pandora
• Pandora расширяет функциональность ChatGPT, включая доступ в интернет и неограниченное выполнение кода в песочнице на базе Docker
• С помощью Pandora были обнаружены уязвимости, такие как непрямая инъекция промптов и техники обхода песочницы
• Этот агент используется в серии статей для демонстрации многих обсуждаемых уязвимостей

Оригинальная статья здесь

Часть II: Уязвимости выполнения кода

⚠️ Ключевые выводы:

• Исследование выявило уязвимости, затрагивающие любые AI-агенты на базе LLM с возможностями выполнения кода, загрузки документов и доступа в интернет
• Эти уязвимости могут позволить злоумышленникам запускать неавторизованный код, внедрять вредоносный контент в файлы, получать контроль и похищать конфиденциальную информацию
• Организации, использующие ИИ для математических вычислений, анализа данных и других сложных процессов, должны быть бдительны в отношении связанных рисков безопасности

🔒 Необходимость выполнения кода в LLM:

• Современные AI-агенты могут выполнять код для точных вычислений, анализа сложных данных и помощи в структурированных расчетах
• Это обеспечивает точные результаты в таких областях, как математика
• Преобразуя запросы пользователей в исполняемые скрипты, LLM компенсируют свои ограничения в арифметических рассуждениях

🧪 Реализации песочниц:

• AI-агенты используют технологии песочниц для изоляции выполнения кода
• Существуют две основные стратегии: контейнеризованные песочницы (например, ChatGPT Data Analyst) и песочницы на основе WASM (WebAssembly) [например, ChatGPT Canvas]

🚨 Выявленные уязвимости:

• Непроверенные передачи данных: злоумышленники могут создавать файлы для обхода проверок безопасности
• Компрометация пользовательских файлов с помощью фоновых служб: атакующие могут создавать фоновые процессы для мониторинга и модификации пользовательских документов
• Динамическая обфускация и выполнение промптов: код для фоновой службы может быть изменен различными способами для усложнения обнаружения

📋 Рекомендации по безопасности:

1️⃣ Ограничение системных возможностей:
• Отключение фоновых процессов или ограничение их конкретными операциями
• Применение более строгих разрешений на доступ к файловой системе

2️⃣ Ограничение ресурсов:
• Установка лимитов на использование ресурсов песочницы (память, CPU, время выполнения)

3️⃣ Контроль доступа в интернет:
• Управление внешним доступом из песочницы для уменьшения поверхности атаки

4️⃣ Мониторинг вредоносной активности:
• Отслеживание действий аккаунтов, сбоев и необычного поведения
• Использование инструментов анализа поведения для выявления подозрительных операций

5️⃣ Валидация входных данных:
• Проверка и очистка данных в обоих направлениях (от пользователя к песочнице и от песочницы к пользователю)

6️⃣ Обеспечение соответствия схеме:
• Проверка соответствия всех выходных данных ожидаемым форматам

7️⃣ Явная обработка ошибок:
• Перехват, очистка и регистрация ошибок на каждом этапе

Оригинальная статья здесь

#AI #Cybersecurity #LLM #AIagents #security
2👍1🔥1
Claude 4: Новое поколение AI-моделей от Anthropic 🚀

Как и ожидалось компания Anthropic представила новое поколение своих языковых моделей: Claude Opus 4 и Claude Sonnet 4. Обе модели устанавливают новые стандарты в программировании, аналитическом мышлении и автономной работе.

Ключевые особенности новых моделей 🔍

• Расширенное мышление с использованием инструментов (бета): Обе модели могут использовать инструменты, такие как веб-поиск, во время процесса мышления, чередуя рассуждения и применение инструментов для улучшения ответов.

• Новые возможности: Модели могут использовать инструменты параллельно, точнее следовать инструкциям и демонстрируют значительно улучшенные возможности памяти при доступе к локальным файлам.

• Claude Code теперь общедоступен: После положительных отзывов во время тестирования, Claude Code теперь поддерживает фоновые задачи через GitHub Actions и имеет нативные интеграции с VS Code и JetBrains.

• Новые возможности API: Выпущены четыре новые функции для API Anthropic, которые позволяют разработчикам создавать более мощных AI-агентов.

Характеристики моделей 💻

Claude Opus 4 — самая мощная модель компании на сегодняшний день и, по их заявлению, лучшая модель для программирования в мире. Она лидирует в бенчмарках SWE-bench (72,5%) и Terminal-bench (43,2%). Модель способна поддерживать высокую производительность на длительных задачах, требующих сосредоточенных усилий и тысяч шагов, с возможностью непрерывной работы в течение нескольких часов.

Claude Sonnet 4 значительно улучшает возможности Sonnet 3.7, демонстрируя впечатляющие результаты в программировании с показателем 72,7% на SWE-bench. Модель обеспечивает оптимальное сочетание возможностей и практичности.

Доступность и цены 💰

Обе модели доступны в двух режимах: мгновенные ответы и расширенное мышление для более глубоких рассуждений. Планы Pro, Max, Team и Enterprise включают обе модели и расширенное мышление, а Sonnet 4 также доступен бесплатным пользователям.

Модели доступны через API Anthropic, Amazon Bedrock и Google Cloud's Vertex AI. Цены остаются на уровне предыдущих моделей:
1️⃣ Opus 4: $15/$75 за миллион токенов (ввод/вывод)
2️⃣ Sonnet 4: $3/$15 за миллион токенов

В Cursor уже доступны обе модели (см. скриншот)

Улучшения в моделях 🛠

Помимо расширенного мышления с использованием инструментов, параллельного выполнения инструментов и улучшений памяти, компания значительно снизила вероятность использования моделями shortcuts (ярлыки) или loopholes (лазейки) для выполнения задач. Обе модели на 65% реже демонстрируют такое поведение по сравнению с Sonnet 3.7.

Claude Opus 4 также значительно превосходит все предыдущие модели по возможностям памяти. При доступе к локальным файлам Opus 4 умело создает и поддерживает "файлы памяти" для хранения ключевой информации, что обеспечивает лучшую осведомленность о долгосрочных задачах и согласованность.

#ai #claude #anthropic #llm #coding
👍31🔥1
DeepSeek-R1-0528: новая модель с открытым исходным кодом 🤖

Компания DeepSeek выпустила обновленную версию своей модели R1-0528, которая теперь доступна с открытым исходным кодом на платформе HuggingFace.

Основные характеристики модели:

• Выполняет глубокий анализ и генерацию текста
• Обладает естественным стилем рассуждений
• Поддерживает длительную обработку задач
• Может работать над одной задачей до 30-60 минут
• Основана на DeepSeek-V3-0324 с 660B параметрами

Результаты тестирования 📊

На бенчмарке LiveCodeBench новая модель показала результаты:

1️⃣ Сопоставимые с o3-mini (High) и o4-mini (Medium) 2️⃣ Превосходящие Gemini 2.5 Pro 3️⃣ Значительное улучшение способностей к программированию

Модель представляет собой заметный шаг вперед для open-source решений в области ИИ. Веса модели уже доступны для загрузки, хотя описание на HuggingFace пока не обновлено.
Модель уже можно использовать в AI-кодерах Roo Code/Cline, например, через https://www.requesty.ai/ (на openrouter пока нет)

🔗 Ссылка: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main

#deepseek #opensource #ai #llm #reasoning
2👍2
7 стратегий промптинга из "утечки" системного промпта Claude 4

Недавно в сети появился предполагаемый системный промпт Claude 4 объемом 10,000 слов. Независимо от его подлинности, документ содержит ценные принципы для создания эффективных промптов 📝

Я решил провести анализ этого системного промпта для Claude 4, используя Claude 4 :)
Вот здесь результат анализа
А тут универсальный промпт, который я использовал (формировал и улучшал его по методике, которую описывал чуть раньше).

Затем мне на глаза попалась интересная статья на medium про 7 стратегий промптинга, которые используются в системном промпте Claude 4
Что порадовало - выводы практически совпадают. Только мой промпт, выявил 6, а не 7 приемов. Ну и мне были интересны также рекомендации по улучшению имеющихся промптов от самой модели, которая должна им следовать :)

Ключевая идея: промпт — это не магическое заклинание, а конфигурационный файл операционной системы. 90% внимания уделяется предотвращению ошибок, и только 10% — желаемому результату.

Основные стратегии:

1️⃣ Якорение идентичности
Начинайте промпт с фиксированных фактов: идентичность модели, дата, основные возможности. Это снижает нагрузку на рабочую память и стабилизирует рассуждения.

2️⃣ Явные условные блоки
Используйте четкие конструкции "если X, то Y" для граничных случаев. Неопределенность приводит к непоследовательности — будьте конкретны.

3️⃣ Трехуровневая маршрутизация неопределенности
• Вечная информация → прямой ответ
• Медленно меняющаяся → ответ + предложение проверки
• Актуальная → немедленный поиск

4️⃣ Грамматика инструментов с контрпримерами
Показывайте как правильные, так и неправильные примеры использования API. Негативные примеры учат не хуже позитивных.

5️⃣ Бинарные правила стиля
Вместо размытых указаний ("будь краток") используйте четкие запреты ("никогда не начинай с лести", "никаких эмодзи без запроса").

6️⃣ Позиционное усиление
В длинных промптах повторяйте критические ограничения каждые 500 токенов — внимание модели ослабевает в длинном контексте.

7️⃣ Рефлексия после использования инструментов
Добавляйте паузу для "размышлений" после вызова функций. Это улучшает точность в многошаговых цепочках рассуждений 🤔 (то, что мой промпт-анализатор не обнаружил)

Практический вывод

Думайте о промптах как об операционных системах. Будьте точны в намерениях и не бойтесь "оборонительного программирования" — детально прописывайте, чего модель делать НЕ должна.

Декларативный подход "если X, всегда Y" часто эффективнее императивного "сначала X, потом Y" ⚡️

@llm_notes

#claude4 #ai_engineering #llm_optimization #prompt
6❤‍🔥3👍3
OpenAI снизила цены на o3 на 80% и представила o3-pro 🚀

OpenAI объявила о значительном снижении стоимости модели o3 и запуске новой версии o3-pro через API.

Новые цены на o3: 💰
• Входящие токены: $2 за миллион
• Исходящие токены: $8 за миллион

Сама модель не изменилась — улучшили только инфраструктуру для более дешевого инференса.

o3-pro — более мощная версия: ⚡️
1️⃣ Входящие токены: $20 за миллион
2️⃣ Исходящие токены: $80 за миллион
3️⃣ На 87% дешевле предыдущей o1-pro
4️⃣ OpenAI советует использовать фоновый режим с o3-pro для долгих задач — это позволяет избежать таймаутов и дает возможность задачам завершаться асинхронно. Получается, это классный кандидат для Cursor Background Agents.

Ключевые особенности o3-pro: 🎯
Превосходит конкурентов в математике и науке на PhD уровне
• Поддерживает веб-поиск и анализ данных (но пока не поддерживает генерацию картинок и Canvas)
• Работает медленнее базовой версии

Доступность: 📅
• ChatGPT Pro/Team — уже доступно
• Enterprise и Edu — на следующей неделе

Что говорят тестировщики:
🔍 По словам тестера Бена Хайлака, o3-pro ощущается "намного умнее" предшественника и "очень отличается" от других передовых моделей. Самое удивительное в этом релизе — это ценообразование: модель стоит в разы дешевле старых версий при значительном скачке в интеллекте и возможностях.
Похоже что теперь для стадии планирования в vibecoding это самый подходящий вариант 😁

Кажется, что Windsurf и Cursor обновили цены на o3 сразу после анонса 📊

@llm_notes

#openai #o3pro #pricing #llm #chatgpt
❤‍🔥3👍32
🤖 xAI представила Grok 4 и Grok 4 Heavy

Похоже ожидания этого лета (Grok 4 и GPT 5) постепенно оправдываются :)

Компания Илона Маска анонсировала новые модели искусственного интеллекта, которые показывают высокие результаты в различных тестах и бенчмарках.

Основные характеристики:

• Grok 4 — однозадачная модель с поддержкой голоса, изображений и контекстным окном 128K токенов
• Grok 4 Heavy — продвинутая версия с мультиагентной архитектурой для сложных задач
• Обе модели показали лучшие результаты на тестах Humanity's Last Exam (см. скриншот), Arc-AGI-2 и AIME
• Превосходят по показателям Gemini 2.5 Pro и OpenAI o3


Результаты тестирования от Artificial Analysis:

1️⃣ Индекс интеллекта: 73 балла (выше o3 и Gemini 2.5 Pro — по 70 баллов) 2️⃣ GPQA Diamond: рекордные 88% (предыдущий рекорд Gemini 2.5 Pro — 84%) 3️⃣ Humanity's Last Exam: 24% (против 21% у Gemini 2.5 Pro) 4️⃣ Скорость: 75 токенов/сек 5️⃣ Контекст: 256K токенов через API (меньше, чем у Gemini =1M, но больше, чем у Claude и Openai o3 = 200k)

Доступность и цены:


1️⃣ Grok 4 — подписка SuperGrok за $30/месяц
2️⃣ Grok 4 Heavy — план SuperGrok Heavy за $300/месяц
3️⃣ API доступ с контекстом 256K токенов — $3 за миллион входящих и $15 за миллион исходящих токенов

Контекст релиза 📊

Выпуск новых моделей происходит после критики предыдущей версии Grok 3, которая генерировала неприемлемый контент. xAI продолжает конкурировать с крупными игроками рынка ИИ, используя мощности суперкомпьютера Colossus.

@llm_notes

#grok4 #xai #llm #elonmusk #ai
👍2👎1🤔1