#nvidia #news #agents #llm
NVIDIA представляет семейство моделей Llama Nemotron для построения агентных AI-платформ 🚀
🔍 NVIDIA только что выпустила новое семейство моделей с открытым исходным кодом — Llama Nemotron, специально разработанных для создания продвинутых ИИ-агентов, способных решать сложные задачи самостоятельно или в команде.
Что в этом особенного? 🤔
Эти модели поставляются в трех размерах:
• Nano (8B) — идеально для ПК и устройств на периферии
• Super (49B) — лучшая точность и производительность на одном GPU
• Ultra (249B) — максимальная точность на мульти-GPU серверах
🔄 Самая интересная особенность — переключатель режима рассуждений. Можно включать/выключать режим глубокого рассуждения прямо во время работы, в зависимости от задачи!
Впечатляющие результаты 📊
• На 20% выше точность по сравнению с базовыми моделями Llama
• В 5 раз быстрее других открытых моделей рассуждения
• Превосходит Llama 3.3 и DeepSeek R1 в тестах по STEM и использованию инструментов
Кто уже использует? 🏢
Microsoft, SAP, ServiceNow, Accenture и другие технологические гиганты уже интегрируют эти модели в свои платформы.
Что дальше? 🔮
В апреле NVIDIA выпустит фреймворк "AI-Q Blueprint", который поможет компаниям соединить ИИ-агентов с существующими системами и источниками данных. Тулкит уже доступен на github.
Похоже, что NVIDIA строит полноценную экосистему для эры агентного ИИ — от железа до высококачественных reasoning-моделей.
#NVIDIA #LlamaNemotron #ИскусственныйИнтеллект #АгентныйИИ #ГлубокоеОбучение #ТехНовости #AI #MachineLearning
NVIDIA представляет семейство моделей Llama Nemotron для построения агентных AI-платформ 🚀
🔍 NVIDIA только что выпустила новое семейство моделей с открытым исходным кодом — Llama Nemotron, специально разработанных для создания продвинутых ИИ-агентов, способных решать сложные задачи самостоятельно или в команде.
Что в этом особенного? 🤔
Эти модели поставляются в трех размерах:
• Nano (8B) — идеально для ПК и устройств на периферии
• Super (49B) — лучшая точность и производительность на одном GPU
• Ultra (249B) — максимальная точность на мульти-GPU серверах
🔄 Самая интересная особенность — переключатель режима рассуждений. Можно включать/выключать режим глубокого рассуждения прямо во время работы, в зависимости от задачи!
Впечатляющие результаты 📊
• На 20% выше точность по сравнению с базовыми моделями Llama
• В 5 раз быстрее других открытых моделей рассуждения
• Превосходит Llama 3.3 и DeepSeek R1 в тестах по STEM и использованию инструментов
Кто уже использует? 🏢
Microsoft, SAP, ServiceNow, Accenture и другие технологические гиганты уже интегрируют эти модели в свои платформы.
Что дальше? 🔮
В апреле NVIDIA выпустит фреймворк "AI-Q Blueprint", который поможет компаниям соединить ИИ-агентов с существующими системами и источниками данных. Тулкит уже доступен на github.
Похоже, что NVIDIA строит полноценную экосистему для эры агентного ИИ — от железа до высококачественных reasoning-моделей.
#NVIDIA #LlamaNemotron #ИскусственныйИнтеллект #АгентныйИИ #ГлубокоеОбучение #ТехНовости #AI #MachineLearning
👍4🔥4
MCP и Function Calling: соперники или дополняющие друг друга технологии ?
В мире искусственного интеллекта постоянно появляются новые технологии и стандарты, которые могут сбивать с толку даже опытных разработчиков. Одна из таких пар технологий — MCP (Model Сontext Protocol) и Function Calling. Давайте разберемся, в чем их отличия и могут ли они дополнять друг друга.
Главный спойлер:они не конкурируют, а дополняют друг друга! 🤝
Про MCP уже много раз писал здесь и тут, поэтому начнем с технологии Function Calling, которая "календарно" появилась значительно раньше, но сейчас по силе "хайпа" значительно уступает MCP.
Что такое Function Calling?
Function Calling — это способность языковых моделей (LLM) определять, когда необходимо использовать внешние инструменты для решения задачи. По сути, это механизм, который позволяет ИИ:
1️⃣ Распознавать ситуации, требующие применения внешних функций
2️⃣ Структурировать параметры для выполнения этих функций
3️⃣ Работать в контексте одного приложения
4️⃣ Определять, ЧТО и КОГДА нужно использовать
При этом сам процесс запуска инструмента остается на стороне разработчика.
Простыми словами: Function Calling — это когда ИИ говорит "Мне нужно сейчас выполнить поиск в интернете".
Что такое MCP?
MCP (Model Context Protocol) — это стандартизированный протокол, который определяет:
1️⃣ Как инструменты предоставляются и обнаруживаются
2️⃣ Последовательный протокол для хостинга инструментов
3️⃣ Возможность обмена инструментами в рамках всей экосистемы
4️⃣ Разделение реализации инструмента от его использования
MCP отвечает на вопрос КАК инструменты предоставляются и обнаруживаются стандартизированным способом. Это похоже на то, как если бы MCP говорил: "Вот как любой инструмент может быть последовательно доступен для любой системы ИИ".
Ключевые различия ⚡️
• Function Calling: определяет КАКОЙ инструмент использовать и КОГДА его применять
• MCP: устанавливает КАК инструменты предоставляются и обнаруживаются в стандартизированном виде
Почему это важно? 🤔
MCP имеет потенциал стать "REST для ИИ-инструментов" — повсеместным стандартом, который предотвращает фрагментацию экосистемы. Он позволяет разработчикам сосредоточиться на создании качественных инструментов, а не на изобретении новых способов их хостинга
Как они работают вместе?
Эти технологии не конкурируют, а дополняют друг друга:
• Function Calling определяет необходимость использования инструмента
• MCP обеспечивает стандартизированный способ доступа к этому инструменту
Важные мысли 💡
• По мере усложнения систем ИИ, стандартизированные протоколы вроде MCP становятся необходимыми для обеспечения совместимости.
• Компании, которые внедряют обе технологии, смогут быстрее создавать более надежные системы ИИ.
• В конечном счете, будущее не в выборе между MCP и Function Calling, а в их эффективном совместном использовании для создания более мощных и гибких ИИ-систем.
Что еще почитать по теме "Function Calling и/или MCP?"
• https://medium.com/@genai.works/%EF%B8%8F-function-calling-vs-mcp-what-smart-ai-teams-need-to-know-7c319267b6db
• https://www.gentoro.com/blog/function-calling-vs-model-context-protocol-mcp
• https://neon.tech/blog/mcp-vs-llm-function-calling
А вы уже используете MCP в своих проектах или пока ограничиваетесь базовым Function Calling?
Поделитесь своим опытом в комментариях! 👇
#ИскусственныйИнтеллект #LLM #MCP #FunctionCalling #РазработкаИИ
В мире искусственного интеллекта постоянно появляются новые технологии и стандарты, которые могут сбивать с толку даже опытных разработчиков. Одна из таких пар технологий — MCP (Model Сontext Protocol) и Function Calling. Давайте разберемся, в чем их отличия и могут ли они дополнять друг друга.
Главный спойлер:
Про MCP уже много раз писал здесь и тут, поэтому начнем с технологии Function Calling, которая "календарно" появилась значительно раньше, но сейчас по силе "хайпа" значительно уступает MCP.
Что такое Function Calling?
Function Calling — это способность языковых моделей (LLM) определять, когда необходимо использовать внешние инструменты для решения задачи. По сути, это механизм, который позволяет ИИ:
1️⃣ Распознавать ситуации, требующие применения внешних функций
2️⃣ Структурировать параметры для выполнения этих функций
3️⃣ Работать в контексте одного приложения
4️⃣ Определять, ЧТО и КОГДА нужно использовать
При этом сам процесс запуска инструмента остается на стороне разработчика.
Простыми словами: Function Calling — это когда ИИ говорит "Мне нужно сейчас выполнить поиск в интернете".
Что такое MCP?
MCP (Model Context Protocol) — это стандартизированный протокол, который определяет:
1️⃣ Как инструменты предоставляются и обнаруживаются
2️⃣ Последовательный протокол для хостинга инструментов
3️⃣ Возможность обмена инструментами в рамках всей экосистемы
4️⃣ Разделение реализации инструмента от его использования
MCP отвечает на вопрос КАК инструменты предоставляются и обнаруживаются стандартизированным способом. Это похоже на то, как если бы MCP говорил: "Вот как любой инструмент может быть последовательно доступен для любой системы ИИ".
Ключевые различия ⚡️
• Function Calling: определяет КАКОЙ инструмент использовать и КОГДА его применять
• MCP: устанавливает КАК инструменты предоставляются и обнаруживаются в стандартизированном виде
Почему это важно? 🤔
MCP имеет потенциал стать "REST для ИИ-инструментов" — повсеместным стандартом, который предотвращает фрагментацию экосистемы. Он позволяет разработчикам сосредоточиться на создании качественных инструментов, а не на изобретении новых способов их хостинга
Как они работают вместе?
Эти технологии не конкурируют, а дополняют друг друга:
• Function Calling определяет необходимость использования инструмента
• MCP обеспечивает стандартизированный способ доступа к этому инструменту
Важные мысли 💡
• По мере усложнения систем ИИ, стандартизированные протоколы вроде MCP становятся необходимыми для обеспечения совместимости.
• Компании, которые внедряют обе технологии, смогут быстрее создавать более надежные системы ИИ.
• В конечном счете, будущее не в выборе между MCP и Function Calling, а в их эффективном совместном использовании для создания более мощных и гибких ИИ-систем.
Что еще почитать по теме "Function Calling и/или MCP?"
• https://medium.com/@genai.works/%EF%B8%8F-function-calling-vs-mcp-what-smart-ai-teams-need-to-know-7c319267b6db
• https://www.gentoro.com/blog/function-calling-vs-model-context-protocol-mcp
• https://neon.tech/blog/mcp-vs-llm-function-calling
А вы уже используете MCP в своих проектах или пока ограничиваетесь базовым Function Calling?
Поделитесь своим опытом в комментариях! 👇
#ИскусственныйИнтеллект #LLM #MCP #FunctionCalling #РазработкаИИ
❤2👍2🔥2
Уязвимости AI-агентов: Часть I и II
Недавно прочитал интересный цикл статей (часть 1, часть 2) по безопасности AI-агентов.
Ниже привожу краткий обзор исследования о критических уязвимостях в AI-агентах, работающих на основе больших языковых моделей (LLM).
Часть I: Введение в уязвимости AI-агентов
🔍 Основные риски безопасности AI-агентов:
• Неавторизованное выполнение вредоносного кода
• Кража конфиденциальных данных компании или пользователей
• Манипуляция ответами, генерируемыми ИИ
• Непрямые инъекции промптов, ведущие к постоянным эксплойтам
🤖 Разница между LLM и сервисами на базе LLM:
• LLM — это нейросетевая модель, которая принимает текст и генерирует наиболее вероятное следующее слово
• AI-агенты (например, ChatGPT) — это сложные системы, построенные на основе LLM, с дополнительными функциями, такими как выполнение кода, сохранение памяти и доступ в интернет
🧪 Интересный подход к тестированию:
• Для выявления уязвимостей исследователи разработали специальный AI-агент Pandora
• Pandora расширяет функциональность ChatGPT, включая доступ в интернет и неограниченное выполнение кода в песочнице на базе Docker
• С помощью Pandora были обнаружены уязвимости, такие как непрямая инъекция промптов и техники обхода песочницы
• Этот агент используется в серии статей для демонстрации многих обсуждаемых уязвимостей
Оригинальная статья здесь
Часть II: Уязвимости выполнения кода
⚠️ Ключевые выводы:
• Исследование выявило уязвимости, затрагивающие любые AI-агенты на базе LLM с возможностями выполнения кода, загрузки документов и доступа в интернет
• Эти уязвимости могут позволить злоумышленникам запускать неавторизованный код, внедрять вредоносный контент в файлы, получать контроль и похищать конфиденциальную информацию
• Организации, использующие ИИ для математических вычислений, анализа данных и других сложных процессов, должны быть бдительны в отношении связанных рисков безопасности
🔒 Необходимость выполнения кода в LLM:
• Современные AI-агенты могут выполнять код для точных вычислений, анализа сложных данных и помощи в структурированных расчетах
• Это обеспечивает точные результаты в таких областях, как математика
• Преобразуя запросы пользователей в исполняемые скрипты, LLM компенсируют свои ограничения в арифметических рассуждениях
🧪 Реализации песочниц:
• AI-агенты используют технологии песочниц для изоляции выполнения кода
• Существуют две основные стратегии: контейнеризованные песочницы (например, ChatGPT Data Analyst) и песочницы на основе WASM (WebAssembly) [например, ChatGPT Canvas]
🚨 Выявленные уязвимости:
• Непроверенные передачи данных: злоумышленники могут создавать файлы для обхода проверок безопасности
• Компрометация пользовательских файлов с помощью фоновых служб: атакующие могут создавать фоновые процессы для мониторинга и модификации пользовательских документов
• Динамическая обфускация и выполнение промптов: код для фоновой службы может быть изменен различными способами для усложнения обнаружения
📋 Рекомендации по безопасности:
1️⃣ Ограничение системных возможностей:
• Отключение фоновых процессов или ограничение их конкретными операциями
• Применение более строгих разрешений на доступ к файловой системе
2️⃣ Ограничение ресурсов:
• Установка лимитов на использование ресурсов песочницы (память, CPU, время выполнения)
3️⃣ Контроль доступа в интернет:
• Управление внешним доступом из песочницы для уменьшения поверхности атаки
4️⃣ Мониторинг вредоносной активности:
• Отслеживание действий аккаунтов, сбоев и необычного поведения
• Использование инструментов анализа поведения для выявления подозрительных операций
5️⃣ Валидация входных данных:
• Проверка и очистка данных в обоих направлениях (от пользователя к песочнице и от песочницы к пользователю)
6️⃣ Обеспечение соответствия схеме:
• Проверка соответствия всех выходных данных ожидаемым форматам
7️⃣ Явная обработка ошибок:
• Перехват, очистка и регистрация ошибок на каждом этапе
Оригинальная статья здесь
#AI #Cybersecurity #LLM #AIagents #security
Недавно прочитал интересный цикл статей (часть 1, часть 2) по безопасности AI-агентов.
Ниже привожу краткий обзор исследования о критических уязвимостях в AI-агентах, работающих на основе больших языковых моделей (LLM).
Часть I: Введение в уязвимости AI-агентов
🔍 Основные риски безопасности AI-агентов:
• Неавторизованное выполнение вредоносного кода
• Кража конфиденциальных данных компании или пользователей
• Манипуляция ответами, генерируемыми ИИ
• Непрямые инъекции промптов, ведущие к постоянным эксплойтам
🤖 Разница между LLM и сервисами на базе LLM:
• LLM — это нейросетевая модель, которая принимает текст и генерирует наиболее вероятное следующее слово
• AI-агенты (например, ChatGPT) — это сложные системы, построенные на основе LLM, с дополнительными функциями, такими как выполнение кода, сохранение памяти и доступ в интернет
🧪 Интересный подход к тестированию:
• Для выявления уязвимостей исследователи разработали специальный AI-агент Pandora
• Pandora расширяет функциональность ChatGPT, включая доступ в интернет и неограниченное выполнение кода в песочнице на базе Docker
• С помощью Pandora были обнаружены уязвимости, такие как непрямая инъекция промптов и техники обхода песочницы
• Этот агент используется в серии статей для демонстрации многих обсуждаемых уязвимостей
Оригинальная статья здесь
Часть II: Уязвимости выполнения кода
⚠️ Ключевые выводы:
• Исследование выявило уязвимости, затрагивающие любые AI-агенты на базе LLM с возможностями выполнения кода, загрузки документов и доступа в интернет
• Эти уязвимости могут позволить злоумышленникам запускать неавторизованный код, внедрять вредоносный контент в файлы, получать контроль и похищать конфиденциальную информацию
• Организации, использующие ИИ для математических вычислений, анализа данных и других сложных процессов, должны быть бдительны в отношении связанных рисков безопасности
🔒 Необходимость выполнения кода в LLM:
• Современные AI-агенты могут выполнять код для точных вычислений, анализа сложных данных и помощи в структурированных расчетах
• Это обеспечивает точные результаты в таких областях, как математика
• Преобразуя запросы пользователей в исполняемые скрипты, LLM компенсируют свои ограничения в арифметических рассуждениях
🧪 Реализации песочниц:
• AI-агенты используют технологии песочниц для изоляции выполнения кода
• Существуют две основные стратегии: контейнеризованные песочницы (например, ChatGPT Data Analyst) и песочницы на основе WASM (WebAssembly) [например, ChatGPT Canvas]
🚨 Выявленные уязвимости:
• Непроверенные передачи данных: злоумышленники могут создавать файлы для обхода проверок безопасности
• Компрометация пользовательских файлов с помощью фоновых служб: атакующие могут создавать фоновые процессы для мониторинга и модификации пользовательских документов
• Динамическая обфускация и выполнение промптов: код для фоновой службы может быть изменен различными способами для усложнения обнаружения
📋 Рекомендации по безопасности:
1️⃣ Ограничение системных возможностей:
• Отключение фоновых процессов или ограничение их конкретными операциями
• Применение более строгих разрешений на доступ к файловой системе
2️⃣ Ограничение ресурсов:
• Установка лимитов на использование ресурсов песочницы (память, CPU, время выполнения)
3️⃣ Контроль доступа в интернет:
• Управление внешним доступом из песочницы для уменьшения поверхности атаки
4️⃣ Мониторинг вредоносной активности:
• Отслеживание действий аккаунтов, сбоев и необычного поведения
• Использование инструментов анализа поведения для выявления подозрительных операций
5️⃣ Валидация входных данных:
• Проверка и очистка данных в обоих направлениях (от пользователя к песочнице и от песочницы к пользователю)
6️⃣ Обеспечение соответствия схеме:
• Проверка соответствия всех выходных данных ожидаемым форматам
7️⃣ Явная обработка ошибок:
• Перехват, очистка и регистрация ошибок на каждом этапе
Оригинальная статья здесь
#AI #Cybersecurity #LLM #AIagents #security
Trendmicro
Unveiling AI Agent Vulnerabilities Part I: Introduction to AI Agent Vulnerabilities | Trend Micro (AU)
This introductory post kicks off a blog series on AI agent vulnerabilities, outlining key security risks like prompt injection and code execution, and sets the stage for future parts, which will dive deeper into issues such as code execution flaws, data exfiltration…
❤2👍1🔥1
Claude 4: Новое поколение AI-моделей от Anthropic 🚀
Как и ожидалось компания Anthropic представила новое поколение своих языковых моделей: Claude Opus 4 и Claude Sonnet 4. Обе модели устанавливают новые стандарты в программировании, аналитическом мышлении и автономной работе.
Ключевые особенности новых моделей 🔍
• Расширенное мышление с использованием инструментов (бета): Обе модели могут использовать инструменты, такие как веб-поиск, во время процесса мышления, чередуя рассуждения и применение инструментов для улучшения ответов.
• Новые возможности: Модели могут использовать инструменты параллельно, точнее следовать инструкциям и демонстрируют значительно улучшенные возможности памяти при доступе к локальным файлам.
• Claude Code теперь общедоступен: После положительных отзывов во время тестирования, Claude Code теперь поддерживает фоновые задачи через GitHub Actions и имеет нативные интеграции с VS Code и JetBrains.
• Новые возможности API: Выпущены четыре новые функции для API Anthropic, которые позволяют разработчикам создавать более мощных AI-агентов.
Характеристики моделей 💻
Claude Opus 4 — самая мощная модель компании на сегодняшний день и, по их заявлению, лучшая модель для программирования в мире. Она лидирует в бенчмарках SWE-bench (72,5%) и Terminal-bench (43,2%). Модель способна поддерживать высокую производительность на длительных задачах, требующих сосредоточенных усилий и тысяч шагов, с возможностью непрерывной работы в течение нескольких часов.
Claude Sonnet 4 значительно улучшает возможности Sonnet 3.7, демонстрируя впечатляющие результаты в программировании с показателем 72,7% на SWE-bench. Модель обеспечивает оптимальное сочетание возможностей и практичности.
Доступность и цены 💰
Обе модели доступны в двух режимах: мгновенные ответы и расширенное мышление для более глубоких рассуждений. Планы Pro, Max, Team и Enterprise включают обе модели и расширенное мышление, а Sonnet 4 также доступен бесплатным пользователям.
Модели доступны через API Anthropic, Amazon Bedrock и Google Cloud's Vertex AI. Цены остаются на уровне предыдущих моделей:
1️⃣ Opus 4: $15/$75 за миллион токенов (ввод/вывод)
2️⃣ Sonnet 4: $3/$15 за миллион токенов
В Cursor уже доступны обе модели (см. скриншот)
Улучшения в моделях 🛠
Помимо расширенного мышления с использованием инструментов, параллельного выполнения инструментов и улучшений памяти, компания значительно снизила вероятность использования моделями shortcuts (ярлыки) или loopholes (лазейки) для выполнения задач. Обе модели на 65% реже демонстрируют такое поведение по сравнению с Sonnet 3.7.
Claude Opus 4 также значительно превосходит все предыдущие модели по возможностям памяти. При доступе к локальным файлам Opus 4 умело создает и поддерживает "файлы памяти" для хранения ключевой информации, что обеспечивает лучшую осведомленность о долгосрочных задачах и согласованность.
#ai #claude #anthropic #llm #coding
Как и ожидалось компания Anthropic представила новое поколение своих языковых моделей: Claude Opus 4 и Claude Sonnet 4. Обе модели устанавливают новые стандарты в программировании, аналитическом мышлении и автономной работе.
Ключевые особенности новых моделей 🔍
• Расширенное мышление с использованием инструментов (бета): Обе модели могут использовать инструменты, такие как веб-поиск, во время процесса мышления, чередуя рассуждения и применение инструментов для улучшения ответов.
• Новые возможности: Модели могут использовать инструменты параллельно, точнее следовать инструкциям и демонстрируют значительно улучшенные возможности памяти при доступе к локальным файлам.
• Claude Code теперь общедоступен: После положительных отзывов во время тестирования, Claude Code теперь поддерживает фоновые задачи через GitHub Actions и имеет нативные интеграции с VS Code и JetBrains.
• Новые возможности API: Выпущены четыре новые функции для API Anthropic, которые позволяют разработчикам создавать более мощных AI-агентов.
Характеристики моделей 💻
Claude Opus 4 — самая мощная модель компании на сегодняшний день и, по их заявлению, лучшая модель для программирования в мире. Она лидирует в бенчмарках SWE-bench (72,5%) и Terminal-bench (43,2%). Модель способна поддерживать высокую производительность на длительных задачах, требующих сосредоточенных усилий и тысяч шагов, с возможностью непрерывной работы в течение нескольких часов.
Claude Sonnet 4 значительно улучшает возможности Sonnet 3.7, демонстрируя впечатляющие результаты в программировании с показателем 72,7% на SWE-bench. Модель обеспечивает оптимальное сочетание возможностей и практичности.
Доступность и цены 💰
Обе модели доступны в двух режимах: мгновенные ответы и расширенное мышление для более глубоких рассуждений. Планы Pro, Max, Team и Enterprise включают обе модели и расширенное мышление, а Sonnet 4 также доступен бесплатным пользователям.
Модели доступны через API Anthropic, Amazon Bedrock и Google Cloud's Vertex AI. Цены остаются на уровне предыдущих моделей:
1️⃣ Opus 4: $15/$75 за миллион токенов (ввод/вывод)
2️⃣ Sonnet 4: $3/$15 за миллион токенов
В Cursor уже доступны обе модели (см. скриншот)
Улучшения в моделях 🛠
Помимо расширенного мышления с использованием инструментов, параллельного выполнения инструментов и улучшений памяти, компания значительно снизила вероятность использования моделями shortcuts (ярлыки) или loopholes (лазейки) для выполнения задач. Обе модели на 65% реже демонстрируют такое поведение по сравнению с Sonnet 3.7.
Claude Opus 4 также значительно превосходит все предыдущие модели по возможностям памяти. При доступе к локальным файлам Opus 4 умело создает и поддерживает "файлы памяти" для хранения ключевой информации, что обеспечивает лучшую осведомленность о долгосрочных задачах и согласованность.
#ai #claude #anthropic #llm #coding
👍3❤1🔥1
DeepSeek-R1-0528: новая модель с открытым исходным кодом 🤖
Компания DeepSeek выпустила обновленную версию своей модели R1-0528, которая теперь доступна с открытым исходным кодом на платформе HuggingFace.
Основные характеристики модели:
• Выполняет глубокий анализ и генерацию текста
• Обладает естественным стилем рассуждений
• Поддерживает длительную обработку задач
• Может работать над одной задачей до 30-60 минут
• Основана на DeepSeek-V3-0324 с 660B параметрами
Результаты тестирования 📊
На бенчмарке LiveCodeBench новая модель показала результаты:
1️⃣ Сопоставимые с o3-mini (High) и o4-mini (Medium) 2️⃣ Превосходящие Gemini 2.5 Pro 3️⃣ Значительное улучшение способностей к программированию
Модель представляет собой заметный шаг вперед для open-source решений в области ИИ. Веса модели уже доступны для загрузки, хотя описание на HuggingFace пока не обновлено.
Модель уже можно использовать в AI-кодерах Roo Code/Cline, например, через https://www.requesty.ai/ (на openrouter пока нет)
🔗 Ссылка: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main
#deepseek #opensource #ai #llm #reasoning
Компания DeepSeek выпустила обновленную версию своей модели R1-0528, которая теперь доступна с открытым исходным кодом на платформе HuggingFace.
Основные характеристики модели:
• Выполняет глубокий анализ и генерацию текста
• Обладает естественным стилем рассуждений
• Поддерживает длительную обработку задач
• Может работать над одной задачей до 30-60 минут
• Основана на DeepSeek-V3-0324 с 660B параметрами
Результаты тестирования 📊
На бенчмарке LiveCodeBench новая модель показала результаты:
1️⃣ Сопоставимые с o3-mini (High) и o4-mini (Medium) 2️⃣ Превосходящие Gemini 2.5 Pro 3️⃣ Значительное улучшение способностей к программированию
Модель представляет собой заметный шаг вперед для open-source решений в области ИИ. Веса модели уже доступны для загрузки, хотя описание на HuggingFace пока не обновлено.
Модель уже можно использовать в AI-кодерах Roo Code/Cline, например, через https://www.requesty.ai/ (на openrouter пока нет)
🔗 Ссылка: https://huggingface.co/deepseek-ai/DeepSeek-R1-0528/tree/main
#deepseek #opensource #ai #llm #reasoning
❤2👍2
7 стратегий промптинга из "утечки" системного промпта Claude 4
Недавно в сети появился предполагаемый системный промпт Claude 4 объемом 10,000 слов. Независимо от его подлинности, документ содержит ценные принципы для создания эффективных промптов 📝
Я решил провести анализ этого системного промпта для Claude 4, используя Claude 4 :)
Вот здесь результат анализа
А тут универсальный промпт, который я использовал (формировал и улучшал его по методике, которую описывал чуть раньше).
Затем мне на глаза попалась интересная статья на medium про 7 стратегий промптинга, которые используются в системном промпте Claude 4
Что порадовало - выводы практически совпадают. Только мой промпт, выявил 6, а не 7 приемов. Ну и мне были интересны также рекомендации по улучшению имеющихся промптов от самой модели, которая должна им следовать :)
Ключевая идея: промпт — это не магическое заклинание, а конфигурационный файл операционной системы. 90% внимания уделяется предотвращению ошибок, и только 10% — желаемому результату.
Основные стратегии:
1️⃣ Якорение идентичности
Начинайте промпт с фиксированных фактов: идентичность модели, дата, основные возможности. Это снижает нагрузку на рабочую память и стабилизирует рассуждения.
2️⃣ Явные условные блоки
Используйте четкие конструкции "если X, то Y" для граничных случаев. Неопределенность приводит к непоследовательности — будьте конкретны.
3️⃣ Трехуровневая маршрутизация неопределенности
• Вечная информация → прямой ответ
• Медленно меняющаяся → ответ + предложение проверки
• Актуальная → немедленный поиск
4️⃣ Грамматика инструментов с контрпримерами
Показывайте как правильные, так и неправильные примеры использования API. Негативные примеры учат не хуже позитивных.
5️⃣ Бинарные правила стиля
Вместо размытых указаний ("будь краток") используйте четкие запреты ("никогда не начинай с лести", "никаких эмодзи без запроса").
6️⃣ Позиционное усиление
В длинных промптах повторяйте критические ограничения каждые 500 токенов — внимание модели ослабевает в длинном контексте.
7️⃣ Рефлексия после использования инструментов
Добавляйте паузу для "размышлений" после вызова функций. Это улучшает точность в многошаговых цепочках рассуждений 🤔 (то, что мой промпт-анализатор не обнаружил)
Практический вывод
Думайте о промптах как об операционных системах. Будьте точны в намерениях и не бойтесь "оборонительного программирования" — детально прописывайте, чего модель делать НЕ должна.
Декларативный подход "если X, всегда Y" часто эффективнее императивного "сначала X, потом Y" ⚡️
@llm_notes
#claude4 #ai_engineering #llm_optimization #prompt
Недавно в сети появился предполагаемый системный промпт Claude 4 объемом 10,000 слов. Независимо от его подлинности, документ содержит ценные принципы для создания эффективных промптов 📝
Я решил провести анализ этого системного промпта для Claude 4, используя Claude 4 :)
Вот здесь результат анализа
А тут универсальный промпт, который я использовал (формировал и улучшал его по методике, которую описывал чуть раньше).
Затем мне на глаза попалась интересная статья на medium про 7 стратегий промптинга, которые используются в системном промпте Claude 4
Что порадовало - выводы практически совпадают. Только мой промпт, выявил 6, а не 7 приемов. Ну и мне были интересны также рекомендации по улучшению имеющихся промптов от самой модели, которая должна им следовать :)
Ключевая идея: промпт — это не магическое заклинание, а конфигурационный файл операционной системы. 90% внимания уделяется предотвращению ошибок, и только 10% — желаемому результату.
Основные стратегии:
1️⃣ Якорение идентичности
Начинайте промпт с фиксированных фактов: идентичность модели, дата, основные возможности. Это снижает нагрузку на рабочую память и стабилизирует рассуждения.
2️⃣ Явные условные блоки
Используйте четкие конструкции "если X, то Y" для граничных случаев. Неопределенность приводит к непоследовательности — будьте конкретны.
3️⃣ Трехуровневая маршрутизация неопределенности
• Вечная информация → прямой ответ
• Медленно меняющаяся → ответ + предложение проверки
• Актуальная → немедленный поиск
4️⃣ Грамматика инструментов с контрпримерами
Показывайте как правильные, так и неправильные примеры использования API. Негативные примеры учат не хуже позитивных.
5️⃣ Бинарные правила стиля
Вместо размытых указаний ("будь краток") используйте четкие запреты ("никогда не начинай с лести", "никаких эмодзи без запроса").
6️⃣ Позиционное усиление
В длинных промптах повторяйте критические ограничения каждые 500 токенов — внимание модели ослабевает в длинном контексте.
7️⃣ Рефлексия после использования инструментов
Добавляйте паузу для "размышлений" после вызова функций. Это улучшает точность в многошаговых цепочках рассуждений 🤔 (то, что мой промпт-анализатор не обнаружил)
Практический вывод
Думайте о промптах как об операционных системах. Будьте точны в намерениях и не бойтесь "оборонительного программирования" — детально прописывайте, чего модель делать НЕ должна.
Декларативный подход "если X, всегда Y" часто эффективнее императивного "сначала X, потом Y" ⚡️
@llm_notes
#claude4 #ai_engineering #llm_optimization #prompt
⚡6❤🔥3👍3
OpenAI снизила цены на o3 на 80% и представила o3-pro 🚀
OpenAI объявила о значительном снижении стоимости модели o3 и запуске новой версии o3-pro через API.
Новые цены на o3: 💰
• Входящие токены: $2 за миллион
• Исходящие токены: $8 за миллион
Сама модель не изменилась — улучшили только инфраструктуру для более дешевого инференса.
o3-pro — более мощная версия: ⚡️
1️⃣ Входящие токены: $20 за миллион
2️⃣ Исходящие токены: $80 за миллион
3️⃣ На 87% дешевле предыдущей o1-pro
4️⃣ OpenAI советует использовать фоновый режим с o3-pro для долгих задач — это позволяет избежать таймаутов и дает возможность задачам завершаться асинхронно. Получается, это классный кандидат для Cursor Background Agents.
Ключевые особенности o3-pro: 🎯
• Превосходит конкурентов в математике и науке на PhD уровне
• Поддерживает веб-поиск и анализ данных (но пока не поддерживает генерацию картинок и Canvas)
• Работает медленнее базовой версии
Доступность: 📅
• ChatGPT Pro/Team — уже доступно
• Enterprise и Edu — на следующей неделе
Что говорят тестировщики:
🔍 По словам тестера Бена Хайлака, o3-pro ощущается "намного умнее" предшественника и "очень отличается" от других передовых моделей. Самое удивительное в этом релизе — это ценообразование: модель стоит в разы дешевле старых версий при значительном скачке в интеллекте и возможностях.
Похоже что теперь для стадии планирования в vibecoding это самый подходящий вариант 😁
Кажется, что Windsurf и Cursor обновили цены на o3 сразу после анонса 📊
@llm_notes
#openai #o3pro #pricing #llm #chatgpt
OpenAI объявила о значительном снижении стоимости модели o3 и запуске новой версии o3-pro через API.
Новые цены на o3: 💰
• Входящие токены: $2 за миллион
• Исходящие токены: $8 за миллион
Сама модель не изменилась — улучшили только инфраструктуру для более дешевого инференса.
o3-pro — более мощная версия: ⚡️
1️⃣ Входящие токены: $20 за миллион
2️⃣ Исходящие токены: $80 за миллион
3️⃣ На 87% дешевле предыдущей o1-pro
4️⃣ OpenAI советует использовать фоновый режим с o3-pro для долгих задач — это позволяет избежать таймаутов и дает возможность задачам завершаться асинхронно. Получается, это классный кандидат для Cursor Background Agents.
Ключевые особенности o3-pro: 🎯
• Превосходит конкурентов в математике и науке на PhD уровне
• Поддерживает веб-поиск и анализ данных (но пока не поддерживает генерацию картинок и Canvas)
• Работает медленнее базовой версии
Доступность: 📅
• ChatGPT Pro/Team — уже доступно
• Enterprise и Edu — на следующей неделе
Что говорят тестировщики:
🔍 По словам тестера Бена Хайлака, o3-pro ощущается "намного умнее" предшественника и "очень отличается" от других передовых моделей. Самое удивительное в этом релизе — это ценообразование: модель стоит в разы дешевле старых версий при значительном скачке в интеллекте и возможностях.
Похоже что теперь для стадии планирования в vibecoding это самый подходящий вариант 😁
Кажется, что Windsurf и Cursor обновили цены на o3 сразу после анонса 📊
@llm_notes
#openai #o3pro #pricing #llm #chatgpt
❤🔥3👍3❤2
🤖 xAI представила Grok 4 и Grok 4 Heavy
Похоже ожидания этого лета (Grok 4 и GPT 5) постепенно оправдываются :)
Компания Илона Маска анонсировала новые модели искусственного интеллекта, которые показывают высокие результаты в различных тестах и бенчмарках.
Основные характеристики:
• Grok 4 — однозадачная модель с поддержкой голоса, изображений и контекстным окном 128K токенов
• Grok 4 Heavy — продвинутая версия с мультиагентной архитектурой для сложных задач
• Обе модели показали лучшие результаты на тестах Humanity's Last Exam (см. скриншот), Arc-AGI-2 и AIME
• Превосходят по показателям Gemini 2.5 Pro и OpenAI o3
Результаты тестирования от Artificial Analysis:
1️⃣ Индекс интеллекта: 73 балла (выше o3 и Gemini 2.5 Pro — по 70 баллов) 2️⃣ GPQA Diamond: рекордные 88% (предыдущий рекорд Gemini 2.5 Pro — 84%) 3️⃣ Humanity's Last Exam: 24% (против 21% у Gemini 2.5 Pro) 4️⃣ Скорость: 75 токенов/сек 5️⃣ Контекст: 256K токенов через API (меньше, чем у Gemini =1M, но больше, чем у Claude и Openai o3 = 200k)
Доступность и цены:
1️⃣ Grok 4 — подписка SuperGrok за $30/месяц
2️⃣ Grok 4 Heavy — план SuperGrok Heavy за $300/месяц
3️⃣ API доступ с контекстом 256K токенов — $3 за миллион входящих и $15 за миллион исходящих токенов
Контекст релиза 📊
Выпуск новых моделей происходит после критики предыдущей версии Grok 3, которая генерировала неприемлемый контент. xAI продолжает конкурировать с крупными игроками рынка ИИ, используя мощности суперкомпьютера Colossus.
@llm_notes
#grok4 #xai #llm #elonmusk #ai
Похоже ожидания этого лета (Grok 4 и GPT 5) постепенно оправдываются :)
Компания Илона Маска анонсировала новые модели искусственного интеллекта, которые показывают высокие результаты в различных тестах и бенчмарках.
Основные характеристики:
• Grok 4 — однозадачная модель с поддержкой голоса, изображений и контекстным окном 128K токенов
• Grok 4 Heavy — продвинутая версия с мультиагентной архитектурой для сложных задач
• Обе модели показали лучшие результаты на тестах Humanity's Last Exam (см. скриншот), Arc-AGI-2 и AIME
• Превосходят по показателям Gemini 2.5 Pro и OpenAI o3
Результаты тестирования от Artificial Analysis:
1️⃣ Индекс интеллекта: 73 балла (выше o3 и Gemini 2.5 Pro — по 70 баллов) 2️⃣ GPQA Diamond: рекордные 88% (предыдущий рекорд Gemini 2.5 Pro — 84%) 3️⃣ Humanity's Last Exam: 24% (против 21% у Gemini 2.5 Pro) 4️⃣ Скорость: 75 токенов/сек 5️⃣ Контекст: 256K токенов через API (меньше, чем у Gemini =1M, но больше, чем у Claude и Openai o3 = 200k)
Доступность и цены:
1️⃣ Grok 4 — подписка SuperGrok за $30/месяц
2️⃣ Grok 4 Heavy — план SuperGrok Heavy за $300/месяц
3️⃣ API доступ с контекстом 256K токенов — $3 за миллион входящих и $15 за миллион исходящих токенов
Контекст релиза 📊
Выпуск новых моделей происходит после критики предыдущей версии Grok 3, которая генерировала неприемлемый контент. xAI продолжает конкурировать с крупными игроками рынка ИИ, используя мощности суперкомпьютера Colossus.
@llm_notes
#grok4 #xai #llm #elonmusk #ai
👍2👎1🤔1