MCP и навыки ИИ-агентов: сравнение подходов
Существуют два подхода к структурированию инструментов для LLM: протокол контекста модели (MCP) и навыки ИИ-агентов (Skills).
MCP предоставляет LLM структурированные инструменты для выполнения конкретных задач, определяя формат ввода и вывода инструментов, а также способ их использования.
Навыки ИИ-агентов, в отличие от MCP, позволяют LLM планировать и выполнять сложные задачи, используя инструменты и рассуждения, применяя методы обучения с подкреплением и имитационного обучения.
MCP является низкоуровневым протоколом. В то время как навыки ИИ-агентов , высокоуровневый подход, использующий MCP для создания более интеллектуальных агентов.
MCP подходит для специализированных задач, а навыки ИИ-агентов для более универсальных, требующих планирования и адаптации.
Существуют два подхода к структурированию инструментов для LLM: протокол контекста модели (MCP) и навыки ИИ-агентов (Skills).
MCP предоставляет LLM структурированные инструменты для выполнения конкретных задач, определяя формат ввода и вывода инструментов, а также способ их использования.
Навыки ИИ-агентов, в отличие от MCP, позволяют LLM планировать и выполнять сложные задачи, используя инструменты и рассуждения, применяя методы обучения с подкреплением и имитационного обучения.
MCP является низкоуровневым протоколом. В то время как навыки ИИ-агентов , высокоуровневый подход, использующий MCP для создания более интеллектуальных агентов.
MCP подходит для специализированных задач, а навыки ИИ-агентов для более универсальных, требующих планирования и адаптации.
👍4💩1
xAI запустила Grok Text-to-Speech API
xAI выпустила Grok Text-to-Speech API, в котором представлен набор голосов с естественным звучанием речи. Создание аудио из текста.
xAI выпустила Grok Text-to-Speech API, в котором представлен набор голосов с естественным звучанием речи. Создание аудио из текста.
xAI
xAI — Creators of Grok, the AI Chatbot
xAI builds Grok, an AI chatbot with voice chat, image and video generation, real-time search, and advanced reasoning. Try Grok at grok.com.
🔥2
ServiceNow представляет EnterpriseOps-Gym — новый эталон для оценки планирования агентов в корпоративных условиях. Эталон оценивает способность агентов решать сложные задачи, требующие долгосрочного планирования и адаптации к изменяющейся среде.
EnterpriseOps-Gym использует высокоточную симуляцию, воссоздающую сложности рабочих процессов, включая автоматизацию запросов и управление инцидентами. Симуляция основана на реальных данных ServiceNow, учитывая неопределенность и неполную информацию.
Эталон доступен для исследователей и разработчиков, заинтересованных в создании более интеллектуальных агентов, способных автоматизировать сложные процессы. Подробности по ссылке: EnterpriseOps-Gym.
EnterpriseOps-Gym использует высокоточную симуляцию, воссоздающую сложности рабочих процессов, включая автоматизацию запросов и управление инцидентами. Симуляция основана на реальных данных ServiceNow, учитывая неопределенность и неполную информацию.
Эталон доступен для исследователей и разработчиков, заинтересованных в создании более интеллектуальных агентов, способных автоматизировать сложные процессы. Подробности по ссылке: EnterpriseOps-Gym.
Nemotron 3 Nano 4B – компактная гибридная модель ИИ с 4 миллиардами параметров, сочетающая декодер и энкодер-декодер. Она обучена на 80 миллиардах токенов, включающих текст, код и математику, с применением RLHF для улучшения ответов.
В тестах производительности Nemotron 3 Nano 4B достигает 88% от производительности Llama 2 7B, особенно хорошо проявляя себя в задачах логического мышления и генерации кода.
Небольшой размер модели позволяет эффективно развертывать её на устройствах с ограниченными ресурсами, таких как ноутбуки и смартфоны, обеспечивая локальное использование ИИ без облачных сервисов. Модель доступна на Hugging Face.
В тестах производительности Nemotron 3 Nano 4B достигает 88% от производительности Llama 2 7B, особенно хорошо проявляя себя в задачах логического мышления и генерации кода.
Небольшой размер модели позволяет эффективно развертывать её на устройствах с ограниченными ресурсами, таких как ноутбуки и смартфоны, обеспечивая локальное использование ИИ без облачных сервисов. Модель доступна на Hugging Face.
huggingface.co
nvidia/NVIDIA-Nemotron-3-Nano-4B-BF16 · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
OpenAI выпустила GPT-5.4 Mini и GPT-5.4 Nano
GPT-5.4 Mini работает в два раза быстрее предыдущего GPT-5 mini, при этом приближается по качеству к полноразмерной GPT-5.4.
Хорошо справляется с кодом, рассуждениями и мультимодальными задачами. Поддерживает текст, изображения и инструменты. Доступна в API и в ChatGPT, включая бесплатный тариф.
Цена: $0.75 за млн входных токенов, $4.50 за млн выходных.
GPT-5.4 Nano самая компактная и быстрая версия. Рекомендована для классификации, извлечения данных, ранжирования и субагентов в агентных системах. Доступна только через API.
Цена: $0.20 за млн входных токенов, $1.25 за млн выходных.
#новости #openai #gpt
GPT-5.4 Mini работает в два раза быстрее предыдущего GPT-5 mini, при этом приближается по качеству к полноразмерной GPT-5.4.
Хорошо справляется с кодом, рассуждениями и мультимодальными задачами. Поддерживает текст, изображения и инструменты. Доступна в API и в ChatGPT, включая бесплатный тариф.
Цена: $0.75 за млн входных токенов, $4.50 за млн выходных.
GPT-5.4 Nano самая компактная и быстрая версия. Рекомендована для классификации, извлечения данных, ранжирования и субагентов в агентных системах. Доступна только через API.
Цена: $0.20 за млн входных токенов, $1.25 за млн выходных.
#новости #openai #gpt
🔥1
Искусственный интеллект позволяет 'видеть' сквозь препятствия
Ученые из Университета штата Пенсильвания разработали систему, использующую искусственный интеллект для реконструкции изображений, заблокированных объектами. Система "видит" сквозь стены и другие препятствия, используя беспроводные сигналы.
В основе разработки лежит генеративный искусственный интеллект, обученный на большом количестве данных. Это позволяет предсказывать, что находится за препятствием, даже если оно полностью скрыто, с высокой точностью. Исследователи продемонстрировали идентификацию объектов и людей за кирпичной стеной.
Технология может быть использована в поисково-спасательных операциях, наблюдении и безопасности, например, для обнаружения людей после катастроф или мониторинга подозрительной деятельности. Система успешно протестирована в различных условиях.
Ученые из Университета штата Пенсильвания разработали систему, использующую искусственный интеллект для реконструкции изображений, заблокированных объектами. Система "видит" сквозь стены и другие препятствия, используя беспроводные сигналы.
В основе разработки лежит генеративный искусственный интеллект, обученный на большом количестве данных. Это позволяет предсказывать, что находится за препятствием, даже если оно полностью скрыто, с высокой точностью. Исследователи продемонстрировали идентификацию объектов и людей за кирпичной стеной.
Технология может быть использована в поисково-спасательных операциях, наблюдении и безопасности, например, для обнаружения людей после катастроф или мониторинга подозрительной деятельности. Система успешно протестирована в различных условиях.
👍1
Baidu Qianfan представила Qianfan-OCR, модель для интеллектуального анализа документов с 4 миллиардами параметров.
Она распознает текст и понимает структуру различных типов документов, включая сканы, фото и PDF файлы.
Модель поддерживает более 100 языков и построена на архитектуре трансформера. Qianfan-OCR обучена на большом объеме текстов и изображений, что обеспечивает высокую точность в оптическом распознавании символов (OCR) и понимании структуры.
Qianfan-OCR применится для извлечения информации из документов, автоматизации обработки и создания интеллектуальных систем управления. Доступ к модели предоставляется через платформу Baidu Qianfan.
Она распознает текст и понимает структуру различных типов документов, включая сканы, фото и PDF файлы.
Модель поддерживает более 100 языков и построена на архитектуре трансформера. Qianfan-OCR обучена на большом объеме текстов и изображений, что обеспечивает высокую точность в оптическом распознавании символов (OCR) и понимании структуры.
Qianfan-OCR применится для извлечения информации из документов, автоматизации обработки и создания интеллектуальных систем управления. Доступ к модели предоставляется через платформу Baidu Qianfan.
This media is not supported in your browser
VIEW IN TELEGRAM
Anthropic запустили Claude Code Channels
Это официальный способ управлять активной сессией Claude Code через MCP для Telegram и Discord.
Запускаете Claude Code на своём ПК с флагом --channels и можете отправлять команды прямо из мессенджера с телефона, получая ответы обратно в чат.
То есть не нужно сидеть у терминала: Claude продолжает работать на вашей машине, а вы общаетесь с ним через Telegram-бота.
Ограничения: сессия должна оставаться запущенной на ПК, произвольные MCP-серверы пока не поддерживаются, только плагины из официального репозитория Anthropic, и нужен аккаунт claude.ai (API-ключ не подойдёт).
Это официальный способ управлять активной сессией Claude Code через MCP для Telegram и Discord.
Запускаете Claude Code на своём ПК с флагом --channels и можете отправлять команды прямо из мессенджера с телефона, получая ответы обратно в чат.
То есть не нужно сидеть у терминала: Claude продолжает работать на вашей машине, а вы общаетесь с ним через Telegram-бота.
Ограничения: сессия должна оставаться запущенной на ПК, произвольные MCP-серверы пока не поддерживаются, только плагины из официального репозитория Anthropic, и нужен аккаунт claude.ai (API-ключ не подойдёт).
Holotron-12B – агент, использующий компьютер с высокой пропускной способностью. Обучен на 126 440 демонстрациях использования компьютера, сгенерированных людьми, и способен следовать инструкциям благодаря архитектуре трансформатора.
Модель выполняет широкий спектр задач, включая навигацию по интерфейсам, ввод текста и выполнение действий. Holotron-12B можно использовать для автоматизации задач, таких как заполнение форм, написание электронных писем и поиск информации.
Набор данных для обучения и сама модель с кодом доступны по ссылке
Модель выполняет широкий спектр задач, включая навигацию по интерфейсам, ввод текста и выполнение действий. Holotron-12B можно использовать для автоматизации задач, таких как заполнение форм, написание электронных писем и поиск информации.
Набор данных для обучения и сама модель с кодом доступны по ссылке
huggingface.co
Hcompany/Holotron-12B · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Ошибки основателей ai стартапов
Советники стартапов в сфере ИИ отмечают, что основатели часто упускают важность данных для обучения моделей. Ошибка в том, что внимание сосредотачивается на самой модели, а не на качестве и количестве данных, необходимых для её успешной работы. Сбор, разметка и проверка данных требуют значительных ресурсов и времени.
Также основатели недооценивают необходимость постоянного обучения и мониторинга ИИ-моделей, чья производительность со временем ухудшается без обновления. Важно учитывать влияние ИИ на бизнес-процессы, готовясь к изменениям в организации и переобучению персонала.
Часто наблюдается фокус на создании продвинутой модели без учёта потребностей рынка и спроса на решение. Рекомендуется начинать с простых решений и постепенно усложнять их, ориентируясь на пользователей.
Советники стартапов в сфере ИИ отмечают, что основатели часто упускают важность данных для обучения моделей. Ошибка в том, что внимание сосредотачивается на самой модели, а не на качестве и количестве данных, необходимых для её успешной работы. Сбор, разметка и проверка данных требуют значительных ресурсов и времени.
Также основатели недооценивают необходимость постоянного обучения и мониторинга ИИ-моделей, чья производительность со временем ухудшается без обновления. Важно учитывать влияние ИИ на бизнес-процессы, готовясь к изменениям в организации и переобучению персонала.
Часто наблюдается фокус на создании продвинутой модели без учёта потребностей рынка и спроса на решение. Рекомендуется начинать с простых решений и постепенно усложнять их, ориентируясь на пользователей.
Google представила MusicFX DJ – инструмент для создания музыки с помощью искусственного интеллекта.
Пользователи могут генерировать музыкальные отрывки, вводя текстовые подсказки, например, "джаз с пианино и саксофоном".
MusicFX DJ использует технологию векторов звука, разработанную Google, и создает короткие отрывки, подходящие для использования в качестве основы композиций или звуковых эффектов. Инструмент доступен бесплатно через веб-интерфейс с ограничениями: до 30 секунд музыки за раз и лимит генераций в день.
В будущем планируется премиум-подписка, снимающая ограничения и предлагающая экспорт в высоком качестве и возможность коммерческого использования сгенерированной музыки.
Пользователи могут генерировать музыкальные отрывки, вводя текстовые подсказки, например, "джаз с пианино и саксофоном".
MusicFX DJ использует технологию векторов звука, разработанную Google, и создает короткие отрывки, подходящие для использования в качестве основы композиций или звуковых эффектов. Инструмент доступен бесплатно через веб-интерфейс с ограничениями: до 30 секунд музыки за раз и лимит генераций в день.
В будущем планируется премиум-подписка, снимающая ограничения и предлагающая экспорт в высоком качестве и возможность коммерческого использования сгенерированной музыки.
labs.google
MusicFX - labs.google/fx
MusicFX lets you unleash your inner DJ and craft new beats.
5 инструментов для локального запуска llm в 2026 году
В 2026 году специалисты по данным смогут использовать пять вариантов самостоятельного хостинга: Ollama, LocalAI, PrivateGPT, OpenOrca и LM Studio. Эти инструменты позволяют запускать большие языковые модели локально, обеспечивая конфиденциальность и контроль над данными.
ollama предлагает простой интерфейс командной строки для запуска, управления и развертывания LLM, поддерживая различные модели. localai предоставляет платформу для развертывания LLM в локальной инфраструктуре с поддержкой графических процессоров. privategpt предназначен для работы с документами и создания чат-ботов на основе локальных данных.
openorca является фреймворком для обучения и тонкой настройки LLM, а lm studio позволяет искать, загружать и запускать LLM с удобным графическим интерфейсом.
В 2026 году специалисты по данным смогут использовать пять вариантов самостоятельного хостинга: Ollama, LocalAI, PrivateGPT, OpenOrca и LM Studio. Эти инструменты позволяют запускать большие языковые модели локально, обеспечивая конфиденциальность и контроль над данными.
ollama предлагает простой интерфейс командной строки для запуска, управления и развертывания LLM, поддерживая различные модели. localai предоставляет платформу для развертывания LLM в локальной инфраструктуре с поддержкой графических процессоров. privategpt предназначен для работы с документами и создания чат-ботов на основе локальных данных.
openorca является фреймворком для обучения и тонкой настройки LLM, а lm studio позволяет искать, загружать и запускать LLM с удобным графическим интерфейсом.
👍3
Gemma 2b и Gemma 7b: новые открытые модели
Модели Gemma 2B и Gemma 7B уже доступны на платформе Hugging Face, а также через другие платформы и облачные сервисы. Предоставлен полный набор инструментов для оценки производительности моделей в различных задачах, включая тесты, метрики и бенчмарки.
Также опубликована документация и рекомендации по использованию моделей Gemma. Это важный шаг к развитию открытых и доступных технологий искусственного интеллекта.
Gemma на Hugging Face
Модели Gemma 2B и Gemma 7B уже доступны на платформе Hugging Face, а также через другие платформы и облачные сервисы. Предоставлен полный набор инструментов для оценки производительности моделей в различных задачах, включая тесты, метрики и бенчмарки.
Также опубликована документация и рекомендации по использованию моделей Gemma. Это важный шаг к развитию открытых и доступных технологий искусственного интеллекта.
Gemma на Hugging Face
huggingface.co
google/gemma-7b · Hugging Face
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍1
На сайте выложили продолжение курса по LangChain.
Для тех, кто знает Python и основы LangChain (цепочки), и хочет разобраться в агентах.
LangChain и сквозной проект агент-аналитик.
Каждый урок это теория, рабочий код, частые ошибки и практическое задание.
Содержание:
👉 Ссылка на курс
#langchain #ииагенты #курс
Для тех, кто знает Python и основы LangChain (цепочки), и хочет разобраться в агентах.
LangChain и сквозной проект агент-аналитик.
Каждый урок это теория, рабочий код, частые ошибки и практическое задание.
Содержание:
0 - Настройка окружения
1 - create_agent и цикл агента
2 - LangGraph и состояние агента
3 - MCP: инструменты через внешние серверы
4 - Context engineering
5 - Встроенный middleware
6 - Краткосрочная память
7 - Долгосрочная память
8 - Human-in-the-loop
9 - Guardrails
10 - Паттерны мультиагентных систем
11 - Субагенты и Handoffs
👉 Ссылка на курс
#langchain #ииагенты #курс
👍4
OpenAI frontier: угроза для saas-компаний?
OpenAI представила платформу "Frontier", которая может повлиять на рынок программного обеспечения как услуги (SaaS). Платформа позволяет создавать "агенты" – программы, способные самостоятельно выполнять задачи и интегрироваться с различными сервисами.
"Frontier" дает клиентам возможность создавать собственные решения, снижая необходимость во множестве SaaS-инструментов. Это может привести к консолидации рынка, где выживут только компании, предлагающие уникальную ценность и интеграцию с новой моделью.
Аналитики считают, что это фундаментальный сдвиг, требующий от SaaS-компаний адаптации и инноваций, а также может привести к снижению цен на решения.
OpenAI представила платформу "Frontier", которая может повлиять на рынок программного обеспечения как услуги (SaaS). Платформа позволяет создавать "агенты" – программы, способные самостоятельно выполнять задачи и интегрироваться с различными сервисами.
"Frontier" дает клиентам возможность создавать собственные решения, снижая необходимость во множестве SaaS-инструментов. Это может привести к консолидации рынка, где выживут только компании, предлагающие уникальную ценность и интеграцию с новой моделью.
Аналитики считают, что это фундаментальный сдвиг, требующий от SaaS-компаний адаптации и инноваций, а также может привести к снижению цен на решения.
🤔3
OpenAI разработала правила безопасности для подростков в виде промптов для модели gpt-oss-safeguard, которые разработчики используют для модерации возрастных рисков в системах искусственного интеллекта.
В ChatGPT представлен улучшенный визуальный шоппинг на базе протокола Agentic Commerce, позволяющего находить товары и сравнивать их, при этом интеграция с торговыми площадками зависит от участия конкретных мерчантов.
В ChatGPT представлен улучшенный визуальный шоппинг на базе протокола Agentic Commerce, позволяющего находить товары и сравнивать их, при этом интеграция с торговыми площадками зависит от участия конкретных мерчантов.
OpenAI приостановила публичный доступ к модели генерации видео Sora из-за опасений злоупотребления, включая создание дезинформации и дипфейков. Компания планирует тщательное тестирование и оценку системы перед повторным запуском, а также разработку мер по снижению рисков.
Решение принято после появления в сети примеров видео, созданных Sora, которые вызвали обеспокоенность. Видео демонстрировали способность модели создавать реалистичные сцены и лица, поднимая вопросы об использовании для создания поддельных новостей и манипулирования общественным мнением.
Решение принято после появления в сети примеров видео, созданных Sora, которые вызвали обеспокоенность. Видео демонстрировали способность модели создавать реалистичные сцены и лица, поднимая вопросы об использовании для создания поддельных новостей и манипулирования общественным мнением.
😱2
Tencent AI открыла исходный код Covo-Audio 7B параметровой end-to-end аудиоязыковой модели и конвейера вывода для разговоров и рассуждений в реальном времени.
В отличие от классических систем, которые последовательно пропускают аудио через три отдельных компонента (распознавание → языковая модель → синтез речи), Covo-Audio обрабатывает непрерывный аудиовход и генерирует аудиовыход в единой архитектуре за один проход. Это снижает накопление ошибок и задержку.
Модель прошла двухэтапное предобучение на 2 триллионах токенов, охватывающих речевые и текстовые данные на нескольких языках. На бенчмарках MMAU и MMSU Covo-Audio показала лучшие результаты среди моделей своего масштаба, сравнявшись с некоторыми 32B-системами.
Отдельно выпущен вариант Covo-Audio-Chat-FD с поддержкой full-duplex, то есть модель может одновременно слушать и говорить с низкой задержкой, что важно для голосовых помощников реального времени.
Веса модели и код для инференса опубликованы на GitHub и HuggingFace под лицензией CC BY 4.0.
В отличие от классических систем, которые последовательно пропускают аудио через три отдельных компонента (распознавание → языковая модель → синтез речи), Covo-Audio обрабатывает непрерывный аудиовход и генерирует аудиовыход в единой архитектуре за один проход. Это снижает накопление ошибок и задержку.
Модель прошла двухэтапное предобучение на 2 триллионах токенов, охватывающих речевые и текстовые данные на нескольких языках. На бенчмарках MMAU и MMSU Covo-Audio показала лучшие результаты среди моделей своего масштаба, сравнявшись с некоторыми 32B-системами.
Отдельно выпущен вариант Covo-Audio-Chat-FD с поддержкой full-duplex, то есть модель может одновременно слушать и говорить с низкой задержкой, что важно для голосовых помощников реального времени.
Веса модели и код для инференса опубликованы на GitHub и HuggingFace под лицензией CC BY 4.0.
🔥1
Google выпустила Gemini 3.1 Flash Live для AI-агентов
Google выпустила Gemini 3.1 Flash Live, audio-to-audio модель для работы с голосом, аудио и видео в реальном времени.
Она создана для использования в голосовых AI-агентах, где требуется низкая задержка и распознавание акустических нюансов.
Модель предназначена для обработки данных в реальном времени и доступна разработчикам через Gemini Live API в Google AI Studio и Vertex AI.
Google выпустила Gemini 3.1 Flash Live, audio-to-audio модель для работы с голосом, аудио и видео в реальном времени.
Она создана для использования в голосовых AI-агентах, где требуется низкая задержка и распознавание акустических нюансов.
Модель предназначена для обработки данных в реальном времени и доступна разработчикам через Gemini Live API в Google AI Studio и Vertex AI.
👍1
Теперь в Suno AI можно генерировать треки собственным голосом
Вышла новая модель 5.5.
Что улучшилось: вокал стал более живым и эмоциональным, звук чище, а треки более целостными и похожими на реальный продакшн.
Вышла новая модель 5.5.
Что улучшилось: вокал стал более живым и эмоциональным, звук чище, а треки более целостными и похожими на реальный продакшн.
👍1