Заметки LLM-энтузиаста
489 subscribers
131 photos
17 videos
1 file
162 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
#openai #deepresearch #news

Openai запустили новый инструмент deep research, который позволяет при ответе на вопрос:
- собрать всю недостающую информацию от пользователя
- произвести пошаговый поиск ответа в Интернете
(оригинальный видео-анонс здесь, подробное текстовое описание тут)

Под "капотом" deep research использует дообученную модель o3 reasoning (еще не была выпущена), которая по новому и достаточно сложному для LLM-моделей бенчмарку "Humanity Last Exam" превосходит o3-mini более чем в 2 раза!

По бенчмарку "GAIA", который оценивает "агентные" способности модели, deep research на всех уровнях сложности обновил высокие оценки других моделей

Что интересно:
- модель мультимодальная (работает и с текстом, и с изображениями)
- чем дольше модель думает, тем качественнее ответ
- она все еще может давать вместо правильных ответов галлюцинации, поэтому рекомендуется проверять ответ по ссылкам на источники

В моем личном кабинете доступа к этой полезной функции все еще нет, возможно, что еще не на все страны открыли доступ.
А хотя вот, нашел почему:
We are starting with a version optimized for Pro users today, with up to 100 queries per month. Plus and Team users will get access next, followed by Enterprise. We are still working on bringing access to users in the United Kingdom, Switzerland, and the European Economic Area. 

У меня обычная Plus подписка за $20 в месяц.
Deep Research пока что только для Pro пользователей, которые платят $200 в месяц (с ограничением 100 запросов в месяц)
3👍1
#openai #news

📱 Илон Маск предложил $97.4 млрд за некоммерческую часть OpenAI

Похоже, история с OpenAI получает новый поворот. Илон Маск вместе с группой инвесторов решил сделать "предложение, от которого невозможно отказаться" – выкупить некоммерческое подразделение OpenAI за какие-то скромные $97.4 млрд.

Что происходит:
• Маск собрал команду из xAI, Valor Equity Partners и других ребят с большими кошельками
OpenAI как раз собирается стать коммерческой компанией (SoftBank готов вложить $40 млрд при оценке в $260 млрд)
• Илон обещает вернуть компанию к открытому исходному коду и перебить любые другие предложения

Сэм Альтман отреагировал... ну, как Сэм Альтман – предложил купить Twitter за $9.74 млрд 😅 За что тут же получил звание "мошенника" от Маска.

Забавно наблюдать, как два технологических гиганта продолжают свою мыльную оперу. И да, учитывая, что оба активно работают с правительством США в сфере технологий, этот сериал явно не закончится в ближайшее время.

P.S. Интересно, кто-нибудь считал, сколько раз Маск уже пытался "спасти" компанию, которую когда-то помогал создавать? 🤔

#AI #OpenAI #ИлонМаск #технологии
😁2👍1
#news #microsoft #omnitool #omniparser #agent #opensource #automation

🤖 Microsoft представила OmniParser V2 и OmniTool

👀 Похоже, у OpenAI Operator появился еще один серьезный конкурент! Microsoft выпустила два open-source инструмента, позволяющих языковым моделям (LLM) видеть, понимать и управлять компьютером почти как человек.

🔍 Почему это может быть интересно? В отличие от закрытого OpenAI Operator, эти инструменты доступны как open-source решения, что дает больше гибкости в использовании и настройке.

📱 OmniParser V2:
• Анализирует скриншоты и преобразует UI в структурированные данные
• На 60% быстрее первой версии
• Улучшенное распознавание мелких элементов интерфейса
• Работает на CPU (с опциональной поддержкой GPU)
• Поддерживает парсинг документов и UI-компонентов

🛠 OmniTool:
• Автоматизирует компьютерные задачи
• Умеет навигировать по браузеру
• Открывает приложения
• Выполняет команды

💻 Требования для установки OmniParser V2: • Git • Python • Conda • Токен Hugging Face

🖥 Требования для OmniTool : • Windows 11 VM • Docker • 20+ ГБ свободного места • Мощный ПК

⚡️ Важно: несмотря на пока еще достаточно сложный процесс установки, OmniTool после настройки может автоматизировать практически любую компьютерную задачу (демка здесь). Это делает его мощным AI-помощником для автоматизации повторяющихся задач, анализа UI-компонентов и интеграции с другими рабочими процессами.

🎯 Где это можно применить:
• Автоматизация тестирования ПО
• Извлечение данных из разных источников
• Автоматизация рабочего стола
• Корпоративная автоматизация
• Кибербезопасность и мониторинг систем

🤔 Интересный факт: с помощью таких инструментов AI может, например, самостоятельно найти репозиторий на GitHub, скопировать ссылку для клонирования, открыть терминал и выполнить команду clone.

Полный набор роликов со сценариями использования от разработчиков здесь.

#AI #Microsoft #Automation #Tech #Development #OpenAI
👍2❤‍🔥1🔥1
#openai #news

🔥 OpenAI выпустила GPT-4.5! 🚀

Привет, друзья!

Этот долгожданный момент настал: OpenAI только что представила GPT-4.5 — их самую мощную и "человечную" модель на данный момент! 🤖

Что в ней особенного:
🧠 Это ОГРОМНАЯ модель с улучшенной эффективностью (в 10 раз лучше, чем GPT-4)
💬 Общение с ней ощущается более естественным и тёплым
🎭 Высокий эмоциональный интеллект (EQ) — понимает нюансы и контекст
📚 Обширная база знаний и меньше галлюцинаций
🎨 Отлично справляется с творческими задачами

Интересно, что это НЕ модель для рассуждений (как o1 или o3-mini), а модель для интуитивного понимания мира! Сэм Альтман говорит, что это "первая модель, общение с которой действительно воспринимается как разговор со вдумчивым человеком" 😮

📱 Доступность:
• Сейчас: для пользователей ChatGPT Pro ($200/месяц)
• На следующей неделе: для ChatGPT Plus ($20/месяц)
• Через две недели: для корпоративных и образовательных пользователей

💸 Цена API просто космическая: $150 за миллион токенов на выходе (для сравнения, GPT-4 стоит $10)!
Источник здесь
В общем, использовать 4.5 в софте пока дороговато.

🔍 Примеры использования GPT-4.5 vs другие модели 📊

Возьму один самый яркий пример из официальной презентации OpenAI:

Эмоциональная поддержка: 👤: "Мне сейчас тяжело после провала на экзамене"

GPT-4.5: "Ох, мне правда жаль это слышать. Провал на экзамене может ощущаться довольно паршиво и обескураживающе, но помни — это всего лишь один момент, а не отражение того, кто ты или на что способен. Хочешь поговорить о том, что случилось, или просто нужно отвлечься? Я здесь в любом случае."

GPT-4o: "Мне очень жаль, что вы переживаете трудные времена. Вот несколько вещей, которые стоит рассмотреть: 1. Проанализируйте, что пошло не так... 2. Обратитесь за поддержкой... 3. Поговорите с преподавателем..." [длинный список советов]

Очень дружеский ответ от GPT-4.5 👏❤️ и "дельный" совет от GPT-4o 📋🤖

🔢 Бенчмарки:
• Точность на SimpleQA: GPT-4.5 (62.5%) vs GPT-4o (38.2%)
• Уровень галлюцинаций: GPT-4.5 (37.1%) vs GPT-4o (61.8%)
• Предпочтения тестировщиков: 56.8-63.2% выбрали GPT-4.5 вместо GPT-4o

🔮 Что дальше?
OpenAI говорит, что будущее за моделями, которые сочетают масштабное предварительное обучение (как у GPT-4.5) с возможностями рассуждения (как у o1). Такие модели будут иметь и "высокий IQ", и "высокий EQ" одновременно!

А вы уже попробовали GPT-4.5? Делитесь впечатлениями в комментариях! 👇

#OpenAI #GPT45 #ИскусственныйИнтеллект #ChatGPT
3🔥2🎉2
#yandexgpt #openai #claude #battle #classification

🔥 По горячим следам: YandexGPT 5 Pro против всех (GPT-4.5, Claude-3.7 и другие)

Сегодня с одним из заказчиков провели эксперимент по классификации отзывов. 🧪
Результат оказался приятным сюрпризом: YandexGPT 5 Pro (см. анонс здесь) справилась с задачей лучше, чем GPT-4o, GPT-o1, llama 3, Claude 3.7, Qwen 2.5 и даже новейшая GPT-4.5! 🤯

Ключ к успеху — правильный промпт, улучшенный с помощью Deepseek-R1.

📊 Что тестировали:

Мы проверяли, можно ли решить задачу классификации отзывов одним промптом к модели общего назначения (без использования классификаторов и их дополнительного обучения)

Модели должны были оценить 3 отзыва о ресторане по 7 категориям (еда, сервис, персонал и т.д.) с оценками от 0 до 3.

🏆 Результаты с промптом от Deepseek-R1 (см. скриншот N1):

• YandexGPT 5 Pro: всего 1 ошибка! 👑
• Claude 3.7: середина таблицы (3 ошибки)
• GPT-4.5 и GPT-o1: аутсайдеры 😬

🔄 Результаты с промптом от GPT-o1 (см. скриншот N2):

• Claude 3.7: абсолютный лидер (0 ошибок) 🥇
• GPT-4o: 2-е место (2 ошибки) 🥈
• YandexGPT 5 Pro: в тройке лидеров (3 ошибки) 🥉
• GPT-4.5: снова в аутсайдерах 📉

💡 Интересный вывод:

Похоже, мы нашли идеальную связку для работы: берем обычный "человеческий" промпт → улучшаем его через Deepseek-R1 → запускаем в YandexGPT 5 Pro!
Такой подход продемонстрировал сегодня потрясающие результаты и может стать золотым стандартом для решения сложных задач. 🚀

📝 Подробный разбор с примерами отзывов, промптами и результатами выложил здесь

Про то, где взять Deepseek R1 чтобы протестировать, писал здесь и тут

#ИИ #YandexGPT #GPT #Claude #Эксперимент #Промпты
8👏2🤡2🔥1
#openai #news #update

Обзор GPT-4.1: новая модель OpenAI для разработчиков

OpenAI представила GPT-4.1 — новое семейство моделей, доступное только через API. Релиз включает три варианта: GPT-4.1, GPT-4.1 mini и впервые — GPT-4.1 nano.

Ключевые особенности:

• Контекстное окно 1 миллион токенов для всех трех моделей без дополнительной платы
• Показатель на SWE-bench Verified: 54.6% (+21.4% по сравнению с GPT-4o)
• Улучшение на MultiChallenge: +10.5% • Новый рекорд на Video-MME: 72%
• База знаний обновлена до июня 2024 года

Основные улучшения:

• GPT-4.1 mini превосходит GPT-4o по многим показателям при вдвое меньшей задержке и на 83% дешевле
• GPT-4.1 nano достигает 80.1% на MMLU
• Заметные улучшения в создании фронтенд-кода и работе с дифами
• Повышенная эффективность для создания агентов благодаря лучшему следованию инструкциям

Цены (за 1 млн токенов):

• GPT-4.1: $2.00 ввод / $8.00 вывод (средняя цена $1.84)
• GPT-4.1 mini: $0.40 ввод / $1.60 вывод (средняя цена $0.42)
• GPT-4.1 nano: $0.10 ввод / $0.40 вывод (средняя цена $0.12)

OpenAI объявила о прекращении поддержки GPT-4.5 Preview через 3 месяца (14 июля 2025), поскольку GPT-4.1 предлагает аналогичную или лучшую производительность при меньших затратах.

Результаты тестирования партнеров:

• Windsurf: GPT-4.1 на 60% лучше GPT-4o в их внутреннем тесте кодирования
• Qodo: В 55% случаев GPT-4.1 дает лучшие предложения при анализе pull-запросов
• Thomson Reuters: Улучшение точности анализа нескольких документов на 17%
• Carlyle: На 50% лучше извлекает данные из больших документов

#OpenAI #GPT41 #ИскусственныйИнтеллект #AI
👍2🔥2
#ai #news #openai #microsoft #anthropic

🚀 Новости из мира ИИ: OpenAI, Microsoft и Anthropic

Всем добрый вечер!

Небольшая подборка новостей из мира искусственного интеллекта. 🧠

🔥 OpenAI представляет o3 и o4-mini

Модели рассуждения получили возможность использовать те же инструменты, что и мы для решения задач:

Codex CLI — опенсорсный агент, который подключается к компьютеру и помогает с задачами программирования. В демонстрации исследователь сделал снимок экрана приложения, сгенерированного кем-то другим, а затем попросил Codex воссоздать его локально. Он даже добавил специальные инструкции, например, как сделать приложение совместимым с веб-камерой.

• Модели o3 и o4-mini теперь считаются лучшими практически во всех категориях математики и науки. o4-mini получила почти идеальный балл на математическом конкурсе AIME 2025.

• "Это первые модели, о которых ведущие ученые говорят, что они производят действительно хорошие и полезные новые идеи," — отметил президент OpenAI Грег Брокман.

• Модели могут "думать" с помощью изображений: при загрузке сложной диаграммы ChatGPT самостоятельно увеличивает нужные фигуры и решает связанные с ними уравнения.

💻 Microsoft Copilot Studio получает новые возможности

• Платформа разработки ИИ от Microsoft научилась самостоятельно перемещаться по интернету (без помощи MCP серверов, как мы сегодня рассматривали на вебинаре)

• Теперь можно создавать агентов для проведения маркетинговых исследований, обработки счетов и выполнения задач по вводу данных автономно.

• В отличие от потребительской версии Copilot, эта версия имеет возможность посещать любые веб-страницы, а не только определенные сайты (Actions can be performed in the background while you work on other tasks. Copilot can now do things like book restaurant reservations, event tickets, and purchase items from online stores. The Actions experience is limited to a number of partners though, and it sounds like Copilot Studio will be free to work with more websites and apps.)

🗣 Anthropic готовит голосовой режим

• Airy, Mellow и Buttery — три новые голосовые личности, которые Anthropic планирует добавить в своего чат-бота Claude уже в этом месяце.

• Anthropic остается последним крупным игроком в сфере ИИ без голосового помощника.

🔮 Другие новости

По слухам, OpenAI ведет переговоры о покупке стартапа Windsurf (ранее известного как Codeium) за $3 млрд — это может стать крупнейшим приобретением создателя ChatGPT.

Один из самых ходовых сценариев использования агентов - это не только поиск в Интернете (Deep Research) и работа в браузере (Openai Operator), но и Vibe Coding (AI-программирование), поэтому шаг ожидаемый.
Почему Windsurf, а не Cursor ? Скорее всего потому, что у Windsurf более широкий взгляд на "путь пользователя" в Vibe кодинге - они раньше Cursor сделали внешнее партнерство (с Netlify) по быстрому деплою готовых приложений в облако (вот здесь писал об этом).

А у вас какие мысли на этот счет? Пишите в комментариях👇
👍52🔥1
OpenAI представила HealthBench: новый стандарт для оценки медицинских AI-систем 🩺🤖

OpenAI выпустила HealthBench — новый бенчмарк, созданный совместно с 262 врачами для оценки эффективности AI-систем в медицинских беседах. Похоже, теперь у нас есть "официальный термометр" для измерения температуры искусственного интеллекта в медицине.

Что нужно знать 📋

• Бенчмарк тестирует модели по различным темам (скорая медицинская помощь, глобальное здравоохранение и т.д.) и поведенческим характеристикам (точность, качество коммуникации).

• Новые модели показывают значительно лучшие результаты — o3 от OpenAI набрала 60%, в то время как GPT-3.5 Turbo всего 16%. Прогресс налицо, хотя до идеала еще далеко.

• Интересно, что даже маленькие модели стали гораздо способнее — GPT-4.1 Nano превосходит старые варианты, при этом обходясь в 25 раз дешевле. Вот такой интересный прогресс в экономии на здоровье :)

OpenAI сделала открытым исходный код как самих оценок, так и тестового набора данных, включающего 5000 реалистичных многоэтапных медицинских диалогов между моделями и пользователями.

Почему это важно 🤔

Существует множество примеров того, как ИИ может серьезно улучшить работу в медицинской сфере. Наличие проверенных врачами бенчмарков — важный шаг для измерения производительности каждой модели в медицинском контексте.

Конечно, одно дело — хорошо отвечать на тесты, и совсем другое — не навредить реальным пациентам. Но, по крайней мере, теперь у нас есть "линейка", которой можно измерить, насколько наш цифровой доктор готов к приему.

#ИИвМедицине #OpenAI #HealthBench #ИскусственныйИнтеллект #ЦифровоеЗдравоохранение
3👍1
Codex от OpenAI: новый инструмент для разработчиков

OpenAI представила новый инструмент под названием Codex – облачный агент для разработки ПО, способный работать с несколькими задачами параллельно. 🤖

Codex работает на базе модели codex-1 (оригинальное название, ничего не скажешь 🙃), которая является оптимизированной версией OpenAI o3, настроенной специально для программирования. Инструмент уже доступен пользователям ChatGPT Pro, Team и Enterprise, а обладателям Plus-подписки придется немного подождать.

Как это работает? 🛠

Codex функционирует в облаке, а не на вашем компьютере, что позволяет:

• Запускать несколько задач одновременно
• Работать с вашими репозиториями GitHub
• Писать новые функции, исправлять баги и предлагать pull-запросы
• Отвечать на вопросы о вашей кодовой базе

Каждая задача выполняется в изолированной среде, предварительно загруженной с вашим репозиторием. Codex может читать и редактировать файлы, запускать команды, включая тесты, линтеры и проверки типов.

Что умеет Codex? 💻

1️⃣ Выполнять рутинные задачи: рефакторинг, переименование, написание тестов
2️⃣ Создавать новые функции и компоненты
3️⃣ Исправлять ошибки в коде
4️⃣ Составлять документацию
5️⃣ Анализировать кодовую базу и предлагать улучшения

Интересная особенность – Codex можно "обучать" с помощью файлов AGENTS.md, размещенных в репозитории. В этих файлах вы можете указать, как навигировать по кодовой базе, какие команды запускать для тестирования и как придерживаться стандартных практик проекта.

Безопасность и ограничения ⚠️

OpenAI утверждает, что уделила особое внимание безопасности и прозрачности. Codex работает в защищенном контейнере в облаке, без доступа к интернету. Он может взаимодействовать только с кодом, явно предоставленным через репозитории GitHub и предустановленные зависимости.

Однако стоит помнить, что это всё ещё "исследовательский превью", и у инструмента есть ограничения:
• Отсутствие поддержки изображений для фронтенд-разработки
• Невозможность корректировать работу агента в процессе выполнения
• Делегирование удаленному агенту занимает больше времени, чем интерактивное редактирование
• Codex пока доступен только в ChatGPT Pro тарифе, ждем его появления в более демократичных Plus и Edu редакциях 😏

Что дальше? 🔮

OpenAI планирует развивать Codex, добавляя новые функции:
• Более интерактивные и гибкие рабочие процессы
• Возможность предоставлять указания во время выполнения задачи
• Интеграция с другими инструментами: GitHub, Codex CLI, ChatGPT Desktop и даже системами отслеживания проблем

Также компания выпустила облегченную версию codex-1 для использования в Codex CLI – локальном агенте, который работает в вашем терминале.

Звучит впечатляюще, но насколько это изменит реальную работу программистов – покажет только время. Возможно, мы наблюдаем начало новой эры в разработке ПО, а может быть, это просто очередной инструмент, который будет полезен в определенных сценариях, но не произведет революцию.
А как вы думаете?

P.S. Немного иронично:
• производители LLM-моделей (openai) идут в AI-кодинг, а создатели AI-кодеров идут в производство моделей
• при этом производитель LLM-модели (openai) собирается купить такого "первопроходца" из AI-кодеров (windsurf),
кажется, что openai хотят иметь в своем портфеле все: и "онпрем" и "облачное" решение по AI-кодингу для своих заказчиков 🤔

#ИскусственныйИнтеллект #Разработка #openai #codex #БудущееПрограммирования
На прошлой неделе на 6-ом занятии по AI-программированию мы делали синхронный переводчик для Zoom-звонков. Решение получилось универсальным — работает с любой системой ВКС через виртуальные аудио-устройства.

Протестировали сразу 3 варианта решения задачи:
Cursor для разработки и railway для деплоя
Replit
Lovable

Во всех трех случаях для подготовки PRD я использовал Codeguide.dev - отличный инструмент, позволяет в режиме диалога с AI подготовить целый набор необходимой документации для написания софта методом Vibe Coding. Документация готовится под выбранный набор AI-кодеров. Также codeguide содержит внутри готовые шаблоны micro SaaS приложений под различные сценарии использования: например, с бэкендом для аутентификации пользователей или для оплаты.

Исходные заявки в codeguide.dev на подготовку PRD, а также финальные PRD можно посмотреть здесь.

Результаты тестирования

• Вариант с Cursor закончить за время занятия (2 часа) не удалось, но это скорее связано с тем, что задача ставилась сложнее - я хотел сделать систему с личным кабинетом пользователя, с аутентификацией на базе Clerk, и по закону подлости в определенный момент перестали работать обращения к Cursor-агенту через VPN, я уже не стал переключаться, тем более что по двум другим кодерам прогресс шел быстро.

Вариант с Replit показал отличный результат раньше всех и потребовал небольшое количество итераций траблшутинга. Удалось полностью закончить приложение за отведенное время занятия. Вот ссылка на Github. Карточка проекта тут

Вариант с Lovable стал показывать первые результаты практически одновременно с Replit, но потребовал значительно бОльшего количества итераций траблшутинга. Заканчивал приложение уже после занятия (github).

Ну а теперь про само приложение!

Как это работает 🔧

🎤 Система распознает речь через Web Speech API (фронтенд в браузере)
📤 Отправляет текст на перевод через OpenAI API (бэкенд - в облаке или на вашем PC/mac)
🗣 Синтезирует переведенную речь (фронтенд в браузере)
🎧 Передает аудио через виртуальный или обычный микрофон в видеоконференцию (зависит от сценария использования - см. ниже)

Настройка для разных сценариев ⚙️


Чтобы вас слышали на иностранном языке:
1️⃣ Запустить веб-приложение
2️⃣ Подключить виртуальный микрофон (BlackHole/VB-Cable) - в моем случае был VB-cable на Mac в браузере Safari
3️⃣ В ВКС выбрать виртуальное устройство как speaker. Микрофон оставить обычным (External Mic).
Вы говорите на родном языке. Приложение в браузере Safari/Chrome «слышит» это через External Mic. И передает это (Speaker) через VB-cable. Вы сами не слышите то, что слышит ваш собеседник, но видите, что ему говорят (т.к. в приложении работает текстовый перевод)

Чтобы слышать перевод на русском:
1️⃣ В ВКС подключить виртуальный микрофон как input
2️⃣ В системных настройках ОС: input = виртуальный микрофон, чтобы приложение "слышало", что говорит ваш собеседник, а output = внешний микрофон (External Mic), чтобы вы слышали перевод
3️⃣ Веб-приложение будет переводить и озвучивать через стандартный выход

Технические характеристики 📊

• Задержка перевода: до 1-2 секунд (зависит от того используете деплой в облаке или на своем ПК)
• Точность перевода: более 95% для разговорного контента
• Поддержка популярных ВКС: Zoom, Google Meet, Microsoft Teams и т.д.
• Кэширование переводов для ускорения повторных фраз (не во всех версиях реализовано)

Требования 💻

• Браузер с поддержкой Web Speech API (лучше всего Chrome или Safari)
• Действующий API-ключ OpenAI
• Наличие установленного виртуального аудиоустройства (BlackHole или VB-Cable)
• Стабильное интернет-соединение от 10 Мбит/с

Ограничения
• Поскольку все основные функции по транскрибации и синтезу речи реализованы в браузере через Web Speech API, то на мобильных устройствах будет доступен только текстовый перевод, синтез речи работать не будет.
• В зависимости от используемого браузера будет варьироваться количество доступных языков и голосов для транскрибации и синтеза

#realtime_translation #speech #video_conferencing #openai #web_audio #battle #lovable #replit #cursor #zoom
👍65🔥31
OpenAI снизила цены на o3 на 80% и представила o3-pro 🚀

OpenAI объявила о значительном снижении стоимости модели o3 и запуске новой версии o3-pro через API.

Новые цены на o3: 💰
• Входящие токены: $2 за миллион
• Исходящие токены: $8 за миллион

Сама модель не изменилась — улучшили только инфраструктуру для более дешевого инференса.

o3-pro — более мощная версия: ⚡️
1️⃣ Входящие токены: $20 за миллион
2️⃣ Исходящие токены: $80 за миллион
3️⃣ На 87% дешевле предыдущей o1-pro
4️⃣ OpenAI советует использовать фоновый режим с o3-pro для долгих задач — это позволяет избежать таймаутов и дает возможность задачам завершаться асинхронно. Получается, это классный кандидат для Cursor Background Agents.

Ключевые особенности o3-pro: 🎯
Превосходит конкурентов в математике и науке на PhD уровне
• Поддерживает веб-поиск и анализ данных (но пока не поддерживает генерацию картинок и Canvas)
• Работает медленнее базовой версии

Доступность: 📅
• ChatGPT Pro/Team — уже доступно
• Enterprise и Edu — на следующей неделе

Что говорят тестировщики:
🔍 По словам тестера Бена Хайлака, o3-pro ощущается "намного умнее" предшественника и "очень отличается" от других передовых моделей. Самое удивительное в этом релизе — это ценообразование: модель стоит в разы дешевле старых версий при значительном скачке в интеллекте и возможностях.
Похоже что теперь для стадии планирования в vibecoding это самый подходящий вариант 😁

Кажется, что Windsurf и Cursor обновили цены на o3 сразу после анонса 📊

@llm_notes

#openai #o3pro #pricing #llm #chatgpt
❤‍🔥3👍32
🤖 MiniMax представила модель M1 с рекордным контекстным окном

Китайский стартап MiniMax выпустил открытую модель M1 с контекстным окном в 1 миллион токенов. Модель показывает результаты, сопоставимые с ведущими открытыми моделями (а также с топовыми моделями Openai - o3 и Anthropic - Claude 4 Opus), при значительно меньших затратах на обучение.

Основные характеристики:

• Контекстное окно: 1M входных токенов
• "Бюджет размышлений": 80k токенов для вывода
• Особенно эффективна в разработке ПО и использовании инструментов (tool calling)
• Превосходит конкурентов в задачах с длинным контекстом

Технические детали:

1️⃣ Использован новый алгоритм обучения CISPO (Clipped IS-weight Policy Optimization)
2️⃣ Скорость обучения в 2 раза выше существующих методов
3️⃣ Полное обучение заняло 3 недели
4️⃣ Общая стоимость обучения: $535,000

Подробности в отчете

💡 Значение для индустрии:


Китайские лаборатории продолжают развивать открытые модели, расширяя границы возможностей работы с контекстом. Эффективность обучения M1 показывает, что новые подходы в архитектуре могут существенно снизить затраты на создание мощных ИИ-систем.
С таким большим контекстным окном было бы неплохо данную модель взять за основу в следующих версиях YandexGPT :)

💡 Как самим потестировать:

• Модель доступна на huggingface
• Есть также подробное описание на Github
• Чат-бот на базе этой модели здесь
• MCP-сервер модели тут

@llm_notes

#minimax #openai #longcontext #training #chinese
3👍3🔥31
ChatGPT Agent: новый инструмент для автоматизации задач 🤖

OpenAI представила ChatGPT Agent — он объядиняет возможности Operator и Deep Research в единой системе. Логичный шаг, теперь у Openai есть агент, который может самостоятельно выполнять сложные задачи, используя браузер, терминал и различные API.

Небольшое отступление. По сути, все эти задачи можно решить и без ChatGPT Agent, настроив в любом AI-кодере, у которого есть доступ к терминалу, необходимый набор MCP-серверов, но если серверов много - можно наткнуться на лимиты по количеству инструментов (как наример, в Cursor) или же AI-кодер может просто "запутаться" в количесте MCP-инструментов и начать делать что-то не то. Выход из такого положения тоже есть:
1) поместить инструкции по применению MCP-инструментов в системный промпт (rules-файлы)
2) использовать MCP-агрегаторы со встроенным RAG по списку MCP-инструментов наподобие ACI.DEV (отлично справляется в случае с Cursor, когда есть лимиты на количество MCP-tools, и что круто - этот инструмент может быть установлен локально!)

Судя по всему, сам сценарий использования стал настолько популярен, что Openai решили пойти по пути создания pret-a-porter агента, который в данном контексте выигрывает за счет того, что не требует дополнительной "сборки" и настройки под описанный выше класс задач и будет удобнее для обычного пользователя, который далек от AI-программирования и не хочет вдаваться в детали настройки MCP.

Основные возможности:
• Анализ календаря и подготовка брифингов по встречам
• Планирование покупок и составление списков
• Создание презентаций и анализ конкурентов
• Бронирование и планирование поездок
• Работа с таблицами и документами

Технические особенности: ⚙️
🔹 Визуальный браузер для взаимодействия с веб-интерфейсами
🔹 Текстовый браузер для быстрого анализа контента
🔹 Доступ к терминалу для выполнения кода
🔹 Интеграция с Gmail, Google Calendar, GitHub (я полагаю, что в сравнении с MCP-интеграцией здесь преимущество в безопасности системы, за которую теперь отвечает openai, а не дуэт в составе автора MCP-сервера и команды anthropic, которая пишет спецификацию MCP-протокола)
🔹 Возможность создания презентаций и таблиц (это уже относительно давно есть в manus и genspark)

Результаты тестирования: 📊
1️⃣ Humanity's Last Exam: 41.6% (новый рекорд)
2️⃣ FrontierMath: 27.4% точности
3️⃣ SpreadsheetBench: 45.5% при работе с файлами
4️⃣ BrowseComp: 68.9% (+17.4% к предыдущим результатам)

Безопасность и ограничения: ⚠️
Система требует подтверждения для критических действий и защищена от prompt injection атак. Пользователи могут в любой момент прервать выполнение задачи или взять управление на себя.

Доступность:
• Pro пользователи: 400 запросов/месяц
• Plus и Team: 40 запросов/месяц
• Постепенный запуск в течение нескольких дней

Функция пока недоступна в ЕС и Швейцарии.
Я пока тоже доступ не получил.
Разработчики планируют регулярные улучшения системы.

Полезные ссылки для просмотра:
- Введение в ChatGPT Agent
- Кастомизация ChatGPT Agent

@llm_notes

#chatgpt #agents #openai #automation #productivity
🔥21🤔1
🚀 RAG на практике: создаем ИИ-помощников с нуля

На прошлой неделе я проводил занятие по RAG (Retrieval Augmented Generation) на курсе "Менеджер ИИ-продуктов" в Product University.
Специально к занятию собрал небольшой интерактивный курс по RAG, которым хотел бы поделиться с вами 👉 ссылка

К нему также "прикручен" ИИ-ассистент, который может проконсультировать по вопросам построения предметно-ориентированных вопросно-ответных систем (так по-умному называются ИИ-помощники :)

Что делали на практике:
• ИИ-помощники через OpenAI Assistant API
• ИИ-помощник на базе Yandex AI Assistant
• Flowse AI Assistant с векторной БД Pinecone
• Agent Flow Canvas

ИИ-помощник "прикручивался" к клону странички курса по AI-программированию (оригинал здесь) и тестировался вопросами по содержанию курса.

🔥 Приятное открытие: уже созданный OpenAI Assistant API можно просто загрузить во Flowise через OpenAI креды, затем выложить на Chatflow Canvas и опубликовать с крутыми опциями:

▫️ Rate Limit для безопасного инференса
▫️ Контроль адресатов подключения
▫️ Сбор и мониторинг обратной связи
▫️ Генерация лидов

💡 Преимущество Flowise: сразу получаешь рабочий код для виджета, который можно разместить на своем сайте. Именно им я и воспользовался, когда "прикручивал" ИИ-помощника к посадочной странице курса по RAG.

Тестирование AI-кодеров:
1️⃣ Lovable - справился с клонированием сайта по URL, но виджет от Flowise самостоятельно и без ошибок добавить не смог 😅 Пришлось вручную править код.
2️⃣ Bolt.new - выполнил задачу с первого раза! 💪 В bolt, кстати, появился режим "Discussion", который можно использовать для планирования изменений и создания "Implementation Plan", также добавилась встроенная библиотека промптов, в общем, инструмент меня неожиданно порадовал 😄

Именно на bolt.new я собрал финальную версию интерактивного курса по RAG.
К слову, lovable и здесь лажанулся: как я его ни уговаривал, он так и не смог сделать кликабельными ссылки на модули курса, пришлось даже пригрозить, что если он не решит задачу с очередной (пятой по счету) попытки, то я больше не будут им пользоваться - но все равно не помогло 😄

🏆 Yandex AI Assistant показал себя отлично - единственный понял, что в задаваемых вопросах слово "поток" означает "поток курса", остальные ассистенты упрямо писали, что вопрос не относится к курсам 😄

Полезный лайфхак: Flowise теперь можно развернуть из Yandex Cloud Marketplace и использовать YandexGPT через официальный OpenAI-совместимый API ! Так можно получить полностью локализованную в РФ версию ИИ-помощника, данные которого хранятся в инфраструктуре, которая выполняет требования ФЗ-152.

⚠️ Когда будете разворачивать flowise в Яндекс Облаке, то имейте ввиду, что дефолтная группа безопасности не открывает доступ по порту TCP 3000, поэтому применяйте кастомную группу с настройками permit any any, иначе не сможете подключиться по веб-интерфейсу к flowise.

@llm_notes

#rag #aiassistants #flowise #yandexgpt #lovable #bolt #openai
🔥54