Заметки LLM-энтузиаста
499 subscribers
132 photos
17 videos
1 file
163 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
🚀 Cursor Agents теперь доступны в браузере и на мобильных устройствах

Разработчики Cursor расширили возможности своих AI-агентов — теперь они работают не только на десктопе, но и в веб-браузере, и на мобильных устройствах.

Что нового:

🌐 Кодинг откуда угодно — запускайте агентов из любого браузера или мобильного устройства для работы со своими задачами по написанию кода

⚙️ Фоновое выполнение задач — агенты вносят изменения в кодовую базу, создают pull request'ы и выполняют задачи без постоянного контроля (см. background agents)

🔄 Бесшовная передача на десктоп — продолжайте работу с того места, где остановились веб-агенты, прямо в Cursor IDE для проверки и доработки

🤖 Параллельное тестирование агентов — запускайте одну и ту же задачу на разных AI-моделях одновременно для сравнения результатов

Теперь можно задать задачу Cursor-агенту с телефона в кафе, а когда вернетесь к рабочему месту — просмотреть готовые изменения в редакторе. Агенты работают с реальной кодовой базой (нужно интегрировать cursor с github), что делает процесс разработки более гибким и продуктивным 📱💻

Подробности в официальном блоге Cursor тут

@llm_notes

#cursor #vibecoding #development #productivity #mobile
4👍4🔥4👎1
🚀 Как Shopify внедряет ИИ: опыт руководителя инженерного отдела

Коллеги, добрый вечер!

Сегодня хочу обратить ваше внимание на очень интересное интервью (Ч1 | Ч2 | Ч3) с Фарханом Таваром, руководителем инженерного отдела Shopify, о том, как компания полностью перешла на ИИ и какие результаты это принесло.

🔍 Ранние эксперименты с ИИ

Shopify начала использовать инструменты ИИ задолго до хайпа вокруг ChatGPT:

"Мы уже давно используем инструменты искусственного интеллекта в инженерии. Я уверен, что мы были первой компанией за пределами GitHub, которая начала использовать GitHub Copilot. Это был 2021 год, за год до появления ChatGPT." - Фархан Тавар

Интересно, что Shopify получила доступ к Copilot, когда он еще не был доступен для коммерческого использования. Компания не платила за него около 2 лет, потому что не было тарифного плана, но взамен предоставляла много обратной связи.

💻 Инструменты ИИ в Shopify

Сейчас в компании используют несколько ключевых инструментов:

• GitHub Copilot - первый инструмент, который начали использовать
• Cursor - редактор с интегрированным ИИ
• Claude Code - для агентных рабочих процессов
• Внутренний прокси LLM - для безопасной работы с данными

Самое интересное, что Cursor активно используется не только инженерами:

"Финансы, продажи, поддержка — вот команды, которые используют Cursor. Они создают MCP-серверы для доступа к сервисам, а затем создают домашние страницы для себя." - Фархан Тавар

🧠 Философия использования ИИ

В Shopify есть несколько необычных подходов к использованию ИИ:

1️⃣ Нет ограничений на расходы на токены ИИ. Компания даже ведет таблицу лидеров, где чествует людей, которые используют больше всего токенов!

2️⃣ Руководство считает, что 1000 долларов в месяц на инженера за инструменты ИИ - это слишком дешево, если они повышают продуктивность хотя бы на 10%.

3️⃣ Компания рекомендует использовать более мощные (и дорогие) модели вместо моделей по умолчанию.

4️⃣ В процессе собеседований кандидатам разрешается и даже рекомендуется использовать ИИ-инструменты.

👨‍💻 Трансформация найма и обучения

Одно из самых интересных решений Shopify - масштабное расширение программы стажировок:

"В прошлом году у нас было около 25 стажёров за семестр. Я убедил Тоби (CEO) расширить программу до тысячи стажёров в год, основываясь на гипотезе, что они будут более восприимчивы к искусственному интеллекту, чем остальные сотрудники."

Компания верит, что молодые специалисты, выросшие в эпоху интернета, смартфонов и языковых моделей, помогут трансформировать корпоративную культуру.

🛠 Внутренние инструменты и практики

Shopify создала собственную экосистему для работы с ИИ:

• Внутренний прокси LLM для безопасной работы с данными
• Около 20 MCP-серверов для доступа к различным системам
• Библиотека промптов, которой могут пользоваться все сотрудники
• Система GSD ("Get Shit Done") с интегрированным ИИ для управления проектами

Интересно, что компания внедрила ИИ-компонент, который анализирует последние запросы на проверку кода и обсуждения в Slack, а затем формирует проект отчета о ходе работ.

🔑 Советы для компаний, желающих внедрить ИИ

Фархан Тавар считает, что самое главное - это личный пример:

"Ничто не работает лучше, чем демонстрация на собственном опыте. Вы должны сами активно применять эти технологии. Если вы пишете код, показывайте коллегам свой рабочий процесс с использованием ИИ, делитесь в общих каналах своими вопросами."

Также важно создать инфраструктуру, которая облегчает использование ИИ, и поощрять экспериментирование.

🌟 Ключевые выводы

1️⃣ Не экономьте на инструментах ИИ - их стоимость окупается повышением продуктивности

2️⃣ Привлекайте молодых специалистов, которые естественным образом воспринимают ИИ

3️⃣ Создавайте инфраструктуру для безопасного использования ИИ внутри компании

4️⃣ Поощряйте экспериментирование и обмен опытом

5️⃣ Показывайте личный пример использования ИИ

Интересно, что Shopify не боится инвестировать в ИИ и рассматривает его как долгосрочное преимущество, а не временное увлечение.

@llm_notes

#ai #engineering #shopify #productivity
🔥921👍1
Media is too big
VIEW IN TELEGRAM
Claudia: долгожданный GUI для Claude Code — обзор возможностей 🖥

Никто, наверное, сейчас не будет спорить, что Claude Code от Anthropic с момента своего выхода в свет показал себя, как мощнейший AI-инструмент для разработки, но работа через командную строку подходит не всем, да и добавлять скрины интерфейса приложения в него в процессе траблшутинга не так удобно как в том же Cursor.
Claudia решает эту проблему, предоставляя графический интерфейс и дополнительные возможности.

Что такое Claudia? 🤔


Claudia — это open-source десктопное приложение, построенное на Tauri 2, которое превращает Claude Code в полноценную IDE-подобную среду. Работает на Windows, macOS и Linux.

Основные возможности 🛠

(очень советую посмотреть "крышесносную" 2х минутную демку)

Управление проектами:
• Визуальный браузер всех Claude Code проектов
• Возобновление прошлых сессий с полным контекстом
• Умный поиск по проектам и сессиям

Кастомные агенты:
• Создание специализированных AI-агентов
• Настройка системных промптов для конкретных задач
• Изолированная среда выполнения с детальными разрешениями

Аналитика и мониторинг:
📊 Dashboard с метриками использования 📈 Отслеживание расходов API в реальном времени 📋 Детальная разбивка по моделям, проектам и времени

Ключевые преимущества 💡

1️⃣ Полный контекст
В отличие от Cursor, Claude Code предоставляет доступ к полному контекстному окну модели (200K токенов), что значительно повышает качество работы.

2️⃣ Система чекпоинтов
• Создание точек сохранения в любой момент
• Визуальная временная шкала сессий
• Возможность отката изменений одним кликом
• Встроенный diff-viewer для сравнения версий

3️⃣ Удобство работы с изображениями Прямая вставка изображений в интерфейс без необходимости указывать пути к файлам.

4️⃣ MCP серверы
• Графическое управление Model Context Protocol серверами
• Импорт конфигураций из JSON
• Тестирование соединений через UI

Установка ⚙️

Требования:
• Node.js 18+
• Rust 1.70+
• Bun
• Git
• Claude Code CLI

Процесс установки:

git clone https://github.com/getAsterisk/claudia.git
cd claudia
bun install
bun run tauri build

У меня вся процедура заняла около 5 минут

Практическое применение 🎯

Примеры использования:
• Создание веб-приложений (например, клон Notion)
• Разработка мобильных прототипов
• Автоматизация рефакторинга кода
• Написание unit-тестов

Типы агентов которые можно создать:
• Web Search Agent — для поиска документации
• Security Scanner — проверка уязвимостей (просто 🔥)
• Code Quality Checker — анализ качества кода
• Bug Fixer — автоматическое исправление ошибок

Ограничения ⚠️

• Сборка только из исходного кода (пока нет готовых релизов)
• Лицензия AGPL (важно для коммерческого использования)
• Некоторые функции еще в разработке
• Claude Code недоступен на Windows (только через WSL)

Заключение 📝

Claudia превращает мощный, но сложный в использовании Claude Code в доступный инструмент с богатым функционалом. Особенно полезна Claudia будет для разработчиков, которые предпочитают графические интерфейсы командной строке.

Проект активно развивается и уже сейчас предлагает функциональность, сопоставимую с коммерческими решениями.

@llm_notes

#claudecode #vibecoding #claudia #development #opensource
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83🔥2🦄1
Новые инструменты Replit Agent: веб-поиск, расширенное мышление и высокопроизводительный режим 🚀

Отличные новости для тех, кто как и я любит пользоваться Replit (много раз писал об этом инструменте для вайбкодинга, можно найти на канале по хэш-тегу #replit) для быстрого прототипирования стильных full-stack приложений.
Дизайн получается "из коробки" красивым, GUI работает "шустро", и можно спокойно добавлять бэкенд практически любой сложности (а не как в lovable или тем более bolt, которые сильно расчитывют на BaaS от Supabase), к тому же никаких проблем с деплоем - приложение разворачивается и публикуется парой кликов, и сразу мониторится.

Replit представил три новые функции для своего AI-агента, которые существенно расширяют возможности разработки приложений.

Веб-поиск 🔍


Агент теперь может самостоятельно искать информацию в интернете во время создания приложений. Вместо того чтобы вручную собирать данные и предоставлять контекст, достаточно описать задачу — агент найдет необходимую информацию сам.

Примеры использования:
• Поиск актуальных библиотек и пакетов
• Создание образовательных материалов с актуальными данными
• Анализ конкурентов
• Поиск бесплатных источников данных

Расширенное мышление 🧠

Функция дает агенту больше времени на "размышления" и анализ задачи. Это приводит к более точным решениям с первого раза и лучшей обработке сложных случаев.

Высокопроизводительный режим ⚡️

Включает модель Claude Opus 4 с увеличенным контекстным окном и улучшенными возможностями рассуждения для решения сложных задач.

Важные особенности ⚠️

1️⃣ Обе функции (расширенное мышление и высокопроизводительный режим) увеличивают стоимость использования

2️⃣ Веб-поиск включен по умолчанию для новых проектов, но требует активации в настройках агента

3️⃣ Комбинация всех трех функций значительно повышает качество результатов и сокращает количество итераций

Практический результат 📈

Как утверждают разработчики Replit, сочетание этих инструментов превращает агента из "младшего разработчика" в более опытного помощника, способного решать сложные задачи самостоятельно с минимальным количеством правок. Очень хочется в это верить. И будем проверять. В прошлый раз при переходе на более сложную модель Claude 3.7 агентая цепочка Langgraph внутри Replit Agent работала хуже, чем на Claude 3.5.

@llm_notes

#replit #ai #webdev #coding #aitools
4👍41🔥1
Claude Code получил функцию Hooks для интеграции в рабочий процесс 🔧

В Claude Code появилась новая возможность — Hooks, которая позволяет выполнять пользовательские shell-команды до или после использования инструментов. Это позволяет пользователю интегрировать в пайплайн разработки с использованием Claude Code свои собственные скрипты.

Доступные типы хуков:

1️⃣ PreToolUse — выполняется перед использованием инструмента, подходит для блокировки потенциально опасных операций

2️⃣ PostToolUse — запускается после использования инструмента, полезен для автоформатирования или логирования

3️⃣ Notification — срабатывает когда Claude требует внимания или задает вопрос

4️⃣ Stop — выполняется перед завершением ответа, подходит для очистки или генерации сводок

5️⃣ SubagentStop — запускается когда субагент Claude Code (вызов инструмента Task) завершает свою работу

Настройка и использование ⚙️

• Настройка через интерфейс /hooks (см. скриншот)
• Возможность фильтрации по названию инструмента
• Команды могут выполняться параллельно

Практические примеры:

• Notification хук для macOS со звуковым уведомлением (если его настроить на хук Stop или SubagentStop, то будет аналог того, что есть в Cursor Settings в разделе Settings -> Chat -> Completion Sound)
• Можно настроить отправку уведомлений в Slack или WhatsApp при завершении задач 📱

Безопасность 🔒

Claude контролирует безопасность вызовов — всегда запрашивает подтверждение перед внесением изменений, что предотвращает выполнение потенциально вредоносных скриптов.

Что круто: функция совместима и может работать с MCP инструментами

Подробности настройки в официальной документации

@llm_notes

#claude #hooks #vibecoding #development #automation
🔥5👍2💯2
🤖 xAI представила Grok 4 и Grok 4 Heavy

Похоже ожидания этого лета (Grok 4 и GPT 5) постепенно оправдываются :)

Компания Илона Маска анонсировала новые модели искусственного интеллекта, которые показывают высокие результаты в различных тестах и бенчмарках.

Основные характеристики:

• Grok 4 — однозадачная модель с поддержкой голоса, изображений и контекстным окном 128K токенов
• Grok 4 Heavy — продвинутая версия с мультиагентной архитектурой для сложных задач
• Обе модели показали лучшие результаты на тестах Humanity's Last Exam (см. скриншот), Arc-AGI-2 и AIME
• Превосходят по показателям Gemini 2.5 Pro и OpenAI o3


Результаты тестирования от Artificial Analysis:

1️⃣ Индекс интеллекта: 73 балла (выше o3 и Gemini 2.5 Pro — по 70 баллов) 2️⃣ GPQA Diamond: рекордные 88% (предыдущий рекорд Gemini 2.5 Pro — 84%) 3️⃣ Humanity's Last Exam: 24% (против 21% у Gemini 2.5 Pro) 4️⃣ Скорость: 75 токенов/сек 5️⃣ Контекст: 256K токенов через API (меньше, чем у Gemini =1M, но больше, чем у Claude и Openai o3 = 200k)

Доступность и цены:


1️⃣ Grok 4 — подписка SuperGrok за $30/месяц
2️⃣ Grok 4 Heavy — план SuperGrok Heavy за $300/месяц
3️⃣ API доступ с контекстом 256K токенов — $3 за миллион входящих и $15 за миллион исходящих токенов

Контекст релиза 📊

Выпуск новых моделей происходит после критики предыдущей версии Grok 3, которая генерировала неприемлемый контент. xAI продолжает конкурировать с крупными игроками рынка ИИ, используя мощности суперкомпьютера Colossus.

@llm_notes

#grok4 #xai #llm #elonmusk #ai
👍2👎1🤔1
🌐 Perplexity запустила браузер Comet с ИИ-ассистентом

Некоторое время назад писал про Windsurf Browser и упоминал другие агентные браузеры.

Perplexity были в их числе, но тогда они только планировали.
А вчера Perplexity выпустили свой новый браузер Comet, который интегрирует поисковую систему компании с ИИ-ассистентом, способным выполнять автономные задачи.

Основные возможности:

• Ассистент работает в боковой панели и наблюдает за действиями пользователя
• Автоматизация задач: управление электронной почтой и календарем
• "Vibe browse" - навигация по сайтам через естественный язык или голосовые команды
• Совместимость с существующими расширениями и закладками
• Поддержка Mac и Windows

1-минутная демка здесь

Доступность:

1️⃣ Первыми получают доступ подписчики Perplexity Max ($200/месяц) 2️⃣ Остальные пользователи попадают в лист ожидания
3️⃣ Версии для Pro (как раз мой вариант), бесплатных и корпоративных пользователей появятся позже

Контекст релиза:
Chrome долгое время доминировал на рынке браузеров, но отстает в нативной интеграции ИИ-агентов.
Comet, наряду с другими проектами вроде Dia, Genspark, и будущими разработками Opera и OpenAI, делает первые шаги к новому формату взаимодействия пользователя с веб-контентом 🚀 Если в агентный браузер добавить хороший мульти-агентный поиск с использованием browser-use и дополнительные функции по автоматизации работы с документами, кодом и медиа-контентом, то пользователю больше ничего и не нужно будет - он все время будет проводить в этом браузере.

Возможно, Chrome не торопиться становиться нативно agentic браузером поскольку есть такие классные плагины как rtrvr.ai, да и любой мульти-агентный решатель задач типа manus, genspark, flowith.io имеет плагины к chrome. В общем, непонятно чего они ждут, но я бы на их месте напрягся и добавил встроенную агентную функцию.

@llm_notes

#browser #agentic #perplexity #comet #web
13👍2
rtrvr.ai показал лучшие результаты в тестах Web Bench 🚀

Я несколько раз в постах (1|2) уже упоминал вскользь такой инструмент для автономного решения рабочих задач в браузере как rtrvr.ai

Инструмент чрезвычайно эффективный - может почти полностью заменить человека, который работает с браузером (не только по результативности, но и по скорости работы), и имеет возможность запуска задач по расписанию, поэтому хотел бы посвятить ему отдельный пост.

Платформа rtrvr.ai продемонстрировала впечатляющие результаты в бенчмарке Web Bench, достигнув 81,39% успешности выполнения задач при среднем времени выполнения всего 0,9 минуты (см. скриншот).

Ключевые особенности архитектуры 🔧

rtrvr.ai использует локальный подход через Chrome-расширение (также есть расширение для Edge браузера под Windows), работая напрямую с DOM веб-страниц:

• Обход систем защиты от ботов и CAPTCHA
• Использование уже авторизованных сессий пользователя
• Поддержка работы в нескольких вкладках одновременно
• Интеграция пользовательской логики через AI Function Calling (можно добавлять свои инструменты)

Производительность по типам задач 📊

1️⃣ Задачи чтения данных: 88,24% успешности 2️⃣ Операции записи: 65,63% успешности
3️⃣ Средняя стоимость: $0,12 за задачу

Решение проблемы "экспоненциального отказа" ⚡️

Платформа эффективно справляется с усложнением многошаговых процессов благодаря:

• Параллельному выполнению в нескольких вкладках
• Работе с "живым" DOM
• Локальной оркестрации задач

Такой подход имитирует поведение реального пользователя, что значительно снижает количество ошибок при работе с динамическими элементами и сложными формами. Единственно что - по новой открываемой браузерной вкладке требует повторной авторизации, надо еще раз нажимать "ок".

Практическое применение 💼

rtrvr.ai подходит как для индивидуальных пользователей, так и для корпоративного использования, предлагая быструю и доступную автоматизацию веб-задач с минимальной настройкой.

Как и в любом AI-инструменте, эффективность использования сильно зависит от правильной постановки задачи.
Поэтому имеет смысл ознакомиться с лучшими практиками использования и попробовать готовые workflow.

А еще есть классная штука - запись своего workflow, для автоматизации рутины, которую делаешь, но долго или сложно описать словами. Кажется, такая функция сейчас должна работать "из коробки" в любом современном браузере :)

У инструмента есть полнофункциональный Free Tier, который обновляется каждый месяц, поэтому можно потестировать и посмотреть насколько он вам подходит (250 Initial Credits, 100 Credits/Month).

Подробности: https://www.rtrvr.ai/blog/web-bench-results
Записи тестов здесь

@llm_notes

#web #automation #ai #agents #browser #rtrvr
2👍2🔥1
This media is not supported in your browser
VIEW IN TELEGRAM
Amazon запустила Kiro — новую IDE с ИИ-агентами 🚀

ИИ-агентов для написания кода становится все больше :)
Amazon представила собственную среду разработки с искусственным интеллектом под названием Kiro.

Инструмент работает на базе Claude Sonnet 4 и нацелен на решение проблемы перехода от прототипов к готовым к продакшену приложениям.

Ключевые особенности:

• Spec-driven разработка по умолчанию
• Автоматическая генерация технических документов
• Структурированный подход к планированию задач
Бесплатный доступ к Claude 4 в период превью (просто 🔥)

Что отличает Kiro от конкурентов: 📋

🔹 Фокус на спецификациях вместо простого написания кода
🔹 Автоматическое создание документации требований
🔹 Генерация дизайн-документов и списков задач
🔹 Интеграция лучших практик разработки ПО

Возможности системы:

1️⃣ Организация разработки вокруг требований
2️⃣ Создание структурированного рабочего процесса
3️⃣ Поддержка совместной работы команды
4️⃣ Переход от "vibe coding" к production-ready решениям

Лучшие практики использования: ⚡️

Начинайте со спецификаций — используйте режим "Code with Spec" для планирования архитектуры
Настройте steering документы — создайте правила и руководства для ИИ-агента
Используйте хуки для автоматизации — настройте автоматическое обновление документации и управление ассетами
Импортируйте конфигурацию VS Code — сохраните привычную рабочую среду
Настройте MCP серверы — расширьте возможности через Model Context Protocol (настраивается все через json-файл, пока никакого MCP-маркетплейса я не обнаружил)
Работайте с демо-проектом — изучите возможности на примере игры Spirit of Kiro

Kiro представляет собой форк VS Code с улучшенным интерфейсом и дополнительными возможностями. Помимо стандартных функций автодополнения, инструмент предлагает режим "Code with Spec" для планирования реализации и систему хуков для автоматизации задач.

Доступность: 💻
Сейчас Kiro находится в стадии превью и доступна бесплатно. В будущем планируется введение платных тарифов.

🔗 Скачать: https://kiro.dev/downloads/
📚 Документация: https://kiro.dev/docs/guides/learn-by-playing/

Личное мнение:
• для меня основная ценность - бесплатный Claude 4.0 и возможность бесплатно потестировать новый IDE от крупного вендора
• а для того чтобы, взаимодействуя с Claude Code напрямую можно было сильно не напрягаясь структурировать свою работу: генерировать спецификации, тесты и документацию, есть опенсорсные проекты Claude-Code-Development-Kit и SuperClaude
• в отличие от Claude Code Kiro также как и Cursor проксирует обращения к Claude 4.0, поэтому пользоваться им можно со своего ПК без включенного VPN - что удобно

@llm_notes

#kiro #amazon #vibecoding #claude4 #development
Please open Telegram to view this post
VIEW IN TELEGRAM
❤‍🔥732
ChatGPT Agent: новый инструмент для автоматизации задач 🤖

OpenAI представила ChatGPT Agent — он объядиняет возможности Operator и Deep Research в единой системе. Логичный шаг, теперь у Openai есть агент, который может самостоятельно выполнять сложные задачи, используя браузер, терминал и различные API.

Небольшое отступление. По сути, все эти задачи можно решить и без ChatGPT Agent, настроив в любом AI-кодере, у которого есть доступ к терминалу, необходимый набор MCP-серверов, но если серверов много - можно наткнуться на лимиты по количеству инструментов (как наример, в Cursor) или же AI-кодер может просто "запутаться" в количесте MCP-инструментов и начать делать что-то не то. Выход из такого положения тоже есть:
1) поместить инструкции по применению MCP-инструментов в системный промпт (rules-файлы)
2) использовать MCP-агрегаторы со встроенным RAG по списку MCP-инструментов наподобие ACI.DEV (отлично справляется в случае с Cursor, когда есть лимиты на количество MCP-tools, и что круто - этот инструмент может быть установлен локально!)

Судя по всему, сам сценарий использования стал настолько популярен, что Openai решили пойти по пути создания pret-a-porter агента, который в данном контексте выигрывает за счет того, что не требует дополнительной "сборки" и настройки под описанный выше класс задач и будет удобнее для обычного пользователя, который далек от AI-программирования и не хочет вдаваться в детали настройки MCP.

Основные возможности:
• Анализ календаря и подготовка брифингов по встречам
• Планирование покупок и составление списков
• Создание презентаций и анализ конкурентов
• Бронирование и планирование поездок
• Работа с таблицами и документами

Технические особенности: ⚙️
🔹 Визуальный браузер для взаимодействия с веб-интерфейсами
🔹 Текстовый браузер для быстрого анализа контента
🔹 Доступ к терминалу для выполнения кода
🔹 Интеграция с Gmail, Google Calendar, GitHub (я полагаю, что в сравнении с MCP-интеграцией здесь преимущество в безопасности системы, за которую теперь отвечает openai, а не дуэт в составе автора MCP-сервера и команды anthropic, которая пишет спецификацию MCP-протокола)
🔹 Возможность создания презентаций и таблиц (это уже относительно давно есть в manus и genspark)

Результаты тестирования: 📊
1️⃣ Humanity's Last Exam: 41.6% (новый рекорд)
2️⃣ FrontierMath: 27.4% точности
3️⃣ SpreadsheetBench: 45.5% при работе с файлами
4️⃣ BrowseComp: 68.9% (+17.4% к предыдущим результатам)

Безопасность и ограничения: ⚠️
Система требует подтверждения для критических действий и защищена от prompt injection атак. Пользователи могут в любой момент прервать выполнение задачи или взять управление на себя.

Доступность:
• Pro пользователи: 400 запросов/месяц
• Plus и Team: 40 запросов/месяц
• Постепенный запуск в течение нескольких дней

Функция пока недоступна в ЕС и Швейцарии.
Я пока тоже доступ не получил.
Разработчики планируют регулярные улучшения системы.

Полезные ссылки для просмотра:
- Введение в ChatGPT Agent
- Кастомизация ChatGPT Agent

@llm_notes

#chatgpt #agents #openai #automation #productivity
🔥21🤔1
🚀 RAG на практике: создаем ИИ-помощников с нуля

На прошлой неделе я проводил занятие по RAG (Retrieval Augmented Generation) на курсе "Менеджер ИИ-продуктов" в Product University.
Специально к занятию собрал небольшой интерактивный курс по RAG, которым хотел бы поделиться с вами 👉 ссылка

К нему также "прикручен" ИИ-ассистент, который может проконсультировать по вопросам построения предметно-ориентированных вопросно-ответных систем (так по-умному называются ИИ-помощники :)

Что делали на практике:
• ИИ-помощники через OpenAI Assistant API
• ИИ-помощник на базе Yandex AI Assistant
• Flowse AI Assistant с векторной БД Pinecone
• Agent Flow Canvas

ИИ-помощник "прикручивался" к клону странички курса по AI-программированию (оригинал здесь) и тестировался вопросами по содержанию курса.

🔥 Приятное открытие: уже созданный OpenAI Assistant API можно просто загрузить во Flowise через OpenAI креды, затем выложить на Chatflow Canvas и опубликовать с крутыми опциями:

▫️ Rate Limit для безопасного инференса
▫️ Контроль адресатов подключения
▫️ Сбор и мониторинг обратной связи
▫️ Генерация лидов

💡 Преимущество Flowise: сразу получаешь рабочий код для виджета, который можно разместить на своем сайте. Именно им я и воспользовался, когда "прикручивал" ИИ-помощника к посадочной странице курса по RAG.

Тестирование AI-кодеров:
1️⃣ Lovable - справился с клонированием сайта по URL, но виджет от Flowise самостоятельно и без ошибок добавить не смог 😅 Пришлось вручную править код.
2️⃣ Bolt.new - выполнил задачу с первого раза! 💪 В bolt, кстати, появился режим "Discussion", который можно использовать для планирования изменений и создания "Implementation Plan", также добавилась встроенная библиотека промптов, в общем, инструмент меня неожиданно порадовал 😄

Именно на bolt.new я собрал финальную версию интерактивного курса по RAG.
К слову, lovable и здесь лажанулся: как я его ни уговаривал, он так и не смог сделать кликабельными ссылки на модули курса, пришлось даже пригрозить, что если он не решит задачу с очередной (пятой по счету) попытки, то я больше не будут им пользоваться - но все равно не помогло 😄

🏆 Yandex AI Assistant показал себя отлично - единственный понял, что в задаваемых вопросах слово "поток" означает "поток курса", остальные ассистенты упрямо писали, что вопрос не относится к курсам 😄

Полезный лайфхак: Flowise теперь можно развернуть из Yandex Cloud Marketplace и использовать YandexGPT через официальный OpenAI-совместимый API ! Так можно получить полностью локализованную в РФ версию ИИ-помощника, данные которого хранятся в инфраструктуре, которая выполняет требования ФЗ-152.

⚠️ Когда будете разворачивать flowise в Яндекс Облаке, то имейте ввиду, что дефолтная группа безопасности не открывает доступ по порту TCP 3000, поэтому применяйте кастомную группу с настройками permit any any, иначе не сможете подключиться по веб-интерфейсу к flowise.

@llm_notes

#rag #aiassistants #flowise #yandexgpt #lovable #bolt #openai
🔥54
Media is too big
VIEW IN TELEGRAM
Qwen3-Code: новый конкурент Claude Code 🚀

Alibaba выпустила Qwen3-Code — модель для программирования с 480 миллиардами параметров (35 млрд активных). Модель поддерживает контекст до 256K токенов нативно и до 1M через экстраполяцию.

Ключевые особенности:
• Mixture of Experts архитектура
• Обучена на 7.5 триллионах токенов (70% код)
• Поддержка агентных задач: кодирование, браузер, инструменты
• Производительность сравнима с Claude Sonnet 4

Инструменты разработки: 🛠

1️⃣ Qwen Code — CLI инструмент (форк Gemini Code)
2️⃣ Интеграция с Claude Code — через API совместимость (подробности в блоге по ссылке)
3️⃣ Поддержка в Cline

Результаты тестирования:
SWE-Bench Verified: выше Kimi K2 (которая при в 4-5 раз меньшей стоимости показывает результаты всего лишь немного хуже, чем Claude Sonnet 4), ниже Sonnet 4
• Хорошо справляется с задачами, где требуется использование внешних инструментов (tools)
• Более лаконичные ответы по сравнению с Kimi

Доступность и цены: 💰

Бесплатно: chat.qwen.ai
Дешево: Hyperbolic ($2), Parasail ($2-$3.5) - через openrouter.ai
Дорого: официальный API ($6-60 за 1M токенов) и из РФ не так то просто завести учетку на alibabacloud (нужна не только карточка иностранного банка, но и иностранный мобильный номер при регистрации)

Ограничения:
• Пока доступна только большая модель (480B)
• Контекст 256K (больше, чем у Claude)
• Спорные результаты бенчмарков от разработчиков

Установка Qwen Code:

npm i -g @qwen-code/qwen-code


Модель показывает хорошие результаты в задачах AI-программирования, но требует осторожности при выборе провайдера API из-за разброса цен 📊
Теперь в случае когда Claude Sonnet сбоит (как это было на прошлой неделе), у нас есть неплохая замена: Qwen3-code и Kimi-2 (оба варианта можно использовать в Claude Code)

@llm_notes

#qwen #vibecoding #llm #programming #opensource
1👍6
Заметки LLM-энтузиаста
#info #ai #tools Друзья, всем привет! Есть возможность очень сильно сэкономить на AI-инструментах, воспользовавшись вот этим офером https://www.lennysnewsletter.com/p/an-unbelievable-offer-now-get-one $200 за годовую подписку на 10 классных AI-инструментов…
🔥 Скидка на AI-инструменты возвращается!

Коллеги, всем привет! 👋

Для тех кто в апреле пропустил скидку на подписку на AI-инструменты есть возможность воспользоваться ей сейчас (https://www.lennysnewsletter.com/p/productpass)

💰 $200 или $350 за годовую подписку на 16 классных AI-инструментов (как правило, годовая подписка на 1-2 инструмента из списка стоит либо столько же, либо дороже)

Из апрельского списка "ушли" такие инструменты как v0, Cursor, Granola и Notion, но зато добавились такие интересные инструменты как:

🔧 n8n (https://n8n.io/) - самый популярный no-code инструмент для автоматизации процессов (я немного писал про работу с ним здесь и тут)

⚡️ Warp (https://www.warp.dev/) - кросс-платформенная агентная среда разработки, написанная на Rust (аналог Claude Code или Gemini CLI, но со своим UI)

🎨 Magic Patterns (https://www.magicpatterns.com/) - AI-инструмент для быстрого создания UI-прототипов, поддерживает командную работу и позиционируется для продуктовых команд

📋 ChatPRD (https://www.chatprd.ai/) - AI-инструмент для продукт-менеджеров, помогает создавать качественные PRDs (Product Requirement Document). Замечу, что для AI-программирования с моей точки зрения больше подойдет https://www.codeguide.dev/

🎬 Descript (https://www.descript.com/) - комплексная платформа для создания и редактирования видео и подкастов, которая использует AI для упрощения процесса создания контента

📊 Gamma (https://gamma.app/) - AI-инструмент для быстрого создания презентаций, документов и визуального контента

📱 Mobbin (https://mobbin.com/) - крупнейшая онлайн-библиотека UI/UX-паттернов и справочных материалов для дизайнеров и продуктовых команд. Бесплатные аналоги: https://dribbble.com/ и https://21st.dev/home (писал про него здесь)

🎤 Wispr Flow (https://wisprflow.ai/) - классный инструмент для транскрибации голоса в текст для мака, сам регулярно им пользуюсь при работе с AI-кодерами. У него есть бесплатный тир, которого при умеренном использовании может хватить

🔍 Raycast (https://www.raycast.ai/) - как я понял, это такой ИИ-помощник для мака: умный поиск, администрирование (можно дать ему доступ к календарю и файлам/папкам) и тому подобные вещи, похоже на AI-OS плагин. Скачивается только через VPN.

⚠️ Условия такие же: надо быть новым клиентом по выбранному продукту и не мешкать с активацией ключей. Если, конечно, не возьмете insider подписку за $350 - по ней пишут, что доступ к подпискам гарантированный.

Для тех кто уже как я оформлял подписку офер также действует - можно им воспользоваться на новые продукты из списка, но в связи со всплеском трафика соответствующая страничка (https://lennysproductpass.com/) недоступна

Главное через год не забыть отключить подписку, чтобы не получить продление по полной стоимости.

@llm_notes

#ai #tools #discount #productivity #automation #nocode
2👍2