Заметки LLM-энтузиаста
390 subscribers
125 photos
14 videos
1 file
150 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и LLM-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
#openai #o3mini #coding

Как видно, o3-mini пишет код лучше, чем o1 и тем более чем o1-mini
Источник здесь
#cursor #coding #keylearning #insights

Предыстория

Вчера в очередной раз делал gpt-телеграмм бота и столкнулся с достаточно длительным циклом траблшутинга, который за 15 итераций деплоя на railway.app не привел к рабочему результату.

в секции Project Overview технического задания было записано
gpt telegram bot which  works with text, images and voice for input/output and supports threads and streaming mode

также я в этот раз решил добавить в Core functionalities информацию о том, как бот будет работать с "голосом" - чтобы Cursor сделал мульти-модального gpt-бота "за один присест".
И пара часов траблшутинга пролетели незаметно :)

Поскольку в AI-кодинге, как и в трейдинге, мы работаем с вероятностями, то здесь важно вовремя "зафиксировать убыток" и перестать вязнуть в "петле AI диагностики"

Как только я убрал из Core functionalities всякое упоминание о том, что мне нужны STT/TTS функции и запустил абсолютно такой же процесс генерации кода в отдельной сессии Cursor Agent Composer - первая рабочая версия бота у меня получилась за 20 минут.
Далее пошел приятный процесс проверки работы отдельных опций и исправления неточностей.

После того как все по ТЗ было сделано, я решил вместо STT/TTS добавить проверку валидности пользователей, групп и админские команды для обслуживания бота.
На это ушло примерно полтора часа, и на каждом шаге я видел улучшение результата работы.
Финальный результат по набору доступных функций можно наблюдать на скриншоте.

Выводы
1) Для получения первых видимых результатов не стоит в ТЗ на AI-разработку добавлять сразу весь набор возможных функций.
2) Лучше сразу выделить основные и дополнительные функции. В моем случае STT/TTS - был реально не нужен, т.к. телеграм premium и так данную задачу решает.
3) На дополнительные функции можно написать отдельное ТЗ. Далее воспользоваться Composer агентом и в итеративном режиме постепенно добавлять новые функции и сразу проверять как они работают.
Именно так я поступил во втором подходе к задаче и получил удовольствие от процесса.
#cursor #ai #dev #v0 #heyboss #bolt #replit #lovable #tools #batle

🎨 Битва AI-помощников: Создаем генератор мемов

Привет, друзья!

Сегодня расскажу о захватывающем эксперименте, который мы провели вчера, и где сравнили 5 популярных AI-инструментов для AI-разработки, пытаясь создать веб-приложение для генерации мемов "MemeForge" 🚀

🏆 Рейтинг по результатам:

v0.dev - Чемпион по скорости! Первым выдал рабочий интерфейс с функционалом загрузки изображений и добавления текста. Правда, с AI-генерацией мемов пришлось повозиться, и помог нам в этом Cursor! 🔗 Попробовать MemeForge от v0.dev

heyboss - Серебряный призер и единственный, где AI-генерация мемов заработала "из коробки". Причем даже не потребовала добавления API-ключа! 🎉 🔗 Попробовать MemeForge от heyboss (в этом примере свой API-ключ вводить обязательно)

bolt.new - Бронзовый призер по скорости, но с ограниченным функционалом. Текст на картинках так и не заработал 😅 Уверен, что Cursor исправил бы данный недостаток, но время было ограничено (всего 2 часа на 5 вариантов решения), поэтому оставили как есть. 🔗 Попробовать MemeForge от bolt.new

replit agent - Темная лошадка! Хоть и не самый быстрый, но единственный, где удалось довести до ума все функции без дополнительных инструментов 💪 Отличная нативно-облачная альтернатива Cursor Composer Agent для небольших проектов! 🔗 Попробовать MemeForge от replit agent

lovable.dev - Интересный случай! Мой изначальный фаворит, но в этом "забеге" мне не удалось получить рабочую версию проекта. Возможно, из-за того, что вместо Openai API я вдруг решил попробовать интеграцию с runware.ai, с которой ни lovable, ни Cursor в отведенное время не справились. 🔧 🔗 Посмотреть прототип на lovable.dev (с Openai)

💡 Вывод:
Каждый инструмент показал свои сильные и слабые стороны. Для быстрого прототипа лучше всего подошел - v0.dev, быстрее всего реализовал AI функциональность - heyboss, а для полного контроля над проектом идеально подошел replit agent. Практически все инструменты кроме replit agent потребовали доработки кода в Cursor.

А какой инструмент выбрали бы вы? 🤔

#AIdev #webdev #coding #memes #технологии
#cursor #ai #dev #heyboss #bolt #replit #lovable #trae #battle

🎨🤖 Битва AI-помощников: создаем финансовый дашборд 📊

👋 Привет, друзья!

🔬 Сегодня расскажу о новом эксперименте: на прошлом занятии курса по Cursor протестировали 6 разных AI-инструментов для разработки, создавая дашборд для мониторинга личных финансов.

📝 Вводная информация:
Идея проекта: создать веб-дашборд личных финансов для визуального анализа данных из Excel-таблицы.

🎯 Начали с Cursor по методике Plan-Plan-Act:

📋 Сформировали контуры ТЗ
📑 Разработали полное ТЗ
💻 Написали код

🛠 Технические детали первой версии:
🐍 Язык: Python
🌐 Веб-интерфейс: Streamlit

🔗 Полезные ссылки:
📦 Код: https://github.com/dzhechko/pu-finance-dashboard
🚀 Приложение: https://pu-finance-dashboard-production.up.railway.app/
📊 Тестовые данные: https://disk.yandex.ru/i/LoYazgIq82XYgA

🔄 После успешного эксперимента с Cursor решили пойти дальше и протестировать другие AI-помощники.
Для более современного подхода сменили стек технологий на:
⚡️ Next.js
🎨 Tailwind CSS
🎯 shadcn/ui

📊 Тестовые данные можно брать здесь

🏆 Лидеры гонки:

1️⃣ Lovable.dev
Быстрый старт
Рабочий проект с первой попытки
⚠️ Небольшая доработка UI для графиков
➡️ Результат: y-money-mosaic (исходники тут)


2️⃣ Bolt.new
Стабильная работа "из коробки"
Отличная интеграция с Supabase
Минимум проблем
⚠️ Консервативный дизайн
➡️ Результат: Personal Finance Dashboard

3️⃣ Replit Agent
Спокойный процесс разработки
Понятный траблшутинг
⚠️ Проблемы с графиками
➡️ Результат: Replit Finance Dashboard

😐 Середнячки и аутсайдеры:

🔸 Heyboss
Проблемы с аутентификацией на этапе тестирования
Быстрая генерация функций
⚠️ Нужна доработка кода и лучше ее делать в Cursor, т.к на небольшие изменения кредиты расходуются быстро.
➡️ Результат: Heyboss Finance Dashboard

🔸 Trae
Нет рабочего кода
Неэффективный траблшутинг

💡 Основные выводы:
🥇 Lovable и Bolt - лучшие для быстрых прототипов
🏃‍♂️ Replit Agent - для спокойной разработки
📋 Для успеха очень важно иметь четкое ТЗ перед стартом
⚠️ Не все AI-инструменты одинаково полезны

#AIdev #webdev #coding #dashboard #finance #tech #programming
Claude 4: Новое поколение AI-моделей от Anthropic 🚀

Как и ожидалось компания Anthropic представила новое поколение своих языковых моделей: Claude Opus 4 и Claude Sonnet 4. Обе модели устанавливают новые стандарты в программировании, аналитическом мышлении и автономной работе.

Ключевые особенности новых моделей 🔍

• Расширенное мышление с использованием инструментов (бета): Обе модели могут использовать инструменты, такие как веб-поиск, во время процесса мышления, чередуя рассуждения и применение инструментов для улучшения ответов.

• Новые возможности: Модели могут использовать инструменты параллельно, точнее следовать инструкциям и демонстрируют значительно улучшенные возможности памяти при доступе к локальным файлам.

• Claude Code теперь общедоступен: После положительных отзывов во время тестирования, Claude Code теперь поддерживает фоновые задачи через GitHub Actions и имеет нативные интеграции с VS Code и JetBrains.

• Новые возможности API: Выпущены четыре новые функции для API Anthropic, которые позволяют разработчикам создавать более мощных AI-агентов.

Характеристики моделей 💻

Claude Opus 4 — самая мощная модель компании на сегодняшний день и, по их заявлению, лучшая модель для программирования в мире. Она лидирует в бенчмарках SWE-bench (72,5%) и Terminal-bench (43,2%). Модель способна поддерживать высокую производительность на длительных задачах, требующих сосредоточенных усилий и тысяч шагов, с возможностью непрерывной работы в течение нескольких часов.

Claude Sonnet 4 значительно улучшает возможности Sonnet 3.7, демонстрируя впечатляющие результаты в программировании с показателем 72,7% на SWE-bench. Модель обеспечивает оптимальное сочетание возможностей и практичности.

Доступность и цены 💰

Обе модели доступны в двух режимах: мгновенные ответы и расширенное мышление для более глубоких рассуждений. Планы Pro, Max, Team и Enterprise включают обе модели и расширенное мышление, а Sonnet 4 также доступен бесплатным пользователям.

Модели доступны через API Anthropic, Amazon Bedrock и Google Cloud's Vertex AI. Цены остаются на уровне предыдущих моделей:
1️⃣ Opus 4: $15/$75 за миллион токенов (ввод/вывод)
2️⃣ Sonnet 4: $3/$15 за миллион токенов

В Cursor уже доступны обе модели (см. скриншот)

Улучшения в моделях 🛠

Помимо расширенного мышления с использованием инструментов, параллельного выполнения инструментов и улучшений памяти, компания значительно снизила вероятность использования моделями shortcuts (ярлыки) или loopholes (лазейки) для выполнения задач. Обе модели на 65% реже демонстрируют такое поведение по сравнению с Sonnet 3.7.

Claude Opus 4 также значительно превосходит все предыдущие модели по возможностям памяти. При доступе к локальным файлам Opus 4 умело создает и поддерживает "файлы памяти" для хранения ключевой информации, что обеспечивает лучшую осведомленность о долгосрочных задачах и согласованность.

#ai #claude #anthropic #llm #coding
Фоновые агенты Cursor: новый инструмент для разработчиков 🚀

Cursor представил новую функцию — Background Agent (Фоновый агент), которая сейчас находится в стадии предварительного тестирования и постепенно становится доступной ограниченному кругу пользователей.

Что такое Фоновый агент? 🤔

Это инструмент, позволяющий запускать несколько агентов Cursor параллельно на удаленной виртуальной машине. Вы можете поручить им разные задачи, а сами в это время заниматься другими делами.

В отличие от обычного агента Cursor, фоновый агент позволяет запускать несколько задач одновременно без необходимости ждать — вы просто просматриваете код после его выполнения, как если бы наняли команду разработчиков.

Ключевые возможности: 💻

• Выполнение сложных задач в удаленных контейнеризированных средах
• Поддержка нескольких агентов, выполняющих разные задачи параллельно
• Автоматическое создание PR и уведомление пользователей по завершении задачи
• Полная автономность без необходимости человеческого контроля или пошагового подтверждения

Варианты использования: 📋

Фоновый агент может быть полезен для различных задач, например, таких как:
• Исправление четко определенных ошибок
• Создание небольших и хорошо определенных функций
• Рефакторинг кода для улучшения структуры
• Генерация полной документации или API-справочников

Как использовать: 🛠

1️⃣ Нажмите Cmd + ' (или Ctrl + ') для открытия списка фоновых агентов с возможностью создать новый
2️⃣ После отправки запроса нажмите Cmd + ; (или Ctrl + ;) для просмотра статуса и входа в машину, на которой работает агент

Важные примечания: ⚠️

• Для использования фоновых агентов необходимо отключить режим конфиденциальности
• Требуется настройка среды через файл .cursor/environment.json
• Необходимо предоставить доступ к GitHub для клонирования и изменения репозитория
• Доступны только модели, совместимые с Max Mode (рекомендуется o3) - поэтому будьте готовы к возможному перерасходу токенов и денежных средств (чуть раньше писал про Max Mode на примере Claude Sonnet 3.7, впечатляет, что в этом режиме доступно до 200 последовательных вызовов агента без подтверждения)

Хотя технология еще не идеальна, она позволяет ускорить ИИ разработку (за дополнительную стоимость).

#cursor #ai_development #background_agent #coding_tools #developer_productivity
Cursor 1.0: обзор ключевых обновлений 🚀

Вышла новая версия популярного AI-редактора кода Cursor 1.0.
Разберем долгожданные нововведения, которые могут быть полезны разработчикам.

BugBot — инструмент для автоматического ревью кода 🔍
Новый инструмент анализирует pull request'ы и находит потенциальные баги. При обнаружении проблем BugBot оставляет комментарии в GitHub с кнопкой "Fix in Cursor" для быстрого перехода к исправлению.

Упрощенная установка MCP серверов ⚡️ (наконец-то!)
• Установка MCP серверов теперь происходит в один клик
• Добавлена поддержка OAuth для аутентификации
• Доступен список официальных серверов в документации
Разработчики могут создавать кнопки "Add to Cursor" для своих проектов

Background Agent для всех пользователей! 🤖
Фоновый агент для кодирования стал доступен всем пользователям. Запуск через иконку облака в чате или комбинацию Cmd/Ctrl+E (для пользователей без режима приватности).

Поддержка Jupyter Notebooks 📊
Agent теперь может создавать и редактировать ячейки в Jupyter Notebooks. Функция работает с моделями Sonnet и особенно полезна для исследований и data science задач.

Memories Beta — память контекста 🧠
Новая функция позволяет Cursor запоминать факты из разговоров и использовать их в будущем. Воспоминания сохраняются на уровне проекта и управляются через настройки. Похожая функция существует в Windsurf уже давно, я рад, что Cursor тоже ее реализовали.

Улучшенные ответы в чате 📈
• Поддержка диаграмм Mermaid
• Рендеринг Markdown таблиц
• Визуализация данных прямо в разговоре

Обновленный интерфейс

Переработаны страницы настроек и дашборда с детальной аналитикой использования по инструментам и моделям.

Подробнее здесь

#cursor #ai #coding #development #tools