Заметки LLM-энтузиаста

#openai #o3mini #coding

Как видно, o3-mini пишет код лучше, чем o1 и тем более чем o1-mini
Источник здесь

👍2💯1

60 viewsedited 10:02

#cursor #coding #keylearning #insights

Предыстория

Вчера в очередной раз делал gpt-телеграмм бота и столкнулся с достаточно длительным циклом траблшутинга, который за 15 итераций деплоя на railway.app не привел к рабочему результату.

в секции Project Overview технического задания было записано

gpt telegram bot which  works with text, images and voice for input/output and supports threads and streaming mode

также я в этот раз решил добавить в Core functionalities информацию о том, как бот будет работать с "голосом" - чтобы Cursor сделал мульти-модального gpt-бота "за один присест".
И пара часов траблшутинга пролетели незаметно :)

Поскольку в AI-кодинге, как и в трейдинге, мы работаем с вероятностями, то здесь важно вовремя "зафиксировать убыток" и перестать вязнуть в "петле AI диагностики"

Как только я убрал из Core functionalities всякое упоминание о том, что мне нужны STT/TTS функции и запустил абсолютно такой же процесс генерации кода в отдельной сессии Cursor Agent Composer - первая рабочая версия бота у меня получилась за 20 минут.
Далее пошел приятный процесс проверки работы отдельных опций и исправления неточностей.

После того как все по ТЗ было сделано, я решил вместо STT/TTS добавить проверку валидности пользователей, групп и админские команды для обслуживания бота.
На это ушло примерно полтора часа, и на каждом шаге я видел улучшение результата работы.
Финальный результат по набору доступных функций можно наблюдать на скриншоте.

Выводы
1) Для получения первых видимых результатов не стоит в ТЗ на AI-разработку добавлять сразу весь набор возможных функций.
2) Лучше сразу выделить основные и дополнительные функции. В моем случае STT/TTS - был реально не нужен, т.к. телеграм premium и так данную задачу решает.
3) На дополнительные функции можно написать отдельное ТЗ. Далее воспользоваться Composer агентом и в итеративном режиме постепенно добавлять новые функции и сразу проверять как они работают.
Именно так я поступил во втором подходе к задаче и получил удовольствие от процесса.

👍3❤2✍1

143 viewsedited 11:00

Заметки LLM-энтузиаста

#cursor #ai #dev #v0 #heyboss #bolt #replit #lovable #tools #batle

🎨 Битва AI-помощников: Создаем генератор мемов

Привет, друзья!

Сегодня расскажу о захватывающем эксперименте, который мы провели вчера, и где сравнили 5 популярных AI-инструментов для AI-разработки, пытаясь создать веб-приложение для генерации мемов "MemeForge" 🚀

🏆 Рейтинг по результатам:

v0.dev - Чемпион по скорости! Первым выдал рабочий интерфейс с функционалом загрузки изображений и добавления текста. Правда, с AI-генерацией мемов пришлось повозиться, и помог нам в этом Cursor! 🔗 Попробовать MemeForge от v0.dev

heyboss - Серебряный призер и единственный, где AI-генерация мемов заработала "из коробки". Причем даже не потребовала добавления API-ключа! 🎉 🔗 Попробовать MemeForge от heyboss (в этом примере свой API-ключ вводить обязательно)

bolt.new - Бронзовый призер по скорости, но с ограниченным функционалом. Текст на картинках так и не заработал 😅 Уверен, что Cursor исправил бы данный недостаток, но время было ограничено (всего 2 часа на 5 вариантов решения), поэтому оставили как есть. 🔗 Попробовать MemeForge от bolt.new

replit agent - Темная лошадка! Хоть и не самый быстрый, но единственный, где удалось довести до ума все функции без дополнительных инструментов 💪 Отличная нативно-облачная альтернатива Cursor Composer Agent для небольших проектов! 🔗 Попробовать MemeForge от replit agent

lovable.dev - Интересный случай! Мой изначальный фаворит, но в этом "забеге" мне не удалось получить рабочую версию проекта. Возможно, из-за того, что вместо Openai API я вдруг решил попробовать интеграцию с runware.ai, с которой ни lovable, ни Cursor в отведенное время не справились. 🔧 🔗 Посмотреть прототип на lovable.dev (с Openai)

💡 Вывод:
Каждый инструмент показал свои сильные и слабые стороны. Для быстрого прототипа лучше всего подошел - v0.dev, быстрее всего реализовал AI функциональность - heyboss, а для полного контроля над проектом идеально подошел replit agent. Практически все инструменты кроме replit agent потребовали доработки кода в Cursor.

А какой инструмент выбрали бы вы? 🤔

#AIdev #webdev #coding #memes #технологии

v0.app

v0 by Vercel

Your collaborative AI assistant to design, iterate, and scale full-stack applications for the web.

❤2👍2🔥1

184 viewsedited 13:14

Заметки LLM-энтузиаста

#cursor #ai #dev #heyboss #bolt #replit #lovable #trae #battle

🎨🤖 Битва AI-помощников: создаем финансовый дашборд 📊

👋 Привет, друзья!

🔬 Сегодня расскажу о новом эксперименте: на прошлом занятии курса по Cursor протестировали 6 разных AI-инструментов для разработки, создавая дашборд для мониторинга личных финансов.

📝 Вводная информация:
Идея проекта: создать веб-дашборд личных финансов для визуального анализа данных из Excel-таблицы.

🎯 Начали с Cursor по методике Plan-Plan-Act:

• 📋 Сформировали контуры ТЗ
• 📑 Разработали полное ТЗ
• 💻 Написали код

🛠 Технические детали первой версии:
• 🐍 Язык: Python
• 🌐 Веб-интерфейс: Streamlit

🔗 Полезные ссылки:
• 📦 Код: https://github.com/dzhechko/pu-finance-dashboard
• 🚀 Приложение: https://pu-finance-dashboard-production.up.railway.app/
• 📊 Тестовые данные: https://disk.yandex.ru/i/LoYazgIq82XYgA

🔄 После успешного эксперимента с Cursor решили пойти дальше и протестировать другие AI-помощники.
Для более современного подхода сменили стек технологий на:
• ⚡️ Next.js
• 🎨 Tailwind CSS
• 🎯 shadcn/ui

📊 Тестовые данные можно брать здесь

🏆 Лидеры гонки:

1️⃣ Lovable.dev
✨ Быстрый старт
✨ Рабочий проект с первой попытки
⚠️ Небольшая доработка UI для графиков
➡️ Результат: y-money-mosaic (исходники тут)

2️⃣ Bolt.new
✨ Стабильная работа "из коробки"
✨ Отличная интеграция с Supabase
✨ Минимум проблем
⚠️ Консервативный дизайн
➡️ Результат: Personal Finance Dashboard

3️⃣ Replit Agent
✨ Спокойный процесс разработки
✨ Понятный траблшутинг
⚠️ Проблемы с графиками
➡️ Результат: Replit Finance Dashboard

😐 Середнячки и аутсайдеры:

🔸 Heyboss
❌ Проблемы с аутентификацией на этапе тестирования
✅ Быстрая генерация функций
⚠️ Нужна доработка кода и лучше ее делать в Cursor, т.к на небольшие изменения кредиты расходуются быстро.
➡️ Результат: Heyboss Finance Dashboard

🔸 Trae
❌ Нет рабочего кода
❌ Неэффективный траблшутинг

💡 Основные выводы:
• 🥇 Lovable и Bolt - лучшие для быстрых прототипов
• 🏃‍♂️ Replit Agent - для спокойной разработки
• 📋 Для успеха очень важно иметь четкое ТЗ перед стартом
• ⚠️ Не все AI-инструменты одинаково полезны

#AIdev #webdev #coding #dashboard #finance #tech #programming

productuniversity.ru

Cursor. AI-программироание и ИИ-агенты. Ускоряем разработки и создание прототипов. 8 проектов за 8 недель c помощью ИИ-ассистентов.…

Курс по «вайб-кодингу» и основам основам создания IT-приложений с AI-ассистентами

❤3👍3🔥2

246 viewsedited 20:12

Заметки LLM-энтузиаста

Claude 4: Новое поколение AI-моделей от Anthropic 🚀

Как и ожидалось компания Anthropic представила новое поколение своих языковых моделей: Claude Opus 4 и Claude Sonnet 4. Обе модели устанавливают новые стандарты в программировании, аналитическом мышлении и автономной работе.

Ключевые особенности новых моделей 🔍

• Расширенное мышление с использованием инструментов (бета): Обе модели могут использовать инструменты, такие как веб-поиск, во время процесса мышления, чередуя рассуждения и применение инструментов для улучшения ответов.

• Новые возможности: Модели могут использовать инструменты параллельно, точнее следовать инструкциям и демонстрируют значительно улучшенные возможности памяти при доступе к локальным файлам.

• Claude Code теперь общедоступен: После положительных отзывов во время тестирования, Claude Code теперь поддерживает фоновые задачи через GitHub Actions и имеет нативные интеграции с VS Code и JetBrains.

• Новые возможности API: Выпущены четыре новые функции для API Anthropic, которые позволяют разработчикам создавать более мощных AI-агентов.

Характеристики моделей 💻

Claude Opus 4 — самая мощная модель компании на сегодняшний день и, по их заявлению, лучшая модель для программирования в мире. Она лидирует в бенчмарках SWE-bench (72,5%) и Terminal-bench (43,2%). Модель способна поддерживать высокую производительность на длительных задачах, требующих сосредоточенных усилий и тысяч шагов, с возможностью непрерывной работы в течение нескольких часов.

Claude Sonnet 4 значительно улучшает возможности Sonnet 3.7, демонстрируя впечатляющие результаты в программировании с показателем 72,7% на SWE-bench. Модель обеспечивает оптимальное сочетание возможностей и практичности.

Доступность и цены 💰

Обе модели доступны в двух режимах: мгновенные ответы и расширенное мышление для более глубоких рассуждений. Планы Pro, Max, Team и Enterprise включают обе модели и расширенное мышление, а Sonnet 4 также доступен бесплатным пользователям.

Модели доступны через API Anthropic, Amazon Bedrock и Google Cloud's Vertex AI. Цены остаются на уровне предыдущих моделей:
1️⃣ Opus 4: $15/$75 за миллион токенов (ввод/вывод)
2️⃣ Sonnet 4: $3/$15 за миллион токенов

В Cursor уже доступны обе модели (см. скриншот)

Улучшения в моделях 🛠

Помимо расширенного мышления с использованием инструментов, параллельного выполнения инструментов и улучшений памяти, компания значительно снизила вероятность использования моделями shortcuts (ярлыки) или loopholes (лазейки) для выполнения задач. Обе модели на 65% реже демонстрируют такое поведение по сравнению с Sonnet 3.7.

Claude Opus 4 также значительно превосходит все предыдущие модели по возможностям памяти. При доступе к локальным файлам Opus 4 умело создает и поддерживает "файлы памяти" для хранения ключевой информации, что обеспечивает лучшую осведомленность о долгосрочных задачах и согласованность.

#ai #claude #anthropic #llm #coding

👍3❤1🔥1

250 views20:56

Заметки LLM-энтузиаста

Фоновые агенты Cursor: новый инструмент для разработчиков 🚀

Cursor представил новую функцию — Background Agent (Фоновый агент), которая сейчас находится в стадии предварительного тестирования и постепенно становится доступной ограниченному кругу пользователей.

Что такое Фоновый агент? 🤔

Это инструмент, позволяющий запускать несколько агентов Cursor параллельно на удаленной виртуальной машине. Вы можете поручить им разные задачи, а сами в это время заниматься другими делами.

В отличие от обычного агента Cursor, фоновый агент позволяет запускать несколько задач одновременно без необходимости ждать — вы просто просматриваете код после его выполнения, как если бы наняли команду разработчиков.

Ключевые возможности: 💻

• Выполнение сложных задач в удаленных контейнеризированных средах
• Поддержка нескольких агентов, выполняющих разные задачи параллельно
• Автоматическое создание PR и уведомление пользователей по завершении задачи
• Полная автономность без необходимости человеческого контроля или пошагового подтверждения

Варианты использования: 📋

Фоновый агент может быть полезен для различных задач, например, таких как:
• Исправление четко определенных ошибок
• Создание небольших и хорошо определенных функций
• Рефакторинг кода для улучшения структуры
• Генерация полной документации или API-справочников

Как использовать: 🛠

1️⃣ Нажмите Cmd + ' (или Ctrl + ') для открытия списка фоновых агентов с возможностью создать новый
2️⃣ После отправки запроса нажмите Cmd + ; (или Ctrl + ;) для просмотра статуса и входа в машину, на которой работает агент

Важные примечания: ⚠️

• Для использования фоновых агентов необходимо отключить режим конфиденциальности
• Требуется настройка среды через файл .cursor/environment.json
• Необходимо предоставить доступ к GitHub для клонирования и изменения репозитория
• Доступны только модели, совместимые с Max Mode (рекомендуется o3) - поэтому будьте готовы к возможному перерасходу токенов и денежных средств (чуть раньше писал про Max Mode на примере Claude Sonnet 3.7, впечатляет, что в этом режиме доступно до 200 последовательных вызовов агента без подтверждения)

Хотя технология еще не идеальна, она позволяет ускорить ИИ разработку (за дополнительную стоимость).

#cursor #ai_development #background_agent #coding_tools #developer_productivity

❤2👍2

337 views06:59

Заметки LLM-энтузиаста

0:15

This media is not supported in your browser

VIEW IN TELEGRAM

0:07

This media is not supported in your browser

VIEW IN TELEGRAM

Cursor 1.0: обзор ключевых обновлений 🚀

Вышла новая версия популярного AI-редактора кода Cursor 1.0.
Разберем долгожданные нововведения, которые могут быть полезны разработчикам.

BugBot — инструмент для автоматического ревью кода 🔍
Новый инструмент анализирует pull request'ы и находит потенциальные баги. При обнаружении проблем BugBot оставляет комментарии в GitHub с кнопкой "Fix in Cursor" для быстрого перехода к исправлению.

Упрощенная установка MCP серверов ⚡️ (наконец-то!)
• Установка MCP серверов теперь происходит в один клик
• Добавлена поддержка OAuth для аутентификации
• Доступен список официальных серверов в документации
• Разработчики могут создавать кнопки "Add to Cursor" для своих проектов

Background Agent для всех пользователей! 🤖
Фоновый агент для кодирования стал доступен всем пользователям. Запуск через иконку облака в чате или комбинацию Cmd/Ctrl+E (для пользователей без режима приватности).

Поддержка Jupyter Notebooks 📊
Agent теперь может создавать и редактировать ячейки в Jupyter Notebooks. Функция работает с моделями Sonnet и особенно полезна для исследований и data science задач.

Memories Beta — память контекста 🧠
Новая функция позволяет Cursor запоминать факты из разговоров и использовать их в будущем. Воспоминания сохраняются на уровне проекта и управляются через настройки. Похожая функция существует в Windsurf уже давно, я рад, что Cursor тоже ее реализовали.

Улучшенные ответы в чате 📈
• Поддержка диаграмм Mermaid
• Рендеринг Markdown таблиц
• Визуализация данных прямо в разговоре

Обновленный интерфейс ✨
Переработаны страницы настроек и дашборда с детальной аналитикой использования по инструментам и моделям.

Подробнее здесь

#cursor #ai #coding #development #tools

❤3👍1

362 views08:41

Заметки LLM-энтузиаста

Новые инструменты Replit Agent: веб-поиск, расширенное мышление и высокопроизводительный режим 🚀

Отличные новости для тех, кто как и я любит пользоваться Replit (много раз писал об этом инструменте для вайбкодинга, можно найти на канале по хэш-тегу #replit) для быстрого прототипирования стильных full-stack приложений.
Дизайн получается "из коробки" красивым, GUI работает "шустро", и можно спокойно добавлять бэкенд практически любой сложности (а не как в lovable или тем более bolt, которые сильно расчитывют на BaaS от Supabase), к тому же никаких проблем с деплоем - приложение разворачивается и публикуется парой кликов, и сразу мониторится.

Replit представил три новые функции для своего AI-агента, которые существенно расширяют возможности разработки приложений.

Веб-поиск 🔍

Агент теперь может самостоятельно искать информацию в интернете во время создания приложений. Вместо того чтобы вручную собирать данные и предоставлять контекст, достаточно описать задачу — агент найдет необходимую информацию сам.

Примеры использования:
• Поиск актуальных библиотек и пакетов
• Создание образовательных материалов с актуальными данными
• Анализ конкурентов
• Поиск бесплатных источников данных

Расширенное мышление 🧠

Функция дает агенту больше времени на "размышления" и анализ задачи. Это приводит к более точным решениям с первого раза и лучшей обработке сложных случаев.

Высокопроизводительный режим ⚡️

Включает модель Claude Opus 4 с увеличенным контекстным окном и улучшенными возможностями рассуждения для решения сложных задач.

Важные особенности ⚠️

1️⃣ Обе функции (расширенное мышление и высокопроизводительный режим) увеличивают стоимость использования

2️⃣ Веб-поиск включен по умолчанию для новых проектов, но требует активации в настройках агента

3️⃣ Комбинация всех трех функций значительно повышает качество результатов и сокращает количество итераций

Практический результат 📈

Как утверждают разработчики Replit, сочетание этих инструментов превращает агента из "младшего разработчика" в более опытного помощника, способного решать сложные задачи самостоятельно с минимальным количеством правок. Очень хочется в это верить. И будем проверять. В прошлый раз при переходе на более сложную модель Claude 3.7 агентая цепочка Langgraph внутри Replit Agent работала хуже, чем на Claude 3.5.

@llm_notes

#replit #ai #webdev #coding #aitools

❤5👍4⚡1🔥1

447 views07:17

About

Blog

Apps

Platform