Заметки LLM-энтузиаста
521 subscribers
146 photos
17 videos
1 file
177 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
#cursor #ai #dev #heyboss #bolt #replit #lovable #trae #battle

🎨🤖 Битва AI-помощников: создаем финансовый дашборд 📊

👋 Привет, друзья!

🔬 Сегодня расскажу о новом эксперименте: на прошлом занятии курса по Cursor протестировали 6 разных AI-инструментов для разработки, создавая дашборд для мониторинга личных финансов.

📝 Вводная информация:
Идея проекта: создать веб-дашборд личных финансов для визуального анализа данных из Excel-таблицы.

🎯 Начали с Cursor по методике Plan-Plan-Act:

📋 Сформировали контуры ТЗ
📑 Разработали полное ТЗ
💻 Написали код

🛠 Технические детали первой версии:
🐍 Язык: Python
🌐 Веб-интерфейс: Streamlit

🔗 Полезные ссылки:
📦 Код: https://github.com/dzhechko/pu-finance-dashboard
🚀 Приложение: https://pu-finance-dashboard-production.up.railway.app/
📊 Тестовые данные: https://disk.yandex.ru/i/LoYazgIq82XYgA

🔄 После успешного эксперимента с Cursor решили пойти дальше и протестировать другие AI-помощники.
Для более современного подхода сменили стек технологий на:
⚡️ Next.js
🎨 Tailwind CSS
🎯 shadcn/ui

📊 Тестовые данные можно брать здесь

🏆 Лидеры гонки:

1️⃣ Lovable.dev
Быстрый старт
Рабочий проект с первой попытки
⚠️ Небольшая доработка UI для графиков
➡️ Результат: y-money-mosaic (исходники тут)


2️⃣ Bolt.new
Стабильная работа "из коробки"
Отличная интеграция с Supabase
Минимум проблем
⚠️ Консервативный дизайн
➡️ Результат: Personal Finance Dashboard

3️⃣ Replit Agent
Спокойный процесс разработки
Понятный траблшутинг
⚠️ Проблемы с графиками
➡️ Результат: Replit Finance Dashboard

😐 Середнячки и аутсайдеры:

🔸 Heyboss
Проблемы с аутентификацией на этапе тестирования
Быстрая генерация функций
⚠️ Нужна доработка кода и лучше ее делать в Cursor, т.к на небольшие изменения кредиты расходуются быстро.
➡️ Результат: Heyboss Finance Dashboard

🔸 Trae
Нет рабочего кода
Неэффективный траблшутинг

💡 Основные выводы:
🥇 Lovable и Bolt - лучшие для быстрых прототипов
🏃‍♂️ Replit Agent - для спокойной разработки
📋 Для успеха очень важно иметь четкое ТЗ перед стартом
⚠️ Не все AI-инструменты одинаково полезны

#AIdev #webdev #coding #dashboard #finance #tech #programming
3👍3🔥2
#yandexgpt #openai #claude #battle #classification

🔥 По горячим следам: YandexGPT 5 Pro против всех (GPT-4.5, Claude-3.7 и другие)

Сегодня с одним из заказчиков провели эксперимент по классификации отзывов. 🧪
Результат оказался приятным сюрпризом: YandexGPT 5 Pro (см. анонс здесь) справилась с задачей лучше, чем GPT-4o, GPT-o1, llama 3, Claude 3.7, Qwen 2.5 и даже новейшая GPT-4.5! 🤯

Ключ к успеху — правильный промпт, улучшенный с помощью Deepseek-R1.

📊 Что тестировали:

Мы проверяли, можно ли решить задачу классификации отзывов одним промптом к модели общего назначения (без использования классификаторов и их дополнительного обучения)

Модели должны были оценить 3 отзыва о ресторане по 7 категориям (еда, сервис, персонал и т.д.) с оценками от 0 до 3.

🏆 Результаты с промптом от Deepseek-R1 (см. скриншот N1):

• YandexGPT 5 Pro: всего 1 ошибка! 👑
• Claude 3.7: середина таблицы (3 ошибки)
• GPT-4.5 и GPT-o1: аутсайдеры 😬

🔄 Результаты с промптом от GPT-o1 (см. скриншот N2):

• Claude 3.7: абсолютный лидер (0 ошибок) 🥇
• GPT-4o: 2-е место (2 ошибки) 🥈
• YandexGPT 5 Pro: в тройке лидеров (3 ошибки) 🥉
• GPT-4.5: снова в аутсайдерах 📉

💡 Интересный вывод:

Похоже, мы нашли идеальную связку для работы: берем обычный "человеческий" промпт → улучшаем его через Deepseek-R1 → запускаем в YandexGPT 5 Pro!
Такой подход продемонстрировал сегодня потрясающие результаты и может стать золотым стандартом для решения сложных задач. 🚀

📝 Подробный разбор с примерами отзывов, промптами и результатами выложил здесь

Про то, где взять Deepseek R1 чтобы протестировать, писал здесь и тут

#ИИ #YandexGPT #GPT #Claude #Эксперимент #Промпты
8👏2🤡2🔥1
#lovable #battle #check

Lovable 2.0 - проверка "боем" !

На первом занятии курса по AI-программированию и агентам мы делали браузерную игру-шутер

Вот такой результат у меня получился при помощи Lovable предыдущей версии при подготовке к занятию
Причем данный результат был получен при количестве итераций > 10. И мои попытки добавить звук выстрела и фоновую музыку так и не увенчались успехом (требовалось подгрузить свои собственные mp3 файлы).

Поэтому на самом занятии мы использовали replit agent 2.0 (ранее писал о нем здесь), который позволил получить хороший результат практически сразу за пару минут, и дальнейшие 2-3 итерации были потрачены на небольшие улучшения.

А теперь сравните, пожалуйста, с результатом на Lovable 2.0, который я получил за несколько минут + 3 итерации по корректировке кнопок перемещения и коррекции заваливания горизонта.
Результат с моей точки зрения значительно лучше Lovable предыдущей версии и на уровне replit agent 2.0, а нападающие "монстры" "из коробки" получились даже более симпатичными.

Чего мне не хватило - фоновую музыку "из коробки" получить не удалось (в replit она появилась сразу, lovable 2.0 все таки запросил Для работы вам нужно добавить файл background-music.mp3 в папку public/ вашего проекта.)

Можете повторить подобный эксперимент самостоятельно. Исходный промпт здесь

Как можно сэкономить на lovable подписке и не только писал здесь
12👍2🔥1
На прошлой неделе на 6-ом занятии по AI-программированию мы делали синхронный переводчик для Zoom-звонков. Решение получилось универсальным — работает с любой системой ВКС через виртуальные аудио-устройства.

Протестировали сразу 3 варианта решения задачи:
Cursor для разработки и railway для деплоя
Replit
Lovable

Во всех трех случаях для подготовки PRD я использовал Codeguide.dev - отличный инструмент, позволяет в режиме диалога с AI подготовить целый набор необходимой документации для написания софта методом Vibe Coding. Документация готовится под выбранный набор AI-кодеров. Также codeguide содержит внутри готовые шаблоны micro SaaS приложений под различные сценарии использования: например, с бэкендом для аутентификации пользователей или для оплаты.

Исходные заявки в codeguide.dev на подготовку PRD, а также финальные PRD можно посмотреть здесь.

Результаты тестирования

• Вариант с Cursor закончить за время занятия (2 часа) не удалось, но это скорее связано с тем, что задача ставилась сложнее - я хотел сделать систему с личным кабинетом пользователя, с аутентификацией на базе Clerk, и по закону подлости в определенный момент перестали работать обращения к Cursor-агенту через VPN, я уже не стал переключаться, тем более что по двум другим кодерам прогресс шел быстро.

Вариант с Replit показал отличный результат раньше всех и потребовал небольшое количество итераций траблшутинга. Удалось полностью закончить приложение за отведенное время занятия. Вот ссылка на Github. Карточка проекта тут

Вариант с Lovable стал показывать первые результаты практически одновременно с Replit, но потребовал значительно бОльшего количества итераций траблшутинга. Заканчивал приложение уже после занятия (github).

Ну а теперь про само приложение!

Как это работает 🔧

🎤 Система распознает речь через Web Speech API (фронтенд в браузере)
📤 Отправляет текст на перевод через OpenAI API (бэкенд - в облаке или на вашем PC/mac)
🗣 Синтезирует переведенную речь (фронтенд в браузере)
🎧 Передает аудио через виртуальный или обычный микрофон в видеоконференцию (зависит от сценария использования - см. ниже)

Настройка для разных сценариев ⚙️


Чтобы вас слышали на иностранном языке:
1️⃣ Запустить веб-приложение
2️⃣ Подключить виртуальный микрофон (BlackHole/VB-Cable) - в моем случае был VB-cable на Mac в браузере Safari
3️⃣ В ВКС выбрать виртуальное устройство как speaker. Микрофон оставить обычным (External Mic).
Вы говорите на родном языке. Приложение в браузере Safari/Chrome «слышит» это через External Mic. И передает это (Speaker) через VB-cable. Вы сами не слышите то, что слышит ваш собеседник, но видите, что ему говорят (т.к. в приложении работает текстовый перевод)

Чтобы слышать перевод на русском:
1️⃣ В ВКС подключить виртуальный микрофон как input
2️⃣ В системных настройках ОС: input = виртуальный микрофон, чтобы приложение "слышало", что говорит ваш собеседник, а output = внешний микрофон (External Mic), чтобы вы слышали перевод
3️⃣ Веб-приложение будет переводить и озвучивать через стандартный выход

Технические характеристики 📊

• Задержка перевода: до 1-2 секунд (зависит от того используете деплой в облаке или на своем ПК)
• Точность перевода: более 95% для разговорного контента
• Поддержка популярных ВКС: Zoom, Google Meet, Microsoft Teams и т.д.
• Кэширование переводов для ускорения повторных фраз (не во всех версиях реализовано)

Требования 💻

• Браузер с поддержкой Web Speech API (лучше всего Chrome или Safari)
• Действующий API-ключ OpenAI
• Наличие установленного виртуального аудиоустройства (BlackHole или VB-Cable)
• Стабильное интернет-соединение от 10 Мбит/с

Ограничения
• Поскольку все основные функции по транскрибации и синтезу речи реализованы в браузере через Web Speech API, то на мобильных устройствах будет доступен только текстовый перевод, синтез речи работать не будет.
• В зависимости от используемого браузера будет варьироваться количество доступных языков и голосов для транскрибации и синтеза

#realtime_translation #speech #video_conferencing #openai #web_audio #battle #lovable #replit #cursor #zoom
👍65🔥31
Сравнение подходов: как строить AI-агентов в продакшене 🤖

Думаю, что будет интересно всем. Две крупные AI-компании одновременно опубликовали диаметрально противоположные взгляды на архитектуру агентов.
Cognition утверждает "не стройте мульти-агентов", а Anthropic напротив детально описывает свою мульти-агентную систему для Claude Research.

Позиция Cognition: простота как залог надежности 🎯

Основные принципы:
• Общий контекст для всех операций
• Действия несут неявные решения
• Параллельные агенты создают конфликты

Почему мульти-агенты НЕ работают:
1️⃣ Потеря контекста между агентами
2️⃣ Противоречивые решения подагентов
3️⃣ Сложность отладки и координации
4️⃣ Накопление ошибок в цепочке

Cognition предлагает линейную архитектуру с единым потоком выполнения и компрессией истории для длинных задач.

Подход Anthropic: сложность под контролем ⚡️

Архитектура Advanced Research:
• Главный агент-координатор
• Специализированные подагенты для поиска
• Параллельное выполнение задач
• Система цитирования

Ключевые решения:
1️⃣ Детальное делегирование задач
2️⃣ Масштабирование усилий под сложность запроса
3️⃣ Параллельные вызовы инструментов
4️⃣ Расширенный режим мышления

Результаты: мульти-агентная система превосходит одиночного агента на 90% в исследовательских задачах.

Сравнение подходов 📊

Управление контекстом:
• Cognition: единый поток, компрессия истории
• Anthropic: распределенный контекст, память системы

Обработка ошибок:
• Cognition: минимизация точек отказа
• Anthropic: graceful degradation, retry логика

Производительность:
• Cognition: предсказуемость и стабильность
• Anthropic: скорость через распараллеливание задач

Сложность разработки:
• Cognition: простая отладка, линейный флоу
• Anthropic: сложная координация, но больше возможностей

Когда какой подход использовать 🎪

Линейные агенты (Cognition):
• Задачи с высокими требованиями к надежности
• Ограниченные ресурсы на разработку
• Последовательные рабочие процессы

Мульти-агенты (Anthropic):
• Исследовательские задачи
• Высокая ценность результата
• Возможность распараллеливания задач

Выводы 💡

Оба подхода имеют право на существование.

Выбор зависит от:
• Типа задач
• Требований к надежности
• Бюджета на разработку
• Опыта команды

Главное - понимать все trade-offs и не пытаться решить все задачи одним универсальным подходом.

@llm_notes

#agents #multi_agent_systems #production_ai #claude_research #battle #anthropic #cognition
7🔥42