Заметки LLM-энтузиаста
517 subscribers
144 photos
17 videos
1 file
175 links
Дмитрий Жечков @djdim
архитектор в Yandex Cloud,
ex. VMware NSX specialist, ex. Cisco SE

Здесь пишу свои заметки по LLM (большим языковым моделям) и AI-разработке.

Это личное мнение и не отражает официальную позицию компании, в которой я работаю.
Download Telegram
#ui #web #ux #examples #ai #dev

Недавно я наткнулся на новый бесплатный ресурс, который, на мой взгляд, очень ценен!

https://21st.dev/

Он содержит более 730 готовых к работе компонентов пользовательского интерфейса от более чем 50 ведущих инженеров-проектировщиков.
Можно бесплатно брать и использовать все, что хочешь.
Запущен 9 января 2025 года - очень свежий!

Здесь оригинальный анонс

Что очень круто он уже оптимизирован для популярных ИИ-редакторов программного кода, таких как
- lovable.dev
- bolt.new
- v0.dev от vercel
с индивидуальными подсказками для легкой интеграции

Алгоритм работы с ним очень прост:
1) Выбирается понравившийся компонент интерфейса
2) Копируется информация о том, как его установить и промпт для выбранного ИИ-помощника
3) Затем повторяем компонент в своем коде
см. скришоты
11👍1🔥1
#news #anthropic #search #web

Антропик только что объявил, что их ИИ-ассистент Claude теперь умеет искать информацию в Интернете cамостоятельно без необходимости настройки MCP-серверов (например вот такого)

Что это значит? 🤔
Claude теперь без дополнительных "приседаний" с настройкой MCP может:
• Получать доступ к самой свежей информации о текущих событиях 📰
• Предоставлять более точные ответы с актуальными данными 📊
• Цитировать источники для проверки фактов 🔍

Кому это будет особенно полезно:
• Продажи — анализ отраслевых тенденций для более информированных разговоров с клиентами 📈
• Финансовые аналитики — оценка текущих рыночных данных и отчетов о доходах 💹
• Исследователи — создание более сильных грантовых предложений и обзоров литературы 📚
• Покупатели — сравнение характеристик, цен и отзывов о продуктах 🛒

Как начать использовать? 🚀
Пишут, что функция уже доступна для всех платных пользователей Claude в США и скоро появится и в других странах.
Нужно включить "web search" в настройках профиля.
У меня еще данная функция не появилась.
3👍3🔥1
#ai #dev #trae #mcp

Обновление Trae AI v1.3.0: Новые мощные инструменты для разработчиков

Trae выпустил крупное обновление до версии 1.3.0, которое превращает обычный инструмент для кодирования в настоящего партнера по разработке. Давайте рассмотрим ключевые нововведения:

🔄 Объединение панелей Chat и Builder

• Теперь вы можете получить доступ к Builder как к агенту, используя команду @Builder
• Единый интерфейс делает работу более удобной и интуитивной

📚 Новые типы контекста

#Doc: Добавляйте документы по URL или загружайте файлы .md/.txt для использования в качестве контекста в чатах
Лимит: до 1000 файлов общим размером до 50 МБ
#Web: Вставляйте URL-адреса, и ИИ автоматически извлечет релевантный контент с веб-страниц

📋 Настраиваемые правила для ИИ

• Пользовательские правила: Создавайте правила на основе личных предпочтений, которые будут применяться ко всем проектам
• Правила проекта: Создавайте правила для конкретного проекта, которые работают только в нем

🤖 Улучшенные возможности агентов

• Создавайте собственных агентов, настраивая промпты и инструменты
• Два встроенных агента: Builder и Builder с MCP
• Функция Auto-Run позволяет агентам автоматически выполнять команды и использовать инструменты
• Черный список для блокировки нежелательных команд

🔌 Поддержка Model Context Protocol (MCP)

• MCP Marketplace для быстрого доступа к сторонним MCP-серверам (я проверил - работает почти также удобно как MCP маркетплейс в Cline - см. скриншот)
• Возможность добавления MCP-серверов к агентам для расширения их возможностей (очень интересная функциональность, см. скриншот)

Это обновление значительно расширяет функциональность Trae, превращая его из обычного помощника по кодированию в полноценного партнера по разработке. Интеграция c MCP определяет универсальную коммуникационную структуру, обеспечивающую бесшовное взаимодействие между встроенными агентами Trae и сторонними расширениями.

Инструмент, как и писал ранее, все еще остается бесплатным, в связи с этим есть свои преимущества (не надо платить за вызовы модели) и недостатки (для работы из РФ потребуется VPN, и при реализации даже небольшого проекта сейчас часто появляется уведомление, что модели перегружены запросами, поэтому просьба подождать)

Вариант игры "age of wars" по ТЗ удалось сделать без единой ошибки (см. скрин в комментариях), получилось не очень функционально с первой итерации, но раньше даже так не получалось, так что обновление действительно классное и пошло на пользу TRAE.

P.S. TRAE AI также доступен в виде плагина для VS Code, скачать можно здесь
👍43🔥1
На прошлой неделе на 6-ом занятии по AI-программированию мы делали синхронный переводчик для Zoom-звонков. Решение получилось универсальным — работает с любой системой ВКС через виртуальные аудио-устройства.

Протестировали сразу 3 варианта решения задачи:
Cursor для разработки и railway для деплоя
Replit
Lovable

Во всех трех случаях для подготовки PRD я использовал Codeguide.dev - отличный инструмент, позволяет в режиме диалога с AI подготовить целый набор необходимой документации для написания софта методом Vibe Coding. Документация готовится под выбранный набор AI-кодеров. Также codeguide содержит внутри готовые шаблоны micro SaaS приложений под различные сценарии использования: например, с бэкендом для аутентификации пользователей или для оплаты.

Исходные заявки в codeguide.dev на подготовку PRD, а также финальные PRD можно посмотреть здесь.

Результаты тестирования

• Вариант с Cursor закончить за время занятия (2 часа) не удалось, но это скорее связано с тем, что задача ставилась сложнее - я хотел сделать систему с личным кабинетом пользователя, с аутентификацией на базе Clerk, и по закону подлости в определенный момент перестали работать обращения к Cursor-агенту через VPN, я уже не стал переключаться, тем более что по двум другим кодерам прогресс шел быстро.

Вариант с Replit показал отличный результат раньше всех и потребовал небольшое количество итераций траблшутинга. Удалось полностью закончить приложение за отведенное время занятия. Вот ссылка на Github. Карточка проекта тут

Вариант с Lovable стал показывать первые результаты практически одновременно с Replit, но потребовал значительно бОльшего количества итераций траблшутинга. Заканчивал приложение уже после занятия (github).

Ну а теперь про само приложение!

Как это работает 🔧

🎤 Система распознает речь через Web Speech API (фронтенд в браузере)
📤 Отправляет текст на перевод через OpenAI API (бэкенд - в облаке или на вашем PC/mac)
🗣 Синтезирует переведенную речь (фронтенд в браузере)
🎧 Передает аудио через виртуальный или обычный микрофон в видеоконференцию (зависит от сценария использования - см. ниже)

Настройка для разных сценариев ⚙️


Чтобы вас слышали на иностранном языке:
1️⃣ Запустить веб-приложение
2️⃣ Подключить виртуальный микрофон (BlackHole/VB-Cable) - в моем случае был VB-cable на Mac в браузере Safari
3️⃣ В ВКС выбрать виртуальное устройство как speaker. Микрофон оставить обычным (External Mic).
Вы говорите на родном языке. Приложение в браузере Safari/Chrome «слышит» это через External Mic. И передает это (Speaker) через VB-cable. Вы сами не слышите то, что слышит ваш собеседник, но видите, что ему говорят (т.к. в приложении работает текстовый перевод)

Чтобы слышать перевод на русском:
1️⃣ В ВКС подключить виртуальный микрофон как input
2️⃣ В системных настройках ОС: input = виртуальный микрофон, чтобы приложение "слышало", что говорит ваш собеседник, а output = внешний микрофон (External Mic), чтобы вы слышали перевод
3️⃣ Веб-приложение будет переводить и озвучивать через стандартный выход

Технические характеристики 📊

• Задержка перевода: до 1-2 секунд (зависит от того используете деплой в облаке или на своем ПК)
• Точность перевода: более 95% для разговорного контента
• Поддержка популярных ВКС: Zoom, Google Meet, Microsoft Teams и т.д.
• Кэширование переводов для ускорения повторных фраз (не во всех версиях реализовано)

Требования 💻

• Браузер с поддержкой Web Speech API (лучше всего Chrome или Safari)
• Действующий API-ключ OpenAI
• Наличие установленного виртуального аудиоустройства (BlackHole или VB-Cable)
• Стабильное интернет-соединение от 10 Мбит/с

Ограничения
• Поскольку все основные функции по транскрибации и синтезу речи реализованы в браузере через Web Speech API, то на мобильных устройствах будет доступен только текстовый перевод, синтез речи работать не будет.
• В зависимости от используемого браузера будет варьироваться количество доступных языков и голосов для транскрибации и синтеза

#realtime_translation #speech #video_conferencing #openai #web_audio #battle #lovable #replit #cursor #zoom
👍65🔥31
🌐 Perplexity запустила браузер Comet с ИИ-ассистентом

Некоторое время назад писал про Windsurf Browser и упоминал другие агентные браузеры.

Perplexity были в их числе, но тогда они только планировали.
А вчера Perplexity выпустили свой новый браузер Comet, который интегрирует поисковую систему компании с ИИ-ассистентом, способным выполнять автономные задачи.

Основные возможности:

• Ассистент работает в боковой панели и наблюдает за действиями пользователя
• Автоматизация задач: управление электронной почтой и календарем
• "Vibe browse" - навигация по сайтам через естественный язык или голосовые команды
• Совместимость с существующими расширениями и закладками
• Поддержка Mac и Windows

1-минутная демка здесь

Доступность:

1️⃣ Первыми получают доступ подписчики Perplexity Max ($200/месяц) 2️⃣ Остальные пользователи попадают в лист ожидания
3️⃣ Версии для Pro (как раз мой вариант), бесплатных и корпоративных пользователей появятся позже

Контекст релиза:
Chrome долгое время доминировал на рынке браузеров, но отстает в нативной интеграции ИИ-агентов.
Comet, наряду с другими проектами вроде Dia, Genspark, и будущими разработками Opera и OpenAI, делает первые шаги к новому формату взаимодействия пользователя с веб-контентом 🚀 Если в агентный браузер добавить хороший мульти-агентный поиск с использованием browser-use и дополнительные функции по автоматизации работы с документами, кодом и медиа-контентом, то пользователю больше ничего и не нужно будет - он все время будет проводить в этом браузере.

Возможно, Chrome не торопиться становиться нативно agentic браузером поскольку есть такие классные плагины как rtrvr.ai, да и любой мульти-агентный решатель задач типа manus, genspark, flowith.io имеет плагины к chrome. В общем, непонятно чего они ждут, но я бы на их месте напрягся и добавил встроенную агентную функцию.

@llm_notes

#browser #agentic #perplexity #comet #web
13👍2
rtrvr.ai показал лучшие результаты в тестах Web Bench 🚀

Я несколько раз в постах (1|2) уже упоминал вскользь такой инструмент для автономного решения рабочих задач в браузере как rtrvr.ai

Инструмент чрезвычайно эффективный - может почти полностью заменить человека, который работает с браузером (не только по результативности, но и по скорости работы), и имеет возможность запуска задач по расписанию, поэтому хотел бы посвятить ему отдельный пост.

Платформа rtrvr.ai продемонстрировала впечатляющие результаты в бенчмарке Web Bench, достигнув 81,39% успешности выполнения задач при среднем времени выполнения всего 0,9 минуты (см. скриншот).

Ключевые особенности архитектуры 🔧

rtrvr.ai использует локальный подход через Chrome-расширение (также есть расширение для Edge браузера под Windows), работая напрямую с DOM веб-страниц:

• Обход систем защиты от ботов и CAPTCHA
• Использование уже авторизованных сессий пользователя
• Поддержка работы в нескольких вкладках одновременно
• Интеграция пользовательской логики через AI Function Calling (можно добавлять свои инструменты)

Производительность по типам задач 📊

1️⃣ Задачи чтения данных: 88,24% успешности 2️⃣ Операции записи: 65,63% успешности
3️⃣ Средняя стоимость: $0,12 за задачу

Решение проблемы "экспоненциального отказа" ⚡️

Платформа эффективно справляется с усложнением многошаговых процессов благодаря:

• Параллельному выполнению в нескольких вкладках
• Работе с "живым" DOM
• Локальной оркестрации задач

Такой подход имитирует поведение реального пользователя, что значительно снижает количество ошибок при работе с динамическими элементами и сложными формами. Единственно что - по новой открываемой браузерной вкладке требует повторной авторизации, надо еще раз нажимать "ок".

Практическое применение 💼

rtrvr.ai подходит как для индивидуальных пользователей, так и для корпоративного использования, предлагая быструю и доступную автоматизацию веб-задач с минимальной настройкой.

Как и в любом AI-инструменте, эффективность использования сильно зависит от правильной постановки задачи.
Поэтому имеет смысл ознакомиться с лучшими практиками использования и попробовать готовые workflow.

А еще есть классная штука - запись своего workflow, для автоматизации рутины, которую делаешь, но долго или сложно описать словами. Кажется, такая функция сейчас должна работать "из коробки" в любом современном браузере :)

У инструмента есть полнофункциональный Free Tier, который обновляется каждый месяц, поэтому можно потестировать и посмотреть насколько он вам подходит (250 Initial Credits, 100 Credits/Month).

Подробности: https://www.rtrvr.ai/blog/web-bench-results
Записи тестов здесь

@llm_notes

#web #automation #ai #agents #browser #rtrvr
2👍2🔥1