За эту неделю решил максимально сильно разобраться в возможностях современных видеогенераторов (в основном WAN, так как только он опенсурс приемлемого качества)
Из довольно базового что уже сейчас можно генерить - video in-painting (заполняем выбранную область видеоконтентом)
reference image control (использование при генерации конкретных обьектов)
camera control (можно на уровне архитектуры, а не промпта, задавать движение камеры в разные стороны)
Из более интересного - Geometric Control (вращающийся куб задает вращение машины)
Или например motion control (движение 3д скелетов задают движения людей в видео)
wan animate (из референс-видео извлекаются поза тела и мимика, которые переносятся на персонажа с входной картинки; есть режим замены персонажа в видео с автоматической подстройкой освещения)
Модель пока не идеальная, и далека от качества от Sora2/Veo3, однако на основе ее уже можно строить очень мощные продукты. Например один мой очень хороший знакомый и бывший коллега @helleschannel рассказывает как они применяют эти подходы в Unreal Labs, в котором от founding engineer.
Из довольно базового что уже сейчас можно генерить - video in-painting (заполняем выбранную область видеоконтентом)
reference image control (использование при генерации конкретных обьектов)
camera control (можно на уровне архитектуры, а не промпта, задавать движение камеры в разные стороны)
Из более интересного - Geometric Control (вращающийся куб задает вращение машины)
Или например motion control (движение 3д скелетов задают движения людей в видео)
wan animate (из референс-видео извлекаются поза тела и мимика, которые переносятся на персонажа с входной картинки; есть режим замены персонажа в видео с автоматической подстройкой освещения)
Модель пока не идеальная, и далека от качества от Sora2/Veo3, однако на основе ее уже можно строить очень мощные продукты. Например один мой очень хороший знакомый и бывший коллега @helleschannel рассказывает как они применяют эти подходы в Unreal Labs, в котором от founding engineer.
❤8👍1🔥1
Forwarded from Naumov Blog | Леша и Gen AI
йоу! я долго молчал про то чем занимаюсь — пора исправляться.
я founding engineer в Unreal Labs - мы делаем AI-редактирование видосиков для рекламных команд — берешь существующий футаж (реальные актеры, реальные продуктовые съемки, реальный b-roll) и генеришь вариации: меняешь актеров, переписываешь скрипт, меняешь окружение. без пересъемок вообще.
по сути — Nano Banana Pro но для видео, заточенная под рекламный юзкейс.
для ребят которые крутят рекламу в Meta/Instagram это прям game changer — AB тестирование разных хуков, CTA, визуалов - это то как ты находишь победителей. мы убрали боттлнек "надо переснять".
команда у нас чисто акулья — ребята с бэкграундом в рекламе, gen AI из Meta и Snap, все профи в ИИ тулах для кодинга - круто когда тима не стариковская, а у которой можно поучиться приколюхам вроде "как нацепить MCP к агенту и через multi-branch шипать 5 фичей параллельно и курить в это время
я gen ai нерд, тч то что погонять свежие видео/картиночные/аудио модельки это часть моей работы это просто услада.
В общем эксайтед лютейше!
я founding engineer в Unreal Labs - мы делаем AI-редактирование видосиков для рекламных команд — берешь существующий футаж (реальные актеры, реальные продуктовые съемки, реальный b-roll) и генеришь вариации: меняешь актеров, переписываешь скрипт, меняешь окружение. без пересъемок вообще.
по сути — Nano Banana Pro но для видео, заточенная под рекламный юзкейс.
для ребят которые крутят рекламу в Meta/Instagram это прям game changer — AB тестирование разных хуков, CTA, визуалов - это то как ты находишь победителей. мы убрали боттлнек "надо переснять".
команда у нас чисто акулья — ребята с бэкграундом в рекламе, gen AI из Meta и Snap, все профи в ИИ тулах для кодинга - круто когда тима не стариковская, а у которой можно поучиться приколюхам вроде "как нацепить MCP к агенту и через multi-branch шипать 5 фичей параллельно и курить в это время
я gen ai нерд, тч то что погонять свежие видео/картиночные/аудио модельки это часть моей работы это просто услада.
В общем эксайтед лютейше!
🔥27❤10💩4
Как я использую Claude Code
Недавно подрубил себя к claude leaderboard и понял что нахожусь относительно высоко в мировом топе использования. Наверное пора написать пост - только неочевидные штуки,
без тупых советов и маркетингового булщита
1. Субагенты. Говоришь клоду: сделай А и в параллель запусти В. Он запустит подзадачу которая будет решаться параллельно с основным флоу. Например добавить Redis cache и одновременно настроить прокидывание кред с вольта . При этом подзадачи не будут забивать контекст
2. Feedback loop. Модель должна уметь получать фидбек без вашего участия, иначе всё будет идти медленно и вы будете беситься:
юнит тесты
- cli демка перед основной разработкой что бы отладить
- Telegram MCP для ботов
- Playwright MCP для веба
3. План-интервью. Попросите клода проинтервьюировать вас перед задачей - он задаст 500 тыс вопросов и по итогу напишет нормальный план. Заревьюйте, переспрашивайте если недостаточно подробно
4. 2 задачи в параллель. При вайбкодинге остается много времени пока опус работает. Есть git-worktree (работает имхо криво), но лучше брать 2 несвязанные задачи в разных сервисах
5. --dangerously-skip-permissions - никаких тупых вопросов "разрешить ли отредачить файл". Можно запустить дебажить тест и уйти на полчаса. Использовать осторожно, желательно на VM (но я не парюсь)
6. MCP сервера. Рабочие чаты в телеге - ставь TG MCP. Часто нужна база - ставь MCP для базы (или научи модель пользоваться psql). Пишите на Web3 - есть Blockscan mcp
7. Чаще /compact /clear. "Там же контекст прошлых задач" - это сигнал нехватки документации. При переходе между задачами выгружай контекст в docs/ и чисти переписку. Пиши инструкцию для компакта - иначе клод начнет лить воду
8. ~/prompts/*.md - папка с переиспользуемыми промптами. Схема базы, гайды по архитектуре. Добавляю в контекст через @~/prompts/... когда релевантно
9. docs/tree.md - описание дерева проекта со всеми файлами. Ускоряет explore. Раз в неделю обновлять
P.S. C клодом - только английский. Даже если сложно
Недавно подрубил себя к claude leaderboard и понял что нахожусь относительно высоко в мировом топе использования. Наверное пора написать пост - только неочевидные штуки,
без тупых советов и маркетингового булщита
1. Субагенты. Говоришь клоду: сделай А и в параллель запусти В. Он запустит подзадачу которая будет решаться параллельно с основным флоу. Например добавить Redis cache и одновременно настроить прокидывание кред с вольта . При этом подзадачи не будут забивать контекст
2. Feedback loop. Модель должна уметь получать фидбек без вашего участия, иначе всё будет идти медленно и вы будете беситься:
юнит тесты
- cli демка перед основной разработкой что бы отладить
- Telegram MCP для ботов
- Playwright MCP для веба
3. План-интервью. Попросите клода проинтервьюировать вас перед задачей - он задаст 500 тыс вопросов и по итогу напишет нормальный план. Заревьюйте, переспрашивайте если недостаточно подробно
4. 2 задачи в параллель. При вайбкодинге остается много времени пока опус работает. Есть git-worktree (работает имхо криво), но лучше брать 2 несвязанные задачи в разных сервисах
5. --dangerously-skip-permissions - никаких тупых вопросов "разрешить ли отредачить файл". Можно запустить дебажить тест и уйти на полчаса. Использовать осторожно, желательно на VM (но я не парюсь)
6. MCP сервера. Рабочие чаты в телеге - ставь TG MCP. Часто нужна база - ставь MCP для базы (или научи модель пользоваться psql). Пишите на Web3 - есть Blockscan mcp
7. Чаще /compact /clear. "Там же контекст прошлых задач" - это сигнал нехватки документации. При переходе между задачами выгружай контекст в docs/ и чисти переписку. Пиши инструкцию для компакта - иначе клод начнет лить воду
8. ~/prompts/*.md - папка с переиспользуемыми промптами. Схема базы, гайды по архитектуре. Добавляю в контекст через @~/prompts/... когда релевантно
9. docs/tree.md - описание дерева проекта со всеми файлами. Ускоряет explore. Раз в неделю обновлять
P.S. C клодом - только английский. Даже если сложно
🔥36❤10👍7🤡3🍾2🕊1👀1
Open source (и не только) AI тулзы которые у меня прижились
1. Dayflow Calendar - пишет экран 24/7 и скармливает локальной модели. Получаешь честный календарь своей активности по часам. Ручные трекеры типа Toggl бесят - там надо тыкать кнопки, а тут просто живёшь и оно само фиксирует твой позор. Можно ретроспективно возвращаться к своим результатам и понимать сколько реально ушло времени на те или иные задачи.
2. Happy Coder - управляешь claude code сессиями с телефона. Пока сыровато, но идея огонь
3. Whisper Flow - надиктовка текста виспером в любом месте. Платный, но это единственное решение где UX сделан не через жопу. Звучит тривиально, но попробуйте найти альтернативу которая не выглядит как кусок говна
4. tl;dw - закидываешь ютуб видос, получаешь саммари. Селфхостнул, юзаю для фильтрации контента. Есть youtube transcript MCP, но там лимит 20к токенов на вызов. Gemini тоже умеет такое, но она жутко меня бесит
5. YouTube Clickbait Decoder - нейронка переписывает названия роликов. "5 акций без которых вы сдохнете нищим" на "обзор долгосрочного инвестирования". Превью заменяет на рандомный кадр. Ютуб становится почти терпимым
1. Dayflow Calendar - пишет экран 24/7 и скармливает локальной модели. Получаешь честный календарь своей активности по часам. Ручные трекеры типа Toggl бесят - там надо тыкать кнопки, а тут просто живёшь и оно само фиксирует твой позор. Можно ретроспективно возвращаться к своим результатам и понимать сколько реально ушло времени на те или иные задачи.
2. Happy Coder - управляешь claude code сессиями с телефона. Пока сыровато, но идея огонь
3. Whisper Flow - надиктовка текста виспером в любом месте. Платный, но это единственное решение где UX сделан не через жопу. Звучит тривиально, но попробуйте найти альтернативу которая не выглядит как кусок говна
4. tl;dw - закидываешь ютуб видос, получаешь саммари. Селфхостнул, юзаю для фильтрации контента. Есть youtube transcript MCP, но там лимит 20к токенов на вызов. Gemini тоже умеет такое, но она жутко меня бесит
5. YouTube Clickbait Decoder - нейронка переписывает названия роликов. "5 акций без которых вы сдохнете нищим" на "обзор долгосрочного инвестирования". Превью заменяет на рандомный кадр. Ютуб становится почти терпимым
❤27👍14🔥11💋2
Сейчас все пишут что Google сделал очередной прорыв, и запилил Agentic Vision, но не могу понять чем это отличается от того что умела делать o3 еще больше года назад, но потом это воде как выпилили и все забили.
Че там такого прорывного у гугла? Я не понимаю....
Че там такого прорывного у гугла? Я не понимаю....
❤7👍2🔥2
Активно обсуждают твит о том что Claude Code написал код из-за которого DeFi протокол Moonwell потерял $1.78M. Типа первый хак вайб-кода.
Полез в PR и чет мне кажется проблема вообще не в Claude.
Сам баг - чтобы узнать цену токена в долларах нужно два числа: курс токена к эфиру и цену эфира в долларах. Перемножаешь - получаешь доллары. Claude ошибся в конфиге, что сработало только первое умножение. Протокол стал считать что токен стоит $1.05 а не $2200. Боты налетели за минуты.
Ошибка тупая но
• Там довольно сложный код с большим числом абстракций, не просто price = x/y*k/p, все задается через конфиги, что то закоменчено, что то не работает, что то надо было раскоментить в PR. Смотрите в картинке выше
• Автор PR замёржила сама себе. Branch protection не настроен. На DeFi протоколе. С реальными деньгами
• GitHub писал "review required". 5 ревьюеров - ноль approve, наоборот были правки. GitHub Copilot reviewer тоже не дал аппрув (хотя и не нашел этой ошибки
• 28 автотестов зелёные, много вопросов к подбору тесткейсов
• Аудит от Halborn был на предыдущую версию кода, новый код пошёл в прод без аудита)
Тч это не "вайбкодинг ненадёжен" - это мёрж без approve на протокол с реальными деньгами
Полез в PR и чет мне кажется проблема вообще не в Claude.
Сам баг - чтобы узнать цену токена в долларах нужно два числа: курс токена к эфиру и цену эфира в долларах. Перемножаешь - получаешь доллары. Claude ошибся в конфиге, что сработало только первое умножение. Протокол стал считать что токен стоит $1.05 а не $2200. Боты налетели за минуты.
Ошибка тупая но
• Там довольно сложный код с большим числом абстракций, не просто price = x/y*k/p, все задается через конфиги, что то закоменчено, что то не работает, что то надо было раскоментить в PR. Смотрите в картинке выше
• Автор PR замёржила сама себе. Branch protection не настроен. На DeFi протоколе. С реальными деньгами
• GitHub писал "review required". 5 ревьюеров - ноль approve, наоборот были правки. GitHub Copilot reviewer тоже не дал аппрув (хотя и не нашел этой ошибки
• 28 автотестов зелёные, много вопросов к подбору тесткейсов
• Аудит от Halborn был на предыдущую версию кода, новый код пошёл в прод без аудита)
Тч это не "вайбкодинг ненадёжен" - это мёрж без approve на протокол с реальными деньгами
❤20👍6🤔4
Часто слышу тейки что антропик теряет деньги на подписках за 200 долларов, и "раскидывают деньги инвесторов" что б занять рынок. На самом деле довольно просто прикинуть цену инференса для антропиков (примерно понимаем размер модели, понимаем цену GPUшек, математику нейросетей), так я попытался собрать полную бизнес модель их инференса.
В рассчетах я оценил скорость генерации трансформера в зависимости от размера модели, учел KV кеширование, префил промпта, квантизацию, рассмотрел несколько вариантов архитектуры.
По ним - Anthropic работают точно не в убыток, а скорее всего в небольшую операционную прибыль, даже если бы все аккаунты с подпиской за 200 баксов использовали бы 100% своих лимитов каждый месяц.
https://claude-inference-cost.mametevalex.workers.dev/
^^^^^^^^
В рассчетах я оценил скорость генерации трансформера в зависимости от размера модели, учел KV кеширование, префил промпта, квантизацию, рассмотрел несколько вариантов архитектуры.
По ним - Anthropic работают точно не в убыток, а скорее всего в небольшую операционную прибыль, даже если бы все аккаунты с подпиской за 200 баксов использовали бы 100% своих лимитов каждый месяц.
https://claude-inference-cost.mametevalex.workers.dev/
^^^^^^^^
👍15❤6🤔3🐳1
В чем ботлнек при работе ЛЛМки? Почему они не могут генерировать быстрее?
в GPU есть 2 основных ботлнека - память и компьют. Во первых нам надо считать все веса из VRAM в условные регистры, после чего произвести какие то вычисления.
Перед началой генерации надо рассчитать KV кеш по всем input токенам + считать веса модели один раз. В этом случае компьют является ботлнеком - время до первого токена это обьем вычислений / мощность гпу, более подробные вычисления приведены в картинках. Замечу что это теоретическая оценка. Из-за разных оверхедов реальные значения у vLLM будут на 20-30% хуже.
При генерации, на каждый токен надо считать веса 1 раз + forward pass для всего одного токена. В этом случае ботлнеком является уже скорость памяти, а не компьют, время генерации одного токена - размер модели / скорость памяти
Подумайте почему квантизации активно применяются для ускорения ЛЛМок, но вот в случае с дифузиями таким занимаются не так активно. Жду ваших версий в коментариях?
в GPU есть 2 основных ботлнека - память и компьют. Во первых нам надо считать все веса из VRAM в условные регистры, после чего произвести какие то вычисления.
Перед началой генерации надо рассчитать KV кеш по всем input токенам + считать веса модели один раз. В этом случае компьют является ботлнеком - время до первого токена это обьем вычислений / мощность гпу, более подробные вычисления приведены в картинках. Замечу что это теоретическая оценка. Из-за разных оверхедов реальные значения у vLLM будут на 20-30% хуже.
При генерации, на каждый токен надо считать веса 1 раз + forward pass для всего одного токена. В этом случае ботлнеком является уже скорость памяти, а не компьют, время генерации одного токена - размер модели / скорость памяти
Подумайте почему квантизации активно применяются для ускорения ЛЛМок, но вот в случае с дифузиями таким занимаются не так активно. Жду ваших версий в коментариях?
❤10👍4🔥2🥰2🤔1
Многие кто общался с клодом говорят что он "очень приятный по вайбу", и хотя другие модели кодят не сильно хуже по метрикам, общаться с ним не вайбово, гпт (а особенно гемини) использует блевотные аи слоп формулировки.
Нашёл бенчмарк, измеряющий это, bullshit bebch. Они задают модели несуразные вопросы и смотрят начнет ли она нести чушь.
Результаты ожидаемые - модели клауде в топе.
Нашёл бенчмарк, измеряющий это, bullshit bebch. Они задают модели несуразные вопросы и смотрят начнет ли она нести чушь.
Результаты ожидаемые - модели клауде в топе.
😁18❤10👍4🔥4💯1
Разобрался как работает Deep Research у клода (имхо самый юзабельный из всех)
Под капотом это не одна умная моделька (как у опенаи), там Opus как менеджер + 3-5 параллельных субагентов, каждый в своём контексте. Допустим спрашиваешь "сравни подходы к alignment у Anthropic, OpenAI и DeepMind за последний год". Opus декомпозирует и раздаёт задачи: один субагент копает Anthropic, другой OpenAI, третий DeepMind, четвёртый ищет независимую критику. Все работают параллельно. Каждый субагент переварил куча статей, сайтов итп в своём контексте, выдал концентрат на пару тысяч токенов + ссылки на источники. Opus читает концентраты, а не сырые страницы. При необходимости может обратиться к ключевым первоисточникам по ссылкам, если не хватает самари. Если видит пробелы в ресерче - спавнит ещё субагентов на доработку, глубина диприсерча строга не ограничена, модель сама решает когда заканчивать. Результаты всех раундов складываются в файлы, чтобы контекст лида не забивался между итерациями. Когда данных хватает - собирает финальный отчёт с цитатами, читая резульаты всех субагентов.
Это конечно верхнеуровневая картинка. Чтобы это всё не разваливалось на практике, Антропик допилили инфраструктуру вокруг: сжатие контекста когда агент упирается в лимит, файловую систему для передачи промежуточных результатов между агентами, отдельную memory для оркестратора (живёт только в рамках одного ресёрча, не путать с памятью между чатами). Подробнее можно почитать тут
У gemini и openai дип рисерчи работают концептуально по другому. Если этот пост не наберет ни одной обидной эмодзи - расскажу как.
Под капотом это не одна умная моделька (как у опенаи), там Opus как менеджер + 3-5 параллельных субагентов, каждый в своём контексте. Допустим спрашиваешь "сравни подходы к alignment у Anthropic, OpenAI и DeepMind за последний год". Opus декомпозирует и раздаёт задачи: один субагент копает Anthropic, другой OpenAI, третий DeepMind, четвёртый ищет независимую критику. Все работают параллельно. Каждый субагент переварил куча статей, сайтов итп в своём контексте, выдал концентрат на пару тысяч токенов + ссылки на источники. Opus читает концентраты, а не сырые страницы. При необходимости может обратиться к ключевым первоисточникам по ссылкам, если не хватает самари. Если видит пробелы в ресерче - спавнит ещё субагентов на доработку, глубина диприсерча строга не ограничена, модель сама решает когда заканчивать. Результаты всех раундов складываются в файлы, чтобы контекст лида не забивался между итерациями. Когда данных хватает - собирает финальный отчёт с цитатами, читая резульаты всех субагентов.
Это конечно верхнеуровневая картинка. Чтобы это всё не разваливалось на практике, Антропик допилили инфраструктуру вокруг: сжатие контекста когда агент упирается в лимит, файловую систему для передачи промежуточных результатов между агентами, отдельную memory для оркестратора (живёт только в рамках одного ресёрча, не путать с памятью между чатами). Подробнее можно почитать тут
У gemini и openai дип рисерчи работают концептуально по другому. Если этот пост не наберет ни одной обидной эмодзи - расскажу как.
❤47🔥24👍13🤡12😁5🖕5👻4🤝3🎃2💊2💋1
Forwarded from пепега pro max (Maksim Artemev)
JB сегодня запустили public preview своей новой агентской среды!
Мне (к сожалению) не заплатили за рекламу, но выглядит очень интересно и вкусно. Там можно и свои ключи использовать, и жб подписку.
Мой товарищ который лидит эту разработку обещает что оно уже скоро обрастет фичами и станет #1 агентской средой в мире, так что срочно нужно перекатываться🫡
https://air.dev/
Мне (к сожалению) не заплатили за рекламу, но выглядит очень интересно и вкусно. Там можно и свои ключи использовать, и жб подписку.
Мой товарищ который лидит эту разработку обещает что оно уже скоро обрастет фичами и станет #1 агентской средой в мире, так что срочно нужно перекатываться
https://air.dev/
Please open Telegram to view this post
VIEW IN TELEGRAM
air.dev
Air: Multitask with agents, stay in control
JetBrains Air is the Agentic Development Environment where Codex, Claude Agent, Gemini CLI, and Junie execute independent task loops without interfering with each other.
💩10🔥7👎3🤡2🍌1🖕1
Последние пару недель все задачи вайбкожу через Ralph Loop и считаю что это очередной прорыв в вайбкодинге
Суть - заворачиваешь claude code в while true, каждая итерация с чистым контекстом.
Агент читает план из файла, берет одну задачу, пилит, тесты, коммит, обновляет прогресс. Контекст выкидывается целиком. Мы специально не используем /compact из-за сжатия с потерями, которые часто вызывают проблемы (например недавно из за неудачного compact агент удалил куча сообщений с почты директора по alignment в Meta Superintelligence Labs)
В таком подходе модель всегда в первых 30-60% контекстного окна где качество максимальное + нет компактов + нет проблем что какой то инфы нет в контексте.
Весь стейт живет в файлах - PRD, прогресс-трекер, AGENTS.md с паттернами проекта. За итерацию делается одна задача.
Например можно создать TASKS.md - с описанием задач которые надо сделать. В качестве промпта ralph цикла буедт что то "открой TASKS.md прочитай какие задачи уже выполнены, а какие в планах. Затем возьми самую первую не выполненную задачу, изучи кодовую базу проекта и начни ее выполнять. После завершения - отметь ее как выполненной в @TASKS.md а так же закомить изменения.". Можете придумать какой то свой промпт, который лучше подходит под ваши проекты и ваш стиль кодинга.
Агент будет сам поочередно делать задачи, а вы можете пойти заниматься другими делами собирать TASKS.md для другого проекта.
Суть - заворачиваешь claude code в while true, каждая итерация с чистым контекстом.
while true; do
claude -p "$(cat PROMPT.md)"
done
Агент читает план из файла, берет одну задачу, пилит, тесты, коммит, обновляет прогресс. Контекст выкидывается целиком. Мы специально не используем /compact из-за сжатия с потерями, которые часто вызывают проблемы (например недавно из за неудачного compact агент удалил куча сообщений с почты директора по alignment в Meta Superintelligence Labs)
В таком подходе модель всегда в первых 30-60% контекстного окна где качество максимальное + нет компактов + нет проблем что какой то инфы нет в контексте.
Весь стейт живет в файлах - PRD, прогресс-трекер, AGENTS.md с паттернами проекта. За итерацию делается одна задача.
Например можно создать TASKS.md - с описанием задач которые надо сделать. В качестве промпта ralph цикла буедт что то "открой TASKS.md прочитай какие задачи уже выполнены, а какие в планах. Затем возьми самую первую не выполненную задачу, изучи кодовую базу проекта и начни ее выполнять. После завершения - отметь ее как выполненной в @TASKS.md а так же закомить изменения.". Можете придумать какой то свой промпт, который лучше подходит под ваши проекты и ваш стиль кодинга.
Агент будет сам поочередно делать задачи, а вы можете
🔥27🤡5🤯2🤮2💩2🤝2
Пользуюсь Whisp Flow для закидывания задач клод коду последние несколько месяцев - это в несколько раз быстрее чем писать, а клод без проблем распаришвает мой поток мысли.
Попробовал все альтернативы, включая опенсорсные - нигде даже близко нет такого качества (а я очень хорошо искал, так как жмотил деньги на подписку)
Разобрался почему. Дело не в модели. Whisper у всех одинаковый. Разница в контексте который уходит в модели вместе с аудиозаписью
В каждый запрос Wispr собирает:
- App context - имя приложения, URL, тип (email/messaging/browser/developer)
- Textbox - текст до/после курсора, выделенный текст через accessibility features мака.
- Dynamic vocabulary - через OCR и accessibility собирает термины с экрана (имена переменных в IDE, имена файлов, имена людей в чате) и передает в виспер, что бы он это лучше переводил. Static vocabulary - задается в настройках, так же передается в декодер виспера.
- Screenshot - скриншот активного окна, передается в VLM на постпроцессинге.
- Style config - уровень формальности, email-подпись, tagging style для Slack, задается в настройках + зависит от приложения.
- Previous ASR/LLM text - что модель уже надиктовала в этой сессии, чтобы следующие фразы были консистентны
Поэтому когда ты диктуешь в Slack - получаешь короткое сообщение, в Claude Code - промпт с правильными именами переменных. Если поправляешься на ходу ("нет, не в 2 а в 4") - оно выкинет первую версию и оставит только финальную.
Искал опенсорс аналог - не нашел ничего сравнимого. Потому что хороший продукт это не "возьми whisper и оберни в UI", а инженерная и продуктовая работа.
Если будете брать себе - по этой ссылке дают триалку.
Попробовал все альтернативы, включая опенсорсные - нигде даже близко нет такого качества (а я очень хорошо искал, так как жмотил деньги на подписку)
Разобрался почему. Дело не в модели. Whisper у всех одинаковый. Разница в контексте который уходит в модели вместе с аудиозаписью
В каждый запрос Wispr собирает:
- App context - имя приложения, URL, тип (email/messaging/browser/developer)
- Textbox - текст до/после курсора, выделенный текст через accessibility features мака.
- Dynamic vocabulary - через OCR и accessibility собирает термины с экрана (имена переменных в IDE, имена файлов, имена людей в чате) и передает в виспер, что бы он это лучше переводил. Static vocabulary - задается в настройках, так же передается в декодер виспера.
- Screenshot - скриншот активного окна, передается в VLM на постпроцессинге.
- Style config - уровень формальности, email-подпись, tagging style для Slack, задается в настройках + зависит от приложения.
- Previous ASR/LLM text - что модель уже надиктовала в этой сессии, чтобы следующие фразы были консистентны
Поэтому когда ты диктуешь в Slack - получаешь короткое сообщение, в Claude Code - промпт с правильными именами переменных. Если поправляешься на ходу ("нет, не в 2 а в 4") - оно выкинет первую версию и оставит только финальную.
Искал опенсорс аналог - не нашел ничего сравнимого. Потому что хороший продукт это не "возьми whisper и оберни в UI", а инженерная и продуктовая работа.
Если будете брать себе - по этой ссылке дают триалку.
🔥16❤5🤡5👍4👀2