xVibeNot

Чтобы построить stt - llm - tts пайплайн/агента, стоит рассмотреть некоторые метрики.
Обычная скорость моделей распознавания, генерации токенов и синтеза речи нам особо ничего не дает, больше всего нас интересует latency (задержка, сколько юзер ждет ответа), именно она влияет на опыт больше всего.

Ждем ответа

Рассмотрим что должно происходить в пайплайне для получения ответа в самом простом виде:
- Речь
- Транскрибирование
- Запрос в LLM
- Синтез речи
- Воспроизведение

Если мы построим такой пайплайн, то юзер будет ждать ответа по 5-10 секунд (и больше) после того как закончил говорить, что нам абсолютно не подходит.
Тут есть места, которые мы можем улучшить.

STT/ASR

Во-первых, чтобы понять когда юзер закончил говорить мы используем VAD (Voice Activity Detection), и если пауза достаточно большая (0.5-1s к примеру) - значит речь закончилась и надо приступать к генерации ответа.
Но, нам не обязательно просто ждать пока человек договорит, мы в это время можем транскрибировать часть аудио.
Можно взять модель t-one:
https://github.com/voicekit-team/T-one
Это стриминг STT/ASR модель, принимает аудио чанками по 300ms, возвращает текст. Так к моменту окончания речи, большая часть аудио уже будет транскрибирована и останутся только последние чанки.

LLM

Тут мы ничего не можем сделать на входе, так как для генерации ответа нам нужен весь контекст (весь текст из STT/ACR). Но, чтобы не ждать полного ответа можно вызывать llm в режиме stream, llm будет возвращать часть токенов/текста по мере генерации. Это поможет нам на следующем этапе.

TTS

Тут похожая ситуация, нам нельзя ждать генерации полной аудио дорожки, так как это долго, значит нам нужна модель которая умеет отдавать синтезированное аудио чанками и со скоростью выше, чем аудио воспроизводится.
Ранее упомянутая XTTSv2 вполне с этим справляется.

Плюс, раз мы не ждем полного ответа llm, мы можем начать генерацию речи раньше, нам надо только определить минимальное кол-во текста для генерации, это зависит от модели и качества модели синтеза.

Работает это примерно так:
Мы собираем стрим из LLM, как только накопили 1 предложение, отправляем на синтез. Разбивать текст можно по предложениям или по кол-ву символов. Лучший результат я получал комбинируя эти 2 подхода, разбивал текст по предложениям, но в районе 150-160 символов (xtts имеет ограничение, максимум 180 символов для синтеза).

Итоговый пайплайн должен выглядеть примерно так:
- Начало речи
- Начало транскрибирования
- Конец речи - тут юзер начинает ждать
- Конец транскрибирования (минимальная задержка после конца речи)
- Начало запроса в LLM
- Начало синтеза речи
- Начало воспроизведения - тут получает первый ответ
- Конец запроса в LLM
- Конец синтеза речи
- Конец воспроизведения

Таким образом при получении минимального кол-ва аудио для воспроизведения, мы сразу даем ответ, а пока юзер слушает, мы генерируем оставшуюся часть.

👍2🔥2

108 views08:45