Forwarded from AI Для Всех
This media is not supported in your browser
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
🔊SoundStorm: Efficient Parallel Audio Generation
Свежачок от Google! Кто-то еще сомневается, что AI через год не сможет позвонить по телефону и забронировать для вас столик в ресторане?
А в этой работе все даже круче. Нейронка умеет синтезировать даже диалоги с разными голосами. То есть сможет прочитать любой блогпост либо интервью для вас, как будто бы слушаете подкаст.
Что синтезировать можно задать текстом, а сам голос можно задать примером из нескольких секунд реальной записи.
✔️Архитектура не авторегрессионная (как в AudioLM), а генерит сразу кусками по 30 секунд, что более эффективно.
✔️Сеть тренировали на датасете из 100,000 часов диалогов.
✔️По скорости инференса уже довольно бодро, 30 секунд диалога генерируется за 2 сек на TPU-v4. И я уверен, что скоро будет еще быстрее.
Статья
Примеры
Неофициальный код от lucidrains
@ai_newz #audio
Свежачок от Google! Кто-то еще сомневается, что AI через год не сможет позвонить по телефону и забронировать для вас столик в ресторане?
А в этой работе все даже круче. Нейронка умеет синтезировать даже диалоги с разными голосами. То есть сможет прочитать любой блогпост либо интервью для вас, как будто бы слушаете подкаст.
Что синтезировать можно задать текстом, а сам голос можно задать примером из нескольких секунд реальной записи.
✔️Архитектура не авторегрессионная (как в AudioLM), а генерит сразу кусками по 30 секунд, что более эффективно.
✔️Сеть тренировали на датасете из 100,000 часов диалогов.
✔️По скорости инференса уже довольно бодро, 30 секунд диалога генерируется за 2 сек на TPU-v4. И я уверен, что скоро будет еще быстрее.
Статья
Примеры
Неофициальный код от lucidrains
@ai_newz #audio