Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
1.84K subscribers
43 photos
70 videos
112 links
Все самое полезное про нейросети для звука: транскрибации, синтеза речи и музыки.

Список наших каналов: https://t.me/proglibrary/9197
Учиться у нас: https://proglib.io/w/3cd20c23

Обратная связь: @proglibrary_feedback_bot

По рекламе: @proglib_adv
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
Suno таки выпустили Audio Input, через которую можно подгружать свои звуки или семплы, и нейронка на их основе по вашему промпту создаст музыку. .

1. Заходим в Library > Upload audio
2. Загружаем или записываем фрагмент длиной от 6 до 60 секунд
3. Нажимаем extend на аудио и выбираем тайминг откуда генерировать, жанр, и свой текст песни, если нужно.

#новости_нейрозвук
Media is too big
VIEW IN TELEGRAM
ElevenLabs выпустила читалку
Теперь можно слушать любую статью, PDF или любой текст с помощью голоса ИИ, кстати качество на высшем уровне.

Вы можете выбрать любой понравившийся голос и слушать контент в любом месте. Из-за того что, только сейчас сделали анонс, другие языки, кроме eng не подвезли. Даже не для всех стран доступно. Бесплатно дарят подписку на 3 месяца.

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Бесплатная нейронка для генерации голоса. Она понимает 140 языков, включая русский.

Можно клонировать абсолютно любой голос. Нужен лишь краткий фрагмент на 6 секунд.

Скачать с GitHub можно здесь

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Бесплатный ИИ-генератор звуковых эффектов.

Энтузиасты допилили Stable Audio и запихнули в удобный интерфейс в стиле 11labs.

#новости_нейрозвук
Media is too big
VIEW IN TELEGRAM
Мейджор лейблы Universal, Warner, Sony судятся с Suno и Udio.

Судья: что вы можете сказать в своё оправдание?
Suno и Udio:

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Suno дали возможность всем подгружать своё аудио для генерации на его основе.

💩 Заходим в Library и жмём Upload audio
💩 Загружаем или записываем аудио/видео длиной от 6 до 60 секунд
💩 На загруженном фрагменте жмём Extend
💩 Пишем промт целевого звучания, текст песни (опционально), и тайминг откуда генерить.
💩 Запускаем.

#новости_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейросеть для клонирования голоса MARS5

Новая нейросеть MARS5 доступна бесплатно в GitHub, либо либо на платформе Camb AI. Где на старте дается 5 минут. На самой платформе еще есть видеодубляж с переводом, и это тоже входит в бесплатные 5 минут.
Политика как и у ElevenLabs — те каждый месяц дают бесплатно 10к знаков (10 мин аудио), которые можно потратить на дубляж с переводом, перевести текст в аудио, создать голоса, а звуковые эффекты и вовсе пока бесплатны.

🟣 Клонирование голоса:
Для того, чтобы клонировать голос, загружать аудио нужно в формате .wav, длина от 90 секунд до 10 минут.
Бесплатно дает загрузить 2 голоса для клонирования. Голосами можно озвучить до 400 символов текста за раз.
Работает со 140 языками, включая русский

#новости_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
ElevenLabs запустила Voice Isolator для удаления фонового шума.

Можно скормить файлы длиной до 500 МБ или 1 час.

#новости_нейрозвук
Media is too big
VIEW IN TELEGRAM
Аудио-визуальный перфоманс в реальном времени.

AnimateDiff в Comfy генерит визуал, который затем воспроизводится в Touch Designer с реагированием на аудио. Дальше всё это идёт в Notch для эффектов, а лазеры и проекция управляются в Touch Designer.

Софт:
💩 ComfyUI (StableDiffusion, AnimateDiff, IP Adapter, кастомные моушн лоры, разные контролнеты, аннотаторы, Depth Map LoRA, интерполяция кадров в FILM)
💩 Notch (для генерации начального Ч/Б видео и реалтаймового 3D композинга)
💩 TouchDesigner (для обработки сигналов от системы, MIDI и игрового контроллера, распознавания бита, плейбека, контроля света DMX, контроля лазеров ILDA, хранения пресетов, recall)
💩 Ableton (для управления шоу)
💩 Max MSP (для кастомных устройств Ableton)

Железо:
💩 4090 PC (для генерации в AnimateDiff)
💩 3090 SFF PC (ПК для генерации контента в реальном времени)
💩 Epson L530U Projector
💩 LaserCube 7.5w Ultra
💩 Ableton Push
💩 Midi Fighter Twister
💩 8BitDo Pro 2 Controller
💩 Elgato StreamDeck
💩 Focusrite Scarlett 4i4

#новости_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM
В Японии разработали уникальные наушники NEKO HP-C28BT, украшенные кейсами в виде милых котят.

Наушники не только привлекают внимание своим дизайном, но и издают мяукающие звуки при включении, выключении и установлении соединения.

#новости_нейрозвук
Для Android вышло приложение, которое ломает языковые барьеры

Подключаем два телефона в приложении и общаемся через наушники — RTranslator сам переводит диалог на нужный язык.

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Звуковые эффекты за 8 секунд

Soundeff - это ИИ-генератор звуковых эффектов, наподобие того, который есть в Elevenlabs. Еще в нем есть библиотека пользовательских звуковых генераций.

По времени обе нейросети генерирует звуковые эффекты одинаково, примерно за 8 секунд.

Отличия Soundeff от Elevenlabs

💩 Длина выходного аудио в Elevenlabs 8 секунд, а в Soundeff — 5 секунд.
💩 В Elevenlabs функция звуковых эффектов пока бесплатна для всех пользователей, в Soundeff бесплатно дается 3 генерации звука, далее подписка от 10$ за 400 генераций.

В платной версии Soundeff генерация звука будет быстрее 8 секунд. Длину аудио в платном тарифе скоро увеличат до 10 секунд и добавят пользовательские настройки.

#новости_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM
ИИ-стартап Kyutai представил голосового помощника Moshi

Разработчики заявили, что их система говорит с использованием 70 различных эмоций и стилей, дает советы по восхождению на Эверест и читает собственное стихотворение.

#новости_нейрозвук
RC Stable Audio Tools

Stable Audio Tools предоставляет инструменты обучения и логического вывода для генерации аудиомоделей из Stability AI. Тренируем свои музыкальные модели и генерим музыку. Фичи этого форка: динамическая загрузка моделей, получение MIDI, фиксация BPM.

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня интернет обсуждает русский дублях Сарумана из «Властелина колец»

Злодея озвучивал главный из «Ворониных».

#новости_нейрозвук
Появился сервис, который позволяет анимировать и озвучивать персонажей

Голос и изображение можно сгенерировать на сайте или загрузить самостоятельно. Все бесплатно, есть поддержка русского языка.

#новости_нейрозвук
Riverside

Передовой инструмент для преобразования аудио- и видеоконтента в точные текстовые расшифровки. Предлагает пользователям возможность расшифровывать записи на более чем 100 языках с заявленной точностью 99%.

Плюсы:

💩 неограниченное количество транскрипций предлагается бесплатно
💩 удобный интерфейс позволяет легко записывать, загружать и транскрибировать без необходимости сложного обучения
💩принимает популярные форматы аудио- и видеофайлов, такие как MP3, WAV, MP4 и MOV
💩 можно редактировать свои записи прямо из стенограммы, что упрощает рабочий процесс постобработки

Минусы:

💩 поддерживается только избранное количество типов файлов, что может ограничивать пользователей различными форматами
💩 время транскрипции может варьироваться в зависимости от нагрузки на сервер
💩 для работы требуется подключение к инету

#новости_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
HeyGen выкатили новую бесплатную функцию Expressive photo avatar которая озвучит любое фото вашим текстом.

Работает просто:

💩 загружаем изображение, затем загружаем аудио до 30 секунд

💩 ждем, и получаем видео с липсинком, подстроенными под озвучку губами и мимикой.

💩 Лица знаменитостей не пропускает

#новости_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Нейросеть теперь может утащить любой голос.
Все просто:
включаем микрофон и общаемся с ботом, пока он считывает все параметры вашего голоса. Работает пока с английским.

Попробовать можно тут

#новости_нейрозвук