Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
2.22K subscribers
108 photos
138 videos
188 links
Все самое полезное про нейросети для звука: транскрибации, синтеза речи и музыки.

Список наших каналов: https://t.me/proglibrary/9197
Учиться у нас: https://proglib.io/w/3cd20c23

Обратная связь: @proglibrary_feedback_bot

По рекламе: @proglib_adv
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
ElevenLabs превратили свою фичу с генерацией звуков в настоящую имбу — вам даже промт больше не нужно писать, достаточно только закинуть видео.

Сервис доступен бесплатно

#новости_нейрозвук
Media is too big
VIEW IN TELEGRAM
Udio: выпустили Audio Promting, инструмент для генерации на основе аудио от пользователя. Конкурент Audio Input от Suno.

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Нейронка Hedra создает озвучку для любых персонажей.

Использовать можно полностью бесплатно, причем на русском языке.

#новости_нейрозвук
Скоро появится крутая штука — video2audio. Google только что, объявил о своей совершенно новой работе — преобразование аудио из видео.

Попробовать пока негде, но тут можно узнать подробности.

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Elevenlabs не отстают — они представили API-интерфейс Text to Sound Effects, которое уже работает.

Они сделали сайт, где можно бесплатно попробовать Video to Sounds Effects.

#новости_нейрозвук
Meta релизнули веса интересной модели для ресёрча

Multi-Token Prediction Language Model — модель которая за раз предсказывает несколько следующих токенов. Это заметно ускоряет инференс, плюс тюнинг такой модели для генерации одного токена за раз обгоняет обычные методы тренировки. Модель только для ресёрча, в коммерческих целях их использовать не позволяет лицензия.
Веса
Пейпер

Ещё пообещали выпустить в этом месяце новую модель для генерации аудио JASCO, с некоммерческой лицензией (CC-BY-NC), добавив ее в либу Audiocraft.
Репа, где будет релиз
Примеры работы модели

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Suno таки выпустили Audio Input, через которую можно подгружать свои звуки или семплы, и нейронка на их основе по вашему промпту создаст музыку. .

1. Заходим в Library > Upload audio
2. Загружаем или записываем фрагмент длиной от 6 до 60 секунд
3. Нажимаем extend на аудио и выбираем тайминг откуда генерировать, жанр, и свой текст песни, если нужно.

#новости_нейрозвук
👾 Дуэт для старта в Data Science

Когда все казалось потерянным и надежда на карьеру в DS и аналитики исчезала. Он часами изучал возможности, но так и не находил выхода.

Но появилась она, с предложением, которое изменит всё…

...до 30 июня курс по математике за полцены и курс по Machine Learning в подарок

🛍14 990 ₽ (вместо 29 990 ₽)🛍

Что ждёт вас на курсе:

⭐️Полугодовая программа от преподавателей ВМК МГУ

⭐️47 видеолекций и 150 практических заданий

⭐️Бессрочный доступ ко всем материалам курса

⭐️Развернутая обратная связь по всем домашним заданиям и ссылки на полезные дополнительные материалы

🫶 Воспользуйтесь шансом, чтобы начать свой путь в Data Science – https://proglib.io/w/055e33f3
Please open Telegram to view this post
VIEW IN TELEGRAM
Media is too big
VIEW IN TELEGRAM
ElevenLabs выпустила читалку
Теперь можно слушать любую статью, PDF или любой текст с помощью голоса ИИ, кстати качество на высшем уровне.

Вы можете выбрать любой понравившийся голос и слушать контент в любом месте. Из-за того что, только сейчас сделали анонс, другие языки, кроме eng не подвезли. Даже не для всех стран доступно. Бесплатно дарят подписку на 3 месяца.

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Бесплатная нейронка для генерации голоса. Она понимает 140 языков, включая русский.

Можно клонировать абсолютно любой голос. Нужен лишь краткий фрагмент на 6 секунд.

Скачать с GitHub можно здесь

#новости_нейрозвук
Расширения Google Chrome для транскрибирования

💩 Tactiq автоматически законспектирует рабочие совещания в Zoom, Google Meet и MS Teams.

Сервис хранит конспекты всех звонков — можно вернуться к более старым записям звонков и перечитать их в любой момент.

💩 бесплатно 10 транскрипций звонков в в месяц
💩 есть русский язык (меняется через кнопку «Change»)
💩 если нужно больше транскрипций, цена 9 USD / месяц
💩 записывает только аудио

💩 tl;dv, а вот и само приложение это инструмент, который помогает пользователям записывать, транскрибировать, делать клипы и делиться своими онлайн-встречами в Google Meet и Zoom

💩 для небольших команд полностью бесплатный с неограниченным количеством транскрипции звонков
💩 есть запись видео
💩 есть русский язык
💩 для больших команд и для пользователей, которым нужен расширенный функционал 25 USD / месяц

#обзор_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Бесплатный ИИ-генератор звуковых эффектов.

Энтузиасты допилили Stable Audio и запихнули в удобный интерфейс в стиле 11labs.

#новости_нейрозвук
🤖 Итоги недели в мире ИИ и обзоры новых сервисов: как обойти цензуру ИИ-модели

У нас вышла новая статья на VC по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬 Новости
• Американский режиссер Гэри Хаствит выпустил короткометражку, которая сама себя переписывает при каждом просмотре.
• В Лондоне отменили премьеру фильма «Последний сценарист», созданного при помощи ChatGPT — из-за недовольства публики, не желающей смотреть ИИ-продукцию.
• Dell, Nvidia и Super Micro Computer объединили усилия в процессе создания грандиозного ИИ-суперкомпьютера для xAI Илона Маска.
• Илья Суцкевер, бывший главный научный сотрудник OpenAI, основал компанию Safe Superintelligence Inc, которая будет заниматься обеспечением безопасности искусственного суперинтеллекта.


🛠 Инструменты
AutoKT — автоматически пишет и поддерживает подробную документацию для любого проекта.
• Т-Ж опубликовал подборку из 10 лучших нейронок для генерации аватарок в стиле аниме.
Sourcery — код-ревьюер, интегрируется с GitHub и GitLab, проверяет каждый запрос на вытягивание.

👾 Как «разцензурить» модель
Современные языковые модели обучены отказываться от выполнения потенциально вредных или неэтичных запросов. Хотя это важно для безопасности, это ограничивает гибкость моделей. Максим Лабонн представил технику под названием «аблитерация» (ablation + obliteration), которая позволяет «разцензурить» языковые модели без переобучения.

Вы можете подписаться на email-рассылку здесь
Media is too big
VIEW IN TELEGRAM
Мейджор лейблы Universal, Warner, Sony судятся с Suno и Udio.

Судья: что вы можете сказать в своё оправдание?
Suno и Udio:

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Suno дали возможность всем подгружать своё аудио для генерации на его основе.

💩 Заходим в Library и жмём Upload audio
💩 Загружаем или записываем аудио/видео длиной от 6 до 60 секунд
💩 На загруженном фрагменте жмём Extend
💩 Пишем промт целевого звучания, текст песни (опционально), и тайминг откуда генерить.
💩 Запускаем.

#новости_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM
Нейросеть для клонирования голоса MARS5

Новая нейросеть MARS5 доступна бесплатно в GitHub, либо либо на платформе Camb AI. Где на старте дается 5 минут. На самой платформе еще есть видеодубляж с переводом, и это тоже входит в бесплатные 5 минут.
Политика как и у ElevenLabs — те каждый месяц дают бесплатно 10к знаков (10 мин аудио), которые можно потратить на дубляж с переводом, перевести текст в аудио, создать голоса, а звуковые эффекты и вовсе пока бесплатны.

🟣 Клонирование голоса:
Для того, чтобы клонировать голос, загружать аудио нужно в формате .wav, длина от 90 секунд до 10 минут.
Бесплатно дает загрузить 2 голоса для клонирования. Голосами можно озвучить до 400 символов текста за раз.
Работает со 140 языками, включая русский

#новости_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM