Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
2.16K subscribers
100 photos
114 videos
173 links
Все самое полезное про нейросети для звука: транскрибации, синтеза речи и музыки.

Список наших каналов: https://t.me/proglibrary/9197
Учиться у нас: https://proglib.io/w/3cd20c23

Обратная связь: @proglibrary_feedback_bot

По рекламе: @proglib_adv
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
ElevenLabs запустила Voice Isolator для удаления фонового шума.

Можно скормить файлы длиной до 500 МБ или 1 час.

#новости_нейрозвук
Media is too big
VIEW IN TELEGRAM
Аудио-визуальный перфоманс в реальном времени.

AnimateDiff в Comfy генерит визуал, который затем воспроизводится в Touch Designer с реагированием на аудио. Дальше всё это идёт в Notch для эффектов, а лазеры и проекция управляются в Touch Designer.

Софт:
💩 ComfyUI (StableDiffusion, AnimateDiff, IP Adapter, кастомные моушн лоры, разные контролнеты, аннотаторы, Depth Map LoRA, интерполяция кадров в FILM)
💩 Notch (для генерации начального Ч/Б видео и реалтаймового 3D композинга)
💩 TouchDesigner (для обработки сигналов от системы, MIDI и игрового контроллера, распознавания бита, плейбека, контроля света DMX, контроля лазеров ILDA, хранения пресетов, recall)
💩 Ableton (для управления шоу)
💩 Max MSP (для кастомных устройств Ableton)

Железо:
💩 4090 PC (для генерации в AnimateDiff)
💩 3090 SFF PC (ПК для генерации контента в реальном времени)
💩 Epson L530U Projector
💩 LaserCube 7.5w Ultra
💩 Ableton Push
💩 Midi Fighter Twister
💩 8BitDo Pro 2 Controller
💩 Elgato StreamDeck
💩 Focusrite Scarlett 4i4

#новости_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM
❗️Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉авторов в наше медиа proglib.io
👉контент-менеджеров для ведения телеграм-каналов

Подробности тут.

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾
Please open Telegram to view this post
VIEW IN TELEGRAM
В Японии разработали уникальные наушники NEKO HP-C28BT, украшенные кейсами в виде милых котят.

Наушники не только привлекают внимание своим дизайном, но и издают мяукающие звуки при включении, выключении и установлении соединения.

#новости_нейрозвук
Для Android вышло приложение, которое ломает языковые барьеры

Подключаем два телефона в приложении и общаемся через наушники — RTranslator сам переводит диалог на нужный язык.

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Звуковые эффекты за 8 секунд

Soundeff - это ИИ-генератор звуковых эффектов, наподобие того, который есть в Elevenlabs. Еще в нем есть библиотека пользовательских звуковых генераций.

По времени обе нейросети генерирует звуковые эффекты одинаково, примерно за 8 секунд.

Отличия Soundeff от Elevenlabs

💩 Длина выходного аудио в Elevenlabs 8 секунд, а в Soundeff — 5 секунд.
💩 В Elevenlabs функция звуковых эффектов пока бесплатна для всех пользователей, в Soundeff бесплатно дается 3 генерации звука, далее подписка от 10$ за 400 генераций.

В платной версии Soundeff генерация звука будет быстрее 8 секунд. Длину аудио в платном тарифе скоро увеличат до 10 секунд и добавят пользовательские настройки.

#новости_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM
ИИ-стартап Kyutai представил голосового помощника Moshi

Разработчики заявили, что их система говорит с использованием 70 различных эмоций и стилей, дает советы по восхождению на Эверест и читает собственное стихотворение.

#новости_нейрозвук
RC Stable Audio Tools

Stable Audio Tools предоставляет инструменты обучения и логического вывода для генерации аудиомоделей из Stability AI. Тренируем свои музыкальные модели и генерим музыку. Фичи этого форка: динамическая загрузка моделей, получение MIDI, фиксация BPM.

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня интернет обсуждает русский дублях Сарумана из «Властелина колец»

Злодея озвучивал главный из «Ворониных».

#новости_нейрозвук
Появился сервис, который позволяет анимировать и озвучивать персонажей

Голос и изображение можно сгенерировать на сайте или загрузить самостоятельно. Все бесплатно, есть поддержка русского языка.

#новости_нейрозвук
Riverside

Передовой инструмент для преобразования аудио- и видеоконтента в точные текстовые расшифровки. Предлагает пользователям возможность расшифровывать записи на более чем 100 языках с заявленной точностью 99%.

Плюсы:

💩 неограниченное количество транскрипций предлагается бесплатно
💩 удобный интерфейс позволяет легко записывать, загружать и транскрибировать без необходимости сложного обучения
💩принимает популярные форматы аудио- и видеофайлов, такие как MP3, WAV, MP4 и MOV
💩 можно редактировать свои записи прямо из стенограммы, что упрощает рабочий процесс постобработки

Минусы:

💩 поддерживается только избранное количество типов файлов, что может ограничивать пользователей различными форматами
💩 время транскрипции может варьироваться в зависимости от нагрузки на сервер
💩 для работы требуется подключение к инету

#новости_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Итоги недели в мире ИИ и обзоры новых сервисов: как узнать ход мыслей ИИ-модели⁠⁠

У нас вышла новая статья на Пикабу по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬 Новости

🔘По мнению ИИ-светил, момент создания AGI не за горами. В то же время нынешние ИИ-модели продолжают совершать абсурдные ошибки.
🔘Разработчики Alibaba нашли способ генерировать длинные видео (до сих пор это было не под силу даже Sora). Множество примеров — на сайте проекта ExVideo.
🔘Исследование DeepMind показало, что создание политических дипфейков является самым популярным сценарием использования ИИ в противоправных целях.
🔘Крупнейшие музыкальные лейблы подали коллективный иск против стартапов Udio и Suno, ИИ-модели которых генерируют потрясающе реалистичные и качественные песни в любом жанре.

🛠 Инструменты

🔘Find AI — ИИ-поисковик, оптимизированный для розыска информации об ИТ-компаниях и специалистах ИТ-сферы.
🔘Cartwheel — анимирует 3D-персонажей для рекламы, соцсетей, видеоигр, VR/AR и кино.
🔘Revid — создает короткие видео для ТикТока.
🔘Lenso — ИИ-поисковик для изображений.
🔘Tellers — создает видео по любым текстам и статьям.

👾 Эффективные техники написания промптов: как улучшить качество ответов чат-бота с помощью <scratchpad>

Эта методика направлена на улучшение структуры и качества ответов ИИ: она делает процесс более прозрачным и управляемым.

Вот как надо использовать тег <scratchpad>:

✔️ Четкая постановка задачи.
✔️ Использование «черновика». Добавьте раздел, обозначенный тегами <scratchpad> — в нем нужно дать ИИ указание составить план подхода к решению задачи.
✔️ Планирование ответа. Это позволяет ИИ показать ход своих «мыслей».
✔️ Проверка и итерация. Вы просматриваете предложенный план и при необходимости корректируете его.
✔️ Генерация ответа. После вашего одобрения ИИ использует этот план для создания ответа.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
HeyGen выкатили новую бесплатную функцию Expressive photo avatar которая озвучит любое фото вашим текстом.

Работает просто:

💩 загружаем изображение, затем загружаем аудио до 30 секунд

💩 ждем, и получаем видео с липсинком, подстроенными под озвучку губами и мимикой.

💩 Лица знаменитостей не пропускает

#новости_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Итоги недели в мире Python и обзоры новых инструментов: история создания Python и лучшие практики разработки⁠⁠

У нас есть еженедельная рассылка о последних открытиях и тенденциях в мире Python. Теперь мы публикуем её и на Пикабу 🧁

Ниже — небольшая часть выпуска, а целиком читайте здесь 👈

🥳 Питону — 33 года!

В 2024 году Python исполняется 33 года. За это время он прошёл невероятный путь — от пет-проекта до одного из самых универсальных и популярных языков. О том, как развивались основные концепции языка, почему крупные ИТ-компании боялись, что автобус может переехать Гвидо, и когда на логотипе Python всё-таки появились змеи — расскажет публикация на Хабре.

📒 Google Colab или Jupyter Notebook: что лучше подойдёт для новичка

Итак, вы решили заняться Data Science и узнали, что есть две основные платформы в этой сфере — Jupyter Notebook и Google Colab. Главное различие между ними заключается в том, что первая работает локально у вас на компьютере, а вторая — в облаке. О других нюансах читайте в статье.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM