Библиотека нейрозвука | Транскрибация, синтез речи, ИИ-музыка
1.84K subscribers
43 photos
70 videos
112 links
Все самое полезное про нейросети для звука: транскрибации, синтеза речи и музыки.

Список наших каналов: https://t.me/proglibrary/9197
Учиться у нас: https://proglib.io/w/3cd20c23

Обратная связь: @proglibrary_feedback_bot

По рекламе: @proglib_adv
Download Telegram
❗️Вакансии «Библиотеки программиста» — ждем вас в команде!

Мы постоянно растем и развиваемся, поэтому создали отдельную страницу, на которой будут размещены наши актуальные вакансии. Сейчас мы ищем:
👉авторов в наше медиа proglib.io
👉контент-менеджеров для ведения телеграм-каналов

Подробности тут.

Мы предлагаем частичную занятость и полностью удаленный формат работы — можно совмещать с основной и находиться в любом месте🌴

Ждем ваших откликов 👾
Please open Telegram to view this post
VIEW IN TELEGRAM
В Японии разработали уникальные наушники NEKO HP-C28BT, украшенные кейсами в виде милых котят.

Наушники не только привлекают внимание своим дизайном, но и издают мяукающие звуки при включении, выключении и установлении соединения.

#новости_нейрозвук
Для Android вышло приложение, которое ломает языковые барьеры

Подключаем два телефона в приложении и общаемся через наушники — RTranslator сам переводит диалог на нужный язык.

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Звуковые эффекты за 8 секунд

Soundeff - это ИИ-генератор звуковых эффектов, наподобие того, который есть в Elevenlabs. Еще в нем есть библиотека пользовательских звуковых генераций.

По времени обе нейросети генерирует звуковые эффекты одинаково, примерно за 8 секунд.

Отличия Soundeff от Elevenlabs

💩 Длина выходного аудио в Elevenlabs 8 секунд, а в Soundeff — 5 секунд.
💩 В Elevenlabs функция звуковых эффектов пока бесплатна для всех пользователей, в Soundeff бесплатно дается 3 генерации звука, далее подписка от 10$ за 400 генераций.

В платной версии Soundeff генерация звука будет быстрее 8 секунд. Длину аудио в платном тарифе скоро увеличат до 10 секунд и добавят пользовательские настройки.

#новости_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM
ИИ-стартап Kyutai представил голосового помощника Moshi

Разработчики заявили, что их система говорит с использованием 70 различных эмоций и стилей, дает советы по восхождению на Эверест и читает собственное стихотворение.

#новости_нейрозвук
RC Stable Audio Tools

Stable Audio Tools предоставляет инструменты обучения и логического вывода для генерации аудиомоделей из Stability AI. Тренируем свои музыкальные модели и генерим музыку. Фичи этого форка: динамическая загрузка моделей, получение MIDI, фиксация BPM.

#новости_нейрозвук
This media is not supported in your browser
VIEW IN TELEGRAM
Сегодня интернет обсуждает русский дублях Сарумана из «Властелина колец»

Злодея озвучивал главный из «Ворониных».

#новости_нейрозвук
Появился сервис, который позволяет анимировать и озвучивать персонажей

Голос и изображение можно сгенерировать на сайте или загрузить самостоятельно. Все бесплатно, есть поддержка русского языка.

#новости_нейрозвук
Riverside

Передовой инструмент для преобразования аудио- и видеоконтента в точные текстовые расшифровки. Предлагает пользователям возможность расшифровывать записи на более чем 100 языках с заявленной точностью 99%.

Плюсы:

💩 неограниченное количество транскрипций предлагается бесплатно
💩 удобный интерфейс позволяет легко записывать, загружать и транскрибировать без необходимости сложного обучения
💩принимает популярные форматы аудио- и видеофайлов, такие как MP3, WAV, MP4 и MOV
💩 можно редактировать свои записи прямо из стенограммы, что упрощает рабочий процесс постобработки

Минусы:

💩 поддерживается только избранное количество типов файлов, что может ограничивать пользователей различными форматами
💩 время транскрипции может варьироваться в зависимости от нагрузки на сервер
💩 для работы требуется подключение к инету

#новости_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM
🤖 Итоги недели в мире ИИ и обзоры новых сервисов: как узнать ход мыслей ИИ-модели⁠⁠

У нас вышла новая статья на Пикабу по мотивам еженедельной рассылки про последние новости и тенденции в мире ИИ.

Ниже — небольшая выдержка из статьи, а целиком читайте здесь 👈

💬 Новости

🔘По мнению ИИ-светил, момент создания AGI не за горами. В то же время нынешние ИИ-модели продолжают совершать абсурдные ошибки.
🔘Разработчики Alibaba нашли способ генерировать длинные видео (до сих пор это было не под силу даже Sora). Множество примеров — на сайте проекта ExVideo.
🔘Исследование DeepMind показало, что создание политических дипфейков является самым популярным сценарием использования ИИ в противоправных целях.
🔘Крупнейшие музыкальные лейблы подали коллективный иск против стартапов Udio и Suno, ИИ-модели которых генерируют потрясающе реалистичные и качественные песни в любом жанре.

🛠 Инструменты

🔘Find AI — ИИ-поисковик, оптимизированный для розыска информации об ИТ-компаниях и специалистах ИТ-сферы.
🔘Cartwheel — анимирует 3D-персонажей для рекламы, соцсетей, видеоигр, VR/AR и кино.
🔘Revid — создает короткие видео для ТикТока.
🔘Lenso — ИИ-поисковик для изображений.
🔘Tellers — создает видео по любым текстам и статьям.

👾 Эффективные техники написания промптов: как улучшить качество ответов чат-бота с помощью <scratchpad>

Эта методика направлена на улучшение структуры и качества ответов ИИ: она делает процесс более прозрачным и управляемым.

Вот как надо использовать тег <scratchpad>:

✔️ Четкая постановка задачи.
✔️ Использование «черновика». Добавьте раздел, обозначенный тегами <scratchpad> — в нем нужно дать ИИ указание составить план подхода к решению задачи.
✔️ Планирование ответа. Это позволяет ИИ показать ход своих «мыслей».
✔️ Проверка и итерация. Вы просматриваете предложенный план и при необходимости корректируете его.
✔️ Генерация ответа. После вашего одобрения ИИ использует этот план для создания ответа.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
HeyGen выкатили новую бесплатную функцию Expressive photo avatar которая озвучит любое фото вашим текстом.

Работает просто:

💩 загружаем изображение, затем загружаем аудио до 30 секунд

💩 ждем, и получаем видео с липсинком, подстроенными под озвучку губами и мимикой.

💩 Лица знаменитостей не пропускает

#новости_нейрозвук
Please open Telegram to view this post
VIEW IN TELEGRAM
🖥 Итоги недели в мире Python и обзоры новых инструментов: история создания Python и лучшие практики разработки⁠⁠

У нас есть еженедельная рассылка о последних открытиях и тенденциях в мире Python. Теперь мы публикуем её и на Пикабу 🧁

Ниже — небольшая часть выпуска, а целиком читайте здесь 👈

🥳 Питону — 33 года!

В 2024 году Python исполняется 33 года. За это время он прошёл невероятный путь — от пет-проекта до одного из самых универсальных и популярных языков. О том, как развивались основные концепции языка, почему крупные ИТ-компании боялись, что автобус может переехать Гвидо, и когда на логотипе Python всё-таки появились змеи — расскажет публикация на Хабре.

📒 Google Colab или Jupyter Notebook: что лучше подойдёт для новичка

Итак, вы решили заняться Data Science и узнали, что есть две основные платформы в этой сфере — Jupyter Notebook и Google Colab. Главное различие между ними заключается в том, что первая работает локально у вас на компьютере, а вторая — в облаке. О других нюансах читайте в статье.

Вы можете подписаться на email-рассылку здесь
Please open Telegram to view this post
VIEW IN TELEGRAM
This media is not supported in your browser
VIEW IN TELEGRAM
Нейросеть теперь может утащить любой голос.
Все просто:
включаем микрофон и общаемся с ботом, пока он считывает все параметры вашего голоса. Работает пока с английским.

Попробовать можно тут

#новости_нейрозвук