Кот в Коде|ИИ и Питон
2.41K subscribers
207 photos
35 videos
167 links
Самоучка в IT
Укрощаю платы и MicroPython с помощью нейросетей.
Серьезные проекты с несерьезным лицом.
Не «мяу», а print('Hello World') 🐾

Поделись с кодерами! https://t.me/cat_with_code
Download Telegram
Кот в Коде|ИИ и Питон
Локальные джуны Сколько раз писал про нейронки (что в исследованиях, что в практике, что в новостях) так почти не писал про локальное развёртывание джунов на ПК. Казалось бы, развернул и развернул, чё бубнить то? Но в этой теме есть о чём поговорить. Давайте…
Забыл рассказать о сервисах, на которых можно проверить, какие нейронки можно локально поставить на ПК:

🧠 canirun.ai
Открываешь — и браузер сам определяет GPU, VRAM, RAM и CPU. Ничего вводить не надо. Сразу выдаёт для каждой модели: «Runs great», «Decent», «Barely runs» или «Too heavy» + сколько памяти жрёт.


🧠 whatmodelscanirun.com
Вводишь вручную VRAM, системную RAM, минимум токенов/сек.
Получаешь список из 122+ конфигураций GGUF-моделей, отсортированных по качеству (MMLU). RUNS WELL, TIGHT FIT, DOESN'T FIT.

Для слабого железа (4–6 GB VRAM) именно TIGHT FIT часто даёт самые сильные варианты.


Оба бесплатные, без регистрации.
Первый — для мгновенного чека, второй — для детального подбора по качеству и offload'у.

Кто пробовал — пишите в комментах, что вам удобнее!

Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
41🔥1😎1
Поговорим?

Друзья, всех привествую. Я тут пропал ненадолго, надо исправляться.
Параллельно с работой прохожу обучение по основам вайбкодинга (казалось бы, уже вайбожор, при чём тут обучение). Там от базы про варианты генерации контента вплоть до автоматизаций и создания своих приложух.

Так что интересно с вами на эту тему пообщаться. Кому что здесь больше всего интересно по нейронкам?

• Может генерация картинок и видео будут вам по душе?
• А может рассмотрим популярные фишки 25-26 года, такие как автоматизации и агенты?
• Или вообще отойдём от чего-то общего и начнём всё с базы?

Делитесь своими проблемами по нейронкам, какие у вас стоят задачи (можем их разобрать) - расскажите, как у вас дела.

А я пока пущу снова голосования.

P.S. на картинке представлены основные темы с обучения, которые мне стали интересны и что смог подцепить
31🔥1
Нужны реальные кейсы?
Имеется в виду какие нейросети под что лучше заточены, составить топ того, что я использую и для чего.
Anonymous Poll
90%
Да! Было бы прекрасно!
10%
Давай, кейсы полезнее просто текста
0%
Можно, вряд ли буду использовать :)
0%
Давай лучше больше про MicroPython
10%
🤖
Дальше голосовалка будет на больную тему, связанную с большим ограничением работы с Телеграмом. Из всех щелей доноситься информация, что скоро здесь лавочку прикроют...потом снова открывают, но не до конца... В общем, нужно с этим что-то решать.

Вопрос будет довольно-таки щепетильный, поскольку кроме как Телеграма нормальной площадки для реализации своего потенциала я не нашёл (следовательно, плохо искал😅)

Из того, что я знаю, можно попробовать попереезжать на такие платформы как:

Habr, vc.ru, dtf.ru - как я понял позиционриют себя как Яндекс Дзен, только для прогеров (поправьте, если не прав);
boosty - для предоставления более продвинутого и закрытого контента.

Кого бы я не рассматривал для переезда:

VK, одноклассники, Телега;
Мах (именно мах, а не макс).

На крайний случай:

instagram*
Youtube*
Threads*
X*
Facebook*


На всякий пожарный сделаю пометку:

*принадлежит Meta, компания признана экстремистской и запрещена в России

*Признаны экстремистскими организациями и запрещены на территории РФ.


Буду рад, если порекомендуете худо-бедно нормальные площадки🫶
Please open Telegram to view this post
VIEW IN TELEGRAM
👾31🔥1🤡1
Где будет вариант 2?
Anonymous Poll
43%
VK, одноклассники, Телега;
29%
Instagram* Threads* X* Facebook* Признаны экстремистскими организациями и запрещены на территории РФ
1
Почему «бесплатные» нейронки сжигают бюджет быстрее, чем GPT-5

Вчера решил прикрутить голосовой интерфейс к нашей метеостанции Сокол-М1, чтобы она не просто слала логи по RS485, а буквально проговаривала критические алерты. Текст есть, нужен идеальный голос. (с 1 апреля😅) Залетаю в ElevenLabs — абсолютного монополиста на рынке TTS (Text-to-Speech) в 2026 году. Маркетинг обещает «бесплатный старт». Я закидываю текст, запускаю генерацию, делаю пару итераций, чтобы убрать роботизированные интонации... и через 15 минут получаю плашку: «Лимит исчерпан». Мой внутренний VPI-калькулятор просто вышел из чата.

Давайте честно посчитаем Дельту между маркетингом и суровой физикой аудионейронок.

Возьмем флагманов:

ElevenLabs: Free-тиер дает 10 000 символов в месяц. Звучит как книга, да? В реальности это ~8–10 минут сырого аудио. Без коммерческого использования и без профессионального клонирования. В аудио генерации ты никогда не получаешь идеал с первой попытки. Ты тратишь 5-6 рендеров на подбор эмоции. Твои 10 минут превращаются в 1.5 минуты готового продукта. Хочешь работать? Плати: $5 за 30k символов (Starter) или $22 за 100k (Creator).
Кредитная математика жесткая: 1 символ = 1 кредит (но на легких моделях Turbo/Flash спишут 0.5).

Fish Audio: Текущий топ по передаче эмоций и мультиязычности. Они делают zero-shot клонирование голоса всего с 10+ секунд исходника (мгновенно, без тонкой настройки). Бесплатный тариф сильно урезан, нормальная работа стартует от $15/мес. Для сравнения, Descript Overdub (база для подкастеров) тоже просит $15/мес, но для создания качественного клона потребует от вас 10+ минут чистого аудио.

В музыкальном сегменте та же монополия:

Suno — это GPT-4 в мире музыки. Free-версия сыпет 50 кредитов в день (10 песен, обнуление в 00:00 UTC). Звучит неплохо, пока нейронка не выдаст тебе 5 раз подряд акустический мусор. Pro-тариф обойдется в $10/мес (2500 кредитов), а Premier — $30 (10 000 кредитов). Их главный конкурент Udio держит похожие лимиты, но в 2026 году, после судов с лейблами, они жестко сфокусировались на лицензированном материале, урезав креатив ради безопасности.


Инженерная боль здесь в том, что аудионейронки работают не так, как текстовые LLM. Если в коде мы платим доли центов за «грязный» токен и можем легко рефакторить строку, то в аудио генерации каждый рендер — это полный прогон тяжелой архитектуры. Стоимость ошибки (Penalty) здесь физически дорогая. Маркетинг заманивает нас "бесплатными" кнопками, но архитектура генеративного звука устроена так, что она принудительно сажает вас на корпоративную подписку.

🆓 Для MVP и черновиков — выжимаем Free-тиеры ElevenLabs/Suno, но используем дешевые модели (Turbo/Flash), чтобы экономить токены.
Никогда не пытайтесь использовать аудио с бесплатных тарифов в коммерции — алгоритмы watermarking'а в 2026 году найдут вас и кинут страйк.

💳 Если вам нужен голос для серьезного проекта, сразу закладывайте в смету $20-30/мес. Это неизбежный налог на качество.


У кого уже оформлена подписка на ElevenLabs или Suno? Окупается ли ваш VPI или кредиты сгорают на неудачных дублях?

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯211🔥1
Как перестать кормить API-гигантов и поднять свой аудио-сервер

Платить $22 за каждый чих и трястись над лимитом токенов — это не путь Дирижёра. Инженерная независимость начинается там, где заканчивается SaaS-подписка. Поэтому сегодня мы собираем свой локальный аудио-стек, который не просит денег и не сливает логи ваших проектов на чужие сервера.

Если копнуть глубже мейнстрима, рынок делится на энтерпрайз для богатых и open-source для умных.

Из корпоративного сектора стоит упомянуть Resemble AI (дорого, мощно, зато у них есть open-source движок Chatterbox с MIT-лицензией для zero-shot клонирования в реал-тайм). Есть Play.ht (от $14/мес, просит 30+ секунд аудио для создания качественного клона) и WellSaid Labs (чистый B2B с лицензионными дикторами).

Но нас интересует Hardware-независимость. Что можно развернуть локально, чтобы получить нулевой VPI (Value-to-Price)?

Kokoro 82M: Ультра-легкая TTS. Весит копейки, крутится даже на CPU старенького ноутбука без дискретной видюхи. Для базовой озвучки логов с датчиков на STM32 — абсолютный мастхэв.

Chatterbox-Turbo / Coqui XTTS: Тяжелая артиллерия для zero-shot клонирования голоса и контроля эмоций. Работает локально, лимиты — только охлаждение вашей видеокарты.

RVC (Retrieval-based Voice Conversion): Золотой стандарт для singing voice conversion (перенос вокала). Те самые AI-каверы на YouTube делаются именно здесь.

MusicGen / HeartMuLa: Генерация музыки из текста прямиком с Hugging Face.


А что со звуками (SFX)? Вместо того чтобы искать готовые сэмплы удара металла о бетон для интерфейса, мы их генерим. Stable Audio (от Stability AI) или открытый MOSS-SoundEffect (чистый Foley-генератор) справляются с этим на ура.

Русский ИИ-андеграунд выкручивается как может: YouTube-каналы типа «Russian Ai Music — HITS» вовсю клепают нейро-попсу, используя локальные агрегаторы типа FICHI.AI или Study AI, которые дают доступ к Suno и ElevenLabs в одном окне за рубли. Но любая привязка к внешнему API-шлюзу — это риск того, что завтра рубильник выключат. И тут локальный деплой (self-hosted) превращается из прихоти гика в базовое условие выживания проекта.

ШО ПО ИТОГУ:

• Для разовых тестов и "поиграться" — юзаем бесплатные тиеры флагманов или агрегаторы за рубли.

• Для стабильного продакшена в студии — Creator/Pro тарифы (если готовы платить «налог на комфорт»).

• Для 100% контроля, приватности и безлимитной генерации — разворачиваем Kokoro, RVC или XTTS на своем железе (или в Colab). Безлимит существует только там, где сервер стоит под вашим столом.


А у вас какое железо под капотом? Потянет локальную TTS-модель или пока сидите на API-игле? Скидывайте спеки в комменты. 👇

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
11👾1
«Газлайтинг» от лейблов. Как нейронки сломали музыкальную индустрию, а индустрия нанесла ответный удар

Если вы думаете, что главная проблема генеративного аудио — это подобрать идеальный промпт для Suno, то вы отстали от жизни на год. Сегодня главная проблема — это легализация того, что вы нагенерировали. Потому что музыкальные мейджоры официально объявили войну «вайб-кодерам» от музыки.

Реальные кейсы и их последствия:

В 2025 году трек «I Run» от виртуальной группы Haven (100% ИИ-генерация голоса и бита) пробил 40+ миллионов стримов на Spotify и завирусился в TikTok. Алгоритмы площадок с удовольствием кормили пользователей этим треком, пока не вскрылась правда. Итог? Трек снесли с платформ с пометкой «обман слушателей».
(В конце ноября Вирусный трек группы HAVEN «I Run» вернулся на стриминговые сервисы с новым вокалом от Кейтлин Арагон после того, как оригинал был удален из-за опасений по поводу озвучивания с помощью искусственного интеллекта)

Следом всплыл кейс Velvet Sundown — полностью ИИ-бэнд выпустил два альбома и собрал 1+ млн стримов за пару недель. Когда авторы сами раскрыли карты, индустрию порвало. Музыканты назвали это «читерством», а большая тройка (Universal, Warner, Sony) пошла в суды.


И вот мы в 2026-м:

Судебные иски урегулированы, но какой ценой? Флагманы вроде Suno и Udio прогнулись. Теперь их датасеты жестко кастрированы (обучение только на лицензионном материале), а для пользователей (даже на платных Pro-тарифах) ввели жесткий cap (лимит) на скачивания. Корпорации буквально задушили пропускную способность (throughput) инструментов, чтобы спасти свой бизнес.

Здесь мы видим классический конфликт: экспоненциальный рост КПД алгоритмов разбивается о бюрократический хард-фикс. Индустрия включила защитные механизмы:
Bandcamp (в январе 2026) официально выкатил полный бан на ИИ-музыку («wholly or in substantial part»).
iHeartRadio запустили программу «Guaranteed Human» — если нейросеть сгенерировала хотя бы вокальный сэмпл, трек не пустят в эфир.
• Шведы принудительно сняли с чартов хит «Jag Vet, Du Är Inte Min», когда выяснилось, что он "AI-assisted".
Golden Guitar Awards 2026 забанили генеративный ИИ после того, как им в шорт-лист подсунули 5 сгенерированных треков.
• Billboard официально закрыл Hot 100 для чистых ИИ-треков.
Для системы это Reward Hacking: ИИ выдает идеальный коммерческий продукт, пользователи его слушают, но регуляторы обнуляют ваш RPI, потому что вы «срезали углы».


• «Дикий Запад» генеративной музыки пока закончился. Заливать чистые ИИ-треки на Spotify ради монетизации — это пустая трата времени. Алгоритмы watermarking'а вас вычислят и забанят.
• Аудионейронки — это экзоскелет, а не замена артисту. Их нужно использовать для генерации демок, сэмплов (stems), фоновых шумов (Foley) или референсов, но финальная сборка и вокал должны содержать «человеческий след», чтобы пройти фильтры площадок.


Индустрия на Западе закручивает гайки. Как считаете, справедлив ли бан для ИИ-треков, если обычным слушателям песня реально нравится? Жду ваши мысли в комментах.

Кот в Коде | @kot_research_bot
1🤯1🗿1👾1
Как ИИ-артисты ломают чарты Яндекса, пока Минцифры готовит рубильник

Пока за океаном выписывают страйки и банят за сгенерированный хай-хэт, в нашем RU-сегменте происходит настоящий Дикий Запад. Никаких правил, сплошной вайб-кодинг и терабайты аудио-слопа, который внезапно начал собирать миллионы прослушиваний.

Инди-музыканты используют ИИ как экзоскелет, собирая и релизя полноценный EP за один день. И это работает.

Взгляните на Sasha Komovich. Два фотографа создали полностью нейросетевую певицу. Проект взлетел за недели: сотни тысяч подписчиков в Instagram*, миллионы стримов. Их трек-хит «Расскажи, Снегурочка» собрал более 69 000 пересъёмов в Reels.
Вот её профиль: Sasha Komovich на Яндекс.Музыке

Или Bazlab — ещё один чисто нейросетевой проект. Порядка 200к ежемесячных слушателей на Яндекс.Музыке +250к подписчиков в Instagram*.

А на YouTube процветают каналы вроде «Russian Ai Music - HITS». Они публикуют только AI-сгенерированные русские хиты (поп, шансон, рэп, фолк).

Вспомните вирусные треки 2025-2026 годов, взорвавшие чарты VK и TikTok:

«Сыпь, гармоника» (СДП) — Suno + кастом, №1 в Яндекс.Музыке и VK неделю (стихи Есенина + клубный бит).
«Мы русские люди» — Suno AI, взрыв танцев в TikTok.
«Орхидеи чёрные», «Сиреневое утро», «Не отдам тебя я больше никому» — все от «НейроНочка»/Suno.


Реакция индустрии в России пока мягче: нет массовых запретов, но Минцифры уже готовит регуляции по хранению данных (данные должны храниться в РФ 3 года + фильтры на «традиционные ценности»). Для Дирижёра это означает одно: Context Bleeding политики в технологии. Использование сырых западных API (Suno, ElevenLabs) без локального прокси скоро превратится в риск получить заблокированный порт.

ШО ПО ИТОГУ:

Западный рынок = жесткие баны, суды и лицензирование каждого сэмпла.

Российский рынок = создание полноценных артистов (Sasha Komovich, Bazlab), вирусные хиты и персонализированный контент (поздравления), но с нарастающим риском государственного регулирования.

Если строите коммерческий аудио-проект в РФ, отвязывайтесь от прямых западных API. Используйте локальные агрегаторы (FICHI.AI) или поднимайте open-source модели на своих серверах.


А как вы относитесь к ИИ-артистам и каверам? Бесит, когда нейросеть крадет голос известного артиста, или считаете, что это крутой инструмент для фанатов? Делитесь в комментах.

*Признаны экстремистскими организациями и запрещены на территории РФ.

Кот в Коде | @kot_research_bot
🔥21🤡1👾1
Препарируем зоопарк аудионейронок

Для большинства людей аудионейронки — это всё ещё просто «продвинутая читалка текста», эдакий Гугл-переводчик на стероидах. Ребята, если с таким майндсетом вы полезете строить автоматизированные пайплайны в 2026 году, ваш бюджет сгорит быстрее, чем коротнет порт на 338мА. Пришло время разложить этот зоопарк по полкам.

Аудионейронки сегодня — это огромная экосистема моделей, которые слышат, понимают и создают физику звука на уровне человеческой коры головного мозга. В инженерии мы делим их на жесткие категории, чтобы не микроскопом забивать гвозди.

1. Дискриминативные (Аналитики)
Это модели распознавания речи (ASRAutomatic Speech Recognition) и классификаторы. Для Дирижёра это — парсеры реальности. Они берут сырой хаос (голос, шум) и структурируют его в текст или метаданные. Идеально для извлечения «иголки из стога контекста».

2. Генеративные (Синтезаторы)
Сюда входят TTS (Text-to-Speech), генерация музыки и звуковых эффектов. Они берут вашу задумку и материализуют её в физическую звуковую волну. Современные генераторы переросли механическую склейку сэмплов — они создают звук с нуля.

3. Узкоспециализированные (Хирурги)
Здесь лежат инструменты для Sound Separation (когда нужно вырезать вокал из трека или отделить шум кулера от полезного сигнала), Voice Cloning (клонирование тембра) и Environmental Sound Synthesis (генерация шагов по мокрому асфальту или гула сервера).

4. Мультимодальные Foundation-монстры
Тяжеловесы, которые умеют всё сразу. Они связывают аудио напрямую с текстом, изображением или видео. Могут сгенерировать саундтрек, просто «посмотрев» на раскадровку видеоролика.


Инженерная ошибка новичков — вестись на маркетинг и пытаться закрыть все задачи одной тяжелой Foundation-моделью. Это классический «овертинкинг» (как у gpt-5.4-high), который убивает ваш EAS. Прогнать 5 секунд логов через гигантскую мультимодальную сетку, чтобы получить транскрипт — это преступление против рентабельности. Тяжелые модели дают огромную латентность. Для каждой задачи в оркестре нужен свой профильный, легковесный «джун», который отрабатывает за миллисекунды.

И что делать? Что выбирать?

ASR-модели — используем как «уши» системы для парсинга входных данных.

Специализированные генераторы (TTS, SFX) — используем как «голосовые связки».

Foundation-модели — оставляем только для задач, где реально нужен глубокий междисциплинарный синтез (аудио + видео + текст), иначе вы просто сливаете VPI в трубу.


Какую задачу со звуком вам чаще всего приходится решать? Транскрибация созвонов, озвучка видео или чистка шумов? Пишите в комменты.

Кот в Коде | @kot_research_bot
👾31🔥1
Карманный джун или серверный монстр?

Чтобы реально дирижировать этим процессом, нужно понимать, как изменилась сама физика генерации. Ещё пару лет назад нейронки (типа старого доброго WaveNet) генерировали звук «в лоб» — вырисовывая сырую звуковую волну (raw waveform) сэмпл за сэмплом.

Индустрия совершила хард-фикс: она перестала рисовать волны и начала писать звук «текстом». Современные аудионейронки работают на базе языкового моделирования (Language Modeling) с использованием дискретных токенов.

Звук разбивается на два потока:

Semantic tokens (Смысл) — то, что именно говорится.

Acoustic tokens (Акустика) — то, как это звучит (эмоции, акцент, темп, дыхание, фоновый шум).


По сути, для ИИ генерация аудио теперь ничем не отличается от генерации Python-кода. Модель просто предсказывает следующий токен (Next Token Prediction). Именно эта архитектура дала нам то, что мы имеем в 2026 году: абсолютный посимвольный контроль над просодией (интонацией). Вы можете заставить ИИ шептать, срываться на крик, имитировать сарказм или генерировать диалог нескольких спикеров с перебиваниями.

И здесь рынок разделился на два лагеря:

Тяжелые Foundation-модели — серверные гиганты, живущие в дата-центрах. У них запредельный интеллект (WPS), но огромная латентность и цена.

Edge-модели (на границе сети) — легковесные «бойцы» типа Kokoro или CosyVoice, которые весят десятки мегабайт и летают локально даже на смартфоне (или на слабом процессоре без GPU).

Многие разработчики совершают ошибку: они тащат тяжеловесное серверное API туда, где нужен простой скрипт. Это убивает ваш индекс КПД (EAS). Если вам нужно просто озвучить статус системы, API за $20 — это избыточный оверинжиниринг.

Давайте проведем быстрый тест. Какая аудиомодель тебе реально нужна?

🙊Сценарий 1: Тебе нужно сгенерировать живой подкаст на 15 минут, где два спикера спорят, дышат в микрофон и перебивают друг друга, сохраняя уникальные акценты.
Твой выбор: Тяжелая мультимодальная/Foundation модель через API. Платишь за токены, получаешь креатив и сложнейшую акустику.

👩‍🦰 Сценарий 2: Твоя железка должна автономно, без интернета, женским голосом проговорить: "Внимание, скорость ветра превышает норму".
Твой выбор: Edge-модель (Kokoro). Разворачиваешь локально. Латентность нулевая, VPI (рентабельность) бесконечная, потому что это бесплатно.

🤓 Сценарий 3: Нужно перевести видео на другой язык так, чтобы интонация оригинального актера сохранилась на 100%.
Твой выбор: Узкоспециализированная модель Voice Cloning + Voice-to-Voice.


ШО ПО ИТОГУ:

Генерация звука — это теперь работа с токенами, а не с радиоволнами.

Не используй Foundation-модели там, где справится Edge. Локальные модели — это стабильность и независимость твоего пайплайна от интернета и цензуры.

Аудио-ИИ перестал быть "игрушкой из будущего" — это стандартный инструмент, который прямо сейчас меняет геймдев, кино и интерфейсы умных устройств.


А к какому сценарию ближе ваши задачи? Нужен голливудский продакшен или автономная озвучка логов?

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
2🗿1👾1
Аудио-слепота

Человеческое ухо воспринимает сырые колебания воздуха (частоту, амплитуду, фазу). Но скормить нейронке «сырую звуковую волну» (raw waveform) — это как заставить LLM читать код по битам вместо токенов. Вы убьете контекстное окно в первые же секунды.

Поэтому первый шаг любого грамотного аудио-пайплайна — это жестокая трансформация. Мы берем звук и делаем из него двумерную «картинку» — мел-спектрограмму (mel-spectrogram). Ось X — время, ось Y — частота, а цвет/яркость пикселя — амплитуда. ИИ буквально смотрит на ваш голос, применяя к нему те же алгоритмы компьютерного зрения, что и при поиске дефектов на печатных платах.

Но картинки слишком «тяжелые» для оперативной памяти. Чтобы добиться высокого VPI и не спалить GPU, в дело вступают нейронные аудио-кодеки нового поколения: EnCodec, SoundStream, DAC. Они берут эту спектрограмму и безжалостно сжимают её в компактные дискретные токены.

И тут происходит главная магия декомпозиции, на которой строится вся современная аудио-архитектура. Кодек рубит вашу запись на два независимых потока:

Semantic tokens (Смысл) — голый информационный каркас. Что именно было сказано.

Acoustic tokens (Физика) — тембр, хрипота, эхо пустой комнаты и фоновый гул того самого вентилятора.

Как обучают таких монстров вроде Whisper или HuBERT понимать эту кашу? Никто не сидит и не размечает им датасеты руками. Используется Self-supervised learning (самообучение). Алгоритм просто «замазывает» (маскирует) куски спектрограммы и заставляет модель угадывать, что там было скрыто. Прямо как LLM угадывает следующее слово (Next Token Prediction), аудиомодель угадывает следующий акустический паттерн. Если кодек отработал криво, акустический токен "шума" смешается с семантическим токеном "слова", и вы получите ту самую галлюцинацию в логах.

Нейросети глухи. Они не "слушают" аудио, они анализируют сжатые 2D-картинки (спектрограммы). Нейронные кодеки (DAC, EnCodec) — это фундамент. Без них работа со звуком была бы экономически невыгодной.


Если ваша модель галлюцинирует при транскрибации, проблема чаще всего не в её "интеллекте", а в грязных акустических токенах на этапе препроцессинга.

Кто пробовал разворачивать локальный Whisper (или аналоги) для транскрибации созвонов или рабочих логов? Сталкивались с тем, что модель придумывает слова из-за банального скрипа стула? Пишите в комменты.

Кот в Коде | @kot_research_bot
🔥21👾1
Анатомия слуха

Чтобы модель поняла, что голос инженера в тихой переговорке и тот же голос на фоне воющего кулера — это один и тот же человек, используется Contrastive Learning (контрастное обучение). Модели буквально скармливают аугментированные куски одного аудио и заставляют её сближать их векторы (embeddings) в латентном пространстве, отталкивая чужие шумы.

Дальше в дело вступают Transformers с двунаправленным вниманием (Bidirectional Attention). Если раньше старые модели «жевали» звук последовательно, миллисекунда за миллисекундой, то Трансформер накладывает свое Sliding Window на весь контекст сразу. Он видит эхо в конце фразы и использует его, чтобы понять акустику в начале.

Но звук — это гигантский массив данных. Если скормить Трансформеру сырые акустические токены за час аудио, у вас лопнет контекстное окно, а индекс КПД (EAS) упадет до нуля. И тут исследователи применили элегантный костыль.

Инженерное озарение индустрии — Hierarchical Tokenization (Иерархическая токенизация). Звук делят на два эшелона:

Coarse tokens (Грубые токены) — отвечают за макро-структуру: слова, мелодию, интонационный каркас.

Fine tokens (Тонкие токены) — отвечают за микро-детали: особенности тембра, фоновый шум, реверберацию.

К тому же, создатели кодеков безжалостно применили законы психоакустики человека. Они физически выкидывают из вычислений те частоты, которые маскируются более громкими звуками (frequency masking), потому что наше ухо их всё равно не слышит. Зачем тратить вычислительный бюджет на то, чего нет для нас?


💡 Мини-лайфхак:

Если вы строите аудио-RAG систему (поиск по тысячам часов голосовых логов или подкастов), вам вообще не нужно переводить звук в текст! Вы просто отсекаете Fine tokens и прогоняете через векторную базу только Coarse (семантические) эмбеддинги. Вы экономите 80% токенов, ваш VPI (рентабельность) улетает в космос, а поиск конкретной фразы по смыслу работает молниеносно, игнорируя любые фоновые шумы.

ШО ПО ИТОГУ:

Современные аудиомодели не слушают всё подряд — они иерархически фильтруют звук, отбрасывая акустический мусор на основе человеческой психоакустики.

Contrastive Learning делает модели устойчивыми к фоновому шуму.

Иерархическая токенизация позволяет экономить бюджет: для семантического поиска (RAG) используйте только грубые токены, тонкие нужны только для высококачественной генерации.


Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
11😎1
Как TTS перестал звучать как кусок металла

Теперь давайте перевернем пластинку. Как заставить этот кремний говорить?

Давайте проследим эволюцию, чтобы понять, почему старые методы умерли, а новые жрут столько VRAM (видеопамяти).

Concatenative TTS (конкатенативный синтез). Это механическая склейка заранее записанных микро-кусочков речи (дифонов). Диктор начитывал тысячи часов текста в студии, а алгоритм потом склеивал эти слоги, как Франкенштейна.
Результат: идеальное произношение отдельных слов, но абсолютно мертвая, «дерганая» интонация всего предложения. Никакого понимания контекста. Никаких эмоций.

Нейронные сети (Tacotron + WaveNet). Tacotron брал текст и превращал его в мел-спектрограмму (ту самую 2D-картинку звука, о которой мы говорили), а WaveNet медленно, сэмпл за сэмплом, восстанавливал из нее аудиоволну. Это уже звучало гладко, но всё еще с синтетическим привкусом, а главное — генерация была чудовищно медленной.

Но в 2026 году мы живем в эпоху End-to-End (E2E) моделей. Индустрия выкинула костыли.

Современные TTS-архитектуры берут сырой текст (смысл) и сразу выдают аудио-токены. И здесь главная киллер-фича — Контроль просодии (ритма, интонации, ударений). Как это работает физически?

Вместо того чтобы просто зачитывать текст, в модель подают дополнительные Conditioning vectors (векторы условий) или Prompt-аудио. Вы можете передать модели 3 секунды аудио, где человек кричит от страха, и сказать: «Прочитай этот лог ошибки с такой же эмоцией». Модель извлечет акустические токены эмоции и наложит их на семантические токены вашего текста.


А как вы используете синтез речи в своих проектах? Бесит ли вас до сих пор "роботизированный" голос в автоответчиках, или вы уже перешли на современные нейронки?

Кот в Коде | @kot_research_bot
🔥31🗿1
Кража личности за 3 секунды

Давайте разберем, как обойти процесс синтеза. Чтобы скопировать тембр, современным архитектурам (вроде VALL-E или NaturalSpeech 2) больше не нужен долгий Fine-Tuning. Модель использует ваш короткий сэмпл как акустический промпт. Она вытаскивает те самые акустические токены и натягивает их на новый текст.

Но есть проблема. Если генерировать звук авторегрессивно (токен за токеном, как ChatGPT пишет текст), то вы будете ждать минуту, чтобы получить 10 секунд аудио.

Поэтому индустрия перешла на параллельную генерацию (FastSpeech, Glow-TTS). Модель предсказывает длительность всех фонем разом и генерирует их параллельно. Это ускоряет инференс в десятки раз. Архитектуры вроде SoundStorm пошли дальше: они генерируют естественные полилоги, где несколько спикеров могут перебивать друг друга, дышать и смеяться в реальном времени.

А теперь главное озарение. То, что выдает языковая модель на выходе — это не звук. Это абстрактная матрица (мел-спектрограмма или набор дискретных токенов). Если вы попытаетесь это послушать, вы получите чудовищный скрежет.

Чтобы матрица стала физической звуковой волной, в пайплайн вступает Нейронный вокодер (Neural Vocoder) — например, HiFi-GAN или BigVGAN. Это «рендеринг-движок» всей системы. Вокодер берет токены и надувает их до высококачественного waveform. Именно от вокодера зависит, будет ли голос звучать как из ведра или кристально чисто.

Но без багов не бывает. Иногда модель ловит «аудио-галлюцинации»: металлические призвуки, бормотание или шепот в конце фразы. Через улучшенную квантизацию (FSQ) и старый добрый RLHF — модель бьют по рукам за каждый артефакт на этапе обучения.
Итог: стриминговые модели (типа CosyVoice2) сегодня выдают речь с задержкой менее 150 миллисекунд. Вы еще не дочитали строку, а ИИ уже говорит её вашим голосом.


Модели типа HiddenSinger уже научились скрещивать эти технологии, заставляя чужие голоса не просто говорить, но и петь. Этика вышла из чата.

А вас пугает перспектива того, что кто-то может украсть ваш голос по одному кружочку в Telegram? Или это просто удобный инструмент?

Кот в Коде | @kot_research_bot
11🔥1
Как ИИ лепит симфонии из белого шума

Заставить кремний говорить — это детская забава по сравнению с тем, чтобы заставить его сыграть джаз. Раньше можно было бы покопаться в роялти-фри стоках, сжигая часы на поиск нужного лупа. Сегодня стоит открыть интерфейс MusicLM или AudioLDM 2.

Вы увидите магию: вбил текст, получил трек. Дирижёр видит математический ад, который происходит под капотом, чтобы оперативная память вашего ПК не вышла из чата.

Синтез музыки на порядки сложнее речи. В речи есть один диктор. В музыке — полифония: бас, ударные, соло-гитара, и всё это должно попадать в такт и тональность. Если скармливать модели всё это одновременно, контекстное окно переполнится на третьей секунде трека.

Индустрия решила эту проблему, вспомнив Иерархическую токенизацию. Они строят жесткий каркас. Сначала генерируются coarse tokens (грубые токены) -фундамент: темп, аккордовая прогрессия, структура композиции (куплет/припев). И только потом на этот скелет натягиваются fine tokens (тонкие токены) — конкретное звучание стратокастера или плотность бас-бочки.


Генерация музыки больше не монополия продюсеров с кучей железа.

Кто-нибудь уже пробовал напевать мелодию и прогонять её через нейронки? Получалось ли удержать ритм, или модель сваливалась в кашу? Делитесь опытом.

Кот в Коде | @kot_research_bot
1🔥1😎1
Как нейронки помножили на ноль классический Sound Design

Представьте: вы собираете инди-игру или пилите видео-презентацию. Вам нужен звук шагов по мокрому гравию, переходящий в гул киберпанк-реактора.

Индустрия генерации звуковых эффектов (SFX) шагнула далеко за пределы простого «текст-в-звук». Главный драйвер этой революции — Мультимодальность и архитектура CLAP (Contrastive Language-Audio Pretraining).

Как модель вообще понимает, как звучит «мокрый гравий» или «ржавая дверь»? CLAP работает как универсальный переводчик. Во время обучения исследователи связывают аудио-векторы, текстовые векторы и даже векторы изображений в едином латентном пространстве.

Для нас, как Дирижёров, это чит-код: мы можем скормить нейронке кадр из видео и сказать: "Сгенерируй Foley-атмосферу для этой картинки". Векторы изображения свяжутся с векторами текста, а CLAP-эмбеддинги переведут этот визуал в акустические токены. Вы получаете саунд-дизайн, который математически точно совпадает с видеорядом.

Но и это не всё: вы можете взять 3 секунды звука старого советского синтезатора (или звука циркулярной пилы), загрузить его как референс, и модель научится «играть» на этом инструменте любую мелодию с заданным темпом и тональностью. Вы буквально создаете вымышленные инструменты, которых не существует в природе.


И самое приятное: в 2025–2026 годах случился прорыв Open-Source. Вам больше не нужно платить за API корпорациям. На арену вышли компактные, но хищные модели: Fish Speech, IndexTTS, VibeVoice. Они весят мало, разворачиваются локально и дают голливудский уровень генерации прямо на вашей видеокарте. Инди-музыканты и геймдевы теперь проходят путь от идеи в голове до полноценного атмосферного трека за пару минут компиляции.

Как вам качество шагов или взрывов? Делитесь в комментах.

Кот в Коде | @kot_research_bot
🔥21👾1
Пылесосы YouTube и магия MSM

Откуда у куска кремния вообще взялось понимание того, как звучит дождь или голос человека? Если вы думаете, что в Google или OpenAI сидят тысячи людей в наушниках и заботливо подписывают каждый аудиофайл «это собака», «это бас-гитара» — забудьте. В 2026 году корпорации используют агрессивный пылесос.

Всё начинается с огромных неразмеченных (unlabeled) датасетов. Моделям скармливают миллионы часов сырого аудио: подкасты, выгрузки с YouTube, LibriSpeech, AudioSet и Common Voice. Нанять людей, чтобы это разметить, экономически невозможно — VPI такого проекта уйдет в минус.

Поэтому индустрия перешла на Self-supervised pretraining (самообучение). И здесь правит бал метод MSM (Masked Spectrogram Modeling).
Алгоритм берет эту картинку, искусственно замазывает на ней случайные квадраты (патчи) и заставляет модель угадывать, что там было скрыто. Модель ошибается, получает штраф по градиенту, корректирует веса и пробует снова. Миллиарды раз. Это ровно та же механика, по которой обучали текстовый BERT, только для звука.

Чтобы модель не путалась, в дело вступают Contrastive objectives (контрастное обучение, типа InfoNCE). Мы берем звук голоса, накладываем на него эхо, ускоряем, добавляем шум улицы — и заставляем нейросеть математически сближать векторы (embeddings) этих звуков в латентном пространстве. Модель учится понимать: "Ага, это всё тот же голос, просто в разных условиях".

Но самый жесткий инженерный узел — это Нейронные аудио-кодеки (EnCodec, SoundStream). Они обучаются отдельно по принципу VQ-VAE.
Кодер берет сырую волну и безжалостно сжимает её в дискретные коды (через Vector Quantization). Декодер пытается восстановить из этих кодов изначальную волну. Если разница (Delta) минимальна — кодек обучен.


И только потом на эту сцену выходит базовая архитектура — великий и ужасный Transformer. Инженеры адаптировали его: вместо слов ему подают patch embeddings (куски спектрограммы), добавляют позиционное кодирование времени (чтобы ИИ понимал, что звук идет вперед, а не назад) и выстраивают многоуровневую иерархическую модель. Трансформер просто читает звуки как текст. Никакой магии, тупая, но элегантная математика матричных умножений.

Как вам осознание того, что ваш голос из старого подкаста или видео на YouTube уже давно разобран на токены и вшит в веса какой-нибудь модели от Meta или Google? Напрягает или без разницы?

Кот в Коде | @kot_research_bot
1🔥1😎1
Как из 2 часов подкаста выбить RLHF

Когда вы пытаетесь скормить стандартной модели длинный аудиофайл, ваш Трансформер просто складывается пополам. Квадратичная сложность механизма Attention безжалостно сжирает VRAM

Индустрия выкатила хард-фикс. Для длинных аудио-последовательностей обычный Attention идет на свалку. В игру вступают State Space Models (SSM), такие как знаменитая архитектура Mamba, или гибридные xLSTM-Transformer. Они читают звук линейно, не пытаясь держать в оперативной памяти каждый писк, случившийся час назад.

Далее, сама генерация разделена:

Semantic LM — предсказывает исключительно смысл (высокоуровневые семантические токены).

Acoustic generator — накидывает на этот каркас «мясо» (тембр, акустику комнаты, дыхание).

Но что, если вам нужно сгенерировать ответ голосом конкретного спикера из огромного архива? Обучать модель с нуля? Дорого. Здесь на сцену выходит Audio RAG (Retrieval-Augmented Generation). Вы ищете нужные аудио-эмбеддинги (векторы) прямо в базе данных и подаете их как условие (conditioning) для генератора. Нейронка подхватывает найденный тембр «на лету» и синтезирует речь (zero-shot сценарий).


Но есть одна проблема. Сырая модель после такого математического претрейна часто «хрипит», глотает окончания или выдает металлический скрежет. Почему? Потому что математически (loss function) звук восстанавливается верно, а для человеческого уха — это пытка.

И здесь инженеры расчехляют RLHF (Reinforcement Learning from Human Feedback).
Мы буквально «бьем модель по рукам» (через штрафы по градиенту) за каждый роботизированный артефакт. Модель штрафуют не за неверные токены, а за то, что людям физически не нравится результат (Preference Optimization). Это тот самый жестокий дожим, который избавляет ИИ от эффекта зловещей долины и заставляет кремний звучать естественно (naturalness).

ШО ПО ИТОГУ:

• Трансформеры для длинного аудио мертвы. Будущее за эффективными гибридами и Mamba (SSM).

• Audio RAG убивает необходимость транскрибации для поиска тембров: ищем звук по звуку через векторы.

• RLHF — финальный фильтр. Без «человеческой палки» нейронка всегда будет скатываться в металлический шум, пытаясь обмануть метрики (Reward Hacking).


Кот в Коде | @kot_research_bot
🔥2🗿1😎1
Вычислительная пытка WaveNet и гибридный хард-фикс

Если заглянуть под капот ИИ-генерации звука, то праотцом всего современного аудио был WaveNet (2016 год). Google продавал его как революцию. И по качеству это был прорыв, но инженерно — это была вычислительная пытка.

WaveNet работал на базе autoregressive dilated convolutions (авторегрессионные расширенные свертки). Перевожу на человеческий: он генерировал сырую звуковую волну (raw waveform) строго сэмпл за сэмплом. Если у вас стандартное качество аудио (44100 Гц), модели нужно было сделать 44100 последовательных вычислений ради одной секунды звука. Это классическое «бутылочное горлышко». Авторегрессия убивала любую надежду на real-time.

К 2026 году индустрия поняла, что уперлась в потолок физики, и сделала жесткий хард-фикс. Монолитные архитектуры умерли. Сегодня правят Гибридные конвейеры (Hybrids).

Современный аудио-экзоскелет собирается из трех узлов:

Neural Codec (сжимает звук).
Transformer LM (работает с токенами смысла).
Diffusion или Flow-matching (отвечает за финальный рендеринг акустики).

И вот тут кроется главный архитектурный чит-код, который дал нам бешеный прирост скорости. Вместо тупого пошагового угадывания токенов, инженеры внедрили параллельный декодинг (на базе MaskGIT, как в модели SoundStorm). Модель больше не ждет генерации предыдущего звука — она предсказывает огромные чанки акустических токенов одновременно. Инференс ускорился в 100 раз!


А чтобы видеокарты не плавились от перегруза VRAM, диффузия теперь работает не с сырым аудиофайлом, а в сжатом векторном пространстве нейронного кодека (Latent Diffusion Models). Мы гоняем легкие матрицы, а не тяжелые гигабайты WAV-файлов. Экономия вычислительного бюджета колоссальная.

Кот в Коде | @kot_research_bot
1🗿1👾1