Кот в Коде|ИИ и Питон
2.42K subscribers
207 photos
35 videos
167 links
Самоучка в IT
Укрощаю платы и MicroPython с помощью нейросетей.
Серьезные проекты с несерьезным лицом.
Не «мяу», а print('Hello World') 🐾

Поделись с кодерами! https://t.me/cat_with_code
Download Telegram
Как ИИ лепит симфонии из белого шума

Заставить кремний говорить — это детская забава по сравнению с тем, чтобы заставить его сыграть джаз. Раньше можно было бы покопаться в роялти-фри стоках, сжигая часы на поиск нужного лупа. Сегодня стоит открыть интерфейс MusicLM или AudioLDM 2.

Вы увидите магию: вбил текст, получил трек. Дирижёр видит математический ад, который происходит под капотом, чтобы оперативная память вашего ПК не вышла из чата.

Синтез музыки на порядки сложнее речи. В речи есть один диктор. В музыке — полифония: бас, ударные, соло-гитара, и всё это должно попадать в такт и тональность. Если скармливать модели всё это одновременно, контекстное окно переполнится на третьей секунде трека.

Индустрия решила эту проблему, вспомнив Иерархическую токенизацию. Они строят жесткий каркас. Сначала генерируются coarse tokens (грубые токены) -фундамент: темп, аккордовая прогрессия, структура композиции (куплет/припев). И только потом на этот скелет натягиваются fine tokens (тонкие токены) — конкретное звучание стратокастера или плотность бас-бочки.


Генерация музыки больше не монополия продюсеров с кучей железа.

Кто-нибудь уже пробовал напевать мелодию и прогонять её через нейронки? Получалось ли удержать ритм, или модель сваливалась в кашу? Делитесь опытом.

Кот в Коде | @kot_research_bot
1🔥1😎1
Как нейронки помножили на ноль классический Sound Design

Представьте: вы собираете инди-игру или пилите видео-презентацию. Вам нужен звук шагов по мокрому гравию, переходящий в гул киберпанк-реактора.

Индустрия генерации звуковых эффектов (SFX) шагнула далеко за пределы простого «текст-в-звук». Главный драйвер этой революции — Мультимодальность и архитектура CLAP (Contrastive Language-Audio Pretraining).

Как модель вообще понимает, как звучит «мокрый гравий» или «ржавая дверь»? CLAP работает как универсальный переводчик. Во время обучения исследователи связывают аудио-векторы, текстовые векторы и даже векторы изображений в едином латентном пространстве.

Для нас, как Дирижёров, это чит-код: мы можем скормить нейронке кадр из видео и сказать: "Сгенерируй Foley-атмосферу для этой картинки". Векторы изображения свяжутся с векторами текста, а CLAP-эмбеддинги переведут этот визуал в акустические токены. Вы получаете саунд-дизайн, который математически точно совпадает с видеорядом.

Но и это не всё: вы можете взять 3 секунды звука старого советского синтезатора (или звука циркулярной пилы), загрузить его как референс, и модель научится «играть» на этом инструменте любую мелодию с заданным темпом и тональностью. Вы буквально создаете вымышленные инструменты, которых не существует в природе.


И самое приятное: в 2025–2026 годах случился прорыв Open-Source. Вам больше не нужно платить за API корпорациям. На арену вышли компактные, но хищные модели: Fish Speech, IndexTTS, VibeVoice. Они весят мало, разворачиваются локально и дают голливудский уровень генерации прямо на вашей видеокарте. Инди-музыканты и геймдевы теперь проходят путь от идеи в голове до полноценного атмосферного трека за пару минут компиляции.

Как вам качество шагов или взрывов? Делитесь в комментах.

Кот в Коде | @kot_research_bot
🔥21👾1
Пылесосы YouTube и магия MSM

Откуда у куска кремния вообще взялось понимание того, как звучит дождь или голос человека? Если вы думаете, что в Google или OpenAI сидят тысячи людей в наушниках и заботливо подписывают каждый аудиофайл «это собака», «это бас-гитара» — забудьте. В 2026 году корпорации используют агрессивный пылесос.

Всё начинается с огромных неразмеченных (unlabeled) датасетов. Моделям скармливают миллионы часов сырого аудио: подкасты, выгрузки с YouTube, LibriSpeech, AudioSet и Common Voice. Нанять людей, чтобы это разметить, экономически невозможно — VPI такого проекта уйдет в минус.

Поэтому индустрия перешла на Self-supervised pretraining (самообучение). И здесь правит бал метод MSM (Masked Spectrogram Modeling).
Алгоритм берет эту картинку, искусственно замазывает на ней случайные квадраты (патчи) и заставляет модель угадывать, что там было скрыто. Модель ошибается, получает штраф по градиенту, корректирует веса и пробует снова. Миллиарды раз. Это ровно та же механика, по которой обучали текстовый BERT, только для звука.

Чтобы модель не путалась, в дело вступают Contrastive objectives (контрастное обучение, типа InfoNCE). Мы берем звук голоса, накладываем на него эхо, ускоряем, добавляем шум улицы — и заставляем нейросеть математически сближать векторы (embeddings) этих звуков в латентном пространстве. Модель учится понимать: "Ага, это всё тот же голос, просто в разных условиях".

Но самый жесткий инженерный узел — это Нейронные аудио-кодеки (EnCodec, SoundStream). Они обучаются отдельно по принципу VQ-VAE.
Кодер берет сырую волну и безжалостно сжимает её в дискретные коды (через Vector Quantization). Декодер пытается восстановить из этих кодов изначальную волну. Если разница (Delta) минимальна — кодек обучен.


И только потом на эту сцену выходит базовая архитектура — великий и ужасный Transformer. Инженеры адаптировали его: вместо слов ему подают patch embeddings (куски спектрограммы), добавляют позиционное кодирование времени (чтобы ИИ понимал, что звук идет вперед, а не назад) и выстраивают многоуровневую иерархическую модель. Трансформер просто читает звуки как текст. Никакой магии, тупая, но элегантная математика матричных умножений.

Как вам осознание того, что ваш голос из старого подкаста или видео на YouTube уже давно разобран на токены и вшит в веса какой-нибудь модели от Meta или Google? Напрягает или без разницы?

Кот в Коде | @kot_research_bot
1🔥1😎1
Как из 2 часов подкаста выбить RLHF

Когда вы пытаетесь скормить стандартной модели длинный аудиофайл, ваш Трансформер просто складывается пополам. Квадратичная сложность механизма Attention безжалостно сжирает VRAM

Индустрия выкатила хард-фикс. Для длинных аудио-последовательностей обычный Attention идет на свалку. В игру вступают State Space Models (SSM), такие как знаменитая архитектура Mamba, или гибридные xLSTM-Transformer. Они читают звук линейно, не пытаясь держать в оперативной памяти каждый писк, случившийся час назад.

Далее, сама генерация разделена:

Semantic LM — предсказывает исключительно смысл (высокоуровневые семантические токены).

Acoustic generator — накидывает на этот каркас «мясо» (тембр, акустику комнаты, дыхание).

Но что, если вам нужно сгенерировать ответ голосом конкретного спикера из огромного архива? Обучать модель с нуля? Дорого. Здесь на сцену выходит Audio RAG (Retrieval-Augmented Generation). Вы ищете нужные аудио-эмбеддинги (векторы) прямо в базе данных и подаете их как условие (conditioning) для генератора. Нейронка подхватывает найденный тембр «на лету» и синтезирует речь (zero-shot сценарий).


Но есть одна проблема. Сырая модель после такого математического претрейна часто «хрипит», глотает окончания или выдает металлический скрежет. Почему? Потому что математически (loss function) звук восстанавливается верно, а для человеческого уха — это пытка.

И здесь инженеры расчехляют RLHF (Reinforcement Learning from Human Feedback).
Мы буквально «бьем модель по рукам» (через штрафы по градиенту) за каждый роботизированный артефакт. Модель штрафуют не за неверные токены, а за то, что людям физически не нравится результат (Preference Optimization). Это тот самый жестокий дожим, который избавляет ИИ от эффекта зловещей долины и заставляет кремний звучать естественно (naturalness).

ШО ПО ИТОГУ:

• Трансформеры для длинного аудио мертвы. Будущее за эффективными гибридами и Mamba (SSM).

• Audio RAG убивает необходимость транскрибации для поиска тембров: ищем звук по звуку через векторы.

• RLHF — финальный фильтр. Без «человеческой палки» нейронка всегда будет скатываться в металлический шум, пытаясь обмануть метрики (Reward Hacking).


Кот в Коде | @kot_research_bot
🔥2🗿1😎1
Вычислительная пытка WaveNet и гибридный хард-фикс

Если заглянуть под капот ИИ-генерации звука, то праотцом всего современного аудио был WaveNet (2016 год). Google продавал его как революцию. И по качеству это был прорыв, но инженерно — это была вычислительная пытка.

WaveNet работал на базе autoregressive dilated convolutions (авторегрессионные расширенные свертки). Перевожу на человеческий: он генерировал сырую звуковую волну (raw waveform) строго сэмпл за сэмплом. Если у вас стандартное качество аудио (44100 Гц), модели нужно было сделать 44100 последовательных вычислений ради одной секунды звука. Это классическое «бутылочное горлышко». Авторегрессия убивала любую надежду на real-time.

К 2026 году индустрия поняла, что уперлась в потолок физики, и сделала жесткий хард-фикс. Монолитные архитектуры умерли. Сегодня правят Гибридные конвейеры (Hybrids).

Современный аудио-экзоскелет собирается из трех узлов:

Neural Codec (сжимает звук).
Transformer LM (работает с токенами смысла).
Diffusion или Flow-matching (отвечает за финальный рендеринг акустики).

И вот тут кроется главный архитектурный чит-код, который дал нам бешеный прирост скорости. Вместо тупого пошагового угадывания токенов, инженеры внедрили параллельный декодинг (на базе MaskGIT, как в модели SoundStorm). Модель больше не ждет генерации предыдущего звука — она предсказывает огромные чанки акустических токенов одновременно. Инференс ускорился в 100 раз!


А чтобы видеокарты не плавились от перегруза VRAM, диффузия теперь работает не с сырым аудиофайлом, а в сжатом векторном пространстве нейронного кодека (Latent Diffusion Models). Мы гоняем легкие матрицы, а не тяжелые гигабайты WAV-файлов. Экономия вычислительного бюджета колоссальная.

Кот в Коде | @kot_research_bot
1🗿1👾1
Как засунуть нейронку в смартфон?

Спустимся с облачных серверов на землю. Представьте: вам нужно клонировать голос для автономного агента, а под столом у вас гудит старенький ноут с 4 ГБ VRAM. Попытка запустить полноценный Fine-Tuning (дообучение) тяжелой аудиомодели закончится ошибкой OOM (Out of Memory) быстрее, чем вы моргнете.

Главный чит-код аудио-индустрии — Speaker Adaptation (Адаптация спикера). Не нужно переобучать миллиарды параметров базовой модели. В игру вступают LoRA-адаптеры (Low-Rank Adaptation) и prompt-tuning. Мы берем крошечный модуль (весом в пару мегабайт), обучаем его на ваших 10 секундах голоса и «втыкаем» сбоку в замороженную основную нейросеть.

Но как текст из LLM вообще синхронизируется со звуком? Через Multimodal Fusion и механизм Cross-attention. Нейронка буквально балансирует двумя потоками: она смотрит на текстовые эмбеддинги (смысл) и переплетает их с аудио-токенами. Текст становится дирижёрской палочкой для акустики.


Так как же запихнуть всю эту математику в условный смартфон (Edge-устройства)?

Через квантизацию (Quantization) и дистилляцию. Инженеры берут жирные веса (FP16) и кастрируют их до INT8 или даже INT4. Модель «глупеет» на пару процентов, но её КПД улетает в стратосферу, позволяя генерировать звук локально без интернета.

И чтобы после такой обрезки модель не начала галлюцинировать и не выдавала фоновый скрежет вместо паузы, мы накидываем на неё математический ошейник — CFG (Classifier-Free Guidance). Этот алгоритм принудительно заставляет диффузию следовать вашему промпту или CLAP-токенам. Вы буквально выкручиваете ползунок «послушания»: чем выше CFG, тем меньше креативного бреда и точнее результат.


P.S. Индустрия уже готовится к следующему сдвигу (Fully end-to-end audio LLM). Скоро нейронные кодеки вымрут. Аудио будет обрабатываться как нативная последовательность, прямо как текст в GPT-5.4.

Кто-нибудь уже пробовал накидывать LoRA-адаптеры на локальные аудионейронки?

Кот в Коде | @kot_research_bot
🔥2👏1😎1
Конец эпохи «Нажмите один»

Хватит сидеть в лаборатории и дебажить архитектуры. Пора посмотреть, как эти «игрушки» прямо сейчас генерируют реальный кэш в бизнесе.

Бизнес наконец-то почти🥲 понял, что аудионейронки — это не просто читалка текста, а мощный экзоскелет для масштабирования. Давайте пройдемся по отраслям, где старые пайплайны уже отправлены на свалку:

1. Игры и VR (Procedural Audio)
Геймдев прощается с гигабайтами статичных MP3-файлов. Раньше звук шагов или ветра был зацикленным сэмплом. Сегодня движок игры скармливает параметры среды (ветер, текстура пола, усталость персонажа) в аудиомодель, и она генерирует звук динамически, в реальном времени. Никаких повторений. Абсолютное погружение.

2. Подкасты и Аудиокниги
Один диктор больше не нужен. Берем книгу, прогоняем через LLM для разметки реплик, подключаем Voice Cloning, и вот у вас полноценный аудиоспектакль на 15 ролей. А сверху накидываем автоматический дубляж на 50 языков с сохранением оригинального тембра и эмоций автора.

3. Кино и Реклама
Многоязычный дубляж (Multilingual dubbing) вышел на безумный уровень. Если Том Харди кричит в оригинале, нейросеть переведет его крик на русский, сохранив ту же надрывную хрипоту (спасибо акустическим токенам). А саунд-дизайнеры генерируют Foley-эффекты просто по текстовому описанию сцены.

4. Customer Service (Поддержка)
Роботы, которые звучат как жестяная банка, вымерли. Компании берут голос своего лучшего продажника, делают из него LoRA-адаптер и масштабируют на 10 000 звонков одновременно. Бот делает микропаузы, вздыхает и говорит «эмм…», маскируя время инференса под человеческую задумчивость.

5. Accessibility (Доступность)
Люди с нарушениями речи (например, после инсульта) получили шанс снова заговорить своим голосом. Реал-тайм системы Voice Conversion считывают искаженную речь и на лету синтезируют её чистым, здоровым тембром оригинала. Это тот случай, когда ИИ реально меняет жизни.


А почему этот взрыв произошел именно сейчас? Всё дело в латентности. Пока задержка ответа была 2-3 секунды, это оставалось забавным концептом. Диалог рушился. Но как только гибридные архитектуры (которые мы разбирали) сбили инференс до <150 миллисекунд, Дельта между машиной и человеком исчезла. Ваш мозг просто не успевает зафиксировать задержку. Мы получили RAG-системы, интегрированные прямо в аудиопоток на лету.

Делитесь примерами ботов, которые имитируют дыхание и слова-паразиты 😅

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
1🤯1😎1
Диагноз по спектрограмме и невидимые клейма

Аудионейронки умеют не только генерировать голос — они виртуозно умеют его препарировать. Инструменты изменились, и ставки выросли.

Давайте посмотрим на неочевидные, но самые мощные векторы применения аудио-ИИ в 2026 году:

1. Музыкальная индустрия (Stem Separation & Remixing)
Модели разделения источников звука (Source Separation) разрушили монополию студий. Алгоритм анализирует спектрограмму и математически вычисляет, где гитара, где бас, а где вокал. Разбить готовый трек на мультитрек (stems) теперь стоит ноль рублей и ноль усилий. Для диджеев и инди-музыкантов это абсолютный чит-код для ремиксов.

2. Медицина и анализ просодии
А вот это настоящий хардкор. Акустические токены хранят не только тембр, но и микро-задержки, дрожь в голосе, ритм дыхания. Нейронки научились анализировать эти микрофлуктуации. Сегодня ИИ диагностирует депрессию, ранние стадии Паркинсона или респираторные заболевания просто по тому, как вы говорите в микрофон смартфона. Ваш голос стал полноценным биомаркером. А для терапии генерируются Personalized Soundscapes (персональные звуковые ландшафты), которые подстраиваются под ваш пульс в реальном времени, чтобы снизить тревожность.

3. Контент-креаторы
YouTube и TikTok каналы давно автоматизированы. Пишешь лонгрид, скармливаешь скрипту, и ИИ делает AI Voiceover с идеальными таймингами, расставляя эмоциональные акценты в нужных местах.


Но у этого ИТ-всемогущества есть темная сторона — Deepfakes. Когда украсть голос и сгенерировать фейковый компромат можно за 3 секунды, верить ушам больше нельзя. Наступила эпоха презумпции цифровой лжи.

Поэтому индустрия внедрила Watermarking (водяные знаки). Как это работает? Прямо во время генерации аудио, в латентном пространстве нейронного кодека, в звук вшивается криптографический шум. Благодаря законам психоакустики человеческое ухо его физически не слышит, но ИИ-детектор вычисляет сгенерированный трек с вероятностью 99.9%. Если вы генерите коммерческий контент без такой «цифровой подписи», платформы вас просто забанят на этапе загрузки. Это бесконечная гонка вооружений: генераторы против детекторов.

Кот в Коде | @kot_research_bot
1😎1👾1
Амнезия нейросетей

Маркетологи забывают упоминать нюансы. Попробуйте сгенерировать не 15 секунд для TikTok, а 10-минутный подкаст.

Личный опыт:

На днях я запустил локальный пайплайн для длинной озвучки. Первые две минуты диктор звучал как Морган Фримен, на третьей у него появилась одышка, а к финалу он зазвучал как Дарт Вейдер с похмелья, после чего консоль выплюнула фатальную ошибку OOM. Идеальный пример того, как теория разбивается о физику железа.


В текстовых LLM (вроде GPT-5.4) одно слово — это примерно 1–2 токена. Окно в 128к токенов позволяет загрузить целую книгу.
В аудио всё иначе. Звук — это гиперплотный массив данных. Один нейронный кодек может генерировать сотни акустических токенов на одну секунду звука. Десять минут аудио — это десятки, а то и сотни тысяч токенов.

Когда вы скармливаете это классическому Трансформеру, его механизм внимания (Attention) с квадратичной сложностью просто сжигает вашу VRAM. Но даже если железо вытянуло, начинается Voice Drift (Дрейф голоса) — аудио-аналог Concept Drift. Окно внимания модели (Sliding Window) сползает вперед, она забывает изначальные акустические токены тембра и начинает лепить «отсебятину». Консистентность рушится, голос мутирует.

Индустрия не могла мириться с таким КПД и выкатила инженерный Hard-Fix:

Во-первых, проблему длины решили через Hierarchical Tokenization (Иерархическую токенизацию) и эффективное внимание (Efficient Attention). Мы больше не генерируем всё и сразу. Модель сначала создает грубый смысловой и структурный каркас на весь файл (coarse tokens), а затем локально, кусками, рендерит акустику (fine tokens).

Во-вторых, дрейф тембра убивают через Parallel decoding и Confidence-based sampling. Алгоритм жестко отсекает неуверенные генерации, не давая модели фантазировать там, где она начинает забывать голос референса.


А чтобы этот монстр вообще запустился на конечном устройстве (Inference on-device), инженеры применяют дистилляцию и квантизацию. Мы безжалостно кастрируем веса модели и отдаем вычисления на аппаратные NPU-блоки смартфонов и плат.

Плюс, флагманские мультимодальные модели (Foundation Models) теперь интегрируют аудио как Native modality (нативную модальность) — они работают со звуком напрямую, минуя стадию перевода в текст, что экономит гигантский объем вычислительного бюджета.

Кот в Коде | @kot_research_bot
1🔥1😎1
Почему нейронки галлюцинируют на высоких частотах?

Если вы смогли заставить ИИ не забывать тембр, вас ждет следующий круг инженерного ада — физика звука.

Когда нейронный вокодер (декодер) восстанавливает аудиоволну из токенов, он оптимизирует стандартную функцию потерь (Loss function). Математически он делает всё верно: график волны совпадает с идеалом на 99%.

Но проблема в том, что наш слух нелинеен. Мы феноменально чувствительны к артефактам на высоких частотах. Модель их просто не считает приоритетными и заполняет высокочастотный спектр «цифровым мусором» — это и есть акустические галлюцинации.

Добавим сюда мультиязычность (Multilingual & accent robustness). Если вы берете голос британца и заставляете модель читать русский текст, акустические токены вступают в конфликт с семантическими. ИИ пытается натянуть английские фонемы на русские слова, и на выходе мы получаем карикатурного шпиона из голливудских фильмов 90-х.

Как индустрия выбивает эту дурь из кремния? Идем на уровень хард-фикса.

Perceptual Losses и Adversarial Training
Инженеры выкинули тупую математику и добавили «ИИ-слухача» (дискриминатор). Он обучен на физиологии человеческого уха. Если звук математически точен, но звучит как робот — генератор получает жесткий штраф по градиенту. Сверху это полируют аудио-RLHF (бьют по весам за артефакты на основе оценок живых людей).

Frame-level conditioning
Раньше мы задавали эмоцию на всё предложение: «Скажи грустно». Теперь мы используем пофреймовый контроль. Выделяем конкретное слово в массиве токенов и заставляем модель сорваться на крик именно на нём, не ломая соседние слова (Multi-task learning).

Privacy и Federated Learning
Гонять биометрию (ваш чистый голос) через облачные API корпораций — это самоубийство для приватности. В 2026 году энтерпрайз перешел на On-device inference. Ваш клон голоса обучается и живет только внутри смартфона.

Энергоэффективность
Вся эта генерация жрет батарею как не в себя. Будущее аудио-девайсов прямо сейчас переходит на Spiking Neural Networks (SNN) и аналоговые вычисления. Мы уходим от тяжелых видеокарт к нейроморфным чипам, которые потребляют в 100 раз меньше энергии, имитируя настоящие синапсы мозга.


А вы слышите этот характерный «цифровой песок» на высоких частотах в ИИ-каверах на YouTube? Бесит или уже привыкли?

Кот в Коде | @kot_research_bot
1🔥1👏1
Костыли отменяются

Знаете, что меня больше всего бесит в 99% текущих голосовых ботов и ассистентов? Их каскадная инвалидность.

Чтобы пообщаться с вами, система в 2025 году делала три шага: сначала ASR-модель переводила ваш голос в текст, потом LLM генерировала текстовый ответ, а затем TTS-модель озвучивала этот текст. Этот «испорченный телефон» убивал весь EAS (индекс КПД) гигантскими задержками. А главное — текст безжалостно сжирал ваши эмоции.


Если вы скажете: «Ой, да делай что хочешь» с тяжелым вздохом, текстовая LLM получит лишь сухую строчку "Ой, да делай что хочешь". Ваш сарказм, усталость и микро-паузы просто исчезнут при конвертации. Дельта между живым общением и машинным ответом оставалась пропастью.

Но прямо сейчас на наших глазах разворачивается концепция Полноценных Audio Foundation Models.

Новое поколение моделей работает с нативной модальностью. Модель «думает» звуковыми ассоциациями. Она физически слышит ваш сарказм, анализирует дрожь в голосе и генерирует ответ с соответствующей эмпатией или ответной иронией.


Что это дает нам на практике?

Во-первых, Real-time interactive dialogue с настоящим эмоциональным интеллектом. Убрав текстовую прослойку, инженеры срезали латентность до миллисекунд. У таких моделей появилась «акустическая память» взаимодействий.

Во-вторых, на сцену выходят Generative audio agents. Вы загружаете агенту 10-минутный кусок геймплея вашей игры, и он самостоятельно выступает как полноценный саунд-дизайнер. Он анализирует видеоряд, сам расставляет Foley-эффекты (шаги, шорохи одежды), генерирует адаптивный музыкальный эмбиент и сводит это всё в единый микс.

Кот в Коде | @kot_research_bot
1🔥1😎1
Клавиатуры в музей, звук в 3D

Индустрия осознала простую физику: Аудио — это первая модальность (First Modality). Печатать текст руками — это уже анахронизм (привет, вайб-кодинг). Скорость передачи информации голосом в разы выше. Зачем стучать по клавишам, если ИИ-ассистент считывает твои мысли через интонацию?

Но главное, куда текут инвестиции — это Cross-modal creativity (кросс-модальная генерация). Мы больше не генерируем "просто звук". В едином пайплайне сливаются аудио, видео и 3D. Нейронка слушает ваш барабанный бит и сама рендерит под него видеоряд.

Добавим сюда Personalized audio universes (персонализированные аудио-вселенные). Ваш умный дом, машина и наушники больше не говорят дефолтным голосом робота.


Новые архитектуры пытаются физически имитировать работу слуховой коры головного мозга человека. Они не просто умножают матрицы, они обрабатывают звук так же, как наши нейроны, добиваясь феноменальной энергоэффективности (Edge-first оффлайн-модели).

И чтобы этот дивный новый мир не превратился в рай для скамеров, этические фреймворки выходят на уровень хард-фикса. Детекция дипфейков теперь работает на уровне токенов. Алгоритмы вшивают криптографические маркеры прямо в латентное пространство при генерации. ИИ-аудитор распознает синтетику за миллисекунду, обнуляя шансы выдать сгенерированный голос за реальный.

Кот в Коде | @kot_research_bot
11🤯1
Хватит платить за подписки

Забудьте про дорогие SaaS-платформы, которые сжигают ваш VPI на каждом неудачном рендере. Ваш новый дом — Hugging Face.

Это наш GitHub для искусственного интеллекта. Там лежат открытые веса топовых моделей, которые можно забрать абсолютно бесплатно.

С чего собираем базу?

Whisper — для железобетонной транскрибации логов и созвонов.
MusicGen — для генерации фоновых битов.
EnCodec — тот самый нейронный кодек, о котором мы.

Где всё это крутить? Если у вас под столом стоит зверь с 24 ГБ VRAM (видеопамяти) — разворачиваем локально через Ollama-подобные интерфейсы, адаптированные под звук. Если у вас старенький ноут, на котором еле работает Thonny — не беда. Идем в Google Colab. Облачные GPU от Google пока еще позволяют гонять базовые аудио-модели бесплатно. Вы просто запускаете ячейки с кодом и ловите вайб-кодинг прямо в браузере.


Хотите «быструю победу», чтобы почувствовать магию и не лезть в математику? Начните с Voice Cloning.

Вам не нужно учить матан и собирать датасеты на 100 часов. Берете Coqui TTS или более свежий Fish Speech. Записываете 10 секунд своего голоса на диктофон смартфона, скармливаете скрипту — и получаете идеальный Zero-shot клон, который зачитает любой текст с вашей интонацией.

А для тех, кто готов идти в Hard-Fix и строить серьезный пайплайн: качайте RVC (Retrieval-based Voice Conversion). Это ультимативный инструмент для изменения голоса на лету. Для саунд-дизайна забирайте Audiocraft, а для создания дипфейк-дубляжа — Descript (с их фичей Overdub). Высший пилотаж инженера — это взять открытый кодек и запустить Fine-Tuning на своем собственном узкоспециализированном датасете. Вот тогда ИИ превращается из игрушки в ваш личный, предсказуемый инструмент.

Кот в Коде | @kot_research_bot
🔥21🤯1😎1
Где обитают реальные аудио-Дирижёры?

Индустрия летит на таких скоростях, что пока блогер монтирует свой ролик, архитектура успевает дважды обновиться, а старые костыли отваливаются за ненадобностью. Поэтому пока я пишу эти посты, смотрите вторым глазом на новости, а то и эта информация скоро устареет 🥲

Где искать этот исток? Забудьте про попсовые чаты, где обсуждают, как сгенерировать смешной голос политика. Реальные Дирижёры обитают в трех местах:

Hugging Face Forums — там дебажат веса моделей в реальном времени и выкладывают свежие квантованные сборки.

Reddit (r/MachineLearning) — самый жесткий фильтр от АИ-слопа. Если вендор выкатил маркетинг-пустышку, местное комьюнити умножит её RPI на ноль за сутки, разобрав логи по косточкам.

Discord-сервера разработчиков (Audio-AI) — там можно выцепить инсайты по дистилляции напрямую от создателей архитектур.


Но просто скроллить чаты мало. Если вы хотите понимать, почему ваша модель хрипит на высоких частотах, придется лезть в академические пейперы. Начните с базы: почитайте оригинальные статьи по AudioLM, SoundStorm и VALL-E.

А теперь — практика. Хватит тестить "Hello World" в TTS. Возьмите реальную задачу. Скачайте свой старый подкаст или длинную голосовуху. Вырежьте голос, прогоните его через RVC (Voice Conversion), измените тембр. Затем сгенерируйте через Audiocraft фоновый эмбиент, наложите Foley-эффекты и сведите всё в один трек. Только на живом проекте вы физически поймете, где модель ловит галлюцинации, как плывет контекст и зачем нужен RLHF.

И держите руку на пульсе. Прямо сейчас рынок рвут скрытые гемы 2026 года:

Kokoro 82M — крошечная TTS-модель, которая выдает студийный звук, работая даже на процессоре без GPU. Абсолютный мастхэв для Edge-девайсов и IoT.

VibeVoice — open-source монстр для клонирования с запредельным контролем эмоций на уровне отдельных токенов.

Hybrid diffusion-transformer — новая архитектура, которая окончательно решает проблему длинного контекста, смешивая математику диффузии с логикой трансформеров на уровне латентного пространства.


Следите за легковесами: Модели типа Kokoro доказывают, что для качественного звукового пайплайна в 2026 году больше не нужны кластеры из H100.

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥21😎1
Топ-5 хардкорных инсайтов аудио-марафона

Я отжал всю маркетинговую воду из пресс-релизов 2026 года и собрал для вас 5 железобетонных выводов Дирижёра.

Сохраняйте этот чек-лист. Это фундамент, на котором строится современный звуковой пайплайн:

1. Аудио-слепота и физика токенов
ИИ не знает, что такое звук. Он «смотрит» на 2D-спектрограмму. Если при клонировании голоса (Zero-shot cloning) вы получаете эффект «ведра» или гул кулера на фоне — это не баг нейронки. Это нейронный кодек (EnCodec/DAC) честно записал ваш фоновый шум в акустические токены и склеил их с голосом. Чистите референсы, иначе на выходе получите АИ-слоп.

2. Костыли «Текст-в-Голос» официально мертвы
Каскадные системы (ASR -> LLM -> TTS) убивают ваш индекс КПД (EAS) задержками и стирают эмоции. Наступила эра нативных Audio Foundation Models. Они жрут аудио-токены на входе и выплевывают аудио на выходе. Сарказм, вздохи и перебивания теперь обрабатываются математически точно, снижая латентность до <150 мс.

3. Металлический скрежет лечится только «палкой»
Математическая функция потерь плевать хотела на человеческие уши. Высокочастотные галлюцинации и скрипы выжигаются из моделей исключительно через Perceptual Losses (перцептивные потери) и жесткий RLHF-дожим. Модель буквально штрафуют за то, что людям физически неприятно её слушать.

4. Иллюзия безлимита и Open-Source спасение
Корпоративные SaaS-подписки сжигают ваш бюджет (VPI) на неудачных рендерах. Инженерная независимость в 2026 году — это локальный деплой. Тяжеловесов оставляем облакам, а 80% рутины закрываем открытыми моделями вроде Fish Speech (для эмоций и клонирования) или крошечной Kokoro 82M (которая летает даже на CPU смартфона).

5. Юридический Hard-Fix индустрии
Дикий Запад закончился. Стриминги банят ИИ-треки, а лейблы закрутили гайки. Главный технический ответ индустрии на дипфейки — невидимый Watermarking. Криптографический шум вшивается прямо в латентное пространство при генерации. Если вы делаете коммерцию — легализуйте свой звук, иначе детекторы обнулят ваши старания на этапе загрузки.


Аудио ИИ — это больше не монолитная черная коробка, куда ты кричишь, надеясь на чудо. Это гибридный конвейер. Разделите в голове Кодек (который сжимает), Трансформер (который думает) и Диффузию/Вокодер (которая рендерит волну). Как только вы понимаете, на каком именно этапе ломается ваша аудио-архитектура, процесс случайного угадывания (Trial and error) превращается в осознанный дебаг.

Кот в Коде | @kot_research_bot
😎21👏1
Какой аудио-баг сломал вашу архитектуру реальности?

Мы прошли путь от вопроса «какую кнопку нажать в Suno для хита» до понимания того, «почему Трансформер задыхается на 10-й минуте подкаста и как Mamba-архитектуры (SSM) спасают наш EAS».

Давайте честно: половина маркетинговых релизов в сфере генеративного звука — это АИ-слоп. Но где-то среди этого мусора спрятаны настоящие инженерные бриллианты.

Обратная связь канала — это мой личный RLHF (обучение с подкреплением от человека). Чтобы алгоритм моего контент-плана не скатился в Reward Hacking и не начал кормить вас бесполезной попсой ради лайков, мне нужно жестко откалибровать веса.

Мне нужно знать, какая тема вызвала у вас максимальный когнитивный диссонанс или, наоборот, помогла решить реальную рабочую задачу. Что именно заставило вас стукнуть по столу и сказать: «Ах вот почему эта железка хрипела при транскрибации!».

Голосуйте в опросе ниже! А в комментариях пишите словами: какой конкретно блок или инсайт зацепил вас больше всего? Может, это юридический газлайтинг лейблов в VK? Или магия клонирования голоса (LoRA) на дохлой видеокарте? Или чистая физика спектрограмм?

Кот в Коде | @kot_research_bot
😎21🤯1
За последнее время вышло много новостей (пока я разбирался с технологией автономной работы плат и искал нормальный вариант работы с телегой – всё это я пропустил🥲). Давайте разбираться, что к чему.

1. Итак, Сама Альтман решил вовсю стать блогером… потому что по-другому я не могу объяснить, как после доедания после Антропиков они решили и с Максом побороться, и новые gpt-5.5 и image-2 вывалить.

2. Антропики тоже далеко не ушли, и вместе с новыми версиями голос-в-текст выкатили Mythos. Да не абы какую, а обгоняющую gpt-5.5 почти по всем бенчам. Сказка, не правда ли?.. но нюанс в том, что она не для всех, в закрытом доступе. Всё никак не отошли от утечек своего Claude Code?

3. Гуглы выпустили Гему 4, которая и на компе летит, а на телефоне робит. Не верите? Давайте посмотрим! (У вас тоже убралась Gemini 3 Pro? Просто у меня в АИ студии остались 3.1 pro с небольшим бесплатным тарифом, дед-мразматик 3.1 flash и 3 flash… которая лучше 3.1 flash)

4. Что у китайцев? Пока DeepSeek выкатывает 4 версию, зайцы со своей GLM выкатывают 5.1, и квентисенции не забыли проапгрейдить своё детище до qwen-3.6-27B.

5. Ну и куда же без любимых бенчей. Выкатили послужной список новых тестов для нейронок, а именно ProgramBench, Gaia2, FrontierMath, BrokenArxiv и – о, Боги! – ruqualbench.

Итак, список готов, что разобрать. С чего начнём?

P.S. ах да, на картинке представлена карточная игра MTG. Кто умеет играть – велком в комменты!

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
31👾1
Начнём с основ

Больше месяца тружусь над разработкой реализации программного обеспечения для плат. Спросите, что ж я такого делаю всё это время?

Что было раньше: нужно было реализовать программы, которые описывал в нескольких постах (тут, там, здесь и ещё тут). Если вкратце, нужно сделать так, чтобы программа с платы опрашивала сервер по данным датчиков; на сервере срабатывала бы программа об опросе датчиков и отправке результатов обратно на плату; а на плате данные записывались на SD-карту и так циклом.

Что сейчас: всё то же самое нужно сделать… только в автономном режиме. То есть без подключения к ПК.


Вроде задача тоже не особо сложная, поменяй пару функций для запуска программы от «зарядки» и дело законченно. Но тут то всё и начинается. Ответ напишу в методиках, которые пробовал реализовать (спасибо главному программисту за идеи).

1. Реализация через файлы boot и main: файловая система в MicroPython (в принципе, как и везде) состоит из запускающих и работающих программ (собсна boot и main). Так вот пытались сделать так, чтобы boot отвечал за инициализацию и работу пинов (например, SD-карты, модема, камня STM32 и др), а файл main уже управлял через функции взаимодействия между железом (например, чтобы запустился экран и отображал данные).

Всё бы ничего, да вот только до конца не поняли, как это сделать на программном уровне через MicroPython. Всё стабильно работает, программы запускались и с работой через Thonny, и через терминал (REPL также в тони), и просто при подаче источника питания нужной нагрузки… вот только всё это работает от взаимосвязанной работы с подключением к пк. А без пк хоть ты подай больше/меньше вольтаж, хоть на кнопку нажми на плате – ничего не работает.

2. Переход от MicroPython к Arduino: вместо того, чтобы переписывать всё с нуля, решили попробовать обращаться через ардуину прямо к файлам с прогами. А что, вызов одних программ на одном языке через другие программы (или прошивки) на другом языке никто не запрещал. По этому поводу даже ответ у нейронки нашёл:

FFI (Foreign Function Interface)
Это стандартный термин для вызова кода одной программы/языка из другой (например, Python → C, Rust → C, Java → native через JNI и т.д.).
Альтернативные названия в зависимости от контекста:
Bindings (обвязки)
Interoperability layer
Bridge (мост)


И всё, жизнь в шоколаде, пляши и радуйся… да только всё упиралось в библиотеки. Обратиться к программе не так сложно, допиши пару строк кода (даже через нейронку) на другом языке не составит проблем. А вот установка библиотек в Arduino то ещё зрелище. Помимо того, что они ищутся по 10-15 минут, так ещё не факт, что установятся или вообще они есть в пакете установленной программы (или просто в Интернете). По итогу пока что тоже убрали эту затею, едем дальше.

Продолжаем ниже.

Кот в Коде | @kot_research_bot
2🔥1👏1
Продолжаем дальше :)

3. Возвращение к прошивкам:
возвращаемся к истокам, когда пытался реализовать работу SD-карты. По сравнению с инициализацией пинов для SD-карты – эта работа оказалось цветочками. Пошли ягодки.
Снова обращение в MSYS2 UCRT64, снова скачивание и перелопачивание прошивок (пусть не с первой, и не второй попытки). Базовую прошивку научился скачивать со всеми файлами, на открытие и редактирование файлов руку набил. Сиди и кайфуй, пробуй менять пины и всё тут!

Но и тут оказалась помарочка. Дело в том, что я столкнулся с двумя равнозаменяемыми ситуациями:

1. Замене пинов от USB-UART на инициализацию пинов для работы без ПК. Вот, то что я хотел! Реализуем этот вариант. А дальше что? Вот я закинул прошивку, она работает без ПК… а как программы то менять? По сути ПК у меня будет выступать либо как терминал для проверки логов, либо как редактор кода. Поэтому этот вариант пока отставим.

2. Оставляем USB-UART, отключаем RS485. Тоже вариант неплохой, теперь то точно можно будет работать и с ПК, и без него!.. Вот только RS485 – это по сути второе сердце для работы с датчиками. Если я заменю эти пины, то у меня не будут работать датчики, и по сути это будет чёрная коробка, которая на экран выведет «Hello World!». Так что тоже пока убираем.

«А как же вариант инициализовать USB-UART и RS485 на разные пины?»

Тоже вариант этот рассматривал, вот только каждый пин на плате предназначен для какой-то работы. Нельзя просто взять свободный пин и сказать, что он, условно, будет заниматься обработкой данных для датчиков, хотя его работала была за инициализацию диодов.

Последняя моя гипотеза состоит в том, чтобы инициализировать все сразу пины и постепенно отключать их, пока не найду золотую середину. Собсна этим и занимаюсь.

Как же другие прогеры на Arduino сделали эту работу?

Как вам такая задачка? Есть идеи, как это сделать?

Кот в Коде | @kot_research_bot
🤯2🗿1👾1