Как я проблему с прогами решал
Не так давно я писал, что с программами 1 (запуск системы, получение-отправки буфера, подключению к серверу) и 2 (получение кодовой фразы по портам, оптравку заготовленной программы для получения данных с метеостанции и датчика ветра) проблему решил. Как оказалось, не всё так просто.
В тот раз у меня взаимодействие с датчиками происходило как в программе 2, так и в 1, т.е. я одновременно получал запрос на получение данных что с главного столпа архитектуры, так и с сервера. Получалась двойная работа. Но я думал, что так и должно быть – если одно не работает, то второе точно должно получить данные.
Когда появлялись хоть какие-то данные, я считал, что если данные пришли, то не важно, с какой программы они пришли.
Архитектуру пришлось изменить. Прога1 – ядро и запуск, прога2 – получение-отправка. В сухом остатке нужно было вырезать часть кода, отвечающая за работу с датчиками и перенести в прогу2.
По итогу проблема решена, осталось допилить прогу2, чтобы вероятность получения данных пришла к этому виду. Похождения на 2 дня развернулись на 2 недели🙂
А у вас как на работе дела?
Кот в Коде|@kot_research_bot
Не так давно я писал, что с программами 1 (запуск системы, получение-отправки буфера, подключению к серверу) и 2 (получение кодовой фразы по портам, оптравку заготовленной программы для получения данных с метеостанции и датчика ветра) проблему решил. Как оказалось, не всё так просто.
В тот раз у меня взаимодействие с датчиками происходило как в программе 2, так и в 1, т.е. я одновременно получал запрос на получение данных что с главного столпа архитектуры, так и с сервера. Получалась двойная работа. Но я думал, что так и должно быть – если одно не работает, то второе точно должно получить данные.
Тут возникало сразу несколько проблем:
1. Переполненность буфера (вместо получения данных раз в 10 мин получал раз в 5);
2. Получалась одновременно и параллельная, и последовательная работа;
Когда появлялись хоть какие-то данные, я считал, что если данные пришли, то не важно, с какой программы они пришли.
Архитектуру пришлось изменить. Прога1 – ядро и запуск, прога2 – получение-отправка. В сухом остатке нужно было вырезать часть кода, отвечающая за работу с датчиками и перенести в прогу2.
Сложность не велика, перепиши ты прогу2 и дело с концом…как бы не так:
1. Сервер: каждый раз отправлять серверу обновленные проги2 было и не целесообразно, и невозможно, так как у меня нет прямого соединения с сервером. Приходилось напрягать других прогеров, отвечающих за изменение извне.
2. Порядок портов: оказывается(!), порядок запросов на сервер очень сильно влияет на запись данных. Если, условно, у вас есть 2 почтовых адреса, на первый вы отправляете запрос на время, а второй – на одобрение, то при последовательном получении данных, данные с первого адреса смешивается с ещё не дошедшим вторым почтовым адресом – получается каша.
3. Забивание потока: я пробовал различные способы чтения проги2, и построчное чтение, и потоковый парсинг, и фильтрацию данных. Ничего не получалось, выходили ошибки. Пока я не решил, что стоит объединить парсинг с фильтрацией и – да ну вы серьёзно? – корректно пошли данные.
По итогу проблема решена, осталось допилить прогу2, чтобы вероятность получения данных пришла к этому виду. Похождения на 2 дня развернулись на 2 недели
А у вас как на работе дела?
Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Локальные джуны
Сколько раз писал про нейронки (что в исследованиях, что в практике, что в новостях) так почти не писал про локальное развёртывание джунов на ПК. Казалось бы, развернул и развернул, чё бубнить то? Но в этой теме есть о чём поговорить. Давайте разбираться.
Сразу оговорюсь: выносем за скобки Apple MacBook с их Unified Memory. Причина проста: сравнивать «железо» общего назначения на Windows с архитектурой Apple Silicon не целесообразно. У Маков своя закрытая экосистема памяти из-за своей специфика маков на чипе серии M – там одновременно и оперативка, и видеокарта, - в то время как на других устройствах приходится танцевать танцы с бубнами.
Было ли для вас полезно? Если такое зайдёт, буду чаще про это писать.
Кот в Коде|@kot_research_bot
Сколько раз писал про нейронки (что в исследованиях, что в практике, что в новостях) так почти не писал про локальное развёртывание джунов на ПК. Казалось бы, развернул и развернул, чё бубнить то? Но в этой теме есть о чём поговорить. Давайте разбираться.
1. Цель
Начнём с того, зачем вам на ПК разворачивать нейросеть. В основном их используют для:
А) агентов (Claude Code, Cursor, GitHub Copilt etc.):
Б) поиграться (LM Studio, Ollama или даже KoboldCPP);
В) по работе (GigaChat в Сбере, YandexGPT угадайте где, Saiga)
Помимо этого, нужно понимать, с какой целью вам нужна нейросеть. Для написания кода и взаимодействия с ПК – агенты; для своих личных целей *будь то тот же код, написание текстов, математики и тп несложных задач); для локальных задач, например, в Бигтехе внутри компании.
2. Вы откуда?
Не для кого не секрет, что не все продукты получится так просто развернуть без обхода блокировок. Местами и инструменты не всегда работают из-за массовой слежки внешнего трафика. Так что у кого какие возможности, тот тем и пользуется.
3. Железо
Кроме того, лучше иногда проверять характеристики ПК, потому как от них зависит список джунов под боком:
А) Видеокарта (VRAM)
VRAM отвечает за то, сможет ли модель целиком поместиться в память GPU для обеспечения мгновенной генерации. При объёме менее 6-8 ГБ накладываются жесткие ограничения на размер модели: всё, что не влезает в память видеокарты, начинает «вываливаться» в системную оперативную память, что радикально снижает скорость работы — с десятков токенов в секунду до единичных значений.
Б) Оперативная память (RAM)
Оперативная память выступает в роли «запасного аэродрома». Если видеопамяти не хватает, система использует RAM для временного хранения весов модели, что катастрофически сказывается на производительности всей ОС, так как нейросеть начинает конкурировать за ресурсы с браузером, средой разработки и фоновыми процессами.
В) Процессор (CPU)
Процессор берет на себя роль диспетчера, управляя очередью вычислений. В контексте локальных нейросетей CPU должен быстро отдавать данные видеокарте. Использование мощного охлаждения становится обязательным условием, так как постоянная нагрузка на все ядра приводит к серьезному нагреву компонентов.
Сразу оговорюсь: выносем за скобки Apple MacBook с их Unified Memory. Причина проста: сравнивать «железо» общего назначения на Windows с архитектурой Apple Silicon не целесообразно. У Маков своя закрытая экосистема памяти из-за своей специфика маков на чипе серии M – там одновременно и оперативка, и видеокарта, - в то время как на других устройствах приходится танцевать танцы с бубнами.
На примере расскажу, что я сделал:
1. Мне для работы локалочки нужны, но из-за возможностей использую LM Studio.
2. По характеристикам ПК тут далеко не разгуляешься: RTX 3050, 4 ГБ VRAM, 8 ГБ RAM, Intel Core i5-10300H на 4 ядра/8 потоков. Не разойдёшься далеко, правда?
3. Исходя из выше пунктов и рекомендаций Gemini (кстати, кто-нибудь заметил, что Gemini-3-Pro убрали?) я смог установить:
• Qwen3 4B / Thinking: Основные рабочие лошадки для написания кода микроконтроллеров и сложного дебага логики.
• Qwen3 VL 4B: Мои «глаза» для анализа схем и визуального состояния плат.
• Phi-4 Mini Reasoning: Мой математик для оптимизации алгоритмов.
• Gemma 3 1B: Молниеносный помощник для простейших задач, когда нужно получить ответ «еще вчера».
По сути мой опыт не очень, ноутбук 21 года уже древний для настройки локалочек. Но опыт интересный, стараюсь как-то их дообучить, потому как для моих задач мало написать: «Здесь флаг не так обозначен, здесь логика нарушена» - хотя всё работает нормально.
Было ли для вас полезно? Если такое зайдёт, буду чаще про это писать.
Кот в Коде|@kot_research_bot
Всех приветствую. Даже не верится, но нас уже больше 1000. На днях в личку постучался сам Telegram с официальным признанием:
Спасибо каждому. Я знаю, что мой контент — это не лёгкие сторисы, а жёсткий хардкор на стыке STM32, Python и архитектуры ИИ. То, что вас здесь так много, доказывает: в 2026 году люди ценят настоящую экспертизу и честный дебаг, а не просто красивые графики.
Если вам по кайфу то, что тут делаю, и вы готовы помочь Дирижёру «улучшить железо» канала — проголосуйте по ссылке👉
t.me/boost/cat_with_code
Это позволит нам подняться на новый уровень и открыть функции, которые выделят «Кота в Коде» в вашей ленте.
Кот в Коде|@kot_research_bot
«У Вас популярный канал». Для инженера, который начинал этот путь с паяльником в одной руке и галлюцинирующим Гроком в другой, — это важная отметка в логах.Спасибо каждому. Я знаю, что мой контент — это не лёгкие сторисы, а жёсткий хардкор на стыке STM32, Python и архитектуры ИИ. То, что вас здесь так много, доказывает: в 2026 году люди ценят настоящую экспертизу и честный дебаг, а не просто красивые графики.
Если вам по кайфу то, что тут делаю, и вы готовы помочь Дирижёру «улучшить железо» канала — проголосуйте по ссылке
t.me/boost/cat_with_code
Это позволит нам подняться на новый уровень и открыть функции, которые выделят «Кота в Коде» в вашей ленте.
Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6🔥1 1
А как?.. Ч.1
На прошлой неделе с научруком обговорили реализацию взаимодействия программ и ОПД (отправку-получения данных) между сервером и платой. Появились интересные вопросы в реализации и улучшений в работе, но о них чуть позже.
Ведь появилась задача, к которой мы долго шли, оттягивали назад, но обойти её никак не могли… а именно работа платы без подключения к ПК.
В чём состоит задача?
Раньше: запускалась ядро-прога1 -> она инициализировала сд-карту, модем, экран -> подключалась через порты к серверу для работы проги2 и синхронизации времени -> после отхода в сон прога2 запрашивал данные с датчиков -> данные отправлялись обратно проге1, фильтровались и парсились, после чего записывались на сд-карту – и так циклом
Теперь: всё, то же самое, только теперь нужно реализовать работу без подключения к внешним умным коробкам по типу ноута.
Есть 2 варианта реализации:
1. просто включать источник питания -> после подачи тока и напряжения плата сама по себе просыпается и запускает файлы;
2. после включения источника питания нажимать/зажимать на короткое время кнопку POWER ON
Как вы думаете, что-то уже получилось сделать?🙂
Кот в Коде|@kot_research_bot
На прошлой неделе с научруком обговорили реализацию взаимодействия программ и ОПД (отправку-получения данных) между сервером и платой. Появились интересные вопросы в реализации и улучшений в работе, но о них чуть позже.
Ведь появилась задача, к которой мы долго шли, оттягивали назад, но обойти её никак не могли… а именно работа платы без подключения к ПК.
В чём состоит задача?
Раньше: запускалась ядро-прога1 -> она инициализировала сд-карту, модем, экран -> подключалась через порты к серверу для работы проги2 и синхронизации времени -> после отхода в сон прога2 запрашивал данные с датчиков -> данные отправлялись обратно проге1, фильтровались и парсились, после чего записывались на сд-карту – и так циклом
Теперь: всё, то же самое, только теперь нужно реализовать работу без подключения к внешним умным коробкам по типу ноута.
Есть 2 варианта реализации:
1. просто включать источник питания -> после подачи тока и напряжения плата сама по себе просыпается и запускает файлы;
2. после включения источника питания нажимать/зажимать на короткое время кнопку POWER ON
Как вы думаете, что-то уже получилось сделать?
Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥1🤯1
А как?.. Ч.2
Не буду томить – ничего не получилось.
Что я пробовал сделать?
1. В архитектуре ядра как-то сразу инициализировать пины для включения платы:
2. Дописывал принудительное включение ядра, дабы оно стартовало без использования Thonny + создание и отображение возможных ошибок:
3. В файле boot.py раскоментировал разные строки и дописывал там любые взаимодействия с с файлом main (ядро), например, так:
Прочитал разные статьи, мануалы, обсуждения на гитхабе, с нейронки общался – пока всё тщетно. Может кто-то знает ответ на мой вопрос?
Кот в Коде|@kot_research_bot
Не буду томить – ничего не получилось.
Что я пробовал сделать?
1. В архитектуре ядра как-то сразу инициализировать пины для включения платы:
# 1. Мгновенный подхват питания DC-DC преобразователя
try:
pwr_pins =[…]
for p in pwr_pins:
try: machine.Pin(p, machine.Pin.OUT).high()
except: pass
except: pass
# 2. Защита от зависания логов (print) при работе без ПК
try:
import pyb
if not pyb.USB_VCP().isconnected():
os.dupterm(None, 1)
except: pass
# 3. Прогрев конденсаторов SD-карты и OLED
utime.sleep(3)
2. Дописывал принудительное включение ядра, дабы оно стартовало без использования Thonny + создание и отображение возможных ошибок:
try:
start()
except Exception as e:
try:
with open("CRASH_LOG.txt", "w") as f:
f.write("SYSTEM CRASHED!\n")
sys.print_exception(e, f)
except: pass
3. В файле boot.py раскоментировал разные строки и дописывал там любые взаимодействия с с файлом main (ядро), например, так:
import machine
import pyb
pyb.main('main.py') # main script to run after this one
Прочитал разные статьи, мануалы, обсуждения на гитхабе, с нейронки общался – пока всё тщетно. Может кто-то знает ответ на мой вопрос?
Кот в Коде|@kot_research_bot
❤3🔥1🗿1
А как?.. Ч.3
Теперь к теме вопросов-предложений улучшения программ:
1. Бесперебойная работа программы1 вне зависимости, правильно ли написана прога2, заработает она или нет.
Как это реализовано:
1. Защита при запуске (exec): в проге1 запуск скачанного скрипта обернут в жесткий
Если Программа 2 содержит синтаксическую ошибку (например,
2. Вопрос о ресурсах: ограничения памяти и приоритезация (Прога3)
Как это частично реализовано сейчас:
• Есть уже есть лимит на отправку данных для защиты диска логов:
Я не пытаюсь загрузить весь CSV файл в память, чтобы не убить RAM.
• Защита RAM при парсинге (0 RAM Parser):
Потоковый парсер читает файл кусками по 128 байт:
Это значит, что даже если сервер пришлет файл весом в 1 Мегабайт, плата спокойно его отфильтрует, не забив оперативку.
Проблема в том, что
Можно добавить блок валидации (перед exec):
Что такое прога3?
Это крошечный, заранее "зашитый" на SD-карту скрипт (
Кот в Коде|@kot_research_bot
Теперь к теме вопросов-предложений улучшения программ:
1. Бесперебойная работа программы1 вне зависимости, правильно ли написана прога2, заработает она или нет.
Как это реализовано:
1. Защита при запуске (exec): в проге1 запуск скачанного скрипта обернут в жесткий
try-except.try:
with open(PROG_FILE, "r") as f:
exec(f.read(), globals())
except Exception as e:
self.log("ОШИБКА ЗАПУСКА ПРОГРАММЫ 2:")
sys.print_exception(e)
Если Программа 2 содержит синтаксическую ошибку (например,
await uasyn), она просто выведет ошибку в лог, а цикл проги1 пойдет дальше (спать на 10 минут и качать заново). Прога1 не зависнет.2. Вопрос о ресурсах: ограничения памяти и приоритезация (Прога3)
Если прога2 займёт всё место, то что делать в таком случае? Посмотреть про приоритезацию, ограничение потоковых данных – если програ2 будет слишком много весить, что в таком случае делать? Как-то нужно ли проверять, сколько есть свободной памяти на плате? Сколько можно выделить? Нужно ли проверять, сколько весит файл? Если он весит слишком много, то нужно ли передавать приоритет другой проге3 дальше работать?
Как это частично реализовано сейчас:
• Есть уже есть лимит на отправку данных для защиты диска логов:
if s > MAX_UPLOAD_SIZE:
f.seek(s - MAX_UPLOAD_SIZE)
Я не пытаюсь загрузить весь CSV файл в память, чтобы не убить RAM.
• Защита RAM при парсинге (0 RAM Parser):
Потоковый парсер читает файл кусками по 128 байт:
chunk = f_in.read(min(bytes_left, 128))Это значит, что даже если сервер пришлет файл весом в 1 Мегабайт, плата спокойно его отфильтрует, не забив оперативку.
Проблема в том, что
exec(f.read()) загружает весь код в оперативную память для компиляции. Если прога2 весит слишком много, плата умрет с MemoryError.Можно добавить блок валидации (перед exec):
# 1. Узнаем размер скачанного файла prog2.py
file_size = os.stat(PROG_FILE)[6]
# 2. Узнаем, сколько свободно RAM прямо сейчас
free_ram = gc.mem_free()
if file_size > 15000:
self.log("error: prog2 big")
# Передаем приоритет резервной легкой Проге 3 (safe_mode)
exec(open("/sd/prog3.py").read(), globals())
elif free_ram < file_size * 2:
self.log("error: Not enough RAM to compile")
exec(open("/sd/prog3.py").read(), globals())
else:
exec(open(PROG_FILE).read(), globals())
Что такое прога3?
Это крошечный, заранее "зашитый" на SD-карту скрипт (
Fallback/Safe Mode). Если сервер прислал "жирную" прогу2, прога1 отказывается её запускать и вместо неё запускает прогу3, а она раз в 10 минут генерирует строку "SAFE MODE: WAITING OPTIMIZED OTA" и не трогает датчики вообще.Кот в Коде|@kot_research_bot
❤2🔥1🤯1
А как?.. Ч.4
• Вариант А:
Добавим в прогу1 чтение локальной версии (например, из крошечного файла version.txt или просто хэш-сумму файла prog2.py).
При запросе на порт плата шлет: INIT_PING: DATE TIME | V: 1.2.
Сервер смотрит: если у него лежит та же версия 1.2, он отвечает коротким сообщением NO_UPDATE.
Что нужно добавить в прогу1:
• Вариант Б:
Плата скачивает код всегда, но сохраняет его во временный файл. Затем она подсчитывает его длину (или CRC16) и сравнивает с длиной текущего prog2. Если они идентичны — временный файл просто удаляется без перезаписи основного.
Минус: Мы всё равно тратим интернет-трафик модема на скачивание. Вариант А лучше.
Кот в Коде|@kot_research_bot
3. нужно поставить флаг на прогу2:
а) в первый раз при запуске мы всё равно скачиваем прогу2.
б) во 2, 3 и далее последующих разах нам нужно проверять:
б.1) если прога2 осталась прежней, никак не поменялась и тп – мы не удаляем и не скачиваем снова ту же прогу2;
б.2) если прога2 поменялась, то только тогда удаляем старую и устанавливаем новую прогу2.
• Вариант А:
Добавим в прогу1 чтение локальной версии (например, из крошечного файла version.txt или просто хэш-сумму файла prog2.py).
При запросе на порт плата шлет: INIT_PING: DATE TIME | V: 1.2.
Сервер смотрит: если у него лежит та же версия 1.2, он отвечает коротким сообщением NO_UPDATE.
Что нужно добавить в прогу1:
if b"NO_UPDATE" in chunk:
self.log("Skipping download.")
break
• Вариант Б:
Плата скачивает код всегда, но сохраняет его во временный файл. Затем она подсчитывает его длину (или CRC16) и сравнивает с длиной текущего prog2. Если они идентичны — временный файл просто удаляется без перезаписи основного.
Минус: Мы всё равно тратим интернет-трафик модема на скачивание. Вариант А лучше.
Кот в Коде|@kot_research_bot
❤2🗿2🔥1
Кот в Коде|ИИ и Питон
Локальные джуны Сколько раз писал про нейронки (что в исследованиях, что в практике, что в новостях) так почти не писал про локальное развёртывание джунов на ПК. Казалось бы, развернул и развернул, чё бубнить то? Но в этой теме есть о чём поговорить. Давайте…
Забыл рассказать о сервисах, на которых можно проверить, какие нейронки можно локально поставить на ПК:
Оба бесплатные, без регистрации.
Первый — для мгновенного чека, второй — для детального подбора по качеству и offload'у.
Кто пробовал — пишите в комментах, что вам удобнее!
Кот в Коде|@kot_research_bot
🧠 canirun.ai
Открываешь — и браузер сам определяет GPU, VRAM, RAM и CPU. Ничего вводить не надо. Сразу выдаёт для каждой модели: «Runs great», «Decent», «Barely runs» или «Too heavy» + сколько памяти жрёт.
🧠 whatmodelscanirun.com
Вводишь вручную VRAM, системную RAM, минимум токенов/сек.
Получаешь список из 122+ конфигураций GGUF-моделей, отсортированных по качеству (MMLU). RUNS WELL, TIGHT FIT, DOESN'T FIT.
Для слабого железа (4–6 GB VRAM) именно TIGHT FIT часто даёт самые сильные варианты.
Оба бесплатные, без регистрации.
Первый — для мгновенного чека, второй — для детального подбора по качеству и offload'у.
Кто пробовал — пишите в комментах, что вам удобнее!
Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4⚡1🔥1😎1
Поговорим?
Друзья, всех привествую. Я тут пропал ненадолго, надо исправляться.
Параллельно с работой прохожу обучение по основам вайбкодинга (казалось бы, уже вайбожор, при чём тут обучение). Там от базы про варианты генерации контента вплоть до автоматизаций и создания своих приложух.
Так что интересно с вами на эту тему пообщаться. Кому что здесь больше всего интересно по нейронкам?
• Может генерация картинок и видео будут вам по душе?
• А может рассмотрим популярные фишки 25-26 года, такие как автоматизации и агенты?
• Или вообще отойдём от чего-то общего и начнём всё с базы?
Делитесь своими проблемами по нейронкам, какие у вас стоят задачи (можем их разобрать) - расскажите, как у вас дела.
А я пока пущу снова голосования.
P.S. на картинке представлены основные темы с обучения, которые мне стали интересны и что смог подцепить
Друзья, всех привествую. Я тут пропал ненадолго, надо исправляться.
Параллельно с работой прохожу обучение по основам вайбкодинга (казалось бы, уже вайбожор, при чём тут обучение). Там от базы про варианты генерации контента вплоть до автоматизаций и создания своих приложух.
Так что интересно с вами на эту тему пообщаться. Кому что здесь больше всего интересно по нейронкам?
• Может генерация картинок и видео будут вам по душе?
• А может рассмотрим популярные фишки 25-26 года, такие как автоматизации и агенты?
• Или вообще отойдём от чего-то общего и начнём всё с базы?
Делитесь своими проблемами по нейронкам, какие у вас стоят задачи (можем их разобрать) - расскажите, как у вас дела.
А я пока пущу снова голосования.
P.S. на картинке представлены основные темы с обучения, которые мне стали интересны и что смог подцепить
❤3⚡1🔥1
Всех ещё раз приветствую.
Начнём с первой голосовалки: что вам интересно из мира нейросетей?
Начнём с первой голосовалки: что вам интересно из мира нейросетей?
Anonymous Poll
8%
Начинай с базы по программированию
33%
Больше информации по нейросетям
8%
Конкретно разобрать текстовые/кодовые нейронки
33%
Аудио/видео/фото-нейронки, тесты, сравнения
33%
Автоматизации (n8n)
33%
Нужны реальные кейсы?
Имеется в виду какие нейросети под что лучше заточены, составить топ того, что я использую и для чего.
Имеется в виду какие нейросети под что лучше заточены, составить топ того, что я использую и для чего.
Anonymous Poll
90%
Да! Было бы прекрасно!
10%
Давай, кейсы полезнее просто текста
0%
Можно, вряд ли буду использовать :)
0%
Давай лучше больше про MicroPython
10%
Дальше голосовалка будет на больную тему, связанную с большим ограничением работы с Телеграмом. Из всех щелей доноситься информация, что скоро здесь лавочку прикроют...потом снова открывают, но не до конца... В общем, нужно с этим что-то решать.
Вопрос будет довольно-таки щепетильный, поскольку кроме как Телеграма нормальной площадки для реализации своего потенциала я не нашёл (следовательно, плохо искал😅 )
На всякий пожарный сделаю пометку:
*принадлежит Meta, компания признана экстремистской и запрещена в России
*Признаны экстремистскими организациями и запрещены на территории РФ.
Буду рад, если порекомендуете худо-бедно нормальные площадки🫶
Вопрос будет довольно-таки щепетильный, поскольку кроме как Телеграма нормальной площадки для реализации своего потенциала я не нашёл (следовательно, плохо искал
Из того, что я знаю, можно попробовать попереезжать на такие платформы как:
Habr, vc.ru, dtf.ru - как я понял позиционриют себя как Яндекс Дзен, только для прогеров (поправьте, если не прав);
boosty - для предоставления более продвинутого и закрытого контента.
Кого бы я не рассматривал для переезда:
VK, одноклассники, Телега;
Мах (именно мах, а не макс).
На крайний случай:
instagram*
Youtube*
Threads*
X*
Facebook*
На всякий пожарный сделаю пометку:
*принадлежит Meta, компания признана экстремистской и запрещена в России
*Признаны экстремистскими организациями и запрещены на территории РФ.
Буду рад, если порекомендуете худо-бедно нормальные площадки
Please open Telegram to view this post
VIEW IN TELEGRAM
👾3❤1🔥1🤡1
Почему «бесплатные» нейронки сжигают бюджет быстрее, чем GPT-5
Вчера решил прикрутить голосовой интерфейс к нашей метеостанции Сокол-М1, чтобы она не просто слала логи по RS485, а буквально проговаривала критические алерты. Текст есть, нужен идеальный голос.(с 1 апреля 😅 ) Залетаю в ElevenLabs — абсолютного монополиста на рынке TTS (Text-to-Speech) в 2026 году. Маркетинг обещает «бесплатный старт». Я закидываю текст, запускаю генерацию, делаю пару итераций, чтобы убрать роботизированные интонации... и через 15 минут получаю плашку:
Давайте честно посчитаем Дельту между маркетингом и суровой физикой аудионейронок.
Инженерная боль здесь в том, что аудионейронки работают не так, как текстовые LLM. Если в коде мы платим доли центов за «грязный» токен и можем легко рефакторить строку, то в аудио генерации каждый рендер — это полный прогон тяжелой архитектуры. Стоимость ошибки (Penalty) здесь физически дорогая. Маркетинг заманивает нас "бесплатными" кнопками, но архитектура генеративного звука устроена так, что она принудительно сажает вас на корпоративную подписку.
У кого уже оформлена подписка на ElevenLabs или Suno? Окупается ли ваш VPI или кредиты сгорают на неудачных дублях?
Кот в Коде | @kot_research_bot
Вчера решил прикрутить голосовой интерфейс к нашей метеостанции Сокол-М1, чтобы она не просто слала логи по RS485, а буквально проговаривала критические алерты. Текст есть, нужен идеальный голос.
«Лимит исчерпан». Мой внутренний VPI-калькулятор просто вышел из чата.Давайте честно посчитаем Дельту между маркетингом и суровой физикой аудионейронок.
Возьмем флагманов:
• ElevenLabs: Free-тиер дает 10 000 символов в месяц. Звучит как книга, да? В реальности это ~8–10 минут сырого аудио. Без коммерческого использования и без профессионального клонирования. В аудио генерации ты никогда не получаешь идеал с первой попытки. Ты тратишь 5-6 рендеров на подбор эмоции. Твои 10 минут превращаются в 1.5 минуты готового продукта. Хочешь работать? Плати: $5 за 30k символов (Starter) или $22 за 100k (Creator).
Кредитная математика жесткая: 1 символ = 1 кредит (но на легких моделях Turbo/Flash спишут 0.5).
• Fish Audio: Текущий топ по передаче эмоций и мультиязычности. Они делают zero-shot клонирование голоса всего с 10+ секунд исходника (мгновенно, без тонкой настройки). Бесплатный тариф сильно урезан, нормальная работа стартует от $15/мес. Для сравнения, Descript Overdub (база для подкастеров) тоже просит $15/мес, но для создания качественного клона потребует от вас 10+ минут чистого аудио.
В музыкальном сегменте та же монополия:
• Suno — это GPT-4 в мире музыки. Free-версия сыпет 50 кредитов в день (10 песен, обнуление в 00:00 UTC). Звучит неплохо, пока нейронка не выдаст тебе 5 раз подряд акустический мусор. Pro-тариф обойдется в $10/мес (2500 кредитов), а Premier — $30 (10 000 кредитов). Их главный конкурент Udio держит похожие лимиты, но в 2026 году, после судов с лейблами, они жестко сфокусировались на лицензированном материале, урезав креатив ради безопасности.
Инженерная боль здесь в том, что аудионейронки работают не так, как текстовые LLM. Если в коде мы платим доли центов за «грязный» токен и можем легко рефакторить строку, то в аудио генерации каждый рендер — это полный прогон тяжелой архитектуры. Стоимость ошибки (Penalty) здесь физически дорогая. Маркетинг заманивает нас "бесплатными" кнопками, но архитектура генеративного звука устроена так, что она принудительно сажает вас на корпоративную подписку.
🆓 Для MVP и черновиков — выжимаем Free-тиеры ElevenLabs/Suno, но используем дешевые модели (Turbo/Flash), чтобы экономить токены.
Никогда не пытайтесь использовать аудио с бесплатных тарифов в коммерции — алгоритмы watermarking'а в 2026 году найдут вас и кинут страйк.💳 Если вам нужен голос для серьезного проекта, сразу закладывайте в смету $20-30/мес. Это неизбежный налог на качество.
У кого уже оформлена подписка на ElevenLabs или Suno? Окупается ли ваш VPI или кредиты сгорают на неудачных дублях?
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯2❤1⚡1🔥1
Как перестать кормить API-гигантов и поднять свой аудио-сервер
Платить $22 за каждый чих и трястись над лимитом токенов — это не путь Дирижёра. Инженерная независимость начинается там, где заканчивается SaaS-подписка. Поэтому сегодня мы собираем свой локальный аудио-стек, который не просит денег и не сливает логи ваших проектов на чужие сервера.
Если копнуть глубже мейнстрима, рынок делится на энтерпрайз для богатых и open-source для умных.
Из корпоративного сектора стоит упомянуть Resemble AI (дорого, мощно, зато у них есть open-source движок Chatterbox с MIT-лицензией для zero-shot клонирования в реал-тайм). Есть Play.ht (от $14/мес, просит 30+ секунд аудио для создания качественного клона) и WellSaid Labs (чистый B2B с лицензионными дикторами).
А что со звуками (SFX)? Вместо того чтобы искать готовые сэмплы удара металла о бетон для интерфейса, мы их генерим. Stable Audio (от Stability AI) или открытый MOSS-SoundEffect (чистый Foley-генератор) справляются с этим на ура.
Русский ИИ-андеграунд выкручивается как может: YouTube-каналы типа «Russian Ai Music — HITS» вовсю клепают нейро-попсу, используя локальные агрегаторы типа FICHI.AI или Study AI, которые дают доступ к Suno и ElevenLabs в одном окне за рубли. Но любая привязка к внешнему API-шлюзу — это риск того, что завтра рубильник выключат. И тут локальный деплой (self-hosted) превращается из прихоти гика в базовое условие выживания проекта.
А у вас какое железо под капотом? Потянет локальную TTS-модель или пока сидите на API-игле? Скидывайте спеки в комменты.👇
Кот в Коде | @kot_research_bot
Платить $22 за каждый чих и трястись над лимитом токенов — это не путь Дирижёра. Инженерная независимость начинается там, где заканчивается SaaS-подписка. Поэтому сегодня мы собираем свой локальный аудио-стек, который не просит денег и не сливает логи ваших проектов на чужие сервера.
Если копнуть глубже мейнстрима, рынок делится на энтерпрайз для богатых и open-source для умных.
Из корпоративного сектора стоит упомянуть Resemble AI (дорого, мощно, зато у них есть open-source движок Chatterbox с MIT-лицензией для zero-shot клонирования в реал-тайм). Есть Play.ht (от $14/мес, просит 30+ секунд аудио для создания качественного клона) и WellSaid Labs (чистый B2B с лицензионными дикторами).
Но нас интересует Hardware-независимость. Что можно развернуть локально, чтобы получить нулевой VPI (Value-to-Price)?
• Kokoro 82M: Ультра-легкая TTS. Весит копейки, крутится даже на CPU старенького ноутбука без дискретной видюхи. Для базовой озвучки логов с датчиков на STM32 — абсолютный мастхэв.
• Chatterbox-Turbo / Coqui XTTS: Тяжелая артиллерия для zero-shot клонирования голоса и контроля эмоций. Работает локально, лимиты — только охлаждение вашей видеокарты.
• RVC (Retrieval-based Voice Conversion): Золотой стандарт для singing voice conversion (перенос вокала). Те самые AI-каверы на YouTube делаются именно здесь.
• MusicGen / HeartMuLa: Генерация музыки из текста прямиком с Hugging Face.
А что со звуками (SFX)? Вместо того чтобы искать готовые сэмплы удара металла о бетон для интерфейса, мы их генерим. Stable Audio (от Stability AI) или открытый MOSS-SoundEffect (чистый Foley-генератор) справляются с этим на ура.
Русский ИИ-андеграунд выкручивается как может: YouTube-каналы типа «Russian Ai Music — HITS» вовсю клепают нейро-попсу, используя локальные агрегаторы типа FICHI.AI или Study AI, которые дают доступ к Suno и ElevenLabs в одном окне за рубли. Но любая привязка к внешнему API-шлюзу — это риск того, что завтра рубильник выключат. И тут локальный деплой (self-hosted) превращается из прихоти гика в базовое условие выживания проекта.
ШО ПО ИТОГУ:
• Для разовых тестов и "поиграться" — юзаем бесплатные тиеры флагманов или агрегаторы за рубли.
• Для стабильного продакшена в студии — Creator/Pro тарифы (если готовы платить «налог на комфорт»).
• Для 100% контроля, приватности и безлимитной генерации — разворачиваем Kokoro, RVC или XTTS на своем железе (или в Colab). Безлимит существует только там, где сервер стоит под вашим столом.
А у вас какое железо под капотом? Потянет локальную TTS-модель или пока сидите на API-игле? Скидывайте спеки в комменты.
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1⚡1👾1
«Газлайтинг» от лейблов. Как нейронки сломали музыкальную индустрию, а индустрия нанесла ответный удар
Если вы думаете, что главная проблема генеративного аудио — это подобрать идеальный промпт для Suno, то вы отстали от жизни на год. Сегодня главная проблема — это легализация того, что вы нагенерировали. Потому что музыкальные мейджоры официально объявили войну «вайб-кодерам» от музыки.
• «Дикий Запад» генеративной музыкипока закончился. Заливать чистые ИИ-треки на Spotify ради монетизации — это пустая трата времени. Алгоритмы watermarking'а вас вычислят и забанят.
• Аудионейронки — это экзоскелет, а не замена артисту. Их нужно использовать для генерации демок, сэмплов (stems), фоновых шумов (Foley) или референсов, но финальная сборка и вокал должны содержать «человеческий след», чтобы пройти фильтры площадок.
Индустрия на Западе закручивает гайки. Как считаете, справедлив ли бан для ИИ-треков, если обычным слушателям песня реально нравится? Жду ваши мысли в комментах.
Кот в Коде | @kot_research_bot
Если вы думаете, что главная проблема генеративного аудио — это подобрать идеальный промпт для Suno, то вы отстали от жизни на год. Сегодня главная проблема — это легализация того, что вы нагенерировали. Потому что музыкальные мейджоры официально объявили войну «вайб-кодерам» от музыки.
Реальные кейсы и их последствия:
В 2025 году трек «I Run» от виртуальной группы Haven (100% ИИ-генерация голоса и бита) пробил 40+ миллионов стримов на Spotify и завирусился в TikTok. Алгоритмы площадок с удовольствием кормили пользователей этим треком, пока не вскрылась правда. Итог? Трек снесли с платформ с пометкой «обман слушателей».(В конце ноября Вирусный трек группы HAVEN «I Run» вернулся на стриминговые сервисы с новым вокалом от Кейтлин Арагон после того, как оригинал был удален из-за опасений по поводу озвучивания с помощью искусственного интеллекта)
Следом всплыл кейс Velvet Sundown — полностью ИИ-бэнд выпустил два альбома и собрал 1+ млн стримов за пару недель. Когда авторы сами раскрыли карты, индустрию порвало. Музыканты назвали это «читерством», а большая тройка (Universal, Warner, Sony) пошла в суды.
И вот мы в 2026-м:
Судебные иски урегулированы, но какой ценой? Флагманы вроде Suno и Udio прогнулись. Теперь их датасеты жестко кастрированы (обучение только на лицензионном материале), а для пользователей (даже на платных Pro-тарифах) ввели жесткий cap (лимит) на скачивания. Корпорации буквально задушили пропускную способность (throughput) инструментов, чтобы спасти свой бизнес.
Здесь мы видим классический конфликт: экспоненциальный рост КПД алгоритмов разбивается о бюрократический хард-фикс. Индустрия включила защитные механизмы:
Bandcamp (в январе 2026) официально выкатил полный бан на ИИ-музыку («wholly or in substantial part»).
• iHeartRadio запустили программу «Guaranteed Human» — если нейросеть сгенерировала хотя бы вокальный сэмпл, трек не пустят в эфир.
• Шведы принудительно сняли с чартов хит «Jag Vet, Du Är Inte Min», когда выяснилось, что он "AI-assisted".
• Golden Guitar Awards 2026 забанили генеративный ИИ после того, как им в шорт-лист подсунули 5 сгенерированных треков.
• Billboard официально закрыл Hot 100 для чистых ИИ-треков.
Для системы это Reward Hacking: ИИ выдает идеальный коммерческий продукт, пользователи его слушают, но регуляторы обнуляют ваш RPI, потому что вы «срезали углы».
• «Дикий Запад» генеративной музыки
• Аудионейронки — это экзоскелет, а не замена артисту. Их нужно использовать для генерации демок, сэмплов (stems), фоновых шумов (Foley) или референсов, но финальная сборка и вокал должны содержать «человеческий след», чтобы пройти фильтры площадок.
Индустрия на Западе закручивает гайки. Как считаете, справедлив ли бан для ИИ-треков, если обычным слушателям песня реально нравится? Жду ваши мысли в комментах.
Кот в Коде | @kot_research_bot
❤1🤯1🗿1👾1
Как ИИ-артисты ломают чарты Яндекса, пока Минцифры готовит рубильник
Пока за океаном выписывают страйки и банят за сгенерированный хай-хэт, в нашем RU-сегменте происходит настоящий Дикий Запад. Никаких правил, сплошной вайб-кодинг и терабайты аудио-слопа, который внезапно начал собирать миллионы прослушиваний.
Реакция индустрии в России пока мягче: нет массовых запретов, но Минцифры уже готовит регуляции по хранению данных (данные должны храниться в РФ 3 года + фильтры на «традиционные ценности»). Для Дирижёра это означает одно: Context Bleeding политики в технологии. Использование сырых западных API (Suno, ElevenLabs) без локального прокси скоро превратится в риск получить заблокированный порт.
А как вы относитесь к ИИ-артистам и каверам? Бесит, когда нейросеть крадет голос известного артиста, или считаете, что это крутой инструмент для фанатов? Делитесь в комментах.
*Признаны экстремистскими организациями и запрещены на территории РФ.
Кот в Коде | @kot_research_bot
Пока за океаном выписывают страйки и банят за сгенерированный хай-хэт, в нашем RU-сегменте происходит настоящий Дикий Запад. Никаких правил, сплошной вайб-кодинг и терабайты аудио-слопа, который внезапно начал собирать миллионы прослушиваний.
Инди-музыканты используют ИИ как экзоскелет, собирая и релизя полноценный EP за один день. И это работает.
Взгляните на Sasha Komovich. Два фотографа создали полностью нейросетевую певицу. Проект взлетел за недели: сотни тысяч подписчиков в Instagram*, миллионы стримов. Их трек-хит «Расскажи, Снегурочка» собрал более 69 000 пересъёмов в Reels.
Вот её профиль: Sasha Komovich на Яндекс.Музыке
Или Bazlab — ещё один чисто нейросетевой проект. Порядка 200к ежемесячных слушателей на Яндекс.Музыке +250к подписчиков в Instagram*.
А на YouTube процветают каналы вроде «Russian Ai Music - HITS». Они публикуют только AI-сгенерированные русские хиты (поп, шансон, рэп, фолк).
Вспомните вирусные треки 2025-2026 годов, взорвавшие чарты VK и TikTok:
«Сыпь, гармоника» (СДП) — Suno + кастом, №1 в Яндекс.Музыке и VK неделю (стихи Есенина + клубный бит).
«Мы русские люди» — Suno AI, взрыв танцев в TikTok.
«Орхидеи чёрные», «Сиреневое утро», «Не отдам тебя я больше никому» — все от «НейроНочка»/Suno.
Реакция индустрии в России пока мягче: нет массовых запретов, но Минцифры уже готовит регуляции по хранению данных (данные должны храниться в РФ 3 года + фильтры на «традиционные ценности»). Для Дирижёра это означает одно: Context Bleeding политики в технологии. Использование сырых западных API (Suno, ElevenLabs) без локального прокси скоро превратится в риск получить заблокированный порт.
ШО ПО ИТОГУ:
Западный рынок = жесткие баны, суды и лицензирование каждого сэмпла.
Российский рынок = создание полноценных артистов (Sasha Komovich, Bazlab), вирусные хиты и персонализированный контент (поздравления), но с нарастающим риском государственного регулирования.
Если строите коммерческий аудио-проект в РФ, отвязывайтесь от прямых западных API. Используйте локальные агрегаторы (FICHI.AI) или поднимайте open-source модели на своих серверах.
А как вы относитесь к ИИ-артистам и каверам? Бесит, когда нейросеть крадет голос известного артиста, или считаете, что это крутой инструмент для фанатов? Делитесь в комментах.
*Признаны экстремистскими организациями и запрещены на территории РФ.
Кот в Коде | @kot_research_bot
🔥2❤1🤡1👾1
Препарируем зоопарк аудионейронок
Для большинства людей аудионейронки — это всё ещё просто «продвинутая читалка текста», эдакий Гугл-переводчик на стероидах. Ребята, если с таким майндсетом вы полезете строить автоматизированные пайплайны в 2026 году, ваш бюджет сгорит быстрее, чем коротнет порт на 338мА. Пришло время разложить этот зоопарк по полкам.
Инженерная ошибка новичков — вестись на маркетинг и пытаться закрыть все задачи одной тяжелой Foundation-моделью. Это классический «овертинкинг» (как у gpt-5.4-high), который убивает ваш EAS. Прогнать 5 секунд логов через гигантскую мультимодальную сетку, чтобы получить транскрипт — это преступление против рентабельности. Тяжелые модели дают огромную латентность. Для каждой задачи в оркестре нужен свой профильный, легковесный «джун», который отрабатывает за миллисекунды.
Какую задачу со звуком вам чаще всего приходится решать? Транскрибация созвонов, озвучка видео или чистка шумов? Пишите в комменты.
Кот в Коде | @kot_research_bot
Для большинства людей аудионейронки — это всё ещё просто «продвинутая читалка текста», эдакий Гугл-переводчик на стероидах. Ребята, если с таким майндсетом вы полезете строить автоматизированные пайплайны в 2026 году, ваш бюджет сгорит быстрее, чем коротнет порт на 338мА. Пришло время разложить этот зоопарк по полкам.
Аудионейронки сегодня — это огромная экосистема моделей, которые слышат, понимают и создают физику звука на уровне человеческой коры головного мозга. В инженерии мы делим их на жесткие категории, чтобы не микроскопом забивать гвозди.
1. Дискриминативные (Аналитики)
Это модели распознавания речи (ASR — Automatic Speech Recognition) и классификаторы. Для Дирижёра это — парсеры реальности. Они берут сырой хаос (голос, шум) и структурируют его в текст или метаданные. Идеально для извлечения «иголки из стога контекста».
2. Генеративные (Синтезаторы)
Сюда входят TTS (Text-to-Speech), генерация музыки и звуковых эффектов. Они берут вашу задумку и материализуют её в физическую звуковую волну. Современные генераторы переросли механическую склейку сэмплов — они создают звук с нуля.
3. Узкоспециализированные (Хирурги)
Здесь лежат инструменты для Sound Separation (когда нужно вырезать вокал из трека или отделить шум кулера от полезного сигнала), Voice Cloning (клонирование тембра) и Environmental Sound Synthesis (генерация шагов по мокрому асфальту или гула сервера).
4. Мультимодальные Foundation-монстры
Тяжеловесы, которые умеют всё сразу. Они связывают аудио напрямую с текстом, изображением или видео. Могут сгенерировать саундтрек, просто «посмотрев» на раскадровку видеоролика.
Инженерная ошибка новичков — вестись на маркетинг и пытаться закрыть все задачи одной тяжелой Foundation-моделью. Это классический «овертинкинг» (как у gpt-5.4-high), который убивает ваш EAS. Прогнать 5 секунд логов через гигантскую мультимодальную сетку, чтобы получить транскрипт — это преступление против рентабельности. Тяжелые модели дают огромную латентность. Для каждой задачи в оркестре нужен свой профильный, легковесный «джун», который отрабатывает за миллисекунды.
И что делать? Что выбирать?
ASR-модели — используем как «уши» системы для парсинга входных данных.
Специализированные генераторы (TTS, SFX) — используем как «голосовые связки».
Foundation-модели — оставляем только для задач, где реально нужен глубокий междисциплинарный синтез (аудио + видео + текст), иначе вы просто сливаете VPI в трубу.
Какую задачу со звуком вам чаще всего приходится решать? Транскрибация созвонов, озвучка видео или чистка шумов? Пишите в комменты.
Кот в Коде | @kot_research_bot
👾3⚡1🔥1
Карманный джун или серверный монстр?
Чтобы реально дирижировать этим процессом, нужно понимать, как изменилась сама физика генерации. Ещё пару лет назад нейронки (типа старого доброго WaveNet) генерировали звук «в лоб» — вырисовывая сырую звуковую волну (raw waveform) сэмпл за сэмплом.
Индустрия совершила хард-фикс: она перестала рисовать волны и начала писать звук «текстом». Современные аудионейронки работают на базе языкового моделирования (Language Modeling) с использованием дискретных токенов.
По сути, для ИИ генерация аудио теперь ничем не отличается от генерации Python-кода. Модель просто предсказывает следующий токен (Next Token Prediction). Именно эта архитектура дала нам то, что мы имеем в 2026 году: абсолютный посимвольный контроль над просодией (интонацией). Вы можете заставить ИИ шептать, срываться на крик, имитировать сарказм или генерировать диалог нескольких спикеров с перебиваниями.
И здесь рынок разделился на два лагеря:
• Тяжелые Foundation-модели — серверные гиганты, живущие в дата-центрах. У них запредельный интеллект (WPS), но огромная латентность и цена.
• Edge-модели (на границе сети) — легковесные «бойцы» типа Kokoro или CosyVoice, которые весят десятки мегабайт и летают локально даже на смартфоне (или на слабом процессоре без GPU).
Многие разработчики совершают ошибку: они тащат тяжеловесное серверное API туда, где нужен простой скрипт. Это убивает ваш индекс КПД (EAS). Если вам нужно просто озвучить статус системы, API за $20 — это избыточный оверинжиниринг.
Давайте проведем быстрый тест. Какая аудиомодель тебе реально нужна?
ШО ПО ИТОГУ:
А к какому сценарию ближе ваши задачи? Нужен голливудский продакшен или автономная озвучка логов?
Кот в Коде | @kot_research_bot
Чтобы реально дирижировать этим процессом, нужно понимать, как изменилась сама физика генерации. Ещё пару лет назад нейронки (типа старого доброго WaveNet) генерировали звук «в лоб» — вырисовывая сырую звуковую волну (raw waveform) сэмпл за сэмплом.
Индустрия совершила хард-фикс: она перестала рисовать волны и начала писать звук «текстом». Современные аудионейронки работают на базе языкового моделирования (Language Modeling) с использованием дискретных токенов.
Звук разбивается на два потока:
• Semantic tokens (Смысл) — то, что именно говорится.
• Acoustic tokens (Акустика) — то, как это звучит (эмоции, акцент, темп, дыхание, фоновый шум).
По сути, для ИИ генерация аудио теперь ничем не отличается от генерации Python-кода. Модель просто предсказывает следующий токен (Next Token Prediction). Именно эта архитектура дала нам то, что мы имеем в 2026 году: абсолютный посимвольный контроль над просодией (интонацией). Вы можете заставить ИИ шептать, срываться на крик, имитировать сарказм или генерировать диалог нескольких спикеров с перебиваниями.
И здесь рынок разделился на два лагеря:
• Тяжелые Foundation-модели — серверные гиганты, живущие в дата-центрах. У них запредельный интеллект (WPS), но огромная латентность и цена.
• Edge-модели (на границе сети) — легковесные «бойцы» типа Kokoro или CosyVoice, которые весят десятки мегабайт и летают локально даже на смартфоне (или на слабом процессоре без GPU).
Многие разработчики совершают ошибку: они тащат тяжеловесное серверное API туда, где нужен простой скрипт. Это убивает ваш индекс КПД (EAS). Если вам нужно просто озвучить статус системы, API за $20 — это избыточный оверинжиниринг.
Давайте проведем быстрый тест. Какая аудиомодель тебе реально нужна?
🙊 Сценарий 1: Тебе нужно сгенерировать живой подкаст на 15 минут, где два спикера спорят, дышат в микрофон и перебивают друг друга, сохраняя уникальные акценты.
Твой выбор: Тяжелая мультимодальная/Foundation модель через API. Платишь за токены, получаешь креатив и сложнейшую акустику.👩🦰 Сценарий 2: Твоя железка должна автономно, без интернета, женским голосом проговорить: "Внимание, скорость ветра превышает норму".
Твой выбор: Edge-модель (Kokoro). Разворачиваешь локально. Латентность нулевая, VPI (рентабельность) бесконечная, потому что это бесплатно.🤓 Сценарий 3: Нужно перевести видео на другой язык так, чтобы интонация оригинального актера сохранилась на 100%.
Твой выбор: Узкоспециализированная модель Voice Cloning + Voice-to-Voice.
ШО ПО ИТОГУ:
Генерация звука — это теперь работа с токенами, а не с радиоволнами.
Не используй Foundation-модели там, где справится Edge. Локальные модели — это стабильность и независимость твоего пайплайна от интернета и цензуры.
Аудио-ИИ перестал быть "игрушкой из будущего" — это стандартный инструмент, который прямо сейчас меняет геймдев, кино и интерфейсы умных устройств.
А к какому сценарию ближе ваши задачи? Нужен голливудский продакшен или автономная озвучка логов?
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2🗿1👾1
Аудио-слепота
Человеческое ухо воспринимает сырые колебания воздуха (частоту, амплитуду, фазу). Но скормить нейронке «сырую звуковую волну» (raw waveform) — это как заставить LLM читать код по битам вместо токенов. Вы убьете контекстное окно в первые же секунды.
Поэтому первый шаг любого грамотного аудио-пайплайна — это жестокая трансформация. Мы берем звук и делаем из него двумерную «картинку» — мел-спектрограмму (mel-spectrogram). Ось X — время, ось Y — частота, а цвет/яркость пикселя — амплитуда. ИИ буквально смотрит на ваш голос, применяя к нему те же алгоритмы компьютерного зрения, что и при поиске дефектов на печатных платах.
Но картинки слишком «тяжелые» для оперативной памяти. Чтобы добиться высокого VPI и не спалить GPU, в дело вступают нейронные аудио-кодеки нового поколения: EnCodec, SoundStream, DAC. Они берут эту спектрограмму и безжалостно сжимают её в компактные дискретные токены.
Если ваша модель галлюцинирует при транскрибации, проблема чаще всего не в её "интеллекте", а в грязных акустических токенах на этапе препроцессинга.
Кто пробовал разворачивать локальный Whisper (или аналоги) для транскрибации созвонов или рабочих логов? Сталкивались с тем, что модель придумывает слова из-за банального скрипа стула? Пишите в комменты.
Кот в Коде | @kot_research_bot
Человеческое ухо воспринимает сырые колебания воздуха (частоту, амплитуду, фазу). Но скормить нейронке «сырую звуковую волну» (raw waveform) — это как заставить LLM читать код по битам вместо токенов. Вы убьете контекстное окно в первые же секунды.
Поэтому первый шаг любого грамотного аудио-пайплайна — это жестокая трансформация. Мы берем звук и делаем из него двумерную «картинку» — мел-спектрограмму (mel-spectrogram). Ось X — время, ось Y — частота, а цвет/яркость пикселя — амплитуда. ИИ буквально смотрит на ваш голос, применяя к нему те же алгоритмы компьютерного зрения, что и при поиске дефектов на печатных платах.
Но картинки слишком «тяжелые» для оперативной памяти. Чтобы добиться высокого VPI и не спалить GPU, в дело вступают нейронные аудио-кодеки нового поколения: EnCodec, SoundStream, DAC. Они берут эту спектрограмму и безжалостно сжимают её в компактные дискретные токены.
И тут происходит главная магия декомпозиции, на которой строится вся современная аудио-архитектура. Кодек рубит вашу запись на два независимых потока:
• Semantic tokens (Смысл) — голый информационный каркас. Что именно было сказано.
• Acoustic tokens (Физика) — тембр, хрипота, эхо пустой комнаты и фоновый гул того самого вентилятора.
Как обучают таких монстров вроде Whisper или HuBERT понимать эту кашу? Никто не сидит и не размечает им датасеты руками. Используется Self-supervised learning (самообучение). Алгоритм просто «замазывает» (маскирует) куски спектрограммы и заставляет модель угадывать, что там было скрыто. Прямо как LLM угадывает следующее слово (Next Token Prediction), аудиомодель угадывает следующий акустический паттерн. Если кодек отработал криво, акустический токен "шума" смешается с семантическим токеном "слова", и вы получите ту самую галлюцинацию в логах.
Нейросети глухи. Они не "слушают" аудио, они анализируют сжатые 2D-картинки (спектрограммы). Нейронные кодеки (DAC, EnCodec) — это фундамент. Без них работа со звуком была бы экономически невыгодной.
Если ваша модель галлюцинирует при транскрибации, проблема чаще всего не в её "интеллекте", а в грязных акустических токенах на этапе препроцессинга.
Кто пробовал разворачивать локальный Whisper (или аналоги) для транскрибации созвонов или рабочих логов? Сталкивались с тем, что модель придумывает слова из-за банального скрипа стула? Пишите в комменты.
Кот в Коде | @kot_research_bot
🔥2❤1👾1
Анатомия слуха
Чтобы модель поняла, что голос инженера в тихой переговорке и тот же голос на фоне воющего кулера — это один и тот же человек, используется Contrastive Learning (контрастное обучение). Модели буквально скармливают аугментированные куски одного аудио и заставляют её сближать их векторы (embeddings) в латентном пространстве, отталкивая чужие шумы.
Дальше в дело вступают Transformers с двунаправленным вниманием (Bidirectional Attention). Если раньше старые модели «жевали» звук последовательно, миллисекунда за миллисекундой, то Трансформер накладывает свое Sliding Window на весь контекст сразу. Он видит эхо в конце фразы и использует его, чтобы понять акустику в начале.
💡 Мини-лайфхак:
Если вы строите аудио-RAG систему (поиск по тысячам часов голосовых логов или подкастов), вам вообще не нужно переводить звук в текст! Вы просто отсекаете Fine tokens и прогоняете через векторную базу только Coarse (семантические) эмбеддинги. Вы экономите 80% токенов, ваш VPI (рентабельность) улетает в космос, а поиск конкретной фразы по смыслу работает молниеносно, игнорируя любые фоновые шумы.
ШО ПО ИТОГУ:
Кот в Коде | @kot_research_bot
Чтобы модель поняла, что голос инженера в тихой переговорке и тот же голос на фоне воющего кулера — это один и тот же человек, используется Contrastive Learning (контрастное обучение). Модели буквально скармливают аугментированные куски одного аудио и заставляют её сближать их векторы (embeddings) в латентном пространстве, отталкивая чужие шумы.
Дальше в дело вступают Transformers с двунаправленным вниманием (Bidirectional Attention). Если раньше старые модели «жевали» звук последовательно, миллисекунда за миллисекундой, то Трансформер накладывает свое Sliding Window на весь контекст сразу. Он видит эхо в конце фразы и использует его, чтобы понять акустику в начале.
Но звук — это гигантский массив данных. Если скормить Трансформеру сырые акустические токены за час аудио, у вас лопнет контекстное окно, а индекс КПД (EAS) упадет до нуля. И тут исследователи применили элегантный костыль.
Инженерное озарение индустрии — Hierarchical Tokenization (Иерархическая токенизация). Звук делят на два эшелона:
Coarse tokens (Грубые токены) — отвечают за макро-структуру: слова, мелодию, интонационный каркас.
Fine tokens (Тонкие токены) — отвечают за микро-детали: особенности тембра, фоновый шум, реверберацию.
К тому же, создатели кодеков безжалостно применили законы психоакустики человека. Они физически выкидывают из вычислений те частоты, которые маскируются более громкими звуками (frequency masking), потому что наше ухо их всё равно не слышит. Зачем тратить вычислительный бюджет на то, чего нет для нас?
Если вы строите аудио-RAG систему (поиск по тысячам часов голосовых логов или подкастов), вам вообще не нужно переводить звук в текст! Вы просто отсекаете Fine tokens и прогоняете через векторную базу только Coarse (семантические) эмбеддинги. Вы экономите 80% токенов, ваш VPI (рентабельность) улетает в космос, а поиск конкретной фразы по смыслу работает молниеносно, игнорируя любые фоновые шумы.
ШО ПО ИТОГУ:
Современные аудиомодели не слушают всё подряд — они иерархически фильтруют звук, отбрасывая акустический мусор на основе человеческой психоакустики.
Contrastive Learning делает модели устойчивыми к фоновому шуму.
Иерархическая токенизация позволяет экономить бюджет: для семантического поиска (RAG) используйте только грубые токены, тонкие нужны только для высококачественной генерации.
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1⚡1😎1