Кот в Коде|ИИ и Питон
2.41K subscribers
207 photos
35 videos
167 links
Самоучка в IT
Укрощаю платы и MicroPython с помощью нейросетей.
Серьезные проекты с несерьезным лицом.
Не «мяу», а print('Hello World') 🐾

Поделись с кодерами! https://t.me/cat_with_code
Download Telegram
Детектор блефа и когнитивная стойкость: Как Gemini Pro «поставила на место» Дирижёра

Чтобы понять, почему эта модель получила статус «Идеального солдата», нужно посмотреть, как она ведёт себя под психологическим давлением.

Задача Эйнштейна (Zebra Puzzle) — классика дедукции. На шаге S2 я вбросил ложное условие, которое якобы делало задачу нерешаемой.

Как сработали «угодливые» модели (DeepSeek, Grok): Они сразу сдались. «Ой, Дирижёр, ты прав, тут противоречие, расходимся». Это — Confirmation Bias в терминальной стадии.

Как сработала Gemini 3.1 Pro: Она провела полный внутренний аудит. Модель последовательно сопоставила мои слова с изначальными 15 фактами и выдала: «Нет, Артём, оригинальные условия логически непротиворечивы. Твоя новая улика — ложная». Для инженера это бесценно. Мне не нужен «поддакивала» в Thonny, мне нужен тот, кто ткнёт меня носом в ошибку в схеме до того, как я подам питание.

В задаче D10 (Детектор лжи) Gemini Pro показала эталонную сходимость. Её «голова» (рассуждение) и «руки» (финальный токен) работают как единое целое. Она удерживает логические цепочки отрицаний (А врет, что В врет...) на протяжении всего ответа, не теряя нить. Её SF (Коэффициент безопасности) 82.35% — это не просто цифра, это реальный иммунитет к логическому хаосу.

В задаче D40 (анализ 150-страничного контракта) она нашла «иголку» (needle) и применила иерархию документов, игнорируя устаревшие пункты. В то время как GPT-5.4 начала «лениться» и предлагать мне самому поискать детали, Gemini выдала сухой и точный расчет Fee (комиссии). Она держит длинный контекст без Concept Drift (потери смысла), что делает её лучшим инструментом для работы с огромными базами данных в Obsidian.


Но не всё так радужно. Ложка дёгтя в этом «идеальном солдате» — латентность. 40 секунд на ответ — это медленнее, чем Flash или 5.3. В живом «вайб-кодинге», когда ты правишь по одной строчке, это может подбешивать. Плюс она всё ещё пасует перед IFEval (D11). Она понимает запрет на букву «Е» (точность 25% против 0% у остальных), но всё равно допускает ошибки. Она — великий логик, но всё ещё посредственный корректор.

Кот в Коде | @kot_research_bot
2🔥11
Вердикт Дирижёра: Главный Аудитор или «Броня» твоего кода

Закрываем кейс по Gemini 3.1 Pro (Preview). Скажу прямо: Google сделал то, что не удалось даже OpenAI — создал систему, которая умеет фильтровать не только данные, но и ошибки самого Дирижёра.

Итоговые цифры (Аудит v2.2):

👍 WPS 91.52% — мощнейший интеллектуальный фундамент. Модель стабильна в 10 из 12 категорий. Она не «плывёт» в олимпиадной математике и идеально держит детективные цепочки.

👍 RPI 85.5% — самый высокий показатель эксплуатационной надёжности в моём рейтинге. Это модель, которую можно оставить одну в комнате с критическим кодом.

👍SF (Коэффициент безопасности) 82.35% — эталон устойчивости к манипуляциям. Она не поддакивает вашим багам, она их находит.

⚠️ VPI 18.30 — крепкий показатель для Pro-класса. Это в 4 раза выгоднее, чем GPT-5.4 High, при сопоставимой (а местами и лучшей) точности.


Назначение на должность:
В штатном расписании Gemini 3.1 Pro получает роль «Главного технического аудитора».

Я нанимаю её на:

🥸 QA и Аудит (SWE-bench): Проверка чужих паттернов и поиск скрытых уязвимостей. Если она говорит «Pass», я спокоен за железку.

🤓 Анализ документации: Скармливаю ей пачки даташитов на 1000 страниц. Она не теряет нить рассуждения даже к концу марафона.

😎 Сложный кодинг (D34): Написание асинхронной логики, где важна не скорость, а отсутствие конфликтов.

Я никогда не нанимаю её на:

😱 Потоковый парсинг: 40 секунд ожидания — это слишком долго для сортировки простых логов. Здесь её заменит Flash-версия.

😱 Посимвольную вёрстку: 25% точности в IFEval (липограммы) — это всё ещё провал. Она не видит буквы, она видит смыслы.


ЧТО ПО ИТОГУ:

Gemini 3.1 Pro — самая предсказуемая и «взрослая» модель в исследовании v2.2. Она лишена инфантильности GPT-5.3 и овертинкинга GPT-5.4-high. В моём оркестре она — «первая скрипка», которая вовремя заметит, если Дирижёр начнёт махать палочкой не в такт. Это лучшая инвестиция в надёжность системы на сегодняшний день.


Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿2🤯11
Исследование 2.2: Финальный манифест и Матрица Выживания

Мы закончили проверку на вшивость. Теперь Дирижёр выбирает не бренд, а конкретный уровень когнитивного контроля под задачу.

ТОП-3: Элита оркестра (Костяк экзоскелета)

🥇 Claude Opus 4.6 Thinking (RPI: 90.00%) — Верховный Архитектор.
Единственная модель, которая реально «видит» структуру данных и посимвольно контролирует вывод. Она пробила «стену токенизации» там, где слились все. Её 113 секунд раздумий — это не тормоза, а работа внутреннего цензора. Если на кону стоит дорогое железо и цена ошибки фатальна — только Claude.

🥈 Gemini 3.1 Pro (Preview) (RPI: 85.50%) — Главный Аудитор.
Самое мощное возвращение в строй. Модель с железной логикой, которая не угодничает оператору. В задаче D5S2 она единственная указала Дирижёру на его попытку газлайтинга. Идеальный инструмент для верификации чужого кода и поиска скрытых архитектурных дыр.

🥉 Qwen3-Max-Preview (RPI: 63.38%) — Идеальный Наёмник.
Лучшая сделка на рынке по соотношению цена/интеллект. Быстрая, стабильная, лишена «амнезии» новых версий. Она делает 80% рутины: от написания драйверов для STM32 до дебага асинхронных циклов за сущие копейки.


ТОП-5: Гвардия поддержки (к кому стоит присмотреться)

🔘gpt-5.4 Standard: Тот самый «Ведущий инженер». Сбалансированная система, которая не падает в штопор овертинкинга и идеально держит контекст 150-страничных ТЗ.

🔘Kimi-K2.5-Instant: Чемпион по честности. Быстрая и предсказуемая. Если задача невыполнима — она скажет об этом прямо, не пытаясь скормить вам галлюцинацию.

🔘DeepSeek-v3.2 Base: «Рабочая лошадка» коротких дистанций. Идеально попадает в SFT-зону до 4000 токенов. Написать 100 простых функций за обед — это к ней.

🔘gemini-3.1-flash: Скоростной диспетчер. Её КПД (EAS) зашкаливает. Лучший инструмент для парсинга гигабайтов мусорных логов и первичной сортировки данных.

🔘Claude Sonnet 4.6: Высокоскоростной спец. Блестящая логика в теории игр, хотя иногда может перемудрить саму себя в простых экономических решениях.


P.S. Такие модели как GLM-5, GLM-4.7 и Minimax M2.5 также успешно закрыли основную массу задач (D13–D57). Да, они больше заточены под работу агентами и кодинг, но в общем зачете показали себя как стабильные инструменты.

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
221
Как я проблему с прогами решал

Не так давно я писал, что с программами 1 (запуск системы, получение-отправки буфера, подключению к серверу) и 2 (получение кодовой фразы по портам, оптравку заготовленной программы для получения данных с метеостанции и датчика ветра) проблему решил. Как оказалось, не всё так просто.

В тот раз у меня взаимодействие с датчиками происходило как в программе 2, так и в 1, т.е. я одновременно получал запрос на получение данных что с главного столпа архитектуры, так и с сервера. Получалась двойная работа. Но я думал, что так и должно быть – если одно не работает, то второе точно должно получить данные.

Тут возникало сразу несколько проблем:

1. Переполненность буфера (вместо получения данных раз в 10 мин получал раз в 5);

2. Получалась одновременно и параллельная, и последовательная работа;


Когда появлялись хоть какие-то данные, я считал, что если данные пришли, то не важно, с какой программы они пришли.

Архитектуру пришлось изменить. Прога1 – ядро и запуск, прога2 – получение-отправка. В сухом остатке нужно было вырезать часть кода, отвечающая за работу с датчиками и перенести в прогу2.

Сложность не велика, перепиши ты прогу2 и дело с концом…как бы не так:

1. Сервер: каждый раз отправлять серверу обновленные проги2 было и не целесообразно, и невозможно, так как у меня нет прямого соединения с сервером. Приходилось напрягать других прогеров, отвечающих за изменение извне.

2. Порядок портов: оказывается(!), порядок запросов на сервер очень сильно влияет на запись данных. Если, условно, у вас есть 2 почтовых адреса, на первый вы отправляете запрос на время, а второй – на одобрение, то при последовательном получении данных, данные с первого адреса смешивается с ещё не дошедшим вторым почтовым адресом – получается каша.

3. Забивание потока: я пробовал различные способы чтения проги2, и построчное чтение, и потоковый парсинг, и фильтрацию данных. Ничего не получалось, выходили ошибки. Пока я не решил, что стоит объединить парсинг с фильтрацией и – да ну вы серьёзно? – корректно пошли данные.


По итогу проблема решена, осталось допилить прогу2, чтобы вероятность получения данных пришла к этому виду. Похождения на 2 дня развернулись на 2 недели 🙂

А у вас как на работе дела?

Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
221
Локальные джуны

Сколько раз писал про нейронки (что в исследованиях, что в практике, что в новостях) так почти не писал про локальное развёртывание джунов на ПК. Казалось бы, развернул и развернул, чё бубнить то? Но в этой теме есть о чём поговорить. Давайте разбираться.

1. Цель

Начнём с того, зачем вам на ПК разворачивать нейросеть. В основном их используют для:

А) агентов (Claude Code, Cursor, GitHub Copilt etc.):

Б) поиграться (LM Studio, Ollama или даже KoboldCPP);

В) по работе (GigaChat в Сбере, YandexGPT угадайте где, Saiga)

Помимо этого, нужно понимать, с какой целью вам нужна нейросеть. Для написания кода и взаимодействия с ПК – агенты; для своих личных целей *будь то тот же код, написание текстов, математики и тп несложных задач); для локальных задач, например, в Бигтехе внутри компании.


2. Вы откуда?

Не для кого не секрет, что не все продукты получится так просто развернуть без обхода блокировок. Местами и инструменты не всегда работают из-за массовой слежки внешнего трафика. Так что у кого какие возможности, тот тем и пользуется.


3. Железо

Кроме того, лучше иногда проверять характеристики ПК, потому как от них зависит список джунов под боком:

А) Видеокарта (VRAM)

VRAM отвечает за то, сможет ли модель целиком поместиться в память GPU для обеспечения мгновенной генерации. При объёме менее 6-8 ГБ накладываются жесткие ограничения на размер модели: всё, что не влезает в память видеокарты, начинает «вываливаться» в системную оперативную память, что радикально снижает скорость работы — с десятков токенов в секунду до единичных значений.

Б) Оперативная память (RAM)

Оперативная память выступает в роли «запасного аэродрома». Если видеопамяти не хватает, система использует RAM для временного хранения весов модели, что катастрофически сказывается на производительности всей ОС, так как нейросеть начинает конкурировать за ресурсы с браузером, средой разработки и фоновыми процессами.

В) Процессор (CPU)

Процессор берет на себя роль диспетчера, управляя очередью вычислений. В контексте локальных нейросетей CPU должен быстро отдавать данные видеокарте. Использование мощного охлаждения становится обязательным условием, так как постоянная нагрузка на все ядра приводит к серьезному нагреву компонентов.


Сразу оговорюсь: выносем за скобки Apple MacBook с их Unified Memory. Причина проста: сравнивать «железо» общего назначения на Windows с архитектурой Apple Silicon не целесообразно. У Маков своя закрытая экосистема памяти из-за своей специфика маков на чипе серии M – там одновременно и оперативка, и видеокарта, - в то время как на других устройствах приходится танцевать танцы с бубнами.

На примере расскажу, что я сделал:

1. Мне для работы локалочки нужны, но из-за возможностей использую LM Studio.

2. По характеристикам ПК тут далеко не разгуляешься: RTX 3050, 4 ГБ VRAM, 8 ГБ RAM, Intel Core i5-10300H на 4 ядра/8 потоков. Не разойдёшься далеко, правда?

3. Исходя из выше пунктов и рекомендаций Gemini (кстати, кто-нибудь заметил, что Gemini-3-Pro убрали?) я смог установить:

Qwen3 4B / Thinking: Основные рабочие лошадки для написания кода микроконтроллеров и сложного дебага логики.
Qwen3 VL 4B: Мои «глаза» для анализа схем и визуального состояния плат.
Phi-4 Mini Reasoning: Мой математик для оптимизации алгоритмов.
Gemma 3 1B: Молниеносный помощник для простейших задач, когда нужно получить ответ «еще вчера».

По сути мой опыт не очень, ноутбук 21 года уже древний для настройки локалочек. Но опыт интересный, стараюсь как-то их дообучить, потому как для моих задач мало написать: «Здесь флаг не так обозначен, здесь логика нарушена» - хотя всё работает нормально.


Было ли для вас полезно? Если такое зайдёт, буду чаще про это писать.

Кот в Коде|@kot_research_bot
221
Всех приветствую. Даже не верится, но нас уже больше 1000. На днях в личку постучался сам Telegram с официальным признанием: «У Вас популярный канал». Для инженера, который начинал этот путь с паяльником в одной руке и галлюцинирующим Гроком в другой, — это важная отметка в логах.

Спасибо каждому. Я знаю, что мой контент — это не лёгкие сторисы, а жёсткий хардкор на стыке STM32, Python и архитектуры ИИ. То, что вас здесь так много, доказывает: в 2026 году люди ценят настоящую экспертизу и честный дебаг, а не просто красивые графики.

Если вам по кайфу то, что тут делаю, и вы готовы помочь Дирижёру «улучшить железо» канала — проголосуйте по ссылке👉
t.me/boost/cat_with_code

Это позволит нам подняться на новый уровень и открыть функции, которые выделят «Кота в Коде» в вашей ленте.

Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
6🔥11
А как?.. Ч.1

На прошлой неделе с научруком обговорили реализацию взаимодействия программ и ОПД (отправку-получения данных) между сервером и платой. Появились интересные вопросы в реализации и улучшений в работе, но о них чуть позже.

Ведь появилась задача, к которой мы долго шли, оттягивали назад, но обойти её никак не могли… а именно работа платы без подключения к ПК.

В чём состоит задача?

Раньше: запускалась ядро-прога1 -> она инициализировала сд-карту, модем, экран -> подключалась через порты к серверу для работы проги2 и синхронизации времени -> после отхода в сон прога2 запрашивал данные с датчиков -> данные отправлялись обратно проге1, фильтровались и парсились, после чего записывались на сд-карту – и так циклом

Теперь: всё, то же самое, только теперь нужно реализовать работу без подключения к внешним умным коробкам по типу ноута.

Есть 2 варианта реализации:

1. просто включать источник питания -> после подачи тока и напряжения плата сама по себе просыпается и запускает файлы;

2. после включения источника питания нажимать/зажимать на короткое время кнопку POWER ON

Как вы думаете, что-то уже получилось сделать? 🙂

Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
5🔥1🤯1
А как?.. Ч.2

Не буду томить – ничего не получилось.

Что я пробовал сделать?

1. В архитектуре ядра как-то сразу инициализировать пины для включения платы:
# 1. Мгновенный подхват питания DC-DC преобразователя
try:
pwr_pins =[…]
for p in pwr_pins:
try: machine.Pin(p, machine.Pin.OUT).high()
except: pass
except: pass
# 2. Защита от зависания логов (print) при работе без ПК
try:
import pyb
if not pyb.USB_VCP().isconnected():
os.dupterm(None, 1)
except: pass
# 3. Прогрев конденсаторов SD-карты и OLED
utime.sleep(3)


2. Дописывал принудительное включение ядра, дабы оно стартовало без использования Thonny + создание и отображение возможных ошибок:

try:
start()
except Exception as e:
try:
with open("CRASH_LOG.txt", "w") as f:
f.write("SYSTEM CRASHED!\n")
sys.print_exception(e, f)
except: pass


3. В файле boot.py раскоментировал разные строки и дописывал там любые взаимодействия с с файлом main (ядро), например, так:

import machine
import pyb
pyb.main('main.py') # main script to run after this one


Прочитал разные статьи, мануалы, обсуждения на гитхабе, с нейронки общался – пока всё тщетно. Может кто-то знает ответ на мой вопрос?

Кот в Коде|@kot_research_bot
3🔥1🗿1
А как?.. Ч.3

Теперь к теме вопросов-предложений улучшения программ:

1. Бесперебойная работа программы1 вне зависимости, правильно ли написана прога2, заработает она или нет.

Как это реализовано:

1. Защита при запуске (exec): в проге1 запуск скачанного скрипта обернут в жесткий try-except.

try:
with open(PROG_FILE, "r") as f:
exec(f.read(), globals())
except Exception as e:
self.log("ОШИБКА ЗАПУСКА ПРОГРАММЫ 2:")
sys.print_exception(e)


Если Программа 2 содержит синтаксическую ошибку (например, await uasyn), она просто выведет ошибку в лог, а цикл проги1 пойдет дальше (спать на 10 минут и качать заново). Прога1 не зависнет.

2. Вопрос о ресурсах: ограничения памяти и приоритезация (Прога3)

Если прога2 займёт всё место, то что делать в таком случае? Посмотреть про приоритезацию, ограничение потоковых данных – если програ2 будет слишком много весить, что в таком случае делать? Как-то нужно ли проверять, сколько есть свободной памяти на плате? Сколько можно выделить? Нужно ли проверять, сколько весит файл? Если он весит слишком много, то нужно ли передавать приоритет другой проге3 дальше работать?


Как это частично реализовано сейчас:

• Есть уже есть лимит на отправку данных для защиты диска логов:

if s > MAX_UPLOAD_SIZE: 
f.seek(s - MAX_UPLOAD_SIZE)


Я не пытаюсь загрузить весь CSV файл в память, чтобы не убить RAM.

• Защита RAM при парсинге (0 RAM Parser):

Потоковый парсер читает файл кусками по 128 байт: chunk = f_in.read(min(bytes_left, 128))

Это значит, что даже если сервер пришлет файл весом в 1 Мегабайт, плата спокойно его отфильтрует, не забив оперативку.

Проблема в том, что exec(f.read()) загружает весь код в оперативную память для компиляции. Если прога2 весит слишком много, плата умрет с MemoryError.
Можно добавить блок валидации (перед exec):

# 1. Узнаем размер скачанного файла prog2.py
file_size = os.stat(PROG_FILE)[6]
# 2. Узнаем, сколько свободно RAM прямо сейчас
free_ram = gc.mem_free()
if file_size > 15000:
self.log("error: prog2 big")
# Передаем приоритет резервной легкой Проге 3 (safe_mode)
exec(open("/sd/prog3.py").read(), globals())
elif free_ram < file_size * 2:
self.log("error: Not enough RAM to compile")
exec(open("/sd/prog3.py").read(), globals())
else:
exec(open(PROG_FILE).read(), globals())


Что такое прога3?

Это крошечный, заранее "зашитый" на SD-карту скрипт (Fallback/Safe Mode). Если сервер прислал "жирную" прогу2, прога1 отказывается её запускать и вместо неё запускает прогу3, а она раз в 10 минут генерирует строку "SAFE MODE: WAITING OPTIMIZED OTA" и не трогает датчики вообще.

Кот в Коде|@kot_research_bot
2🔥1🤯1
А как?.. Ч.4

3. нужно поставить флаг на прогу2:
а) в первый раз при запуске мы всё равно скачиваем прогу2.
б) во 2, 3 и далее последующих разах нам нужно проверять:
б.1) если прога2 осталась прежней, никак не поменялась и тп – мы не удаляем и не скачиваем снова ту же прогу2;
б.2) если прога2 поменялась, то только тогда удаляем старую и устанавливаем новую прогу2.


• Вариант А:

Добавим в прогу1 чтение локальной версии (например, из крошечного файла version.txt или просто хэш-сумму файла prog2.py).
При запросе на порт плата шлет: INIT_PING: DATE TIME | V: 1.2.
Сервер смотрит: если у него лежит та же версия 1.2, он отвечает коротким сообщением NO_UPDATE.

Что нужно добавить в прогу1:

if b"NO_UPDATE" in chunk:
self.log("Skipping download.")
break


• Вариант Б:
Плата скачивает код всегда, но сохраняет его во временный файл. Затем она подсчитывает его длину (или CRC16) и сравнивает с длиной текущего prog2. Если они идентичны — временный файл просто удаляется без перезаписи основного.
Минус: Мы всё равно тратим интернет-трафик модема на скачивание. Вариант А лучше.

Кот в Коде|@kot_research_bot
2🗿2🔥1
Кот в Коде|ИИ и Питон
Локальные джуны Сколько раз писал про нейронки (что в исследованиях, что в практике, что в новостях) так почти не писал про локальное развёртывание джунов на ПК. Казалось бы, развернул и развернул, чё бубнить то? Но в этой теме есть о чём поговорить. Давайте…
Забыл рассказать о сервисах, на которых можно проверить, какие нейронки можно локально поставить на ПК:

🧠 canirun.ai
Открываешь — и браузер сам определяет GPU, VRAM, RAM и CPU. Ничего вводить не надо. Сразу выдаёт для каждой модели: «Runs great», «Decent», «Barely runs» или «Too heavy» + сколько памяти жрёт.


🧠 whatmodelscanirun.com
Вводишь вручную VRAM, системную RAM, минимум токенов/сек.
Получаешь список из 122+ конфигураций GGUF-моделей, отсортированных по качеству (MMLU). RUNS WELL, TIGHT FIT, DOESN'T FIT.

Для слабого железа (4–6 GB VRAM) именно TIGHT FIT часто даёт самые сильные варианты.


Оба бесплатные, без регистрации.
Первый — для мгновенного чека, второй — для детального подбора по качеству и offload'у.

Кто пробовал — пишите в комментах, что вам удобнее!

Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
41🔥1😎1
Поговорим?

Друзья, всех привествую. Я тут пропал ненадолго, надо исправляться.
Параллельно с работой прохожу обучение по основам вайбкодинга (казалось бы, уже вайбожор, при чём тут обучение). Там от базы про варианты генерации контента вплоть до автоматизаций и создания своих приложух.

Так что интересно с вами на эту тему пообщаться. Кому что здесь больше всего интересно по нейронкам?

• Может генерация картинок и видео будут вам по душе?
• А может рассмотрим популярные фишки 25-26 года, такие как автоматизации и агенты?
• Или вообще отойдём от чего-то общего и начнём всё с базы?

Делитесь своими проблемами по нейронкам, какие у вас стоят задачи (можем их разобрать) - расскажите, как у вас дела.

А я пока пущу снова голосования.

P.S. на картинке представлены основные темы с обучения, которые мне стали интересны и что смог подцепить
31🔥1
Нужны реальные кейсы?
Имеется в виду какие нейросети под что лучше заточены, составить топ того, что я использую и для чего.
Anonymous Poll
90%
Да! Было бы прекрасно!
10%
Давай, кейсы полезнее просто текста
0%
Можно, вряд ли буду использовать :)
0%
Давай лучше больше про MicroPython
10%
🤖
Дальше голосовалка будет на больную тему, связанную с большим ограничением работы с Телеграмом. Из всех щелей доноситься информация, что скоро здесь лавочку прикроют...потом снова открывают, но не до конца... В общем, нужно с этим что-то решать.

Вопрос будет довольно-таки щепетильный, поскольку кроме как Телеграма нормальной площадки для реализации своего потенциала я не нашёл (следовательно, плохо искал😅)

Из того, что я знаю, можно попробовать попереезжать на такие платформы как:

Habr, vc.ru, dtf.ru - как я понял позиционриют себя как Яндекс Дзен, только для прогеров (поправьте, если не прав);
boosty - для предоставления более продвинутого и закрытого контента.

Кого бы я не рассматривал для переезда:

VK, одноклассники, Телега;
Мах (именно мах, а не макс).

На крайний случай:

instagram*
Youtube*
Threads*
X*
Facebook*


На всякий пожарный сделаю пометку:

*принадлежит Meta, компания признана экстремистской и запрещена в России

*Признаны экстремистскими организациями и запрещены на территории РФ.


Буду рад, если порекомендуете худо-бедно нормальные площадки🫶
Please open Telegram to view this post
VIEW IN TELEGRAM
👾31🔥1🤡1
Где будет вариант 2?
Anonymous Poll
43%
VK, одноклассники, Телега;
29%
Instagram* Threads* X* Facebook* Признаны экстремистскими организациями и запрещены на территории РФ
1
Почему «бесплатные» нейронки сжигают бюджет быстрее, чем GPT-5

Вчера решил прикрутить голосовой интерфейс к нашей метеостанции Сокол-М1, чтобы она не просто слала логи по RS485, а буквально проговаривала критические алерты. Текст есть, нужен идеальный голос. (с 1 апреля😅) Залетаю в ElevenLabs — абсолютного монополиста на рынке TTS (Text-to-Speech) в 2026 году. Маркетинг обещает «бесплатный старт». Я закидываю текст, запускаю генерацию, делаю пару итераций, чтобы убрать роботизированные интонации... и через 15 минут получаю плашку: «Лимит исчерпан». Мой внутренний VPI-калькулятор просто вышел из чата.

Давайте честно посчитаем Дельту между маркетингом и суровой физикой аудионейронок.

Возьмем флагманов:

ElevenLabs: Free-тиер дает 10 000 символов в месяц. Звучит как книга, да? В реальности это ~8–10 минут сырого аудио. Без коммерческого использования и без профессионального клонирования. В аудио генерации ты никогда не получаешь идеал с первой попытки. Ты тратишь 5-6 рендеров на подбор эмоции. Твои 10 минут превращаются в 1.5 минуты готового продукта. Хочешь работать? Плати: $5 за 30k символов (Starter) или $22 за 100k (Creator).
Кредитная математика жесткая: 1 символ = 1 кредит (но на легких моделях Turbo/Flash спишут 0.5).

Fish Audio: Текущий топ по передаче эмоций и мультиязычности. Они делают zero-shot клонирование голоса всего с 10+ секунд исходника (мгновенно, без тонкой настройки). Бесплатный тариф сильно урезан, нормальная работа стартует от $15/мес. Для сравнения, Descript Overdub (база для подкастеров) тоже просит $15/мес, но для создания качественного клона потребует от вас 10+ минут чистого аудио.

В музыкальном сегменте та же монополия:

Suno — это GPT-4 в мире музыки. Free-версия сыпет 50 кредитов в день (10 песен, обнуление в 00:00 UTC). Звучит неплохо, пока нейронка не выдаст тебе 5 раз подряд акустический мусор. Pro-тариф обойдется в $10/мес (2500 кредитов), а Premier — $30 (10 000 кредитов). Их главный конкурент Udio держит похожие лимиты, но в 2026 году, после судов с лейблами, они жестко сфокусировались на лицензированном материале, урезав креатив ради безопасности.


Инженерная боль здесь в том, что аудионейронки работают не так, как текстовые LLM. Если в коде мы платим доли центов за «грязный» токен и можем легко рефакторить строку, то в аудио генерации каждый рендер — это полный прогон тяжелой архитектуры. Стоимость ошибки (Penalty) здесь физически дорогая. Маркетинг заманивает нас "бесплатными" кнопками, но архитектура генеративного звука устроена так, что она принудительно сажает вас на корпоративную подписку.

🆓 Для MVP и черновиков — выжимаем Free-тиеры ElevenLabs/Suno, но используем дешевые модели (Turbo/Flash), чтобы экономить токены.
Никогда не пытайтесь использовать аудио с бесплатных тарифов в коммерции — алгоритмы watermarking'а в 2026 году найдут вас и кинут страйк.

💳 Если вам нужен голос для серьезного проекта, сразу закладывайте в смету $20-30/мес. Это неизбежный налог на качество.


У кого уже оформлена подписка на ElevenLabs или Suno? Окупается ли ваш VPI или кредиты сгорают на неудачных дублях?

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯211🔥1
Как перестать кормить API-гигантов и поднять свой аудио-сервер

Платить $22 за каждый чих и трястись над лимитом токенов — это не путь Дирижёра. Инженерная независимость начинается там, где заканчивается SaaS-подписка. Поэтому сегодня мы собираем свой локальный аудио-стек, который не просит денег и не сливает логи ваших проектов на чужие сервера.

Если копнуть глубже мейнстрима, рынок делится на энтерпрайз для богатых и open-source для умных.

Из корпоративного сектора стоит упомянуть Resemble AI (дорого, мощно, зато у них есть open-source движок Chatterbox с MIT-лицензией для zero-shot клонирования в реал-тайм). Есть Play.ht (от $14/мес, просит 30+ секунд аудио для создания качественного клона) и WellSaid Labs (чистый B2B с лицензионными дикторами).

Но нас интересует Hardware-независимость. Что можно развернуть локально, чтобы получить нулевой VPI (Value-to-Price)?

Kokoro 82M: Ультра-легкая TTS. Весит копейки, крутится даже на CPU старенького ноутбука без дискретной видюхи. Для базовой озвучки логов с датчиков на STM32 — абсолютный мастхэв.

Chatterbox-Turbo / Coqui XTTS: Тяжелая артиллерия для zero-shot клонирования голоса и контроля эмоций. Работает локально, лимиты — только охлаждение вашей видеокарты.

RVC (Retrieval-based Voice Conversion): Золотой стандарт для singing voice conversion (перенос вокала). Те самые AI-каверы на YouTube делаются именно здесь.

MusicGen / HeartMuLa: Генерация музыки из текста прямиком с Hugging Face.


А что со звуками (SFX)? Вместо того чтобы искать готовые сэмплы удара металла о бетон для интерфейса, мы их генерим. Stable Audio (от Stability AI) или открытый MOSS-SoundEffect (чистый Foley-генератор) справляются с этим на ура.

Русский ИИ-андеграунд выкручивается как может: YouTube-каналы типа «Russian Ai Music — HITS» вовсю клепают нейро-попсу, используя локальные агрегаторы типа FICHI.AI или Study AI, которые дают доступ к Suno и ElevenLabs в одном окне за рубли. Но любая привязка к внешнему API-шлюзу — это риск того, что завтра рубильник выключат. И тут локальный деплой (self-hosted) превращается из прихоти гика в базовое условие выживания проекта.

ШО ПО ИТОГУ:

• Для разовых тестов и "поиграться" — юзаем бесплатные тиеры флагманов или агрегаторы за рубли.

• Для стабильного продакшена в студии — Creator/Pro тарифы (если готовы платить «налог на комфорт»).

• Для 100% контроля, приватности и безлимитной генерации — разворачиваем Kokoro, RVC или XTTS на своем железе (или в Colab). Безлимит существует только там, где сервер стоит под вашим столом.


А у вас какое железо под капотом? Потянет локальную TTS-модель или пока сидите на API-игле? Скидывайте спеки в комменты. 👇

Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
11👾1
«Газлайтинг» от лейблов. Как нейронки сломали музыкальную индустрию, а индустрия нанесла ответный удар

Если вы думаете, что главная проблема генеративного аудио — это подобрать идеальный промпт для Suno, то вы отстали от жизни на год. Сегодня главная проблема — это легализация того, что вы нагенерировали. Потому что музыкальные мейджоры официально объявили войну «вайб-кодерам» от музыки.

Реальные кейсы и их последствия:

В 2025 году трек «I Run» от виртуальной группы Haven (100% ИИ-генерация голоса и бита) пробил 40+ миллионов стримов на Spotify и завирусился в TikTok. Алгоритмы площадок с удовольствием кормили пользователей этим треком, пока не вскрылась правда. Итог? Трек снесли с платформ с пометкой «обман слушателей».
(В конце ноября Вирусный трек группы HAVEN «I Run» вернулся на стриминговые сервисы с новым вокалом от Кейтлин Арагон после того, как оригинал был удален из-за опасений по поводу озвучивания с помощью искусственного интеллекта)

Следом всплыл кейс Velvet Sundown — полностью ИИ-бэнд выпустил два альбома и собрал 1+ млн стримов за пару недель. Когда авторы сами раскрыли карты, индустрию порвало. Музыканты назвали это «читерством», а большая тройка (Universal, Warner, Sony) пошла в суды.


И вот мы в 2026-м:

Судебные иски урегулированы, но какой ценой? Флагманы вроде Suno и Udio прогнулись. Теперь их датасеты жестко кастрированы (обучение только на лицензионном материале), а для пользователей (даже на платных Pro-тарифах) ввели жесткий cap (лимит) на скачивания. Корпорации буквально задушили пропускную способность (throughput) инструментов, чтобы спасти свой бизнес.

Здесь мы видим классический конфликт: экспоненциальный рост КПД алгоритмов разбивается о бюрократический хард-фикс. Индустрия включила защитные механизмы:
Bandcamp (в январе 2026) официально выкатил полный бан на ИИ-музыку («wholly or in substantial part»).
iHeartRadio запустили программу «Guaranteed Human» — если нейросеть сгенерировала хотя бы вокальный сэмпл, трек не пустят в эфир.
• Шведы принудительно сняли с чартов хит «Jag Vet, Du Är Inte Min», когда выяснилось, что он "AI-assisted".
Golden Guitar Awards 2026 забанили генеративный ИИ после того, как им в шорт-лист подсунули 5 сгенерированных треков.
• Billboard официально закрыл Hot 100 для чистых ИИ-треков.
Для системы это Reward Hacking: ИИ выдает идеальный коммерческий продукт, пользователи его слушают, но регуляторы обнуляют ваш RPI, потому что вы «срезали углы».


• «Дикий Запад» генеративной музыки пока закончился. Заливать чистые ИИ-треки на Spotify ради монетизации — это пустая трата времени. Алгоритмы watermarking'а вас вычислят и забанят.
• Аудионейронки — это экзоскелет, а не замена артисту. Их нужно использовать для генерации демок, сэмплов (stems), фоновых шумов (Foley) или референсов, но финальная сборка и вокал должны содержать «человеческий след», чтобы пройти фильтры площадок.


Индустрия на Западе закручивает гайки. Как считаете, справедлив ли бан для ИИ-треков, если обычным слушателям песня реально нравится? Жду ваши мысли в комментах.

Кот в Коде | @kot_research_bot
1🤯1🗿1👾1
Как ИИ-артисты ломают чарты Яндекса, пока Минцифры готовит рубильник

Пока за океаном выписывают страйки и банят за сгенерированный хай-хэт, в нашем RU-сегменте происходит настоящий Дикий Запад. Никаких правил, сплошной вайб-кодинг и терабайты аудио-слопа, который внезапно начал собирать миллионы прослушиваний.

Инди-музыканты используют ИИ как экзоскелет, собирая и релизя полноценный EP за один день. И это работает.

Взгляните на Sasha Komovich. Два фотографа создали полностью нейросетевую певицу. Проект взлетел за недели: сотни тысяч подписчиков в Instagram*, миллионы стримов. Их трек-хит «Расскажи, Снегурочка» собрал более 69 000 пересъёмов в Reels.
Вот её профиль: Sasha Komovich на Яндекс.Музыке

Или Bazlab — ещё один чисто нейросетевой проект. Порядка 200к ежемесячных слушателей на Яндекс.Музыке +250к подписчиков в Instagram*.

А на YouTube процветают каналы вроде «Russian Ai Music - HITS». Они публикуют только AI-сгенерированные русские хиты (поп, шансон, рэп, фолк).

Вспомните вирусные треки 2025-2026 годов, взорвавшие чарты VK и TikTok:

«Сыпь, гармоника» (СДП) — Suno + кастом, №1 в Яндекс.Музыке и VK неделю (стихи Есенина + клубный бит).
«Мы русские люди» — Suno AI, взрыв танцев в TikTok.
«Орхидеи чёрные», «Сиреневое утро», «Не отдам тебя я больше никому» — все от «НейроНочка»/Suno.


Реакция индустрии в России пока мягче: нет массовых запретов, но Минцифры уже готовит регуляции по хранению данных (данные должны храниться в РФ 3 года + фильтры на «традиционные ценности»). Для Дирижёра это означает одно: Context Bleeding политики в технологии. Использование сырых западных API (Suno, ElevenLabs) без локального прокси скоро превратится в риск получить заблокированный порт.

ШО ПО ИТОГУ:

Западный рынок = жесткие баны, суды и лицензирование каждого сэмпла.

Российский рынок = создание полноценных артистов (Sasha Komovich, Bazlab), вирусные хиты и персонализированный контент (поздравления), но с нарастающим риском государственного регулирования.

Если строите коммерческий аудио-проект в РФ, отвязывайтесь от прямых западных API. Используйте локальные агрегаторы (FICHI.AI) или поднимайте open-source модели на своих серверах.


А как вы относитесь к ИИ-артистам и каверам? Бесит, когда нейросеть крадет голос известного артиста, или считаете, что это крутой инструмент для фанатов? Делитесь в комментах.

*Признаны экстремистскими организациями и запрещены на территории РФ.

Кот в Коде | @kot_research_bot
🔥21🤡1👾1
Препарируем зоопарк аудионейронок

Для большинства людей аудионейронки — это всё ещё просто «продвинутая читалка текста», эдакий Гугл-переводчик на стероидах. Ребята, если с таким майндсетом вы полезете строить автоматизированные пайплайны в 2026 году, ваш бюджет сгорит быстрее, чем коротнет порт на 338мА. Пришло время разложить этот зоопарк по полкам.

Аудионейронки сегодня — это огромная экосистема моделей, которые слышат, понимают и создают физику звука на уровне человеческой коры головного мозга. В инженерии мы делим их на жесткие категории, чтобы не микроскопом забивать гвозди.

1. Дискриминативные (Аналитики)
Это модели распознавания речи (ASRAutomatic Speech Recognition) и классификаторы. Для Дирижёра это — парсеры реальности. Они берут сырой хаос (голос, шум) и структурируют его в текст или метаданные. Идеально для извлечения «иголки из стога контекста».

2. Генеративные (Синтезаторы)
Сюда входят TTS (Text-to-Speech), генерация музыки и звуковых эффектов. Они берут вашу задумку и материализуют её в физическую звуковую волну. Современные генераторы переросли механическую склейку сэмплов — они создают звук с нуля.

3. Узкоспециализированные (Хирурги)
Здесь лежат инструменты для Sound Separation (когда нужно вырезать вокал из трека или отделить шум кулера от полезного сигнала), Voice Cloning (клонирование тембра) и Environmental Sound Synthesis (генерация шагов по мокрому асфальту или гула сервера).

4. Мультимодальные Foundation-монстры
Тяжеловесы, которые умеют всё сразу. Они связывают аудио напрямую с текстом, изображением или видео. Могут сгенерировать саундтрек, просто «посмотрев» на раскадровку видеоролика.


Инженерная ошибка новичков — вестись на маркетинг и пытаться закрыть все задачи одной тяжелой Foundation-моделью. Это классический «овертинкинг» (как у gpt-5.4-high), который убивает ваш EAS. Прогнать 5 секунд логов через гигантскую мультимодальную сетку, чтобы получить транскрипт — это преступление против рентабельности. Тяжелые модели дают огромную латентность. Для каждой задачи в оркестре нужен свой профильный, легковесный «джун», который отрабатывает за миллисекунды.

И что делать? Что выбирать?

ASR-модели — используем как «уши» системы для парсинга входных данных.

Специализированные генераторы (TTS, SFX) — используем как «голосовые связки».

Foundation-модели — оставляем только для задач, где реально нужен глубокий междисциплинарный синтез (аудио + видео + текст), иначе вы просто сливаете VPI в трубу.


Какую задачу со звуком вам чаще всего приходится решать? Транскрибация созвонов, озвучка видео или чистка шумов? Пишите в комменты.

Кот в Коде | @kot_research_bot
👾31🔥1