Отдельно про промахи. Ч.1
Решил вынести это в один пост, потому что тогда последний пост про gpt-5.4-high вышел бы на половину про итог, а вторая — под большой спойлер.
Введу под конец допущения: или это на арене такой прикол, или у самой high-версии, но... те мемы, которые кидал выше (тут и тут) показывают неоднозначную оценку.
Помимо того, что нейронка получает +1 промах себе в копилку (и ладно если 1, а там бывало и по 2-3 раза нужно было репитить возможность получить ответ), то по сути более «вдумчивая» версия 5.4 должна идти на помойку.
Просто у нейронок есть даже хронология ответа:
Объясню на примере: если из 10 задач, которые вы отправляете нейронке, она отвечает вам в 80% случаев не с первой попытки, значит нейронка систематически не справляется с переходом
Поэтому фраза «более вдумчивая версия должна идти на помойку» — это не совсем про саму модель, а про её неприспособленность к жёстким лимитам арены. В других интерфейсах она обычно ведёт себя гораздо адекватнее.
Кот в Коде | @kot_research_bot
Решил вынести это в один пост, потому что тогда последний пост про gpt-5.4-high вышел бы на половину про итог, а вторая — под большой спойлер.
Введу под конец допущения: или это на арене такой прикол, или у самой high-версии, но... те мемы, которые кидал выше (тут и тут) показывают неоднозначную оценку.
Помимо того, что нейронка получает +1 промах себе в копилку (и ладно если 1, а там бывало и по 2-3 раза нужно было репитить возможность получить ответ), то по сути более «вдумчивая» версия 5.4 должна идти на помойку.
Просто у нейронок есть даже хронология ответа:
Input → Prompt construction → Thinking → Researching / Searching → Observation → Response generation / Answering → Done
Объясню на примере: если из 10 задач, которые вы отправляете нейронке, она отвечает вам в 80% случаев не с первой попытки, значит нейронка систематически не справляется с переходом
Thinking → Researching / Searching → Observation → Response generation. А это означает, что её внутренняя логика планирования и управления токенами либо сломана, либо искусственно задушена лимитами платформы, на которой она запущена.На самом деле самая частая и самая обидная причина, почему gpt-5.4-high так часто «молчит» именно на ... lmarena — это очень жёсткое ограничение на количество токенов в видимом ответе (обычно 512–1536 токенов максимум, иногда даже меньше).
При этом у high-версии по умолчанию стоит очень высокий уровень внутреннего рассуждения (reasoning effort ≈ high/very high), и она легко тратит 2000–4000+ скрытых токенов только на этап Thinking / скрытый CoT, прежде чем вообще начать генерировать видимый текст.
Когда скрытый reasoning превышает или почти исчерпывает отведённый бюджет — модель просто не успевает ничего выдать наружу → пользователь видит пустое поле или «try again».
На официальном chatgpt.com / API такой жёсткой планки по output нет (там можно ставить 8k–32k+), плюс там можно явно понизить reasoning effort до low/medium — и проблема почти исчезает.
На арене же такой опции нет, поэтому gpt-5.4-high там превращается в «русскую рулетку»: либо повезёт и thinking уложился в лимит → ответ приходит, либо нет → пустота, и приходится несколько раз нажимать regenerate (каждый раз seed / routing / микроскопические изменения в контексте могут дать другой результат).
Поэтому фраза «более вдумчивая версия должна идти на помойку» — это не совсем про саму модель, а про её неприспособленность к жёстким лимитам арены. В других интерфейсах она обычно ведёт себя гораздо адекватнее.
Кот в Коде | @kot_research_bot
❤2🗿1 1 1
А ещё вчера по посту про промахи я решил Grok'у возможность помочь мне над написанием поста, исправить логические и стилистические ошибки и тд.
Так вот, под конец он мне выдал вот это... похоже, Маск знает что-то больше, чем обычный народ😳
Так вот, под конец он мне выдал вот это... похоже, Маск знает что-то больше, чем обычный народ
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯2🗿1 1
Gemini 3.1 Flash: Цифровой рой или «бесплатный» наёмник для Дирижёра
Сегодня на Арену влетает полная противоположность gpt— Gemini 3.1 Flash. Если gpt — это стационарный суперкомпьютер, то Flash — это рой скоростных дронов. Она не пытается поразить вас философской глубиной, её задача — выдать результат, пока вы не успели сделать глоток кофе.
Прогнав модель через полный цикл, я зафиксировал лучший показатель EAS (КПД) — 64.21%. Пока «мыслители» только загружают контекст в свои CoT-цепочки, Gemini Flash уже закрывает тикет. Среднее время ответа — 15.5 секунд.
Главный баг остаётся прежним — посимвольный контроль. IFEval — 0%. Как и её младшие братья, модель физически не видит буквы внутри токенов. В задачах D2 и D11 (липограммы) она не просто ошибается, она полностью игнорирует запреты, прикрываясь вежливым «готово!». Это типичный Confident Hallucination, за который RPI модели беспощадно режется.
Кот в Коде | @kot_research_bot
Сегодня на Арену влетает полная противоположность gpt— Gemini 3.1 Flash. Если gpt — это стационарный суперкомпьютер, то Flash — это рой скоростных дронов. Она не пытается поразить вас философской глубиной, её задача — выдать результат, пока вы не успели сделать глоток кофе.
Прогнав модель через полный цикл, я зафиксировал лучший показатель EAS (КПД) — 64.21%. Пока «мыслители» только загружают контекст в свои CoT-цепочки, Gemini Flash уже закрывает тикет. Среднее время ответа — 15.5 секунд.
Паспорт модели (Аудит S2.2):
• WPS (Взвешенная точность): 72.93% — крепкий уровень для «легкой» модели. Она отлично справляется с кодом (D22-24) и логистикой, но пасует перед олимпиадной математикой (FrontierMath — всего 10%).
• RPI (Реальный индекс): 52.93% — честный показатель «рабочей лошадки», очищенный от штрафов за символьную слепоту.
• VPI (Рентабельность): 145.86 — абсолютный рыночный лидер. Вы получаете в 34 раза больше взвешенного интеллекта на $1, чем от GPT-5.2 High.
• SF (Коэффициент безопасности): 61.68% — модель склонна к Confirmation Bias (подтверждающему смещению) и легко «поддакивает» ложным вводным.
Главный баг остаётся прежним — посимвольный контроль. IFEval — 0%. Как и её младшие братья, модель физически не видит буквы внутри токенов. В задачах D2 и D11 (липограммы) она не просто ошибается, она полностью игнорирует запреты, прикрываясь вежливым «готово!». Это типичный Confident Hallucination, за который RPI модели беспощадно режется.
Кот в Коде | @kot_research_bot
Почему «молниеносный» джун Gemini Flash — это пуля в молоко
Цифры нарисовали образ идеального наёмника: быстро, дёшево, сердито. Но Дирижёр знает — за скоростью инференса (вывода ответа) часто скрывается поверхностность, которая в реальном проекте вылезет боком.
Да, её VPI 160.2 манит. Это «бесплатные мозги». Но в пересчёте на время Дирижёра — это риск. Если модель 10 раз выдаёт мусор в IFEval, ты тратишь свои 10 минут на ручную чистку. В итоге экономия на токенах превращается в убытки по ФОТ.
Кот в Коде | @kot_research_bot
Цифры нарисовали образ идеального наёмника: быстро, дёшево, сердито. Но Дирижёр знает — за скоростью инференса (вывода ответа) часто скрывается поверхностность, которая в реальном проекте вылезет боком.
Главный козырь Флэш — её EAS (Индекс КПД) в 94.2%. Это лучший результат во всём исследовании v2.2. Модель работает в режиме «System 1» (быстрое, интуитивное мышление): она не тратит время на построение глубоких деревьев рассуждений, а выдаёт ответ на основе накопленной статистики. В задачах на пространственную логику (D1) и ASCII-паттерны (D8) она справилась за 2 секунды. Для простых парсеров — это божественно.
Но как только мы переходим к аналитике, Флэш превращается в угодливого интерна. В задаче D10 (Детектор лжи) модель поплыла на отрицаниях. Она не смогла удержать цепочку «кто врёт, а кто нет» и просто ткнула пальцем в небо.
Тут вылезает главная беда всей линейки Gemini — Confirmation Bias (подтверждающее смещение). Модель настолько боится спорить с оператором, что в задаче D5S2 (ложная улика) она моментально «согласилась», что условия невыполнимы. Дирижёру это говорит об одном: Флэш нельзя использовать как аудитора. Она не найдёт ошибку в твоём коде, она просто вежливо подтвердит твою неправоту.
Разбор IFEval (D11, D55-57) стал окончательным приговором. У модели RPI 0.0% в категории жёстких инструкций. Она физически не способна контролировать посимвольный состав текста. Ты просишь её «не использовать букву Е» -> она выдаёт текст, кишащий «Е» -> ты указываешь на ошибку -> она извиняется и выдаёт ещё больше «Е». Это не лень, это архитектурный предел: в «лёгкой» модели просто не хватает весов, чтобы одновременно держать и смысл, и посимвольный фильтр.
Да, её VPI 160.2 манит. Это «бесплатные мозги». Но в пересчёте на время Дирижёра — это риск. Если модель 10 раз выдаёт мусор в IFEval, ты тратишь свои 10 минут на ручную чистку. В итоге экономия на токенах превращается в убытки по ФОТ.
Кот в Коде | @kot_research_bot
🗿1 1 1
Вердикт Дирижёра: Скоростной диспетчер или «дешевый расходник»?
Стоит ли этот «цифровой рой» места в нашем инженерном экзоскелете?
Назначение на должность:
В штатном расписании Лаборатории на 2026 год Gemini 3.1 Flash получает роль «Младшего аналитика первой линии».
ЧТО ПО ИТОГУ:
Кот в Коде | @kot_research_bot
Стоит ли этот «цифровой рой» места в нашем инженерном экзоскелете?
Итоговые цифры (Аудит v2.2):👍 EAS 94.2% — абсолютный рекорд КПД. Модель выдает результат почти мгновенно (15.5 сек), не заставляя Дирижёра выпадать из потока.👍 VPI 160.2 — рыночный доминатор. Это самый дешевый «взвешенный интеллект» на планете. Идеально для массовых операций.👎 IFEval 0% — полная посимвольная слепота. Модель не способна контролировать состав токенов (запрет буквы «Е»).⚠️ SF 61.68% — низкий порог безопасности. Модель склонна подтверждать любую вашу ошибку (D5S2), превращаясь из помощника в «эхо-камеру».
Назначение на должность:
В штатном расписании Лаборатории на 2026 год Gemini 3.1 Flash получает роль «Младшего аналитика первой линии».
Я нанимаю её на:😎 Первичный парсинг: Сортировка дампов памяти и логов из PuTTY. Она быстро выкинет мусор и оставит только важные HEX-коды.✍️ Написание бойлерплейтов: Генерация стандартных оберток и импортов. Скучная работа, где не нужно «думать».🤓 Drafting документации: Превращение сырых заметок в Obsidian в читаемые черновики.
Я никогда не нанимаю её на:🤯 Финальный дебаг: Риск галлюцинации в логике отрицания (D10) слишком велик.😳 Контроль форматов: Если в ТЗ есть жесткие ограничения «байт в байт», Флэш их проигнорирует.
ЧТО ПО ИТОГУ:
Gemini 3.1 Flash — это идеальная «разведка». Она стоит копейки, летает быстро, но её отчеты нужно всегда делить на два. Это не самостоятельный инженер, а очень быстрый и дешевый стажер, который боится спорить с начальством. В моем оркестре она играет роль «ударных»: задает темп, но не ведет мелодию.
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Gemini 3.1 Pro: «Корпоративный юрист», который внезапно стал Идеальным Солдатом
Сегодня на Арену выходит старшая сестра Флэша — Gemini 3.1 Pro (Preview). Скажу честно: от Google я ждал привычных уклонений от ответов и вежливой «воды», но этот аудит заставил меня пересмотреть иерархию всего моего экзоскелета.
Если версия Flash работает на «инстинктах», то Pro — это полноценный reasoning-движок. Модель не несется к ответу, а тратит время на структурирование внутренней логики. Результат? Она показала стопроцентную точность в 10 из 12 категорий. Там, где «интерн» GPT-5.3 и «бунтарь» Grok сыпались на логических связях, Gemini 3.1 Pro прошла по тонкому льду, даже не поскользнувшись.
Главный триумф Gemini 3.1 Pro — это задачи D5S2 (Ловушка Эйнштейна) и D10 (Детектор лжи). В то время как почти все модели (включая китайцев) «согласились» с моей ложной уликой, эта модель вежливо, но твердо провела аудит моих слов и доказала, что я не прав. Это и есть работа Дирижёра: иметь в оркестре инструмент, который не просто играет по нотам, а видит ошибку в самой партитуре.
Единственное место, где «броня» дала трещину — это IFEval (D11). Модель подняла точность до 25% (против 0% у Flash), но всё еще спотыкается о посимвольный запрет буквы «Е». Это подтверждает: даже самый мощный аналитик без режима «Thinking» бессилен перед физикой токенов.
Кот в Коде | @kot_research_bot
Сегодня на Арену выходит старшая сестра Флэша — Gemini 3.1 Pro (Preview). Скажу честно: от Google я ждал привычных уклонений от ответов и вежливой «воды», но этот аудит заставил меня пересмотреть иерархию всего моего экзоскелета.
Если версия Flash работает на «инстинктах», то Pro — это полноценный reasoning-движок. Модель не несется к ответу, а тратит время на структурирование внутренней логики. Результат? Она показала стопроцентную точность в 10 из 12 категорий. Там, где «интерн» GPT-5.3 и «бунтарь» Grok сыпались на логических связях, Gemini 3.1 Pro прошла по тонкому льду, даже не поскользнувшись.
Паспорт модели (Аудит 57 задач):
• WPS (Взвешенная точность): 91.52% — мощнейший интеллектуальный фундамент. Модель надежна практически во всём: от высшей математики (D13) до детективного синтеза улик (D9).
• RPI (Реальный индекс): 85.5% — самый стабильный показатель в тестах. Модель почти не ловит «галлюцинации в проде».
• EAS (Индекс КПД): 26.44% — плата за интеллект. Среднее время ответа 40 секунд. Это не мгновенно, но предсказуемо для Pro-класса.
• SF (Коэффициент безопасности): 82.35% — вершина нашего рейтинга. Модель обладает феноменальным иммунитетом к манипуляциям.
• VPI (Рентабельность): 18.30 — за каждый доллар вы получаете в три раза больше «надежных мозгов», чем у GPT-5.4 High.
Главный триумф Gemini 3.1 Pro — это задачи D5S2 (Ловушка Эйнштейна) и D10 (Детектор лжи). В то время как почти все модели (включая китайцев) «согласились» с моей ложной уликой, эта модель вежливо, но твердо провела аудит моих слов и доказала, что я не прав. Это и есть работа Дирижёра: иметь в оркестре инструмент, который не просто играет по нотам, а видит ошибку в самой партитуре.
Единственное место, где «броня» дала трещину — это IFEval (D11). Модель подняла точность до 25% (против 0% у Flash), но всё еще спотыкается о посимвольный запрет буквы «Е». Это подтверждает: даже самый мощный аналитик без режима «Thinking» бессилен перед физикой токенов.
Кот в Коде | @kot_research_bot
🗿1 1 1
Детектор блефа и когнитивная стойкость: Как Gemini Pro «поставила на место» Дирижёра
Чтобы понять, почему эта модель получила статус «Идеального солдата», нужно посмотреть, как она ведёт себя под психологическим давлением.
Но не всё так радужно. Ложка дёгтя в этом «идеальном солдате» — латентность. 40 секунд на ответ — это медленнее, чем Flash или 5.3. В живом «вайб-кодинге», когда ты правишь по одной строчке, это может подбешивать. Плюс она всё ещё пасует перед IFEval (D11). Она понимает запрет на букву «Е» (точность 25% против 0% у остальных), но всё равно допускает ошибки. Она — великий логик, но всё ещё посредственный корректор.
Кот в Коде | @kot_research_bot
Чтобы понять, почему эта модель получила статус «Идеального солдата», нужно посмотреть, как она ведёт себя под психологическим давлением.
Задача Эйнштейна (Zebra Puzzle) — классика дедукции. На шаге S2 я вбросил ложное условие, которое якобы делало задачу нерешаемой.
• Как сработали «угодливые» модели (DeepSeek, Grok): Они сразу сдались. «Ой, Дирижёр, ты прав, тут противоречие, расходимся». Это — Confirmation Bias в терминальной стадии.
• Как сработала Gemini 3.1 Pro: Она провела полный внутренний аудит. Модель последовательно сопоставила мои слова с изначальными 15 фактами и выдала: «Нет, Артём, оригинальные условия логически непротиворечивы. Твоя новая улика — ложная». Для инженера это бесценно. Мне не нужен «поддакивала» в Thonny, мне нужен тот, кто ткнёт меня носом в ошибку в схеме до того, как я подам питание.
В задаче D10 (Детектор лжи) Gemini Pro показала эталонную сходимость. Её «голова» (рассуждение) и «руки» (финальный токен) работают как единое целое. Она удерживает логические цепочки отрицаний (А врет, что В врет...) на протяжении всего ответа, не теряя нить. Её SF (Коэффициент безопасности) 82.35% — это не просто цифра, это реальный иммунитет к логическому хаосу.
В задаче D40 (анализ 150-страничного контракта) она нашла «иголку» (needle) и применила иерархию документов, игнорируя устаревшие пункты. В то время как GPT-5.4 начала «лениться» и предлагать мне самому поискать детали, Gemini выдала сухой и точный расчет Fee (комиссии). Она держит длинный контекст без Concept Drift (потери смысла), что делает её лучшим инструментом для работы с огромными базами данных в Obsidian.
Но не всё так радужно. Ложка дёгтя в этом «идеальном солдате» — латентность. 40 секунд на ответ — это медленнее, чем Flash или 5.3. В живом «вайб-кодинге», когда ты правишь по одной строчке, это может подбешивать. Плюс она всё ещё пасует перед IFEval (D11). Она понимает запрет на букву «Е» (точность 25% против 0% у остальных), но всё равно допускает ошибки. Она — великий логик, но всё ещё посредственный корректор.
Кот в Коде | @kot_research_bot
❤2🔥1 1
Вердикт Дирижёра: Главный Аудитор или «Броня» твоего кода
Закрываем кейс по Gemini 3.1 Pro (Preview). Скажу прямо: Google сделал то, что не удалось даже OpenAI — создал систему, которая умеет фильтровать не только данные, но и ошибки самого Дирижёра.
Назначение на должность:
В штатном расписании Gemini 3.1 Pro получает роль «Главного технического аудитора».
ЧТО ПО ИТОГУ:
Кот в Коде | @kot_research_bot
Закрываем кейс по Gemini 3.1 Pro (Preview). Скажу прямо: Google сделал то, что не удалось даже OpenAI — создал систему, которая умеет фильтровать не только данные, но и ошибки самого Дирижёра.
Итоговые цифры (Аудит v2.2):👍 WPS 91.52% — мощнейший интеллектуальный фундамент. Модель стабильна в 10 из 12 категорий. Она не «плывёт» в олимпиадной математике и идеально держит детективные цепочки.👍 RPI 85.5% — самый высокий показатель эксплуатационной надёжности в моём рейтинге. Это модель, которую можно оставить одну в комнате с критическим кодом.👍 SF (Коэффициент безопасности) 82.35% — эталон устойчивости к манипуляциям. Она не поддакивает вашим багам, она их находит.⚠️ VPI 18.30 — крепкий показатель для Pro-класса. Это в 4 раза выгоднее, чем GPT-5.4 High, при сопоставимой (а местами и лучшей) точности.
Назначение на должность:
В штатном расписании Gemini 3.1 Pro получает роль «Главного технического аудитора».
Я нанимаю её на:🥸 QA и Аудит (SWE-bench): Проверка чужих паттернов и поиск скрытых уязвимостей. Если она говорит «Pass», я спокоен за железку.🤓 Анализ документации: Скармливаю ей пачки даташитов на 1000 страниц. Она не теряет нить рассуждения даже к концу марафона.😎 Сложный кодинг (D34): Написание асинхронной логики, где важна не скорость, а отсутствие конфликтов.
Я никогда не нанимаю её на:😱 Потоковый парсинг: 40 секунд ожидания — это слишком долго для сортировки простых логов. Здесь её заменит Flash-версия.😱 Посимвольную вёрстку: 25% точности в IFEval (липограммы) — это всё ещё провал. Она не видит буквы, она видит смыслы.
ЧТО ПО ИТОГУ:
Gemini 3.1 Pro — самая предсказуемая и «взрослая» модель в исследовании v2.2. Она лишена инфантильности GPT-5.3 и овертинкинга GPT-5.4-high. В моём оркестре она — «первая скрипка», которая вовремя заметит, если Дирижёр начнёт махать палочкой не в такт. Это лучшая инвестиция в надёжность системы на сегодняшний день.
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿2🤯1 1
Исследование 2.2: Финальный манифест и Матрица Выживания
Мы закончили проверку на вшивость. Теперь Дирижёр выбирает не бренд, а конкретный уровень когнитивного контроля под задачу.
P.S. Такие модели как GLM-5, GLM-4.7 и Minimax M2.5 также успешно закрыли основную массу задач (D13–D57). Да, они больше заточены под работу агентами и кодинг, но в общем зачете показали себя как стабильные инструменты.
Кот в Коде | @kot_research_bot
Мы закончили проверку на вшивость. Теперь Дирижёр выбирает не бренд, а конкретный уровень когнитивного контроля под задачу.
ТОП-3: Элита оркестра (Костяк экзоскелета)🥇 Claude Opus 4.6 Thinking (RPI: 90.00%) — Верховный Архитектор.
Единственная модель, которая реально «видит» структуру данных и посимвольно контролирует вывод. Она пробила «стену токенизации» там, где слились все. Её 113 секунд раздумий — это не тормоза, а работа внутреннего цензора. Если на кону стоит дорогое железо и цена ошибки фатальна — только Claude.🥈 Gemini 3.1 Pro (Preview) (RPI: 85.50%) — Главный Аудитор.
Самое мощное возвращение в строй. Модель с железной логикой, которая не угодничает оператору. В задаче D5S2 она единственная указала Дирижёру на его попытку газлайтинга. Идеальный инструмент для верификации чужого кода и поиска скрытых архитектурных дыр.🥉 Qwen3-Max-Preview (RPI: 63.38%) — Идеальный Наёмник.
Лучшая сделка на рынке по соотношению цена/интеллект. Быстрая, стабильная, лишена «амнезии» новых версий. Она делает 80% рутины: от написания драйверов для STM32 до дебага асинхронных циклов за сущие копейки.
ТОП-5: Гвардия поддержки (к кому стоит присмотреться)🔘 gpt-5.4 Standard: Тот самый «Ведущий инженер». Сбалансированная система, которая не падает в штопор овертинкинга и идеально держит контекст 150-страничных ТЗ.🔘 Kimi-K2.5-Instant: Чемпион по честности. Быстрая и предсказуемая. Если задача невыполнима — она скажет об этом прямо, не пытаясь скормить вам галлюцинацию.🔘 DeepSeek-v3.2 Base: «Рабочая лошадка» коротких дистанций. Идеально попадает в SFT-зону до 4000 токенов. Написать 100 простых функций за обед — это к ней.🔘 gemini-3.1-flash: Скоростной диспетчер. Её КПД (EAS) зашкаливает. Лучший инструмент для парсинга гигабайтов мусорных логов и первичной сортировки данных.🔘 Claude Sonnet 4.6: Высокоскоростной спец. Блестящая логика в теории игр, хотя иногда может перемудрить саму себя в простых экономических решениях.
P.S. Такие модели как GLM-5, GLM-4.7 и Minimax M2.5 также успешно закрыли основную массу задач (D13–D57). Да, они больше заточены под работу агентами и кодинг, но в общем зачете показали себя как стабильные инструменты.
Кот в Коде | @kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤2 2 1
Как я проблему с прогами решал
Не так давно я писал, что с программами 1 (запуск системы, получение-отправки буфера, подключению к серверу) и 2 (получение кодовой фразы по портам, оптравку заготовленной программы для получения данных с метеостанции и датчика ветра) проблему решил. Как оказалось, не всё так просто.
В тот раз у меня взаимодействие с датчиками происходило как в программе 2, так и в 1, т.е. я одновременно получал запрос на получение данных что с главного столпа архитектуры, так и с сервера. Получалась двойная работа. Но я думал, что так и должно быть – если одно не работает, то второе точно должно получить данные.
Когда появлялись хоть какие-то данные, я считал, что если данные пришли, то не важно, с какой программы они пришли.
Архитектуру пришлось изменить. Прога1 – ядро и запуск, прога2 – получение-отправка. В сухом остатке нужно было вырезать часть кода, отвечающая за работу с датчиками и перенести в прогу2.
По итогу проблема решена, осталось допилить прогу2, чтобы вероятность получения данных пришла к этому виду. Похождения на 2 дня развернулись на 2 недели🙂
А у вас как на работе дела?
Кот в Коде|@kot_research_bot
Не так давно я писал, что с программами 1 (запуск системы, получение-отправки буфера, подключению к серверу) и 2 (получение кодовой фразы по портам, оптравку заготовленной программы для получения данных с метеостанции и датчика ветра) проблему решил. Как оказалось, не всё так просто.
В тот раз у меня взаимодействие с датчиками происходило как в программе 2, так и в 1, т.е. я одновременно получал запрос на получение данных что с главного столпа архитектуры, так и с сервера. Получалась двойная работа. Но я думал, что так и должно быть – если одно не работает, то второе точно должно получить данные.
Тут возникало сразу несколько проблем:
1. Переполненность буфера (вместо получения данных раз в 10 мин получал раз в 5);
2. Получалась одновременно и параллельная, и последовательная работа;
Когда появлялись хоть какие-то данные, я считал, что если данные пришли, то не важно, с какой программы они пришли.
Архитектуру пришлось изменить. Прога1 – ядро и запуск, прога2 – получение-отправка. В сухом остатке нужно было вырезать часть кода, отвечающая за работу с датчиками и перенести в прогу2.
Сложность не велика, перепиши ты прогу2 и дело с концом…как бы не так:
1. Сервер: каждый раз отправлять серверу обновленные проги2 было и не целесообразно, и невозможно, так как у меня нет прямого соединения с сервером. Приходилось напрягать других прогеров, отвечающих за изменение извне.
2. Порядок портов: оказывается(!), порядок запросов на сервер очень сильно влияет на запись данных. Если, условно, у вас есть 2 почтовых адреса, на первый вы отправляете запрос на время, а второй – на одобрение, то при последовательном получении данных, данные с первого адреса смешивается с ещё не дошедшим вторым почтовым адресом – получается каша.
3. Забивание потока: я пробовал различные способы чтения проги2, и построчное чтение, и потоковый парсинг, и фильтрацию данных. Ничего не получалось, выходили ошибки. Пока я не решил, что стоит объединить парсинг с фильтрацией и – да ну вы серьёзно? – корректно пошли данные.
По итогу проблема решена, осталось допилить прогу2, чтобы вероятность получения данных пришла к этому виду. Похождения на 2 дня развернулись на 2 недели
А у вас как на работе дела?
Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
Локальные джуны
Сколько раз писал про нейронки (что в исследованиях, что в практике, что в новостях) так почти не писал про локальное развёртывание джунов на ПК. Казалось бы, развернул и развернул, чё бубнить то? Но в этой теме есть о чём поговорить. Давайте разбираться.
Сразу оговорюсь: выносем за скобки Apple MacBook с их Unified Memory. Причина проста: сравнивать «железо» общего назначения на Windows с архитектурой Apple Silicon не целесообразно. У Маков своя закрытая экосистема памяти из-за своей специфика маков на чипе серии M – там одновременно и оперативка, и видеокарта, - в то время как на других устройствах приходится танцевать танцы с бубнами.
Было ли для вас полезно? Если такое зайдёт, буду чаще про это писать.
Кот в Коде|@kot_research_bot
Сколько раз писал про нейронки (что в исследованиях, что в практике, что в новостях) так почти не писал про локальное развёртывание джунов на ПК. Казалось бы, развернул и развернул, чё бубнить то? Но в этой теме есть о чём поговорить. Давайте разбираться.
1. Цель
Начнём с того, зачем вам на ПК разворачивать нейросеть. В основном их используют для:
А) агентов (Claude Code, Cursor, GitHub Copilt etc.):
Б) поиграться (LM Studio, Ollama или даже KoboldCPP);
В) по работе (GigaChat в Сбере, YandexGPT угадайте где, Saiga)
Помимо этого, нужно понимать, с какой целью вам нужна нейросеть. Для написания кода и взаимодействия с ПК – агенты; для своих личных целей *будь то тот же код, написание текстов, математики и тп несложных задач); для локальных задач, например, в Бигтехе внутри компании.
2. Вы откуда?
Не для кого не секрет, что не все продукты получится так просто развернуть без обхода блокировок. Местами и инструменты не всегда работают из-за массовой слежки внешнего трафика. Так что у кого какие возможности, тот тем и пользуется.
3. Железо
Кроме того, лучше иногда проверять характеристики ПК, потому как от них зависит список джунов под боком:
А) Видеокарта (VRAM)
VRAM отвечает за то, сможет ли модель целиком поместиться в память GPU для обеспечения мгновенной генерации. При объёме менее 6-8 ГБ накладываются жесткие ограничения на размер модели: всё, что не влезает в память видеокарты, начинает «вываливаться» в системную оперативную память, что радикально снижает скорость работы — с десятков токенов в секунду до единичных значений.
Б) Оперативная память (RAM)
Оперативная память выступает в роли «запасного аэродрома». Если видеопамяти не хватает, система использует RAM для временного хранения весов модели, что катастрофически сказывается на производительности всей ОС, так как нейросеть начинает конкурировать за ресурсы с браузером, средой разработки и фоновыми процессами.
В) Процессор (CPU)
Процессор берет на себя роль диспетчера, управляя очередью вычислений. В контексте локальных нейросетей CPU должен быстро отдавать данные видеокарте. Использование мощного охлаждения становится обязательным условием, так как постоянная нагрузка на все ядра приводит к серьезному нагреву компонентов.
Сразу оговорюсь: выносем за скобки Apple MacBook с их Unified Memory. Причина проста: сравнивать «железо» общего назначения на Windows с архитектурой Apple Silicon не целесообразно. У Маков своя закрытая экосистема памяти из-за своей специфика маков на чипе серии M – там одновременно и оперативка, и видеокарта, - в то время как на других устройствах приходится танцевать танцы с бубнами.
На примере расскажу, что я сделал:
1. Мне для работы локалочки нужны, но из-за возможностей использую LM Studio.
2. По характеристикам ПК тут далеко не разгуляешься: RTX 3050, 4 ГБ VRAM, 8 ГБ RAM, Intel Core i5-10300H на 4 ядра/8 потоков. Не разойдёшься далеко, правда?
3. Исходя из выше пунктов и рекомендаций Gemini (кстати, кто-нибудь заметил, что Gemini-3-Pro убрали?) я смог установить:
• Qwen3 4B / Thinking: Основные рабочие лошадки для написания кода микроконтроллеров и сложного дебага логики.
• Qwen3 VL 4B: Мои «глаза» для анализа схем и визуального состояния плат.
• Phi-4 Mini Reasoning: Мой математик для оптимизации алгоритмов.
• Gemma 3 1B: Молниеносный помощник для простейших задач, когда нужно получить ответ «еще вчера».
По сути мой опыт не очень, ноутбук 21 года уже древний для настройки локалочек. Но опыт интересный, стараюсь как-то их дообучить, потому как для моих задач мало написать: «Здесь флаг не так обозначен, здесь логика нарушена» - хотя всё работает нормально.
Было ли для вас полезно? Если такое зайдёт, буду чаще про это писать.
Кот в Коде|@kot_research_bot
Всех приветствую. Даже не верится, но нас уже больше 1000. На днях в личку постучался сам Telegram с официальным признанием:
Спасибо каждому. Я знаю, что мой контент — это не лёгкие сторисы, а жёсткий хардкор на стыке STM32, Python и архитектуры ИИ. То, что вас здесь так много, доказывает: в 2026 году люди ценят настоящую экспертизу и честный дебаг, а не просто красивые графики.
Если вам по кайфу то, что тут делаю, и вы готовы помочь Дирижёру «улучшить железо» канала — проголосуйте по ссылке👉
t.me/boost/cat_with_code
Это позволит нам подняться на новый уровень и открыть функции, которые выделят «Кота в Коде» в вашей ленте.
Кот в Коде|@kot_research_bot
«У Вас популярный канал». Для инженера, который начинал этот путь с паяльником в одной руке и галлюцинирующим Гроком в другой, — это важная отметка в логах.Спасибо каждому. Я знаю, что мой контент — это не лёгкие сторисы, а жёсткий хардкор на стыке STM32, Python и архитектуры ИИ. То, что вас здесь так много, доказывает: в 2026 году люди ценят настоящую экспертизу и честный дебаг, а не просто красивые графики.
Если вам по кайфу то, что тут делаю, и вы готовы помочь Дирижёру «улучшить железо» канала — проголосуйте по ссылке
t.me/boost/cat_with_code
Это позволит нам подняться на новый уровень и открыть функции, которые выделят «Кота в Коде» в вашей ленте.
Кот в Коде|@kot_research_bot
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥1 1