До этого мультимодальные модели работали так: картинку сначала обрабатывает отдельный блок, аудио тоже через свой. Каждый такой блок ест память и добавляет задержку. Gemma 4 12B делает это без посредников. Картинка и звук идут прямо в модель. Один пайплайн для всего.
На практике это значит меньше памяти под инфраструктуру и выше скорость отклика. Модель запускается на железе с 16GB VRAM (не потребляет, а столько оперативки в компе надо) или unified memory, то есть MacBook Pro с M3 тянет без проблем. Apache 2.0, весы на Hugging Face и Kaggle, запуск через Ollama или LM Studio.
Задачи, которые это открывает:
👉 локальный агент с пониманием скриншотов и голоса
👉 анализ изображений без отправки данных в облако
👉 голосовой ввод прямо в агентный пайплайн.
Для тех, кто строит агентов с приватными данными или просто не хочет зависеть от API-ключей и облачных лимитов — это рабочий вариант.
Мне интересно попробовать именно в связке с локальным агентом: один инстанс, текст плюс скриншот плюс аудио, без облака. Посмотрим, насколько это работает на практике, а не только на бенчмарках.
🔗 Оф анонс
#AI #Gemma
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
👍26👎1
MiniMax выпустили модель M3. Это первая open-weight модель, которая сочетает три вещи сразу: контекст в миллион токенов, нативная мультимодальность (видео и картинки), и кодинг на уровне топовых закрытых моделей.
Главная техническая фишка — новая архитектура внимания MSA. Она позволяет работать с миллионом токенов без квадратичного роста вычислений: в 20 раз меньше compute на токен, prefill быстрее в 9 раз.
На SWE-Bench Pro модель набирает 59%. Больше GPT-5.5, больше Gemini 3.1 Pro. Но MiniMax аккуратно сравнивают себя с Opus 4.7, игнорируя 4.8 — а там разрыв уже 10 пунктов. Это не "почти на уровне Claude", это "хороший уровень, но не frontier". Даже Opus 4.6 делом круто, поэтому некритично.
Есть два интересных нюанса.
1️⃣ Первый: большинство бенчмарков они гоняли через Claude Code как scaffolding. То есть результаты конкурента получены с помощью инструмента Anthropic.
2️⃣ Второй: у них теперь есть свой агент — MiniMax Code. Прямой конкурент Claude Code. Демки впечатляют — 24-часовая оптимизация CUDA-ядра, 12-часовое воспроизведение научной статьи без участия человека.
Цена в 10-15 раз дешевле Claude Opus и GPT-5.5.
#AI #MiniMax
Главная техническая фишка — новая архитектура внимания MSA. Она позволяет работать с миллионом токенов без квадратичного роста вычислений: в 20 раз меньше compute на токен, prefill быстрее в 9 раз.
На SWE-Bench Pro модель набирает 59%. Больше GPT-5.5, больше Gemini 3.1 Pro. Но MiniMax аккуратно сравнивают себя с Opus 4.7, игнорируя 4.8 — а там разрыв уже 10 пунктов. Это не "почти на уровне Claude", это "хороший уровень, но не frontier". Даже Opus 4.6 делом круто, поэтому некритично.
Есть два интересных нюанса.
Цена в 10-15 раз дешевле Claude Opus и GPT-5.5.
#AI #MiniMax
Please open Telegram to view this post
VIEW IN TELEGRAM
👍25👎1
This media is not supported in your browser
VIEW IN TELEGRAM
🎥 Забирайте записи с ДевФеста — devfest.ru
26 сессий о том, как реально применяют ИИ в разработке: лучшие практики, безопасность ИИ-агентов, опыт создателей стандартов и инженеров, стоящих за технологиями, которыми мы пользуемся каждый день.
👉 Доступ к записям:
Бесплатно — за подписку на каналы
Через Timepad — по цене Claude Max
#реклама
26 сессий о том, как реально применяют ИИ в разработке: лучшие практики, безопасность ИИ-агентов, опыт создателей стандартов и инженеров, стоящих за технологиями, которыми мы пользуемся каждый день.
👉 Доступ к записям:
Бесплатно — за подписку на каналы
Через Timepad — по цене Claude Max
#реклама
👎17👍3
Forwarded from Android Broadcast
🔴 Созвон Закрытого Сообщества. Жаркая дискуссия: какой агент лучше. Best practices, ошибки и как работать с ИИ.
Гость — Никита @Nek.12. Один из немногих в русскоязычном сообществе, у кого я реально нашел много интересного для работы с ИИ. Никита не использует Claude Code, Codex или Cursor. Он написал своего агента с нуля. Builder — это CLI-хarness с супервайзером, скиллами, Docker-сэндбоксингом, клиент-серверной архитектурой и возможностью гонять агента автономно сутками. Всё сам. На Kotlin-бекенде. В одиночку.
У нас принципиально разные подходы. Я работаю с Claude Code, активно использую MCP-серверы и верю в это. Никита написал статью "MCP is Deprecated" и считает, что сложные агентные оркестраторы — это микроменеджмент, который мешает модели работать.
Будем разбираться, кто прав. Или оба правы по-своему. Или оба не правы.
Формат — живой разговор, вы можете задавать вопросы в чате прямо во время эфира.
🪙 Стрим пройдет для платных подписчиков на Boosty
#AndroidBroadcast #LIVE
Гость — Никита @Nek.12. Один из немногих в русскоязычном сообществе, у кого я реально нашел много интересного для работы с ИИ. Никита не использует Claude Code, Codex или Cursor. Он написал своего агента с нуля. Builder — это CLI-хarness с супервайзером, скиллами, Docker-сэндбоксингом, клиент-серверной архитектурой и возможностью гонять агента автономно сутками. Всё сам. На Kotlin-бекенде. В одиночку.
У нас принципиально разные подходы. Я работаю с Claude Code, активно использую MCP-серверы и верю в это. Никита написал статью "MCP is Deprecated" и считает, что сложные агентные оркестраторы — это микроменеджмент, который мешает модели работать.
Будем разбираться, кто прав. Или оба правы по-своему. Или оба не правы.
Формат — живой разговор, вы можете задавать вопросы в чате прямо во время эфира.
#AndroidBroadcast #LIVE
Please open Telegram to view this post
VIEW IN TELEGRAM
👍29👎4
Kimi Code CLI - официально решение от создателей моделей Kimi для кодинга. По суди сделали свой Claude Code, но адаптированный под свои модели. И это очень важно, ведь вставлять сторонние модели Claude Code дает хуже результат, ведь часть фичей непосредственно затачиваются под фичи CLI.
👍8👎4
🤯 Гипотеза агента заблокировала поиск реального ответа и стоила миллионов токенов
Пишу приложение для записи экрана и внешней камеры на macOS. Нужна поддержка 4K через AVFoundation. Камера анонсирует формат 420v 3840×2160@30fps.
Opus 4.8 с extended thinking посчитал bandwidth "в уме", получил 3.7 Gbps (видно ограничение камеры), решил что не влезает в кабель и выдал "невозможно". Без единого практического теста. Просто гипотеза, оформленная как факт.
Дальше агент десятки раундов защищал этот вывод. Я запускал отдельный research-агент и он тоже ходил по кругу, потому что искал подтверждение невозможного, а не причину.
Новая сессия. Подключил документацию, заставил проверять практически. И только тогда нашлась реальная причина: AVFoundation всегда скидывает разрешение внешней камеры до Full HD. Это ограничение фреймворка, не железа. Вывод "невозможно" оказался верным, но агент пришёл к нему только через практику, не через расчёт в уме.
Если бы первый агент не застрял на непроверенной гипотезе и сразу пошёл тестировать и реальная причина нашлась бы за один прогон.
По итогу зашил правило в инструкции проекта: любое "невозможно" требует практического подтверждения. Эмпирика - это гипотеза для проверки, не аргумент для остановки.
Какая бы модель ни стояла под капотом — без этого правила агент будет уверенно защищать собственные предположения вместо поиска ответа. Со стороны пользователя требуется постоянная настройка и улучшение настроек в проекте и глобально.
#AIdev #ClaudeCode #Opus #macOS
Пишу приложение для записи экрана и внешней камеры на macOS. Нужна поддержка 4K через AVFoundation. Камера анонсирует формат 420v 3840×2160@30fps.
Opus 4.8 с extended thinking посчитал bandwidth "в уме", получил 3.7 Gbps (видно ограничение камеры), решил что не влезает в кабель и выдал "невозможно". Без единого практического теста. Просто гипотеза, оформленная как факт.
Дальше агент десятки раундов защищал этот вывод. Я запускал отдельный research-агент и он тоже ходил по кругу, потому что искал подтверждение невозможного, а не причину.
Новая сессия. Подключил документацию, заставил проверять практически. И только тогда нашлась реальная причина: AVFoundation всегда скидывает разрешение внешней камеры до Full HD. Это ограничение фреймворка, не железа. Вывод "невозможно" оказался верным, но агент пришёл к нему только через практику, не через расчёт в уме.
Если бы первый агент не застрял на непроверенной гипотезе и сразу пошёл тестировать и реальная причина нашлась бы за один прогон.
По итогу зашил правило в инструкции проекта: любое "невозможно" требует практического подтверждения. Эмпирика - это гипотеза для проверки, не аргумент для остановки.
Какая бы модель ни стояла под капотом — без этого правила агент будет уверенно защищать собственные предположения вместо поиска ответа. Со стороны пользователя требуется постоянная настройка и улучшение настроек в проекте и глобально.
#AIdev #ClaudeCode #Opus #macOS
👍32👎6
Вышла модель Claude Fable 5 - упрощенная Mythos. Пи*** лимитам - жрет в 2 раза больше Opus
👎15👍9
Что такое Fable 5? Это версия Mythos, которая ограничена с целью безопасности от атак и взломов на основе уязвимостей, которая смогла найти Mythos.
Как уляжется шумиха и сбросится мой недельный лимит - обязательно попробую ее для задач, где Opus проваливался.
Карпаты назвал Fable прорывом, аналогичным Opus 4.5 был в свое время (всего то 6 месяцев прошло).
Кто уже попробовал и ощутил мощь Fable стороны ?
Как уляжется шумиха и сбросится мой недельный лимит - обязательно попробую ее для задач, где Opus проваливался.
Карпаты назвал Fable прорывом, аналогичным Opus 4.5 был в свое время (всего то 6 месяцев прошло).
Кто уже попробовал и ощутил мощь Fable стороны ?
👍11👎7
Зато опять лимиты сбросили, а кто-то именно ради Fable и покупал подписку
#Claude #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
👎13👍1
Сам Альтман уже признал публично, что стоимость использования ИИ стала «огромной проблемой». И давят на цены не энтузиасты, а корпоративные клиенты. Один из топов Uber рассказал, что компания сожгла весь бюджет 2026 года на агентный ИИ ещё в начале года. В Долине даже завёлся термин
tokenmaxxing - палить максимум токенов, изображая продуктивность, в том числе там, где это вообще не окупается.Мне кажется, это начало разворота. Долгое время все мерились, чья модель умнее. Сейчас вопрос смещается в другую плоскость - сколько денег нужно, чтобы довести задачу до результата. Это хорошо видно по Android Bench от Google. В лидерборде рядом с качеством стоят колонки tokens и cost в долларах за прогон, и высокий балл часто идёт за заметно большие деньги.
Тут есть ловушка, про которую забывают. Дешевле за токен не равно дешевле за результат. Слабая модель чаще промахивается, гоняет агента по кругу и в сумме сжигает больше. Поэтому я не верю в простой исход «все разбежались к тем, кто дешевле». Останется тот, кто даёт стабильно нужный уровень за вменяемую цену и без лишних итераций. А чистая мощность как главная метрика, по-моему, своё уже отжила.
🔗 Источник
#AI #ИИ #OpenAI #Anthropic
Please open Telegram to view this post
VIEW IN TELEGRAM
👍22👎3
Forwarded from Nek.12 | AI, SWE, Tech [RU]
Встречайте Kent 2.0 - соучастник вашего кода.
Выпустил Kent 2.0 - бывший Builder переименован в Kent с новым сайтом kent.sh. В релизе: кастомизация системных промптов, новые субагенты с примерами конфига, фиксы перформанса и терминала, предотвращение сна системы и улучшения для локальных моделей.
Читать далее
#разработка #ии #kent #aiagent #llm #subagents #systemprompt #localmodels #release #clitools
Выпустил Kent 2.0 - бывший Builder переименован в Kent с новым сайтом kent.sh. В релизе: кастомизация системных промптов, новые субагенты с примерами конфига, фиксы перформанса и терминала, предотвращение сна системы и улучшения для локальных моделей.
Читать далее
#разработка #ии #kent #aiagent #llm #subagents #systemprompt #localmodels #release #clitools
nek12.dev
Встречайте Kent 2.0 - соучастник вашего кода. | nek12.dev
Выпустил Kent 2.0 - бывший Builder переименован в Kent с новым сайтом kent.sh. В релизе: кастомизация системных промптов, новые субагенты с примерами конфига, фиксы перформанса и терминала, предотвращение сна системы и улучшения для локальных моделей.
👍15👎10
Девятый выпуск ИИ-дневника. Садился записывать про то, как слезаю с Claude Code на что-то другое: открытые модели, китайцев, локальный запуск. За неделю экспериментов вышло наоборот: подсел на подписку ещё сильнее, и виноват в этом Claude Design.
Внутри разбираю честно: почему меня не убеждают «у меня на нём лучше выходит» и «он дешевле» и какая метрика тут вообще единственная осмысленная. Чем реально держит Claude Design (под него я снёс Figma) и чем он отличается от того же Claude Code на тех же моделях под капотом. И зачем при всём этом я продолжаю смотреть на MiniMax M3, DeepSeek V4 и своё железо.
⚠️ Отдельно про то, что пугает: vendor lock-in и сценарий, где внешние модели в какой-то момент просто перекрывают сверху.
Все выпуски дневника тут
#AI #ClaudeCode #ClaudeDesign
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8👎6
🤖 Kimi K2.7 Code: open-source модель для кодинга
Moonshot AI выпустила K2.7 Code - 1T MoE coding модель (32B активных параметров, 256K контекст) с весами на HuggingFace под Modified MIT. Два заявления: на 30% меньше thinking-токенов по сравнению с K2.6 и выше success rate в агентных задачах.
О бенчмарках скажу прямо: все числа в анонсе - собственные Moonshot (Kimi Code Bench v2, Kimi Claw 24/7 Bench). SWE-bench, SWE-bench Pro - ноль. Причём даже на своих бенчмарках K2.7 Code уступает Opus 4.8 и GPT-5.5 на большинстве задач: Program Bench 53.6 против 63.8 и 69.1, MCP Atlas 76.0 против 81.3 и 79.4.
Насколько конкурентна с Sonnet 4.6 и Opus 4.7/4.8? Пока без ответа. Predecessor K2.6 без thinking: 65.8% SWE-bench Verified против 79.6% у Sonnet 4.6. Зато на SWE-bench Pro K2.6 набирал 58.6% - столько же, сколько GPT-5.5. K2.7 Code с thinking должен быть выше, но независимых данных нет.
Ценовой аргумент реальный: $4.00/М output-токенов при mandatory thinking против $15 у Sonnet 4.6 и $25 у Opus 4.8. Плюс коммерческий self-hosting под Modified MIT. Если SWE-bench подтвердит хотя бы Sonnet-уровень, это сильная позиция для агентных воркфлоу.
Жду независимых бенчмарков.
🔗 kimi.com
🐱 HuggingFace
#AI #OpenSource
Moonshot AI выпустила K2.7 Code - 1T MoE coding модель (32B активных параметров, 256K контекст) с весами на HuggingFace под Modified MIT. Два заявления: на 30% меньше thinking-токенов по сравнению с K2.6 и выше success rate в агентных задачах.
О бенчмарках скажу прямо: все числа в анонсе - собственные Moonshot (Kimi Code Bench v2, Kimi Claw 24/7 Bench). SWE-bench, SWE-bench Pro - ноль. Причём даже на своих бенчмарках K2.7 Code уступает Opus 4.8 и GPT-5.5 на большинстве задач: Program Bench 53.6 против 63.8 и 69.1, MCP Atlas 76.0 против 81.3 и 79.4.
Насколько конкурентна с Sonnet 4.6 и Opus 4.7/4.8? Пока без ответа. Predecessor K2.6 без thinking: 65.8% SWE-bench Verified против 79.6% у Sonnet 4.6. Зато на SWE-bench Pro K2.6 набирал 58.6% - столько же, сколько GPT-5.5. K2.7 Code с thinking должен быть выше, но независимых данных нет.
Ценовой аргумент реальный: $4.00/М output-токенов при mandatory thinking против $15 у Sonnet 4.6 и $25 у Opus 4.8. Плюс коммерческий self-hosting под Modified MIT. Если SWE-bench подтвердит хотя бы Sonnet-уровень, это сильная позиция для агентных воркфлоу.
Жду независимых бенчмарков.
🔗 kimi.com
🐱 HuggingFace
#AI #OpenSource
👍9👎2