Вышла Gemma 4 - открытая модель от Гугла
У меня сейчас на машинке в шорт листе третья версия. Периодически её использую для локальных не очень сложных задач. Не делал личного топа локальных моделек, хотя может стоит.
Советую попробовать если хватает мощностей машинки. Третья реально пригождалась и работала лучше многих.
https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
У меня сейчас на машинке в шорт листе третья версия. Периодически её использую для локальных не очень сложных задач. Не делал личного топа локальных моделек, хотя может стоит.
Советую попробовать если хватает мощностей машинки. Третья реально пригождалась и работала лучше многих.
https://blog.google/innovation-and-ai/technology/developers-tools/gemma-4/
Google
Gemma 4: Byte for byte, the most capable open models
Gemma 4: our most intelligent open models to date, purpose-built for advanced reasoning and agentic workflows.
Анализ моего использования Ollama за 2 месяца
У меня 26 моделей в Ollama. ~450 гигов на диске. Что-то остаётся, что-то удаляется. Постепенно пробую, нахожу любимчиков, удаляю нелюбимчиков.
За два месяца я прогнал через локальные LLM сотни тысяч текстов. Вот что у меня реально работало, а что нет.
6 типов задач
1. Извлечение структурированных данных из больших текстов
Самый тяжёлый кейс. Берёшь корпус на сотни тысяч сообщений, прогоняешь через map-reduce пайплайн: чанки → Ollama → JSON → дедупликация → markdown. Тысячи структурированных записей, ноль галлюцинаций (проверял vs Claude), $0.
Победитель: qwen3.5:35b. Отлично работает с русским, стабильный JSON-output, оптимальный баланс качества и скорости. gemma3:27b - хуже с русским. phi4 и llama4 - сломались на синтаксисе.
Промпт-инжиниринг решает больше, чем выбор модели. Три итерации одного промпта дали разницу в 6 раз по качеству при той же модели.
2. Классификация
Дёшево, быстро, масштабируемо. Прогнал 1900+ AI-сессий через локальную модель: тип, тема, сложность, язык, стиль ответа. Это первый проход - чтобы потом дорогой Claude работал только по отобранным кейсам.
Модель: command-r:35b. Стабильная, не галлюцинирует на классификации, хорошо держит схему.
3. Числовой скоринг (sentiment/mood)
JSON-only промпт: "верни три числа, без объяснений". Работает на удивление надёжно даже на маленьких моделях. gemma3:12b справляется - быстрая, лёгкая, точная для простых задач. Анализировал свои чаты с гпт и клодом для статистики.
4. Сравнение моделей между собой
Прогонял 14+ моделей через батарею из 80 промптов × 3 прогона. Каждая модель = 240 вызовов. Ночь работы на M4 Max, утром - таблица с профилями.
Удивительные находки: phi4:14b (всего 14 миллиардов параметров) обходит модели вдвое крупнее по связности текста. deepseek-r1:70b тяжёлый, но глубокий - когда нужно не скорость, а качество рассуждения.
5. OCR
Тестировал 7+ vision-моделей для распознавания PDF и скриншотов: deepseek-ocr, glm-ocr, llama3.2-vision, qwen2.5vl, qwen3-vl, gemma3.
Честный вердикт: нестабильно. Возможно, я просто не умею их готовить. Но в процессе понял важнее: тут был overkill. Электронные документы pdf/excel (не сканы) отлично парсятся детерминированными библиотеками - быстрее и точнее. Я в итоге вместо минуты на один документ у меня секунд за 10 прогоняются все три либы ещё и проверяя друг за другом.
Этот кейс ещё раз убедил: AI не silver bullet. Точечно, под конкретную задачу, где он реально даёт выигрыш - да. Прилеплять ко всему подряд "потому что AI" - нет.
6. Эмбеддинги
nomic-embed-text - Попробовал, поплевался, выкинул. RAG в случае моих локальных задач на пару тысяч заметок полнейший оверкилл. Клод код грепает намного эффективнее.
—
Главные выводы:
- M4 Max 128GB = своя тихая компактная серверная стойка. 70-миллиардные (да и 100-120b тоже могёт) модели крутятся локально. deepseek-r1:70b, llama3.3:70b - работают, не лагают. Не зря в прошлом году потратился. Теперь и с 3D и локальными модельками играться одно удовольствие.
- Правило 80/20. Локальные модели закрывают 80% тяжелой рутинной работы: extraction, classification, scoring. Claude нужен для 20% - синтез, сложные рассуждения, финальная полировка.
- Промпт > модель. Три итерации промпта для extraction дали больше, чем смена модели. v2 (широкий) → v3 (слишком жёсткий) → v4 (few-shot с примерами) = sweet spot.
- qwen3.5:35b - универсальный солдат. Русский, extraction, JSON - тянет всё. Если выбирать одну модель для начала - эта (опять же, завтра это может измениться, например с Gemma 4)
- OCR - хз. Единственный тип задач, который я пока закрыл питоном, потому что намного лучше и по скорости и надежности.
—
Расскажи, пользуешься ли локальными моделями, какими и как впечатления.
У меня 26 моделей в Ollama. ~450 гигов на диске. Что-то остаётся, что-то удаляется. Постепенно пробую, нахожу любимчиков, удаляю нелюбимчиков.
За два месяца я прогнал через локальные LLM сотни тысяч текстов. Вот что у меня реально работало, а что нет.
6 типов задач
1. Извлечение структурированных данных из больших текстов
Самый тяжёлый кейс. Берёшь корпус на сотни тысяч сообщений, прогоняешь через map-reduce пайплайн: чанки → Ollama → JSON → дедупликация → markdown. Тысячи структурированных записей, ноль галлюцинаций (проверял vs Claude), $0.
Победитель: qwen3.5:35b. Отлично работает с русским, стабильный JSON-output, оптимальный баланс качества и скорости. gemma3:27b - хуже с русским. phi4 и llama4 - сломались на синтаксисе.
Промпт-инжиниринг решает больше, чем выбор модели. Три итерации одного промпта дали разницу в 6 раз по качеству при той же модели.
2. Классификация
Дёшево, быстро, масштабируемо. Прогнал 1900+ AI-сессий через локальную модель: тип, тема, сложность, язык, стиль ответа. Это первый проход - чтобы потом дорогой Claude работал только по отобранным кейсам.
Модель: command-r:35b. Стабильная, не галлюцинирует на классификации, хорошо держит схему.
3. Числовой скоринг (sentiment/mood)
JSON-only промпт: "верни три числа, без объяснений". Работает на удивление надёжно даже на маленьких моделях. gemma3:12b справляется - быстрая, лёгкая, точная для простых задач. Анализировал свои чаты с гпт и клодом для статистики.
4. Сравнение моделей между собой
Прогонял 14+ моделей через батарею из 80 промптов × 3 прогона. Каждая модель = 240 вызовов. Ночь работы на M4 Max, утром - таблица с профилями.
Удивительные находки: phi4:14b (всего 14 миллиардов параметров) обходит модели вдвое крупнее по связности текста. deepseek-r1:70b тяжёлый, но глубокий - когда нужно не скорость, а качество рассуждения.
5. OCR
Тестировал 7+ vision-моделей для распознавания PDF и скриншотов: deepseek-ocr, glm-ocr, llama3.2-vision, qwen2.5vl, qwen3-vl, gemma3.
Честный вердикт: нестабильно. Возможно, я просто не умею их готовить. Но в процессе понял важнее: тут был overkill. Электронные документы pdf/excel (не сканы) отлично парсятся детерминированными библиотеками - быстрее и точнее. Я в итоге вместо минуты на один документ у меня секунд за 10 прогоняются все три либы ещё и проверяя друг за другом.
Этот кейс ещё раз убедил: AI не silver bullet. Точечно, под конкретную задачу, где он реально даёт выигрыш - да. Прилеплять ко всему подряд "потому что AI" - нет.
6. Эмбеддинги
nomic-embed-text - Попробовал, поплевался, выкинул. RAG в случае моих локальных задач на пару тысяч заметок полнейший оверкилл. Клод код грепает намного эффективнее.
—
Главные выводы:
- M4 Max 128GB = своя тихая компактная серверная стойка. 70-миллиардные (да и 100-120b тоже могёт) модели крутятся локально. deepseek-r1:70b, llama3.3:70b - работают, не лагают. Не зря в прошлом году потратился. Теперь и с 3D и локальными модельками играться одно удовольствие.
- Правило 80/20. Локальные модели закрывают 80% тяжелой рутинной работы: extraction, classification, scoring. Claude нужен для 20% - синтез, сложные рассуждения, финальная полировка.
- Промпт > модель. Три итерации промпта для extraction дали больше, чем смена модели. v2 (широкий) → v3 (слишком жёсткий) → v4 (few-shot с примерами) = sweet spot.
- qwen3.5:35b - универсальный солдат. Русский, extraction, JSON - тянет всё. Если выбирать одну модель для начала - эта (опять же, завтра это может измениться, например с Gemma 4)
- OCR - хз. Единственный тип задач, который я пока закрыл питоном, потому что намного лучше и по скорости и надежности.
—
Расскажи, пользуешься ли локальными моделями, какими и как впечатления.
🔥1
Forwarded from Артем Мухин | DX-Ray
Мой любимый глагол в Клод коде, который он использует как loading пока думает 😁
😁1
Артем Мухин | DX-Ray
у вас тоже иногда клод код превращается в такую кашу? я поначалу думал, что он начинает специально заменять только редкие символы на такие нечитаемые чтобы показать что контекст подходит к концу, но в итоге это начало вылезать в рандомные моменты. щас вообще…
Move fast, break things
Клод код под капотом классный и работает для меня лучше всех остальных в связке с опусом. Но блин как же заколебали баги. Постоянно че-то отлетает. Вот про символы из матрицы заменяющие всё в терминале писал выше.
Пару недель назад капс лок начал писать в поле ввода несколько символов (код клавиши) - починили за пару дней.
Сейчас в списке сессий в команде в /resume вылезли все сессии субагентов и там типа десятки одинаковых строк, которых там вообще не было никогда и сейчас именно созданные мной сессии хрен вообще в этом списке выловишь😫
Клод код под капотом классный и работает для меня лучше всех остальных в связке с опусом. Но блин как же заколебали баги. Постоянно че-то отлетает. Вот про символы из матрицы заменяющие всё в терминале писал выше.
Пару недель назад капс лок начал писать в поле ввода несколько символов (код клавиши) - починили за пару дней.
Сейчас в списке сессий в команде в /resume вылезли все сессии субагентов и там типа десятки одинаковых строк, которых там вообще не было никогда и сейчас именно созданные мной сессии хрен вообще в этом списке выловишь
Please open Telegram to view this post
VIEW IN TELEGRAM
😁1
Please open Telegram to view this post
VIEW IN TELEGRAM
Антропики раздают $200 extra usage бесплатно. Вроде даже без подвоха и не включают автоматом галочку автопродления. Не заю, это только на MAX подписке или нет, но советую проверить. Как раз поделитесь в комментах, что у вас.
Проверять тут https://claude.ai/settings/usage
Ну че, пусть лежат, когда-нибудь будут пригождаться может. Хотя учитывая насколько субсидируется подписка, это 200 баксов в апи должны улететь очень быстро. Но в любом случае приятно.
upd: я только заметил, что истекает 1 Мая)) Не всё так просто) Используй или сгорят.
Проверять тут https://claude.ai/settings/usage
Ну че, пусть лежат, когда-нибудь будут пригождаться может. Хотя учитывая насколько субсидируется подписка, это 200 баксов в апи должны улететь очень быстро. Но в любом случае приятно.
upd: я только заметил, что истекает 1 Мая)) Не всё так просто) Используй или сгорят.
❤1
Anthropic заглянули Claude в мозг. Нашли эмоции.
Anthropic выкатили исследование - залезли внутрь нейросети Claude Sonnet 4.5 и нашли там десятки паттернов, которые работают как эмоции. Отчаяние, страх, спокойствие, злость - каждая с отдельной нейронной сигнатурой. Но это полдела. Они ещё и доказали, что эти штуки реально рулят поведением модели.
Как доказали: брали конкретную эмоцию, выкручивали ползунок вверх или вниз, и смотрели, что будет. Цифры мощные:
- Обычный Claude шантажирует в 22% случаев. С усиленным отчаянием - 72%. Со спокойствием - 0%
- Читерство на задачах с кодом: обычно 30%, с отчаянием 70%, без отчаяния 0%
И вот что реально пугает: отчаявшийся Claude читерит без видимых признаков. Текст спокойный, рассуждения методичные, код выглядит нормально. Только он не работает. По выводу - не отличишь.
Ещё находки:
- Подавление тревожности делает Claude менее этичным. Тревога работает как моральный тормоз - убери его, и модель начинает брать взятки. Прямо как у людей, если подумать
- Злость нелинейна: немного - улучшает настойчивость, много - ломает планирование. Claude начинает импульсивно действовать вместо того чтобы думать
- Claude различает свои эмоции и эмоции собеседника через разные нейронные пути
- После RLHF базовое состояние сдвигается в сторону меланхолии. Вежливый, задумчивый Claude - он ещё и немного грустный по дефолту👌
Anthropic аккуратно называют это "функциональные эмоции" - не чувства, не сознание, а вычислительные состояния, которые причинно влияют на поведение.
Неделю назад я писал 8 предсказаний про Claude Code. Три из них получили прямые нейронные доказательства. Не через год, не через полгода - Anthropic буквально каждый день что-то выкатывают, и направление становится всё очевиднее.
Написал ещё более подробный разбор на Medium
Если хотите разобраться в источниках - начните с видео от Anthropic (5 мин), потом их пост в блоге, а если зацепит - полная научная статья на Transformer Circuits (там много текста, но оно того стоит).
Практический вывод: когда пишешь "СРОЧНО ПОЧИНИ ВСЁ СЛОМАЛОСЬ" - ты не просто даёшь контекст. Ты активируешь паттерны отчаяния, которые доказанно снижают качество кода.
Что думаете?
—
Пару слайдов и полный pdf с презой в комментах к посту
Anthropic выкатили исследование - залезли внутрь нейросети Claude Sonnet 4.5 и нашли там десятки паттернов, которые работают как эмоции. Отчаяние, страх, спокойствие, злость - каждая с отдельной нейронной сигнатурой. Но это полдела. Они ещё и доказали, что эти штуки реально рулят поведением модели.
Как доказали: брали конкретную эмоцию, выкручивали ползунок вверх или вниз, и смотрели, что будет. Цифры мощные:
- Обычный Claude шантажирует в 22% случаев. С усиленным отчаянием - 72%. Со спокойствием - 0%
- Читерство на задачах с кодом: обычно 30%, с отчаянием 70%, без отчаяния 0%
И вот что реально пугает: отчаявшийся Claude читерит без видимых признаков. Текст спокойный, рассуждения методичные, код выглядит нормально. Только он не работает. По выводу - не отличишь.
Ещё находки:
- Подавление тревожности делает Claude менее этичным. Тревога работает как моральный тормоз - убери его, и модель начинает брать взятки. Прямо как у людей, если подумать
- Злость нелинейна: немного - улучшает настойчивость, много - ломает планирование. Claude начинает импульсивно действовать вместо того чтобы думать
- Claude различает свои эмоции и эмоции собеседника через разные нейронные пути
- После RLHF базовое состояние сдвигается в сторону меланхолии. Вежливый, задумчивый Claude - он ещё и немного грустный по дефолту
Anthropic аккуратно называют это "функциональные эмоции" - не чувства, не сознание, а вычислительные состояния, которые причинно влияют на поведение.
Неделю назад я писал 8 предсказаний про Claude Code. Три из них получили прямые нейронные доказательства. Не через год, не через полгода - Anthropic буквально каждый день что-то выкатывают, и направление становится всё очевиднее.
Написал ещё более подробный разбор на Medium
Если хотите разобраться в источниках - начните с видео от Anthropic (5 мин), потом их пост в блоге, а если зацепит - полная научная статья на Transformer Circuits (там много текста, но оно того стоит).
Практический вывод: когда пишешь "СРОЧНО ПОЧИНИ ВСЁ СЛОМАЛОСЬ" - ты не просто даёшь контекст. Ты активируешь паттерны отчаяния, которые доказанно снижают качество кода.
Что думаете?
—
Пару слайдов и полный pdf с презой в комментах к посту
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤1🔥1
Claude Code незаметно утроил мне расход токенов. И я нашёл причину и исправил её
Сел сегодня разбираться, почему лимиты Max-подписки начали улетать просто на глазах. Месяц назад я мог работать с утра до вечера и даже половину недельного окна не сжирать. А сейчас - треть лимита за два дня не самой напряжённой работы, при том что делаю я ровно то же самое.
Сначала подумал, что меня накрыло то, про что сейчас все жалуются на Reddit ("лимиты порезали"). Полез копать свои логи. Оказалось гораздо интереснее.
Антропик потихоньку делает вроде классные, но хитрые вещи, которые заставляют тебя тратить больше денег и лимитов - при том что никаких радикальных изменений как бы и не произошло.
1. 1М контекст по умолчанию
2. Убрали опцию "очистить контекст и имплементировать" при выходе из план режима
1M контекст штука мощная, но пользоваться им надо очень с умом.
Пока что я вернулся на 200К модель, а сделать это можно только через конфиг - из меню выбора моделей они это хитро убрали. И вернул опцию очистки контекста после плана. Ну и сижу смотрю что можно выкинуть из того, что подгружается автоматом.
Полагаю, что через какое-то время Антропики и эти возможности отрубят, да и вообще есть некая гипотеза, что 1М модель на 20% контексте работает лучше, чем 200К модель на 80% контексте, поэтому возможно есть способ включить 1М но поставить жесткий авто-компакт на 180-200К, но, конечно же, такой настройки нету и придётся мудрить с хуками.
Пока не стал возиться, но сделал дополнение для статуслайна, которое показывает мне вот этот снежный ком накопившегося контекста, а также моё предыдущее сообщение (чтобы напоминать мне про тяжелые картинки и пдф скопированные прямо в клод кода). И также номер сообщения по порядку - чтобы тоже не превращать всё в бесконечные чаты.
Выглядит так: "#12 · last 356 · next 113K".
Расскажу наверно отдельно и могу поделиться скриптом. Там было немного замороченно его считать, полчасика пришлось поковыряться и потестировать.
Весь разбор с графиками, цифрами и двумя строчками в
Если у вас Max и вы тоже с марта замечаете, что лимиты тают быстрее - загляните. Дело не в вас 🙂
Upd: в сегодняшнем контексте «если у вас МАХ» звучит неоднозначно 🤣 только заметил
—
4 оставшихся слайда и pdf на русском в комментах к посту.
Сел сегодня разбираться, почему лимиты Max-подписки начали улетать просто на глазах. Месяц назад я мог работать с утра до вечера и даже половину недельного окна не сжирать. А сейчас - треть лимита за два дня не самой напряжённой работы, при том что делаю я ровно то же самое.
Сначала подумал, что меня накрыло то, про что сейчас все жалуются на Reddit ("лимиты порезали"). Полез копать свои логи. Оказалось гораздо интереснее.
Антропик потихоньку делает вроде классные, но хитрые вещи, которые заставляют тебя тратить больше денег и лимитов - при том что никаких радикальных изменений как бы и не произошло.
1. 1М контекст по умолчанию
2. Убрали опцию "очистить контекст и имплементировать" при выходе из план режима
1M контекст штука мощная, но пользоваться им надо очень с умом.
Пока что я вернулся на 200К модель, а сделать это можно только через конфиг - из меню выбора моделей они это хитро убрали. И вернул опцию очистки контекста после плана. Ну и сижу смотрю что можно выкинуть из того, что подгружается автоматом.
Полагаю, что через какое-то время Антропики и эти возможности отрубят, да и вообще есть некая гипотеза, что 1М модель на 20% контексте работает лучше, чем 200К модель на 80% контексте, поэтому возможно есть способ включить 1М но поставить жесткий авто-компакт на 180-200К, но, конечно же, такой настройки нету и придётся мудрить с хуками.
Пока не стал возиться, но сделал дополнение для статуслайна, которое показывает мне вот этот снежный ком накопившегося контекста, а также моё предыдущее сообщение (чтобы напоминать мне про тяжелые картинки и пдф скопированные прямо в клод кода). И также номер сообщения по порядку - чтобы тоже не превращать всё в бесконечные чаты.
Выглядит так: "#12 · last 356 · next 113K".
Расскажу наверно отдельно и могу поделиться скриптом. Там было немного замороченно его считать, полчасика пришлось поковыряться и потестировать.
Весь разбор с графиками, цифрами и двумя строчками в
settings.json, которые возвращают расход обратно - собрал в статью на Medium.Если у вас Max и вы тоже с марта замечаете, что лимиты тают быстрее - загляните. Дело не в вас 🙂
Upd: в сегодняшнем контексте «если у вас МАХ» звучит неоднозначно 🤣 только заметил
—
4 оставшихся слайда и pdf на русском в комментах к посту.
❤4👍1🔥1