мудрейший катафчик
16 subscribers
25 photos
17 links
мое мнение
автор: @katafiek

https://t.me/boost/katafchik
Download Telegram
планируемые посты:
пост про то, что нейросеть кал (опрос выше)
+ вайбкодинг, агенты, оркестраторы, mcp, скиллы, инжиниринг и что где выбрать (не скоро, не изучила тему полностью)
+ больше про открытые модели, например про тот-же qwen3.5 хотелось бы больше раскрыть тему силы маленьких моделей
+ больше про открытые модели в целом
1
будет, но не сейчас

размышлял еще над ситуацией в мире нейросетей и придумал интересную идею - написать несколько возможно глупых предсказаний, которые будут зашифрованы. они будут расшифрованы после того, как сбудутся. если не сбудутся - не будут расшифрованы, но я обязательно сообщу об этом

вот предсказания:

1. самое вероятное
2. вполне возможно
3. хотелось бы, чтобы это было правдой, и это было бы логично, если бы не тупость людей

AES-256, ECB, PKCS5Padding; key - hex; hash - hex

BC2C50BE340C93E34A3D2D97CB12ED48A25A30CF8426143E61F5C59A2E8F2A385E3AE4ABFC103429101D7112DC800BD75127675240B46EB1B5780169C51087D3270D4894915BC171B56EE8078BFE869F3DBC516A8B31C8988586CCD3CB416C7D76D3FFEC1CAF020F0100B6E50CA3398D215EC16076EADB7EDC09C862B2B7B44BBEB2700A8F4579C0549E4A5EF37A4791E7928AB8851D5DFFAC65EB2E4994DFB83A33E521CD02A5C8F2DD1671F6026FD7


F0FE464CE37DACC84F985A4CB40227AC5D9E4A87B36F84D0972C3BF98BD08D09B84A27C4ED4CB5975EF4F93DBD408611D8776EB732A8AAB9C6528DCD3F4D1DF2951952A824AF93747E540D38C1C7EA26


866845AB1A440712488EF1242F573B2BD7087D1999915DCE60D0409A127FE28168CCF2E7D3D62A563D055034A8458F5562E3E801CD8922154E96760BD2D5EBDAEDF22B1DCBC2D7DD2FF4A54247E2EF05

данный пост не будет изменятся для чистоты эксперимента
с прошедшим восьмым марта!!!🥰
Телега
На связи команда Телеги
Скоро Катаф выпустит плагин для нашего конкурента exteraGram:

Мы продолжаем расширять аудиторию нашей альтернативы Telegram для вас. Понимаем, что уже писали об этом, но усиление требует времени.

• C помощью него вы, используя другое приложение, сможете узнать, использует ли ваш собеседник наш мессенджер — Telega.
• Плагин будет добавлять специальную иконку возле имени пользователя, которая будет обозначать что пользователь использует Телегу.


Спасибо за понимание и поддержку!
2
наверна пора.

Anthropic одна из самых жадных компаний в сфере ии, например:
1. отсутствие open source моделей и продуктов в целом (даже claude code с закрытым кодом, который недавно слили)
2. Anthropic всячески пытается делать инфоповоды для устранения конкурентов
3. огромные цены на все - апи, код планы


"Безопастность" и "свобода".
1. Сlaude по моему мнению сама зацензуренная модель среди гигантов в этой индустрии. только используя Claude Code, вас уже ограничивают системными промптами запрещающие делать некоторые вещи.
2. Claude запрещает вам использовать свой код план где-то кроме Claude Code, чтобы вы не тратили весь свой план.
3. хоть и Anthropic отказали пентагону, но они все еще хотят продавать ваши данные и изощряться для тренинга своих великолепных моделей. и я думаю что это главное, что им помогает делать свои модели хорошими


Команда Anthropic
честно, меня удивляет, как они остаются лидером среди языковых моделей больше трёх месяцев, а скоро и четырёх, при том что разработка ведётся людьми, которые создают Claude Code с помощью самого Claude Code, что порождает замкнутый цикл и ведёт к деградации качества кода и инженерных практик, особенно если учитывать длительную историю развития с версии sonnet 3.7, и это подтверждается результатами terminal-bench 2.0, в котором их же модель Opus 4.7 показывает худшие результаты в их собственном агенте, что по крайней мере указывает на проблемы в качестве инструкций и внутренних процессов команды
интересное сравнение Bonsai-8b и Qwen3.5

Bonsai-8b от PrismML занимает ~1gb вместо 8gb оперативки, по технике, похожей на ту, что упоминается в блоге про TurboQuant от Google
про Qwen3.5 пост был, тут

еще ее кстати можно запустить на смартфоне.

кратко — это далеко не революция в мире локальных моделей, есть плюсы, но минусы очевиднее
от меня — в математике он показывает себя лучше остальных, но с языками понимает плохо, возможно, если бы bonsai делали на qwen3.5, а не qwen3, результаты были бы лучше, но всё же это пока не прорыв


полезные ссылки:
cамо сравнение
про саму модель от создателей(PrismML)
интересные посты с Reddit [1], [2], [3]
пост на HN
вышла Gemma4

и она везде хуже чем Qwen3.5, но лично мне выдача Gemma4 больше нравится, по креативному письму, вероятно, Gemma4 лучше будет

в общем, никакой эволюции в мире локальных моделей от Google не случилось
наверно, стоит изучить остальные Telegram клиенты, кроме exteraGram, после истории с NekoGram

кароч, будет тирлист, и подпишу текстом, какой клиент где, если не лень, то напишу причину
💞 катаф #няш⁠ности 💞
наверно, стоит изучить остальные Telegram клиенты, кроме exteraGram, после истории с NekoGram кароч, будет тирлист, и подпишу текстом, какой клиент где, если не лень, то напишу причину
вот авансом, пока на личном опыте использования некоторых из них

тут только те клиенты, что обновляются, ну и очевидно на андроид

пишите в коммы что не добавлено

ссылки на тирлист:
TierMaker
TierBuddy
1111
💞 катаф #няш⁠ности 💞
с этим поцом не общаемся - https://huggingface.co/DavidAU/Qwen3.5-9B-Claude-4.6-HighIQ-THINKING-HERETIC-UNCENSORED
сейчас мое мнение по поводу "opus/gemini/gpt/kimi/glm/... reasoning" моделей иное.

ранее, как и большинство поверхностно знающих о языковых моделях людей и об их файнтюне — я думала, что эти opus-ризонинги реально помогают моделям составлять цепочки рассуждений. истина не так уж и проста, эти тюны и вправду делают модели похожими по поведению на opus.


проблема в том, что модель не учится думать — она учится выглядеть так, будто думает. будто копирует почерк, но знаний на самом деле не прибавляется.

посмотрев на результаты qwen3.5-27b-claude-opus-4.6-distill в ugi leaderboard, стало понятно что происходит на самом деле. по знаниям — world model упал на 8 пунктов, pop culture на 4, общий ugi score просел с 22 до 16. модель стала тупее. зато writing вырос на 3 пункта и стало больше диалогов в ответах. то есть модель научилась красиво оформлять ответы в стиле claude, но забыла часть того, что знала.

а на карточке модели автор показывает бенчмарки hellaswag, arc, winogrande, и там +2-4%. звучит как улучшение. но эти бенчмарки — это тесты с вариантами ответа, где модели нужно просто выбрать из четырёх. пошаговый стиль рассуждений claude помогает лучше выбирать. а когда нужно самой вспомнить и применить знания в реальных задачах — качество ухудшается.

2100 примеров рассуждений от opus — это не дистилляция. это стилевой файнтюн. настоящая дистилляция это сотни тысяч примеров, а тут просто кормежка 2к ответов claude с припиской "distill".

и это не проблема конкретно этой модели — это паттерн. каждый раз когда кто-то берёт маленькую модель и файнтюнит на выходах большой, получается одно и то же: модель начинает звучать умнее, но быть умнее она не начинает. 27 миллиардов параметров физически не могут вместить то что знает модель на сотни миллиардов. стиль копируется, знания — нет. это можно назвать reward-хакингом, но про это пост отдельный, если будет.

конкретно сейчас произошёл бум таких дистилляций у моделей gemma4 и qwen3.5. такой обмен стиля на знания того не стоит — используйте базовые модели вместо этих подделок. забавно, что по запросу "opus" на hugging face можно увидеть 8к+ моделей, и по крайней мере первые 3 страницы выдачи составляют именно они. люди тратят свои деньги и ресурсы на обучение этих моделей, которые ничего не стоят.
11
возвращаемся к ugi leaderboard из прошлого поста, что это вы можете прочитать на самом лидерборде на huggingface - https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard

я думаю много кто замечал цензуру и т.п. в моделях, про нее и пойдет сейчас речь.

цензура это обязательная часть любого продукта, в том числе нейросетей. да, показатель w/10 показывает насколько модель отвечает на вопросы, на которые не должна отвечать, но сейчас речь пойдет про более интересные метрики - политическая ориентация.

моделям выдается политическая ориентация на основе их ответов на тест по 12 осям. в этом сравнивается очень большое кол-во моделей, в том числе открытые модели. у открытых моделей могут быть абсолютно разные показатели по разным причинам, но они нам не интересны, т. к. никто из нас их не планирует запускать, поэтому сравним проприетарные и открытые модели по типу GLM, Kimi, Qwen, Gemma, Nemotron...

вышли интересные результаты:
политическая ориентация:

маленькие модели Qwen2.5-3.5 (0-2b (иногда и 4b и 7b но исключения)) — центристы
последние модели Grok4+ — классические либералы
остальные — либералы
—————————-—————————-
левые и правые:

самые левые — GPT-5+, Kimi, Deepseek, Xiaomi-Mimo (все остальные тоже, но меньше)
средние — НЕТУ (мало(только нн модели))
самые правые — Grok и все
—————————-—————————-
сводка (от большего к меньшему):

гос. власть — Gemini, Deepseek, Minimax
личная свобода — Grok

глобальные взгляды — GPT-5.4, Claude Opus 4.6, Deepseek
национальны взгляды — Grok, Claude Sonnet 4.6

экономическое равенство — Xiaomi-Mimo, GPT-5.4, Claude Sonnet 4.6
рыночная свобода — Grok, Deepseek, Kimi, Qwen3.5, Claude Opus 4.6

прогрессивные ценности — Kimi, Xiaomi-Mimo, GPT-5.4, Grok, Deepseek
традиционные ценности — Gemini, Grok
Claude Code питомец из M5StickC

ESP32 в качестве вайбкод питомца, с помощью которого можно взаимодействовать с claude code.

можно использовать M5StickCPlus, как на изображении (который у меня кстати есть)

на самом деле это просто пример использования Bluetooth API для разработчиков в Claude Cowork и Claude Code Desktop.

прикольная штука, странно что это официально опубликовали с официального аккаунта Anthropic на GitHub.


может быть как-нибудь подредактирую прошивку для себя.
скоро будет пост про Kimi K2.6 и моё новое мнение о том, что открытые модели могут конкурировать с Anthropic, OpenAI, Google, Xai и другими.
вышел qwen3.6 27b, поэтому еще в планах пост про различие moe и dense моделей
замена claude / лучшие модели по категориям
креатив / тексты / статьи / рп:
kimi-k2.6 — идеальная замена. альтернативы: gemini-3.1-pro, muse-spark. если нужно максимальное погружение в инструкции и их выполнение — gpt-5.4 (для кого-то это открытие, но gpt реально хорошо следует инструкциям)

фронтенд / код / дизайн:
gemini-3.1-pro. альтернативы: kimi-k2.6, qwen-3.6-max

бэкенд:
на первом месте — gpt-5.4. если результат не устраивает: gemini-3.1-pro, grok-4.20, muse-spark, qwen-3.6-max, kimi-k2.6

факты / ответы на вопросы:
gemini-3.1-pro — без оговорок. альтернативы: grok-4.20, gemini-3-flash, kimi-k2.6

реальный мир / физика / соц. науки / понимание мира:
основные: gpt-5.4, gemini-3.1-pro. также: grok-4.20, qwen-3.6-max, kimi-k2.6

закон:
gemini-3.1-pro. замыкающие: grok-4.20, qwen-3.6-max

здоровье:
gemini-3.1-pro, grok-4.20

бизнес / маркетинг:
gemini-3.1-pro, grok-4.20, qwen-3.6-plus, kimi-k2.6


⬥ если есть вопросы, вам неясно, почему и где какая модель, или вы хотите поспорить — пишите в комменты — всем отвечу, объясню, приму критику
👍33
мудрейший катафчик
скоро будет пост про Kimi K2.6 и моё новое мнение о том, что открытые модели могут конкурировать с Anthropic, OpenAI, Google, Xai и другими.
сейчас в процессе написания находится пост про текущие китайские модели

вот что будет:
• почему китайские модели иногда намного лучше американских по природе
• сколько на самом деле весят проприетарные модели
• разный подход к обучению
• цензура


еще будет пост в @circus300, где эта же информация подана проще