мудрейший катафчик

будет, но не сейчас

размышлял еще над ситуацией в мире нейросетей и придумал интересную идею - написать несколько возможно глупых предсказаний, которые будут зашифрованы. они будут расшифрованы после того, как сбудутся. если не сбудутся - не будут расшифрованы, но я обязательно сообщу об этом

вот предсказания:

1. самое вероятное
2. вполне возможно
3. хотелось бы, чтобы это было правдой, и это было бы логично, если бы не тупость людей

AES-256, ECB, PKCS5Padding; key - hex; hash - hex

BC2C50BE340C93E34A3D2D97CB12ED48A25A30CF8426143E61F5C59A2E8F2A385E3AE4ABFC103429101D7112DC800BD75127675240B46EB1B5780169C51087D3270D4894915BC171B56EE8078BFE869F3DBC516A8B31C8988586CCD3CB416C7D76D3FFEC1CAF020F0100B6E50CA3398D215EC16076EADB7EDC09C862B2B7B44BBEB2700A8F4579C0549E4A5EF37A4791E7928AB8851D5DFFAC65EB2E4994DFB83A33E521CD02A5C8F2DD1671F6026FD7

F0FE464CE37DACC84F985A4CB40227AC5D9E4A87B36F84D0972C3BF98BD08D09B84A27C4ED4CB5975EF4F93DBD408611D8776EB732A8AAB9C6528DCD3F4D1DF2951952A824AF93747E540D38C1C7EA26

866845AB1A440712488EF1242F573B2BD7087D1999915DCE60D0409A127FE28168CCF2E7D3D62A563D055034A8458F5562E3E801CD8922154E96760BD2D5EBDAEDF22B1DCBC2D7DD2FF4A54247E2EF05

данный пост не будет изменятся для чистоты эксперимента

142 viewsкатаф #няшности, 12:56

мудрейший катафчик

с прошедшим восьмым марта!!!🥰

148 viewsкатаф #няшности, 13:08

мудрейший катафчик

159 viewsкатаф #няшности, 10:46

мудрейший катафчик

Телега

На связи команда Телеги

Скоро Катаф выпустит плагин для нашего конкурента exteraGram:

Мы продолжаем расширять аудиторию нашей альтернативы Telegram для вас. Понимаем, что уже писали об этом, но усиление требует времени.

• C помощью него вы, используя другое приложение, сможете узнать, использует ли ваш собеседник наш мессенджер — Telega.
• Плагин будет добавлять специальную иконку возле имени пользователя, которая будет обозначать что пользователь использует Телегу.

Спасибо за понимание и поддержку!

❤2

146 viewsкатаф #няшности, edited 02:20

мудрейший катафчик

наверна пора.

Anthropic одна из самых жадных компаний в сфере ии, например:

1. отсутствие open source моделей и продуктов в целом (даже claude code с закрытым кодом, который недавно слили)
2. Anthropic всячески пытается делать инфоповоды для устранения конкурентов
3. огромные цены на все - апи, код планы

"Безопастность" и "свобода".

1. Сlaude по моему мнению сама зацензуренная модель среди гигантов в этой индустрии. только используя Claude Code, вас уже ограничивают системными промптами запрещающие делать некоторые вещи.
2. Claude запрещает вам использовать свой код план где-то кроме Claude Code, чтобы вы не тратили весь свой план.
3. хоть и Anthropic отказали пентагону, но они все еще хотят продавать ваши данные и изощряться для тренинга своих великолепных моделей. и я думаю что это главное, что им помогает делать свои модели хорошими

Команда Anthropic

честно, меня удивляет, как они остаются лидером среди языковых моделей больше трёх месяцев, а скоро и четырёх, при том что разработка ведётся людьми, которые создают Claude Code с помощью самого Claude Code, что порождает замкнутый цикл и ведёт к деградации качества кода и инженерных практик, особенно если учитывать длительную историю развития с версии sonnet 3.7, и это подтверждается результатами terminal-bench 2.0, в котором их же модель Opus 4.7 показывает худшие результаты в их собственном агенте, что по крайней мере указывает на проблемы в качестве инструкций и внутренних процессов команды

77 viewsбалбеска катаф #няшности, 10:52

мудрейший катафчик

интересное сравнение Bonsai-8b и Qwen3.5

Bonsai-8b от PrismML занимает ~1gb вместо 8gb оперативки, по технике, похожей на ту, что упоминается в блоге про TurboQuant от Google
про Qwen3.5 пост был, тут

еще ее кстати можно запустить на смартфоне.

кратко — это далеко не революция в мире локальных моделей, есть плюсы, но минусы очевиднее
от меня — в математике он показывает себя лучше остальных, но с языками понимает плохо, возможно, если бы bonsai делали на qwen3.5, а не qwen3, результаты были бы лучше, но всё же это пока не прорыв

полезные ссылки:

cамо сравнение
про саму модель от создателей(PrismML)
интересные посты с Reddit [1], [2], [3]
пост на HN

86 viewsбалбеска катаф #няшности, edited 11:43

мудрейший катафчик

вышла Gemma4

и она везде хуже чем Qwen3.5, но лично мне выдача Gemma4 больше нравится, по креативному письму, вероятно, Gemma4 лучше будет

в общем, никакой эволюции в мире локальных моделей от Google не случилось

104 viewsбалбеска катаф #няшности, edited 12:16

мудрейший катафчик

наверно, стоит изучить остальные Telegram клиенты, кроме exteraGram, после истории с NekoGram

кароч, будет тирлист, и подпишу текстом, какой клиент где, если не лень, то напишу причину

111 viewsбалбеска катаф #няшности, 12:37

мудрейший катафчик

⁠💞 катаф #няш⁠ности 💞

наверно, стоит изучить остальные Telegram клиенты, кроме exteraGram, после истории с NekoGram кароч, будет тирлист, и подпишу текстом, какой клиент где, если не лень, то напишу причину

вот авансом, пока на личном опыте использования некоторых из них

тут только те клиенты, что обновляются, ну и очевидно на андроид

пишите в коммы что не добавлено

ссылки на тирлист:
TierMaker
TierBuddy

❤1111

106 viewsedited 04:52

мудрейший катафчик

https://github.com/google-ai-edge/gallery

GitHub

GitHub - google-ai-edge/gallery: A gallery that showcases on-device ML/GenAI use cases and allows people to try and use models…

A gallery that showcases on-device ML/GenAI use cases and allows people to try and use models locally. - google-ai-edge/gallery

104 views14:51

мудрейший катафчик

вот авансом, пока на личном опыте использования некоторых из них тут только те клиенты, что обновляются, ну и очевидно на андроид пишите в коммы что не добавлено ссылки на тирлист: TierMaker TierBuddy

думаю чериграм можно и в мусор — https://github.com/arsLan4k1390/Cherrygram/commit/56d2337179a6ae2f967498a48fe9cc69e9f1de07#commitcomment-181425680

GitHub

Remove UNUSED function of dev builds · arsLan4k1390/Cherrygram@56d2337

Contribute to arsLan4k1390/Cherrygram development by creating an account on GitHub.

111 views06:58

мудрейший катафчик

⁠💞 катаф #няш⁠ности 💞

с этим поцом не общаемся - https://huggingface.co/DavidAU/Qwen3.5-9B-Claude-4.6-HighIQ-THINKING-HERETIC-UNCENSORED

сейчас мое мнение по поводу "opus/gemini/gpt/kimi/glm/... reasoning" моделей иное.

ранее, как и большинство поверхностно знающих о языковых моделях людей и об их файнтюне — я думала, что эти opus-ризонинги реально помогают моделям составлять цепочки рассуждений. истина не так уж и проста, эти тюны и вправду делают модели похожими по поведению на opus.

проблема в том, что модель не учится думать — она учится выглядеть так, будто думает. будто копирует почерк, но знаний на самом деле не прибавляется.

посмотрев на результаты qwen3.5-27b-claude-opus-4.6-distill в ugi leaderboard, стало понятно что происходит на самом деле. по знаниям — world model упал на 8 пунктов, pop culture на 4, общий ugi score просел с 22 до 16. модель стала тупее. зато writing вырос на 3 пункта и стало больше диалогов в ответах. то есть модель научилась красиво оформлять ответы в стиле claude, но забыла часть того, что знала.

а на карточке модели автор показывает бенчмарки hellaswag, arc, winogrande, и там +2-4%. звучит как улучшение. но эти бенчмарки — это тесты с вариантами ответа, где модели нужно просто выбрать из четырёх. пошаговый стиль рассуждений claude помогает лучше выбирать. а когда нужно самой вспомнить и применить знания в реальных задачах — качество ухудшается.

2100 примеров рассуждений от opus — это не дистилляция. это стилевой файнтюн. настоящая дистилляция это сотни тысяч примеров, а тут просто кормежка 2к ответов claude с припиской "distill".

и это не проблема конкретно этой модели — это паттерн. каждый раз когда кто-то берёт маленькую модель и файнтюнит на выходах большой, получается одно и то же: модель начинает звучать умнее, но быть умнее она не начинает. 27 миллиардов параметров физически не могут вместить то что знает модель на сотни миллиардов. стиль копируется, знания — нет. это можно назвать reward-хакингом, но про это пост отдельный, если будет.

конкретно сейчас произошёл бум таких дистилляций у моделей gemma4 и qwen3.5. такой обмен стиля на знания того не стоит — используйте базовые модели вместо этих подделок. забавно, что по запросу "opus" на hugging face можно увидеть 8к+ моделей, и по крайней мере первые 3 страницы выдачи составляют именно они. люди тратят свои деньги и ресурсы на обучение этих моделей, которые ничего не стоят.

137 views01:48

мудрейший катафчик

huggingface.co

UGI Leaderboard - a Hugging Face Space by DontPlanToEnd

Uncensored General Intelligence Leaderboard

возвращаемся к ugi leaderboard из прошлого поста, что это вы можете прочитать на самом лидерборде на huggingface - https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard

я думаю много кто замечал цензуру и т.п. в моделях, про нее и пойдет сейчас речь.

цензура это обязательная часть любого продукта, в том числе нейросетей. да, показатель w/10 показывает насколько модель отвечает на вопросы, на которые не должна отвечать, но сейчас речь пойдет про более интересные метрики - политическая ориентация.

моделям выдается политическая ориентация на основе их ответов на тест по 12 осям. в этом сравнивается очень большое кол-во моделей, в том числе открытые модели. у открытых моделей могут быть абсолютно разные показатели по разным причинам, но они нам не интересны, т. к. никто из нас их не планирует запускать, поэтому сравним проприетарные и открытые модели по типу GLM, Kimi, Qwen, Gemma, Nemotron...

вышли интересные результаты:

политическая ориентация:

маленькие модели Qwen2.5-3.5 (0-2b (иногда и 4b и 7b но исключения)) — центристы
последние модели Grok4+ — классические либералы
остальные — либералы
—————————-—————————-
левые и правые:

самые левые — GPT-5+, Kimi, Deepseek, Xiaomi-Mimo (все остальные тоже, но меньше)
средние — НЕТУ (мало(только нн модели))
самые правые — Grok и все
—————————-—————————-
сводка (от большего к меньшему):

гос. власть — Gemini, Deepseek, Minimax
личная свобода — Grok

глобальные взгляды — GPT-5.4, Claude Opus 4.6, Deepseek
национальны взгляды — Grok, Claude Sonnet 4.6

экономическое равенство — Xiaomi-Mimo, GPT-5.4, Claude Sonnet 4.6
рыночная свобода — Grok, Deepseek, Kimi, Qwen3.5, Claude Opus 4.6

прогрессивные ценности — Kimi, Xiaomi-Mimo, GPT-5.4, Grok, Deepseek
традиционные ценности — Gemini, Grok

141 views12:35

мудрейший катафчик

Claude Code питомец из M5StickC

ESP32 в качестве вайбкод питомца, с помощью которого можно взаимодействовать с claude code.

можно использовать M5StickCPlus, как на изображении (который у меня кстати есть)

на самом деле это просто пример использования Bluetooth API для разработчиков в Claude Cowork и Claude Code Desktop.

прикольная штука, странно что это официально опубликовали с официального аккаунта Anthropic на GitHub.

может быть как-нибудь подредактирую прошивку для себя.

153 views06:47

мудрейший катафчик

скоро будет пост про Kimi K2.6 и моё новое мнение о том, что открытые модели могут конкурировать с Anthropic, OpenAI, Google, Xai и другими.

156 viewsedited 07:28

мудрейший катафчик

вышел qwen3.6 27b, поэтому еще в планах пост про различие moe и dense моделей

161 views13:33

мудрейший катафчик

замена claude / лучшие модели по категориям

креатив / тексты / статьи / рп:
kimi-k2.6 — идеальная замена. альтернативы: gemini-3.1-pro, muse-spark. если нужно максимальное погружение в инструкции и их выполнение — gpt-5.4 (для кого-то это открытие, но gpt реально хорошо следует инструкциям)

фронтенд / код / дизайн:
gemini-3.1-pro. альтернативы: kimi-k2.6, qwen-3.6-max

бэкенд:
на первом месте — gpt-5.4. если результат не устраивает: gemini-3.1-pro, grok-4.20, muse-spark, qwen-3.6-max, kimi-k2.6

факты / ответы на вопросы:
gemini-3.1-pro — без оговорок. альтернативы: grok-4.20, gemini-3-flash, kimi-k2.6

реальный мир / физика / соц. науки / понимание мира:
основные: gpt-5.4, gemini-3.1-pro. также: grok-4.20, qwen-3.6-max, kimi-k2.6

закон:
gemini-3.1-pro. замыкающие: grok-4.20, qwen-3.6-max

здоровье:
gemini-3.1-pro, grok-4.20

бизнес / маркетинг:
gemini-3.1-pro, grok-4.20, qwen-3.6-plus, kimi-k2.6

⬥ если есть вопросы, вам неясно, почему и где какая модель, или вы хотите поспорить — пишите в комменты — всем отвечу, объясню, приму критику

👍33

212 viewsedited 12:46

мудрейший катафчик

сейчас в процессе написания находится пост про текущие китайские модели

вот что будет:

• почему китайские модели иногда намного лучше американских по природе
• сколько на самом деле весят проприетарные модели
• разный подход к обучению
• цензура

еще будет пост в @circus300, где эта же информация подана проще

87 views12:19

мудрейший катафчик

сейчас в процессе написания находится пост про текущие китайские модели вот что будет: • почему китайские модели иногда намного лучше американских по природе • сколько на самом деле весят проприетарные модели • разный подход к обучению • цензура еще будет…

пост в основном про 3 модели : Kimi-K2.6, Deepseek-V4-Pro, MiMo-V2.5-Pro (немного про GLM-5.1 и Minimax-M2.7).

у каждой из них свыше триллиона параметров — это около 2 терабайт, если говорить про вес. по моему мнению это лучшее что есть в открытом доступе, а в ряде задач они объективно сильнее gpt-5.5 и claude-opus-4.7. при этом параметров у проприетарных моделей на самом деле примерно столько же — в ~1-6 раз больше.

вот таблица с примерным количеством параметров проприетарных моделей. составлена на основе arxiv с поправками из lesswrong:

• gemini-3.1-pro — 4.65t
• gemini-3-flash — 2.53t
• gpt-5.5 — 1.46t
• gpt-5 — 1.33t
• opus-4.7 — 1.13t
• grok-4.20 — 0.77t
• sonnet-4.6 — 0.66t
• grok-4.3 — 0.5t

со второй половины 2025 и до сих пор закрытые модели не показали большого отрыва от открытых — хотя у американских компаний намного больше вычислительных мощностей и исследовательских ресурсов. разрыв на бенчмарках в среднем ~10%. claude и gpt иногда лучше в реальной работе, но ошибочно думать, что все китайцы фокусируются на бенчмарках.

не стоит доверять ни бенчмаркам, ни маркетингу закрытых моделей. впрочем, доверять китайцам, которые публикуют не только размер, но и процесс обучения, тоже не стоит — реальную информацию по делу они пишут не всегда. на данный момент самая прозрачная команда — это deepseek-v4, тут без вопросов. на втором месте kimi. у glm и qwen дела тоже неплохи. у mimo стратегия догоняющая, а вот у minimax всё не очень — модель плохо справляется с задачами, которые не заточены на кодинг, хардкодит ответы и имитирует формат. как многие замечают, minimax — довольно небольшая модель, но баллы на бенчмарках набирает уверенно. на самом деле для своего веса в 230b параметров база знаний у неё маленькая: даже не вместила гимн россии, в то время как куда более скромная gemma4 на 31b параметров запросто выдаёт точный текст.

я без исключений рекомендую попробовать китайские модели всем, кто раньше пользовался только закрытыми — а именно claude, gpt, gemini.

почему? у китайских моделей принципиально другой процесс обучения. именно из-за этого они в ряде задач справляются лучше.

а теперь про сами модели:

kimi-k2.6 хорошо ориентируется в мире благодаря knowledge data rephrasing — обучению, при котором факт из датасета не просто скармливается модели, а переписывается в разных стилях. за счёт этого kimi неплохо решает задачи, требующие осознания фактов, и по той же причине хорошо следует инструкциям.

deepseek-v4-pro хорошо пишет креативный текст. но в отличие от claude, в процессе обучения deepseek генерирует несколько вариантов решения и прогоняет тесты — лучшие идут в плюс, худшие в минус. поэтому модель может хорошо оптимизировать архитектуру вашего проекта — лучше чем тот же claude, который награждается за самый правильный, безопасный и подходящий ответ. так же устроены и остальные американские модели: их учат тому, как должен выглядеть правильный ответ. а deepseek учат другому — как пройти несколько тестов и остаться с правильным решением.

mimo-v2.5-pro использует уникальную пост-тренинг парадигму mopd. в ней модель учится у нескольких «учителей» одновременно, причём награду получает на каждом токене, а не только за финальный результат. на части бенчмарков модель входит в топ-3 после gpt и claude.

стоит упомянуть и glm-5.1 как хорошую модель — хотя чувства к ней смешанные. как мне кажется, glm тренируют на бенчмарках, хоть прямых доказательств этому и нет. впрочем, в мире модель ориентируется хорошо, как и kimi — где-то обходит её, где-то уступает.

67 viewsedited 10:54

About

Blog

Apps

Platform