будет, но не сейчас
размышлял еще над ситуацией в мире нейросетей и придумал интересную идею - написать несколько возможно глупых предсказаний, которые будут зашифрованы. они будут расшифрованы после того, как сбудутся. если не сбудутся - не будут расшифрованы, но я обязательно сообщу об этом
вот предсказания:
1. самое вероятное
2. вполне возможно
3. хотелось бы, чтобы это было правдой, и это было бы логично, если бы не тупость людей
AES-256, ECB, PKCS5Padding; key - hex; hash - hex
данный пост не будет изменятся для чистоты эксперимента
размышлял еще над ситуацией в мире нейросетей и придумал интересную идею - написать несколько возможно глупых предсказаний, которые будут зашифрованы. они будут расшифрованы после того, как сбудутся. если не сбудутся - не будут расшифрованы, но я обязательно сообщу об этом
вот предсказания:
1. самое вероятное
2. вполне возможно
3. хотелось бы, чтобы это было правдой, и это было бы логично, если бы не тупость людей
AES-256, ECB, PKCS5Padding; key - hex; hash - hex
BC2C50BE340C93E34A3D2D97CB12ED48A25A30CF8426143E61F5C59A2E8F2A385E3AE4ABFC103429101D7112DC800BD75127675240B46EB1B5780169C51087D3270D4894915BC171B56EE8078BFE869F3DBC516A8B31C8988586CCD3CB416C7D76D3FFEC1CAF020F0100B6E50CA3398D215EC16076EADB7EDC09C862B2B7B44BBEB2700A8F4579C0549E4A5EF37A4791E7928AB8851D5DFFAC65EB2E4994DFB83A33E521CD02A5C8F2DD1671F6026FD7
F0FE464CE37DACC84F985A4CB40227AC5D9E4A87B36F84D0972C3BF98BD08D09B84A27C4ED4CB5975EF4F93DBD408611D8776EB732A8AAB9C6528DCD3F4D1DF2951952A824AF93747E540D38C1C7EA26
866845AB1A440712488EF1242F573B2BD7087D1999915DCE60D0409A127FE28168CCF2E7D3D62A563D055034A8458F5562E3E801CD8922154E96760BD2D5EBDAEDF22B1DCBC2D7DD2FF4A54247E2EF05
данный пост не будет изменятся для чистоты эксперимента
Телега
На связи команда Телеги
Скоро Катаф выпустит плагин для нашего конкурента exteraGram:
Мы продолжаем расширять аудиторию нашей альтернативы Telegram для вас. Понимаем, что уже писали об этом, но усиление требует времени.
Спасибо за понимание и поддержку!
Мы продолжаем расширять аудиторию нашей альтернативы Telegram для вас. Понимаем, что уже писали об этом, но усиление требует времени.
• C помощью него вы, используя другое приложение, сможете узнать, использует ли ваш собеседник наш мессенджер — Telega.
• Плагин будет добавлять специальную иконку возле имени пользователя, которая будет обозначать что пользователь использует Телегу.
Спасибо за понимание и поддержку!
❤2
наверна пора.
Anthropic одна из самых жадных компаний в сфере ии, например:
"Безопастность" и "свобода".
Команда Anthropic
Anthropic одна из самых жадных компаний в сфере ии, например:
1. отсутствие open source моделей и продуктов в целом(даже claude code с закрытым кодом, который недавно слили)
2. Anthropic всячески пытается делать инфоповоды для устранения конкурентов
3. огромные цены на все - апи, код планы
"Безопастность" и "свобода".
1. Сlaude по моему мнению сама зацензуренная модель среди гигантов в этой индустрии. только используя Claude Code, вас уже ограничивают системными промптами запрещающие делать некоторые вещи.
2. Claude запрещает вам использовать свой код план где-то кроме Claude Code, чтобы вы не тратили весь свой план.
3. хоть и Anthropic отказали пентагону, но они все еще хотят продавать ваши данные и изощряться для тренинга своих великолепных моделей. и я думаю что это главное, что им помогает делать свои модели хорошими
Команда Anthropic
честно, меня удивляет, как они остаются лидером среди языковых моделей больше трёх месяцев, а скоро и четырёх, при том что разработка ведётся людьми, которые создают Claude Code с помощью самого Claude Code, что порождает замкнутый цикл и ведёт к деградации качества кода и инженерных практик, особенно если учитывать длительную историю развития с версии sonnet 3.7, и это подтверждается результатами terminal-bench 2.0, в котором их же модель Opus 4.7 показывает худшие результаты в их собственном агенте, что по крайней мере указывает на проблемы в качестве инструкций и внутренних процессов команды
интересное сравнение Bonsai-8b и Qwen3.5
Bonsai-8b от PrismML занимает ~1gb вместо 8gb оперативки, по технике, похожей на ту, что упоминается в блоге про TurboQuant от Google
про Qwen3.5 пост был, тут
еще ее кстати можно запустить на смартфоне.
кратко — это далеко не революция в мире локальных моделей, есть плюсы, но минусы очевиднее
от меня — в математике он показывает себя лучше остальных, но с языками понимает плохо, возможно, если бы bonsai делали на qwen3.5, а не qwen3, результаты были бы лучше, но всё же это пока не прорыв
полезные ссылки:
Bonsai-8b от PrismML занимает ~1gb вместо 8gb оперативки, по технике, похожей на ту, что упоминается в блоге про TurboQuant от Google
про Qwen3.5 пост был, тут
еще ее кстати можно запустить на смартфоне.
кратко — это далеко не революция в мире локальных моделей, есть плюсы, но минусы очевиднее
от меня — в математике он показывает себя лучше остальных, но с языками понимает плохо, возможно, если бы bonsai делали на qwen3.5, а не qwen3, результаты были бы лучше, но всё же это пока не прорыв
полезные ссылки:
cамо сравнение
про саму модель от создателей(PrismML)
интересные посты с Reddit [1], [2], [3]
пост на HN
наверно, стоит изучить остальные Telegram клиенты, кроме exteraGram, после истории с NekoGram
кароч, будет тирлист, и подпишу текстом, какой клиент где, если не лень, то напишу причину
кароч, будет тирлист, и подпишу текстом, какой клиент где, если не лень, то напишу причину
💞 катаф #няшности 💞
наверно, стоит изучить остальные Telegram клиенты, кроме exteraGram, после истории с NekoGram кароч, будет тирлист, и подпишу текстом, какой клиент где, если не лень, то напишу причину
вот авансом, пока на личном опыте использования некоторых из них
тут только те клиенты, что обновляются, ну и очевидно на андроид
пишите в коммы что не добавлено
ссылки на тирлист:
TierMaker
TierBuddy
тут только те клиенты, что обновляются, ну и очевидно на андроид
пишите в коммы что не добавлено
ссылки на тирлист:
TierMaker
TierBuddy
❤1 1 1 1
мудрейший катафчик
вот авансом, пока на личном опыте использования некоторых из них тут только те клиенты, что обновляются, ну и очевидно на андроид пишите в коммы что не добавлено ссылки на тирлист: TierMaker TierBuddy
думаю чериграм можно и в мусор — https://github.com/arsLan4k1390/Cherrygram/commit/56d2337179a6ae2f967498a48fe9cc69e9f1de07#commitcomment-181425680
GitHub
Remove UNUSED function of dev builds · arsLan4k1390/Cherrygram@56d2337
Contribute to arsLan4k1390/Cherrygram development by creating an account on GitHub.
💞 катаф #няшности 💞
с этим поцом не общаемся - https://huggingface.co/DavidAU/Qwen3.5-9B-Claude-4.6-HighIQ-THINKING-HERETIC-UNCENSORED
сейчас мое мнение по поводу "opus/gemini/gpt/kimi/glm/... reasoning" моделей иное.
проблема в том, что модель не учится думать — она учится выглядеть так, будто думает. будто копирует почерк, но знаний на самом деле не прибавляется.
посмотрев на результаты qwen3.5-27b-claude-opus-4.6-distill в ugi leaderboard, стало понятно что происходит на самом деле. по знаниям — world model упал на 8 пунктов, pop culture на 4, общий ugi score просел с 22 до 16. модель стала тупее. зато writing вырос на 3 пункта и стало больше диалогов в ответах. то есть модель научилась красиво оформлять ответы в стиле claude, но забыла часть того, что знала.
а на карточке модели автор показывает бенчмарки hellaswag, arc, winogrande, и там +2-4%. звучит как улучшение. но эти бенчмарки — это тесты с вариантами ответа, где модели нужно просто выбрать из четырёх. пошаговый стиль рассуждений claude помогает лучше выбирать. а когда нужно самой вспомнить и применить знания в реальных задачах — качество ухудшается.
2100 примеров рассуждений от opus — это не дистилляция. это стилевой файнтюн. настоящая дистилляция это сотни тысяч примеров, а тут просто кормежка 2к ответов claude с припиской "distill".
и это не проблема конкретно этой модели — это паттерн. каждый раз когда кто-то берёт маленькую модель и файнтюнит на выходах большой, получается одно и то же: модель начинает звучать умнее, но быть умнее она не начинает. 27 миллиардов параметров физически не могут вместить то что знает модель на сотни миллиардов. стиль копируется, знания — нет. это можно назвать reward-хакингом, но про это пост отдельный, если будет.
конкретно сейчас произошёл бум таких дистилляций у моделей gemma4 и qwen3.5. такой обмен стиля на знания того не стоит — используйте базовые модели вместо этих подделок. забавно, что по запросу "opus" на hugging face можно увидеть 8к+ моделей, и по крайней мере первые 3 страницы выдачи составляют именно они. люди тратят свои деньги и ресурсы на обучение этих моделей, которые ничего не стоят.
ранее, как и большинство поверхностно знающих о языковых моделях людей и об их файнтюне — я думала, что эти opus-ризонинги реально помогают моделям составлять цепочки рассуждений. истина не так уж и проста, эти тюны и вправду делают модели похожими по поведению на opus.
проблема в том, что модель не учится думать — она учится выглядеть так, будто думает. будто копирует почерк, но знаний на самом деле не прибавляется.
посмотрев на результаты qwen3.5-27b-claude-opus-4.6-distill в ugi leaderboard, стало понятно что происходит на самом деле. по знаниям — world model упал на 8 пунктов, pop culture на 4, общий ugi score просел с 22 до 16. модель стала тупее. зато writing вырос на 3 пункта и стало больше диалогов в ответах. то есть модель научилась красиво оформлять ответы в стиле claude, но забыла часть того, что знала.
а на карточке модели автор показывает бенчмарки hellaswag, arc, winogrande, и там +2-4%. звучит как улучшение. но эти бенчмарки — это тесты с вариантами ответа, где модели нужно просто выбрать из четырёх. пошаговый стиль рассуждений claude помогает лучше выбирать. а когда нужно самой вспомнить и применить знания в реальных задачах — качество ухудшается.
2100 примеров рассуждений от opus — это не дистилляция. это стилевой файнтюн. настоящая дистилляция это сотни тысяч примеров, а тут просто кормежка 2к ответов claude с припиской "distill".
и это не проблема конкретно этой модели — это паттерн. каждый раз когда кто-то берёт маленькую модель и файнтюнит на выходах большой, получается одно и то же: модель начинает звучать умнее, но быть умнее она не начинает. 27 миллиардов параметров физически не могут вместить то что знает модель на сотни миллиардов. стиль копируется, знания — нет. это можно назвать reward-хакингом, но про это пост отдельный, если будет.
конкретно сейчас произошёл бум таких дистилляций у моделей gemma4 и qwen3.5. такой обмен стиля на знания того не стоит — используйте базовые модели вместо этих подделок. забавно, что по запросу "opus" на hugging face можно увидеть 8к+ моделей, и по крайней мере первые 3 страницы выдачи составляют именно они. люди тратят свои деньги и ресурсы на обучение этих моделей, которые ничего не стоят.
huggingface.co
UGI Leaderboard - a Hugging Face Space by DontPlanToEnd
Uncensored General Intelligence Leaderboard
возвращаемся к ugi leaderboard из прошлого поста, что это вы можете прочитать на самом лидерборде на huggingface - https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
я думаю много кто замечал цензуру и т.п. в моделях, про нее и пойдет сейчас речь.
цензура это обязательная часть любого продукта, в том числе нейросетей. да, показатель w/10 показывает насколько модель отвечает на вопросы, на которые не должна отвечать, но сейчас речь пойдет про более интересные метрики - политическая ориентация.
моделям выдается политическая ориентация на основе их ответов на тест по 12 осям. в этом сравнивается очень большое кол-во моделей, в том числе открытые модели. у открытых моделей могут быть абсолютно разные показатели по разным причинам, но они нам не интересны, т. к. никто из нас их не планирует запускать, поэтому сравним проприетарные и открытые модели по типу GLM, Kimi, Qwen, Gemma, Nemotron...
вышли интересные результаты:
я думаю много кто замечал цензуру и т.п. в моделях, про нее и пойдет сейчас речь.
цензура это обязательная часть любого продукта, в том числе нейросетей. да, показатель w/10 показывает насколько модель отвечает на вопросы, на которые не должна отвечать, но сейчас речь пойдет про более интересные метрики - политическая ориентация.
моделям выдается политическая ориентация на основе их ответов на тест по 12 осям. в этом сравнивается очень большое кол-во моделей, в том числе открытые модели. у открытых моделей могут быть абсолютно разные показатели по разным причинам, но они нам не интересны, т. к. никто из нас их не планирует запускать, поэтому сравним проприетарные и открытые модели по типу GLM, Kimi, Qwen, Gemma, Nemotron...
вышли интересные результаты:
политическая ориентация:
маленькие модели Qwen2.5-3.5 (0-2b (иногда и 4b и 7b но исключения)) — центристы
последние модели Grok4+ — классические либералы
остальные — либералы
—————————-—————————-
левые и правые:
самые левые — GPT-5+, Kimi, Deepseek, Xiaomi-Mimo (все остальные тоже, но меньше)
средние — НЕТУ (мало(только нн модели))
самые правые — Grok и все
—————————-—————————-
сводка (от большего к меньшему):
гос. власть — Gemini, Deepseek, Minimax
личная свобода — Grok
глобальные взгляды — GPT-5.4, Claude Opus 4.6, Deepseek
национальны взгляды — Grok, Claude Sonnet 4.6
экономическое равенство — Xiaomi-Mimo, GPT-5.4, Claude Sonnet 4.6
рыночная свобода — Grok, Deepseek, Kimi, Qwen3.5, Claude Opus 4.6
прогрессивные ценности — Kimi, Xiaomi-Mimo, GPT-5.4, Grok, Deepseek
традиционные ценности — Gemini, Grok
Claude Code питомец из M5StickC
может быть как-нибудь подредактирую прошивку для себя.
ESP32 в качестве вайбкод питомца, с помощью которого можно взаимодействовать с claude code.
можно использовать M5StickCPlus, как на изображении (который у меня кстати есть)
на самом деле это просто пример использования Bluetooth API для разработчиков в Claude Cowork и Claude Code Desktop.
прикольная штука, странно что это официально опубликовали с официального аккаунта Anthropic на GitHub.
может быть как-нибудь подредактирую прошивку для себя.
замена claude / лучшие модели по категориям
⬥ если есть вопросы, вам неясно, почему и где какая модель, или вы хотите поспорить — пишите в комменты — всем отвечу, объясню, приму критику
креатив / тексты / статьи / рп:
kimi-k2.6 — идеальная замена. альтернативы: gemini-3.1-pro, muse-spark. если нужно максимальное погружение в инструкции и их выполнение — gpt-5.4 (для кого-то это открытие, но gpt реально хорошо следует инструкциям)
фронтенд / код / дизайн:
gemini-3.1-pro. альтернативы: kimi-k2.6, qwen-3.6-max
бэкенд:
на первом месте — gpt-5.4. если результат не устраивает: gemini-3.1-pro, grok-4.20, muse-spark, qwen-3.6-max, kimi-k2.6
факты / ответы на вопросы:
gemini-3.1-pro — без оговорок. альтернативы: grok-4.20, gemini-3-flash, kimi-k2.6
реальный мир / физика / соц. науки / понимание мира:
основные: gpt-5.4, gemini-3.1-pro. также: grok-4.20, qwen-3.6-max, kimi-k2.6
закон:
gemini-3.1-pro. замыкающие: grok-4.20, qwen-3.6-max
здоровье:
gemini-3.1-pro, grok-4.20
бизнес / маркетинг:
gemini-3.1-pro, grok-4.20, qwen-3.6-plus, kimi-k2.6
⬥ если есть вопросы, вам неясно, почему и где какая модель, или вы хотите поспорить — пишите в комменты — всем отвечу, объясню, приму критику
👍3 3
мудрейший катафчик
скоро будет пост про Kimi K2.6 и моё новое мнение о том, что открытые модели могут конкурировать с Anthropic, OpenAI, Google, Xai и другими.
сейчас в процессе написания находится пост про текущие китайские модели
вот что будет:
еще будет пост в @circus300, где эта же информация подана проще
вот что будет:
• почему китайские модели иногда намного лучше американских по природе
• сколько на самом деле весят проприетарные модели
• разный подход к обучению
• цензура
еще будет пост в @circus300, где эта же информация подана проще
мудрейший катафчик
сейчас в процессе написания находится пост про текущие китайские модели вот что будет: • почему китайские модели иногда намного лучше американских по природе • сколько на самом деле весят проприетарные модели • разный подход к обучению • цензура еще будет…
пост в основном про 3 модели : Kimi-K2.6, Deepseek-V4-Pro, MiMo-V2.5-Pro (немного про GLM-5.1 и Minimax-M2.7).
у каждой из них свыше триллиона параметров — это около 2 терабайт, если говорить про вес. по моему мнению это лучшее что есть в открытом доступе, а в ряде задач они объективно сильнее gpt-5.5 и claude-opus-4.7. при этом параметров у проприетарных моделей на самом деле примерно столько же — в ~1-6 раз больше.
вот таблица с примерным количеством параметров проприетарных моделей. составлена на основе arxiv с поправками из lesswrong:
со второй половины 2025 и до сих пор закрытые модели не показали большого отрыва от открытых — хотя у американских компаний намного больше вычислительных мощностей и исследовательских ресурсов. разрыв на бенчмарках в среднем ~10%. claude и gpt иногда лучше в реальной работе, но ошибочно думать, что все китайцы фокусируются на бенчмарках.
не стоит доверять ни бенчмаркам, ни маркетингу закрытых моделей. впрочем, доверять китайцам, которые публикуют не только размер, но и процесс обучения, тоже не стоит — реальную информацию по делу они пишут не всегда. на данный момент самая прозрачная команда — это deepseek-v4, тут без вопросов. на втором месте kimi. у glm и qwen дела тоже неплохи. у mimo стратегия догоняющая, а вот у minimax всё не очень — модель плохо справляется с задачами, которые не заточены на кодинг, хардкодит ответы и имитирует формат. как многие замечают, minimax — довольно небольшая модель, но баллы на бенчмарках набирает уверенно. на самом деле для своего веса в 230b параметров база знаний у неё маленькая: даже не вместила гимн россии, в то время как куда более скромная gemma4 на 31b параметров запросто выдаёт точный текст.
я без исключений рекомендую попробовать китайские модели всем, кто раньше пользовался только закрытыми — а именно claude, gpt, gemini.
почему? у китайских моделей принципиально другой процесс обучения. именно из-за этого они в ряде задач справляются лучше.
а теперь про сами модели:
у каждой из них свыше триллиона параметров — это около 2 терабайт, если говорить про вес. по моему мнению это лучшее что есть в открытом доступе, а в ряде задач они объективно сильнее gpt-5.5 и claude-opus-4.7. при этом параметров у проприетарных моделей на самом деле примерно столько же — в ~1-6 раз больше.
вот таблица с примерным количеством параметров проприетарных моделей. составлена на основе arxiv с поправками из lesswrong:
• gemini-3.1-pro — 4.65t
• gemini-3-flash — 2.53t
• gpt-5.5 — 1.46t
• gpt-5 — 1.33t
• opus-4.7 — 1.13t
• grok-4.20 — 0.77t
• sonnet-4.6 — 0.66t
• grok-4.3 — 0.5t
со второй половины 2025 и до сих пор закрытые модели не показали большого отрыва от открытых — хотя у американских компаний намного больше вычислительных мощностей и исследовательских ресурсов. разрыв на бенчмарках в среднем ~10%. claude и gpt иногда лучше в реальной работе, но ошибочно думать, что все китайцы фокусируются на бенчмарках.
не стоит доверять ни бенчмаркам, ни маркетингу закрытых моделей. впрочем, доверять китайцам, которые публикуют не только размер, но и процесс обучения, тоже не стоит — реальную информацию по делу они пишут не всегда. на данный момент самая прозрачная команда — это deepseek-v4, тут без вопросов. на втором месте kimi. у glm и qwen дела тоже неплохи. у mimo стратегия догоняющая, а вот у minimax всё не очень — модель плохо справляется с задачами, которые не заточены на кодинг, хардкодит ответы и имитирует формат. как многие замечают, minimax — довольно небольшая модель, но баллы на бенчмарках набирает уверенно. на самом деле для своего веса в 230b параметров база знаний у неё маленькая: даже не вместила гимн россии, в то время как куда более скромная gemma4 на 31b параметров запросто выдаёт точный текст.
я без исключений рекомендую попробовать китайские модели всем, кто раньше пользовался только закрытыми — а именно claude, gpt, gemini.
почему? у китайских моделей принципиально другой процесс обучения. именно из-за этого они в ряде задач справляются лучше.
а теперь про сами модели:
kimi-k2.6 хорошо ориентируется в мире благодаря knowledge data rephrasing — обучению, при котором факт из датасета не просто скармливается модели, а переписывается в разных стилях. за счёт этого kimi неплохо решает задачи, требующие осознания фактов, и по той же причине хорошо следует инструкциям.
deepseek-v4-pro хорошо пишет креативный текст. но в отличие от claude, в процессе обучения deepseek генерирует несколько вариантов решения и прогоняет тесты — лучшие идут в плюс, худшие в минус. поэтому модель может хорошо оптимизировать архитектуру вашего проекта — лучше чем тот же claude, который награждается за самый правильный, безопасный и подходящий ответ. так же устроены и остальные американские модели: их учат тому, как должен выглядеть правильный ответ. а deepseek учат другому — как пройти несколько тестов и остаться с правильным решением.
mimo-v2.5-pro использует уникальную пост-тренинг парадигму mopd. в ней модель учится у нескольких «учителей» одновременно, причём награду получает на каждом токене, а не только за финальный результат. на части бенчмарков модель входит в топ-3 после gpt и claude.
стоит упомянуть и glm-5.1 как хорошую модель — хотя чувства к ней смешанные. как мне кажется, glm тренируют на бенчмарках, хоть прямых доказательств этому и нет. впрочем, в мире модель ориентируется хорошо, как и kimi — где-то обходит её, где-то уступает.