планируемые посты:
пост про то, что нейросеть кал (опрос выше)
+ вайбкодинг, агенты, оркестраторы, mcp, скиллы, инжиниринг и что где выбрать (не скоро, не изучила тему полностью)
+ больше про открытые модели, например про тот-же qwen3.5 хотелось бы больше раскрыть тему силы маленьких моделей
+ больше про открытые модели в целом
пост про то, что нейросеть кал (опрос выше)
+ вайбкодинг, агенты, оркестраторы, mcp, скиллы, инжиниринг и что где выбрать (не скоро, не изучила тему полностью)
+ больше про открытые модели, например про тот-же qwen3.5 хотелось бы больше раскрыть тему силы маленьких моделей
+ больше про открытые модели в целом
с этим поцом не общаемся - https://huggingface.co/DavidAU/Qwen3.5-9B-Claude-4.6-HighIQ-THINKING-HERETIC-UNCENSORED
❤1
будет, но не сейчас
размышлял еще над ситуацией в мире нейросетей и придумал интересную идею - написать несколько возможно глупых предсказаний, которые будут зашифрованы. они будут расшифрованы после того, как сбудутся. если не сбудутся - не будут расшифрованы, но я обязательно сообщу об этом
вот предсказания:
1. самое вероятное
2. вполне возможно
3. хотелось бы, чтобы это было правдой, и это было бы логично, если бы не тупость людей
AES-256, ECB, PKCS5Padding; key - hex; hash - hex
данный пост не будет изменятся для чистоты эксперимента
размышлял еще над ситуацией в мире нейросетей и придумал интересную идею - написать несколько возможно глупых предсказаний, которые будут зашифрованы. они будут расшифрованы после того, как сбудутся. если не сбудутся - не будут расшифрованы, но я обязательно сообщу об этом
вот предсказания:
1. самое вероятное
2. вполне возможно
3. хотелось бы, чтобы это было правдой, и это было бы логично, если бы не тупость людей
AES-256, ECB, PKCS5Padding; key - hex; hash - hex
BC2C50BE340C93E34A3D2D97CB12ED48A25A30CF8426143E61F5C59A2E8F2A385E3AE4ABFC103429101D7112DC800BD75127675240B46EB1B5780169C51087D3270D4894915BC171B56EE8078BFE869F3DBC516A8B31C8988586CCD3CB416C7D76D3FFEC1CAF020F0100B6E50CA3398D215EC16076EADB7EDC09C862B2B7B44BBEB2700A8F4579C0549E4A5EF37A4791E7928AB8851D5DFFAC65EB2E4994DFB83A33E521CD02A5C8F2DD1671F6026FD7
F0FE464CE37DACC84F985A4CB40227AC5D9E4A87B36F84D0972C3BF98BD08D09B84A27C4ED4CB5975EF4F93DBD408611D8776EB732A8AAB9C6528DCD3F4D1DF2951952A824AF93747E540D38C1C7EA26
866845AB1A440712488EF1242F573B2BD7087D1999915DCE60D0409A127FE28168CCF2E7D3D62A563D055034A8458F5562E3E801CD8922154E96760BD2D5EBDAEDF22B1DCBC2D7DD2FF4A54247E2EF05
данный пост не будет изменятся для чистоты эксперимента
Телега
На связи команда Телеги
Скоро Катаф выпустит плагин для нашего конкурента exteraGram:
Мы продолжаем расширять аудиторию нашей альтернативы Telegram для вас. Понимаем, что уже писали об этом, но усиление требует времени.
Спасибо за понимание и поддержку!
Мы продолжаем расширять аудиторию нашей альтернативы Telegram для вас. Понимаем, что уже писали об этом, но усиление требует времени.
• C помощью него вы, используя другое приложение, сможете узнать, использует ли ваш собеседник наш мессенджер — Telega.
• Плагин будет добавлять специальную иконку возле имени пользователя, которая будет обозначать что пользователь использует Телегу.
Спасибо за понимание и поддержку!
❤2
наверна пора.
Anthropic одна из самых жадных компаний в сфере ии, например:
"Безопастность" и "свобода".
Команда Anthropic
Anthropic одна из самых жадных компаний в сфере ии, например:
1. отсутствие open source моделей и продуктов в целом(даже claude code с закрытым кодом, который недавно слили)
2. Anthropic всячески пытается делать инфоповоды для устранения конкурентов
3. огромные цены на все - апи, код планы
"Безопастность" и "свобода".
1. Сlaude по моему мнению сама зацензуренная модель среди гигантов в этой индустрии. только используя Claude Code, вас уже ограничивают системными промптами запрещающие делать некоторые вещи.
2. Claude запрещает вам использовать свой код план где-то кроме Claude Code, чтобы вы не тратили весь свой план.
3. хоть и Anthropic отказали пентагону, но они все еще хотят продавать ваши данные и изощряться для тренинга своих великолепных моделей. и я думаю что это главное, что им помогает делать свои модели хорошими
Команда Anthropic
честно, меня удивляет, как они остаются лидером среди языковых моделей больше трёх месяцев, а скоро и четырёх, при том что разработка ведётся людьми, которые создают Claude Code с помощью самого Claude Code, что порождает замкнутый цикл и ведёт к деградации качества кода и инженерных практик, особенно если учитывать длительную историю развития с версии sonnet 3.7, и это подтверждается результатами terminal-bench 2.0, в котором их же модель Opus 4.7 показывает худшие результаты в их собственном агенте, что по крайней мере указывает на проблемы в качестве инструкций и внутренних процессов команды
интересное сравнение Bonsai-8b и Qwen3.5
Bonsai-8b от PrismML занимает ~1gb вместо 8gb оперативки, по технике, похожей на ту, что упоминается в блоге про TurboQuant от Google
про Qwen3.5 пост был, тут
еще ее кстати можно запустить на смартфоне.
кратко — это далеко не революция в мире локальных моделей, есть плюсы, но минусы очевиднее
от меня — в математике он показывает себя лучше остальных, но с языками понимает плохо, возможно, если бы bonsai делали на qwen3.5, а не qwen3, результаты были бы лучше, но всё же это пока не прорыв
полезные ссылки:
Bonsai-8b от PrismML занимает ~1gb вместо 8gb оперативки, по технике, похожей на ту, что упоминается в блоге про TurboQuant от Google
про Qwen3.5 пост был, тут
еще ее кстати можно запустить на смартфоне.
кратко — это далеко не революция в мире локальных моделей, есть плюсы, но минусы очевиднее
от меня — в математике он показывает себя лучше остальных, но с языками понимает плохо, возможно, если бы bonsai делали на qwen3.5, а не qwen3, результаты были бы лучше, но всё же это пока не прорыв
полезные ссылки:
cамо сравнение
про саму модель от создателей(PrismML)
интересные посты с Reddit [1], [2], [3]
пост на HN
наверно, стоит изучить остальные Telegram клиенты, кроме exteraGram, после истории с NekoGram
кароч, будет тирлист, и подпишу текстом, какой клиент где, если не лень, то напишу причину
кароч, будет тирлист, и подпишу текстом, какой клиент где, если не лень, то напишу причину
💞 катаф #няшности 💞
наверно, стоит изучить остальные Telegram клиенты, кроме exteraGram, после истории с NekoGram кароч, будет тирлист, и подпишу текстом, какой клиент где, если не лень, то напишу причину
вот авансом, пока на личном опыте использования некоторых из них
тут только те клиенты, что обновляются, ну и очевидно на андроид
пишите в коммы что не добавлено
ссылки на тирлист:
TierMaker
TierBuddy
тут только те клиенты, что обновляются, ну и очевидно на андроид
пишите в коммы что не добавлено
ссылки на тирлист:
TierMaker
TierBuddy
❤1 1 1 1
мудрейший катафчик
вот авансом, пока на личном опыте использования некоторых из них тут только те клиенты, что обновляются, ну и очевидно на андроид пишите в коммы что не добавлено ссылки на тирлист: TierMaker TierBuddy
думаю чериграм можно и в мусор — https://github.com/arsLan4k1390/Cherrygram/commit/56d2337179a6ae2f967498a48fe9cc69e9f1de07#commitcomment-181425680
GitHub
Remove UNUSED function of dev builds · arsLan4k1390/Cherrygram@56d2337
Contribute to arsLan4k1390/Cherrygram development by creating an account on GitHub.
💞 катаф #няшности 💞
с этим поцом не общаемся - https://huggingface.co/DavidAU/Qwen3.5-9B-Claude-4.6-HighIQ-THINKING-HERETIC-UNCENSORED
сейчас мое мнение по поводу "opus/gemini/gpt/kimi/glm/... reasoning" моделей иное.
проблема в том, что модель не учится думать — она учится выглядеть так, будто думает. будто копирует почерк, но знаний на самом деле не прибавляется.
посмотрев на результаты qwen3.5-27b-claude-opus-4.6-distill в ugi leaderboard, стало понятно что происходит на самом деле. по знаниям — world model упал на 8 пунктов, pop culture на 4, общий ugi score просел с 22 до 16. модель стала тупее. зато writing вырос на 3 пункта и стало больше диалогов в ответах. то есть модель научилась красиво оформлять ответы в стиле claude, но забыла часть того, что знала.
а на карточке модели автор показывает бенчмарки hellaswag, arc, winogrande, и там +2-4%. звучит как улучшение. но эти бенчмарки — это тесты с вариантами ответа, где модели нужно просто выбрать из четырёх. пошаговый стиль рассуждений claude помогает лучше выбирать. а когда нужно самой вспомнить и применить знания в реальных задачах — качество ухудшается.
2100 примеров рассуждений от opus — это не дистилляция. это стилевой файнтюн. настоящая дистилляция это сотни тысяч примеров, а тут просто кормежка 2к ответов claude с припиской "distill".
и это не проблема конкретно этой модели — это паттерн. каждый раз когда кто-то берёт маленькую модель и файнтюнит на выходах большой, получается одно и то же: модель начинает звучать умнее, но быть умнее она не начинает. 27 миллиардов параметров физически не могут вместить то что знает модель на сотни миллиардов. стиль копируется, знания — нет. это можно назвать reward-хакингом, но про это пост отдельный, если будет.
конкретно сейчас произошёл бум таких дистилляций у моделей gemma4 и qwen3.5. такой обмен стиля на знания того не стоит — используйте базовые модели вместо этих подделок. забавно, что по запросу "opus" на hugging face можно увидеть 8к+ моделей, и по крайней мере первые 3 страницы выдачи составляют именно они. люди тратят свои деньги и ресурсы на обучение этих моделей, которые ничего не стоят.
ранее, как и большинство поверхностно знающих о языковых моделях людей и об их файнтюне — я думала, что эти opus-ризонинги реально помогают моделям составлять цепочки рассуждений. истина не так уж и проста, эти тюны и вправду делают модели похожими по поведению на opus.
проблема в том, что модель не учится думать — она учится выглядеть так, будто думает. будто копирует почерк, но знаний на самом деле не прибавляется.
посмотрев на результаты qwen3.5-27b-claude-opus-4.6-distill в ugi leaderboard, стало понятно что происходит на самом деле. по знаниям — world model упал на 8 пунктов, pop culture на 4, общий ugi score просел с 22 до 16. модель стала тупее. зато writing вырос на 3 пункта и стало больше диалогов в ответах. то есть модель научилась красиво оформлять ответы в стиле claude, но забыла часть того, что знала.
а на карточке модели автор показывает бенчмарки hellaswag, arc, winogrande, и там +2-4%. звучит как улучшение. но эти бенчмарки — это тесты с вариантами ответа, где модели нужно просто выбрать из четырёх. пошаговый стиль рассуждений claude помогает лучше выбирать. а когда нужно самой вспомнить и применить знания в реальных задачах — качество ухудшается.
2100 примеров рассуждений от opus — это не дистилляция. это стилевой файнтюн. настоящая дистилляция это сотни тысяч примеров, а тут просто кормежка 2к ответов claude с припиской "distill".
и это не проблема конкретно этой модели — это паттерн. каждый раз когда кто-то берёт маленькую модель и файнтюнит на выходах большой, получается одно и то же: модель начинает звучать умнее, но быть умнее она не начинает. 27 миллиардов параметров физически не могут вместить то что знает модель на сотни миллиардов. стиль копируется, знания — нет. это можно назвать reward-хакингом, но про это пост отдельный, если будет.
конкретно сейчас произошёл бум таких дистилляций у моделей gemma4 и qwen3.5. такой обмен стиля на знания того не стоит — используйте базовые модели вместо этих подделок. забавно, что по запросу "opus" на hugging face можно увидеть 8к+ моделей, и по крайней мере первые 3 страницы выдачи составляют именно они. люди тратят свои деньги и ресурсы на обучение этих моделей, которые ничего не стоят.
huggingface.co
UGI Leaderboard - a Hugging Face Space by DontPlanToEnd
Uncensored General Intelligence Leaderboard
возвращаемся к ugi leaderboard из прошлого поста, что это вы можете прочитать на самом лидерборде на huggingface - https://huggingface.co/spaces/DontPlanToEnd/UGI-Leaderboard
я думаю много кто замечал цензуру и т.п. в моделях, про нее и пойдет сейчас речь.
цензура это обязательная часть любого продукта, в том числе нейросетей. да, показатель w/10 показывает насколько модель отвечает на вопросы, на которые не должна отвечать, но сейчас речь пойдет про более интересные метрики - политическая ориентация.
моделям выдается политическая ориентация на основе их ответов на тест по 12 осям. в этом сравнивается очень большое кол-во моделей, в том числе открытые модели. у открытых моделей могут быть абсолютно разные показатели по разным причинам, но они нам не интересны, т. к. никто из нас их не планирует запускать, поэтому сравним проприетарные и открытые модели по типу GLM, Kimi, Qwen, Gemma, Nemotron...
вышли интересные результаты:
я думаю много кто замечал цензуру и т.п. в моделях, про нее и пойдет сейчас речь.
цензура это обязательная часть любого продукта, в том числе нейросетей. да, показатель w/10 показывает насколько модель отвечает на вопросы, на которые не должна отвечать, но сейчас речь пойдет про более интересные метрики - политическая ориентация.
моделям выдается политическая ориентация на основе их ответов на тест по 12 осям. в этом сравнивается очень большое кол-во моделей, в том числе открытые модели. у открытых моделей могут быть абсолютно разные показатели по разным причинам, но они нам не интересны, т. к. никто из нас их не планирует запускать, поэтому сравним проприетарные и открытые модели по типу GLM, Kimi, Qwen, Gemma, Nemotron...
вышли интересные результаты:
политическая ориентация:
маленькие модели Qwen2.5-3.5 (0-2b (иногда и 4b и 7b но исключения)) — центристы
последние модели Grok4+ — классические либералы
остальные — либералы
—————————-—————————-
левые и правые:
самые левые — GPT-5+, Kimi, Deepseek, Xiaomi-Mimo (все остальные тоже, но меньше)
средние — НЕТУ (мало(только нн модели))
самые правые — Grok и все
—————————-—————————-
сводка (от большего к меньшему):
гос. власть — Gemini, Deepseek, Minimax
личная свобода — Grok
глобальные взгляды — GPT-5.4, Claude Opus 4.6, Deepseek
национальны взгляды — Grok, Claude Sonnet 4.6
экономическое равенство — Xiaomi-Mimo, GPT-5.4, Claude Sonnet 4.6
рыночная свобода — Grok, Deepseek, Kimi, Qwen3.5, Claude Opus 4.6
прогрессивные ценности — Kimi, Xiaomi-Mimo, GPT-5.4, Grok, Deepseek
традиционные ценности — Gemini, Grok
Claude Code питомец из M5StickC
может быть как-нибудь подредактирую прошивку для себя.
ESP32 в качестве вайбкод питомца, с помощью которого можно взаимодействовать с claude code.
можно использовать M5StickCPlus, как на изображении (который у меня кстати есть)
на самом деле это просто пример использования Bluetooth API для разработчиков в Claude Cowork и Claude Code Desktop.
прикольная штука, странно что это официально опубликовали с официального аккаунта Anthropic на GitHub.
может быть как-нибудь подредактирую прошивку для себя.
замена claude / лучшие модели по категориям
⬥ если есть вопросы, вам неясно, почему и где какая модель, или вы хотите поспорить — пишите в комменты — всем отвечу, объясню, приму критику
креатив / тексты / статьи / рп:
kimi-k2.6 — идеальная замена. альтернативы: gemini-3.1-pro, muse-spark. если нужно максимальное погружение в инструкции и их выполнение — gpt-5.4 (для кого-то это открытие, но gpt реально хорошо следует инструкциям)
фронтенд / код / дизайн:
gemini-3.1-pro. альтернативы: kimi-k2.6, qwen-3.6-max
бэкенд:
на первом месте — gpt-5.4. если результат не устраивает: gemini-3.1-pro, grok-4.20, muse-spark, qwen-3.6-max, kimi-k2.6
факты / ответы на вопросы:
gemini-3.1-pro — без оговорок. альтернативы: grok-4.20, gemini-3-flash, kimi-k2.6
реальный мир / физика / соц. науки / понимание мира:
основные: gpt-5.4, gemini-3.1-pro. также: grok-4.20, qwen-3.6-max, kimi-k2.6
закон:
gemini-3.1-pro. замыкающие: grok-4.20, qwen-3.6-max
здоровье:
gemini-3.1-pro, grok-4.20
бизнес / маркетинг:
gemini-3.1-pro, grok-4.20, qwen-3.6-plus, kimi-k2.6
⬥ если есть вопросы, вам неясно, почему и где какая модель, или вы хотите поспорить — пишите в комменты — всем отвечу, объясню, приму критику
👍3 3
мудрейший катафчик
скоро будет пост про Kimi K2.6 и моё новое мнение о том, что открытые модели могут конкурировать с Anthropic, OpenAI, Google, Xai и другими.
сейчас в процессе написания находится пост про текущие китайские модели
вот что будет:
еще будет пост в @circus300, где эта же информация подана проще
вот что будет:
• почему китайские модели иногда намного лучше американских по природе
• сколько на самом деле весят проприетарные модели
• разный подход к обучению
• цензура
еще будет пост в @circus300, где эта же информация подана проще