Почему в Celine не продают подписки на Cline, а только какие то шмотки
😁57
Вообще если хотите понять где будет фронтир через пол года-год, смотрите какие бенчи плохо решаются, но решаются (10-20-30%) качества, при этом концептуально это не useless бенчи от шизов типа arc-agi и не бенчи на знание трудов Ленина или сочинений толстового.
Обычно такие показательные бенчи меряют что то понятное: ну там vending bench, fine-tune bench, Gaia2 - очень понятные идейно, неплохо решаемые людьми, но очень плохо текущими системами. Иногда проблема только в модели (не понимает видео и не умеет тыкать нормально кнопки) иногда в scaffolding - криво используют контекст или тулы странные.
Но в целом в современных бенчах часто роляет управление контекстом, агенты и тд. А значит "кто как меряет так и репортит".
Обычно такие показательные бенчи меряют что то понятное: ну там vending bench, fine-tune bench, Gaia2 - очень понятные идейно, неплохо решаемые людьми, но очень плохо текущими системами. Иногда проблема только в модели (не понимает видео и не умеет тыкать нормально кнопки) иногда в scaffolding - криво используют контекст или тулы странные.
Но в целом в современных бенчах часто роляет управление контекстом, агенты и тд. А значит "кто как меряет так и репортит".
1👍59 21🤔9🔥6
Forwarded from Техножрица 👩💻👩🏫👩🔧
Коллеги из команды выпустили технический отчет по обученной ими небольшой LLM под названием Гамаюн (рис.1) с 1.5B параметров и тренировкой с нуля на всего лишь 2.5T токенах: https://arxiv.org/abs/2512.21580 . Модель мультилингвальна и имеет фокус на русском языке. На ряде бенчмарков она превосходит Qwen2.5-1.5B и сравнима с Qwen3-1.7B, несмотря на то, что последние обучены на корпусах намного большего размера (18T - 36T). Модель также является SoTA на MERA (русскоязычный бенч) среди LLM размера 1-2B параметров.
К сожалению, веса в открытый доступ пока что выложить не разрешили, но должны разрешить выложить их для новой версии модели, которая ожидается через несколько месяцев. В утешение можно почитать технический отчет и узнать, как натренировать LLM с нуля с небольшим компьютом на небольшом количестве токенов! А еще можно почитать скрины диалогов с разными ранними версиями модели, полученных до полного завершения тренировки (рис. 2-10).😼 Даже жалко, что итоговая версия стала более нормисной и теперь выдает подобные приколы намного реже... 😒
#объяснения_статей
К сожалению, веса в открытый доступ пока что выложить не разрешили, но должны разрешить выложить их для новой версии модели, которая ожидается через несколько месяцев. В утешение можно почитать технический отчет и узнать, как натренировать LLM с нуля с небольшим компьютом на небольшом количестве токенов! А еще можно почитать скрины диалогов с разными ранними версиями модели, полученных до полного завершения тренировки (рис. 2-10).
#объяснения_статей
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🥴65👍14😁12💩8🔥4💊2🎉1
Я наблюдал несколько часов подряд как человек не может с Клод кодом обучить классификатор потому что решил что надо учить классификатор с помощью self play rl.
Я пожалуй останусь на своём:
"Если вы знаете что делаете то ассистенты дают х10, если вы ничерта не понимаете - вероятно у вас ничего не будет работать и будут галюцинации"
Я пожалуй останусь на своём:
"Если вы знаете что делаете то ассистенты дают х10, если вы ничерта не понимаете - вероятно у вас ничего не будет работать и будут галюцинации"
😁105💯37🤔3🔥1🌚1🙉1
Love. Death. Transformers.
Я наблюдал несколько часов подряд как человек не может с Клод кодом обучить классификатор потому что решил что надо учить классификатор с помощью self play rl. Я пожалуй останусь на своём: "Если вы знаете что делаете то ассистенты дают х10, если вы ничерта…
🤪72😁33🤷♂6 6🔥4💊3
Media is too big
VIEW IN TELEGRAM
ИИ ОТНИМАЕТ У НАС САМОЕ ДОРОГОЕ
Майнкрафт на новогодних. Чел подключил Майнкрафт к opencode и теперь ллм играет в Майнкрафт.
Github
Майнкрафт на новогодних. Чел подключил Майнкрафт к opencode и теперь ллм играет в Майнкрафт.
Github
😭56👍10🔥5🤔4🌭4💋1🗿1
Forwarded from underground (Konstantin Korolev)
X (formerly Twitter)
Konstantin (@advpropx) on X
nvfp4 moe on b200: the 142 tflops gap
benchmarked gpt-oss-20b (64e, topk=4) nvfp4 kernels.
sglang hits 1168 tflops peak.
vllm tops out at 1026 tflops.
same hardware. same model. different kernels.
dive in⬇️
benchmarked gpt-oss-20b (64e, topk=4) nvfp4 kernels.
sglang hits 1168 tflops peak.
vllm tops out at 1026 tflops.
same hardware. same model. different kernels.
dive in⬇️
🔥3
Костя написал оч технический блог про особенности инференса ллм и sglang vs vllm
https://open.substack.com/pub/advprop/p/the-142-tflops-gap-why-fp4-moe-kernel
https://open.substack.com/pub/advprop/p/the-142-tflops-gap-why-fp4-moe-kernel
Substack
The 142 TFLOPS Gap: Why FP4 MoE Kernel Engineering Matters on Blackwell
How to achieve 1.84x speedup over vLLM on small-batch inference through kernel fusion, Blackwell optimization, and expert-aware computation
🔥39💩5👍3😁2😐2
Love. Death. Transformers.
Костя написал оч технический блог про особенности инференса ллм и sglang vs vllm https://open.substack.com/pub/advprop/p/the-142-tflops-gap-why-fp4-moe-kernel
А теперь ещё и на hf самое подробное сравнение особенностей инференса Moe в vllm и sglang
https://huggingface.co/blog/apsys/blackwell-nvfp4-comparison
https://huggingface.co/blog/apsys/blackwell-nvfp4-comparison
huggingface.co
TFLOPS Gap: Why FP4 MoE Kernel Engineering Matters on Blackwell
A Blog post by Konstantin on Hugging Face
🔥28👾4💩1
Судя по stack overflow через лет эдак 50 когда зумеры начнут активно умирать мы будем жить в чем то среднем между пелевиным и wh40k, с одной стороны есть возможность крутить ultra advanced технологии умнее людей, с другой стороны они не то чтобы дают бонусы для простого обывателя (скорее наоборот)
🤔76🔥12💯6🫡5🥴3 2
Если сранивать онлифанщиц и ML/AI phd, то с одной стороны у нас хуесосы, с другой стороны люди которые реально приносят деньги
https://archive.ph/Lsk2Z
https://archive.ph/Lsk2Z
😁136 19👍8🫡1