🚀 NVIDIA обещает ускорить LLM в 53 раза (звучит слишком хорошо, чтобы быть правдой)
NVIDIA представила PostNAS - метод, который якобы ускоряет инференс в 53 раза при снижении бюджета на 98%. Разбираемся, что к чему 🤖
Как это работает
Метод называется Post Neural Architecture Search (PostNAS) - подход к «апгрейду» уже обученных моделей без полного переобучения.
Три ключевых шага:
• Freeze the Knowledge - берут мощную модель (например, Qwen2.5) и «замораживают» MLP-слои, сохраняя накопленный интеллект.
• Surgical Replacement - заменяют большую часть медленных O(n²) attention-слоёв на новый дизайн JetBlock с линейным вниманием.
• Hybrid Power - оставляют несколько full-attention слоёв в критичных точках, чтобы не потерять способность к сложным рассуждениям.
Результат — Jet-Nemotron
Заявленные характеристики впечатляют: • 2 885 токенов/секунду
• В 47 раз меньше KV-кеша (всего 154 MB)
• Топовая точность при космической скорости
Мои мысли
Звучит революционно, но я бы не спешил с выводами. Во-первых, цифры из пресс-релизов NVIDIA часто оказываются... оптимистичными в реальных условиях.
Во-вторых, «топовая точность» - понятие растяжимое. На каких задачах тестировали? В каких условиях? Как ведет себя модель на edge cases?
Почему это может быть важно
Если все работает как заявлено:
• Для бизнеса: 53× ускорение действительно меняет экономику ИИ-проектов кардинально
• Для инженеров: SOTA-уровень станет доступен на устройствах с ограниченной памятью
• For исследователей: вместо миллионов на пре-тренинг можно создавать эффективные модели через архитектурные модификации
Но есть нюансы
Линейное внимание - не новая идея, и у него есть свои ограничения. Потеря части способностей к long-range dependencies почти неизбежна, как бы ни старались это компенсировать.
Также интересно, насколько стабильно работает гибридный подход в продакшене, а не в лабораторных условиях.
Ждем независимых тестов
Пока это выглядит как очень многообещающее направление, но хочется увидеть независимые бенчмарки и реальные кейсы использования.
Ресурсы:
• GitHub
• Arxiv
А что думаете вы? Реальный прорыв или очередной маркетинг от NVIDIA? 💭
#nvidia #llm #архитектура
NVIDIA представила PostNAS - метод, который якобы ускоряет инференс в 53 раза при снижении бюджета на 98%. Разбираемся, что к чему 🤖
Как это работает
Метод называется Post Neural Architecture Search (PostNAS) - подход к «апгрейду» уже обученных моделей без полного переобучения.
Три ключевых шага:
• Freeze the Knowledge - берут мощную модель (например, Qwen2.5) и «замораживают» MLP-слои, сохраняя накопленный интеллект.
• Surgical Replacement - заменяют большую часть медленных O(n²) attention-слоёв на новый дизайн JetBlock с линейным вниманием.
• Hybrid Power - оставляют несколько full-attention слоёв в критичных точках, чтобы не потерять способность к сложным рассуждениям.
Результат — Jet-Nemotron
Заявленные характеристики впечатляют: • 2 885 токенов/секунду
• В 47 раз меньше KV-кеша (всего 154 MB)
• Топовая точность при космической скорости
Мои мысли
Звучит революционно, но я бы не спешил с выводами. Во-первых, цифры из пресс-релизов NVIDIA часто оказываются... оптимистичными в реальных условиях.
Во-вторых, «топовая точность» - понятие растяжимое. На каких задачах тестировали? В каких условиях? Как ведет себя модель на edge cases?
Почему это может быть важно
Если все работает как заявлено:
• Для бизнеса: 53× ускорение действительно меняет экономику ИИ-проектов кардинально
• Для инженеров: SOTA-уровень станет доступен на устройствах с ограниченной памятью
• For исследователей: вместо миллионов на пре-тренинг можно создавать эффективные модели через архитектурные модификации
Но есть нюансы
Линейное внимание - не новая идея, и у него есть свои ограничения. Потеря части способностей к long-range dependencies почти неизбежна, как бы ни старались это компенсировать.
Также интересно, насколько стабильно работает гибридный подход в продакшене, а не в лабораторных условиях.
Ждем независимых тестов
Пока это выглядит как очень многообещающее направление, но хочется увидеть независимые бенчмарки и реальные кейсы использования.
Ресурсы:
• GitHub
• Arxiv
А что думаете вы? Реальный прорыв или очередной маркетинг от NVIDIA? 💭
#nvidia #llm #архитектура
This media is not supported in your browser
VIEW IN TELEGRAM
Я наверно немного опоздал 🐢
Но посмотрите что люди делают с NanoBanana🥰 , анимеху
Инструкция и источник
#google #nanobanana #ai #anime
Но посмотрите что люди делают с NanoBanana
Инструкция и источник
#google #nanobanana #ai #anime
Please open Telegram to view this post
VIEW IN TELEGRAM
👏1
Ура, perplexity решил и меня добавить в закрытый тест Comet 💫
Сравним с strawberry browser
#perplexity #comet #strawberry
Сравним с strawberry browser
#perplexity #comet #strawberry
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1
GLM сделал ракету 🚀
Всем любителя GLM-4.5 и Claude code с Pro подпиской получили подгон в виде подписки от GLM
- 💸 Цена снизилась в 7 раз
- ⚡️ В 3 раза больше промптов для задач по коду
Ресурсы:
http://z.ai/subscribe
http://docs.z.ai/scenario-example/develop-tools/claude
#glm #claude
Всем любителя GLM-4.5 и Claude code с Pro подпиской получили подгон в виде подписки от GLM
- 💸 Цена снизилась в 7 раз
- ⚡️ В 3 раза больше промптов для задач по коду
Ресурсы:
http://z.ai/subscribe
http://docs.z.ai/scenario-example/develop-tools/claude
#glm #claude
😱1💩1
🚀 Не успели порадоваться обновлённой kimi k2, а команда Qwen представила Qwen3-Max-Preview (Instruct) — свою крупнейшую модель на сегодняшний день, с более чем 1 триллионом параметров
По бенчмаркам Qwen3-Max-Preview опережает предыдущий флагман Qwen3-235B-A22B-2507.
Внутренние тесты и первые отзывы пользователей говорят о том, что модель стала сильнее в диалогах, агентных задачах, следовании инструкциям и обладает более широкими знаниями.
Qwen обещают очень скоро выпустить ещё что-то интересное.
Qwen3-Max-Preview уже доступна в Qwen Chat и через Alibaba Cloud API.
🟢Qwen Chat
🟢Alibaba Cloud API
#ai #kimi #llm #qwen
По бенчмаркам Qwen3-Max-Preview опережает предыдущий флагман Qwen3-235B-A22B-2507.
Внутренние тесты и первые отзывы пользователей говорят о том, что модель стала сильнее в диалогах, агентных задачах, следовании инструкциям и обладает более широкими знаниями.
Qwen обещают очень скоро выпустить ещё что-то интересное.
Qwen3-Max-Preview уже доступна в Qwen Chat и через Alibaba Cloud API.
🟢Qwen Chat
🟢Alibaba Cloud API
#ai #kimi #llm #qwen
🔥1
☁️Ничего се, openrouter зарелизил свои модели
На Openrouter обнаружили «стелс» модель с кодовым названием Sonoma Sky Alpha. В тестах по математике она обгоняет GPT-5.
У модели огромное контекстное окно в 2 млн токенов — в пять раз больше, чем у GPT-5. Этого хватит на целую книгу. За несколько секунд она может сгенерировать простое веб-приложение с первой попытки.
Тестируем бесплатно здесь
P.S. я тестировал мне понравилось в кодогенерации, но не понравилось в рейт лимитах 😡😈
#openrouter #gpt5
На Openrouter обнаружили «стелс» модель с кодовым названием Sonoma Sky Alpha. В тестах по математике она обгоняет GPT-5.
У модели огромное контекстное окно в 2 млн токенов — в пять раз больше, чем у GPT-5. Этого хватит на целую книгу. За несколько секунд она может сгенерировать простое веб-приложение с первой попытки.
Тестируем бесплатно здесь
P.S. я тестировал мне понравилось в кодогенерации, но не понравилось в рейт лимитах 😡😈
#openrouter #gpt5
Media is too big
VIEW IN TELEGRAM
Пока все таращатся на новый Claude Sonnet 4.5, в Minecraft случилась эпичная редстоун-магия! 🤯
Вау, представьте: один гений в Minecraft слепил из редстоуна настоящую нейронку, которая работает как часы! 😎
🔘 Она полностью живая внутри игры: с 64 токенами контекста и даже болтает в простых чатах. Никаких лагов, только магия блоков!
🔘 Интернет в шоке и зовёт это “самым безумным AI-проектом в Minecraft”: больше 5 миллионов параметров, махина размером 1020×260×1656 блоков (это как целый город!), и чувак, наверное, не спал месяцами, чтобы это собрать. 😂
А всего 20 лет назад такая языковая модель была бы суперзвездой в реальном мире… Эх, времена меняются, теперь даже в кубики умнее нас! 🚀
Вау, представьте: один гений в Minecraft слепил из редстоуна настоящую нейронку, которая работает как часы! 😎
🔘 Она полностью живая внутри игры: с 64 токенами контекста и даже болтает в простых чатах. Никаких лагов, только магия блоков!
🔘 Интернет в шоке и зовёт это “самым безумным AI-проектом в Minecraft”: больше 5 миллионов параметров, махина размером 1020×260×1656 блоков (это как целый город!), и чувак, наверное, не спал месяцами, чтобы это собрать. 😂
А всего 20 лет назад такая языковая модель была бы суперзвездой в реальном мире… Эх, времена меняются, теперь даже в кубики умнее нас! 🚀