Заметки одного архитектора
62 subscribers
38 photos
3 videos
10 links
👋 Я Максим Мельников — 👨‍💻 архитектор MTS HR Tech, 🤖 ИИ-энтузиаст.
🏛️ Архитектура ПО • AI-эксперименты • 🚀 Карьера • 🎒 Закулисье.
Подписывайтесь, чтобы строить системы, команды и будущее вместе!
Download Telegram
Пока полет нормальный
1👏1
🚀 NVIDIA обещает ускорить LLM в 53 раза (звучит слишком хорошо, чтобы быть правдой)

NVIDIA представила PostNAS - метод, который якобы ускоряет инференс в 53 раза при снижении бюджета на 98%. Разбираемся, что к чему 🤖

Как это работает

Метод называется Post Neural Architecture Search (PostNAS) - подход к «апгрейду» уже обученных моделей без полного переобучения.

Три ключевых шага:

Freeze the Knowledge - берут мощную модель (например, Qwen2.5) и «замораживают» MLP-слои, сохраняя накопленный интеллект.
Surgical Replacement - заменяют большую часть медленных O(n²) attention-слоёв на новый дизайн JetBlock с линейным вниманием.
Hybrid Power - оставляют несколько full-attention слоёв в критичных точках, чтобы не потерять способность к сложным рассуждениям.

Результат — Jet-Nemotron

Заявленные характеристики впечатляют: • 2 885 токенов/секунду
• В 47 раз меньше KV-кеша (всего 154 MB)
• Топовая точность при космической скорости

Мои мысли

Звучит революционно, но я бы не спешил с выводами. Во-первых, цифры из пресс-релизов NVIDIA часто оказываются... оптимистичными в реальных условиях.
Во-вторых, «топовая точность» - понятие растяжимое. На каких задачах тестировали? В каких условиях? Как ведет себя модель на edge cases?

Почему это может быть важно

Если все работает как заявлено:
Для бизнеса: 53× ускорение действительно меняет экономику ИИ-проектов кардинально
Для инженеров: SOTA-уровень станет доступен на устройствах с ограниченной памятью
For исследователей: вместо миллионов на пре-тренинг можно создавать эффективные модели через архитектурные модификации

Но есть нюансы

Линейное внимание - не новая идея, и у него есть свои ограничения. Потеря части способностей к long-range dependencies почти неизбежна, как бы ни старались это компенсировать.
Также интересно, насколько стабильно работает гибридный подход в продакшене, а не в лабораторных условиях.

Ждем независимых тестов
Пока это выглядит как очень многообещающее направление, но хочется увидеть независимые бенчмарки и реальные кейсы использования.

Ресурсы:
GitHub
Arxiv

А что думаете вы? Реальный прорыв или очередной маркетинг от NVIDIA? 💭

#nvidia #llm #архитектура
Это я жду когда до меня долетят обновления с grok code fast

P.S. в курсоре и GitHub copilot пока не доступно
Курсор сделали свой аналог копки YouTube, хочу, но не получу 🥹(отписался)

Источник

#cursor
This media is not supported in your browser
VIEW IN TELEGRAM
Я наверно немного опоздал 🐢
Но посмотрите что люди делают с NanoBanana 🥰, анимеху

Инструкция и источник

#google #nanobanana #ai #anime
Please open Telegram to view this post
VIEW IN TELEGRAM
👏1
Ура, perplexity решил и меня добавить в закрытый тест Comet 💫
Сравним с strawberry browser

#perplexity #comet #strawberry
Please open Telegram to view this post
VIEW IN TELEGRAM
👍1🔥1
Фуу 🤬 Гугл... откого угодно, но от тебя я такого не ожидал 😑

P.S. Немного разъясню, чаты который создавались и в которые писались во время подписки, недоступны, когда подписка заканчивается.

#google #gemini #ai #llm
🤨1
Apple 🍎 сегодня тоже удивили. По-идеи гуру мобильного дизайна, могли сделать бесконечный барабан в будильнике, не сильно и сложно это, а в итоге просто явно прописали в коде n повторений.
Но останься один вопрос 🤔 почему 16:39 ⁉️

#apple #ios
💩1😐1
GLM сделал ракету 🚀

Всем любителя GLM-4.5 и Claude code с Pro подпиской получили подгон в виде подписки от GLM

- 💸 Цена снизилась в 7 раз
- ⚡️ В 3 раза больше промптов для задач по коду

Ресурсы:

http://z.ai/subscribe
http://docs.z.ai/scenario-example/develop-tools/claude

#glm #claude
😱1💩1
🚀 Не успели порадоваться обновлённой kimi k2, а команда Qwen представила Qwen3-Max-Preview (Instruct) — свою крупнейшую модель на сегодняшний день, с более чем 1 триллионом параметров

По бенчмаркам Qwen3-Max-Preview опережает предыдущий флагман Qwen3-235B-A22B-2507.

Внутренние тесты и первые отзывы пользователей говорят о том, что модель стала сильнее в диалогах, агентных задачах, следовании инструкциям и обладает более широкими знаниями.

Qwen обещают очень скоро выпустить ещё что-то интересное.

Qwen3-Max-Preview уже доступна в Qwen Chat и через Alibaba Cloud API.

🟢Qwen Chat
🟢Alibaba Cloud API

#ai #kimi #llm #qwen
🔥1
☁️Ничего се, openrouter зарелизил свои модели

На Openrouter обнаружили «стелс» модель с кодовым названием Sonoma Sky Alpha. В тестах по математике она обгоняет GPT-5.

У модели огромное контекстное окно в 2 млн токенов — в пять раз больше, чем у GPT-5. Этого хватит на целую книгу. За несколько секунд она может сгенерировать простое веб-приложение с первой попытки.

Тестируем бесплатно здесь

P.S. я тестировал мне понравилось в кодогенерации, но не понравилось в рейт лимитах 😡😈

#openrouter #gpt5
🤖 Сэм обещал заменить разработчиков, кажется начинается, 95% времени на изучение проблемы, все остальное на исправление

#codex #ai #claude
Media is too big
VIEW IN TELEGRAM
Пока все таращатся на новый Claude Sonnet 4.5, в Minecraft случилась эпичная редстоун-магия! 🤯

Вау, представьте: один гений в Minecraft слепил из редстоуна настоящую нейронку, которая работает как часы! 😎

🔘 Она полностью живая внутри игры: с 64 токенами контекста и даже болтает в простых чатах. Никаких лагов, только магия блоков!

🔘 Интернет в шоке и зовёт это “самым безумным AI-проектом в Minecraft”: больше 5 миллионов параметров, махина размером 1020×260×1656 блоков (это как целый город!), и чувак, наверное, не спал месяцами, чтобы это собрать. 😂

А всего 20 лет назад такая языковая модель была бы суперзвездой в реальном мире… Эх, времена меняются, теперь даже в кубики умнее нас! 🚀