В Claude Code добавили Routines - способ превратить разовые команды в повторяемые сценарии.
Теперь вместо ручного управления ты задаёшь поведение:
Claude сам выполняет цепочки действий под задачу.
По сути это не промпты, а воспроизводимые workflow внутри Claude Code
Что это даёт:
- автоматизация типовых задач
- меньше ручного контроля
- стабильный результат от запуска к запуску
- экономия времени на рутине
Ты один раз описываешь, как работать.
дальше Claude просто повторяет это как систему.
code.claude.com/docs/en/routines
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Теперь вместо ручного управления ты задаёшь поведение:
Claude сам выполняет цепочки действий под задачу.
По сути это не промпты, а воспроизводимые workflow внутри Claude Code
Что это даёт:
- автоматизация типовых задач
- меньше ручного контроля
- стабильный результат от запуска к запуску
- экономия времени на рутине
Ты один раз описываешь, как работать.
дальше Claude просто повторяет это как систему.
code.claude.com/docs/en/routines
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
❤21👍12🔥7
This media is not supported in your browser
VIEW IN TELEGRAM
🔧 Вышел «Claude Code для хакеров» - Decepticon. И это уже не игрушка, а полноценный боевой агент, который может заменить команду пентестеров.
ИИ строит цепочки атак и ломает бизнес-логику систем. По сути, ты получаешь симуляцию настоящего противника у себя под рукой.
Главное отличие от подобных решений - автономность.
Агент сам принимает решения, двигается по системе и подбирает стратегии под задачу. Тебе не нужно вручную вести каждый шаг, достаточно задать цель.
Под каждую задачу поднимается отдельный агент, чтобы не было каши в контексте и лишней нагрузки. Управление через консоль - без перегруза, всё быстро и понятно.
Разворачивается через Docker, а вся активность остаётся внутри изолированной среды. Можно спокойно тестировать сценарии атак и прокачивать навыки без риска.
Фактически это твой персональный red team в коробке.
https://github.com/PurpleAILAB/Decepticon
ИИ строит цепочки атак и ломает бизнес-логику систем. По сути, ты получаешь симуляцию настоящего противника у себя под рукой.
Главное отличие от подобных решений - автономность.
Агент сам принимает решения, двигается по системе и подбирает стратегии под задачу. Тебе не нужно вручную вести каждый шаг, достаточно задать цель.
Под каждую задачу поднимается отдельный агент, чтобы не было каши в контексте и лишней нагрузки. Управление через консоль - без перегруза, всё быстро и понятно.
Разворачивается через Docker, а вся активность остаётся внутри изолированной среды. Можно спокойно тестировать сценарии атак и прокачивать навыки без риска.
Фактически это твой персональный red team в коробке.
https://github.com/PurpleAILAB/Decepticon
❤22👍10🔥7🥱2
Media is too big
VIEW IN TELEGRAM
Главный стопор квантовых технологий был не в железе, а в хаосе. Кубиты слишком хрупкие: малейшее изменение температуры или микровибрация и вычисление просто разваливается.
Поэтому инженеры тратят дни на ручную калибровку. Медленно, дорого и нестабильно. А системы коррекции ошибок банально не успевают за происходящим в реальном времени.
NVIDIA зашла с другой стороны и превратила ИИ в «операционку» для квантовых машин.
Они выкатили open-source семейство моделей - NVIDIA Ising.
Теперь вместо ручной настройки модель буквально «смотрит» на квантовый процессор через vision-language подход и мгновенно реагирует на изменения.
Калибровка сжимается с дней до часов.
NVIDIA сделали 3D-нейросеть, которая в реальном времени декодирует и исправляет ошибки квантового состояния. Быстрее и точнее текущих open-source решений в разы.
ИИ фактически предугадывает, где система сломается, и чинит её до того, как это произойдёт.
Хуанг называет это control plane для квантовых компьютеров.
И это уже не лабораторный эксперимент. Harvard University, Lawrence Berkeley National Laboratory и Fermilab уже интегрируют решение.
Пост в X: https://x.com/nvidianewsroom/status/2044058999029473407
Пресс-релиз NVIDIA: https://nvidianews.nvidia.com/news/nvidia-launches-ising-the-worlds-first-open-ai-models-to-accelerate-the-path-to-useful-quantum-computers
NVIDIA Ising: https://www.nvidia.com/en-us/solutions/quantum-computing/ising/
NVIDIA CUDA-Q: https://developer.nvidia.com/cuda-q
NVIDIA NVQLink: https://www.nvidia.com/en-us/solutions/quantum-computing/nvqlink/
NVIDIA NIM: https://www.nvidia.com/en-us/ai-data-science/products/nim-microservices/
NVIDIA Quantum Day: https://www.nvidia.com/en-us/events/quantum-day/
@data_analysis_ml
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15❤9👍9🤯1
Трансформация профессии разработчика в эпоху ИИ
Профессия разработчика меняется прямо сейчас: ИИ уже пишет код, предлагает архитектуру и собирает прототипы за минуты. Но без фундаментальных знаний архитектуры, алгоритмов, сетей, безопасности и DevOps использовать такие инструменты рискованно.
Центральный университет запускает серию бесплатных вебинаров о том, как меняется роль разработчика в 2026 году, какие навыки остаются критически важными и как безопасно и эффективно использовать нейросети в разработке.
На вебинарах разберем:
— почему ИИ не заменит программиста, но изменит его роль;
— какие навыки и языки будут востребованы;
— чего ждут работодатели от разработчиков сегодня;
— почему магистратура по бэкенд-разработке может стать преимуществом;
— как вырасти в техлида и тимлида, не теряя технических экспертных знаний.
Спикеры — лидеры индустрии из Центрального университета, Авито и cloud. ru.
Даты вебинаров: 21, 23 и 27 апреля 2026, 19:00 мск.
Регистрируйся по ссылке
Профессия разработчика меняется прямо сейчас: ИИ уже пишет код, предлагает архитектуру и собирает прототипы за минуты. Но без фундаментальных знаний архитектуры, алгоритмов, сетей, безопасности и DevOps использовать такие инструменты рискованно.
Центральный университет запускает серию бесплатных вебинаров о том, как меняется роль разработчика в 2026 году, какие навыки остаются критически важными и как безопасно и эффективно использовать нейросети в разработке.
На вебинарах разберем:
— почему ИИ не заменит программиста, но изменит его роль;
— какие навыки и языки будут востребованы;
— чего ждут работодатели от разработчиков сегодня;
— почему магистратура по бэкенд-разработке может стать преимуществом;
— как вырасти в техлида и тимлида, не теряя технических экспертных знаний.
Спикеры — лидеры индустрии из Центрального университета, Авито и cloud. ru.
Даты вебинаров: 21, 23 и 27 апреля 2026, 19:00 мск.
Регистрируйся по ссылке
❤6👍6😱1🐳1🌚1
ИИ решил задачу Эрдёша за 80 минут. Люди тратили на неё годы
GPT-5.4 Pro закрыл проблему №1196 из списка Эрдёша. Это задачи про primitive sets - наборы чисел, где ни одно число не делит другое.
Пример простой:
• {2, 3, 5} работает
• {2, 4} ломается, потому что 2 делит 4
На этом простота заканчивается. Дальше начинается сложная теория чисел, связанная с простыми числами и факторизацией.
Конкретно эта задача про то, как такие наборы ведут себя в целом. Не один пример, а общая структура и ограничения.
Контекст важный. Один из главных экспертов по теме, Jared Lichtman, разбирал эту задачу около 7 лет вместе с топовыми математиками. Это не забытая проблема, её активно пытались решить.
ИИ справился примерно за 80 минут.
Все десятилетиями шли через один и тот же подход. Аналитика плюс вероятностные методы. Это стало негласным стандартом.
Модель просто отказалась от этого пути и осталась в чистом анализе, используя веса фон Мангольдта.
Фактически она пошла дорогой, которую люди игнорировали из-за математической интуиции и привычек.
В результате получилось не просто решение, а аккуратное доказательство, которое потенциально упрощает более широкий класс задач.
Если это подтвердится, это повлияет не на одну задачу, а на целый кусок теории чисел.
Похоже, что модели начали находить не только ответы, но и неожиданные идеи, которые люди системно пропускали.
https://x.com/jdlichtman/status/2044298382852927894
GPT-5.4 Pro закрыл проблему №1196 из списка Эрдёша. Это задачи про primitive sets - наборы чисел, где ни одно число не делит другое.
Пример простой:
• {2, 3, 5} работает
• {2, 4} ломается, потому что 2 делит 4
На этом простота заканчивается. Дальше начинается сложная теория чисел, связанная с простыми числами и факторизацией.
Конкретно эта задача про то, как такие наборы ведут себя в целом. Не один пример, а общая структура и ограничения.
Контекст важный. Один из главных экспертов по теме, Jared Lichtman, разбирал эту задачу около 7 лет вместе с топовыми математиками. Это не забытая проблема, её активно пытались решить.
ИИ справился примерно за 80 минут.
Все десятилетиями шли через один и тот же подход. Аналитика плюс вероятностные методы. Это стало негласным стандартом.
Модель просто отказалась от этого пути и осталась в чистом анализе, используя веса фон Мангольдта.
Фактически она пошла дорогой, которую люди игнорировали из-за математической интуиции и привычек.
В результате получилось не просто решение, а аккуратное доказательство, которое потенциально упрощает более широкий класс задач.
Если это подтвердится, это повлияет не на одну задачу, а на целый кусок теории чисел.
Похоже, что модели начали находить не только ответы, но и неожиданные идеи, которые люди системно пропускали.
https://x.com/jdlichtman/status/2044298382852927894
👍33❤16🔥8🙏2
Forwarded from Machinelearning
⭐️ Google DeepMind представил Gemini 3.1 Flash TTS - свою самую управляемую модель генерации речи
Главная фишка - Audio Tags.
Это текстовые команды прямо в промпте, которыми можно управлять стилем голоса, подачей и темпом речи. По сути, вы режиссируете озвучку через текст.
Что ещё важно:
— Более естественное звучание речи
— Поддержка 70+ языков (русский, японский, немецкий и др.)
— Все выходные аудио маркируются SynthID (цифровой водяной знак, чтобы отличить синтезированную речь от настоящей)
На бенчмарке Artificial Analysis TTS Arena модель заняла 2-е место с Elo-рейтингом 1211 - сразу за Inworld TTS 1.5 Max (1215) и выше ElevenLabs v3 (1179).
Где попробовать:
→ Рreview через Gemini API и Google AI Studio
→ Бизнесу -а Vertex AI
→ Всем пользователям - скоро появится в Google Vids
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/
@ai_machinelearning_big_data
#google `#tts
Главная фишка - Audio Tags.
Это текстовые команды прямо в промпте, которыми можно управлять стилем голоса, подачей и темпом речи. По сути, вы режиссируете озвучку через текст.
Что ещё важно:
— Более естественное звучание речи
— Поддержка 70+ языков (русский, японский, немецкий и др.)
— Все выходные аудио маркируются SynthID (цифровой водяной знак, чтобы отличить синтезированную речь от настоящей)
На бенчмарке Artificial Analysis TTS Arena модель заняла 2-е место с Elo-рейтингом 1211 - сразу за Inworld TTS 1.5 Max (1215) и выше ElevenLabs v3 (1179).
Где попробовать:
→ Рreview через Gemini API и Google AI Studio
→ Бизнесу -а Vertex AI
→ Всем пользователям - скоро появится в Google Vids
https://blog.google/innovation-and-ai/models-and-research/gemini-models/gemini-3-1-flash-tts/
@ai_machinelearning_big_data
#google `#tts
❤16🔥7👍3
This media is not supported in your browser
VIEW IN TELEGRAM
⚡️ В Telegram завезли агентов, которые создают других ботов
Павел Дуров сообщил, что теперь в Telegram можно развернуть бота-агента буквально в пару кликов
Агент может сам создавать новых ботов и управлять ими от вашего имени
Похоже, фича не случайная, её явно готовили под экосистему вроде OpenClaw
Ранее разработчик OpenClaw говорил, что с ним связалась команда Telegram и предложила помощь с интеграцией
Если это так, Telegram превращается не просто в мессенджер
а в платформу для запуска AI-агентов с доступом к миллионам пользователей
https://t.me/durov/490
🎯Полезные Мл-ресурсы
@data_analysis_ml
Павел Дуров сообщил, что теперь в Telegram можно развернуть бота-агента буквально в пару кликов
Агент может сам создавать новых ботов и управлять ими от вашего имени
Похоже, фича не случайная, её явно готовили под экосистему вроде OpenClaw
Ранее разработчик OpenClaw говорил, что с ним связалась команда Telegram и предложила помощь с интеграцией
Если это так, Telegram превращается не просто в мессенджер
а в платформу для запуска AI-агентов с доступом к миллионам пользователей
https://t.me/durov/490
🎯Полезные Мл-ресурсы
@data_analysis_ml
❤26👍12🔥8🤔2
⚡️ Вышло большое обновление популярного курса- Ai AI агенты, которые реально работают в проде!
Вы всё ещё пишете обёртки над ChatGPT и называете это «AI-продуктом»?
Пока вы промптите - рынок переходит на агентные системы. Те, что принимают решения, ходят в API, работают с Postgres и Redis, управляют браузером через Playwright.
И 90% таких систем ломаются между ноутбуком и продом.
AI Agents Engineering - курс, который закрывает этот разрыв. LangGraph, AutoGen, Computer Use, LLMOps. 8 модулей, 120+ шагов - от архитектуры до деплоя в Docker.
На выходе: реальный опыт на большой практической базе, а production-агент и навыки, за которые уже платят.
👉 48 часов действует скидка на курс 55 процентов: https://stepik.org/a/276971/
Вы всё ещё пишете обёртки над ChatGPT и называете это «AI-продуктом»?
Пока вы промптите - рынок переходит на агентные системы. Те, что принимают решения, ходят в API, работают с Postgres и Redis, управляют браузером через Playwright.
И 90% таких систем ломаются между ноутбуком и продом.
AI Agents Engineering - курс, который закрывает этот разрыв. LangGraph, AutoGen, Computer Use, LLMOps. 8 модулей, 120+ шагов - от архитектуры до деплоя в Docker.
На выходе: реальный опыт на большой практической базе, а production-агент и навыки, за которые уже платят.
👉 48 часов действует скидка на курс 55 процентов: https://stepik.org/a/276971/
❤7👍3🥴3🔥2❤🔥1
Ещё год назад казалось, что рынок GenAI уже поделен ,ChatGPT держал 77% трафика и выглядел недосягаемым.
Сейчас - уже 57%
И это падение за 12 месяцев
Gemini резко вырос до 25%
за счёт главного оружия Google - дистрибуции поиск, почта, документы — пользователь даже не замечает переход
Claude - самый опасный конкурент, почти утроил долю до 6% за месяц, без агрессивного маркетинга
просто потому что людям начинает нравиться больше.
Даже шум вокруг Mythos сыграл в плюс это внимание, которое не купишь.
Внизу остаются DeepSeek, Grok, Copilot, Perplexity у всех меньше 4% они пока не влияют на расстановку сил.
https://x.com/Similarweb/status/2044682637860573534
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥19❤8👍7
⚡️ Claude Opus 4.7 - апдейт не про скорость, а про контроль и качество
Anthropic усилили сразу несколько критичных зон
Vision:
• модель теперь обрабатывает изображения с более чем в 3 раза большим разрешением
• результат - заметно лучшее качество интерфейсов, презентаций и документов
API:
появился новый уровень усилия - xhigh
между high и max, даёт более точный контроль баланса
reasoning ↔ latency
добавили Task Budgets (beta)
можно управлять приоритетами и стоимостью в длинных задачах
Claude Code:
• новая команда /ultrareview
• запускает отдельную сессию ревью
• проходит по изменениям и находит то, что обычно ловит внимательный ревьюер
• расширили auto mode для Max пользователей
длинные задачи теперь выполняются с меньшим количеством прерываний
https://claude.ai/new
Anthropic усилили сразу несколько критичных зон
Vision:
• модель теперь обрабатывает изображения с более чем в 3 раза большим разрешением
• результат - заметно лучшее качество интерфейсов, презентаций и документов
API:
появился новый уровень усилия - xhigh
между high и max, даёт более точный контроль баланса
reasoning ↔ latency
добавили Task Budgets (beta)
можно управлять приоритетами и стоимостью в длинных задачах
Claude Code:
• новая команда /ultrareview
• запускает отдельную сессию ревью
• проходит по изменениям и находит то, что обычно ловит внимательный ревьюер
• расширили auto mode для Max пользователей
длинные задачи теперь выполняются с меньшим количеством прерываний
https://claude.ai/new
❤21👍9🔥5🥱1
Хаос в данных — это хаос в прибыли. Наводим порядок.
Вы ежедневно тонете в разрозненных источниках, противоречивых отчётах и «ручном» Excel? Ваша команда тратит 80% времени на “вычистку” данных, а не на инсайты?
Представьте: единая, прозрачная структура, где каждый цифровой актив ложится на своё место, а скорость принятия решений растёт в разы. Без простоев, перекладывания битых CSV и устаревших метрик.
Практикум «Порядок в данных» — это не скучная теория. Это управленческий инструментарий:
Живой Практикум от руководителя Яндекс eLama - 22 апреля в 19:00 (мск)
Количество мест ограничено - зарегистрируйтесь сейчас
Вы ежедневно тонете в разрозненных источниках, противоречивых отчётах и «ручном» Excel? Ваша команда тратит 80% времени на “вычистку” данных, а не на инсайты?
Представьте: единая, прозрачная структура, где каждый цифровой актив ложится на своё место, а скорость принятия решений растёт в разы. Без простоев, перекладывания битых CSV и устаревших метрик.
Практикум «Порядок в данных» — это не скучная теория. Это управленческий инструментарий:
✅ Как построить систему управления данными без сбоев
✅ Как избавиться от «аналитического мусора» и срезать операционные издержки
✅ Как делегировать контроль качества так, чтобы подразделения сами несли ответственность за чистоту информации
Живой Практикум от руководителя Яндекс eLama - 22 апреля в 19:00 (мск)
Количество мест ограничено - зарегистрируйтесь сейчас
1❤2🔥2🤣2
Qwen3.6-35B-A3B в 2-bit режиме провела полный bug hunt:
• нашла баги
• собрала доказательства
• создала repro
• написала фиксы
• добавила тесты
• и оформила PR
И всё это локально.
13GB RAM. Без облаков.
За время работы модель:
• сделала 30+ tool calls
• прошерстила 20 сайтов
• исполняла Python код
Топ для такой крохи!
GitHub: https://github.com/unslothai/unsloth
• нашла баги
• собрала доказательства
• создала repro
• написала фиксы
• добавила тесты
• и оформила PR
И всё это локально.
13GB RAM. Без облаков.
За время работы модель:
• сделала 30+ tool calls
• прошерстила 20 сайтов
• исполняла Python код
Топ для такой крохи!
GitHub: https://github.com/unslothai/unsloth
👍21❤18🔥6😁1💯1
⚡️ Аналитика уходит в диалоговый режим
Эксперты направления OneData VK фиксируют сдвиг: от SQL-first к естественному языку и агентам. Теперь аналитик — не исполнитель, а контролёр ИИ и качества данных.
Что меняется:
• Аналитику можно «спросить», а не писать запросы
• ИИ уже экономит время: задачи с 20 → 5 минут
• SQL остаётся, но как язык для ИИ, а не для человека
• Уход от разрозненных хранилищ к единым платформам (OneData)
• Дата-контракты и SLA на доставку данных
• Фокус смещается с объема на качество данных
Главный риск — галлюцинации
ошибка выглядит как нормальные данные, поэтому возможен риск неверных решений
Решение:
• проверка моделями (LLM-as-a-judge)
• DQ-контроль и валидация
Подробнее
Эксперты направления OneData VK фиксируют сдвиг: от SQL-first к естественному языку и агентам. Теперь аналитик — не исполнитель, а контролёр ИИ и качества данных.
Что меняется:
• Аналитику можно «спросить», а не писать запросы
• ИИ уже экономит время: задачи с 20 → 5 минут
• SQL остаётся, но как язык для ИИ, а не для человека
• Уход от разрозненных хранилищ к единым платформам (OneData)
• Дата-контракты и SLA на доставку данных
• Фокус смещается с объема на качество данных
Главный риск — галлюцинации
ошибка выглядит как нормальные данные, поэтому возможен риск неверных решений
Решение:
• проверка моделями (LLM-as-a-judge)
• DQ-контроль и валидация
Подробнее
👍14❤8🔥6😁5🤔2💯1
⭐️ Если у тебя накопилось десятки сохранённых гайдов по AI - это нормально
Но большую часть из них ты, скорее всего, не откроешь/
Вот один список, который покрывает основные кейсы работы с Claude.
Claude 101
http://how-to-claude.ai
Claude Code
http://claudecode.free
Claude Skills
http://claude-skills.free
Почему стоит меньше полагаться на промпты
https://ruben.substack.com/p/stop-prompting-claude
Claude в Excel
https://ruben.substack.com/p/ai-couldnt-do-excel
40 репозиториев по 8 категориям. Полный роадмап от математических основ до написания собственного LLM.
https://uproger.com/40-github-repozitoriev-kotorye-zamenyat-vam-lyuboj-platnyj-kurs-po-ai-polnyj-roadmap-ot-matematicheskih-osnov-do-napisaniya-sobstvennogo-llm/
Рост аудитории с помощью AI
https://ruben.substack.com/p/1000000how-claude.team
Claude для команд разработчиков
http://how-claude.team
Почему одного промпта недостаточно
https://ruben.substack.com/p/magic
Создание презентаций
http://how-to-gamma.ai
Настройка Claude Cowork
http://claude-co.work
Как адаптировать стиль ИИ под себя
https://ruben.substack.com/p/i-am-just-a-text-file
Интерактивные графики
https://ruben.substack.com/p/claude-charts
Claude как рабочая среда
https://ruben.substack.com/p/claude-computer
Cowork + Projects
https://ruben.substack.com/p/claude-cowork-project
Как правильно настроить AI перед работой
https://ruben.substack.com/p/how-to-better-use-ai-before-prompting
Сохрани, пригодится.
Но большую часть из них ты, скорее всего, не откроешь/
Вот один список, который покрывает основные кейсы работы с Claude.
Claude 101
http://how-to-claude.ai
Claude Code
http://claudecode.free
Claude Skills
http://claude-skills.free
Почему стоит меньше полагаться на промпты
https://ruben.substack.com/p/stop-prompting-claude
Claude в Excel
https://ruben.substack.com/p/ai-couldnt-do-excel
40 репозиториев по 8 категориям. Полный роадмап от математических основ до написания собственного LLM.
https://uproger.com/40-github-repozitoriev-kotorye-zamenyat-vam-lyuboj-platnyj-kurs-po-ai-polnyj-roadmap-ot-matematicheskih-osnov-do-napisaniya-sobstvennogo-llm/
Рост аудитории с помощью AI
https://ruben.substack.com/p/1000000how-claude.team
Claude для команд разработчиков
http://how-claude.team
Почему одного промпта недостаточно
https://ruben.substack.com/p/magic
Создание презентаций
http://how-to-gamma.ai
Настройка Claude Cowork
http://claude-co.work
Как адаптировать стиль ИИ под себя
https://ruben.substack.com/p/i-am-just-a-text-file
Интерактивные графики
https://ruben.substack.com/p/claude-charts
Claude как рабочая среда
https://ruben.substack.com/p/claude-computer
Cowork + Projects
https://ruben.substack.com/p/claude-cowork-project
Как правильно настроить AI перед работой
https://ruben.substack.com/p/how-to-better-use-ai-before-prompting
Сохрани, пригодится.
👍15🔥8❤5🤣3
⚡️ Prefill-as-a-Service предлагает пересобрать инференс
В статье (авторы Kimi.ai) разбирают, почему держать Prefill и Decode в одном процессе невыгодно, и как это разнести без потерь.
Любой ответ модели начинается с Prefill. Модель читает весь вход и строит внутреннее состояние. Дальше идёт Decode. Пошаговая генерация токенов.
Эти этапы ведут себя по-разному. Prefill короткий, но тяжёлый по вычислениям. Decode долгий и чувствительный к задержкам. Когда они сидят на одном GPU, часть ресурсов простаивает.
В статье предлагают вынести Prefill в отдельный сервис. Его можно крутить на других узлах или в другом дата-центре. Decode оставить ближе к пользователю, где важна задержка на токен.
Авторы упирались в KV cache. Он слишком большой, чтобы гонять его по сети без ощутимых накладных расходов. Но в статье показывают, что при оптимизации представления KV это становится практичным.
На практике это даёт более быстрый первый токен и лучший throughput. Появляется возможность подбирать железо под конкретный этап, а не под весь пайплайн сразу.
Инференс перестаёт быть привязанным к одному месту. Его можно разнести, как обычный сервис. И дальше оптимизировать уже не только модель, но и архитектуру вокруг неё.
Проверено на модели Kimi Linear, увеличенной в 20 раз:
• пропускная способность модели выросла в 1.54 раза
• P90 TTFT ниже на 64%.
• На выходе это напрямую конвертируется в более дешёвый токен.
https://arxiv.org/html/2604.15039v1
В статье (авторы Kimi.ai) разбирают, почему держать Prefill и Decode в одном процессе невыгодно, и как это разнести без потерь.
Любой ответ модели начинается с Prefill. Модель читает весь вход и строит внутреннее состояние. Дальше идёт Decode. Пошаговая генерация токенов.
Эти этапы ведут себя по-разному. Prefill короткий, но тяжёлый по вычислениям. Decode долгий и чувствительный к задержкам. Когда они сидят на одном GPU, часть ресурсов простаивает.
В статье предлагают вынести Prefill в отдельный сервис. Его можно крутить на других узлах или в другом дата-центре. Decode оставить ближе к пользователю, где важна задержка на токен.
Авторы упирались в KV cache. Он слишком большой, чтобы гонять его по сети без ощутимых накладных расходов. Но в статье показывают, что при оптимизации представления KV это становится практичным.
На практике это даёт более быстрый первый токен и лучший throughput. Появляется возможность подбирать железо под конкретный этап, а не под весь пайплайн сразу.
Инференс перестаёт быть привязанным к одному месту. Его можно разнести, как обычный сервис. И дальше оптимизировать уже не только модель, но и архитектуру вокруг неё.
Проверено на модели Kimi Linear, увеличенной в 20 раз:
• пропускная способность модели выросла в 1.54 раза
• P90 TTFT ниже на 64%.
• На выходе это напрямую конвертируется в более дешёвый токен.
https://arxiv.org/html/2604.15039v1
👍8❤4🔥4🤔1
🚀 Появился интересный вариант Qwen с улучшенным мышлением
Qwen 3.6 35B дообучили на цепочках рассуждений от Opus 4.6.
Идея простая:
• берут быструю модель
• добавляют ей «логику» через distilled CoT
• получают баланс скорости и качества
Что в итоге:
- отвечает быстро, как обычный Qwen
- лучше справляется со сложными задачами
- реже теряется в длинных рассуждениях
Это тот же подход, который уже хорошо зашёл в комьюнити с Qwen 3.5 27B.
То есть не новая модель, а грамотный fine-tune, который усиливает уже существующую
Такие сборки могут быть полезны тем, что:
• их можно запускать локально
• они дешевле API
• и при этом дают более стабильное reasoning
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled
@data_analysis_ml
Qwen 3.6 35B дообучили на цепочках рассуждений от Opus 4.6.
Идея простая:
• берут быструю модель
• добавляют ей «логику» через distilled CoT
• получают баланс скорости и качества
Что в итоге:
- отвечает быстро, как обычный Qwen
- лучше справляется со сложными задачами
- реже теряется в длинных рассуждениях
Это тот же подход, который уже хорошо зашёл в комьюнити с Qwen 3.5 27B.
То есть не новая модель, а грамотный fine-tune, который усиливает уже существующую
Такие сборки могут быть полезны тем, что:
• их можно запускать локально
• они дешевле API
• и при этом дают более стабильное reasoning
https://huggingface.co/hesamation/Qwen3.6-35B-A3B-Claude-4.6-Opus-Reasoning-Distilled
@data_analysis_ml
👍17🔥9❤4🤔2
⚡️ OpenMythos: открытая реконструкция Claude Mythos на PyTorch
Это теоретическую сборка архитектуры Claude Mythos по первым принципам и публичной литературе. Это не веса от Anthropic, а попытка сообщества воспроизвести саму идею.
В основе лежит Recurrent-Depth Transformer: один и тот же параметризованный блок с общими весами прогоняется T раз внутри одного forward pass, так что глубина достигается не новыми слоями, а итерациями. Поверх этого накручен sparse MoE с top-K роутингом, дающий условные вычисления на каждом шаге.
В отличие от классического chain-of-thought, reasoning идёт целиком в непрерывном латентном пространстве, без генерации промежуточных токенов между шагами.
Гипотеза автора: рекурсивный блок плюс разреженные эксперты дают лучший компромисс качество/стоимость инференса и потенциально эмерджентный многошаговый reasoning без раздувания модели.
Схема: Prelude из плотных блоков, зацикленный Shared block с loop-index эмбеддингами и LoRA-адаптерами по глубине, MoE-роутинг, ACT-халтинг для раннего выхода, на выходе RMSNorm и tied LM head.
Полезно тем, кто копает recurrent-depth модели, латентное reasoning и эффективные MoE. Поиграться с архитектурой можно, не дожидаясь релиза весов.
https://github.com/kyegomez/OpenMythos
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
Это теоретическую сборка архитектуры Claude Mythos по первым принципам и публичной литературе. Это не веса от Anthropic, а попытка сообщества воспроизвести саму идею.
В основе лежит Recurrent-Depth Transformer: один и тот же параметризованный блок с общими весами прогоняется T раз внутри одного forward pass, так что глубина достигается не новыми слоями, а итерациями. Поверх этого накручен sparse MoE с top-K роутингом, дающий условные вычисления на каждом шаге.
В отличие от классического chain-of-thought, reasoning идёт целиком в непрерывном латентном пространстве, без генерации промежуточных токенов между шагами.
Гипотеза автора: рекурсивный блок плюс разреженные эксперты дают лучший компромисс качество/стоимость инференса и потенциально эмерджентный многошаговый reasoning без раздувания модели.
Схема: Prelude из плотных блоков, зацикленный Shared block с loop-index эмбеддингами и LoRA-адаптерами по глубине, MoE-роутинг, ACT-халтинг для раннего выхода, на выходе RMSNorm и tied LM head.
Полезно тем, кто копает recurrent-depth модели, латентное reasoning и эффективные MoE. Поиграться с архитектурой можно, не дожидаясь релиза весов.
https://github.com/kyegomez/OpenMythos
🎯Полезные Мл-ресурсы 🚀 Max
@data_analysis_ml
👍16❤7🔥5🥴2😐1