Gemma-4 теперь умеет предсказывать токены не по одному, а партиями
Google только что выпустили Multi-Token Prediction (MTP) драфтеры. Это штука, которая позволяет Gemma-4 предсказывать сразу несколько токенов вперед.
Обычно LLM генерируют строго по одному токену за шаг, и это одна из главных проблем архитектуры трансформеров, потому что работает медленно.
Что сделали Google:
– Они взяли еще одну модель, крошечную, обучили ее на задаче multi-token prediction, и поставили на роль drafter. Называется так, потому что эта модель пишет черновики, то есть пытается угадать действия большой модели на несколько токенов вперед.
– Батч черновых токенов проверяет основная модель. Фишка в том, что на проверку нужен всего один проход (вместо нескольких, если бы модель генерировала все эти токены сама).
– Если в черновой последовательности попадается ошибка, то: (1) этот токен заменяется на тот, который большая модель считает верным; (2) проверка прерывается и дальше драфтер предсказывает новую партию с этого места.
Например, мы сгенерировали 5 черновых токенов. Три перых совпало, четвертый заменили. Всего сэкономили три прохода большой модели.
Итог: MTP ускоряет генерацию примерно в 3 раза вообще без потерь в качестве. Все драфтеры выложили, так что уже можно попробовать погенерить что-нибудь в таком режиме.
blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
Google только что выпустили Multi-Token Prediction (MTP) драфтеры. Это штука, которая позволяет Gemma-4 предсказывать сразу несколько токенов вперед.
Обычно LLM генерируют строго по одному токену за шаг, и это одна из главных проблем архитектуры трансформеров, потому что работает медленно.
Что сделали Google:
– Они взяли еще одну модель, крошечную, обучили ее на задаче multi-token prediction, и поставили на роль drafter. Называется так, потому что эта модель пишет черновики, то есть пытается угадать действия большой модели на несколько токенов вперед.
– Батч черновых токенов проверяет основная модель. Фишка в том, что на проверку нужен всего один проход (вместо нескольких, если бы модель генерировала все эти токены сама).
– Если в черновой последовательности попадается ошибка, то: (1) этот токен заменяется на тот, который большая модель считает верным; (2) проверка прерывается и дальше драфтер предсказывает новую партию с этого места.
Например, мы сгенерировали 5 черновых токенов. Три перых совпало, четвертый заменили. Всего сэкономили три прохода большой модели.
Итог: MTP ускоряет генерацию примерно в 3 раза вообще без потерь в качестве. Все драфтеры выложили, так что уже можно попробовать погенерить что-нибудь в таком режиме.
blog.google/innovation-and-ai/technology/developers-tools/multi-token-prediction-gemma-4/
5👍199🔥74❤32🤔8🤯5😁3
Anthropic 🤝 SpaceX
Компании Дарио Амодеи и Илона Маска только что объявили о крупном партнерстве.
SpaceXAI предоставит Anthropic доступ ко всей вычислительной мощности дата-центра Colossus 1 в Мемфисе. Это примерно 300 мегаватт вычислительных мощностей или 220к GPU.
Это одна из крупнейших инфраструктурных договоренностей в секторе на данный момент.
В честь закрытия сделки Anthropic уже: удвоили 5-часовые лимиты для платных подписок; полностью убрали сокращение лимитов в пиковые часы (ура!); и повысили лимиты на Opus в API, включая RPM, TPM и квоты. Дальше обещают больше.
Сумма сделки не разглашается.
Компании Дарио Амодеи и Илона Маска только что объявили о крупном партнерстве.
SpaceXAI предоставит Anthropic доступ ко всей вычислительной мощности дата-центра Colossus 1 в Мемфисе. Это примерно 300 мегаватт вычислительных мощностей или 220к GPU.
Это одна из крупнейших инфраструктурных договоренностей в секторе на данный момент.
В честь закрытия сделки Anthropic уже: удвоили 5-часовые лимиты для платных подписок; полностью убрали сокращение лимитов в пиковые часы (ура!); и повысили лимиты на Opus в API, включая RPM, TPM и квоты. Дальше обещают больше.
Сумма сделки не разглашается.
🔥260❤55👍28🤯9👏3😁2🤔2🕊1
Агенты Anthropic теперь будут самостоятельно улучшаться в свободное время
Компания запустила в рисерч превью функцию dreaming. Она активируется в простое между сессиями и позволяет агенту «самообучаться».
claude.com/blog/new-in-claude-managed-agents
Модель в фоновом режиме просматривает предыдущие взаимодействия, выявляет паттерны типа повторяющихся ошибок, общих предпочтений пользователей или типовых рабочих процессов. Затем на основе анализа агент обновляет свою память, добавляя туда эффективные паттерны и правила.
Можно выбрать автоматическое обновление или с ручным подтверждением. Теоретически, оптимизация должна быть ощутимая: это не только про качество работы агента как таковое, но и про компактную память и, следовательно, снижение потребления ресурсов.
Пока функция работает только в рамках Claude Managed Agents, запросить доступ можно здесь
Ждем, пока покатят на Claude Code
Компания запустила в рисерч превью функцию dreaming. Она активируется в простое между сессиями и позволяет агенту «самообучаться».
claude.com/blog/new-in-claude-managed-agents
Модель в фоновом режиме просматривает предыдущие взаимодействия, выявляет паттерны типа повторяющихся ошибок, общих предпочтений пользователей или типовых рабочих процессов. Затем на основе анализа агент обновляет свою память, добавляя туда эффективные паттерны и правила.
Можно выбрать автоматическое обновление или с ручным подтверждением. Теоретически, оптимизация должна быть ощутимая: это не только про качество работы агента как таковое, но и про компактную память и, следовательно, снижение потребления ресурсов.
Пока функция работает только в рамках Claude Managed Agents, запросить доступ можно здесь
Ждем, пока покатят на Claude Code
👍140🔥47❤25🕊4🤨1
Forwarded from Яндекс
Почитать
Посмотреть
Посетить
Please open Telegram to view this post
VIEW IN TELEGRAM
🗿40❤12🤯8👍6🍾5😁3
После объявления о партнерстве SpaceX и Anthropic в X пошла волна мемов. Вашему вниманию:
😁184🔥66❤18👍5🤔1🤯1🤝1
Российские айтишники забили тревогу на фоне потери доступа к аккаунтам Claude
Как пишет Baza, с проблемой уже столкнулись сотни айтишников и бизнесменов из РФ, только на основании паспорта. Главная беда - потеря всех наработок, вроде перепроверенной и переписанной руками архитектуры модулей, разбора багов.
Утечка логов грозит обернуться катастрофическими последствиями, а дальнейшие действия со стороны Anthropic по отношению к российским пользователям непредсказуемы.
Люди паникуют - для кого-то блокировка равна потере работы. Один из айтишников напомнил историю с Рыбарем и ChatGPT, которая теперь кажется трендом. Подобные случаи усиливают тревогу вокруг того, насколько безопасно строить ежедневную работу на сервисах, доступ к которым пользователь не контролирует.
Как пишет Baza, с проблемой уже столкнулись сотни айтишников и бизнесменов из РФ, только на основании паспорта. Главная беда - потеря всех наработок, вроде перепроверенной и переписанной руками архитектуры модулей, разбора багов.
Утечка логов грозит обернуться катастрофическими последствиями, а дальнейшие действия со стороны Anthropic по отношению к российским пользователям непредсказуемы.
Люди паникуют - для кого-то блокировка равна потере работы. Один из айтишников напомнил историю с Рыбарем и ChatGPT, которая теперь кажется трендом. Подобные случаи усиливают тревогу вокруг того, насколько безопасно строить ежедневную работу на сервисах, доступ к которым пользователь не контролирует.
😁206🗿52 17🔥16🍾12❤11🤔7👍3🤨2 2🆒1
Нейросети думают сложными геометрическими структурами – новое исследование от Goodfire
Эта статья вызвала в последние дни очень много интереса в сообществе. Исследователи из Goodfire впервые показали занятную вещь: внутреннее пространство активаций моделей организовано не хаотично, а в виде многомерных форм, поверхностей и траекторий. Часто эти многообразия вполне интерпретируемы.
Выглядит это примерно как на первом видео. Авторы назвали явление neural geometry. Причем наблюдается оно не только в LLM, но и в vision моделях, и даже в хайповых world models.
Отличный пример – дни недели. Внутри модели они лежат не по прямой, а по круговой траектории. То есть Monday → Tuesday → Wednesday → … → Sunday образуют циклическую структуру в пространстве активаций.
На практике это значит, что если пытаться линейно перейти от понедельника к пятнице, промежуточные состояния будут бессмысленны, а вот если двигаться, глубо говоря, по окружности – с изменением угла, а не линейным смешиванием координат, – то по пути попадутся вторник, среда и четверг (второе видео).
Подобным геометрическим образом на многообразиях определенных форм лежат время, числа, цвета, биологическая таксономия и куча всего другого.
Авторы настаивают, что исследования neural geometry – это новый фронтир в интерпретации нейросетей, и именно геометрия может стать ключом от черного ящика.
www.goodfire.ai/research/the-world-inside-neural-networks#
Эта статья вызвала в последние дни очень много интереса в сообществе. Исследователи из Goodfire впервые показали занятную вещь: внутреннее пространство активаций моделей организовано не хаотично, а в виде многомерных форм, поверхностей и траекторий. Часто эти многообразия вполне интерпретируемы.
Выглядит это примерно как на первом видео. Авторы назвали явление neural geometry. Причем наблюдается оно не только в LLM, но и в vision моделях, и даже в хайповых world models.
Отличный пример – дни недели. Внутри модели они лежат не по прямой, а по круговой траектории. То есть Monday → Tuesday → Wednesday → … → Sunday образуют циклическую структуру в пространстве активаций.
На практике это значит, что если пытаться линейно перейти от понедельника к пятнице, промежуточные состояния будут бессмысленны, а вот если двигаться, глубо говоря, по окружности – с изменением угла, а не линейным смешиванием координат, – то по пути попадутся вторник, среда и четверг (второе видео).
Подобным геометрическим образом на многообразиях определенных форм лежат время, числа, цвета, биологическая таксономия и куча всего другого.
Авторы настаивают, что исследования neural geometry – это новый фронтир в интерпретации нейросетей, и именно геометрия может стать ключом от черного ящика.
www.goodfire.ai/research/the-world-inside-neural-networks#
🤩93❤46🔥27👍10😁5🤔4🤯2