Machinelearning

0:08

Когда у Клода закончились токены

@ai_machinelearning_big_data

😁182🤣64🤔52👏14🔥7🤬7❤6👍4😢3

21.1K views10:54

🌟

Zyphra выложила чекпоит ZAYA1-74B-Preview

Через 2 дня после релиза ZAYA1-8B Zyphra опубликовала превью более крупной модели ZAYA1-74B.

Это промежуточная веха: модель прошла претрейн, мидтрейн и расширение контекста, но RL-постобучения и инстракт-тюнинга на ней ещё не делали.

Zyphra ставит ZAYA1-74B-Preview рядом с полноценными моделями и приводит 2 метрики - avg@1 и pass@4.
По pass@1 модель ожидаемо отстаёт, а pass@4 уже подбирается к лидерам. Zyphra трактует это как сигнал того, что в базовой модели достаточно разнообразия и способностей, чтобы RL вытащил их в финальные цифры.

В подтверждение этой логики Zyphra ссылается на опыт ZAYA1-8B

Там между чекпойнтами с похожими pass@k и финальной версией разрыв оказался большим: +20.8 на AIME'26, +32.4 на HMMT'26, +10.0 на LiveCodeBench-v6, +11.7 на GPQA-Diamond, +19.0 на IFEval.

🟡

Внутри 74B-Preview масштабированная 8B

То же CCA-внимание, но каждый второй слой заменён на внимание со скользящим окном размером 4K.

Со слов Zyphra, это почти вдвое сокращает KV-кеш без потерь на длинном контексте. Чтобы трюк сработал, при расширении контекста в слоях со скользящим окном сохранили исходное основание RoPE, а у глобальных - растянули.

🟡

Контекст наращивали поэтапно: 32k → 128k → 256k.

Претрейн занял около 15T токенов в две фазы: сначала общие веб-данные, затем больше математики, кода и науки. Мидтрейн - 3 фазы примерно по 1T токенов: расширение контекста, ввод reasoning-трасс и фокус на агентных задачах.

🟡

Агентика

На ZAYA1-8B этот режим работал слабее, поэтому в корпус 74B-Preview добавили больше агентного материала. Первые цифры на τ-bench Zyphra описывает как многообещающие.

Авторы при этом оговариваются, что pass@k плохо отражает многошаговые сценарии, там важнее следование инструкциям, удержание состояния и устойчивость к промежуточным ошибкам, и значительная часть этих способностей появляется только после агентного RL.

Старшую ZAYA1, кстати, тоже обучали исключительно на AMD . Полноценный RL уже идёт, финальную версию 74B Zyphra планирует выпустить в ближайшие недели.

📌Лицензирование: Apache 2.0 License.

🟡

Блогпост

🟡

Модель

@ai_machinelearning_big_data
#AI #ML #LLM #ZAYA1 #ZYPHRA

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

2👍34🤩25❤21🔥11🤔1

19.2K views18:39

📌

Особенности полета насекомых указывают путь к созданию роботов с машущими крыльями

Группа учёных Корнеллского университета под руководством профессора физики и аэрокосмической инженерии Джейн Ван опубликовала в журнале Proceedings of the National Academy of Sciences работу, описывающую механику устойчивого машущего полёта.

Результаты могут стать практической основой для разработки миниатюрных летательных аппаратов с машущими крыльями.

Модель сводит сложную трёхмерную аэродинамику к 5 ключевым параметрам: соотношению массы крыла и тела, нагрузке на крыло, положению шарнира крыла, частоте и амплитуде взмахов.

Анализ этого "пятимерного пространства" дал 2 формулы, по которым можно определить, при каких сочетаниях форма и кинематика сами обеспечивают устойчивость в воздухе без активной коррекции со стороны нервной системы.

Авторы называют этот режим состоянием антирезонанса: при определённом соотношении инерции крыла и движения тела насекомое удерживает равновесие при воздушных возмущениях.

До сих пор считалось, что большинство насекомых пассивно неустойчивы и сохраняют полёт за счёт быстрой нейронной обратной связи (у плодовых мушек, по более ранним данным, корректировка происходит примерно каждые 4 миллисекунды, на каждом взмахе крыла).

По словам Вана, расширение модели до большего числа возможных морфологий показало, что пассивная устойчивость встречается в природе шире, чем предполагалось.

Практический интерес исследования лежит прежде всего в области робототехники.

Создание летающих машин размером с насекомое десятилетиями упирается в необходимость датчиков и быстрых контуров обратной связи: микродроны слишком малы, чтобы нести подобную электронику без потери полезной нагрузки.

Если конструкцию удаётся подобрать так, чтобы устойчивость возникала из геометрии и частоты взмахов, требования к управлению заметно снижаются.

Авторы отмечают, что их работа - вычислительная модель и её предсказания ещё предстоит сопоставить с поведением реальных видов и инженерных прототипов.

@ai_machinelearning_big_data

#news #ai #ml

Please open Telegram to view this post

VIEW IN TELEGRAM

👍101🤓74👏16❤10🔥8🤔7

21.2K views12:16

0:10

0:19

@ai_machinelearning_big_data

🙂

Фрагменты новостей из 2030

вы пока не поймете

Anthropic запустила новую систему персонализированных уведомлений для модели Mythos v5.

Система будет предупреждать о найденных багах и напоминать о превышении дневных лимитов в Сlaude Code.

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤔109👍44👏21😁18🤗8👾8❤4🤬4🗿2🥱1😨1

18.9K views16:04

0:42

POV: я открываю новый чат с Claude, потому что память забилась, но он снова понятия не имеет, кто я такой.

@ai_machinelearning_big_data

😁118🤨43🤔17❤13😐12🤷‍♂7👍5👌1🫡1

15.2K views10:55