| Матрица | N | Speedup | Ошибка (max)
| ------------------ | ---- | ---------- | ------------
| **hilbert** | 1024 | **13.09x** | 6.39e-02%
| **hilbert** | 2048 | **33.61x** | 2.68e-02%
| **hilbert** | 4096 | **62.16x** | 6.49e-07%
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
🏆22❤6👏2🕊1
Делюсь артефактом из детства. Я собрал весь журнал. Там надо было наклеивать стикеры дабы раскрыть сцены с разными персонажами. Клёвые описания на русском, обозначение спец приёмов любимых героев. Воистину легендарные картинки. Следом скину часть своего любимого разворота.
Мне было 8
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
Мне было 8
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥39❤13👍6🕊2👀2 2⚡1
Вот моя любимая страничка из этого журнала. На новогодний утренник я уговорил маму сделать мне через знакомых на заказ костюм скорпиона.
Это было эффектно. Больше такого тогда никто не повторял.
Первый косплейер на деревне.
Фоток не сохранилось, соррян.
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
Это было эффектно. Больше такого тогда никто не повторял.
Первый косплейер на деревне.
Фоток не сохранилось, соррян.
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
👏22❤15🔥14🕊2🏆1🍾1
Пока что без особых деталей, но я включаю режим слабоумие и отвага.
В ближайшее время будут лютые нагибы.
В ближайшее время будут лютые нагибы.
🔥37👍8👏4👌2❤1⚡1🕊1🎄1
Я спать.
ИИШКА РАБОТАЕТ! Подписка скоро будет и обнова дизайна.
ИИШКА РАБОТАЕТ! Подписка скоро будет и обнова дизайна.
180👏35🔥10❤3✍2👍2 2🕊1🤝1
Режим сбит как вражеский самолет. Пилот катапультировался , а я проснулся.
1👏17🔥8😢5❤1🕊1👻1 1
Фух, ну и денёк. Сегодня разбирался с проектом моего ученика\студента (правда он старше меня, но ничего).
У него своя реализация KAN языковой модели, свой движок интересный и свои подходы ОЧЕНЬ перспективные.
Вот разбирался с его контентом и продакшеном. Очень интересно...поэтому особо не отвечал. в замороче был.
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
У него своя реализация KAN языковой модели, свой движок интересный и свои подходы ОЧЕНЬ перспективные.
Вот разбирался с его контентом и продакшеном. Очень интересно...поэтому особо не отвечал. в замороче был.
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
👍36❤5🔥3🕊2 1
Rukallama V11 (TrueKAN) Эпоха 2. Данные на скриншотах.
МОЕ ЭКСПЕРТЫ ВСЕ ОК! САТУРАЦИИ tahn БОЛЬШЕ НЕТ! ЗНАНИЯ РАСПРЕДЕЛЯЮТСЯ ПРАВИЛЬНО!
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
МОЕ ЭКСПЕРТЫ ВСЕ ОК! САТУРАЦИИ tahn БОЛЬШЕ НЕТ! ЗНАНИЯ РАСПРЕДЕЛЯЮТСЯ ПРАВИЛЬНО!
✅ Hidden norms — clip работает
Layers 0-2: 593→760→933 (растёт)
Layers 3-23: 1000 (clip активен)
Range 593→1000, ratio 1.7× —стабильно, без inflation.
Это умеренная просадка warmup. Высокий LR (1e-4 →
3e-4) расшатал attention, заодно эмерджентно укрепил
sink в L21. Не катастрофа — теория говорит «1-2
stable sink — норма для трансформеров».
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍7✍2❤2🕊2🆒1
Техножнец
Rukallama V11 (TrueKAN) Эпоха 2. Данные на скриншотах. МОЕ ЭКСПЕРТЫ ВСЕ ОК! САТУРАЦИИ tahn БОЛЬШЕ НЕТ! ЗНАНИЯ РАСПРЕДЕЛЯЮТСЯ ПРАВИЛЬНО! ✅ Hidden norms — clip работает Layers 0-2: 593→760→933 (растёт) Layers 3-23: 1000 (clip активен) Range 593→1000…
Эпоха 2 RUKALLAMA V11. Болезни вылечены, эксперты живут, всё едет.
Норма скрытого состояния. Проблема V9 — внутренний сигнал в модели раздувался проходя через слои. Норма росла в 6.8 раза от первого слоя до последнего. Это значит градиенты при обучении взрывались, модель глохла в шуме на глубине.
В V11 поставил жёсткий потолок — clip на 1000.
— слои 0-2: норма растёт естественно (593 → 760 → 933). Это нормальный физиологический рост, модель собирает контекст. — слои 3-23: норма упирается в 1000 и держится. Clip работает, инфляции нет.
Размах от 593 до 1000, отношение 1.7×. Для сравнения — было 6.8×.
В четыре раза стабильнее. Сигнал больше не разваливается на глубине.
tanh saturation — больше нет.
В V11 поставил RMSNorm перед tanh с обучаемым pretanh_scale. Сигнал нормализуется до того как попадает в насыщающуюся часть. Saturation исчезла. Активации работают как должны — реагируют на разный вход разным выходом.
Attention. Один stable sink в L21.
Sink — это когда голова внимания залипает на первом токене независимо от контекста и не видит остальное. В V9 их было четыре, и из-за них модель срывалась в бесконечные петли.
В V11 на эпохе 2 — один умеренный sink в слое 21. Это не катастрофа. Литература по трансформерам говорит что 1-2 stable sink — норма, потому что модели нужен «сборный буфер» куда сваливать неиспользованное внимание. Эта роль естественно эмерджирует и она полезна.
Что произошло: я поднял learning rate с 1e-4 до 3e-4 на warmup. Высокий LR расшатал attention в моменте, и в L21 эмерджентно укрепился один sink как стабилизирующая функция. Просадка временная и контролируемая, не системная как в V9.
🦆 🦆 🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPALpaperfunkrecordings@gmail.com
Что показал probe.
Норма скрытого состояния. Проблема V9 — внутренний сигнал в модели раздувался проходя через слои. Норма росла в 6.8 раза от первого слоя до последнего. Это значит градиенты при обучении взрывались, модель глохла в шуме на глубине.
В V11 поставил жёсткий потолок — clip на 1000.
И вот что вижу:
— слои 0-2: норма растёт естественно (593 → 760 → 933). Это нормальный физиологический рост, модель собирает контекст. — слои 3-23: норма упирается в 1000 и держится. Clip работает, инфляции нет.
Размах от 593 до 1000, отношение 1.7×. Для сравнения — было 6.8×.
В четыре раза стабильнее. Сигнал больше не разваливается на глубине.
Эксперты MoE — все 32 живые. В V9 эксперты умирали — 2 из 4 в слое работали в режиме 50/50, остальные 2 простаивали мёртвым грузом. Это значит половина мощности модели лежала без дела.В V11 я поднял auxiliary loss балансировки в 5 раз и добавил Gumbel шум в gate во время тренировки. Результат: все 32 эксперта по всем слоям активны. Знания распределяются по всей модели, а не концентрируются в двух популярных кладовках.tanh saturation — больше нет.
В V9 функция активации tanh в .down слоях TrueKAN залипала на 0.99 у 52-90% размерностей. Это превращало FFN в константу — что бы ни приходило на вход, выход одинаковый. Модель глохла.В V11 поставил RMSNorm перед tanh с обучаемым pretanh_scale. Сигнал нормализуется до того как попадает в насыщающуюся часть. Saturation исчезла. Активации работают как должны — реагируют на разный вход разным выходом.
Attention. Один stable sink в L21.
Sink — это когда голова внимания залипает на первом токене независимо от контекста и не видит остальное. В V9 их было четыре, и из-за них модель срывалась в бесконечные петли.
В V11 на эпохе 2 — один умеренный sink в слое 21. Это не катастрофа. Литература по трансформерам говорит что 1-2 stable sink — норма, потому что модели нужен «сборный буфер» куда сваливать неиспользованное внимание. Эта роль естественно эмерджирует и она полезна.
Что произошло: я поднял learning rate с 1e-4 до 3e-4 на warmup. Высокий LR расшатал attention в моменте, и в L21 эмерджентно укрепился один sink как стабилизирующая функция. Просадка временная и контролируемая, не системная как в V9.
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👏4👍2❤1🕊1🤝1