Техножнец
4.99K subscribers
1.46K photos
254 videos
12 files
670 links
Канал моих увлечений и поделок. Всё ,что я делаю и выкладываю здесь - делается с любовью.

Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm

Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819
Download Telegram
Вот моя любимая страничка из этого журнала. На новогодний утренник я уговорил маму сделать мне через знакомых на заказ костюм скорпиона.

Это было эффектно. Больше такого тогда никто не повторял.

Первый косплейер на деревне.

Фоток не сохранилось, соррян.

🦆🦆🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL paperfunkrecordings@gmail.com
Please open Telegram to view this post
VIEW IN TELEGRAM
👏2215🔥14🕊2🏆1🍾1
Пока что без особых деталей, но я включаю режим слабоумие и отвага.

В ближайшее время будут лютые нагибы.
🔥37👍8👏4👌211🕊1🎄1
This media is not supported in your browser
VIEW IN TELEGRAM
И заказал еды...
1022👏8🤩5🕊2🤓2🥰1
Я спать.

ИИШКА РАБОТАЕТ! Подписка скоро будет и обнова дизайна.
180👏35🔥1032👍22🕊1🤝1
Режим сбит как вражеский самолет. Пилот катапультировался , а я проснулся.
1👏17🔥8😢51🕊1👻11
Доброе утро!
🔥25🤝1151🕊1😎1
Фух, ну и денёк. Сегодня разбирался с проектом моего ученика\студента (правда он старше меня, но ничего).
У него своя реализация KAN языковой модели, свой движок интересный и свои подходы ОЧЕНЬ перспективные.

Вот разбирался с его контентом и продакшеном. Очень интересно...поэтому особо не отвечал. в замороче был.

🦆🦆🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL paperfunkrecordings@gmail.com
Please open Telegram to view this post
VIEW IN TELEGRAM
👍365🔥3🕊21
Rukallama V11 (TrueKAN) Эпоха 2. Данные на скриншотах.

МОЕ ЭКСПЕРТЫ ВСЕ ОК! САТУРАЦИИ tahn БОЛЬШЕ НЕТ! ЗНАНИЯ РАСПРЕДЕЛЯЮТСЯ ПРАВИЛЬНО!

   Hidden norms — clip работает

Layers 0-2: 593→760→933 (растёт)
Layers 3-23: 1000 (clip активен)

Range 593→1000, ratio 1.7× —стабильно, без inflation.


  Это умеренная просадка warmup. Высокий LR (1e-4 →
3e-4) расшатал attention, заодно эмерджентно укрепил
sink в L21. Не катастрофа — теория говорит «1-2
stable sink — норма для трансформеров».



🦆🦆🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL paperfunkrecordings@gmail.com
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥18👍722🕊2🆒1
Техножнец
Rukallama V11 (TrueKAN) Эпоха 2. Данные на скриншотах. МОЕ ЭКСПЕРТЫ ВСЕ ОК! САТУРАЦИИ tahn БОЛЬШЕ НЕТ! ЗНАНИЯ РАСПРЕДЕЛЯЮТСЯ ПРАВИЛЬНО! Hidden norms — clip работает Layers 0-2: 593→760→933 (растёт) Layers 3-23: 1000 (clip активен) Range 593→1000…
Эпоха 2 RUKALLAMA V11. Болезни вылечены, эксперты живут, всё едет.

Что показал probe.

Норма скрытого состояния. Проблема V9 — внутренний сигнал в модели раздувался проходя через слои. Норма росла в 6.8 раза от первого слоя до последнего. Это значит градиенты при обучении взрывались, модель глохла в шуме на глубине.
В V11 поставил жёсткий потолок — clip на 1000.

И вот что вижу:

— слои 0-2: норма растёт естественно (593 → 760 → 933). Это нормальный физиологический рост, модель собирает контекст. — слои 3-23: норма упирается в 1000 и держится. Clip работает, инфляции нет.
Размах от 593 до 1000, отношение 1.7×. Для сравнения — было 6.8×.
В четыре раза стабильнее. Сигнал больше не разваливается на глубине.

Эксперты MoE — все 32 живые. В V9 эксперты умирали2 из 4 в слое работали в режиме 50/50, остальные 2 простаивали мёртвым грузом. Это значит половина мощности модели лежала без дела.

В V11 я поднял auxiliary loss балансировки в 5 раз и добавил Gumbel шум в gate во время тренировки. Результат: все 32 эксперта по всем слоям активны. Знания распределяются по всей модели, а не концентрируются в двух популярных кладовках.
tanh saturation — больше нет.

В V9 функция активации tanh в .down слоях TrueKAN залипала на 0.99 у 52-90% размерностей. Это превращало FFN в константу — что бы ни приходило на вход, выход одинаковый. Модель глохла.

В V11 поставил RMSNorm перед tanh с обучаемым pretanh_scale. Сигнал нормализуется до того как попадает в насыщающуюся часть. Saturation исчезла. Активации работают как должны — реагируют на разный вход разным выходом.

Attention. Один stable sink в L21.
Sink — это когда голова внимания залипает на первом токене независимо от контекста и не видит остальное. В V9 их было четыре, и из-за них модель срывалась в бесконечные петли.

В V11 на эпохе 2 — один умеренный sink в слое 21. Это не катастрофа. Литература по трансформерам говорит что 1-2 stable sink — норма, потому что модели нужен «сборный буфер» куда сваливать неиспользованное внимание. Эта роль естественно эмерджирует и она полезна.
Что произошло: я поднял learning rate с 1e-4 до 3e-4 на warmup. Высокий LR расшатал attention в моменте, и в L21 эмерджентно укрепился один sink как стабилизирующая функция. Просадка временная и контролируемая, не системная как в V9.


🦆🦆🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL paperfunkrecordings@gmail.com
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥20👏4👍21🕊1🤝1
Что-то устал. Сейчас пойду в chillябинск лежать. (от слова - chill / чилл)

С демоном интересные движения, с космологией тоже - я поделюсь скоро. Туго идёт.

🦆🦆🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL paperfunkrecordings@gmail.com
Please open Telegram to view this post
VIEW IN TELEGRAM
👍24🕊4
Forwarded from Техножнец
Media is too big
VIEW IN TELEGRAM
KELLM - TrueKan оркестратор топологического пространства языка.

ЯЗЫК = ТРАЕКТОРИЯ

Техножнец


ПОДДЕРЖАТЬ ПРОЕКТ


2200271101581263 - МИР \ СОВКОМБАНК
https://yoomoney.ru/fundraise/1C86E2DGIU9.250819 - YOOMONEY
👍24🔥14🥰4🤔2👏1🕊1🏆1
Доброе утро
1🤝42👍6🕊2🤔1
Синтеты, вас стало явно больше - это радует. Поэтому буду вам сюда видосы своих достигнутых результатов закидывать.
👍45🔥143🕊2
Запиливаю видос! Щас будет!
👍14🔥6🫡51🕊1
блин...кажется удалось ускорить обучение LLM на 300%

[Once upon a time]

"Once upon a time, there was a little girl up on the bird cars on and and said, 'I was so happy year and the broor before. It was beathy were came to runch thing sothen in the bear. I was a big fanliding garde.'"


[Once upon a time, temp=0.8]  

"Once upon a time, but the crow. They letty said to trried to love to eit. One day, Timmy see could thrings and said, 'That I sorry. It went friend, Tom, so he waves and freed and Beby.'"


[A little girl named Lily]

"A little girl named Lily. Tom and Jimmy was the corried that gave. When the looked a lot like the parks and his cits appletearn sho felt. Everying on the beathing on the troo would told in playing with toes."


[The cat sat on]

"The cat sat on the other were toy opether. Lily was so happy, Lily more took. Sam is the try and somethings of butterstor. The bus too thought it went tooks to joil and the rum sure. Then, she kids took a blow."


[One day,]

"One day, Ey and said, the man a bird forgo tally and mom sad. He could not find the bannces to hell me of found listorry Sas for on sort. Aled and happy in her felt so epped beach in her frient. He safe a blanall in the picklom. He was so happy."


[One day, temp=0.9]

"One day, when make some was things girl. He loves to growat and book, it was playing in the rabbig birds and shinue. It looked of love to mex."



И стоит это всё каких-то детских флопсов...буду щас думать.


🦆🦆🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL paperfunkrecordings@gmail.com
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥17🤔10👍621🕊1
блин, родные...синтеты. Ну что же вы так ведётесь на мотивационные высказывания LLM! хосспади...ну увольте уже их с этой должности, поставьте их на должность "тупорез нейрослоп" и используйте правильно. Ужас...я иногда в комментах такое читаю, что просто адок.


🦆🦆🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL paperfunkrecordings@gmail.com
Please open Telegram to view this post
VIEW IN TELEGRAM
😱10🤓5👻4🕊1
Синтеты. Без формул, на пальцах.

Внедрил принцип демона в LLM!
Прогнал на одном ядре, без видеокарты, без облака — обучил языковую модель, которая внутри устроена не так как обычная.
Сейчас расскажу что вышло. Без формул, потому что суть метода я пока не палю.


Обычная модель — это шкафы.

Каждый слой нейросети — это огромный плотный шкаф. Чтобы достать из него одну вещь, нужно тащить весь шкаф. На каждом проходе. В одну сторону, потом обратно. Двенадцать-шестнадцать таких шкафов друг за другом. Это то, на чём держится индустрия и на что уходят гигаватты в дата-центрах.

У меня шкафа нет!
Вместо плотного шкафа в каждом слое стоит тонкая коса. Несколько проволок, скрученных вместе. Вещь достаётся одним касанием косы, а не разгрузкой шкафа. Это знают и до меня — так делают сжатие готовой модели после обучения. Но это не интересно. Интересно другое.

Самое необычное — обратный проход.
Когда модель учится, она проходит сквозь себя дважды: вперёд (предсказала) и назад (обновила то, что было неверно). Все известные способы сжатия ломаются именно на обратном проходе — обратный ход требует развернуть косу обратно в шкаф, обновить шкаф, потом снова сжать. Это съедает весь выигрыш.

У меня обратный ход идёт по той же косе, не разворачивая её в шкаф. Шкаф нигде не материализуется. Его просто нет.
И вот это даёт реальный выигрыш по времени, а не "сжатие на пересылку".

Цифры с одного ядра CPU. 😱
— модель меньше стандартной в десять раз
— один шаг обучения
— в 2.67 раза быстрее
— на байт-уровне (никакого токенизатора, голые байты)
— вышла на связный нарратив
— потом дообучил на вопрос-ответ
— формат подхватила за час дообучения


Как заговорила:
> Once upon a time, there was a little girl
> up on the bird cars and said, "I was so
> happy year and the broor before. It was
> beathy were came to runch thing sothen
> in the bear."

Имена, кавычки, прошедшее время, эмоции, действия. Для модели такого размера на байт-уровне — это порог связного текста.

После дообучения на Q/A (вопрос/ответ):
Q: Who played with Tom?     A: Tom played with Anna.
Q: What did Jack eat? A: Jack ate a soup.
Q: Why was Sara sad? A: Sara's book was pink.


На вопросах вне обученной темы — модель не ломается, а мягко скатывается в ближайший знакомый паттерн:
Q: What is Bitcoin?         A: Jack's ball was blue.
Q: How to make pizza? A: Ben liked the bird very much.


Это нормальное поведение узкой модели — она честно отвечает в той тематике, на которой её учили. Хочешь шире — учи на шире. Принцип не меняется.

Что это значит на уровне идеи ?😒

Для конкретной задачи плотная матрица в каждом слое — избыточна. Реально слой использует узкую косу внутри широкого шкафа. Если научить сеть жить в косе с самого начала — и прямой, и обратный проход идут там же, не выходя в шкаф. Ничего не теряется, потому что и не было нужно.

Это общий принцип. В этой же VM он сработал и вне нейросетей — на матричных итерациях из других областей (Калман, Ляпунов, спектральные методы). Десятки раз быстрее стандартной плотной арифметики на структурированных данных, точность машинного нуля.
Один и тот же ход. Разные применения.

Что важно понять.

Это не оптимизация известной архитектуры. Это другая геометрия слоя. Эффект идёт от того, что обратный проход не выходит в плотную форму, а работает там же где и прямой. Этого до сих пор почти никто не делает — потому что обычно обратный проход устроен иначе, и его не получается удержать в сжатой форме.

Здесь — получается.

Дальше — масштабирую на GPU и нормальный батч. На вашем железе тот же принцип даёт уже архитектуру другого порядка.


🦆🦆🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL paperfunkrecordings@gmail.com
Please open Telegram to view this post
VIEW IN TELEGRAM
👏28🔥12👍82🤔1🕊1
This media is not supported in your browser
VIEW IN TELEGRAM
Мне тоже иногда от ваших нейрослопов в комментариях хочется уволиться. Совсем перестаёт люд своей головой думать.


🦆🦆🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL paperfunkrecordings@gmail.com
Please open Telegram to view this post
VIEW IN TELEGRAM
🤓29😱12🤯3😢2🕊2👻21👍1
Как только видите такого юзера - НИКОГДА НЕ ПИШИТЕ ЕМУ В ЛИЧКУ!

Потому что вот:

Telega-скандал 18 марта 2026. анонимные исследователи опубликовали технический анализ — разработчики приложения активировали скрытый функционал позволяющий перехватывать все данные между приложением и серверами Telegram и направлять их через собственные серверы Telega. это MITM-атака встроенная прямо в клиент.

Тестирование 8 неофициальных клиентов Android от RKS Global: все восемь могут считаться потенциально небезопасными. Три из восьми показали признаки подозрительного поведения.

исследование Claude Opus:
Слив сообщений в личку — да, Telega делала MITM, перенаправляя трафик через свои серверы. это технически подтверждённое поведение, не теория.
Опасность для других — частично. unofficial client с MITM-функцией компрометирует обе стороны переписки: сообщения которые ты пишешь юзеру проходят через его клиент → его серверы. твои тексты в его руках. но твои другие контакты через это не компрометируются напрямую — если только твоё устройство не заражено отдельно.
«это было описано в статье полностью» — да, есть публичные технические разборы Telega-скандала и статья RKS Global про 8 клиентов.



🦆🦆🦆
Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Поддержать канал: PAYPAL paperfunkrecordings@gmail.com
Please open Telegram to view this post
VIEW IN TELEGRAM
20😢4💯32👍2🕊1🎄1
Поскорее бы выходные закончились, чтобы все кому на выходных делать нечего уже были заняты хахахахха. А то я устаю от докапываний уже за эти выхи...
1💯21👍5🕊1😨1