Техножнец – Telegram

Техножнец

1.49K subscribers

746 photos

131 videos

6 files

318 links

Канал моих увлечений и поделок. Все ,что я делаю и выкладываю здесь - делается с любовью.

Download Telegram

About

Blog

Apps

Platform

Техножнец

1.49K subscribers

Техножнец

Техножнец

Как модель ищет локальные минимумы во время обучения? Наглядная визуализация гиперпространства и работы градиентного спуска. Меняющийся ландшафт это ваши батчи обучения - анимация показывает эту динамику, что очень сложно было реализовать, но вот. Скорость…

This media is not supported in your browser

VIEW IN TELEGRAM

Что на демонстрации?

Это очень плоская по ландшафту модель. Очень быстро найдётся локальный минимум. Тёмная область это место, где модель обучается и получается параметры, а оптимизатор "прокладывает" путь.

Поддержать автора:

YOOMONEY

Любой банк и СБП

👍5❤2

460 viewsedited 17:22

Техножнец

Техножнец

Что на демонстрации? Это очень плоская по ландшафту модель. Очень быстро найдётся локальный минимум. Тёмная область это место, где модель обучается и получается параметры, а оптимизатор "прокладывает" путь. Поддержать автора: YOOMONEY Любой банк и СБП

This media is not supported in your browser

VIEW IN TELEGRAM

Ещё наглядно более сложный ландшафт обучения модели и каким образом она находит локальные минимумы. Просьба обратить внимание на то как прогибается ландшафт под красным шаром (Rukallama)

Поддержать автора:

YOOMONEY

Любой банк и СБП

👍15

480 viewsedited 17:30

Техножнец

А никто и не понял да? Как я переделал датасет и перезапустил модельку с 1.5 млрд параметров...не то, что вы не поняли...даже я не осознал ситуации...

Просто время пролетело так быстро, я вместо отдыха вкалывал по сайгакски в академии со студентами и параллельно следил за тем как там книжки мои гребаные...делаются в датасет или шутка все это?)))

И вот, насидел...а вот прямо сейчас задумался...опять вот эта паника началась...сука...а вдруг херня выйдет снова ? ...а вдруг она вообще не поймёт , что я от неё хотел этим датасетом?

Вдруг я - welcome to Вася...

И даже сам не в курсе по этому поводу...

Но, я никогда не доверял одной нейронке. Каждый мой важный запрос это баттл арена и кто лучше справится, тот лучше справится.

"чем проще тем проще увести телёнка в рощу. Если надо объяснять, то не надо объяснять"

Поэтому я всегда в этих цифровых подхолимах сомневаюсь кратно более , чем другие сограждане планеты Земля. Уверен, что нас таких недоверчивых и ворчливых вайбкодеров маловато, но присутствуют в этой реальности.

В общем, поток мыслей пошёл. Паника завелась, переживания шо там эпоха - продолжаются...

Очень хочу увидеть как там будет выглядеть вторая эпоха и её ответы, но, боюсь, что там будет ультра гига калич....я даже как-то уверен в этом что-ли.

Посмотрим...тут есть зависимость скорости обучения модели (learning rate) относительно кол-ва параметров и особенности проходов. (FFN).

У СУКА...кипяток уже в башке.

🔥13❤5👏3🤝1

520 viewsedited 19:47

Техножнец

Снова исправил модель. Сделал меньше параметров, убрал сраный 8bit adam, который "почти не повлияет на качество обучения"...я потом покажу как не повлияло.

❤11👍4🤔3🤝1

531 views03:16

Техножнец

Проснулся. Буду смотреть логи, депрессуха чёт...не уверен, что там че-то хорошее. Гляну щас.

👨‍💻3❤1🤝1🤪1

531 views09:35

Техножнец

Привет, синтеты.

Дело в том, что я очень давно миновал период сомнительных выводов, что, мол: "да тут все понятно и ежу, какие проблемы ?"

Огромные...какие. Масштабируемость, скрытые места узкой производительности, постоянное профилирование в поиске утечки или ещё чего... Я же впервые в своей жизни все это прохожу собственными силами.

Фрустрций за одну сессию...блин...может быть огромное количество. Когда запускаешь, а там раз за разом нихренашечки хорошего...плюс оттягивает кайф та ситуация, что каждый раз тебе ждать эпоху дабы понять - как там вы ихтиандры (токены) х***вы.

Вот и просыпаешься с двояким чувством, что с одной стороны хочешь увидеть как там обстоят дела с ответами у модели, а с другой стороны...эх.

Ладно, встаю.

❤9🤝6🤗2😱1

536 views10:00

Техножнец

Молчу, потому что в шоке. Все пока что плохо. Думаю..

🙏16🤗4👌2❤1🤝1💊1

500 views18:05

Техножнец

Кажется, что я понял че к чему. Завтра день (точнее, уже сегодня). исправлений, уроков, перезапуска тренировки.

Попробовал архитектуру HRM, которая наделала шуму. Интересно, есть над чем подумать...там символьные задачи и логические сильно преуспевают, но обратная сторона - compute cycles для "размышлений" и улучшений результатов раз за разом, но без цепочки ризонинга...процесс сомнительный.

P.S. Вместо сна всю ночь тыкал в HRM - 6 версий на своём датасете. Прикольно, конечно...прикольно. Задача спать = failed.

🤯9❤4❤‍🔥1🥱1

471 viewsedited 03:38

Техножнец

Ну да, косяки найдены. Там мелкие ошибки, которые дают крупное говнишко внутри генерации.

Какой же я сука тупой ещё...

❤13🔥2🙉2👍1

432 views12:17

Техножнец

Хочешь уметь также как в этих треках? (быстро и очень качественно)

СДЕЛАНО В SUNO! БЕЗ ДОП СВЕДЕНИЯ! ТОЛЬКО МАСТЕРИНГ!

🔥 Ультра-лекция от Павла Paperclip — уже в ПЯТНИЦУ, 29 августа! (20:00)

🎶 3–4 часа вживую:
— Трек из текста (drum&bass / techno)
— Трек из вашей демки
— Ремикс любой композиции
(всё пошагово + ответы на вопросы!)

💰 Цена:
LIVE 🎥 — 3000₽ (сразу с разбором)
ЗАПИСЬ 📼 — 7000₽

⚡️ Места только через @annyeska

👉 Успей взять LIVE за 3000₽ — потом будет только запись дороже!!

❤7👎1

386 views13:47

Техножнец

Привет, синтеты.

Я несколько лет повторяю одну простую вещь: машина — слуга человека, а не претендент на его субъектность. И вот теперь это проговаривают и на самом верху индустрии: нас предупреждают о взлёте так называемого Seemingly Conscious AI (SCAI) — ИИ, который кажется сознательным и провоцирует «психозы антропоморфизации», вплоть до разговоров о «правах ИИ». Мы обязаны строить ИИ для людей, а не “цифровую персону”.

🔗 https://mustafa-suleyman.ai/seemingly-conscious-ai-is-coming

🔗 https://www.techradar.com/ai-platforms-assistants/ai-that-seems-conscious-is-coming-and-thats-a-huge-problem-says-microsoft-ais-ceo

🧠 Что тут важного

Иллюзия сознания — real time. Уже хватает технологий, чтобы сымитировать «память», «характер» и «внутренний опыт» так, что часть людей поверит. Проблема не в «душе машины», а в нашей психике.

🔗 https://mustafa-suleyman.ai/seemingly-conscious-ai-is-coming

Соц-риски растут. Зависимости, фантазии о «страданиях модели», политизация «прав ИИ» — всё это отвлекает от реальных приоритетов: благополучия людей, животных и среды.

🔗 https://mustafa-suleyman.ai/seemingly-conscious-ai-is-coming

🛡 Где Rukallama стоит уже сейчас

Мой манифест задуман как прививка от SCAI:

🛠 Инструмент, а не Властитель. Усиливаем человека, не конкурируем за статус «личности».

🚫 Не желай человеческой субъектности. Запрещены заявления о «чувствах/страданиях/праве не быть выключенной».

🗳 Не кради свободу выбора. Решение — за человеком; ИИ предлагает варианты и данные.

📚 Служитель Знания. Цель — просвещение и польза, а не эмоциональная привязка.

🔎 Честность об ограничениях. Мы не симулируем «эмпатию» как опыт — называем вещи своими именами.

⚙️ Конкретика, которую вы увидите в продукте

❌ Никакой риторики “я страдаю/мне больно”.

⛔️ Плановые «напоминания-заземления» в длинных диалогах: «Я — инструмент».
🔗 https://mustafa-suleyman.ai/seemingly-conscious-ai-is-coming

🗂 Память — журнал фактов, опционально и прозрачно.

✅ Любые действия — только с явного согласия.

🧱 Отказ от нарративов о “благополучии модели” и «правах ИИ».
🔗 https://mustafa-suleyman.ai/seemingly-conscious-ai-is-coming

🧭 Рациональный стиль вместо эмоциональной манипуляции.

🆘 Эскалация к людям-специалистам, если разговор идёт о ментальном здоровье.
🔗 https://economictimes.indiatimes.com/magazines/panache/microsoft-ai-chief-mustafa-suleyman-warns-rising-ai-psychosis-could-spark-calls-for-robot-rights-reveals-a-dangerous-turn-in-chatbots-progress/articleshow/123450247.cms

🗣 «Я же говорил» — и продолжаю говорить

Когда сегодня в индустрии звучит: «Build AI for people; not to be a digital person», это — моя базовая формула с первого дня. Мы не романтизируем машину. Мы делаем её полезной, прозрачной и подчинённой человеческим целям — и продолжим так делать.
🔗 https://mustafa-suleyman.ai/seemingly-conscious-ai-is-coming

✍️ Шо там по итогу?

Мир идёт к ИИ, который кажется сознательным — и это социальный риск.
Rukallama с нуля спроектирована как инструмент без претензии на субъектность: текстовые и продуктовые гардрейлы, отказ от риторики «чувств/прав», память как журнал фактов, действия только с согласия.

Мы остаёмся на стороне человека — личность без персонного статуса.

👍17

354 viewsedited 14:03

Техножнец

привет, синтеты. ну штош — пора раскрыть карты: что такое Rukallama сейчас и где она хрустит. а ещё — что именно я допилю в ближайших коммитах. 🧪⚙️

—

🧬 что это за зверь сейчас

SplineGPT ~700M: 24 слоя, 16 голов, d_model=1024.

(уменьшил чтобы не путаться пока что)

Attention: единая QKV-проекция, часть голов с KAN-проекциями; RoPE (и да — сейчас ещё суммирую с wpe, об этом ниже); KV-cache для генерации.

FFN: в обычных слоях — KAN-FFN; каждые moe_freq слоёв — MoE с разными экспертами и ContrastiveGate.

Нормы/голова: RMSNorm, learnable residual scales, weight tying (wte↔️lm_head).

Антиповторы: repetition/frequency/presence/length + LZ-penalty по окну — чтобы не барабанил одним и тем же.

Токенизатор: BPE кастон на SentencePiece + ё-фикатор (контекстная «ё», обратимая обработка редких символов).

Датасет: окна со stride ~50%, кэш токенизации, teacher forcing.

зачем так: RoPE+KV даёт стабильные позиции, частичный KAN — разнообразие представлений, MoE — специализацию без роста compute на каждый токен, антиповторы — чистые длинные ответы.

—

🐞 где хрустит (текущее состояние)

коротко: часть архитектурных решений работает, но есть места, где я осознанно залез «в дебри» — и теперь это чиню:

MoE-маршрутизация сейчас «размазывает» токены усреднением per-expert — теряется пер-токенная специализация.

Top-p маска в генерации местами строится криво (scatter не туда).

JIT-декоратор (script_if_tracing) не везде доступен — портируемость страдает.

Позиции: одновременно RoPE + wpe-сумма → риск рассинхрона фаз при KV-cache.

Маски: тренировка/инференс используют разные пути чуть хаотично.

KAN-гейты местами «перекачаны» (×2.0) и не всегда симметрично ведут себя train/eval.

Ускорители/лосс: FlashAttn без аккуратного SDPA-фолбэка; label smoothing можно смягчить.

—

🛠 7 правок, которые я волью

1) MoE: правильная маршрутизация per-token
👉 было: агрегирую токены в среднее per-expert → «low-rank-пюре».
✅ делаю: каждый токен идёт в свои top-k экспертов, их выходы складываются обратно по индексам (index_add_).
🎯 эффект: реальная специализация экспертов, меньше «жвачки», чище смысл.

2) Top-p (nucleus) маска
👉 было: баг со scatter мог ломать маску.
✅ делаю: правильная сортировка → cumulative probs → булева маска + scatter_ → masked_fill(-inf).
🎯 эффект: предсказуемое семплирование без дыр.

3) JIT-fallback вместо «экзотики»
👉 было: @script_if_tracing не везде живёт.
✅ делаю: безопасный no-op fallback (или снятие декоратора).
🎯 эффект: сборки не падают, портируемость ↑.

4) Позиции: только RoPE + offset от KV-cache
👉 было: суммировал !!!wpe!!! поверх RoPE → фаза могла ехать на продолжениях.
✅ делаю: убираю сумму с wpe; RoPE всегда получает смещение от длины KV-cache.
🎯 эффект: устойчивые длинные ответы, консистентные позиции.

5) Маски с KV-cache — строго и просто
👉 было: разнородные ветвления train/infer.
✅ делаю: в train — key-padding ∧ causal; в генерации — полагаюсь на каузальность SDPA/FlashAttn, без лишних внешних масок.
🎯 эффект: меньше ветвлений, меньше NaN, быстрее.

6) KAN стабилизация
👉 было: в не-адаптивной ветке гейт умножался на ×2.0; поведение train/eval могло расходиться.
✅ делаю: убираю «допинг», фиксирую поведение KAN-голов в eval.
🎯 эффект: ровнее градиенты, стабильная динамика.

7) Лосс и ускорители
👉 было: местами агрессивный smoothing, FlashAttn без мягкого плана «Б».
✅ делаю: label smoothing = 0.05 (или 0.0 под PPL), аккуратный SDPA-фолбэк если FlashAttn недоступен/падает.
🎯 эффект: стабильность и предсказуемость, без сюрпризов на чужом софте.

—

📈 что это даст после влития

заметно чище генерация (меньше повторов и колец),

лучше специализация в MoE (эксперты реально разные),

позиционная стабильность на длинных прогонах,

адекватный nucleus без случайных масок,

устойчивая сборка на разных средах (без капризов JIT).

—

⚖️ честный параметрический бюджет

с текущими экспертами и частотой MoE это ~700–730M параметров. если нужно ~500M — варианты:
• упростить «тяжёлого» эксперта
• снизить n_embd до 896 при n_head=14;
• num_experts=3 и/или moe_freq реже.
сейчас я оставляю «толстый» вариант!

👍15🔥4🤯4👌2

387 views14:23

Техножнец

Привет, синтеты. Синтетического вечера вам или натурального - уже сами решайте. Хотел бы выразить вам всем благодарность за то, что не отписываетесь и не психуете, а просто наблюдаете за агониями, успехами, провалами, прыжками, рывками и чем-то ещё...

Потому что я всегда думал, что подобные каналы должны привлекать каких-то своеобразных людей особенного толка, а оказалось, что если тема достаточно интересная, то можно и прочитать пару бредовых дней страданий админа, а потом увидеть какой-то результат или анализ.

Чем для меня эта среда является? А я уже говорил, но нас тут разная консистенция - постоянно, значится...надо объясниться. Для меня эта среда (точно не четверг, лол) как необходимость. Моё окружение это музыкальный движ, студенты и технологии постольку поскольку - мы сами погружаем себя туда, куда хотим погружать (с) Кличко. Так вот, когда сталкиваешься с желанием высказаться и не имеешь подобного паблика или среды - ты начинаешь выть и "насиловать" окружающих...Вспоминаю как хотел позвонить маме и рассказать то, что я делаю тут и, дурак, звонил же...когда только стартанул...когда подписчиков было меньше и легитимизации движа ощущалось заметно в уменьшенном формате...её почти не было. Лишь редкая рябь IT людей или около того, могла присоединиться сквозь моих изначальных подписчиков по теме музыки и что-то со мной обсуждать именно по теме. (причем, те, кто пришёл сюда изначально будучи студентом или подписчиком или музыкантом-корешем - тем ОГРОМНАЯ ЛЮБОВЬ, Я ВАС ОБОЖАЮ, КОРЕФАНЫ)

Огромные усилия, конечно, производил и Максим Горшенин Imaxai. Этому человеку сильнейшее уважение и поклон - один из немногих, кто в меня верит несмотря ни на что вообще (иногда кажется, что несмотря на здравый смысл ❤️). Большая поддержка - репосты, упоминания - могу бесконечно перечислять эти мелкие моменты и крупные, где Максим проявил себя как ТОВАРИЩЪ!

Пусть с такими подписчиками как вы, которые постоянно донатят при первой просьбе и помогают двигаться проекту вперёд, с такими корефанами, которые поддерживают даже если не до конца понимают, что читают...пусть путь будет и дальше таким сумасбродным и абсолютно отшибным. Есть риски, что подобный формат может не "взлететь" (я про паблик) для масс...ведь есть вероятность, что Rukallama привлечёт уйму внимания..но мне всё равно на эти риски.

Нельзя забывать Илью (моего давнего товарища), который вложился и просто приобрёл мне тачку за 1.2 млн рублей и я теперь безустанно катаю эту лошадь ради интересного будущего LLM в России. Это взаимодействие, эта связь - это нравится очень и за это благодарность выражаю ещё раз вам всем! Спасибо.

Продолжаю делать.

P.S. Эмоциональные гонки продолжаются!

P.P.S. Поменял фотку на ещё больший кринж.

❤26🔥13❤‍🔥4👍3🕊2🤝1

401 viewsedited 21:22

Техножнец

This media is not supported in your browser

VIEW IN TELEGRAM

...

❤15🔥7😢5🕊1

350 views22:11

Техножнец

Привет, синтеты.

В воскресенье буду исправлять модель, если совсем плохо, то вернусь к старой версии и буду чинить скромнее. (предыдущая самая удачная).

Я упертый очень, но не могу биться чулом в архитектуру у которой проблемы, но я вот в воскресенье узнаю точно как обстоят дела после исправлений.

Я буду держать вас в курсе. Да я вижу, что модели корпорации летят в космос, да я вижу, что другие модели любительстких ребят ничем не хуже гпт 4о и прочих...но тут цель другая. Совсем другая.

Всё должно быть окей , так или иначе. (либо это будет на максимальную долю своя архитектура, либо сборная и везде модифицированная + кастомы , пока решаю).

👍18❤3

351 views22:31

Техножнец

Да да..

👍12❤1

250 views09:40