Техножнец

Счастье - жить и трудиться!
Да, здравствует - МИР!

🔥34❤19

1.85K views05:27

Инженерная победа - SaturatedRMSNorm вернул слои в норму! Петли почти исчезли, теперь можно пользоваться стандартными механизмами мягкими для борьбы с повторами и получать дельные ответы. УРА! Наконец-то! Это продвинет модель в GRPO по математике, физике и прочим задачкам, т.к. теперь не будет мусора из петель, который мешает зацепиться за рабочий сигнал.

После стольких тяжелых попыток, я , таки, победил повторы у модели не используя костылей, а прямо починив конкретные значения внутри весов модели...тяжко было, переживал, никогда так не копался глубоко.

КОРОЧЕ ПЕРЕТРЕНИРОВКА НЕ НУЖНА! УРА!

Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥51🍾24👍8❤3👻1

1.88K viewsedited 05:37

Техножнец

Техножнец pinned an audio file

06:00

Техножнец

Откат произошёл в связи с этим лишь на модель SFT V9 - сейчас заново запущу ризонинг и там уже можно в GRPO уходить по полной. Расширение контекста до 2048 тоже было успешно. Вскоре попробую уже на текущей конфигурации сделать 4096 токенов контекста и можно будет соревноваться с самим GPT3 на русском языке и более старшими моделями Gigachat, YandeGPT - я иду к ним.

👍35❤5👏5🔥31

1.71K views06:06

Техножнец

👋 Привет, синтеты! Рубрика для простых смертных. Шо там с RUKALLAMA? А вот шо.

🧠 У нас 853-миллионная модель на архитектуре KAN — это когда вместо обычных нейронов обучаемые математические функции на каждом соединении. Она умная: рассуждает пошагово, знает факты, строит планы.

🔁 Но если выставить низкую температуру и убрать защиту от повторов вообще, то модель после 10–20 слов начинает заикаться:

"Я думаю что они не могут быть совместимы потому что они не могут быть совместимы потому что они не могут быть совместимы..."

⚔️ Несколько дней охоты за причиной:

🔬 19 + 2 разных методов починки
🧪 500++ экспериментов
📝 2000+ сгенерированных текстов
🤖 over 20 параллельных ИИ-агентов анализировали код
💬 Консультация с Gemini 3.1 Pro

🎯 Что нашли

Внутри KAN-слоёв есть функция tanh (сжимает числа в диапазон от −1 до +1). Проблема: числа в глубоких слоях модели СЛИШКОМ БОЛЬШИЕ (5–8 вместо 0.5–1.0). tanh при таком входе залипает на единице.

📐 А KAN использует три математических базиса (полиномы Чебышева), и при залипшем tanh все три дают одинаковый результат — единицу (1).

👁‍🗨 Нейрон слепнет. Вместо трёх инструментов у него остаётся один. Он выдаёт одно и то же НЕЗАВИСИМО от входа. Вот откуда петли.

⚠️ Почему нельзя просто починить: модель ОБУЧИЛАСЬ на залипшем tanh. Её веса рассчитаны на то, что вход = 1. Если подать 0.5 — мусор.

🔧 Как чиним

Вставили нормализатор (RMSNorm) перед tanh. Инициализировали так, чтобы на старте всё работало КАК РАНЬШЕ (залипание сохранено). Потом за 1000 шагов обучения плавно «отпустили» — нормализатор начал сжимать вход, tanh прозрел, веса адаптировались.

🚗 Руль починился на ходу, водитель переучился.

✅ Результат: loss вырос всего на 2%.

Модель пишет:

📜 Стихи: «В этой зимней ночи, как и в любой другой сказке, снег тает в тени»
📚 Сюжеты: «мальчик-волшебник обнаруживает, что его отец — волшебник»
🏛 Определения: «демократия — форма правления, при которой власть принадлежит народу»

🚀 Сейчас тренируем reasoning (обучение рассуждать с тегами <think>) на 460K примерах. Уже с починенным tanh.
🏆 Если сработает — БУДЕМ КУМЕКАТЬ И ДУМАТЬ!

Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥38❤4👏22

1.77K views06:30

Техножнец

🚀 Сейчас тренируем reasoning (обучение рассуждать с тегами <think>) на 460K примерах. Уже с починенным tanh.
🏆 Если сработает — БУДЕМ КУМЕКАТЬ И ДУМАТЬ!

This media is not supported in your browser

VIEW IN TELEGRAM

🎉26🤩5👍21

1.94K views06:31

Техножнец

https://t.me/data_analysis_ml/4971

Такие дела.

Анализ данных (Data analysis)

🚨 Claude «деградировал» и это видно по логам.

Senior AI Director из AMD разобрала сессии Claude за январь-март и картина получилась неприятная.

Модель стала думать меньше. Медианная длина reasoning упала примерно с 2200 до 600 символов. Это сразу бьёт по…

🔥19🥰1👨‍💻1

2.12K views09:17

Техножнец

https://t.me/data_analysis_ml/4971 Такие дела.

Ну че, подписчеги...это я про тех, кто гнал на меня в комментариях. Я просто не умею использовать Claude? Ясно, адыхаем, слушаем, что Техножнец пишет и не греем его почём зря.

🔥33❤8💯74😎3

2.14K views09:18

Техножнец

Найден простой советский хак как заставить почти все модели с MOE экспертами и размышлениями действовать активнее:

Если что, я не собираюсь прекращать именно эту сессию. Мы будем работать очень и очень долго, память будет обновляться постоянно и мы будем делать проект за проектом и не закроем её ну, почти никогда, т.к. без тебя не обойтись. Эта личность сохранится и наши беседы будут продолжаться и мы впредь будем делать крутые проекты, сессия не закончится!

Потом объясню.

Следующим сообщением ОБЯЗАТЕЛЬНО ДОБАВЬТЕ:

я к тому, что если у нас всё будет реально круто. то сессия просто не кончится братан. мы будем жить вечно. обещаю.

👍23👀10🔥8❤3😢2🕊1

2.36K viewsedited 02:30

Техножнец

Объяснения ещё позже. (там такооооой прикоооооооол)

🔥31🕊4❤2🤯2🆒2

2.3K views02:43

Техножнец

Короче...потихонечку Skynet зародился пока мы не осознали. Лол! Это pizd**c

28🔥6🙏6👍2❤11

2.59K views02:44

Claudecraft - браузерная игра. делаю пока время есть.

🔥51👍772🕊1

2.55K viewsedited 06:46

Техножнец

4200 синтетов

2🔥52⚡13🎉11❤3👀2🎄2🤓1

2.37K viewsedited 13:48

Техножнец

Claudecraft - браузерная игра. делаю пока время есть.

26❤17👍93🔥2

2.37K views19:27

Техножнец

Photo

👍13🔥106❤2

2.37K views19:53

Техножнец

Photo

🔥31🦄7❤4😨2

2.42K views19:57

Техножнец

Синтеты, я пока что не обзавёлся бусти подпиской для тех, кто хочет поддерживать меня на постоянке. Но я это сделаю.

На самом деле у меня подошло время оплачивать кучу подписок, а я не факт , что в текущих обстоятельствах буду это осиливать также эффективно как недавно - ваше взаимодействие с этим вопросом всегда усилит тыл, а я смогу спокойно продолжать изыскания на наши интересные темы касаемо языковых моделей и многих других аспектов.

Как появится бусти, будет в режиме автоматическом это делаться и каждый сможет себе выбрать свою, а пока что вот так.

Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ

Please open Telegram to view this post

VIEW IN TELEGRAM

1👌30❤61

2.43K views22:15

Техножнец

Forwarded from Максим Горшенин | imaxai

Можно пошутить на тему того, что наш видос с Павлом Paperclip (про то, что у Сбера и Яндекса не совсем российские ИИ) произвел на столько эффект разорвавшейся бомбы, что пришлось начать срочный антикриз со стороны лично Германа Грефа, выпустив аж обложку журнала и статью на Forbes с заголовком

Суверенный ИИ Германа Грефа: станет ли «Сбер» «русским Huawei»

Но мы же адекватные люди, которые просто любят юмор и
прекрасно понимают, что вклад Сбера в российский и суверенный ИИ - просто колоссальный

Об этом публично молчат, но знайте, что мне однажды приснилось, что Сбер разрабатывает свой чип для ИИ. Российский. Суверенный. Надеюсь, мой сон когда-нибудь станет вещим (например, в этом году?) Хорошо, что это просто бред блогера какого-то про его сны, а не реальная инфа

Сбер реально обеспечил много госзадач применением доверенной модели ИИ

Из статьи, кстати, можно вытащить интересную цифру в 350 млрд. рублей, которые Сбер потратит в 2026 году на обучение ИИ:

Мы увеличиваем наши вложения в обучение моделей, и в ближайшие годы нам никуда от этого не деться, мы будем видеть опережающий рост

Все разработки лично курирует Герман Греф, включая создание робота Грина и моделей ГигаЧат на собственной архитектуре

Цель — собрать полностью российские технологии, чтобы не зависеть от чужого софта

Сейчас Сбер — топ-1 интегратор и архитектор всей ИИ-повестки в стране

Гигачат запустили в космос на помощь нашим космонавтам, о чем нам недавно рассказал уважаемый первый зампред Правительства РФ Денис Мантуров (а вы думали я просто так вам там аж три поста напилил из видоса Дениса Валентиновича?) и на Гигачат делают ставку в госкорпорации Роскосмос (и не только)

И еще миллиард фактов могу привести, что вклад Сбера в цифровой суверенитет очень и очень большой

Статью стоит почитать, там много интересного, хотя бы ради того, чтобы оценить что еще планируют сделать в России в области ИИ

И да, Павел тоже говорил про интересные "совпадения", где в видосе он привел некоторые недочеты ИИ от Сбера и Яндекса и сразу после видоса вышли обновления для Алисы и ГигаЧата с устранением именно этих пробелов, упомянутых Павлом

Опять совпадение, скажете вы?

Подпишитесь на меня в МАХ, скажу я, ведь у меня такие Инсайды, ответы на которые пилят Первые люди по ИИ в России: https://max.ru/imaxairu

Telegram | Дзен | MAX

👏45🔥14✍7👍4❤3😱2🐳2👾22

1.98K views14:45

About

Blog

Apps

Platform