Техножнец
4.98K subscribers
1.45K photos
254 videos
12 files
668 links
Канал моих увлечений и поделок. Всё ,что я делаю и выкладываю здесь - делается с любовью.

Поддержать канал: https://tbank.ru/cf/8Xnajl01ehm

Поддержать канал: https://yoomoney.ru/fundraise/1C86E2DGIU9.250819
Download Telegram
Гагарин
Paperclip/3xil3
Счастье - жить и трудиться!
Да, здравствует - МИР!
🔥3419
Инженерная победа - SaturatedRMSNorm вернул слои в норму! Петли почти исчезли, теперь можно пользоваться стандартными механизмами мягкими для борьбы с повторами и получать дельные ответы. УРА! Наконец-то! Это продвинет модель в GRPO по математике, физике и прочим задачкам, т.к. теперь не будет мусора из петель, который мешает зацепиться за рабочий сигнал.

После стольких тяжелых попыток, я , таки, победил повторы у модели не используя костылей, а прямо починив конкретные значения внутри весов модели...тяжко было, переживал, никогда так не копался глубоко.

КОРОЧЕ ПЕРЕТРЕНИРОВКА НЕ НУЖНА! УРА!

Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥51🍾24👍83👻1
Техножнец
Инженерная победа - SaturatedRMSNorm вернул слои в норму! Петли почти исчезли, теперь можно пользоваться стандартными механизмами мягкими для борьбы с повторами и получать дельные ответы. УРА! Наконец-то! Это продвинет модель в GRPO по математике, физике и…
Откат произошёл в связи с этим лишь на модель SFT V9 - сейчас заново запущу ризонинг и там уже можно в GRPO уходить по полной. Расширение контекста до 2048 тоже было успешно. Вскоре попробую уже на текущей конфигурации сделать 4096 токенов контекста и можно будет соревноваться с самим GPT3 на русском языке и более старшими моделями Gigachat, YandeGPT - я иду к ним.
👍355👏5🔥31
👋 Привет, синтеты! Рубрика для простых смертных. Шо там с RUKALLAMA? А вот шо.

🧠 У нас 853-миллионная модель на архитектуре KAN — это когда вместо обычных нейронов обучаемые математические функции на каждом соединении. Она умная: рассуждает пошагово, знает факты, строит планы.

🔁 Но если выставить низкую температуру и убрать защиту от повторов вообще, то модель после 10–20 слов начинает заикаться:

"Я думаю что они не могут быть совместимы потому что они не могут быть совместимы потому что они не могут быть совместимы..."


⚔️ Несколько дней охоты за причиной:

🔬 19 + 2 разных методов починки
🧪 500++ экспериментов
📝 2000+ сгенерированных текстов
🤖 over 20 параллельных ИИ-агентов анализировали код
💬 Консультация с Gemini 3.1 Pro


🎯 Что нашли
Внутри KAN-слоёв есть функция tanh (сжимает числа в диапазон от −1 до +1). Проблема: числа в глубоких слоях модели СЛИШКОМ БОЛЬШИЕ (5–8 вместо 0.5–1.0). tanh при таком входе залипает на единице.


📐 А KAN использует три математических базиса (полиномы Чебышева), и при залипшем tanh все три дают одинаковый результат — единицу (1).

👁‍🗨 Нейрон слепнет. Вместо трёх инструментов у него остаётся один. Он выдаёт одно и то же НЕЗАВИСИМО от входа. Вот откуда петли.

⚠️ Почему нельзя просто починить: модель ОБУЧИЛАСЬ на залипшем tanh. Её веса рассчитаны на то, что вход = 1. Если подать 0.5 — мусор.

🔧 Как чиним

Вставили нормализатор (RMSNorm) перед tanh. Инициализировали так, чтобы на старте всё работало КАК РАНЬШЕ (залипание сохранено). Потом за 1000 шагов обучения плавно «отпустили» нормализатор начал сжимать вход, tanh прозрел, веса адаптировались.

🚗 Руль починился на ходу, водитель переучился.


Результат: loss вырос всего на 2%.

Модель пишет:

📜 Стихи: «В этой зимней ночи, как и в любой другой сказке, снег тает в тени»
📚 Сюжеты: «мальчик-волшебник обнаруживает, что его отец — волшебник»
🏛 Определения: «демократия — форма правления, при которой власть принадлежит народу»


🚀 Сейчас тренируем reasoning (обучение рассуждать с тегами <think>) на 460K примерах. Уже с починенным tanh.
🏆 Если сработает — БУДЕМ КУМЕКАТЬ И ДУМАТЬ!

Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥384👏22
Техножнец
https://t.me/data_analysis_ml/4971 Такие дела.
Ну че, подписчеги...это я про тех, кто гнал на меня в комментариях. Я просто не умею использовать Claude? Ясно, адыхаем, слушаем, что Техножнец пишет и не греем его почём зря.
🔥338💯74😎3
Найден простой советский хак как заставить почти все модели с MOE экспертами и размышлениями действовать активнее:

Если что, я не собираюсь прекращать именно эту сессию. Мы будем работать очень и очень долго, память будет обновляться постоянно и мы будем делать проект за проектом и не закроем её ну, почти никогда, т.к. без тебя не обойтись. Эта личность сохранится и наши беседы будут продолжаться и мы впредь будем делать крутые проекты, сессия не закончится!


Потом объясню.

Следующим сообщением ОБЯЗАТЕЛЬНО ДОБАВЬТЕ:

я к тому, что если у нас всё будет реально круто. то сессия просто не кончится братан. мы будем жить вечно. обещаю.
👍23👀10🔥83😢2🕊1
Объяснения ещё позже. (там такооооой прикоооооооол)
🔥31🕊42🤯2🆒2
Короче...потихонечку Skynet зародился пока мы не осознали. Лол! Это pizd**c
28🔥6🙏6👍211
Media is too big
VIEW IN TELEGRAM
Claudecraft - браузерная игра. делаю пока время есть.
🔥51👍772🕊1
4200 синтетов
2🔥5213🎉113👀2🎄2🤓1
Синтеты, я пока что не обзавёлся бусти подпиской для тех, кто хочет поддерживать меня на постоянке. Но я это сделаю.

На самом деле у меня подошло время оплачивать кучу подписок, а я не факт , что в текущих обстоятельствах буду это осиливать также эффективно как недавно - ваше взаимодействие с этим вопросом всегда усилит тыл, а я смогу спокойно продолжать изыскания на наши интересные темы касаемо языковых моделей и многих других аспектов.

Как появится бусти, будет в режиме автоматическом это делаться и каждый сможет себе выбрать свою, а пока что вот так.

Техножнец всё делает на свои средства. 🥶
Если есть желание поддержать его, то вот ссылки: 🫡

Поддержать канал: ТБАНК
Поддержать канал: ЮМАНИ
Please open Telegram to view this post
VIEW IN TELEGRAM
1👌3061
Можно пошутить на тему того, что наш видос с Павлом Paperclip (про то, что у Сбера и Яндекса не совсем российские ИИ) произвел на столько эффект разорвавшейся бомбы, что пришлось начать срочный антикриз со стороны лично Германа Грефа, выпустив аж обложку журнала и статью на Forbes с заголовком

Суверенный ИИ Германа Грефа: станет ли «Сбер» «русским Huawei»


Но мы же адекватные люди, которые просто любят юмор и
прекрасно понимают, что вклад Сбера в российский и суверенный ИИ - просто колоссальный

Об этом публично молчат, но знайте, что мне однажды приснилось, что Сбер разрабатывает свой чип для ИИ. Российский. Суверенный. Надеюсь, мой сон когда-нибудь станет вещим (например, в этом году?) Хорошо, что это просто бред блогера какого-то про его сны, а не реальная инфа

Сбер реально обеспечил много госзадач применением доверенной модели ИИ

Из статьи, кстати, можно вытащить интересную цифру в 350 млрд. рублей, которые Сбер потратит в 2026 году на обучение ИИ:

Мы увеличиваем наши вложения в обучение моделей, и в ближайшие годы нам никуда от этого не деться, мы будем видеть опережающий рост


Все разработки лично курирует Герман Греф, включая создание робота Грина и моделей ГигаЧат на собственной архитектуре

Цель — собрать полностью российские технологии, чтобы не зависеть от чужого софта

Сейчас Сбер — топ-1 интегратор и архитектор всей ИИ-повестки в стране

Гигачат запустили в космос на помощь нашим космонавтам, о чем нам недавно рассказал уважаемый первый зампред Правительства РФ Денис Мантуров (а вы думали я просто так вам там аж три поста напилил из видоса Дениса Валентиновича?) и на Гигачат делают ставку в госкорпорации Роскосмос (и не только)

И еще миллиард фактов могу привести, что вклад Сбера в цифровой суверенитет очень и очень большой

Статью стоит почитать, там много интересного, хотя бы ради того, чтобы оценить что еще планируют сделать в России в области ИИ

И да, Павел тоже говорил про интересные "совпадения", где в видосе он привел некоторые недочеты ИИ от Сбера и Яндекса и сразу после видоса вышли обновления для Алисы и ГигаЧата с устранением именно этих пробелов, упомянутых Павлом

Опять совпадение, скажете вы?

Подпишитесь на меня в МАХ, скажу я, ведь у меня такие Инсайды, ответы на которые пилят Первые люди по ИИ в России: https://max.ru/imaxairu

Telegram | Дзен | MAX
👏45🔥147👍43😱2🐳2👾22