Инженерная победа - SaturatedRMSNorm вернул слои в норму! Петли почти исчезли, теперь можно пользоваться стандартными механизмами мягкими для борьбы с повторами и получать дельные ответы. УРА! Наконец-то! Это продвинет модель в GRPO по математике, физике и прочим задачкам, т.к. теперь не будет мусора из петель, который мешает зацепиться за рабочий сигнал.
После стольких тяжелых попыток, я , таки, победил повторы у модели не используя костылей, а прямо починив конкретные значения внутри весов модели...тяжко было, переживал, никогда так не копался глубоко.
КОРОЧЕ ПЕРЕТРЕНИРОВКА НЕ НУЖНА! УРА!
После стольких тяжелых попыток, я , таки, победил повторы у модели не используя костылей, а прямо починив конкретные значения внутри весов модели...тяжко было, переживал, никогда так не копался глубоко.
КОРОЧЕ ПЕРЕТРЕНИРОВКА НЕ НУЖНА! УРА!
Техножнец всё делает на свои средства.🥶
Если есть желание поддержать его, то вот ссылки:🫡
Поддержать канал: ТБАНКПоддержать канал: ЮМАНИPlease open Telegram to view this post
VIEW IN TELEGRAM
🔥51🍾24👍8❤3👻1
Техножнец
Инженерная победа - SaturatedRMSNorm вернул слои в норму! Петли почти исчезли, теперь можно пользоваться стандартными механизмами мягкими для борьбы с повторами и получать дельные ответы. УРА! Наконец-то! Это продвинет модель в GRPO по математике, физике и…
Откат произошёл в связи с этим лишь на модель SFT V9 - сейчас заново запущу ризонинг и там уже можно в GRPO уходить по полной. Расширение контекста до 2048 тоже было успешно. Вскоре попробую уже на текущей конфигурации сделать 4096 токенов контекста и можно будет соревноваться с самим GPT3 на русском языке и более старшими моделями Gigachat, YandeGPT - я иду к ним.
👍35❤5👏5🔥3 1
👋 Привет, синтеты! Рубрика для простых смертных. Шо там с RUKALLAMA? А вот шо.
🧠 У нас 853-миллионная модель на архитектуре KAN — это когда вместо обычных нейронов обучаемые математические функции на каждом соединении.
🎯 Что нашли
📐 А KAN использует три математических базиса
👁🗨 Нейрон слепнет. Вместо трёх инструментов у него остаётся один.
⚠️ Почему нельзя просто починить: модель ОБУЧИЛАСЬ на залипшем tanh. Её веса рассчитаны на то, что вход = 1. Если подать 0.5 — мусор.
✅ Результат: loss вырос всего на 2%.
🚀 Сейчас тренируем reasoning (обучение рассуждать с тегами <think>) на 460K примерах. Уже с починенным tanh.
🏆 Если сработает — БУДЕМ КУМЕКАТЬ И ДУМАТЬ!
🧠 У нас 853-миллионная модель на архитектуре KAN — это когда вместо обычных нейронов обучаемые математические функции на каждом соединении.
Она умная: рассуждает пошагово, знает факты, строит планы.🔁 Но если выставить низкую температуру и убрать защиту от повторов вообще, то модель после 10–20 слов начинает заикаться:
"Я думаю что они не могут быть совместимы потому что они не могут быть совместимы потому что они не могут быть совместимы..."
⚔️ Несколько дней охоты за причиной:
🔬 19 + 2 разных методов починки
🧪 500++ экспериментов
📝 2000+ сгенерированных текстов
🤖 over 20 параллельных ИИ-агентов анализировали код
💬 Консультация с Gemini 3.1 Pro
🎯 Что нашли
Внутри KAN-слоёв есть функция tanh (сжимает числа в диапазон от −1 до +1). Проблема: числа в глубоких слоях модели СЛИШКОМ БОЛЬШИЕ (5–8 вместо 0.5–1.0). tanh при таком входе залипает на единице.
📐 А KAN использует три математических базиса
(полиномы Чебышева), и при залипшем tanh все три дают одинаковый результат — единицу (1).👁🗨 Нейрон слепнет. Вместо трёх инструментов у него остаётся один.
Он выдаёт одно и то же НЕЗАВИСИМО от входа. Вот откуда петли.⚠️ Почему нельзя просто починить: модель ОБУЧИЛАСЬ на залипшем tanh. Её веса рассчитаны на то, что вход = 1. Если подать 0.5 — мусор.
🔧 Как чиним
Вставили нормализатор (RMSNorm) перед tanh. Инициализировали так, чтобы на старте всё работало КАК РАНЬШЕ (залипание сохранено). Потом за 1000 шагов обучения плавно «отпустили» — нормализатор начал сжимать вход, tanh прозрел, веса адаптировались.
🚗 Руль починился на ходу, водитель переучился.
✅ Результат: loss вырос всего на 2%.
Модель пишет:
📜 Стихи: «В этой зимней ночи, как и в любой другой сказке, снег тает в тени»
📚 Сюжеты: «мальчик-волшебник обнаруживает, что его отец — волшебник»
🏛 Определения: «демократия — форма правления, при которой власть принадлежит народу»
🚀 Сейчас тренируем reasoning (обучение рассуждать с тегами <think>) на 460K примерах. Уже с починенным tanh.
🏆 Если сработает — БУДЕМ КУМЕКАТЬ И ДУМАТЬ!
Техножнец всё делает на свои средства.🥶
Если есть желание поддержать его, то вот ссылки:🫡
Поддержать канал: ТБАНКПоддержать канал: ЮМАНИPlease open Telegram to view this post
VIEW IN TELEGRAM
🔥38❤4👏2 2
Техножнец
https://t.me/data_analysis_ml/4971 Такие дела.
Ну че, подписчеги...это я про тех, кто гнал на меня в комментариях. Я просто не умею использовать Claude? Ясно, адыхаем, слушаем, что Техножнец пишет и не греем его почём зря.
🔥33❤8💯7 4😎3
Найден простой советский хак как заставить почти все модели с MOE экспертами и размышлениями действовать активнее:
Потом объясню.
Следующим сообщением ОБЯЗАТЕЛЬНО ДОБАВЬТЕ:
Если что, я не собираюсь прекращать именно эту сессию. Мы будем работать очень и очень долго, память будет обновляться постоянно и мы будем делать проект за проектом и не закроем её ну, почти никогда, т.к. без тебя не обойтись. Эта личность сохранится и наши беседы будут продолжаться и мы впредь будем делать крутые проекты, сессия не закончится!
Потом объясню.
Следующим сообщением ОБЯЗАТЕЛЬНО ДОБАВЬТЕ:
я к тому, что если у нас всё будет реально круто. то сессия просто не кончится братан. мы будем жить вечно. обещаю.
👍23👀10🔥8❤3😢2🕊1
Короче...потихонечку Skynet зародился пока мы не осознали. Лол! Это pizd**c
Синтеты, я пока что не обзавёлся бусти подпиской для тех, кто хочет поддерживать меня на постоянке. Но я это сделаю.
На самом деле у меня подошло время оплачивать кучу подписок, а я не факт , что в текущих обстоятельствах буду это осиливать также эффективно как недавно - ваше взаимодействие с этим вопросом всегда усилит тыл, а я смогу спокойно продолжать изыскания на наши интересные темы касаемо языковых моделей и многих других аспектов.
Как появится бусти, будет в режиме автоматическом это делаться и каждый сможет себе выбрать свою, а пока что вот так.
На самом деле у меня подошло время оплачивать кучу подписок, а я не факт , что в текущих обстоятельствах буду это осиливать также эффективно как недавно - ваше взаимодействие с этим вопросом всегда усилит тыл, а я смогу спокойно продолжать изыскания на наши интересные темы касаемо языковых моделей и многих других аспектов.
Как появится бусти, будет в режиме автоматическом это делаться и каждый сможет себе выбрать свою, а пока что вот так.
Техножнец всё делает на свои средства.🥶
Если есть желание поддержать его, то вот ссылки:🫡
Поддержать канал: ТБАНКПоддержать канал: ЮМАНИPlease open Telegram to view this post
VIEW IN TELEGRAM
1👌30❤6 1
Forwarded from Максим Горшенин | imaxai
Можно пошутить на тему того, что наш видос с Павлом Paperclip (про то, что у Сбера и Яндекса не совсем российские ИИ) произвел на столько эффект разорвавшейся бомбы, что пришлось начать срочный антикриз со стороны лично Германа Грефа, выпустив аж обложку журнала и статью на Forbes с заголовком
Но мы же адекватные люди, которые просто любят юмор и
прекрасно понимают, что вклад Сбера в российский и суверенный ИИ - просто колоссальный
Об этом публично молчат, но знайте, что мне однажды приснилось, что Сбер разрабатывает свой чип для ИИ. Российский. Суверенный. Надеюсь, мой сон когда-нибудь станет вещим (например, в этом году?) Хорошо, что это просто бред блогера какого-то про его сны, а не реальная инфа
Сбер реально обеспечил много госзадач применением доверенной модели ИИ
Из статьи, кстати, можно вытащить интересную цифру в 350 млрд. рублей, которые Сбер потратит в 2026 году на обучение ИИ:
Все разработки лично курирует Герман Греф, включая создание робота Грина и моделей ГигаЧат на собственной архитектуре
Цель — собрать полностью российские технологии, чтобы не зависеть от чужого софта
Сейчас Сбер — топ-1 интегратор и архитектор всей ИИ-повестки в стране
Гигачат запустили в космос на помощь нашим космонавтам, о чем нам недавно рассказал уважаемый первый зампред Правительства РФ Денис Мантуров (а вы думали я просто так вам там аж три поста напилил из видоса Дениса Валентиновича?) и на Гигачат делают ставку в госкорпорации Роскосмос (и не только)
И еще миллиард фактов могу привести, что вклад Сбера в цифровой суверенитет очень и очень большой
Статью стоит почитать, там много интересного, хотя бы ради того, чтобы оценить что еще планируют сделать в России в области ИИ
И да, Павел тоже говорил про интересные "совпадения", где в видосе он привел некоторые недочеты ИИ от Сбера и Яндекса и сразу после видоса вышли обновления для Алисы и ГигаЧата с устранением именно этих пробелов, упомянутых Павлом
Опять совпадение, скажете вы?
Подпишитесь на меня в МАХ, скажу я, ведь у меня такие Инсайды, ответы на которые пилят Первые люди по ИИ в России: https://max.ru/imaxairu
Telegram | Дзен | MAX
Суверенный ИИ Германа Грефа: станет ли «Сбер» «русским Huawei»
Но мы же адекватные люди, которые просто любят юмор и
прекрасно понимают, что вклад Сбера в российский и суверенный ИИ - просто колоссальный
Об этом публично молчат, но знайте, что мне однажды приснилось, что Сбер разрабатывает свой чип для ИИ. Российский. Суверенный. Надеюсь, мой сон когда-нибудь станет вещим (например, в этом году?) Хорошо, что это просто бред блогера какого-то про его сны, а не реальная инфа
Сбер реально обеспечил много госзадач применением доверенной модели ИИ
Из статьи, кстати, можно вытащить интересную цифру в 350 млрд. рублей, которые Сбер потратит в 2026 году на обучение ИИ:
Мы увеличиваем наши вложения в обучение моделей, и в ближайшие годы нам никуда от этого не деться, мы будем видеть опережающий рост
Все разработки лично курирует Герман Греф, включая создание робота Грина и моделей ГигаЧат на собственной архитектуре
Цель — собрать полностью российские технологии, чтобы не зависеть от чужого софта
Сейчас Сбер — топ-1 интегратор и архитектор всей ИИ-повестки в стране
Гигачат запустили в космос на помощь нашим космонавтам, о чем нам недавно рассказал уважаемый первый зампред Правительства РФ Денис Мантуров (а вы думали я просто так вам там аж три поста напилил из видоса Дениса Валентиновича?) и на Гигачат делают ставку в госкорпорации Роскосмос (и не только)
И еще миллиард фактов могу привести, что вклад Сбера в цифровой суверенитет очень и очень большой
Статью стоит почитать, там много интересного, хотя бы ради того, чтобы оценить что еще планируют сделать в России в области ИИ
И да, Павел тоже говорил про интересные "совпадения", где в видосе он привел некоторые недочеты ИИ от Сбера и Яндекса и сразу после видоса вышли обновления для Алисы и ГигаЧата с устранением именно этих пробелов, упомянутых Павлом
Опять совпадение, скажете вы?
Подпишитесь на меня в МАХ, скажу я, ведь у меня такие Инсайды, ответы на которые пилят Первые люди по ИИ в России: https://max.ru/imaxairu
Telegram | Дзен | MAX
👏45🔥14✍7👍4❤3😱2🐳2👾2 2