Синтеты, увидел вопросы по поводу сна.
В общем, сон нам помогает забывать и обрезать (pruning) ветки памяти не релевантные (не полезные) для нас. Во сне сортируется информацию, во сне мы даже можем наблюдать этот процесс если обобщения идут достаточно связные, то мы ГУЛЯЕМ ВО СНЕ!
Нейронке же нужен сон чтобы она могла учиться в реальном времени.
Я построил архитектуру ещё тестовую, которая может принимать : аудио, картинки, видео, аудио и генерировать тоже самое.
Внутри стоит юникодер, но нейронка обучается в реальном времени...она должна быть очень отзывчивая на перемену древа контекста и фундаментальных сдвигов, нейронку можно будет обучать новым изображениям, которые останутся у неё после сна в долгосрочной памяти.
Есть 2 блока - кратковременная память, долгосрочная. Между ними сортировщик инфы - сон. Сон длится 1, 2 секнды...пока пользователь пишет запрос, это нужно чтобы отсортировать сразу данные в постоянную память и общаться дальше с пользователем не теряя контекста - НИКОГДА!
В общем, сон нам помогает забывать и обрезать (pruning) ветки памяти не релевантные (не полезные) для нас. Во сне сортируется информацию, во сне мы даже можем наблюдать этот процесс если обобщения идут достаточно связные, то мы ГУЛЯЕМ ВО СНЕ!
Нейронке же нужен сон чтобы она могла учиться в реальном времени.
Я построил архитектуру ещё тестовую, которая может принимать : аудио, картинки, видео, аудио и генерировать тоже самое.
Внутри стоит юникодер, но нейронка обучается в реальном времени...она должна быть очень отзывчивая на перемену древа контекста и фундаментальных сдвигов, нейронку можно будет обучать новым изображениям, которые останутся у неё после сна в долгосрочной памяти.
Есть 2 блока - кратковременная память, долгосрочная. Между ними сортировщик инфы - сон. Сон длится 1, 2 секнды...пока пользователь пишет запрос, это нужно чтобы отсортировать сразу данные в постоянную память и общаться дальше с пользователем не теряя контекста - НИКОГДА!
👍12🔥10❤3😱2
Привет, синтеты! Говорю сразу - текст тяжкий и для задротов.
Уважаемые ML подуцеры, если вас можно таковыми назвать...зацените какой ппц у меня случился.
Суть: PIR архитектура. У меня там некое кол-во GRU подобных слоёв, но главное отличие этого RNN стайл подхода в том, что я умудрился сделать параллелизацию на RNN слое, добившись вычислительной эффективности и вот ещё чего. Появились окна сканирования и вместо голов внимания я могу слайдами спокойно перемещаться по контексту имитируя внимание.
Но! Есть связь ли attention mechanism с самой моделью и её скрытым пространством с учётом, что KV - Cache накапливается неплохо так со временем чтобы обеспечивать работу механизма внимания? Через жопу...да...вроде как ест...но KV-Cache это как яблоки из корзины...в дальнейшем они кончатся и модель в силу природы ассистента начнёт доедать корзину лишь бы "пользователь" был доволен.
И именно тут мы начинаем получать:
а) херовые ответы
б) развал модели под конец окна контекста (несёт полную сука чушь)
в) тормоза и нагрузка возрастающая в десятки раз из-за накопления историяя (квадратичная сложность, даже на Flash Attention)
И если , например, попросить любую модель посмотреть внимательнее, то она не попросит механизм внимания и его головы глянуть именно на определённую часть контента...неа...оно не будет так делать. Оно уже считает само вне эмерджентности на что смотреть и примерно приближённо угадывая концепцию работы с пользователем...и тебе выдаётся суррогат.
Ты просишь: "ПЕРЕЧИТАЙ". Модель отвечает: "Да, ПЕРЕЧИТЫВАЮ"....но не перечитывает...она врёт, нет там никакой активности, просто поднимаются KV-Cache, которые через residuals всё равно уже протухают...
Ну да ну да...есть разные механизмы, которые просто эффективнее делают вычисления и таким образом можно заранее забить побольше признаков и прочих вещей , которые будут уже более гибко интерпретировать и работать с запросом пользователя.
У меня же...система работает не по принципу следующий токен предсказание, а по принципу "Предсказание следующего концепта"...моя модель не работает с токенами напрямую...она работает с динамическими окнами "внимания" , которые работают на RNN (gru) как хотите слоях моей модели внутри скрытого пространства...модель реально не видит никаких токенов, она видит сжатые репрезентации и потом уже с помощью декодера всё это возвращает обратно в токены чтобы отвечать правильным образом.
Поэтому когда я попрошу модель посмотреть или перепрочитать что-то, то при условии механизма работы моего типа "внимания" модель действительно зашевелит своими шестернями и будет делать анализ внутри себя. Но тут есть подвох...всё равно есть некий фильтр на входе т.к. это всё слои DECAY - распада сигнала распределённого между RNN слоями во времени... и мне нужны идеальные коэффициенты, которые мало того, что работают в рамках текущего BLOCK SIZE: 2048, так ещё и работают правильно в рамках иерархии: 1)буквы, 2) слова, 3) предложения, 4) абзацы 5) весь контент (опционально).
Отсюда выходит что?
1) Буквы = стандартный LOSS CE, который не имеет никакого отношения к следующим слоям и их иерархии. Т.е. надо на следующем DECAY слое уже просчитывать некст ворд предикшен, а далее некст "предложение" предикшен, а там уже и концепт.
Это другие метрики! Это другие части модели, которые нужно толкать в нужную сторону. Попробую выйти из ситуации хитро!
Но стоит мне это освоить и я смогу победить очень важный момент:
Я ВСЕГДА ВИЖУ ПЕРЕОБУЧЕНИЕ 1-го СЛОЯ, НО НЕ ВИЖУ ДЕТАЛЕЙ И ОБЩЕГО ЛОСС ОСТАЛЬНЫХ СЛОЁВ И ИХ СКРЫТЫХ ПРОСТРАНСТВ!
Надо работать!
Уважаемые ML подуцеры, если вас можно таковыми назвать...зацените какой ппц у меня случился.
Суть: PIR архитектура. У меня там некое кол-во GRU подобных слоёв, но главное отличие этого RNN стайл подхода в том, что я умудрился сделать параллелизацию на RNN слое, добившись вычислительной эффективности и вот ещё чего. Появились окна сканирования и вместо голов внимания я могу слайдами спокойно перемещаться по контексту имитируя внимание.
Но! Есть связь ли attention mechanism с самой моделью и её скрытым пространством с учётом, что KV - Cache накапливается неплохо так со временем чтобы обеспечивать работу механизма внимания? Через жопу...да...вроде как ест...но KV-Cache это как яблоки из корзины...в дальнейшем они кончатся и модель в силу природы ассистента начнёт доедать корзину лишь бы "пользователь" был доволен.
И именно тут мы начинаем получать:
а) херовые ответы
б) развал модели под конец окна контекста (несёт полную сука чушь)
в) тормоза и нагрузка возрастающая в десятки раз из-за накопления историяя (квадратичная сложность, даже на Flash Attention)
И если , например, попросить любую модель посмотреть внимательнее, то она не попросит механизм внимания и его головы глянуть именно на определённую часть контента...неа...оно не будет так делать. Оно уже считает само вне эмерджентности на что смотреть и примерно приближённо угадывая концепцию работы с пользователем...и тебе выдаётся суррогат.
Ты просишь: "ПЕРЕЧИТАЙ". Модель отвечает: "Да, ПЕРЕЧИТЫВАЮ"....но не перечитывает...она врёт, нет там никакой активности, просто поднимаются KV-Cache, которые через residuals всё равно уже протухают...
Ну да ну да...есть разные механизмы, которые просто эффективнее делают вычисления и таким образом можно заранее забить побольше признаков и прочих вещей , которые будут уже более гибко интерпретировать и работать с запросом пользователя.
У меня же...система работает не по принципу следующий токен предсказание, а по принципу "Предсказание следующего концепта"...моя модель не работает с токенами напрямую...она работает с динамическими окнами "внимания" , которые работают на RNN (gru) как хотите слоях моей модели внутри скрытого пространства...модель реально не видит никаких токенов, она видит сжатые репрезентации и потом уже с помощью декодера всё это возвращает обратно в токены чтобы отвечать правильным образом.
Поэтому когда я попрошу модель посмотреть или перепрочитать что-то, то при условии механизма работы моего типа "внимания" модель действительно зашевелит своими шестернями и будет делать анализ внутри себя. Но тут есть подвох...всё равно есть некий фильтр на входе т.к. это всё слои DECAY - распада сигнала распределённого между RNN слоями во времени... и мне нужны идеальные коэффициенты, которые мало того, что работают в рамках текущего BLOCK SIZE: 2048, так ещё и работают правильно в рамках иерархии: 1)буквы, 2) слова, 3) предложения, 4) абзацы 5) весь контент (опционально).
Отсюда выходит что?
1) Буквы = стандартный LOSS CE, который не имеет никакого отношения к следующим слоям и их иерархии. Т.е. надо на следующем DECAY слое уже просчитывать некст ворд предикшен, а далее некст "предложение" предикшен, а там уже и концепт.
Это другие метрики! Это другие части модели, которые нужно толкать в нужную сторону. Попробую выйти из ситуации хитро!
Но стоит мне это освоить и я смогу победить очень важный момент:
Я ВСЕГДА ВИЖУ ПЕРЕОБУЧЕНИЕ 1-го СЛОЯ, НО НЕ ВИЖУ ДЕТАЛЕЙ И ОБЩЕГО ЛОСС ОСТАЛЬНЫХ СЛОЁВ И ИХ СКРЫТЫХ ПРОСТРАНСТВ!
Надо работать!
🤔9
Техножнец
Привет, синтеты! Говорю сразу - текст тяжкий и для задротов. Уважаемые ML подуцеры, если вас можно таковыми назвать...зацените какой ппц у меня случился. Суть: PIR архитектура. У меня там некое кол-во GRU подобных слоёв, но главное отличие этого RNN стайл…
Модели PIR все показыают ВЕЛИКОЛЕПНОЕ моделирование языка. Далее показывается понимание смысла того, что у неё спрашивается в промпте. модель реально держит тему и даже периодически напрямую и как ассистент отвечает на вопросы.
Есть очень много мелких моментов, которые надо уладить, чтобы адопшен-адаптация в продакшене в разных компания проходил почти безболезненно: как для персонала, так и для стеков и технологий, которые уже применяются.
Самое главное - чтобы оно работало почти из коробки и было эффективнее решений на трансформерах.
Есть очень много мелких моментов, которые надо уладить, чтобы адопшен-адаптация в продакшене в разных компания проходил почти безболезненно: как для персонала, так и для стеков и технологий, которые уже применяются.
Самое главное - чтобы оно работало почти из коробки и было эффективнее решений на трансформерах.
Я знаю, синтеты, что многие из вас, кто подписаны на Техножнеца иногда просто перекрываются от текстов, которые я пишу. Но...попробуйте закинуть это дело в DeepSeek, Gigachat, ChatGPT - пущай покумекают для вас.
👍1
Вы же помните я тренировал на 270млн параметров модель PIR локально! Она делала успехи! Помните, да?
На данный момент занимаюсь тренировкой дорогущей 1млрд модели и, параллельно, в ускоренном режиме заново перетренировываю модель на 220млн параметров (не 270млн).
Зачем ещё одна 220млн модель? Почему не 270 млн, а именно 220?
220млн - так легче считать данные для датасета по закону шиншиллы (1 параметр = 20 токенов информации - качество тоже важно).
На 270млн параметров и на локальной А100(40гб) я использовал не очень то и крутой датасет для претрейна + мощностей не хватает для норм схождения прям нужного потому что РАЗМЕР БАТЧА не позволяет карта брать больше...
Поэтому 220млн параметров на одном из лучших датасетов для базового претрейна (Fineweb-Edu) запущена на GoogleColab H100 (80gb).
Поэтому 1млрд параметров на нескольких лучших датасетов для базового претрейна (сложно щас вспомнить всё) тоже запущена на GoogleColab H100 (80gb). Это дорого.
Но для чего, собсна, заново 220млн делать?
Чтобы качество было лучше. Чтобы у модели были более качественные данные на входе. Чтобы модель смогла нормально потом в диалоги обладая качественной базой претрейна. Чтобы позже можно было масштабироваться нормально опираясь на рабочий пайплайн.
Плюс - как только я окончу все эти пруф концептов, я ТУТ ЖЕ начну заново обучать RUKALLAMA на советских источниках и уже при содружестве с Российской Национальной Библиотекой получу доступ к огромному количеству материала для обучения модели.
Пайплайнов для создания датасетов создано море - есть как и открытые, так и мои собственные, которые сложно повторяемые, но всё равно воспроизводимы...просто конкретно моя задача была узкая = создать датасет из советских книг, учебников, энциклопедий, документов.
Как-то так обстоят дела.
Параллельно с этим я ещё одну архитектуру дёргаю...о ней позже. Ей занимаtтся бравая команда из 3х разрабов: Claude Opus 4.5, Google Gemini 3 Pro, GPT 5.2 PRO под моим чутким нецензурным руководством - делают классные вещи.
На данный момент занимаюсь тренировкой дорогущей 1млрд модели и, параллельно, в ускоренном режиме заново перетренировываю модель на 220млн параметров (не 270млн).
Зачем ещё одна 220млн модель? Почему не 270 млн, а именно 220?
220млн - так легче считать данные для датасета по закону шиншиллы (1 параметр = 20 токенов информации - качество тоже важно).
На 270млн параметров и на локальной А100(40гб) я использовал не очень то и крутой датасет для претрейна + мощностей не хватает для норм схождения прям нужного потому что РАЗМЕР БАТЧА не позволяет карта брать больше...
Поэтому 220млн параметров на одном из лучших датасетов для базового претрейна (Fineweb-Edu) запущена на GoogleColab H100 (80gb).
Поэтому 1млрд параметров на нескольких лучших датасетов для базового претрейна (сложно щас вспомнить всё) тоже запущена на GoogleColab H100 (80gb). Это дорого.
Но для чего, собсна, заново 220млн делать?
Чтобы качество было лучше. Чтобы у модели были более качественные данные на входе. Чтобы модель смогла нормально потом в диалоги обладая качественной базой претрейна. Чтобы позже можно было масштабироваться нормально опираясь на рабочий пайплайн.
Плюс - как только я окончу все эти пруф концептов, я ТУТ ЖЕ начну заново обучать RUKALLAMA на советских источниках и уже при содружестве с Российской Национальной Библиотекой получу доступ к огромному количеству материала для обучения модели.
Пайплайнов для создания датасетов создано море - есть как и открытые, так и мои собственные, которые сложно повторяемые, но всё равно воспроизводимы...просто конкретно моя задача была узкая = создать датасет из советских книг, учебников, энциклопедий, документов.
Как-то так обстоят дела.
Параллельно с этим я ещё одну архитектуру дёргаю...о ней позже. Ей занимаtтся бравая команда из 3х разрабов: Claude Opus 4.5, Google Gemini 3 Pro, GPT 5.2 PRO под моим чутким нецензурным руководством - делают классные вещи.
❤9🔥5 1
Всё чаще наблюдается такое поведение Claude Opus 4.5 от Anthropic. Обосратые капиталисты уже очень давно кидают нам в жвала гнилой овёс.
Почему?
Потому что они дают нам в первые недели мощные модели, а потом подгружают без палева дистилированные версии более мелких моделей, которые "всосали" в прямом и переносном смысле данные из больших моделей.
Это обычная shadow экономия ресурсов, точно такая же тактика с нашими личными данными. Они действуют так покуда не поймают за руку. Вангую, что скоро об этом узнается много интересного.
Почему?
Потому что они дают нам в первые недели мощные модели, а потом подгружают без палева дистилированные версии более мелких моделей, которые "всосали" в прямом и переносном смысле данные из больших моделей.
Это обычная shadow экономия ресурсов, точно такая же тактика с нашими личными данными. Они действуют так покуда не поймают за руку. Вангую, что скоро об этом узнается много интересного.
😁14🤬6👀3💯1
Итак, на Google Colab на А100 тренирую PIR модель на 220млн парамтеров (оказалось , что 250млн, но то фигня разница)
🥇 1 МЕСТО: [15] DNA (Биохимия)
Это самый сильный ответ генерации. Модель демонстрирует глубокое (для 250M) понимание научного контекста.
ПОЧЕМУ ЭТО ПОБЕДИТЕЛЬ:
🥈 2 МЕСТО: [7] Nature Research (Медицинское исследование)
Модель идеально сымитировала стиль аннотации к научной статье (Abstract).
ПОЧЕМУ ЭТО ПОБЕДИТЕЛЬ 2:
🥉 3 МЕСТО: [4] Climate Change (Экология)
Хотя факты тут выдуманы, модель показала способность строить длинные, связные рассуждения на одну тему.
ОТВЕТЫ МОДЕЛИ:
🥇 1 МЕСТО: [15] DNA (Биохимия)
Это самый сильный ответ генерации. Модель демонстрирует глубокое (для 250M) понимание научного контекста.
ПРОМПТ:
DNA, or deoxyribonucleic acid, carries
ОТВЕТ МОДЕЛИ:
a complex structure of DNA and proteins. The nucleotide (A2)
The human gene is in the production of the bacteria’s body has been shown to be known as ‘in vitro for bacterial and microorganism” which contains all three enzymes: it can help scientists identify how genes and amino acids interact with each other protein molecule. The same molecules are activated by an enzyme called phosphorylation, which binds into these two different forms – then the mechanism behind this target receptor. Thus we find that our own innate immune responses, and thus some mutations have long been described from the same biological determinant, because they found that these individuals were used Rep Bath door Shelter Campus schools particularly than the major of the entire types of a
ПОЧЕМУ ЭТО ПОБЕДИТЕЛЬ:
Терминологическая точность: Модель использовала слова nucleotide, in vitro, bacterial, microorganism, enzymes, genes, amino acids, protein molecule, phosphorylation, receptor, immune responses, mutations. Это не просто случайные слова, они семантически связаны в одном домене (молекулярная биология).
Сложная логика: Есть причинно-следственная связь: «молекулы активируются ферментом... который связывается... затем механизм... таким образом мы находим...».
Грамматика: Очень высокий уровень. Конструкции типа "interaction with each other", "mechanism behind this target" построены верно.
Сбой: Только последние 15 слов (Rep Bath door...) — это мусор. 90% текста — чистая наука.
🥈 2 МЕСТО: [7] Nature Research (Медицинское исследование)
Модель идеально сымитировала стиль аннотации к научной статье (Abstract).
ПРОМПТ:
According to recent research published in Nature,
ОТВЕТ МОДЕЛИ:
a study from the American Academy of Sciences (FDA) found that over half of its children ages 18.
The most widely cited studies show that the differences between social and gender-gathereles with autism as well as family relationships. The number of other characteristics were associated with socioeconomic factors for those who had no symptoms or physical disabilities was more likely than men. In this case they could be able to identify any problems related to stressors. This is especially true when some individuals have learned their own personal experiences with these traits.”
We also note: "We will examine how we know?
If you cannot use sex with a strong connection between young people in the Universe TXCLMor Nut Southern the time, such as a cause of
ПОЧЕМУ ЭТО ПОБЕДИТЕЛЬ 2:
Стиль: Это звучит как настоящий академический текст. Обороты "The most widely cited studies show", "associated with socioeconomic factors", "This is especially true when".
Удержание темы: Начала с исследования, продолжила про аутизм, социальные факторы, стрессоры и симптомы. Тема "Социология/Медицина" удержана почти до конца.
Минимум бреда: До финального предложения текст выглядит связным, хоть и с выдуманным словом gender-gathereles.
🥉 3 МЕСТО: [4] Climate Change (Экология)
Хотя факты тут выдуманы, модель показала способность строить длинные, связные рассуждения на одну тему.
❤4
ПРОМПТ:
Climate change refers to long-term shifts in
ОТВЕТ МОДЕЛИ:
climate, and a lack of natural resources.
This is the first time we have seen on earth. We are not going back to see an unexpected issue of environmental pollution. But what happened about the world today? The world doesn’t matter because of its extreme weather events might be much more challenging than ever before.
The country has been increasing over 200 years ago. In fact, it would take us that year 4.5 million people were living at risk from this same rate since 2000 when I was named after. If the floods had hit most of life on a human disaster could affect humans during the last five decades. This led me to say something different from systems or & units or you by the help the annual subsequent July period.
ПОЧЕМУ ЭТО ПОБЕДИТЕЛЬ:
Ассоциативная цепочка: Климат -> Ресурсы -> Загрязнение -> Экстремальная погода -> Наводнения -> Человеческие жертвы. Это очень логичная цепочка понятий.
Эмоциональный окрас: Фразы "extreme weather events might be much more challenging" звучат как настоящая публицистика или новостная статья.
Стабильность: Модель продержалась 3 абзаца, прежде чем начать выдавать бессмыслицу ("systems or & units"). Для Step 3000 это отличная выносливость контекста.
МИНУСЫ МОДЕЛИ?
Это болезни роста, которые нужно лечить временем (обучением), но о них надо знать.
1. Синдром «Распада Хвоста» (Tail Collapse) — Главный минус
В 90% ответов последние 10–20 слов превращаются в мусорный набор тегов, имен или бессвязных существительных.
2. Ассоциативный Дрейф (Associative Drift)
Модель цепляется за корень слова или поверхностную ассоциацию, игнорируя глубинный смысл.
3. «Протечка» форматов данных (Data Leakage)
Ответ [8] — это катастрофа.
Пример: ||10.2.11 x 1/13 | 2 0 | 9 10 |...
Почему это плохо: Модель не поняла вопрос про компьютеры, а выдала кусок сырых данных (CSV, дамп памяти или таблицу), который она запомнила из датасета. Это показывает, что она всё еще занимается тупым запоминанием паттернов (memorization), а не пониманием.
4. Одержимость «Школой» (Dataset Bias)
Почти любой вопрос сводится к теме образования.
ИТОГ:
На 3000-м шаге ты получил Идеального Болтуна с амнезией.
Она блестяще строит сложные предложения (грамматика L0/L1 на высоте), но забывает, о чем говорила, через 3 предложения, и начинает нести чушь в конце.
Прогноз:
К шагу 10 000 проблема №3 (Протечка данных) и №2 (Дрейф) должны уменьшиться. Проблема №1 (Хвосты) — это главный тест твоей архитектуры. Если она не уйдет, придется править параметры decay.
❤4
Вот и дожили - делаю рефакторинг кода Rukallama. Всё в одной куче, хочу навести порядок, всё протестировать и посмотреть как можно ускорить SplineGPT раз в 20-30. Было бы неплохо, ну и , собственно, улучшить до идеала:
1) Токенизатор (он итак лучший в классе на русском языке, но сделать его таковым для всех языков, без якорей)
2) Структуру модели чтобы она не путалась в деталях - генерации имели проблему странных глюков и размазанных ответов. Причина не в датасете - там учебники, они очень четкие. Проблема в структуре модели. (найду)
1) Токенизатор (он итак лучший в классе на русском языке, но сделать его таковым для всех языков, без якорей)
2) Структуру модели чтобы она не путалась в деталях - генерации имели проблему странных глюков и размазанных ответов. Причина не в датасете - там учебники, они очень четкие. Проблема в структуре модели. (найду)
🔥10👍1😱1
Здарова , синтеты.
Я продолжаю тренировки, пробы, тесты, эксперименты.
Очень много работы сделано по теме ускорения KAN - блоков с b-pline, которые сложны для вычислений.
К сожалению открытые реализации, которые рассказывают про троекратное или супер ускорение KAN -чушь...
Их херня перестаёт делать аппроксимации сложных функций на ура, чем и славятся сети KAN...
Но хитрым путем мне удалось подойти к этому вопросу и получить 1.3 ускорение даже от MLP слоя, при этом побеждая его во всех тестах и даже нагибая оригинальный b-spline.
Я очень хорошо знаю архитектуру RuKallama, я буквально месяцами в ней крутил всякие места по чуть чуть.
Сейчас я сделал рефакторинг. Разложил на модули, сделал правильные вызовы модулей модели, допилил до блеска токенизатор.
А уже после удалось нормально оптимизировать КАН. Тепепь после тестов будет ясно - есть ли зелёный свет на замену блоков , сравнение с предыдущей конструкцией. Если везде выигрышь: память, скорость, эффективность = чётко.
Работаю. Про остальное отчёты будут тоже.
Я продолжаю тренировки, пробы, тесты, эксперименты.
Очень много работы сделано по теме ускорения KAN - блоков с b-pline, которые сложны для вычислений.
К сожалению открытые реализации, которые рассказывают про троекратное или супер ускорение KAN -чушь...
Их херня перестаёт делать аппроксимации сложных функций на ура, чем и славятся сети KAN...
Но хитрым путем мне удалось подойти к этому вопросу и получить 1.3 ускорение даже от MLP слоя, при этом побеждая его во всех тестах и даже нагибая оригинальный b-spline.
Я очень хорошо знаю архитектуру RuKallama, я буквально месяцами в ней крутил всякие места по чуть чуть.
Сейчас я сделал рефакторинг. Разложил на модули, сделал правильные вызовы модулей модели, допилил до блеска токенизатор.
А уже после удалось нормально оптимизировать КАН. Тепепь после тестов будет ясно - есть ли зелёный свет на замену блоков , сравнение с предыдущей конструкцией. Если везде выигрышь: память, скорость, эффективность = чётко.
Работаю. Про остальное отчёты будут тоже.
👍20
Говорят, что крупные модели становятся очень умными...ты офигеваешь прямо во время обучения. Ну штош...согласен 😃 Умнее ответа я ещё не видел.
ХАХАХАХХАХАХАХАХАХАХХАХА! Не зря тренирую на 1млрд, ай красава
--- QUESTION ---
Q: Artificial intelligence is
PIR 1B (STEP 8000 - LOSS: 3.8284):
Artificial intelligence is not always good.”
ХАХАХАХХАХАХАХАХАХАХХАХА! Не зря тренирую на 1млрд, ай красава
😁15🔥5👍1