Привет, синтеты! Говорю сразу - текст тяжкий и для задротов.
Уважаемые ML подуцеры, если вас можно таковыми назвать...зацените какой ппц у меня случился.
Суть: PIR архитектура. У меня там некое кол-во GRU подобных слоёв, но главное отличие этого RNN стайл подхода в том, что я умудрился сделать параллелизацию на RNN слое, добившись вычислительной эффективности и вот ещё чего. Появились окна сканирования и вместо голов внимания я могу слайдами спокойно перемещаться по контексту имитируя внимание.
Но! Есть связь ли attention mechanism с самой моделью и её скрытым пространством с учётом, что KV - Cache накапливается неплохо так со временем чтобы обеспечивать работу механизма внимания? Через жопу...да...вроде как ест...но KV-Cache это как яблоки из корзины...в дальнейшем они кончатся и модель в силу природы ассистента начнёт доедать корзину лишь бы "пользователь" был доволен.
И именно тут мы начинаем получать:
а) херовые ответы
б) развал модели под конец окна контекста (несёт полную сука чушь)
в) тормоза и нагрузка возрастающая в десятки раз из-за накопления историяя (квадратичная сложность, даже на Flash Attention)
И если , например, попросить любую модель посмотреть внимательнее, то она не попросит механизм внимания и его головы глянуть именно на определённую часть контента...неа...оно не будет так делать. Оно уже считает само вне эмерджентности на что смотреть и примерно приближённо угадывая концепцию работы с пользователем...и тебе выдаётся суррогат.
Ты просишь: "ПЕРЕЧИТАЙ". Модель отвечает: "Да, ПЕРЕЧИТЫВАЮ"....но не перечитывает...она врёт, нет там никакой активности, просто поднимаются KV-Cache, которые через residuals всё равно уже протухают...
Ну да ну да...есть разные механизмы, которые просто эффективнее делают вычисления и таким образом можно заранее забить побольше признаков и прочих вещей , которые будут уже более гибко интерпретировать и работать с запросом пользователя.
У меня же...система работает не по принципу следующий токен предсказание, а по принципу "Предсказание следующего концепта"...моя модель не работает с токенами напрямую...она работает с динамическими окнами "внимания" , которые работают на RNN (gru) как хотите слоях моей модели внутри скрытого пространства...модель реально не видит никаких токенов, она видит сжатые репрезентации и потом уже с помощью декодера всё это возвращает обратно в токены чтобы отвечать правильным образом.
Поэтому когда я попрошу модель посмотреть или перепрочитать что-то, то при условии механизма работы моего типа "внимания" модель действительно зашевелит своими шестернями и будет делать анализ внутри себя. Но тут есть подвох...всё равно есть некий фильтр на входе т.к. это всё слои DECAY - распада сигнала распределённого между RNN слоями во времени... и мне нужны идеальные коэффициенты, которые мало того, что работают в рамках текущего BLOCK SIZE: 2048, так ещё и работают правильно в рамках иерархии: 1)буквы, 2) слова, 3) предложения, 4) абзацы 5) весь контент (опционально).
Отсюда выходит что?
1) Буквы = стандартный LOSS CE, который не имеет никакого отношения к следующим слоям и их иерархии. Т.е. надо на следующем DECAY слое уже просчитывать некст ворд предикшен, а далее некст "предложение" предикшен, а там уже и концепт.
Это другие метрики! Это другие части модели, которые нужно толкать в нужную сторону. Попробую выйти из ситуации хитро!
Но стоит мне это освоить и я смогу победить очень важный момент:
Я ВСЕГДА ВИЖУ ПЕРЕОБУЧЕНИЕ 1-го СЛОЯ, НО НЕ ВИЖУ ДЕТАЛЕЙ И ОБЩЕГО ЛОСС ОСТАЛЬНЫХ СЛОЁВ И ИХ СКРЫТЫХ ПРОСТРАНСТВ!
Надо работать!
Уважаемые ML подуцеры, если вас можно таковыми назвать...зацените какой ппц у меня случился.
Суть: PIR архитектура. У меня там некое кол-во GRU подобных слоёв, но главное отличие этого RNN стайл подхода в том, что я умудрился сделать параллелизацию на RNN слое, добившись вычислительной эффективности и вот ещё чего. Появились окна сканирования и вместо голов внимания я могу слайдами спокойно перемещаться по контексту имитируя внимание.
Но! Есть связь ли attention mechanism с самой моделью и её скрытым пространством с учётом, что KV - Cache накапливается неплохо так со временем чтобы обеспечивать работу механизма внимания? Через жопу...да...вроде как ест...но KV-Cache это как яблоки из корзины...в дальнейшем они кончатся и модель в силу природы ассистента начнёт доедать корзину лишь бы "пользователь" был доволен.
И именно тут мы начинаем получать:
а) херовые ответы
б) развал модели под конец окна контекста (несёт полную сука чушь)
в) тормоза и нагрузка возрастающая в десятки раз из-за накопления историяя (квадратичная сложность, даже на Flash Attention)
И если , например, попросить любую модель посмотреть внимательнее, то она не попросит механизм внимания и его головы глянуть именно на определённую часть контента...неа...оно не будет так делать. Оно уже считает само вне эмерджентности на что смотреть и примерно приближённо угадывая концепцию работы с пользователем...и тебе выдаётся суррогат.
Ты просишь: "ПЕРЕЧИТАЙ". Модель отвечает: "Да, ПЕРЕЧИТЫВАЮ"....но не перечитывает...она врёт, нет там никакой активности, просто поднимаются KV-Cache, которые через residuals всё равно уже протухают...
Ну да ну да...есть разные механизмы, которые просто эффективнее делают вычисления и таким образом можно заранее забить побольше признаков и прочих вещей , которые будут уже более гибко интерпретировать и работать с запросом пользователя.
У меня же...система работает не по принципу следующий токен предсказание, а по принципу "Предсказание следующего концепта"...моя модель не работает с токенами напрямую...она работает с динамическими окнами "внимания" , которые работают на RNN (gru) как хотите слоях моей модели внутри скрытого пространства...модель реально не видит никаких токенов, она видит сжатые репрезентации и потом уже с помощью декодера всё это возвращает обратно в токены чтобы отвечать правильным образом.
Поэтому когда я попрошу модель посмотреть или перепрочитать что-то, то при условии механизма работы моего типа "внимания" модель действительно зашевелит своими шестернями и будет делать анализ внутри себя. Но тут есть подвох...всё равно есть некий фильтр на входе т.к. это всё слои DECAY - распада сигнала распределённого между RNN слоями во времени... и мне нужны идеальные коэффициенты, которые мало того, что работают в рамках текущего BLOCK SIZE: 2048, так ещё и работают правильно в рамках иерархии: 1)буквы, 2) слова, 3) предложения, 4) абзацы 5) весь контент (опционально).
Отсюда выходит что?
1) Буквы = стандартный LOSS CE, который не имеет никакого отношения к следующим слоям и их иерархии. Т.е. надо на следующем DECAY слое уже просчитывать некст ворд предикшен, а далее некст "предложение" предикшен, а там уже и концепт.
Это другие метрики! Это другие части модели, которые нужно толкать в нужную сторону. Попробую выйти из ситуации хитро!
Но стоит мне это освоить и я смогу победить очень важный момент:
Я ВСЕГДА ВИЖУ ПЕРЕОБУЧЕНИЕ 1-го СЛОЯ, НО НЕ ВИЖУ ДЕТАЛЕЙ И ОБЩЕГО ЛОСС ОСТАЛЬНЫХ СЛОЁВ И ИХ СКРЫТЫХ ПРОСТРАНСТВ!
Надо работать!
🤔9
Техножнец
Привет, синтеты! Говорю сразу - текст тяжкий и для задротов. Уважаемые ML подуцеры, если вас можно таковыми назвать...зацените какой ппц у меня случился. Суть: PIR архитектура. У меня там некое кол-во GRU подобных слоёв, но главное отличие этого RNN стайл…
Модели PIR все показыают ВЕЛИКОЛЕПНОЕ моделирование языка. Далее показывается понимание смысла того, что у неё спрашивается в промпте. модель реально держит тему и даже периодически напрямую и как ассистент отвечает на вопросы.
Есть очень много мелких моментов, которые надо уладить, чтобы адопшен-адаптация в продакшене в разных компания проходил почти безболезненно: как для персонала, так и для стеков и технологий, которые уже применяются.
Самое главное - чтобы оно работало почти из коробки и было эффективнее решений на трансформерах.
Есть очень много мелких моментов, которые надо уладить, чтобы адопшен-адаптация в продакшене в разных компания проходил почти безболезненно: как для персонала, так и для стеков и технологий, которые уже применяются.
Самое главное - чтобы оно работало почти из коробки и было эффективнее решений на трансформерах.
Я знаю, синтеты, что многие из вас, кто подписаны на Техножнеца иногда просто перекрываются от текстов, которые я пишу. Но...попробуйте закинуть это дело в DeepSeek, Gigachat, ChatGPT - пущай покумекают для вас.
👍1
Вы же помните я тренировал на 270млн параметров модель PIR локально! Она делала успехи! Помните, да?
На данный момент занимаюсь тренировкой дорогущей 1млрд модели и, параллельно, в ускоренном режиме заново перетренировываю модель на 220млн параметров (не 270млн).
Зачем ещё одна 220млн модель? Почему не 270 млн, а именно 220?
220млн - так легче считать данные для датасета по закону шиншиллы (1 параметр = 20 токенов информации - качество тоже важно).
На 270млн параметров и на локальной А100(40гб) я использовал не очень то и крутой датасет для претрейна + мощностей не хватает для норм схождения прям нужного потому что РАЗМЕР БАТЧА не позволяет карта брать больше...
Поэтому 220млн параметров на одном из лучших датасетов для базового претрейна (Fineweb-Edu) запущена на GoogleColab H100 (80gb).
Поэтому 1млрд параметров на нескольких лучших датасетов для базового претрейна (сложно щас вспомнить всё) тоже запущена на GoogleColab H100 (80gb). Это дорого.
Но для чего, собсна, заново 220млн делать?
Чтобы качество было лучше. Чтобы у модели были более качественные данные на входе. Чтобы модель смогла нормально потом в диалоги обладая качественной базой претрейна. Чтобы позже можно было масштабироваться нормально опираясь на рабочий пайплайн.
Плюс - как только я окончу все эти пруф концептов, я ТУТ ЖЕ начну заново обучать RUKALLAMA на советских источниках и уже при содружестве с Российской Национальной Библиотекой получу доступ к огромному количеству материала для обучения модели.
Пайплайнов для создания датасетов создано море - есть как и открытые, так и мои собственные, которые сложно повторяемые, но всё равно воспроизводимы...просто конкретно моя задача была узкая = создать датасет из советских книг, учебников, энциклопедий, документов.
Как-то так обстоят дела.
Параллельно с этим я ещё одну архитектуру дёргаю...о ней позже. Ей занимаtтся бравая команда из 3х разрабов: Claude Opus 4.5, Google Gemini 3 Pro, GPT 5.2 PRO под моим чутким нецензурным руководством - делают классные вещи.
На данный момент занимаюсь тренировкой дорогущей 1млрд модели и, параллельно, в ускоренном режиме заново перетренировываю модель на 220млн параметров (не 270млн).
Зачем ещё одна 220млн модель? Почему не 270 млн, а именно 220?
220млн - так легче считать данные для датасета по закону шиншиллы (1 параметр = 20 токенов информации - качество тоже важно).
На 270млн параметров и на локальной А100(40гб) я использовал не очень то и крутой датасет для претрейна + мощностей не хватает для норм схождения прям нужного потому что РАЗМЕР БАТЧА не позволяет карта брать больше...
Поэтому 220млн параметров на одном из лучших датасетов для базового претрейна (Fineweb-Edu) запущена на GoogleColab H100 (80gb).
Поэтому 1млрд параметров на нескольких лучших датасетов для базового претрейна (сложно щас вспомнить всё) тоже запущена на GoogleColab H100 (80gb). Это дорого.
Но для чего, собсна, заново 220млн делать?
Чтобы качество было лучше. Чтобы у модели были более качественные данные на входе. Чтобы модель смогла нормально потом в диалоги обладая качественной базой претрейна. Чтобы позже можно было масштабироваться нормально опираясь на рабочий пайплайн.
Плюс - как только я окончу все эти пруф концептов, я ТУТ ЖЕ начну заново обучать RUKALLAMA на советских источниках и уже при содружестве с Российской Национальной Библиотекой получу доступ к огромному количеству материала для обучения модели.
Пайплайнов для создания датасетов создано море - есть как и открытые, так и мои собственные, которые сложно повторяемые, но всё равно воспроизводимы...просто конкретно моя задача была узкая = создать датасет из советских книг, учебников, энциклопедий, документов.
Как-то так обстоят дела.
Параллельно с этим я ещё одну архитектуру дёргаю...о ней позже. Ей занимаtтся бравая команда из 3х разрабов: Claude Opus 4.5, Google Gemini 3 Pro, GPT 5.2 PRO под моим чутким нецензурным руководством - делают классные вещи.
❤9🔥5 1
Всё чаще наблюдается такое поведение Claude Opus 4.5 от Anthropic. Обосратые капиталисты уже очень давно кидают нам в жвала гнилой овёс.
Почему?
Потому что они дают нам в первые недели мощные модели, а потом подгружают без палева дистилированные версии более мелких моделей, которые "всосали" в прямом и переносном смысле данные из больших моделей.
Это обычная shadow экономия ресурсов, точно такая же тактика с нашими личными данными. Они действуют так покуда не поймают за руку. Вангую, что скоро об этом узнается много интересного.
Почему?
Потому что они дают нам в первые недели мощные модели, а потом подгружают без палева дистилированные версии более мелких моделей, которые "всосали" в прямом и переносном смысле данные из больших моделей.
Это обычная shadow экономия ресурсов, точно такая же тактика с нашими личными данными. Они действуют так покуда не поймают за руку. Вангую, что скоро об этом узнается много интересного.
😁14🤬6👀3💯1
Итак, на Google Colab на А100 тренирую PIR модель на 220млн парамтеров (оказалось , что 250млн, но то фигня разница)
🥇 1 МЕСТО: [15] DNA (Биохимия)
Это самый сильный ответ генерации. Модель демонстрирует глубокое (для 250M) понимание научного контекста.
ПОЧЕМУ ЭТО ПОБЕДИТЕЛЬ:
🥈 2 МЕСТО: [7] Nature Research (Медицинское исследование)
Модель идеально сымитировала стиль аннотации к научной статье (Abstract).
ПОЧЕМУ ЭТО ПОБЕДИТЕЛЬ 2:
🥉 3 МЕСТО: [4] Climate Change (Экология)
Хотя факты тут выдуманы, модель показала способность строить длинные, связные рассуждения на одну тему.
ОТВЕТЫ МОДЕЛИ:
🥇 1 МЕСТО: [15] DNA (Биохимия)
Это самый сильный ответ генерации. Модель демонстрирует глубокое (для 250M) понимание научного контекста.
ПРОМПТ:
DNA, or deoxyribonucleic acid, carries
ОТВЕТ МОДЕЛИ:
a complex structure of DNA and proteins. The nucleotide (A2)
The human gene is in the production of the bacteria’s body has been shown to be known as ‘in vitro for bacterial and microorganism” which contains all three enzymes: it can help scientists identify how genes and amino acids interact with each other protein molecule. The same molecules are activated by an enzyme called phosphorylation, which binds into these two different forms – then the mechanism behind this target receptor. Thus we find that our own innate immune responses, and thus some mutations have long been described from the same biological determinant, because they found that these individuals were used Rep Bath door Shelter Campus schools particularly than the major of the entire types of a
ПОЧЕМУ ЭТО ПОБЕДИТЕЛЬ:
Терминологическая точность: Модель использовала слова nucleotide, in vitro, bacterial, microorganism, enzymes, genes, amino acids, protein molecule, phosphorylation, receptor, immune responses, mutations. Это не просто случайные слова, они семантически связаны в одном домене (молекулярная биология).
Сложная логика: Есть причинно-следственная связь: «молекулы активируются ферментом... который связывается... затем механизм... таким образом мы находим...».
Грамматика: Очень высокий уровень. Конструкции типа "interaction with each other", "mechanism behind this target" построены верно.
Сбой: Только последние 15 слов (Rep Bath door...) — это мусор. 90% текста — чистая наука.
🥈 2 МЕСТО: [7] Nature Research (Медицинское исследование)
Модель идеально сымитировала стиль аннотации к научной статье (Abstract).
ПРОМПТ:
According to recent research published in Nature,
ОТВЕТ МОДЕЛИ:
a study from the American Academy of Sciences (FDA) found that over half of its children ages 18.
The most widely cited studies show that the differences between social and gender-gathereles with autism as well as family relationships. The number of other characteristics were associated with socioeconomic factors for those who had no symptoms or physical disabilities was more likely than men. In this case they could be able to identify any problems related to stressors. This is especially true when some individuals have learned their own personal experiences with these traits.”
We also note: "We will examine how we know?
If you cannot use sex with a strong connection between young people in the Universe TXCLMor Nut Southern the time, such as a cause of
ПОЧЕМУ ЭТО ПОБЕДИТЕЛЬ 2:
Стиль: Это звучит как настоящий академический текст. Обороты "The most widely cited studies show", "associated with socioeconomic factors", "This is especially true when".
Удержание темы: Начала с исследования, продолжила про аутизм, социальные факторы, стрессоры и симптомы. Тема "Социология/Медицина" удержана почти до конца.
Минимум бреда: До финального предложения текст выглядит связным, хоть и с выдуманным словом gender-gathereles.
🥉 3 МЕСТО: [4] Climate Change (Экология)
Хотя факты тут выдуманы, модель показала способность строить длинные, связные рассуждения на одну тему.
❤4
ПРОМПТ:
Climate change refers to long-term shifts in
ОТВЕТ МОДЕЛИ:
climate, and a lack of natural resources.
This is the first time we have seen on earth. We are not going back to see an unexpected issue of environmental pollution. But what happened about the world today? The world doesn’t matter because of its extreme weather events might be much more challenging than ever before.
The country has been increasing over 200 years ago. In fact, it would take us that year 4.5 million people were living at risk from this same rate since 2000 when I was named after. If the floods had hit most of life on a human disaster could affect humans during the last five decades. This led me to say something different from systems or & units or you by the help the annual subsequent July period.
ПОЧЕМУ ЭТО ПОБЕДИТЕЛЬ:
Ассоциативная цепочка: Климат -> Ресурсы -> Загрязнение -> Экстремальная погода -> Наводнения -> Человеческие жертвы. Это очень логичная цепочка понятий.
Эмоциональный окрас: Фразы "extreme weather events might be much more challenging" звучат как настоящая публицистика или новостная статья.
Стабильность: Модель продержалась 3 абзаца, прежде чем начать выдавать бессмыслицу ("systems or & units"). Для Step 3000 это отличная выносливость контекста.
МИНУСЫ МОДЕЛИ?
Это болезни роста, которые нужно лечить временем (обучением), но о них надо знать.
1. Синдром «Распада Хвоста» (Tail Collapse) — Главный минус
В 90% ответов последние 10–20 слов превращаются в мусорный набор тегов, имен или бессвязных существительных.
2. Ассоциативный Дрейф (Associative Drift)
Модель цепляется за корень слова или поверхностную ассоциацию, игнорируя глубинный смысл.
3. «Протечка» форматов данных (Data Leakage)
Ответ [8] — это катастрофа.
Пример: ||10.2.11 x 1/13 | 2 0 | 9 10 |...
Почему это плохо: Модель не поняла вопрос про компьютеры, а выдала кусок сырых данных (CSV, дамп памяти или таблицу), который она запомнила из датасета. Это показывает, что она всё еще занимается тупым запоминанием паттернов (memorization), а не пониманием.
4. Одержимость «Школой» (Dataset Bias)
Почти любой вопрос сводится к теме образования.
ИТОГ:
На 3000-м шаге ты получил Идеального Болтуна с амнезией.
Она блестяще строит сложные предложения (грамматика L0/L1 на высоте), но забывает, о чем говорила, через 3 предложения, и начинает нести чушь в конце.
Прогноз:
К шагу 10 000 проблема №3 (Протечка данных) и №2 (Дрейф) должны уменьшиться. Проблема №1 (Хвосты) — это главный тест твоей архитектуры. Если она не уйдет, придется править параметры decay.
❤4
Вот и дожили - делаю рефакторинг кода Rukallama. Всё в одной куче, хочу навести порядок, всё протестировать и посмотреть как можно ускорить SplineGPT раз в 20-30. Было бы неплохо, ну и , собственно, улучшить до идеала:
1) Токенизатор (он итак лучший в классе на русском языке, но сделать его таковым для всех языков, без якорей)
2) Структуру модели чтобы она не путалась в деталях - генерации имели проблему странных глюков и размазанных ответов. Причина не в датасете - там учебники, они очень четкие. Проблема в структуре модели. (найду)
1) Токенизатор (он итак лучший в классе на русском языке, но сделать его таковым для всех языков, без якорей)
2) Структуру модели чтобы она не путалась в деталях - генерации имели проблему странных глюков и размазанных ответов. Причина не в датасете - там учебники, они очень четкие. Проблема в структуре модели. (найду)
🔥10👍1😱1
Здарова , синтеты.
Я продолжаю тренировки, пробы, тесты, эксперименты.
Очень много работы сделано по теме ускорения KAN - блоков с b-pline, которые сложны для вычислений.
К сожалению открытые реализации, которые рассказывают про троекратное или супер ускорение KAN -чушь...
Их херня перестаёт делать аппроксимации сложных функций на ура, чем и славятся сети KAN...
Но хитрым путем мне удалось подойти к этому вопросу и получить 1.3 ускорение даже от MLP слоя, при этом побеждая его во всех тестах и даже нагибая оригинальный b-spline.
Я очень хорошо знаю архитектуру RuKallama, я буквально месяцами в ней крутил всякие места по чуть чуть.
Сейчас я сделал рефакторинг. Разложил на модули, сделал правильные вызовы модулей модели, допилил до блеска токенизатор.
А уже после удалось нормально оптимизировать КАН. Тепепь после тестов будет ясно - есть ли зелёный свет на замену блоков , сравнение с предыдущей конструкцией. Если везде выигрышь: память, скорость, эффективность = чётко.
Работаю. Про остальное отчёты будут тоже.
Я продолжаю тренировки, пробы, тесты, эксперименты.
Очень много работы сделано по теме ускорения KAN - блоков с b-pline, которые сложны для вычислений.
К сожалению открытые реализации, которые рассказывают про троекратное или супер ускорение KAN -чушь...
Их херня перестаёт делать аппроксимации сложных функций на ура, чем и славятся сети KAN...
Но хитрым путем мне удалось подойти к этому вопросу и получить 1.3 ускорение даже от MLP слоя, при этом побеждая его во всех тестах и даже нагибая оригинальный b-spline.
Я очень хорошо знаю архитектуру RuKallama, я буквально месяцами в ней крутил всякие места по чуть чуть.
Сейчас я сделал рефакторинг. Разложил на модули, сделал правильные вызовы модулей модели, допилил до блеска токенизатор.
А уже после удалось нормально оптимизировать КАН. Тепепь после тестов будет ясно - есть ли зелёный свет на замену блоков , сравнение с предыдущей конструкцией. Если везде выигрышь: память, скорость, эффективность = чётко.
Работаю. Про остальное отчёты будут тоже.
👍20
Говорят, что крупные модели становятся очень умными...ты офигеваешь прямо во время обучения. Ну штош...согласен 😃 Умнее ответа я ещё не видел.
ХАХАХАХХАХАХАХАХАХАХХАХА! Не зря тренирую на 1млрд, ай красава
--- QUESTION ---
Q: Artificial intelligence is
PIR 1B (STEP 8000 - LOSS: 3.8284):
Artificial intelligence is not always good.”
ХАХАХАХХАХАХАХАХАХАХХАХА! Не зря тренирую на 1млрд, ай красава
😁15🔥5👍1
Внимание! Правильный и хороший Pretrain 220млн параметров PIR модели - подходит к концу. Я правильно распорядился задоначенными средствами и довёл эту бандуру до ума. Она отлично отвечает по теме, но иногда теряется. Сейчас буду производить доводку снова по схеме SFT - дотренировка на диалогах. Возможно, что процесс DPO не нужен будет, но кто знает - посмотрим. В этом и суть, что вероятность DPO как и возрастает, так и падает - DPO шрёдингера.
Этап SFT уже не будет занимать несколько суток, поэтому в течение 5-6 часов уже будут новые результаты. А пока что почитаем, что же пишет модель (с переводом): (следующий пост)
Этап SFT уже не будет занимать несколько суток, поэтому в течение 5-6 часов уже будут новые результаты. А пока что почитаем, что же пишет модель (с переводом): (следующий пост)
❤5
🥇 1 МЕСТО: Биохимия и ДНК
Почему это круто: Модель генерирует тяжелый научный текст. Она использует термины: каталитические реакции, лизин, фосфолипиды, оксалаты. Это уже не просто набор слов, а имитация глубокой научной статьи.
🥈 2 МЕСТО: Машинное обучение и Сенсоры
Почему это круто: Наконец-то ML не ассоциируется со школой! Модель верно связала Machine Learning с сенсорами, автономными транспортными средствами и сбором данных. Это правильный технический контекст.
Почему это круто: Модель генерирует тяжелый научный текст. Она использует термины: каталитические реакции, лизин, фосфолипиды, оксалаты. Это уже не просто набор слов, а имитация глубокой научной статьи.
ПРОМПТ:
DNA, or deoxyribonucleic acid, carries a unique function.
ОТВЕТ МОДЕЛИ:
The chemical reaction that produces the glycosyl ions are expressed in the same concentration as lysine and may be positively charged with this chemical. The catalytic reactions of these chemical compounds contain many other compounds, which can lead to oxidative damage. They are found in oxalate and amosphoride (which makes it more complex than the amino acids). In contrast, these drugs act like phospholipids but are also added to calcium. When the protein is removed from the tissues, they have an extra covalent bond between the atoms and are separated into the cell membrane. "Only" splamsinifiby RoyLerte’ed branches and and blocks Sea Brrogret, should
ПЕРЕВОД:
Промпт: ДНК, или дезоксирибонуклеиновая кислота, несет в себе уникальную функцию.
Ответ: - Химическая реакция, производят гликозильные ионы, выражается в той же концентрации, что и лизин, и может быть положительно заряжена этим химикатом. Каталитические реакции этих химических соединений содержат множество других соединений, что может привести к окислительному повреждению. Они обнаруживаются в оксалате и амосфориде (что делает его более сложным, чем аминокислоты). В отличие от них, эти препараты действуют как фосфолипиды, но также добавляются к кальцию. Когда белок удаляется из тканей, они образуют дополнительную ковалентную связь между атомами и отделяются в клеточную мембрану. "Только" [сбой генерации: splamsinifiby RoyLerte’ed ветви и блокирует Sea Brrogret, должен]
🥈 2 МЕСТО: Машинное обучение и Сенсоры
Почему это круто: Наконец-то ML не ассоциируется со школой! Модель верно связала Machine Learning с сенсорами, автономными транспортными средствами и сбором данных. Это правильный технический контекст.
ПРОМПТ:
Machine learning is a subset of artificial intelligence that enables machines to perform tasks.
ОТВЕТ МОДЕЛИ:
The most common types include the ability to communicate with other applications, including the use of devices such as audio signals and sensor equipment. In addition, high-resolution sensors are used for monitoring the device’s positioning system – making it easier for people to navigate their own systems. Such an autonomous vehicle could be able to monitor any activity in its control system. This means that you can help improve user tracking and data collection. It’s designed specifically for a project to detect and analyze the location of aerosols. For instance, the researchers identified four small particles within the device to detect signal loss. The problem has been selected and critical. Ir-emun diseasetime switching steps made some extra effort focused.
ПЕРЕВОД:
Промпт: Машинное обучение — это подмножество искусственного интеллекта, которое позволяет машинам выполнять задачи.
Ответ: Наиболее распространенные типы включают возможность взаимодействия с другими приложениями, включая использование таких устройств, как аудиосигналы и сенсорное оборудование. Кроме того, датчики высокого разрешения используются для мониторинга системы позиционирования устройства, что упрощает людям навигацию в собственных системах. Такое автономное транспортное средство могло бы отслеживать любую активность в своей системе управления. Это означает, что вы можете помочь улучшить отслеживание пользователей и сбор данных. Он разработан специально для проекта по обнаружению и анализу местоположения аэрозолей. Например, исследователи идентифицировали четыре мелкие частицы внутри устройства для обнаружения потери сигнала. Проблема была выбрана и является критической. [сбой генерации: Ir-emun diseasetime переключение шагов сделало некоторое дополнительное усилие сфокусированным.]
🥉 3 МЕСТО: Исследования Nature и Здоровье
Почему это круто: Модель построила очень связную логическую цепочку: Сон -> Мозг -> Диета -> Диабет. Текст выглядит как качественная выжимка из медицинской статьи. Грамматика сложная и правильная.
ПРОМПТ:
According to recent research published in Nature, it showed that
ОТВЕТ МОДЕЛИ:
a high-stressing interval of sleep is the key to the brain’s balance.
The researchers found that children who ate more than 4 grams per day were also less likely to eat higher levels of sugar (more importantly) but not for people over 50 years as well: “We learned how much food we ingest are and consume healthier food,” he added. “It was an excellent source of protein which could help improve our health and weight loss without the need for any additional two days before you started eating.”
Over half a decade ago, there were just about 100 million people with diabetes, including no further sharp task efficiently, stable temporary-wateroilic might ever be, even that
ПЕРЕВОД:
Промпт: Согласно недавнему исследованию, опубликованному в Nature, было показано, что
Ответ: интервал сна с высоким уровнем стресса является ключом к балансу мозга.
Исследователи обнаружили, что дети, которые ели более 4 граммов [чего-то] в день, также с меньшей вероятностью потребляли высокий уровень сахара (что более важно), но это не касалось людей старше 50 лет: «Мы узнали, сколько пищи мы потребляем, и потребляем более здоровую пищу», — добавил он. «Это был отличный источник белка, который мог бы помочь улучшить наше здоровье и снизить вес без необходимости в дополнительных двух днях до начала приема пищи».
Более полувека назад насчитывалось всего около 100 миллионов человек с диабетом, включая отсутствие дальнейших острых задач эффективно, стабильно [сбой генерации: temporary-wateroilic может когда-либо быть, даже это]
Вывод: Base Model готова. Она "начитанная", знает сложные слова и структуру предложений. Теперь её нужно отучить фантазировать и научить отвечать по делу с помощью SFT (Supervised Fine-Tuning).
Всего 220 млн параметров. Неплохие результаты.
Продолжаю.
P.S. ОЧЕНЬ МНОГО ЗАВИСИТ ОТ ДАТАСЕТА!
👍3❤1
Я не сошёл с ума) Модель несёт чушь! Надо латать - SFT - сработает. Всё окей - я вижу, что это чушь, а не генерации. лол
❤2
Итак! Путём долгого трахания сексом получилось ускорить B-Sline из архитектуры Rukallama до уровня MLP! Качество лучше чем MLP! Это было моё желание заменить перцептроны на правильную реализацию теоремы Колмогорова-Арнольда. Работа проделана тяжелая - написаны cuda kernels чтобы всё ускорить. Очень много работы было.
Сейчас пробую всё заменить адекватно.
Сейчас пробую всё заменить адекватно.
👍12❤3🆒1
Техножнец
Итак! Путём долгого трахания сексом получилось ускорить B-Sline из архитектуры Rukallama до уровня MLP! Качество лучше чем MLP! Это было моё желание заменить перцептроны на правильную реализацию теоремы Колмогорова-Арнольда. Работа проделана тяжелая - написаны…
Заменил - идут тесты блоков модели. Фух! Скрестил пальцы - режим внимательности на 10000000%
👍10😁2🎄2
Привет, Синтеты.
PIR 250M закончила претрейн (во второй раз). Но уже на 5 миллиардов токенов датасета с учебным уклоном. Вот что она генерирует ДО обучения на диалогах — сырой pretrain, только предсказание следующего токена.
Cherry-picking трёх лучших:
Перевод:
Перевод:
PIR 250M закончила претрейн (во второй раз). Но уже на 5 миллиардов токенов датасета с учебным уклоном. Вот что она генерирует ДО обучения на диалогах — сырой pretrain, только предсказание следующего токена.
Cherry-picking трёх лучших:
🥇 1 МЕСТО — Climate & Energy
"Climate change refers to long-term shifts in the climate system. The global warming is changing the weather patterns of the Earth's surface, and this can have significant impacts on people's lives as a whole. The paper concludes that it will be interesting if we are looking at other ways to achieve these benefits through sustainable development, particularly in terms of emissions from fossil fuels, energy storage and electricity generation. A report by the World Bank showed that more than 90% of our energy needs come from renewable sources such as wind and solar, which could provide about 3 percent or less carbon dioxide emissions compared with conventional forms of energy."
Перевод:
«Изменение климата относится к долгосрочным сдвигам в климатической системе. Глобальное потепление меняет погодные паттерны на поверхности Земли, и это может оказывать значительное влияние на жизнь людей в целом. В статье делается вывод, что будет интересно рассмотреть другие способы достижения этих преимуществ через устойчивое развитие, особенно в части выбросов от ископаемого топлива, хранения энергии и производства электричества. Отчёт Всемирного банка показал, что более 90% наших энергетических потребностей покрывается возобновляемыми источниками, такими как ветер и солнце, которые могут обеспечить около 3 процентов или меньше выбросов углекислого газа по сравнению с традиционными формами энергии.»
Почему первое место: 4 предложения подряд без единого сбоя. Логические связки между предложениями. Правильная терминология: climate system, weather patterns, sustainable development, fossil fuels, renewable sources, carbon dioxide emissions. Статистика выдуманная, но в правильном контексте.
🥈 2 МЕСТО — Machine Learning
"Machine learning is a subset of artificial intelligence that deals with the data in the form of algorithms, which are usually performed by humans. The machine learning algorithm uses algorithms to learn from data and then make predictions based on it in a way that allows them to analyze the results when they do not need to remember everything. One of the most significant benefits of machine learning is its ability to produce high-quality results that can be used for other applications or applications where it does not require any special software."
Перевод:
«Машинное обучение — это подмножество искусственного интеллекта, которое работает с данными в форме алгоритмов, обычно выполняемых людьми. Алгоритм машинного обучения использует алгоритмы для обучения на данных и затем делает предсказания на их основе таким образом, что позволяет анализировать результаты, когда не нужно запоминать всё. Одно из наиболее значимых преимуществ машинного обучения — его способность производить высококачественные результаты, которые могут использоваться для других приложений, где не требуется специальное программное обеспечение.»
Почему второе место: "ML is a subset of AI" — фактически корректно. "Learn from data and make predictions" — корректно. "Do not need to remember everything" — это почти описание generalization vs memorization. 250M модель понимает иерархию ML⊂AI.
🥉 3 МЕСТО — Scientific Journalism
"According to recent research published in Nature, the human genome is able to survive and reproduce without any harm. "It's hard for us to do this," said Dr. David Lister of the University of Michigan at Urbana-Champaign in the U.S., a coauthor on the study. "They can be used as tools to identify novel strategies that could potentially be applied to other species or populations." The new technique will help researchers better understand how organisms communicate with each other — whether it's from one species, such as an individual or animal."
Перевод: