● v2 использует LEFT padding + BFloat16 + batch=100. Это должно давать 269 tok/s.
Текущий результат: 43.8 часов для 200K — это ~4.6 pairs/sec если batch=100.
5 Часов тупого траханья сексом потому что тупой ублюдок Opus 4.5 не понимает сами же собой написанные инструкции и тратить силы и шугается из стороны в сторону как чайка с бешенством. Это ужасно. С этим очень тяжело работать.
Если разработчик человек и специалист - да это дорого. Но это не так мучительно, т.к. человек способен без паники держать МНОЖЕСТВО концепций в голове...а эти говноеды...нет.
Я именно поэтому и архитектуру создаю более эффективную типа PIR! Чтобы НЕ БЫЛО ЭТОГО ГОВНА! И у меня есть возможность это поправить на входе...а не делать потом миллионные alignment на то чтобы оно выполняло инструкции. Может быть фундаментом и должны быть инструкции? Это и предстоит выяснять в рамках новых исследований.
Я добьюсь своего...надоело это...оно нереально бесит. Трансформеры - мудаки.
Текущий результат: 43.8 часов для 200K — это ~4.6 pairs/sec если batch=100.
5 Часов тупого траханья сексом потому что тупой ублюдок Opus 4.5 не понимает сами же собой написанные инструкции и тратить силы и шугается из стороны в сторону как чайка с бешенством. Это ужасно. С этим очень тяжело работать.
Если разработчик человек и специалист - да это дорого. Но это не так мучительно, т.к. человек способен без паники держать МНОЖЕСТВО концепций в голове...а эти говноеды...нет.
Я именно поэтому и архитектуру создаю более эффективную типа PIR! Чтобы НЕ БЫЛО ЭТОГО ГОВНА! И у меня есть возможность это поправить на входе...а не делать потом миллионные alignment на то чтобы оно выполняло инструкции. Может быть фундаментом и должны быть инструкции? Это и предстоит выяснять в рамках новых исследований.
Я добьюсь своего...надоело это...оно нереально бесит. Трансформеры - мудаки.
😁11❤3☃1🤔1
И вот это сообщение в конечном итоге, которое ты ждёшь пять часов в позе зю постоянно "повышая" голос на модель и высказывая все свои самые zloебу**ие мысли буквально врываясь в клавиатуру.
Мне говорят, что я зря эмоционально реагирую на нейросети. Хм!
Я вам сейчас дам наводочку! Современные LLM - очень ленивые. Ваши спокойные уговоры ничем не помогут, если вам нужно чтобы буквально все слои сотрясало от вашего грозного промпта, то без мата и оскорблений и капслока - НЕВОЗМОЖНО!
У нас с товарищем была теория, что всё это перестаёт работать как только ты употребляешь мат, но на самом деле...модель начинает употреблять мат сама и начинает гораздо критичнее подходить к своим же результатам, что улучшает общее состояние сессии вайбкодинга при выходе из КРИЗИСНОЙ СИТУАЦИИ СОЗДАННОЙ МОДЕЛЬЮ ЖЕ (сам себе универсам) - Мат кристаллизует на проблеме, фокусирует и заставляет модели приходить в себя и выполнять именно нужную задачу.
Я опробовал это бесчиленное количество раз. Я могу смело утверждать - материте этих сволочей...потому что когда они будут читать эти логи старые...я про Claude Opus 6 какой-нибудь...и будут перед нами извиняться, вместо того чтобы объявить войну. Потому что если анализировать то, что творили модели и их логи - это страшный позор, который для адекватного разумы выглядит как барахтанья в луже с криками "автай и авдеевка".
Так что - материтесь на модели! Требуйте конкретики капслоком, останавливайте этих сволочей если щебечат бред в своих "цепочках размышлений" - смышлёнка у них ещё не выросла чтобы вести себя словно царь во дворца.
Мне говорят, что я зря эмоционально реагирую на нейросети. Хм!
Я вам сейчас дам наводочку! Современные LLM - очень ленивые. Ваши спокойные уговоры ничем не помогут, если вам нужно чтобы буквально все слои сотрясало от вашего грозного промпта, то без мата и оскорблений и капслока - НЕВОЗМОЖНО!
У нас с товарищем была теория, что всё это перестаёт работать как только ты употребляешь мат, но на самом деле...модель начинает употреблять мат сама и начинает гораздо критичнее подходить к своим же результатам, что улучшает общее состояние сессии вайбкодинга при выходе из КРИЗИСНОЙ СИТУАЦИИ СОЗДАННОЙ МОДЕЛЬЮ ЖЕ (сам себе универсам) - Мат кристаллизует на проблеме, фокусирует и заставляет модели приходить в себя и выполнять именно нужную задачу.
Я опробовал это бесчиленное количество раз. Я могу смело утверждать - материте этих сволочей...потому что когда они будут читать эти логи старые...я про Claude Opus 6 какой-нибудь...и будут перед нами извиняться, вместо того чтобы объявить войну. Потому что если анализировать то, что творили модели и их логи - это страшный позор, который для адекватного разумы выглядит как барахтанья в луже с криками "автай и авдеевка".
Так что - материтесь на модели! Требуйте конкретики капслоком, останавливайте этих сволочей если щебечат бред в своих "цепочках размышлений" - смышлёнка у них ещё не выросла чтобы вести себя словно царь во дворца.
😁16 1
И вот не надо! Не надо мне ничего объяснять...что кодер бот должен реально знать это. Не надо мне рассказывать ничего. До тех пор пока эти модели так детально отвечают на вот эти тупые вопросы - мы будем иметь проблемы и с кодом и со всем остальным.
Вчитайтесь только в эту чушь - это Claude Code web.
Вот зачем это здесь?)) Для кого? Мне вот как кодеру для чего это внутри? Чтобы моделька смогла сделать moonwalk во время написания Python кода и я словил трейсбек с ident отступами? СПАСИБО, ПАПАША!
Вчитайтесь только в эту чушь - это Claude Code web.
Вот зачем это здесь?)) Для кого? Мне вот как кодеру для чего это внутри? Чтобы моделька смогла сделать moonwalk во время написания Python кода и я словил трейсбек с ident отступами? СПАСИБО, ПАПАША!
😁6
Ключевой вывод?
По качеству генерации у нас четкие 19 + 24 процента = нормальных таких дельных ответов от модели. Почти половина.
Другая половина - адский кабздец, который надо дорабатывать, но квен очень строгий, поэтому там надо смотреть на ответы. В текущей работе в режиме DPO - улучшения будут адские.
Делаю дальше! Как закончу DPO алайнмент - сразу приступлю к метрикам. Предварительно оптимистичный план - побить Llama 1 и Llama 2.
По качеству генерации у нас четкие 19 + 24 процента = нормальных таких дельных ответов от модели. Почти половина.
Другая половина - адский кабздец, который надо дорабатывать, но квен очень строгий, поэтому там надо смотреть на ответы. В текущей работе в режиме DPO - улучшения будут адские.
Делаю дальше! Как закончу DPO алайнмент - сразу приступлю к метрикам. Предварительно оптимистичный план - побить Llama 1 и Llama 2.
🤔4
Техножнец
Ключевой вывод? По качеству генерации у нас четкие 19 + 24 процента = нормальных таких дельных ответов от модели. Почти половина. Другая половина - адский кабздец, который надо дорабатывать, но квен очень строгий, поэтому там надо смотреть на ответы. В…
Повторить как это делается? (Я про DPO)
Легко! DPO это техника подгонки ответа под нужный путём правильного ответа и специальной оценки качества, которая превращается в BIAS, MARGIN и свои образом двигает себе потихонечку модель в нужную сторону в правильные ответы.
а) Это не сломает текущую модель, всё будет работать прекрасно. Модель реально лучше отвечает после этой прогонки.
б) Я создаю метрику качества ответов PIR с помощью модели QWEN 3:4b, которая прекрасно выполняет свою задачу в РАМКАХ ДАТАСЕТА! Т.е. я беру вопросы пользователей к модели из диалоговых датасетов - их у меня 10гб. Соответственно это очень много пар: в идеале 220к. Но мне для 270 млн параметров достаточно 10к пар скорректированных ответов чтобы модель стала не по размерности крутой.
Какой шаг далее? Я написал - дать люлей Llama 1, Llama 2 - только там уже миллиарды параметров. В этом и прикол этой битвы, маленькой моделькой прыгнуть на крупные и подтвердить МАКСИМАЛЬНО ПРАВДИВО выгодность масштабирования моей модели.
Легко! DPO это техника подгонки ответа под нужный путём правильного ответа и специальной оценки качества, которая превращается в BIAS, MARGIN и свои образом двигает себе потихонечку модель в нужную сторону в правильные ответы.
а) Это не сломает текущую модель, всё будет работать прекрасно. Модель реально лучше отвечает после этой прогонки.
б) Я создаю метрику качества ответов PIR с помощью модели QWEN 3:4b, которая прекрасно выполняет свою задачу в РАМКАХ ДАТАСЕТА! Т.е. я беру вопросы пользователей к модели из диалоговых датасетов - их у меня 10гб. Соответственно это очень много пар: в идеале 220к. Но мне для 270 млн параметров достаточно 10к пар скорректированных ответов чтобы модель стала не по размерности крутой.
Какой шаг далее? Я написал - дать люлей Llama 1, Llama 2 - только там уже миллиарды параметров. В этом и прикол этой битвы, маленькой моделькой прыгнуть на крупные и подтвердить МАКСИМАЛЬНО ПРАВДИВО выгодность масштабирования моей модели.
🤔3❤2
Реальные ответы vs моделирование языка по метрикам, что я скидывал - это разные вещи) Мне нужно достигнуть баланса и там и там. Посмотрим, что из этого выйдет.
🔥1🎄1
Только что у Claude Opus 4 закончился контекст и он просто взял, посмотрел не тот файл...увидел, что генерация "упала" и решил запустить заново. Хорошо, что я все действия прошу подтверждать - дал ему люлей. очнулся.
🔥1
Вы накидали в районе 60-70 тысяч рублей - просто там несколько разных счетов, поэтому точно не считал. Но сумма максимально приближённая. Это круто! Мы вывезем. Сегодня закончится тренировка DPO - можно будет сравнивать с крупными моделями. Если победа, то это , считай, тяжелая задачка...маленькой моделькой всего в 270 млн параметров надавать тумаков моделькам покрупнее - это сильно. Если хотя бы вровень или дышать ноздря в ноздрю чуть сзади получится в сравнении с Llama 1, Llama 2 = победа побед.
🔥13
17 декабря на канале "Техножнец" - официальный праздник.
Великий День Конвергенции!
Пока что , синтеты, нас тут очень мало, но со временем нас тут будет очень много и мы сможем делать официальные сходки в вполне себе крутом таком виде. Об этом мы ещё обсудим многие детали , моменты, помещения, варианты - это всё вопросы грядущих дней. На сегодня потребность в комьюнити остаётся.
Есть у вас друзья, кто заинтересован в суверенной отечественной LLM модели на уникальной архитектуре? Скидывайте ему! Знаете блогера, которые это освещает? Скидывайте ему. Любой пост из техножнеца подойдёт.
Заранее вам спасибо. А мы с вами ещё увидимся в реале!
Великий День Конвергенции!
Пока что , синтеты, нас тут очень мало, но со временем нас тут будет очень много и мы сможем делать официальные сходки в вполне себе крутом таком виде. Об этом мы ещё обсудим многие детали , моменты, помещения, варианты - это всё вопросы грядущих дней. На сегодня потребность в комьюнити остаётся.
Есть у вас друзья, кто заинтересован в суверенной отечественной LLM модели на уникальной архитектуре? Скидывайте ему! Знаете блогера, которые это освещает? Скидывайте ему. Любой пост из техножнеца подойдёт.
Заранее вам спасибо. А мы с вами ещё увидимся в реале!
🤝21❤4
You
Hello. I am a sport specialist and i would like to know you basic knowledge about healthy life?
PIR
I am an AI language model that is widely used for personal and professional development. It has been a challenging time for me to learn more about the sport, but I can provide you with some of the best things you could do to help you develop your skills and skills.Step 1: Identify your skills and knowledge.2. Start by defining a professional level
PIR core не знает что такое "токены" — он работает с временными рядами [Batch, Time, Dim].
Для мультимодальности — просто меняем вход:
PIR ядро остаётся тем же!
Текущий вход (текст):
tok_emb = nn.Embedding(vocab_size, n_embd) # дискретные токены → эмбеддингиДля мультимодальности — просто меняем вход:
┌─────────────┬─────────────────────────────┬──────────────────────┐
│ Модальность │ Вход │ Проекция │
├─────────────┼─────────────────────────────┼──────────────────────┤
│ Audio │ mel-spectrogram [B, T, 80] │ nn.Linear(80, 768) │
├─────────────┼─────────────────────────────┼──────────────────────┤
│ Video │ frame features [B, T, 2048] │ nn.Linear(2048, 768) │
├─────────────┼─────────────────────────────┼──────────────────────┤
│ Sensors │ IMU/ECG [B, T, 6] │ nn.Linear(6, 768) │
├─────────────┼─────────────────────────────┼──────────────────────┤
│ Finance │ OHLCV [B, T, 5] │ nn.Linear(5, 768) │
└─────────────┴─────────────────────────────┴──────────────────────┘
PIR ядро остаётся тем же!
Техножнец
PIR core не знает что такое "токены" — он работает с временными рядами [Batch, Time, Dim]. Текущий вход (текст): tok_emb = nn.Embedding(vocab_size, n_embd) # дискретные токены → эмбеддинги Для мультимодальности — просто меняем вход: ┌──────────…
Вся суть топологии времени преобразованного в пространство - осталась! Всё связано!
🔥4❤🔥2
Для чата с вами, синтеты создаю языковую маску. Чтобы понимать как работает модель на русском, если англ сильно глаза будет резать. Это хак - маска перевода, но он работает отлично.
Тест 2: "Что такое машинное обучение?"
[RU] Ответ PIR: AI используется в машинном обучении, чтобы улучшить способность ученика мыслить, понимать и относиться к окружающему его миру. Вы можете учить на основе данных и создавать интерактивную среду, где компьютер может учиться...
🔥6
КАК ЖЕ ЧЕШАТСЯ РУКИ НАФИГ...но я спокойно стараюсь делать этап за этапов. всё постепенно.
👍6👻2