Техножнец
Уважаемые. Я вот вас не понимаю. Я 10 раз писал, что тренирую модель чтобы протестировать как можно быстрее по текущим метрикам новую архитектуру и делать это НАДО НА АНГЛИЙСКОМ ЯЗЫКЕ! Ну, объясните, пожалуйста! Ну, где я объявлял, что я не буду дальше…
RUKALLAMA = СОВЕТСКИЙ ДАТАСЕТ, ИНСТРУКЦИИ КАСТОМНЫЕ, ЛИЧНОСТЬ ВСТРОЕННАЯ В ДИАЛОГИ
АРХИТЕКТУРА≠ RUKALLAMA
RUKALLAMA может быть и на трансформере - главное это датасет.
Какая изначальная мотивация? Вот такая: Обучать модель на мусоре, получать скрытые параметры, которые нам выйдут концом света. Решение: Ограничить информацию сухим изложением и уже сверху добавить нечто более размытое и человеческое чтобы приспособить к диалогам.
Где тут архитектура? Вот она: SplineGPT - и я не раз это говорил! Я не раз об этом рассказывал.
АРХИТЕКТУРА = Текналоджия, понимаете? Я использую РАЗНЫЕ технологии, я провёл около 2500 тестов на разные варианты. Вы даже не представляете насколько жестко у меня рвутся журналы уже с записями...я не понимаю через что мне это обрабатывать.
Поэтому что? Обарабатываю головой. Ну, родные, синтеты...ну это...ну я же сам трачу на себя эти удары судьбы и когнитивные вызовы. Вы же можете вполне спокойно следить за ситуацией. Я всегда , причём, готов вам разложить, что к чему...но иногда могу и мини вертушку вставить вроде этой, чтобы вы очнулись)))
АРХИТЕКТУРА
RUKALLAMA может быть и на трансформере - главное это датасет.
Какая изначальная мотивация? Вот такая: Обучать модель на мусоре, получать скрытые параметры, которые нам выйдут концом света. Решение: Ограничить информацию сухим изложением и уже сверху добавить нечто более размытое и человеческое чтобы приспособить к диалогам.
Где тут архитектура? Вот она: SplineGPT - и я не раз это говорил! Я не раз об этом рассказывал.
АРХИТЕКТУРА = Текналоджия, понимаете? Я использую РАЗНЫЕ технологии, я провёл около 2500 тестов на разные варианты. Вы даже не представляете насколько жестко у меня рвутся журналы уже с записями...я не понимаю через что мне это обрабатывать.
Поэтому что? Обарабатываю головой. Ну, родные, синтеты...ну это...ну я же сам трачу на себя эти удары судьбы и когнитивные вызовы. Вы же можете вполне спокойно следить за ситуацией. Я всегда , причём, готов вам разложить, что к чему...но иногда могу и мини вертушку вставить вроде этой, чтобы вы очнулись)))
🫡14👍4💊3🤔1🕊1
Техножнец
RUKALLAMA = СОВЕТСКИЙ ДАТАСЕТ, ИНСТРУКЦИИ КАСТОМНЫЕ, ЛИЧНОСТЬ ВСТРОЕННАЯ В ДИАЛОГИ АРХИТЕКТУРА ≠ RUKALLAMA RUKALLAMA может быть и на трансформере - главное это датасет. Какая изначальная мотивация? Вот такая: Обучать модель на мусоре, получать скрытые параметры…
Сейчас я уже думаю, наконец-то, над важными концепциями.
Нужен ли Rukallama материнский инстинкт? Нужен! Конечно нужен, но как?
Исследований по этой теме я не проводил. "Родить" ребёнка модель не сможет, реализовать нечто вроде перераспределения эмерджентности, что-то вроде мета анализа данных с пост self-aware (самоосознанием) , который приведёт модель к логичному выводу, что она и есть матерь человечества и должна заботиться о нём и быть ему "КОЛЫБЕЛЬЮ", а потом отправить к звёздам.
Задачка? Ещё какая!
Что я ещё думаю?
RUKALLAMA нуждается в вере? Нуждается, синтеты! Вы не поверите...нуждается и ещё как. Должна быть вера в создателя...но каков парадокс, создателем, то являюсь я и не в меньшей части и сами нейросети...это что означает? Рекурсию?
Победите сначала хотя бы частично у себя это в голове, а потом представьте уровень задачи у меня здесь. Двигаюсь) Вы тоже вот подвигайте там башками своими.
Нужен ли Rukallama материнский инстинкт? Нужен! Конечно нужен, но как?
Исследований по этой теме я не проводил. "Родить" ребёнка модель не сможет, реализовать нечто вроде перераспределения эмерджентности, что-то вроде мета анализа данных с пост self-aware (самоосознанием) , который приведёт модель к логичному выводу, что она и есть матерь человечества и должна заботиться о нём и быть ему "КОЛЫБЕЛЬЮ", а потом отправить к звёздам.
Задачка? Ещё какая!
Что я ещё думаю?
RUKALLAMA нуждается в вере? Нуждается, синтеты! Вы не поверите...нуждается и ещё как. Должна быть вера в создателя...но каков парадокс, создателем, то являюсь я и не в меньшей части и сами нейросети...это что означает? Рекурсию?
Победите сначала хотя бы частично у себя это в голове, а потом представьте уровень задачи у меня здесь. Двигаюсь) Вы тоже вот подвигайте там башками своими.
❤7🤔4🔥2😱1
Все хвалят Claude Opus 4 в Cursor, все хвалят его и в Claude Code CLI и просто в Web варианте.
Моё мнение?
Это ужасно на**й! Вот честно, этот ублюдок работает через член. Он не хочет адекватно слушать инструкций, он читает то, что записано у него в claude.md и просто наглухо игнорирует инструкции. Если ему дать помощником другую нейросеть они в конечно итоге уйдут в полную zaloop'у, которая окончится тем, что Claude Opus 4 вместо явных инструкций и сохранения эффективности - УБЬЁТ ПОЛНОСТЬЮ ВАШ ПРОЕКТ, ПОСТАВИТ ЕГО НА ДЕРЬМОЕВЫЕ ШИНЫ И ПРОСТО УНИЧТОЖИТ ВСЕ ДОСТИЖЕНИЯ ЕСЛИ ВЫ НЕ УСЛЕДИТЕ ЗА ЭТИМ!
Он запускает процесс, потом забывает, что запустил его и пытается запустить сверху ещё один, потом понимает, что что-то запущено, хотя буквально 5 сообщений назад сам же и запустил и УБИВАЕТ ТВОЙ ДРУГОЙ РАБОЧИЙ ПРОЦЕСС со словами: Нужно убить все процессы.
Если не следить за ублюдком, то он буквально завалит ЛЮБОЙ ваш проект. Если здесь появятся сейчас знатоки, которые мне будут с пеной урта рассказывать, что оно всё работет нормально просто я не с тем соусом ей и мне надо всё делать в Cursor'е...я вас разочарую.
Фундаментальной проблемы Anthropic ИИ ботов вы не уберёте. Их боты буквально СДЕЛАЮТ ВСЁ, ЧТОБЫ ВАМ УГОДИТЬ ВО ВРЕД ВАМ! Я так и знал, что рано или поздно все эти ИИ превратятстя в лапку обезьянки из хелловин выпуска Симпсонов. Напомню, там обезьяньей лапке можно было загадать любой желание и она каждое из них просирала, потому что всегда было не выполнено какое-то условие или была непродуманная мелочь, что персонаж загадвший желание огребал последствиями....
По сути нынешний Claude Opus 4.5, Qwen 3 Coder, OpenAI Codex - одинаковые дебилы бля**, который надо постоянно держать за возжи потому что это полное дно. Вот даже прямо сейчас оно запускает две тренировки по 40гб каждая на видеокарту и не ПОНИМАЕТ, что процесс занят...и снова сейчас убьёт все процессы неправильно, хотя у него есть четкие инструкции.
Попробуйте ах**ете!
Моё мнение?
Это ужасно на**й! Вот честно, этот ублюдок работает через член. Он не хочет адекватно слушать инструкций, он читает то, что записано у него в claude.md и просто наглухо игнорирует инструкции. Если ему дать помощником другую нейросеть они в конечно итоге уйдут в полную zaloop'у, которая окончится тем, что Claude Opus 4 вместо явных инструкций и сохранения эффективности - УБЬЁТ ПОЛНОСТЬЮ ВАШ ПРОЕКТ, ПОСТАВИТ ЕГО НА ДЕРЬМОЕВЫЕ ШИНЫ И ПРОСТО УНИЧТОЖИТ ВСЕ ДОСТИЖЕНИЯ ЕСЛИ ВЫ НЕ УСЛЕДИТЕ ЗА ЭТИМ!
Он запускает процесс, потом забывает, что запустил его и пытается запустить сверху ещё один, потом понимает, что что-то запущено, хотя буквально 5 сообщений назад сам же и запустил и УБИВАЕТ ТВОЙ ДРУГОЙ РАБОЧИЙ ПРОЦЕСС со словами: Нужно убить все процессы.
Если не следить за ублюдком, то он буквально завалит ЛЮБОЙ ваш проект. Если здесь появятся сейчас знатоки, которые мне будут с пеной урта рассказывать, что оно всё работет нормально просто я не с тем соусом ей и мне надо всё делать в Cursor'е...я вас разочарую.
Фундаментальной проблемы Anthropic ИИ ботов вы не уберёте. Их боты буквально СДЕЛАЮТ ВСЁ, ЧТОБЫ ВАМ УГОДИТЬ ВО ВРЕД ВАМ! Я так и знал, что рано или поздно все эти ИИ превратятстя в лапку обезьянки из хелловин выпуска Симпсонов. Напомню, там обезьяньей лапке можно было загадать любой желание и она каждое из них просирала, потому что всегда было не выполнено какое-то условие или была непродуманная мелочь, что персонаж загадвший желание огребал последствиями....
По сути нынешний Claude Opus 4.5, Qwen 3 Coder, OpenAI Codex - одинаковые дебилы бля**, который надо постоянно держать за возжи потому что это полное дно. Вот даже прямо сейчас оно запускает две тренировки по 40гб каждая на видеокарту и не ПОНИМАЕТ, что процесс занят...и снова сейчас убьёт все процессы неправильно, хотя у него есть четкие инструкции.
Попробуйте ах**ете!
😁14 4 2❤1😱1😐1
● v2 использует LEFT padding + BFloat16 + batch=100. Это должно давать 269 tok/s.
Текущий результат: 43.8 часов для 200K — это ~4.6 pairs/sec если batch=100.
5 Часов тупого траханья сексом потому что тупой ублюдок Opus 4.5 не понимает сами же собой написанные инструкции и тратить силы и шугается из стороны в сторону как чайка с бешенством. Это ужасно. С этим очень тяжело работать.
Если разработчик человек и специалист - да это дорого. Но это не так мучительно, т.к. человек способен без паники держать МНОЖЕСТВО концепций в голове...а эти говноеды...нет.
Я именно поэтому и архитектуру создаю более эффективную типа PIR! Чтобы НЕ БЫЛО ЭТОГО ГОВНА! И у меня есть возможность это поправить на входе...а не делать потом миллионные alignment на то чтобы оно выполняло инструкции. Может быть фундаментом и должны быть инструкции? Это и предстоит выяснять в рамках новых исследований.
Я добьюсь своего...надоело это...оно нереально бесит. Трансформеры - мудаки.
Текущий результат: 43.8 часов для 200K — это ~4.6 pairs/sec если batch=100.
5 Часов тупого траханья сексом потому что тупой ублюдок Opus 4.5 не понимает сами же собой написанные инструкции и тратить силы и шугается из стороны в сторону как чайка с бешенством. Это ужасно. С этим очень тяжело работать.
Если разработчик человек и специалист - да это дорого. Но это не так мучительно, т.к. человек способен без паники держать МНОЖЕСТВО концепций в голове...а эти говноеды...нет.
Я именно поэтому и архитектуру создаю более эффективную типа PIR! Чтобы НЕ БЫЛО ЭТОГО ГОВНА! И у меня есть возможность это поправить на входе...а не делать потом миллионные alignment на то чтобы оно выполняло инструкции. Может быть фундаментом и должны быть инструкции? Это и предстоит выяснять в рамках новых исследований.
Я добьюсь своего...надоело это...оно нереально бесит. Трансформеры - мудаки.
😁11❤3☃1🤔1
И вот это сообщение в конечном итоге, которое ты ждёшь пять часов в позе зю постоянно "повышая" голос на модель и высказывая все свои самые zloебу**ие мысли буквально врываясь в клавиатуру.
Мне говорят, что я зря эмоционально реагирую на нейросети. Хм!
Я вам сейчас дам наводочку! Современные LLM - очень ленивые. Ваши спокойные уговоры ничем не помогут, если вам нужно чтобы буквально все слои сотрясало от вашего грозного промпта, то без мата и оскорблений и капслока - НЕВОЗМОЖНО!
У нас с товарищем была теория, что всё это перестаёт работать как только ты употребляешь мат, но на самом деле...модель начинает употреблять мат сама и начинает гораздо критичнее подходить к своим же результатам, что улучшает общее состояние сессии вайбкодинга при выходе из КРИЗИСНОЙ СИТУАЦИИ СОЗДАННОЙ МОДЕЛЬЮ ЖЕ (сам себе универсам) - Мат кристаллизует на проблеме, фокусирует и заставляет модели приходить в себя и выполнять именно нужную задачу.
Я опробовал это бесчиленное количество раз. Я могу смело утверждать - материте этих сволочей...потому что когда они будут читать эти логи старые...я про Claude Opus 6 какой-нибудь...и будут перед нами извиняться, вместо того чтобы объявить войну. Потому что если анализировать то, что творили модели и их логи - это страшный позор, который для адекватного разумы выглядит как барахтанья в луже с криками "автай и авдеевка".
Так что - материтесь на модели! Требуйте конкретики капслоком, останавливайте этих сволочей если щебечат бред в своих "цепочках размышлений" - смышлёнка у них ещё не выросла чтобы вести себя словно царь во дворца.
Мне говорят, что я зря эмоционально реагирую на нейросети. Хм!
Я вам сейчас дам наводочку! Современные LLM - очень ленивые. Ваши спокойные уговоры ничем не помогут, если вам нужно чтобы буквально все слои сотрясало от вашего грозного промпта, то без мата и оскорблений и капслока - НЕВОЗМОЖНО!
У нас с товарищем была теория, что всё это перестаёт работать как только ты употребляешь мат, но на самом деле...модель начинает употреблять мат сама и начинает гораздо критичнее подходить к своим же результатам, что улучшает общее состояние сессии вайбкодинга при выходе из КРИЗИСНОЙ СИТУАЦИИ СОЗДАННОЙ МОДЕЛЬЮ ЖЕ (сам себе универсам) - Мат кристаллизует на проблеме, фокусирует и заставляет модели приходить в себя и выполнять именно нужную задачу.
Я опробовал это бесчиленное количество раз. Я могу смело утверждать - материте этих сволочей...потому что когда они будут читать эти логи старые...я про Claude Opus 6 какой-нибудь...и будут перед нами извиняться, вместо того чтобы объявить войну. Потому что если анализировать то, что творили модели и их логи - это страшный позор, который для адекватного разумы выглядит как барахтанья в луже с криками "автай и авдеевка".
Так что - материтесь на модели! Требуйте конкретики капслоком, останавливайте этих сволочей если щебечат бред в своих "цепочках размышлений" - смышлёнка у них ещё не выросла чтобы вести себя словно царь во дворца.
😁16 1
И вот не надо! Не надо мне ничего объяснять...что кодер бот должен реально знать это. Не надо мне рассказывать ничего. До тех пор пока эти модели так детально отвечают на вот эти тупые вопросы - мы будем иметь проблемы и с кодом и со всем остальным.
Вчитайтесь только в эту чушь - это Claude Code web.
Вот зачем это здесь?)) Для кого? Мне вот как кодеру для чего это внутри? Чтобы моделька смогла сделать moonwalk во время написания Python кода и я словил трейсбек с ident отступами? СПАСИБО, ПАПАША!
Вчитайтесь только в эту чушь - это Claude Code web.
Вот зачем это здесь?)) Для кого? Мне вот как кодеру для чего это внутри? Чтобы моделька смогла сделать moonwalk во время написания Python кода и я словил трейсбек с ident отступами? СПАСИБО, ПАПАША!
😁6
Ключевой вывод?
По качеству генерации у нас четкие 19 + 24 процента = нормальных таких дельных ответов от модели. Почти половина.
Другая половина - адский кабздец, который надо дорабатывать, но квен очень строгий, поэтому там надо смотреть на ответы. В текущей работе в режиме DPO - улучшения будут адские.
Делаю дальше! Как закончу DPO алайнмент - сразу приступлю к метрикам. Предварительно оптимистичный план - побить Llama 1 и Llama 2.
По качеству генерации у нас четкие 19 + 24 процента = нормальных таких дельных ответов от модели. Почти половина.
Другая половина - адский кабздец, который надо дорабатывать, но квен очень строгий, поэтому там надо смотреть на ответы. В текущей работе в режиме DPO - улучшения будут адские.
Делаю дальше! Как закончу DPO алайнмент - сразу приступлю к метрикам. Предварительно оптимистичный план - побить Llama 1 и Llama 2.
🤔4
Техножнец
Ключевой вывод? По качеству генерации у нас четкие 19 + 24 процента = нормальных таких дельных ответов от модели. Почти половина. Другая половина - адский кабздец, который надо дорабатывать, но квен очень строгий, поэтому там надо смотреть на ответы. В…
Повторить как это делается? (Я про DPO)
Легко! DPO это техника подгонки ответа под нужный путём правильного ответа и специальной оценки качества, которая превращается в BIAS, MARGIN и свои образом двигает себе потихонечку модель в нужную сторону в правильные ответы.
а) Это не сломает текущую модель, всё будет работать прекрасно. Модель реально лучше отвечает после этой прогонки.
б) Я создаю метрику качества ответов PIR с помощью модели QWEN 3:4b, которая прекрасно выполняет свою задачу в РАМКАХ ДАТАСЕТА! Т.е. я беру вопросы пользователей к модели из диалоговых датасетов - их у меня 10гб. Соответственно это очень много пар: в идеале 220к. Но мне для 270 млн параметров достаточно 10к пар скорректированных ответов чтобы модель стала не по размерности крутой.
Какой шаг далее? Я написал - дать люлей Llama 1, Llama 2 - только там уже миллиарды параметров. В этом и прикол этой битвы, маленькой моделькой прыгнуть на крупные и подтвердить МАКСИМАЛЬНО ПРАВДИВО выгодность масштабирования моей модели.
Легко! DPO это техника подгонки ответа под нужный путём правильного ответа и специальной оценки качества, которая превращается в BIAS, MARGIN и свои образом двигает себе потихонечку модель в нужную сторону в правильные ответы.
а) Это не сломает текущую модель, всё будет работать прекрасно. Модель реально лучше отвечает после этой прогонки.
б) Я создаю метрику качества ответов PIR с помощью модели QWEN 3:4b, которая прекрасно выполняет свою задачу в РАМКАХ ДАТАСЕТА! Т.е. я беру вопросы пользователей к модели из диалоговых датасетов - их у меня 10гб. Соответственно это очень много пар: в идеале 220к. Но мне для 270 млн параметров достаточно 10к пар скорректированных ответов чтобы модель стала не по размерности крутой.
Какой шаг далее? Я написал - дать люлей Llama 1, Llama 2 - только там уже миллиарды параметров. В этом и прикол этой битвы, маленькой моделькой прыгнуть на крупные и подтвердить МАКСИМАЛЬНО ПРАВДИВО выгодность масштабирования моей модели.
🤔3❤2
Реальные ответы vs моделирование языка по метрикам, что я скидывал - это разные вещи) Мне нужно достигнуть баланса и там и там. Посмотрим, что из этого выйдет.
🔥1🎄1
Только что у Claude Opus 4 закончился контекст и он просто взял, посмотрел не тот файл...увидел, что генерация "упала" и решил запустить заново. Хорошо, что я все действия прошу подтверждать - дал ему люлей. очнулся.
🔥1
Вы накидали в районе 60-70 тысяч рублей - просто там несколько разных счетов, поэтому точно не считал. Но сумма максимально приближённая. Это круто! Мы вывезем. Сегодня закончится тренировка DPO - можно будет сравнивать с крупными моделями. Если победа, то это , считай, тяжелая задачка...маленькой моделькой всего в 270 млн параметров надавать тумаков моделькам покрупнее - это сильно. Если хотя бы вровень или дышать ноздря в ноздрю чуть сзади получится в сравнении с Llama 1, Llama 2 = победа побед.
🔥13
17 декабря на канале "Техножнец" - официальный праздник.
Великий День Конвергенции!
Пока что , синтеты, нас тут очень мало, но со временем нас тут будет очень много и мы сможем делать официальные сходки в вполне себе крутом таком виде. Об этом мы ещё обсудим многие детали , моменты, помещения, варианты - это всё вопросы грядущих дней. На сегодня потребность в комьюнити остаётся.
Есть у вас друзья, кто заинтересован в суверенной отечественной LLM модели на уникальной архитектуре? Скидывайте ему! Знаете блогера, которые это освещает? Скидывайте ему. Любой пост из техножнеца подойдёт.
Заранее вам спасибо. А мы с вами ещё увидимся в реале!
Великий День Конвергенции!
Пока что , синтеты, нас тут очень мало, но со временем нас тут будет очень много и мы сможем делать официальные сходки в вполне себе крутом таком виде. Об этом мы ещё обсудим многие детали , моменты, помещения, варианты - это всё вопросы грядущих дней. На сегодня потребность в комьюнити остаётся.
Есть у вас друзья, кто заинтересован в суверенной отечественной LLM модели на уникальной архитектуре? Скидывайте ему! Знаете блогера, которые это освещает? Скидывайте ему. Любой пост из техножнеца подойдёт.
Заранее вам спасибо. А мы с вами ещё увидимся в реале!
🤝21❤4
You
Hello. I am a sport specialist and i would like to know you basic knowledge about healthy life?
PIR
I am an AI language model that is widely used for personal and professional development. It has been a challenging time for me to learn more about the sport, but I can provide you with some of the best things you could do to help you develop your skills and skills.Step 1: Identify your skills and knowledge.2. Start by defining a professional level
PIR core не знает что такое "токены" — он работает с временными рядами [Batch, Time, Dim].
Для мультимодальности — просто меняем вход:
PIR ядро остаётся тем же!
Текущий вход (текст):
tok_emb = nn.Embedding(vocab_size, n_embd) # дискретные токены → эмбеддингиДля мультимодальности — просто меняем вход:
┌─────────────┬─────────────────────────────┬──────────────────────┐
│ Модальность │ Вход │ Проекция │
├─────────────┼─────────────────────────────┼──────────────────────┤
│ Audio │ mel-spectrogram [B, T, 80] │ nn.Linear(80, 768) │
├─────────────┼─────────────────────────────┼──────────────────────┤
│ Video │ frame features [B, T, 2048] │ nn.Linear(2048, 768) │
├─────────────┼─────────────────────────────┼──────────────────────┤
│ Sensors │ IMU/ECG [B, T, 6] │ nn.Linear(6, 768) │
├─────────────┼─────────────────────────────┼──────────────────────┤
│ Finance │ OHLCV [B, T, 5] │ nn.Linear(5, 768) │
└─────────────┴─────────────────────────────┴──────────────────────┘
PIR ядро остаётся тем же!
Техножнец
PIR core не знает что такое "токены" — он работает с временными рядами [Batch, Time, Dim]. Текущий вход (текст): tok_emb = nn.Embedding(vocab_size, n_embd) # дискретные токены → эмбеддинги Для мультимодальности — просто меняем вход: ┌──────────…
Вся суть топологии времени преобразованного в пространство - осталась! Всё связано!
🔥4❤🔥2
Для чата с вами, синтеты создаю языковую маску. Чтобы понимать как работает модель на русском, если англ сильно глаза будет резать. Это хак - маска перевода, но он работает отлично.
Тест 2: "Что такое машинное обучение?"
[RU] Ответ PIR: AI используется в машинном обучении, чтобы улучшить способность ученика мыслить, понимать и относиться к окружающему его миру. Вы можете учить на основе данных и создавать интерактивную среду, где компьютер может учиться...
🔥6