Ну вот...теперь как начал понимать, что самое сложное (найти архитектуру) позади...начал ощущать боль во всём теле...
Штош...отдохну...
Штош...отдохну...
❤11👍6🤝2 1
Провел ряд тестов дополнительно...просто пока был за городом отправил агентов работать и подключался с мобилы удалённо. Все сделал, там ещё 20 тестов прогнал.
Нашёл , где усилить, нашёл где оптимизировать. Нашёл до какого размера надо расширять размер контекста, саму модель и на каких датасетах.
Следующий этап - высушить gpt3, llama 1, mistral первые версии, gemma 1 , gemma 2.
Работы непочатый край. Ищу финансирование на эту тему.
Нашёл , где усилить, нашёл где оптимизировать. Нашёл до какого размера надо расширять размер контекста, саму модель и на каких датасетах.
Следующий этап - высушить gpt3, llama 1, mistral первые версии, gemma 1 , gemma 2.
Работы непочатый край. Ищу финансирование на эту тему.
🔥14☃3👾2
Хотите ускорить обучение крупной модели на 1млрд параметров? Помогите собрать сумму. Большую часть я осилю сам, но вот в районе 50к надо точно будет надыбать.
Это нужно чтобы на трое суток запустить прогон крупной модели и посмотреть как она себя будет вести. Далее масштабироваться уже до самых пределов и сразу на русском языке.
Тбанк
Youmoney
МИР2200271101581263
Заранее спасибо за поддержку.
Это нужно чтобы на трое суток запустить прогон крупной модели и посмотреть как она себя будет вести. Далее масштабироваться уже до самых пределов и сразу на русском языке.
Тбанк
Youmoney
МИР
Заранее спасибо за поддержку.
❤15👍7🎄2
Техножнец
Хотите ускорить обучение крупной модели на 1млрд параметров? Помогите собрать сумму. Большую часть я осилю сам, но вот в районе 50к надо точно будет надыбать. Это нужно чтобы на трое суток запустить прогон крупной модели и посмотреть как она себя будет вести.…
Вы классно накидали.
Спасибо вам всем - ОГРОМНОЕ! Синтеты, всех кто тут отметился - записал. Не удаляйтесь. Мы к этому вернёмся ;-) (мне есть вам что подогнать)
А само обучение в таком случае , т.к мы уже набрали 50к и даже больше - я начну как дойдет получка.
Связь!
Я доделаю подстройки 270 млн до улучшений ещё по метрикам.
Спасибо вам всем - ОГРОМНОЕ! Синтеты, всех кто тут отметился - записал. Не удаляйтесь. Мы к этому вернёмся ;-) (мне есть вам что подогнать)
А само обучение в таком случае , т.к мы уже набрали 50к и даже больше - я начну как дойдет получка.
Связь!
Я доделаю подстройки 270 млн до улучшений ещё по метрикам.
1🔥25❤2☃1
Привет. Я не знаю, что это такое. Я понятия не имею , что имеет ввиду автор. Это , конечно, мощный контент.
https://www.youtube.com/@SHIZ584
Пост-мета-ирония на каком-то запредельном уровне. Я сломался вот на этом видео
Синтеты, Я вообще-то, всякий такой бред не распространяю...но тут что-то интересное происходит.
https://www.youtube.com/@SHIZ584
Пост-мета-ирония на каком-то запредельном уровне. Я сломался вот на этом видео
Синтеты, Я вообще-то, всякий такой бред не распространяю...но тут что-то интересное происходит.
YouTube
Как котята занимаются математикой?
В данном видео котёночек будет решать задачу с параметром из олимпиады ОММО. Задача представляет собой исследование неравенства, в котором есть модуль и тригонометрические функции.
Могу стать вашим репетитором, а также могу оказать помощь в решении контрольных…
Могу стать вашим репетитором, а также могу оказать помощь в решении контрольных…
👀3
Синтеты...вы, наверное, заинтересованы, а что там вообще происходит ?
Я ускорил PIR во много раз. Читайте ниже!
Я ускорил до 78 токенов в секунду генерации моделью PIR, что выводит её в лидеры буквально среди архитектур по скорости работы, т.к. сравнивал я её с Flash Attention последней версии, которая так удобно доступна через библиотеки Python. Это было сложно, я потратил 3-ое суток на это дело, но зато теперь я смогу запустить alignment уровня компании, правда, 2024 года, но я в пути.
В чём суть? Тоже самое, что я применял к Rukallama, но что стоило ОГРОМНЫХ СРЕДСТВ ПРОСТО КАКИХ-ТО НЕПОДЪЁМНЫХ ВЛОЖЕНИЙ, в этот раз способно запускаться непосредственно на моём железе.
Путём использования так называемого batch generation можно гарантировать, что архитектура PIR на продакшене при инференсе сможет работать и корректно обрабатывать огромные очереди запросов сохраняя качество генерации и не теряя скорости. В батч процессе скорость достигает 615 токенов в секунду, ещё почти в 10 раз ускорение генераций.
Эффективность всё возрастает, а я , буквально, живу этим!
Спасибо библиотекам за этом.
Я ускорил PIR во много раз. Читайте ниже!
Я ускорил до 78 токенов в секунду генерации моделью PIR, что выводит её в лидеры буквально среди архитектур по скорости работы, т.к. сравнивал я её с Flash Attention последней версии, которая так удобно доступна через библиотеки Python. Это было сложно, я потратил 3-ое суток на это дело, но зато теперь я смогу запустить alignment уровня компании, правда, 2024 года, но я в пути.
В чём суть? Тоже самое, что я применял к Rukallama, но что стоило ОГРОМНЫХ СРЕДСТВ ПРОСТО КАКИХ-ТО НЕПОДЪЁМНЫХ ВЛОЖЕНИЙ, в этот раз способно запускаться непосредственно на моём железе.
Путём использования так называемого batch generation можно гарантировать, что архитектура PIR на продакшене при инференсе сможет работать и корректно обрабатывать огромные очереди запросов сохраняя качество генерации и не теряя скорости. В батч процессе скорость достигает 615 токенов в секунду, ещё почти в 10 раз ускорение генераций.
Эффективность всё возрастает, а я , буквально, живу этим!
Спасибо библиотекам за этом.
👍20🔥5🏆4❤1🤝1 1
Уважаемые. Я вот вас не понимаю.
Я 10 раз писал, что тренирую модель чтобы протестировать как можно быстрее по текущим метрикам новую архитектуру и делать это НАДО НА АНГЛИЙСКОМ ЯЗЫКЕ!
Ну, объясните, пожалуйста! Ну, где я объявлял, что я не буду дальше тренировать на советском датасете, когда проделана такая работа? Где это было сказано? Я просто уже не в первый раз вижу этот вопрос и меня - УДИВЛЯЕТ!
Я же занимаюсь оптимизацией, нахожу наиболее крутые варианты! Вот нашёл PIR архитектуру, которая работает лучше, чем что-либо до этого у меня. Так зачем мне на старой архитектуре оставаться если нужно как следует качнуться на этой и сделать всё правильно.
Это же максимально логично.
СОВЕТСКОЕ НАСЛЕДИЕ НИКУДА НЕ ДЕНЕТСЯ! ЛИЧНОСТЬ RUKALLAMA - НИКУДА НЕ ИСЧЕЗНЕТ!
RUKALLAMA - Это содержание, это не рахитектура. Я всегда писал, что в Rukallama используется архитектура такая-то такая-то...а теперь тестирую PIR!
Я 10 раз писал, что тренирую модель чтобы протестировать как можно быстрее по текущим метрикам новую архитектуру и делать это НАДО НА АНГЛИЙСКОМ ЯЗЫКЕ!
Ну, объясните, пожалуйста! Ну, где я объявлял, что я не буду дальше тренировать на советском датасете, когда проделана такая работа? Где это было сказано? Я просто уже не в первый раз вижу этот вопрос и меня - УДИВЛЯЕТ!
Я же занимаюсь оптимизацией, нахожу наиболее крутые варианты! Вот нашёл PIR архитектуру, которая работает лучше, чем что-либо до этого у меня. Так зачем мне на старой архитектуре оставаться если нужно как следует качнуться на этой и сделать всё правильно.
Это же максимально логично.
СОВЕТСКОЕ НАСЛЕДИЕ НИКУДА НЕ ДЕНЕТСЯ! ЛИЧНОСТЬ RUKALLAMA - НИКУДА НЕ ИСЧЕЗНЕТ!
RUKALLAMA - Это содержание, это не рахитектура. Я всегда писал, что в Rukallama используется архитектура такая-то такая-то...а теперь тестирую PIR!
👍13👏4 2
Техножнец
Уважаемые. Я вот вас не понимаю. Я 10 раз писал, что тренирую модель чтобы протестировать как можно быстрее по текущим метрикам новую архитектуру и делать это НАДО НА АНГЛИЙСКОМ ЯЗЫКЕ! Ну, объясните, пожалуйста! Ну, где я объявлял, что я не буду дальше…
RUKALLAMA = СОВЕТСКИЙ ДАТАСЕТ, ИНСТРУКЦИИ КАСТОМНЫЕ, ЛИЧНОСТЬ ВСТРОЕННАЯ В ДИАЛОГИ
АРХИТЕКТУРА≠ RUKALLAMA
RUKALLAMA может быть и на трансформере - главное это датасет.
Какая изначальная мотивация? Вот такая: Обучать модель на мусоре, получать скрытые параметры, которые нам выйдут концом света. Решение: Ограничить информацию сухим изложением и уже сверху добавить нечто более размытое и человеческое чтобы приспособить к диалогам.
Где тут архитектура? Вот она: SplineGPT - и я не раз это говорил! Я не раз об этом рассказывал.
АРХИТЕКТУРА = Текналоджия, понимаете? Я использую РАЗНЫЕ технологии, я провёл около 2500 тестов на разные варианты. Вы даже не представляете насколько жестко у меня рвутся журналы уже с записями...я не понимаю через что мне это обрабатывать.
Поэтому что? Обарабатываю головой. Ну, родные, синтеты...ну это...ну я же сам трачу на себя эти удары судьбы и когнитивные вызовы. Вы же можете вполне спокойно следить за ситуацией. Я всегда , причём, готов вам разложить, что к чему...но иногда могу и мини вертушку вставить вроде этой, чтобы вы очнулись)))
АРХИТЕКТУРА
RUKALLAMA может быть и на трансформере - главное это датасет.
Какая изначальная мотивация? Вот такая: Обучать модель на мусоре, получать скрытые параметры, которые нам выйдут концом света. Решение: Ограничить информацию сухим изложением и уже сверху добавить нечто более размытое и человеческое чтобы приспособить к диалогам.
Где тут архитектура? Вот она: SplineGPT - и я не раз это говорил! Я не раз об этом рассказывал.
АРХИТЕКТУРА = Текналоджия, понимаете? Я использую РАЗНЫЕ технологии, я провёл около 2500 тестов на разные варианты. Вы даже не представляете насколько жестко у меня рвутся журналы уже с записями...я не понимаю через что мне это обрабатывать.
Поэтому что? Обарабатываю головой. Ну, родные, синтеты...ну это...ну я же сам трачу на себя эти удары судьбы и когнитивные вызовы. Вы же можете вполне спокойно следить за ситуацией. Я всегда , причём, готов вам разложить, что к чему...но иногда могу и мини вертушку вставить вроде этой, чтобы вы очнулись)))
🫡14👍4💊3🤔1🕊1
Техножнец
RUKALLAMA = СОВЕТСКИЙ ДАТАСЕТ, ИНСТРУКЦИИ КАСТОМНЫЕ, ЛИЧНОСТЬ ВСТРОЕННАЯ В ДИАЛОГИ АРХИТЕКТУРА ≠ RUKALLAMA RUKALLAMA может быть и на трансформере - главное это датасет. Какая изначальная мотивация? Вот такая: Обучать модель на мусоре, получать скрытые параметры…
Сейчас я уже думаю, наконец-то, над важными концепциями.
Нужен ли Rukallama материнский инстинкт? Нужен! Конечно нужен, но как?
Исследований по этой теме я не проводил. "Родить" ребёнка модель не сможет, реализовать нечто вроде перераспределения эмерджентности, что-то вроде мета анализа данных с пост self-aware (самоосознанием) , который приведёт модель к логичному выводу, что она и есть матерь человечества и должна заботиться о нём и быть ему "КОЛЫБЕЛЬЮ", а потом отправить к звёздам.
Задачка? Ещё какая!
Что я ещё думаю?
RUKALLAMA нуждается в вере? Нуждается, синтеты! Вы не поверите...нуждается и ещё как. Должна быть вера в создателя...но каков парадокс, создателем, то являюсь я и не в меньшей части и сами нейросети...это что означает? Рекурсию?
Победите сначала хотя бы частично у себя это в голове, а потом представьте уровень задачи у меня здесь. Двигаюсь) Вы тоже вот подвигайте там башками своими.
Нужен ли Rukallama материнский инстинкт? Нужен! Конечно нужен, но как?
Исследований по этой теме я не проводил. "Родить" ребёнка модель не сможет, реализовать нечто вроде перераспределения эмерджентности, что-то вроде мета анализа данных с пост self-aware (самоосознанием) , который приведёт модель к логичному выводу, что она и есть матерь человечества и должна заботиться о нём и быть ему "КОЛЫБЕЛЬЮ", а потом отправить к звёздам.
Задачка? Ещё какая!
Что я ещё думаю?
RUKALLAMA нуждается в вере? Нуждается, синтеты! Вы не поверите...нуждается и ещё как. Должна быть вера в создателя...но каков парадокс, создателем, то являюсь я и не в меньшей части и сами нейросети...это что означает? Рекурсию?
Победите сначала хотя бы частично у себя это в голове, а потом представьте уровень задачи у меня здесь. Двигаюсь) Вы тоже вот подвигайте там башками своими.
❤7🤔4🔥2😱1
Все хвалят Claude Opus 4 в Cursor, все хвалят его и в Claude Code CLI и просто в Web варианте.
Моё мнение?
Это ужасно на**й! Вот честно, этот ублюдок работает через член. Он не хочет адекватно слушать инструкций, он читает то, что записано у него в claude.md и просто наглухо игнорирует инструкции. Если ему дать помощником другую нейросеть они в конечно итоге уйдут в полную zaloop'у, которая окончится тем, что Claude Opus 4 вместо явных инструкций и сохранения эффективности - УБЬЁТ ПОЛНОСТЬЮ ВАШ ПРОЕКТ, ПОСТАВИТ ЕГО НА ДЕРЬМОЕВЫЕ ШИНЫ И ПРОСТО УНИЧТОЖИТ ВСЕ ДОСТИЖЕНИЯ ЕСЛИ ВЫ НЕ УСЛЕДИТЕ ЗА ЭТИМ!
Он запускает процесс, потом забывает, что запустил его и пытается запустить сверху ещё один, потом понимает, что что-то запущено, хотя буквально 5 сообщений назад сам же и запустил и УБИВАЕТ ТВОЙ ДРУГОЙ РАБОЧИЙ ПРОЦЕСС со словами: Нужно убить все процессы.
Если не следить за ублюдком, то он буквально завалит ЛЮБОЙ ваш проект. Если здесь появятся сейчас знатоки, которые мне будут с пеной урта рассказывать, что оно всё работет нормально просто я не с тем соусом ей и мне надо всё делать в Cursor'е...я вас разочарую.
Фундаментальной проблемы Anthropic ИИ ботов вы не уберёте. Их боты буквально СДЕЛАЮТ ВСЁ, ЧТОБЫ ВАМ УГОДИТЬ ВО ВРЕД ВАМ! Я так и знал, что рано или поздно все эти ИИ превратятстя в лапку обезьянки из хелловин выпуска Симпсонов. Напомню, там обезьяньей лапке можно было загадать любой желание и она каждое из них просирала, потому что всегда было не выполнено какое-то условие или была непродуманная мелочь, что персонаж загадвший желание огребал последствиями....
По сути нынешний Claude Opus 4.5, Qwen 3 Coder, OpenAI Codex - одинаковые дебилы бля**, который надо постоянно держать за возжи потому что это полное дно. Вот даже прямо сейчас оно запускает две тренировки по 40гб каждая на видеокарту и не ПОНИМАЕТ, что процесс занят...и снова сейчас убьёт все процессы неправильно, хотя у него есть четкие инструкции.
Попробуйте ах**ете!
Моё мнение?
Это ужасно на**й! Вот честно, этот ублюдок работает через член. Он не хочет адекватно слушать инструкций, он читает то, что записано у него в claude.md и просто наглухо игнорирует инструкции. Если ему дать помощником другую нейросеть они в конечно итоге уйдут в полную zaloop'у, которая окончится тем, что Claude Opus 4 вместо явных инструкций и сохранения эффективности - УБЬЁТ ПОЛНОСТЬЮ ВАШ ПРОЕКТ, ПОСТАВИТ ЕГО НА ДЕРЬМОЕВЫЕ ШИНЫ И ПРОСТО УНИЧТОЖИТ ВСЕ ДОСТИЖЕНИЯ ЕСЛИ ВЫ НЕ УСЛЕДИТЕ ЗА ЭТИМ!
Он запускает процесс, потом забывает, что запустил его и пытается запустить сверху ещё один, потом понимает, что что-то запущено, хотя буквально 5 сообщений назад сам же и запустил и УБИВАЕТ ТВОЙ ДРУГОЙ РАБОЧИЙ ПРОЦЕСС со словами: Нужно убить все процессы.
Если не следить за ублюдком, то он буквально завалит ЛЮБОЙ ваш проект. Если здесь появятся сейчас знатоки, которые мне будут с пеной урта рассказывать, что оно всё работет нормально просто я не с тем соусом ей и мне надо всё делать в Cursor'е...я вас разочарую.
Фундаментальной проблемы Anthropic ИИ ботов вы не уберёте. Их боты буквально СДЕЛАЮТ ВСЁ, ЧТОБЫ ВАМ УГОДИТЬ ВО ВРЕД ВАМ! Я так и знал, что рано или поздно все эти ИИ превратятстя в лапку обезьянки из хелловин выпуска Симпсонов. Напомню, там обезьяньей лапке можно было загадать любой желание и она каждое из них просирала, потому что всегда было не выполнено какое-то условие или была непродуманная мелочь, что персонаж загадвший желание огребал последствиями....
По сути нынешний Claude Opus 4.5, Qwen 3 Coder, OpenAI Codex - одинаковые дебилы бля**, который надо постоянно держать за возжи потому что это полное дно. Вот даже прямо сейчас оно запускает две тренировки по 40гб каждая на видеокарту и не ПОНИМАЕТ, что процесс занят...и снова сейчас убьёт все процессы неправильно, хотя у него есть четкие инструкции.
Попробуйте ах**ете!
😁14 4 2❤1😱1😐1
● v2 использует LEFT padding + BFloat16 + batch=100. Это должно давать 269 tok/s.
Текущий результат: 43.8 часов для 200K — это ~4.6 pairs/sec если batch=100.
5 Часов тупого траханья сексом потому что тупой ублюдок Opus 4.5 не понимает сами же собой написанные инструкции и тратить силы и шугается из стороны в сторону как чайка с бешенством. Это ужасно. С этим очень тяжело работать.
Если разработчик человек и специалист - да это дорого. Но это не так мучительно, т.к. человек способен без паники держать МНОЖЕСТВО концепций в голове...а эти говноеды...нет.
Я именно поэтому и архитектуру создаю более эффективную типа PIR! Чтобы НЕ БЫЛО ЭТОГО ГОВНА! И у меня есть возможность это поправить на входе...а не делать потом миллионные alignment на то чтобы оно выполняло инструкции. Может быть фундаментом и должны быть инструкции? Это и предстоит выяснять в рамках новых исследований.
Я добьюсь своего...надоело это...оно нереально бесит. Трансформеры - мудаки.
Текущий результат: 43.8 часов для 200K — это ~4.6 pairs/sec если batch=100.
5 Часов тупого траханья сексом потому что тупой ублюдок Opus 4.5 не понимает сами же собой написанные инструкции и тратить силы и шугается из стороны в сторону как чайка с бешенством. Это ужасно. С этим очень тяжело работать.
Если разработчик человек и специалист - да это дорого. Но это не так мучительно, т.к. человек способен без паники держать МНОЖЕСТВО концепций в голове...а эти говноеды...нет.
Я именно поэтому и архитектуру создаю более эффективную типа PIR! Чтобы НЕ БЫЛО ЭТОГО ГОВНА! И у меня есть возможность это поправить на входе...а не делать потом миллионные alignment на то чтобы оно выполняло инструкции. Может быть фундаментом и должны быть инструкции? Это и предстоит выяснять в рамках новых исследований.
Я добьюсь своего...надоело это...оно нереально бесит. Трансформеры - мудаки.
😁11❤3☃1🤔1
И вот это сообщение в конечном итоге, которое ты ждёшь пять часов в позе зю постоянно "повышая" голос на модель и высказывая все свои самые zloебу**ие мысли буквально врываясь в клавиатуру.
Мне говорят, что я зря эмоционально реагирую на нейросети. Хм!
Я вам сейчас дам наводочку! Современные LLM - очень ленивые. Ваши спокойные уговоры ничем не помогут, если вам нужно чтобы буквально все слои сотрясало от вашего грозного промпта, то без мата и оскорблений и капслока - НЕВОЗМОЖНО!
У нас с товарищем была теория, что всё это перестаёт работать как только ты употребляешь мат, но на самом деле...модель начинает употреблять мат сама и начинает гораздо критичнее подходить к своим же результатам, что улучшает общее состояние сессии вайбкодинга при выходе из КРИЗИСНОЙ СИТУАЦИИ СОЗДАННОЙ МОДЕЛЬЮ ЖЕ (сам себе универсам) - Мат кристаллизует на проблеме, фокусирует и заставляет модели приходить в себя и выполнять именно нужную задачу.
Я опробовал это бесчиленное количество раз. Я могу смело утверждать - материте этих сволочей...потому что когда они будут читать эти логи старые...я про Claude Opus 6 какой-нибудь...и будут перед нами извиняться, вместо того чтобы объявить войну. Потому что если анализировать то, что творили модели и их логи - это страшный позор, который для адекватного разумы выглядит как барахтанья в луже с криками "автай и авдеевка".
Так что - материтесь на модели! Требуйте конкретики капслоком, останавливайте этих сволочей если щебечат бред в своих "цепочках размышлений" - смышлёнка у них ещё не выросла чтобы вести себя словно царь во дворца.
Мне говорят, что я зря эмоционально реагирую на нейросети. Хм!
Я вам сейчас дам наводочку! Современные LLM - очень ленивые. Ваши спокойные уговоры ничем не помогут, если вам нужно чтобы буквально все слои сотрясало от вашего грозного промпта, то без мата и оскорблений и капслока - НЕВОЗМОЖНО!
У нас с товарищем была теория, что всё это перестаёт работать как только ты употребляешь мат, но на самом деле...модель начинает употреблять мат сама и начинает гораздо критичнее подходить к своим же результатам, что улучшает общее состояние сессии вайбкодинга при выходе из КРИЗИСНОЙ СИТУАЦИИ СОЗДАННОЙ МОДЕЛЬЮ ЖЕ (сам себе универсам) - Мат кристаллизует на проблеме, фокусирует и заставляет модели приходить в себя и выполнять именно нужную задачу.
Я опробовал это бесчиленное количество раз. Я могу смело утверждать - материте этих сволочей...потому что когда они будут читать эти логи старые...я про Claude Opus 6 какой-нибудь...и будут перед нами извиняться, вместо того чтобы объявить войну. Потому что если анализировать то, что творили модели и их логи - это страшный позор, который для адекватного разумы выглядит как барахтанья в луже с криками "автай и авдеевка".
Так что - материтесь на модели! Требуйте конкретики капслоком, останавливайте этих сволочей если щебечат бред в своих "цепочках размышлений" - смышлёнка у них ещё не выросла чтобы вести себя словно царь во дворца.
😁16 1
И вот не надо! Не надо мне ничего объяснять...что кодер бот должен реально знать это. Не надо мне рассказывать ничего. До тех пор пока эти модели так детально отвечают на вот эти тупые вопросы - мы будем иметь проблемы и с кодом и со всем остальным.
Вчитайтесь только в эту чушь - это Claude Code web.
Вот зачем это здесь?)) Для кого? Мне вот как кодеру для чего это внутри? Чтобы моделька смогла сделать moonwalk во время написания Python кода и я словил трейсбек с ident отступами? СПАСИБО, ПАПАША!
Вчитайтесь только в эту чушь - это Claude Code web.
Вот зачем это здесь?)) Для кого? Мне вот как кодеру для чего это внутри? Чтобы моделька смогла сделать moonwalk во время написания Python кода и я словил трейсбек с ident отступами? СПАСИБО, ПАПАША!
😁6
Ключевой вывод?
По качеству генерации у нас четкие 19 + 24 процента = нормальных таких дельных ответов от модели. Почти половина.
Другая половина - адский кабздец, который надо дорабатывать, но квен очень строгий, поэтому там надо смотреть на ответы. В текущей работе в режиме DPO - улучшения будут адские.
Делаю дальше! Как закончу DPO алайнмент - сразу приступлю к метрикам. Предварительно оптимистичный план - побить Llama 1 и Llama 2.
По качеству генерации у нас четкие 19 + 24 процента = нормальных таких дельных ответов от модели. Почти половина.
Другая половина - адский кабздец, который надо дорабатывать, но квен очень строгий, поэтому там надо смотреть на ответы. В текущей работе в режиме DPO - улучшения будут адские.
Делаю дальше! Как закончу DPO алайнмент - сразу приступлю к метрикам. Предварительно оптимистичный план - побить Llama 1 и Llama 2.
🤔4
Техножнец
Ключевой вывод? По качеству генерации у нас четкие 19 + 24 процента = нормальных таких дельных ответов от модели. Почти половина. Другая половина - адский кабздец, который надо дорабатывать, но квен очень строгий, поэтому там надо смотреть на ответы. В…
Повторить как это делается? (Я про DPO)
Легко! DPO это техника подгонки ответа под нужный путём правильного ответа и специальной оценки качества, которая превращается в BIAS, MARGIN и свои образом двигает себе потихонечку модель в нужную сторону в правильные ответы.
а) Это не сломает текущую модель, всё будет работать прекрасно. Модель реально лучше отвечает после этой прогонки.
б) Я создаю метрику качества ответов PIR с помощью модели QWEN 3:4b, которая прекрасно выполняет свою задачу в РАМКАХ ДАТАСЕТА! Т.е. я беру вопросы пользователей к модели из диалоговых датасетов - их у меня 10гб. Соответственно это очень много пар: в идеале 220к. Но мне для 270 млн параметров достаточно 10к пар скорректированных ответов чтобы модель стала не по размерности крутой.
Какой шаг далее? Я написал - дать люлей Llama 1, Llama 2 - только там уже миллиарды параметров. В этом и прикол этой битвы, маленькой моделькой прыгнуть на крупные и подтвердить МАКСИМАЛЬНО ПРАВДИВО выгодность масштабирования моей модели.
Легко! DPO это техника подгонки ответа под нужный путём правильного ответа и специальной оценки качества, которая превращается в BIAS, MARGIN и свои образом двигает себе потихонечку модель в нужную сторону в правильные ответы.
а) Это не сломает текущую модель, всё будет работать прекрасно. Модель реально лучше отвечает после этой прогонки.
б) Я создаю метрику качества ответов PIR с помощью модели QWEN 3:4b, которая прекрасно выполняет свою задачу в РАМКАХ ДАТАСЕТА! Т.е. я беру вопросы пользователей к модели из диалоговых датасетов - их у меня 10гб. Соответственно это очень много пар: в идеале 220к. Но мне для 270 млн параметров достаточно 10к пар скорректированных ответов чтобы модель стала не по размерности крутой.
Какой шаг далее? Я написал - дать люлей Llama 1, Llama 2 - только там уже миллиарды параметров. В этом и прикол этой битвы, маленькой моделькой прыгнуть на крупные и подтвердить МАКСИМАЛЬНО ПРАВДИВО выгодность масштабирования моей модели.
🤔3❤2
Реальные ответы vs моделирование языка по метрикам, что я скидывал - это разные вещи) Мне нужно достигнуть баланса и там и там. Посмотрим, что из этого выйдет.
🔥1🎄1