Алаймент не нужен до тех пор пока модель не может посчитать сколько шариков поместиться в жопе у СЕО
😁59 32👍6👎4
Forwarded from Я НЕ лажаю
This media is not supported in your browser
VIEW IN TELEGRAM
друзья!
во-первых, вот красивое видео 👆
во-вторых, мы отстаем от шаблонов для ноушена блин, если вы еще не переходили по ссылке то пожалуйста сходите! https://www.producthunt.com/posts/spiritme-ai-scriptwriter
во-первых, вот красивое видео 👆
во-вторых, мы отстаем от шаблонов для ноушена блин, если вы еще не переходили по ссылке то пожалуйста сходите! https://www.producthunt.com/posts/spiritme-ai-scriptwriter
🔥19🤡6
сегодня я узнал
- в узбекистане есть завод кокаколы
- она вкуснее чем европийская, но чуть хуже китайская
- в узбекистане есть завод кокаколы
- она вкуснее чем европийская, но чуть хуже китайская
👍29 27❤2💩1
какими сервисами на основе genai вы пользуетесь вот прям ежедневно?
про меня:
у меня свой бот на gpt4 который имеет ретривалы в документацию hf/diffusers/torch
deepl
mj очень редко
про меня:
у меня свой бот на gpt4 который имеет ретривалы в документацию hf/diffusers/torch
deepl
mj очень редко
Forwarded from Запрети мне псевдолейблить
Альтернативная модель (код)
Градиентные бустинги обычно хорошо блендятся с нейронными сетями, поэтому начали пробовать их в отработанном пайплайне.
1. Трансформер. Результаты были плохие. Скор на валидации составлял 0.685, а время обучения на один фолд занимало два часа. Обучение было медленным и результаты неудовлетворительными.
2. Сеть Conv1D. Результаты были немного лучше, но все равно неудовлетворительными. За один день удалось создать модель, которая показывала такой же скор как трансформер (0.685) на валидации, но обучалась в 10 раз быстрее. Сосредоточились на этой модели и провели более ста экспериментов, чтобы добиться ее эффективной работы. Я не буду подробно описывать процесс подбора архитектуры, но если вам интересно, вы можете прочитать подробности в оригинальном посте по ссылке.
3. Идея итогового решения заключалась в использовании модели WaveNet, которую модифицировали, чтобы она создавала эмбеддинги для duration, text_fqid, room_fqid, fqid, event_name + name и предсказывала ответы для каждого стейджа.
- На первом этапе обучаем отдельную сеть на BCELoss для каждого стейджа, предсказывая все ответы этого стейджа. (В игре есть три блока с ответами, между которыми идет сама игра. Все ивенты с начала игры/прошлого ответного блока и называется стейджем).
- Затем замораживаем веса базовой модели (отрезая BCE-голову) и обучаем другую голову, которая получает на вход конкатенацию доступных эмбеддингов для всех стейджей. На первом этапе у нас есть только один 24-мерный эмбеддинг, на втором - два эмбеддинга, и на третьем - три эмбеддинга. Мы также обучаем эту структуру на BCE и подбираем лучший вариант, исходя из метрики F1 (которая является метрикой соревнования).
4. В итоге получили результат 0.70175 для одной модели, что сопоставимо с результатами градиентного бустинга.
Градиентные бустинги обычно хорошо блендятся с нейронными сетями, поэтому начали пробовать их в отработанном пайплайне.
1. Трансформер. Результаты были плохие. Скор на валидации составлял 0.685, а время обучения на один фолд занимало два часа. Обучение было медленным и результаты неудовлетворительными.
2. Сеть Conv1D. Результаты были немного лучше, но все равно неудовлетворительными. За один день удалось создать модель, которая показывала такой же скор как трансформер (0.685) на валидации, но обучалась в 10 раз быстрее. Сосредоточились на этой модели и провели более ста экспериментов, чтобы добиться ее эффективной работы. Я не буду подробно описывать процесс подбора архитектуры, но если вам интересно, вы можете прочитать подробности в оригинальном посте по ссылке.
3. Идея итогового решения заключалась в использовании модели WaveNet, которую модифицировали, чтобы она создавала эмбеддинги для duration, text_fqid, room_fqid, fqid, event_name + name и предсказывала ответы для каждого стейджа.
- На первом этапе обучаем отдельную сеть на BCELoss для каждого стейджа, предсказывая все ответы этого стейджа. (В игре есть три блока с ответами, между которыми идет сама игра. Все ивенты с начала игры/прошлого ответного блока и называется стейджем).
- Затем замораживаем веса базовой модели (отрезая BCE-голову) и обучаем другую голову, которая получает на вход конкатенацию доступных эмбеддингов для всех стейджей. На первом этапе у нас есть только один 24-мерный эмбеддинг, на втором - два эмбеддинга, и на третьем - три эмбеддинга. Мы также обучаем эту структуру на BCE и подбираем лучший вариант, исходя из метрики F1 (которая является метрикой соревнования).
4. В итоге получили результат 0.70175 для одной модели, что сопоставимо с результатами градиентного бустинга.
Kaggle
Predict Student Performance from Game Play
Trace student learning from Jo Wilder online educational game
👍16 10 5❤4😁3🤔3 1
Forwarded from что-то на DL-ском
Ну все, закат эпохи MoE, а начиналось так красиво😭
Тут вышла новая модель, которая модифицирует Mistral не добавлением экспертов, как в MoE (мне до сих пор не понятно как это чудо тюнить и куда пихать), а копированием и задвоением слоев
Технология такая: копируем слои модели, обрезаем немного с верхушки и с конца (авторы объясняют это борьбой с неоднородностью слоев). Ну и стакаем вместе. Идея не супер новая, но работает, теперь в лидерборде модель в сумме на 11B параметров красуется выше, чем 47B Mistral в сумме
Еще непонятно почему авторы обрезают именно 8 слоев. Поясняют это буквально тем, что так надо. Но в общем и целом, красивое решение и можно проделывать с любой новой архитектурой, которая даст прирост
🙂 Папир
Тут вышла новая модель, которая модифицирует Mistral не добавлением экспертов, как в MoE (мне до сих пор не понятно как это чудо тюнить и куда пихать), а копированием и задвоением слоев
Технология такая: копируем слои модели, обрезаем немного с верхушки и с конца (авторы объясняют это борьбой с неоднородностью слоев). Ну и стакаем вместе. Идея не супер новая, но работает, теперь в лидерборде модель в сумме на 11B параметров красуется выше, чем 47B Mistral в сумме
Еще непонятно почему авторы обрезают именно 8 слоев. Поясняют это буквально тем, что так надо. Но в общем и целом, красивое решение и можно проделывать с любой новой архитектурой, которая даст прирост
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🤯42❤10🤔3😁2🤡2
Лол, в начале года работал над похожим Cloned Transformer - такая же логика: копируем средние слои в центре.
По метрикам чуть получше чем ванильная rugpt large, если ваш прод живет на этом динозавре - имеет смысл подумать о переезде
Учил на Habr + кусок ruLM, не анонсил в паблик уже не помню почему
Hf model
По метрикам чуть получше чем ванильная rugpt large, если ваш прод живет на этом динозавре - имеет смысл подумать о переезде
Учил на Habr + кусок ruLM, не анонсил в паблик уже не помню почему
Hf model
👍19 4🔥2 2❤1👎1🤡1