Love. Death. Transformers.

Forwarded from A L

😁117🤔1

4.86K views15:19

Love. Death. Transformers.

Алаймент не нужен до тех пор пока модель не может посчитать сколько шариков поместиться в жопе у СЕО

😁5932👍6👎4

4.8K views15:20

Love. Death. Transformers.

Forwarded from Я НЕ лажаю

1:08

This media is not supported in your browser

VIEW IN TELEGRAM

друзья!

во-первых, вот красивое видео 👆

во-вторых, мы отстаем от шаблонов для ноушена блин, если вы еще не переходили по ссылке то пожалуйста сходите! https://www.producthunt.com/posts/spiritme-ai-scriptwriter

🔥19🤡6

5.07K views16:21

Love. Death. Transformers.

0:55

Media is too big

VIEW IN TELEGRAM

60😁298🔥65

9.37K views20:21

Love. Death. Transformers.

сегодня я узнал
- в узбекистане есть завод кокаколы
- она вкуснее чем европийская, но чуть хуже китайская

👍2927❤2💩1

5.54K viewsedited 09:16

Love. Death. Transformers.

какими сервисами на основе genai вы пользуетесь вот прям ежедневно?

про меня:
у меня свой бот на gpt4 который имеет ретривалы в документацию hf/diffusers/torch
deepl
mj очень редко

4925👍7

5.31K viewsedited 09:31

Love. Death. Transformers.

Киберпанк ближе чем ты думаешь и это пугает.

53😁25😢12🤔1

5.29K viewsedited 12:01

Love. Death. Transformers.

по прежнему считаю эту картинку лучшей визуализацией текущего развития general ai

❤75😁306👍5🔥4👏2👎1

5.43K viewsedited 16:15

Love. Death. Transformers.

Forwarded from Запрети мне псевдолейблить

Альтернативная модель (код)

Градиентные бустинги обычно хорошо блендятся с нейронными сетями, поэтому начали пробовать их в отработанном пайплайне.

1. Трансформер. Результаты были плохие. Скор на валидации составлял 0.685, а время обучения на один фолд занимало два часа. Обучение было медленным и результаты неудовлетворительными.
2. Сеть Conv1D. Результаты были немного лучше, но все равно неудовлетворительными. За один день удалось создать модель, которая показывала такой же скор как трансформер (0.685) на валидации, но обучалась в 10 раз быстрее. Сосредоточились на этой модели и провели более ста экспериментов, чтобы добиться ее эффективной работы. Я не буду подробно описывать процесс подбора архитектуры, но если вам интересно, вы можете прочитать подробности в оригинальном посте по ссылке.
3. Идея итогового решения заключалась в использовании модели WaveNet, которую модифицировали, чтобы она создавала эмбеддинги для duration, text_fqid, room_fqid, fqid, event_name + name и предсказывала ответы для каждого стейджа.
- На первом этапе обучаем отдельную сеть на BCELoss для каждого стейджа, предсказывая все ответы этого стейджа. (В игре есть три блока с ответами, между которыми идет сама игра. Все ивенты с начала игры/прошлого ответного блока и называется стейджем).
- Затем замораживаем веса базовой модели (отрезая BCE-голову) и обучаем другую голову, которая получает на вход конкатенацию доступных эмбеддингов для всех стейджей. На первом этапе у нас есть только один 24-мерный эмбеддинг, на втором - два эмбеддинга, и на третьем - три эмбеддинга. Мы также обучаем эту структуру на BCE и подбираем лучший вариант, исходя из метрики F1 (которая является метрикой соревнования).
4. В итоге получили результат 0.70175 для одной модели, что сопоставимо с результатами градиентного бустинга.

Kaggle

Predict Student Performance from Game Play

Trace student learning from Jo Wilder online educational game

👍16105❤4😁3🤔31

4.77K views09:22

Love. Death. Transformers.

64❤43🔥2😁1

5.36K views12:32

Love. Death. Transformers.

61👍25108😁3❤2😢1

5.07K views12:51

Love. Death. Transformers.

❤33😁20🤩3🔥1😢1

4.74K views10:48

Love. Death. Transformers.

Forwarded from что-то на DL-ском

Ну все, закат эпохи MoE, а начиналось так красиво😭

Тут вышла новая модель, которая модифицирует Mistral не добавлением экспертов, как в MoE (мне до сих пор не понятно как это чудо тюнить и куда пихать), а копированием и задвоением слоев

Технология такая: копируем слои модели, обрезаем немного с верхушки и с конца (авторы объясняют это борьбой с неоднородностью слоев). Ну и стакаем вместе. Идея не супер новая, но работает, теперь в лидерборде модель в сумме на 11B параметров красуется выше, чем 47B Mistral в сумме

Еще непонятно почему авторы обрезают именно 8 слоев. Поясняют это буквально тем, что так надо. Но в общем и целом, красивое решение и можно проделывать с любой новой архитектурой, которая даст прирост

🙂

Папир

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

🤯42❤10🤔3😁2🤡2

4.46K views16:20

Love. Death. Transformers.

Лол, в начале года работал над похожим Cloned Transformer - такая же логика: копируем средние слои в центре.

По метрикам чуть получше чем ванильная rugpt large, если ваш прод живет на этом динозавре - имеет смысл подумать о переезде

Учил на Habr + кусок ruLM, не анонсил в паблик уже не помню почему

Hf model

👍194🔥22❤1👎1🤡1

5.17K viewsedited 16:35

Love. Death. Transformers.

Дед мороз пихает подарок админу в домоход

никто не увидел что h100

532222😁5❤4👍3🔥2

4.98K viewsedited 17:49

Love. Death. Transformers.

А можно флексить что у меня миллионы просмотров?

90🔥4321👍4👏43❤2

4.68K views12:07

Love. Death. Transformers.

👍46😁2521❤4🤡2

4.75K views15:01

About

Blog

Apps

Platform