неглубокое обучение

https://pytorch.org/blog/introducing-pytorch-fully-sharded-data-parallel-api/

237 views18:25

https://openai.com/blog/whisper/
OpenAI обучили и опенсурснули ASR трансформер на 680к часах и он могет в мультиязычность

Openai

Introducing Whisper

We’ve trained and are open-sourcing a neural net called Whisper that approaches human level robustness and accuracy on English speech recognition.

268 viewsedited 19:52

неглубокое обучение

Осознал что метрика ранжирования MAP@K это MAPATK (для тех кто не в курсе админа этого паблика зовут Марат), это довольно тупо, но мне нравится! Буду как додик теперь считать ее своей любимой метрикой....

🔥7😁4

239 views21:21

неглубокое обучение

Нашел в торче ошибку....
Создал ишью...

UPD: все нормально, я лох

GitHub

vision/torchvision/models/vision_transformer.py at d7d90f56117ce0955332846a5f90b8d1346c4c09 · pytorch/vision

Datasets, Transforms and Models specific to Computer Vision - pytorch/vision

👍2

202 viewsedited 22:10

неглубокое обучение

Или я жоска наебался🤔🤔🤔
Похоже на то, завтра попробую разобраться...

198 viewsedited 23:16

неглубокое обучение

Да, действительно, инициализация одного слоя нулями не мешает обучению. Проблемы возникают при инициализации более одного слоя подряд нулями.

206 views10:39

неглубокое обучение

Я взял сверточную сетку, на которую накинул 2 линейных слоя с ReLU между ними.
1. Дефолтная торчовская инициализация
2. Инициализация двух слоев нулями
3. Инициализация только первого слоя нулями
4. Инициализация только второго слоя нулями

🤔3👍1

237 views10:54

неглубокое обучение

Подтверждая слова @Yar4ik000
1. Инициализация первого слоя нулями, но вместо релу взять сигмоиду (ключевое различие что в нуле релу выдает 0, а сигмоида 0.5).
2. Инициализация двух слоев нулями, но сигмоида вместо релу.

👍3

260 views11:01

неглубокое обучение

Про разницу между weight_decay и l2 в оптимизаторах с моментумом
https://www.fast.ai/posts/2018-07-02-adam-weight-decay.html

fast.ai

AdamW and Super-convergence is now the fastest way to train neural nets – fast.ai

Making neural nets uncool again

👍1

287 views20:39

неглубокое обучение

Базовые трюки для обучения трансформеров, но оформлено оч красиво.
https://www.borealisai.com/research-blogs/tutorial-17-transformers-iii-training/#:~:text=They%20found%20that%20without%20warm,Liu%20et%20al.%2C%202020
И еще
https://tnq177.github.io/data/transformers_without_tears.pdf

RBC Borealis

Tutorial #17: Transformers III Training - RBC Borealis

This blog post is a tutorial on training Transformer models, which are widely used in natural language processing (NLP) applications.

351 viewsedited 22:07

неглубокое обучение

не повезло

😁12🤔1

402 views15:16

неглубокое обучение

https://huggingface.co/docs/tokenizers/pipeline
Как скармливать тексты в сето4ки
(вроде базовая штука, но мне никогда в жизни не доводилось с таким работать)

huggingface.co

The tokenization pipeline

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

403 viewsedited 15:26

неглубокое обучение

https://github.com/ELS-RD/kernl

GitHub

GitHub - ELS-RD/kernl: Kernl lets you run PyTorch transformer models several times faster on GPU with a single line of code, and…

Kernl lets you run PyTorch transformer models several times faster on GPU with a single line of code, and is designed to be easily hackable. - ELS-RD/kernl

🔥1

402 viewsedited 10:17

неглубокое обучение

Что делать если моделька + батч не влазят в память гпушки
https://huggingface.co/docs/transformers/main/en/perf_train_gpu_one
https://medium.com/tensorflow/fitting-larger-networks-into-memory-583e3c758ff9

huggingface.co

GPU

We’re on a journey to advance and democratize artificial intelligence through open source and open science.

508 viewsedited 19:07

неглубокое обучение

cringe loss
https://arxiv.org/abs/2211.05826
cringe loss

546 viewsedited 23:12

неглубокое обучение

Ахуеть, оказывается чтоб открыть ноутбук из гитхаба в колабе достаточно изменить домен с github.com на githubtocolab.com и все готово...

🤯11

464 views15:50

неглубокое обучение

Forwarded from Alexander Borzunov

#оффтоп

Мы тут в Ресёрче сделали штуку, которая позволяет инферить и файнтюнить BLOOM-176B из Колаба. Если вам интересно работать с 175B+ языковыми моделями без необходимости иметь несколько мощных GPU — можете глянуть ссылку и написать мне в лс, что вы про это думаете :)

https://colab.research.google.com/drive/1Ervk6HPNS6AYVr3xVdQnY5a-TjjmLCdQ?usp=sharing

Google

Petals - Getting started with BLOOM-176B (GPU Colab)

Colaboratory notebook

🔥2

438 views17:59

About

Blog

Apps

Platform