https://openai.com/blog/whisper/
OpenAI обучили и опенсурснули ASR трансформер на 680к часах и он могет в мультиязычность
OpenAI обучили и опенсурснули ASR трансформер на 680к часах и он могет в мультиязычность
Openai
Introducing Whisper
We’ve trained and are open-sourcing a neural net called Whisper that approaches human level robustness and accuracy on English speech recognition.
Осознал что метрика ранжирования MAP@K это MAPATK (для тех кто не в курсе админа этого паблика зовут Марат), это довольно тупо, но мне нравится! Буду как додик теперь считать ее своей любимой метрикой....
🔥7😁4
Или я жоска наебался🤔🤔🤔
Похоже на то, завтра попробую разобраться...
Похоже на то, завтра попробую разобраться...
Да, действительно, инициализация одного слоя нулями не мешает обучению. Проблемы возникают при инициализации более одного слоя подряд нулями.
Я взял сверточную сетку, на которую накинул 2 линейных слоя с ReLU между ними.
1. Дефолтная торчовская инициализация
2. Инициализация двух слоев нулями
3. Инициализация только первого слоя нулями
4. Инициализация только второго слоя нулями
1. Дефолтная торчовская инициализация
2. Инициализация двух слоев нулями
3. Инициализация только первого слоя нулями
4. Инициализация только второго слоя нулями
🤔3👍1
Подтверждая слова @Yar4ik000
1. Инициализация первого слоя нулями, но вместо релу взять сигмоиду (ключевое различие что в нуле релу выдает 0, а сигмоида 0.5).
2. Инициализация двух слоев нулями, но сигмоида вместо релу.
1. Инициализация первого слоя нулями, но вместо релу взять сигмоиду (ключевое различие что в нуле релу выдает 0, а сигмоида 0.5).
2. Инициализация двух слоев нулями, но сигмоида вместо релу.
👍3
Про разницу между weight_decay и l2 в оптимизаторах с моментумом
https://www.fast.ai/posts/2018-07-02-adam-weight-decay.html
https://www.fast.ai/posts/2018-07-02-adam-weight-decay.html
fast.ai
AdamW and Super-convergence is now the fastest way to train neural nets – fast.ai
Making neural nets uncool again
👍1
Базовые трюки для обучения трансформеров, но оформлено оч красиво.
https://www.borealisai.com/research-blogs/tutorial-17-transformers-iii-training/#:~:text=They%20found%20that%20without%20warm,Liu%20et%20al.%2C%202020
И еще
https://tnq177.github.io/data/transformers_without_tears.pdf
https://www.borealisai.com/research-blogs/tutorial-17-transformers-iii-training/#:~:text=They%20found%20that%20without%20warm,Liu%20et%20al.%2C%202020
И еще
https://tnq177.github.io/data/transformers_without_tears.pdf
RBC Borealis
Tutorial #17: Transformers III Training - RBC Borealis
This blog post is a tutorial on training Transformer models, which are widely used in natural language processing (NLP) applications.
https://huggingface.co/docs/tokenizers/pipeline
Как скармливать тексты в сето4ки
(вроде базовая штука, но мне никогда в жизни не доводилось с таким работать)
Как скармливать тексты в сето4ки
(вроде базовая штука, но мне никогда в жизни не доводилось с таким работать)
huggingface.co
The tokenization pipeline
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Что делать если моделька + батч не влазят в память гпушки
https://huggingface.co/docs/transformers/main/en/perf_train_gpu_one
https://medium.com/tensorflow/fitting-larger-networks-into-memory-583e3c758ff9
https://huggingface.co/docs/transformers/main/en/perf_train_gpu_one
https://medium.com/tensorflow/fitting-larger-networks-into-memory-583e3c758ff9
huggingface.co
GPU
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
Ахуеть, оказывается чтоб открыть ноутбук из гитхаба в колабе достаточно изменить домен с github.com на githubtocolab.com и все готово...
🤯11
Forwarded from Alexander Borzunov
#оффтоп
Мы тут в Ресёрче сделали штуку, которая позволяет инферить и файнтюнить BLOOM-176B из Колаба. Если вам интересно работать с 175B+ языковыми моделями без необходимости иметь несколько мощных GPU — можете глянуть ссылку и написать мне в лс, что вы про это думаете :)
https://colab.research.google.com/drive/1Ervk6HPNS6AYVr3xVdQnY5a-TjjmLCdQ?usp=sharing
Мы тут в Ресёрче сделали штуку, которая позволяет инферить и файнтюнить BLOOM-176B из Колаба. Если вам интересно работать с 175B+ языковыми моделями без необходимости иметь несколько мощных GPU — можете глянуть ссылку и написать мне в лс, что вы про это думаете :)
https://colab.research.google.com/drive/1Ervk6HPNS6AYVr3xVdQnY5a-TjjmLCdQ?usp=sharing
Google
Petals - Getting started with BLOOM-176B (GPU Colab)
Colaboratory notebook
🔥2
Forwarded from эйай ньюз
Как я читаю Arxiv, и как справляюсь с количеством статей
Я вернулся в Цюрих, а значит пора искать новые статьи!
Читать голый arxiv.org в поисках новых статей за неделю подвластно лишь, наверное, полубогам. Каждый день ребята из Поднебесной заливают десятки, а то и сотни статей на архив. И, конечно, 99% из них – шлак или на абсолютно не релевантные темы. Хотелось бы иметь возможность искать статьи похожие по тематике и в идеале сортировать их по качеству, что довольно нетривиально сделать.
Раньше я использовал Arxiv-sanity от Карпатого для поиска похожих статей. Механика там довольно примитивная. Для каждой статьи обучается Exemplar-SVM на tf-idf фичах из абстракта, а затем статьи ранжируются по похожести. Текстовый поиск только по ключевым словам. Соответственно и качество поиска выходит не очень.
Раньше там ещё был счётчик количества упоминаний статьи в Твиттер, что говорило об уровне хайпа вокруг работы, но в новой версии его больше нет.
Сейчас кто-то наконец сделал толковый поиск по статьям на Arxiv, который удостоен технологиями 2023 года — https://arxivxplorer.com. В разделе CS – около 500к статей, и для каждой статьи посчитали текстовые эмбеддинги по абстракту, используя API к текстовым моделькам от OpenAI, о которых я писал тут. Это обошлось автору в $50. Зато теперь в строку поиска можно ввести любые фразы либо даже вопросы, по которым будет считаться эмбеддинг и выдаваться наиболее релевантные статьи из базы. Я очень рад таким инновациям и уже пересел на этот сервис!
@ai_newz
Я вернулся в Цюрих, а значит пора искать новые статьи!
Читать голый arxiv.org в поисках новых статей за неделю подвластно лишь, наверное, полубогам. Каждый день ребята из Поднебесной заливают десятки, а то и сотни статей на архив. И, конечно, 99% из них – шлак или на абсолютно не релевантные темы. Хотелось бы иметь возможность искать статьи похожие по тематике и в идеале сортировать их по качеству, что довольно нетривиально сделать.
Раньше я использовал Arxiv-sanity от Карпатого для поиска похожих статей. Механика там довольно примитивная. Для каждой статьи обучается Exemplar-SVM на tf-idf фичах из абстракта, а затем статьи ранжируются по похожести. Текстовый поиск только по ключевым словам. Соответственно и качество поиска выходит не очень.
Раньше там ещё был счётчик количества упоминаний статьи в Твиттер, что говорило об уровне хайпа вокруг работы, но в новой версии его больше нет.
Сейчас кто-то наконец сделал толковый поиск по статьям на Arxiv, который удостоен технологиями 2023 года — https://arxivxplorer.com. В разделе CS – около 500к статей, и для каждой статьи посчитали текстовые эмбеддинги по абстракту, используя API к текстовым моделькам от OpenAI, о которых я писал тут. Это обошлось автору в $50. Зато теперь в строку поиска можно ввести любые фразы либо даже вопросы, по которым будет считаться эмбеддинг и выдаваться наиболее релевантные статьи из базы. Я очень рад таким инновациям и уже пересел на этот сервис!
@ai_newz
🔥8