не пишите код вала без батчинга пацаны, вам гпу минуты еще нужны...
👍16😐7
Babenko_M._Vvedenie_v_teoriyu_algoritmov_i_struktur_dannykh.pdf
1.1 MB
В руки попала топавая шадовая книжка по алгосам, го ботат
🔥64🤯4🌭3🤡2
Обновил anime diffusion, чекпоинт 65/290, выкинул обоссаный стебль и взял божественный vintedois-diffusion , cкоро выложу обнову VAE
🙏19💩6🤡4👍2🤮2🔥1
зато текст с первого раза понимает, это вам на претрейне не тупо clip.hidden_states[-1] совать!!
huggingface
huggingface
🔥14👍2
Forwarded from AbstractDL
This media is not supported in your browser
VIEW IN TELEGRAM
CALM: как простые слова генерировать быстрее (by Google)
Оказывается, можно пропускать часть слоёв трансформера на «простых» словах и ускорять таким образом генерацию текста в ~3 раза!
А если правильно выбрать критерий преждевременной остановки, то качество генерации совсем не падает. Исследователи из гугл предложили 3 таких критерия:
1. Косинус эмбеддингов с двух последовательных слоёв.
2. Разность топ двух значений софтмакса.
3. Обученная линейная регрессия.
P.S. Все эксперименты были для T5, но думаю, что всё без проблем переносится и на GPT.
Статья, GitHub, блог
Оказывается, можно пропускать часть слоёв трансформера на «простых» словах и ускорять таким образом генерацию текста в ~3 раза!
А если правильно выбрать критерий преждевременной остановки, то качество генерации совсем не падает. Исследователи из гугл предложили 3 таких критерия:
1. Косинус эмбеддингов с двух последовательных слоёв.
2. Разность топ двух значений софтмакса.
3. Обученная линейная регрессия.
P.S. Все эксперименты были для T5, но думаю, что всё без проблем переносится и на GPT.
Статья, GitHub, блог
🔥37👍3👌3❤2