LoRA: Low-Rank Adaptation of Large Language Models или как ее сунуть то
есть такая эвристика - оптимайзер модели без хаков занимает в 4 раза больше памяти чем сама модель. Тут открывается простор для оптимизаций: перенос оптимайзера на cpu, заморозка модели fp16 и fp8 и все это требует некоторой интелектуальной нагрузки чтобы аккуратно все обучилось и взорвалось.
Но есть путь проще - адаптеры, идея такая: давайте в attention разложи Wqkv на Wk и Wv что дает выигрышь в 4 раза
github
paper
Не так давно тоже самое сделали для SD, тюн/dreamboth влезает в 12гб карты с adamw 32bit
github
есть такая эвристика - оптимайзер модели без хаков занимает в 4 раза больше памяти чем сама модель. Тут открывается простор для оптимизаций: перенос оптимайзера на cpu, заморозка модели fp16 и fp8 и все это требует некоторой интелектуальной нагрузки чтобы аккуратно все обучилось и взорвалось.
Но есть путь проще - адаптеры, идея такая: давайте в attention разложи Wqkv на Wk и Wv что дает выигрышь в 4 раза
github
paper
Не так давно тоже самое сделали для SD, тюн/dreamboth влезает в 12гб карты с adamw 32bit
github
👍10
Шел третий год с выхода JAX 1.0, авторы наконец выложили лекцию на youtube
YouTube
What is JAX?
JAX is a high performance numerical computing framework that brings together differentiation to Python code (Autograd) and Accelerated Linear Algebra (XLA) that compiles to low level, high performing code on accelerators, such as GPUs and TPUS. In this video…
😈15👍5
не пишите код вала без батчинга пацаны, вам гпу минуты еще нужны...
👍16😐7
Babenko_M._Vvedenie_v_teoriyu_algoritmov_i_struktur_dannykh.pdf
1.1 MB
В руки попала топавая шадовая книжка по алгосам, го ботат
🔥64🤯4🌭3🤡2
Обновил anime diffusion, чекпоинт 65/290, выкинул обоссаный стебль и взял божественный vintedois-diffusion , cкоро выложу обнову VAE
🙏19💩6🤡4👍2🤮2🔥1
зато текст с первого раза понимает, это вам на претрейне не тупо clip.hidden_states[-1] совать!!
huggingface
huggingface
🔥14👍2