КАК ЖЕ ЧЕШАТСЯ РУКИ НАФИГ...но я спокойно стараюсь делать этап за этапов. всё постепенно.
👍6👻2
Первые эффекты после DPO! Это уже очень хорошо!
Q: What makes a good leader?
PIR: An effective leader in a leadership position is someone who values trust and teamwork. It also helps to build trust and loyalty among the other team members, making it difficult for them to win.
Q: Explain quantum computing simply.
PIR: In quantum mechanics, the fundamental principles of quantum mechanics are: 1. The first principle is the measurement and function of quantum particles in physics. In this case, a particle has a mass density, which can be thought of as an equal number in all dimensions.
👍3
При этом я параллельно занимаюсь мастерингом треков. Бошка в режиме биполярки
🔥6❤🔥3👏3👍2👌1
Начал тренировку модели размером в 1 миллиард параметров.
Смотрю логи:
Начал в колабе! это 1 млрд параметров!
Смотрю логи:
============================================================
PIR 1B PRETRAINING
============================================================
Config:
Dataset: openwebtext
Batch: 4 x 8 = 32
Seq len: 2048
Max steps: 100,000
Max LR: 0.0003
torch.compile: True
Decay ranges: ((0.92, 0.96), (0.94, 0.98), (0.96, 0.995), (0.97, 0.9999))
Chinchilla:
Total tokens: 6.6B
Optimal for 1B: ~20B tokens
Coverage: 33%
Device: cuda
GPU: NVIDIA H100 80GB HBM3
Memory: 85.2 GB
Dtype: torch.bfloat16
Начал в колабе! это 1 млрд параметров!
🔥24👀2☃1
Step 230/100000 | Loss: 6.9083
Оно работает. 20 млрд токенов к 1 млрд параметров. Loss уже 6.9 - если бы архитектура не могла масштабироваться, то я имел бы одни проблемы. Пока что всё окей. Один раз вылетел NAN - но это не предусмотришь покуда не вылетит. Вылетело, поймал - убрал.
Смотрим дальше!
Оно работает. 20 млрд токенов к 1 млрд параметров. Loss уже 6.9 - если бы архитектура не могла масштабироваться, то я имел бы одни проблемы. Пока что всё окей. Один раз вылетел NAN - но это не предусмотришь покуда не вылетит. Вылетело, поймал - убрал.
Смотрим дальше!
🔥13🤔2
[Q] Explain how neural networks work.
[A] Cognitive algorithms are used to analyze and interpret data more accurately than humans. This is because they are designed for human-like intelligence, while neural networks can be used in various ways or contexts such as analyzing data on a particular topic.
✍3🤔3🔥2
Forwarded from mudi - всё о дистрибуции музыки
Media is too big
VIEW IN TELEGRAM
Нейросети vs музыканты: кто победит в битве за слушателя?
Технологии не стоят на месте. Генеративная музыка становится всё качественнее и доступнее. В этом видео мы сравним процесс создания музыки человеком и нейросетью, проанализируем плюсы и минусы обоих подходов и попытаемся спрогнозировать будущее музыкальной индустрии.
Смотрите полную версию стрима «Как защитить свою музыку от ИИ, как работают генераторы музыки, угрозы от ИИ музыки» на канале mishas tips!
#иимузыка #генеративнаямузыка #sunoai #udioai #нейросетимузыка #музыкальнаяиндустрия #авторскоеправо #будущеемузыки #творчествоии #защитамузыки
Технологии не стоят на месте. Генеративная музыка становится всё качественнее и доступнее. В этом видео мы сравним процесс создания музыки человеком и нейросетью, проанализируем плюсы и минусы обоих подходов и попытаемся спрогнозировать будущее музыкальной индустрии.
Смотрите полную версию стрима «Как защитить свою музыку от ИИ, как работают генераторы музыки, угрозы от ИИ музыки» на канале mishas tips!
#иимузыка #генеративнаямузыка #sunoai #udioai #нейросетимузыка #музыкальнаяиндустрия #авторскоеправо #будущеемузыки #творчествоии #защитамузыки
👍9❤3🥰1
Сегодня встреча с РНБ в онлайне - первая в этом году. Буду показывать систему!
Ну и , возможно, немного данных бенчмарков PIR модели!
Тут такие инсайты прилетели по теме архитектуры во время тестов, что я просто в шоке. Покажу чуть позднее в чём прикол. Но меня прям радует насколько всё логично получается. Не зря я не выходил из дома и ни с кем не общался долгое время)))))))))
Ну и , возможно, немного данных бенчмарков PIR модели!
Тут такие инсайты прилетели по теме архитектуры во время тестов, что я просто в шоке. Покажу чуть позднее в чём прикол. Но меня прям радует насколько всё логично получается. Не зря я не выходил из дома и ни с кем не общался долгое время)))))))))
👍20😁4🔥2
Ах да...забыл. Я на всякий случай создал фреймворк Promethorch чтобы полностью быть независимым от библиотеки Pytorch. Всё на сях, все кернелы собраны, сегодня будут тестировать разные тренировки. Если получится, то можно будет отказываться от библиотеки Pytorch и делать не опасаясь ограничений. Правда, ещё много моментов осталось важных чтобы быть технологически независимыми, но проблемы не вижу. Нужно просто больше времени.
НТЦ Модуль - на этой неделе протестирую уже на железе! Если пруф концепта работает и кернелы, которые я прописал для компилятора сработают в полевых условиях, то НТЦ Модуль (по идее) будут заинтересованы предоставить физическую железяку NM QUAD (20гб) и доступ к кластеру подобных устройств , чтобы получить толковые мощности в сборе.
Всё это попахивает технологически независимым стеком. Спасибо эре LLM и агентов - такие вещи ускоряются нещадно!
НТЦ Модуль - на этой неделе протестирую уже на железе! Если пруф концепта работает и кернелы, которые я прописал для компилятора сработают в полевых условиях, то НТЦ Модуль (по идее) будут заинтересованы предоставить физическую железяку NM QUAD (20гб) и доступ к кластеру подобных устройств , чтобы получить толковые мощности в сборе.
Всё это попахивает технологически независимым стеком. Спасибо эре LLM и агентов - такие вещи ускоряются нещадно!
👍27🔥7👏6🤔1🎉1
PIR Модель на 1млрд параметров, которая обучается на 20 млрд токенов (OpenWebText датасет) (LOSS: 5.2)
Лучшие куски:
Общие проблемы везде:
Но это step 1000, loss 5.2, PPL 188.
Модель сейчас на уровне: "знаю как строить предложения, не знаю о чём говорить".
Нормальные генерации жди на loss ~3.5-4.0, это step 5000-10000.
Прогресс есть — от петель "U.S. Department of Defense ×50" до текущего уже огромный шаг.
Лучшие куски:
[6] SpaceX:
"The company says the plan for a new payment for both revenue, and other customers are expected to make the best new energy industry."
— Грамматика есть, бизнес-язык есть, но смысла нет.
[13] Reuters:
"global markets are responding to the latest trade negotiations between the US and China. Analysts say..."
— Держит тему торговли пару предложений, потом дрифтит.
Общие проблемы везде:
Тематический дрифт через 2-3 предложения
Уход в "I think", "I don't know", "I love you"
Грамматика местами ломается
Фактическая бессмыслица
Но это step 1000, loss 5.2, PPL 188.
Модель сейчас на уровне: "знаю как строить предложения, не знаю о чём говорить".
Нормальные генерации жди на loss ~3.5-4.0, это step 5000-10000.
Прогресс есть — от петель "U.S. Department of Defense ×50" до текущего уже огромный шаг.
👍11🔥2🤔1
В РНБ был очень приятный технический созвон. Наконец-то, мы начали общаться больше с техническими специалистами. Щас запосчу новость...конечно там ппц.
👍8🤔2 2