Первые эффекты после DPO! Это уже очень хорошо!
Q: What makes a good leader?
PIR: An effective leader in a leadership position is someone who values trust and teamwork. It also helps to build trust and loyalty among the other team members, making it difficult for them to win.
Q: Explain quantum computing simply.
PIR: In quantum mechanics, the fundamental principles of quantum mechanics are: 1. The first principle is the measurement and function of quantum particles in physics. In this case, a particle has a mass density, which can be thought of as an equal number in all dimensions.
👍3
При этом я параллельно занимаюсь мастерингом треков. Бошка в режиме биполярки
🔥6❤🔥3👏3👍2👌1
Начал тренировку модели размером в 1 миллиард параметров.
Смотрю логи:
Начал в колабе! это 1 млрд параметров!
Смотрю логи:
============================================================
PIR 1B PRETRAINING
============================================================
Config:
Dataset: openwebtext
Batch: 4 x 8 = 32
Seq len: 2048
Max steps: 100,000
Max LR: 0.0003
torch.compile: True
Decay ranges: ((0.92, 0.96), (0.94, 0.98), (0.96, 0.995), (0.97, 0.9999))
Chinchilla:
Total tokens: 6.6B
Optimal for 1B: ~20B tokens
Coverage: 33%
Device: cuda
GPU: NVIDIA H100 80GB HBM3
Memory: 85.2 GB
Dtype: torch.bfloat16
Начал в колабе! это 1 млрд параметров!
🔥24👀2☃1
Step 230/100000 | Loss: 6.9083
Оно работает. 20 млрд токенов к 1 млрд параметров. Loss уже 6.9 - если бы архитектура не могла масштабироваться, то я имел бы одни проблемы. Пока что всё окей. Один раз вылетел NAN - но это не предусмотришь покуда не вылетит. Вылетело, поймал - убрал.
Смотрим дальше!
Оно работает. 20 млрд токенов к 1 млрд параметров. Loss уже 6.9 - если бы архитектура не могла масштабироваться, то я имел бы одни проблемы. Пока что всё окей. Один раз вылетел NAN - но это не предусмотришь покуда не вылетит. Вылетело, поймал - убрал.
Смотрим дальше!
🔥13🤔2
[Q] Explain how neural networks work.
[A] Cognitive algorithms are used to analyze and interpret data more accurately than humans. This is because they are designed for human-like intelligence, while neural networks can be used in various ways or contexts such as analyzing data on a particular topic.
✍3🤔3🔥2
Forwarded from mudi - всё о дистрибуции музыки
Media is too big
VIEW IN TELEGRAM
Нейросети vs музыканты: кто победит в битве за слушателя?
Технологии не стоят на месте. Генеративная музыка становится всё качественнее и доступнее. В этом видео мы сравним процесс создания музыки человеком и нейросетью, проанализируем плюсы и минусы обоих подходов и попытаемся спрогнозировать будущее музыкальной индустрии.
Смотрите полную версию стрима «Как защитить свою музыку от ИИ, как работают генераторы музыки, угрозы от ИИ музыки» на канале mishas tips!
#иимузыка #генеративнаямузыка #sunoai #udioai #нейросетимузыка #музыкальнаяиндустрия #авторскоеправо #будущеемузыки #творчествоии #защитамузыки
Технологии не стоят на месте. Генеративная музыка становится всё качественнее и доступнее. В этом видео мы сравним процесс создания музыки человеком и нейросетью, проанализируем плюсы и минусы обоих подходов и попытаемся спрогнозировать будущее музыкальной индустрии.
Смотрите полную версию стрима «Как защитить свою музыку от ИИ, как работают генераторы музыки, угрозы от ИИ музыки» на канале mishas tips!
#иимузыка #генеративнаямузыка #sunoai #udioai #нейросетимузыка #музыкальнаяиндустрия #авторскоеправо #будущеемузыки #творчествоии #защитамузыки
👍9❤3🥰1
Сегодня встреча с РНБ в онлайне - первая в этом году. Буду показывать систему!
Ну и , возможно, немного данных бенчмарков PIR модели!
Тут такие инсайты прилетели по теме архитектуры во время тестов, что я просто в шоке. Покажу чуть позднее в чём прикол. Но меня прям радует насколько всё логично получается. Не зря я не выходил из дома и ни с кем не общался долгое время)))))))))
Ну и , возможно, немного данных бенчмарков PIR модели!
Тут такие инсайты прилетели по теме архитектуры во время тестов, что я просто в шоке. Покажу чуть позднее в чём прикол. Но меня прям радует насколько всё логично получается. Не зря я не выходил из дома и ни с кем не общался долгое время)))))))))
👍20😁4🔥2
Ах да...забыл. Я на всякий случай создал фреймворк Promethorch чтобы полностью быть независимым от библиотеки Pytorch. Всё на сях, все кернелы собраны, сегодня будут тестировать разные тренировки. Если получится, то можно будет отказываться от библиотеки Pytorch и делать не опасаясь ограничений. Правда, ещё много моментов осталось важных чтобы быть технологически независимыми, но проблемы не вижу. Нужно просто больше времени.
НТЦ Модуль - на этой неделе протестирую уже на железе! Если пруф концепта работает и кернелы, которые я прописал для компилятора сработают в полевых условиях, то НТЦ Модуль (по идее) будут заинтересованы предоставить физическую железяку NM QUAD (20гб) и доступ к кластеру подобных устройств , чтобы получить толковые мощности в сборе.
Всё это попахивает технологически независимым стеком. Спасибо эре LLM и агентов - такие вещи ускоряются нещадно!
НТЦ Модуль - на этой неделе протестирую уже на железе! Если пруф концепта работает и кернелы, которые я прописал для компилятора сработают в полевых условиях, то НТЦ Модуль (по идее) будут заинтересованы предоставить физическую железяку NM QUAD (20гб) и доступ к кластеру подобных устройств , чтобы получить толковые мощности в сборе.
Всё это попахивает технологически независимым стеком. Спасибо эре LLM и агентов - такие вещи ускоряются нещадно!
👍27🔥7👏6🤔1🎉1
PIR Модель на 1млрд параметров, которая обучается на 20 млрд токенов (OpenWebText датасет) (LOSS: 5.2)
Лучшие куски:
Общие проблемы везде:
Но это step 1000, loss 5.2, PPL 188.
Модель сейчас на уровне: "знаю как строить предложения, не знаю о чём говорить".
Нормальные генерации жди на loss ~3.5-4.0, это step 5000-10000.
Прогресс есть — от петель "U.S. Department of Defense ×50" до текущего уже огромный шаг.
Лучшие куски:
[6] SpaceX:
"The company says the plan for a new payment for both revenue, and other customers are expected to make the best new energy industry."
— Грамматика есть, бизнес-язык есть, но смысла нет.
[13] Reuters:
"global markets are responding to the latest trade negotiations between the US and China. Analysts say..."
— Держит тему торговли пару предложений, потом дрифтит.
Общие проблемы везде:
Тематический дрифт через 2-3 предложения
Уход в "I think", "I don't know", "I love you"
Грамматика местами ломается
Фактическая бессмыслица
Но это step 1000, loss 5.2, PPL 188.
Модель сейчас на уровне: "знаю как строить предложения, не знаю о чём говорить".
Нормальные генерации жди на loss ~3.5-4.0, это step 5000-10000.
Прогресс есть — от петель "U.S. Department of Defense ×50" до текущего уже огромный шаг.
👍11🔥2🤔1
В РНБ был очень приятный технический созвон. Наконец-то, мы начали общаться больше с техническими специалистами. Щас запосчу новость...конечно там ппц.
👍8🤔2 2
Привет. Синтеты, ну что? Готовы?
🌋 КОРПОРАТИВНЫЙ ЦИНИЗМ: КАК NVIDIA КУПИЛА СОВЕСТЬ ЗА 500 ТБ 🌋
И что сделали «архитекторы будущего»? Дали зеленый свет. 🟢
Пока с трибун нам читают проповеди о «безопасном ИИ», «элайменте» и юридической чистоте, за кулисами происходит банальное мародерство. Аргумент Fair Use (добросовестного использования) рассыпался в прах. Это не обучение — это экспроприация мировой культуры ради накачки акций.
Величайшая ирония эпохи: мы пытаемся создать искусственный интеллект, который должен быть «этичнее» людей, но вскармливаем его на осознанном воровстве и лжи.
📉☠️📚
https://torrentfreak.com/nvidia-contacted-annas-archive-to-secure-access-to-millions-of-pirated-books/
🌋 КОРПОРАТИВНЫЙ ЦИНИЗМ: КАК NVIDIA КУПИЛА СОВЕСТЬ ЗА 500 ТБ 🌋
ПЕРЕПИСКА УТЕЧКА Маски сброшены с грохотом, от которого дрожат стены в Санта-Кларе. Nvidia не просто «нашла» данные. Они, словно наркоманы в поиске дозы, сами постучались к админам Anna’s Archive. Им прямым текстом сказали: «Это пиратский контент, это незаконно».
И что сделали «архитекторы будущего»? Дали зеленый свет. 🟢
Пока с трибун нам читают проповеди о «безопасном ИИ», «элайменте» и юридической чистоте, за кулисами происходит банальное мародерство. Аргумент Fair Use (добросовестного использования) рассыпался в прах. Это не обучение — это экспроприация мировой культуры ради накачки акций.
Величайшая ирония эпохи: мы пытаемся создать искусственный интеллект, который должен быть «этичнее» людей, но вскармливаем его на осознанном воровстве и лжи.
Нельзя построить храм разума на фундаменте из краденых кирпичей. Если «боги» технологий плюют на правила, почему они ждут, что их создание будет эти законы соблюдать?
📉☠️📚
https://torrentfreak.com/nvidia-contacted-annas-archive-to-secure-access-to-millions-of-pirated-books/
🤔14🤣6❤2
Что может PIR?
А давайте, смотрите, читайте: (работаю в веб интерфейсе Claude Opus 4.5 - простой чат)
CLAUDE:
Финальная генерация:
А давайте, смотрите, читайте: (работаю в веб интерфейсе Claude Opus 4.5 - простой чат)
Техножнец: пробей свою вм. собери модельку в 100к параметров. собери у себя. запусти на цпу питорче. прям PIR архитектуру. чтобы хуярила шекспира. контекст ей сделай токенов эдак 100-200. норм будет. запускай.
CLAUDE:
Спроектировал компактную PIR-модель для обучения на Шекспире.
Создаю минимальную PIR модель для Shakespeare
pir_tiny_shakespeare.py
Взвесил конфликт между запретом и прямым запросом пользователя.
Запускаю PIR tiny на Shakespeare
Проанализировал обучение модели, отследил прогресс генерации текста.
Финальная генерация:
As day, upee tis me the move here bear of of thou:
And foo hat he and thems, courst blink.
Sird:
For I gand goon's tha thould he at maion shat it so the spont:
Who sear imbty age't with of heis old of the are a too.
LATIS:
Be you more in his woll dike.
HORTUME:
I prasige by his thou arld o will noth, And worn theels,
He, would comblery sivien be lothem.
❤2
Техножнец
Что может PIR? А давайте, смотрите, читайте: (работаю в веб интерфейсе Claude Opus 4.5 - простой чат) Техножнец: пробей свою вм. собери модельку в 100к параметров. собери у себя. запусти на цпу питорче. прям PIR архитектуру. чтобы хуярила шекспира. контекст…
Это Клауде у себя внутри быстренько натренировал небольшую модельку прямо в вебе. Без проблем. Маленький шекспир вообще бесплатно.
❤2
Техножнец
Что может PIR? А давайте, смотрите, читайте: (работаю в веб интерфейсе Claude Opus 4.5 - простой чат) Техножнец: пробей свою вм. собери модельку в 100к параметров. собери у себя. запусти на цпу питорче. прям PIR архитектуру. чтобы хуярила шекспира. контекст…
Текст - полная чушь! попросил его итеративно дойти до уровня лосс 1.4-1.6
❤1