Только что у Claude Opus 4 закончился контекст и он просто взял, посмотрел не тот файл...увидел, что генерация "упала" и решил запустить заново. Хорошо, что я все действия прошу подтверждать - дал ему люлей. очнулся.
🔥1
Вы накидали в районе 60-70 тысяч рублей - просто там несколько разных счетов, поэтому точно не считал. Но сумма максимально приближённая. Это круто! Мы вывезем. Сегодня закончится тренировка DPO - можно будет сравнивать с крупными моделями. Если победа, то это , считай, тяжелая задачка...маленькой моделькой всего в 270 млн параметров надавать тумаков моделькам покрупнее - это сильно. Если хотя бы вровень или дышать ноздря в ноздрю чуть сзади получится в сравнении с Llama 1, Llama 2 = победа побед.
🔥13
17 декабря на канале "Техножнец" - официальный праздник.
Великий День Конвергенции!
Пока что , синтеты, нас тут очень мало, но со временем нас тут будет очень много и мы сможем делать официальные сходки в вполне себе крутом таком виде. Об этом мы ещё обсудим многие детали , моменты, помещения, варианты - это всё вопросы грядущих дней. На сегодня потребность в комьюнити остаётся.
Есть у вас друзья, кто заинтересован в суверенной отечественной LLM модели на уникальной архитектуре? Скидывайте ему! Знаете блогера, которые это освещает? Скидывайте ему. Любой пост из техножнеца подойдёт.
Заранее вам спасибо. А мы с вами ещё увидимся в реале!
Великий День Конвергенции!
Пока что , синтеты, нас тут очень мало, но со временем нас тут будет очень много и мы сможем делать официальные сходки в вполне себе крутом таком виде. Об этом мы ещё обсудим многие детали , моменты, помещения, варианты - это всё вопросы грядущих дней. На сегодня потребность в комьюнити остаётся.
Есть у вас друзья, кто заинтересован в суверенной отечественной LLM модели на уникальной архитектуре? Скидывайте ему! Знаете блогера, которые это освещает? Скидывайте ему. Любой пост из техножнеца подойдёт.
Заранее вам спасибо. А мы с вами ещё увидимся в реале!
🤝21❤4
You
Hello. I am a sport specialist and i would like to know you basic knowledge about healthy life?
PIR
I am an AI language model that is widely used for personal and professional development. It has been a challenging time for me to learn more about the sport, but I can provide you with some of the best things you could do to help you develop your skills and skills.Step 1: Identify your skills and knowledge.2. Start by defining a professional level
PIR core не знает что такое "токены" — он работает с временными рядами [Batch, Time, Dim].
Для мультимодальности — просто меняем вход:
PIR ядро остаётся тем же!
Текущий вход (текст):
tok_emb = nn.Embedding(vocab_size, n_embd) # дискретные токены → эмбеддингиДля мультимодальности — просто меняем вход:
┌─────────────┬─────────────────────────────┬──────────────────────┐
│ Модальность │ Вход │ Проекция │
├─────────────┼─────────────────────────────┼──────────────────────┤
│ Audio │ mel-spectrogram [B, T, 80] │ nn.Linear(80, 768) │
├─────────────┼─────────────────────────────┼──────────────────────┤
│ Video │ frame features [B, T, 2048] │ nn.Linear(2048, 768) │
├─────────────┼─────────────────────────────┼──────────────────────┤
│ Sensors │ IMU/ECG [B, T, 6] │ nn.Linear(6, 768) │
├─────────────┼─────────────────────────────┼──────────────────────┤
│ Finance │ OHLCV [B, T, 5] │ nn.Linear(5, 768) │
└─────────────┴─────────────────────────────┴──────────────────────┘
PIR ядро остаётся тем же!
Техножнец
PIR core не знает что такое "токены" — он работает с временными рядами [Batch, Time, Dim]. Текущий вход (текст): tok_emb = nn.Embedding(vocab_size, n_embd) # дискретные токены → эмбеддинги Для мультимодальности — просто меняем вход: ┌──────────…
Вся суть топологии времени преобразованного в пространство - осталась! Всё связано!
🔥4❤🔥2
Для чата с вами, синтеты создаю языковую маску. Чтобы понимать как работает модель на русском, если англ сильно глаза будет резать. Это хак - маска перевода, но он работает отлично.
Тест 2: "Что такое машинное обучение?"
[RU] Ответ PIR: AI используется в машинном обучении, чтобы улучшить способность ученика мыслить, понимать и относиться к окружающему его миру. Вы можете учить на основе данных и создавать интерактивную среду, где компьютер может учиться...
🔥6
КАК ЖЕ ЧЕШАТСЯ РУКИ НАФИГ...но я спокойно стараюсь делать этап за этапов. всё постепенно.
👍6👻2
Первые эффекты после DPO! Это уже очень хорошо!
Q: What makes a good leader?
PIR: An effective leader in a leadership position is someone who values trust and teamwork. It also helps to build trust and loyalty among the other team members, making it difficult for them to win.
Q: Explain quantum computing simply.
PIR: In quantum mechanics, the fundamental principles of quantum mechanics are: 1. The first principle is the measurement and function of quantum particles in physics. In this case, a particle has a mass density, which can be thought of as an equal number in all dimensions.
👍3
При этом я параллельно занимаюсь мастерингом треков. Бошка в режиме биполярки
🔥6❤🔥3👏3👍2👌1
Начал тренировку модели размером в 1 миллиард параметров.
Смотрю логи:
Начал в колабе! это 1 млрд параметров!
Смотрю логи:
============================================================
PIR 1B PRETRAINING
============================================================
Config:
Dataset: openwebtext
Batch: 4 x 8 = 32
Seq len: 2048
Max steps: 100,000
Max LR: 0.0003
torch.compile: True
Decay ranges: ((0.92, 0.96), (0.94, 0.98), (0.96, 0.995), (0.97, 0.9999))
Chinchilla:
Total tokens: 6.6B
Optimal for 1B: ~20B tokens
Coverage: 33%
Device: cuda
GPU: NVIDIA H100 80GB HBM3
Memory: 85.2 GB
Dtype: torch.bfloat16
Начал в колабе! это 1 млрд параметров!
🔥24👀2☃1
Step 230/100000 | Loss: 6.9083
Оно работает. 20 млрд токенов к 1 млрд параметров. Loss уже 6.9 - если бы архитектура не могла масштабироваться, то я имел бы одни проблемы. Пока что всё окей. Один раз вылетел NAN - но это не предусмотришь покуда не вылетит. Вылетело, поймал - убрал.
Смотрим дальше!
Оно работает. 20 млрд токенов к 1 млрд параметров. Loss уже 6.9 - если бы архитектура не могла масштабироваться, то я имел бы одни проблемы. Пока что всё окей. Один раз вылетел NAN - но это не предусмотришь покуда не вылетит. Вылетело, поймал - убрал.
Смотрим дальше!
🔥13🤔2
[Q] Explain how neural networks work.
[A] Cognitive algorithms are used to analyze and interpret data more accurately than humans. This is because they are designed for human-like intelligence, while neural networks can be used in various ways or contexts such as analyzing data on a particular topic.
✍3🤔3🔥2