ـGrok أصبح مفتوح المصدر! أول تحليل للكود
نشرنا فيديو قصير عنه: https://youtube.com/shorts/gqwofvkp2sE?feature=share
غوص عميق في بنية جروك (Grok) 🤖
هذا ملخص لمحتويات ملف http://model.py لنموذج Grok الذي يحتوي على 314 مليار معلمة (parameter) مفتوحة المصدر:
https://github.com/xai-org/grok-1
1. المعلومات الأساسية:
ـ حجم النموذج: 314 مليار
ـ مزيج من 8 خبراء (experts)، 2 منهم نشطين
ـ 86 مليار معلمة نشطة
ـ يستخدم Rotary Embeddings بدلاً من Positional Embeddings الثابتة
2. معلومات Tokenizer:
ـ حجم المفردات (vocab size): 131,072 (مشابه لـ GPTـ4)
ـ حجم Embedding: 6,144 (48*128)
ـ عدد طبقات Transformer: 64
3. كتلة الانتباه متعدد الرؤوس (Multihead Attention Block):
ـ 48 رأس (head) للاستعلامات (queries)
ـ 8 رؤوس للمفاتيح والقيم (keys/values)
ـ حجم المفاتيح والقيم: 128
4. كتلة الكثافة (Dense Block):
ـ عامل التوسيع (widening factor): 8
ـ حجم الطبقة المخفية: 32,768
ـ يتم اختيار خبيرين من أصل 8 لكل رمز (token)
5. معلومات أخرى:
ـ حجم Rotary Positional Embeddings: 6144
ـ أقصى طول للسياق (context length): 8192 رمز
ـ دقة الأرقام: bfloat16
🧠 هذه المعلومات توضح الهندسة المعمارية لهذا النموذج الضخم ذو الأداء العالي. استخدام تقنيات مثل Rotary Embeddings وMixture of Experts تساهم في تحسين قدراته.
#Grok
نشرنا فيديو قصير عنه: https://youtube.com/shorts/gqwofvkp2sE?feature=share
غوص عميق في بنية جروك (Grok) 🤖
هذا ملخص لمحتويات ملف http://model.py لنموذج Grok الذي يحتوي على 314 مليار معلمة (parameter) مفتوحة المصدر:
https://github.com/xai-org/grok-1
1. المعلومات الأساسية:
ـ حجم النموذج: 314 مليار
ـ مزيج من 8 خبراء (experts)، 2 منهم نشطين
ـ 86 مليار معلمة نشطة
ـ يستخدم Rotary Embeddings بدلاً من Positional Embeddings الثابتة
2. معلومات Tokenizer:
ـ حجم المفردات (vocab size): 131,072 (مشابه لـ GPTـ4)
ـ حجم Embedding: 6,144 (48*128)
ـ عدد طبقات Transformer: 64
3. كتلة الانتباه متعدد الرؤوس (Multihead Attention Block):
ـ 48 رأس (head) للاستعلامات (queries)
ـ 8 رؤوس للمفاتيح والقيم (keys/values)
ـ حجم المفاتيح والقيم: 128
4. كتلة الكثافة (Dense Block):
ـ عامل التوسيع (widening factor): 8
ـ حجم الطبقة المخفية: 32,768
ـ يتم اختيار خبيرين من أصل 8 لكل رمز (token)
5. معلومات أخرى:
ـ حجم Rotary Positional Embeddings: 6144
ـ أقصى طول للسياق (context length): 8192 رمز
ـ دقة الأرقام: bfloat16
🧠 هذه المعلومات توضح الهندسة المعمارية لهذا النموذج الضخم ذو الأداء العالي. استخدام تقنيات مثل Rotary Embeddings وMixture of Experts تساهم في تحسين قدراته.
#Grok
YouTube
Grok أصبح مفتوح المصدر! أول تحليل للكود
غوص عميق في بنية جروك (Grok) 🤖ألقِ نظرة متعمقة على ملف النموذج (model.py) الخاص بهذا النموذج اللغوي الضخم مفتوح المصدر الذي يبلغ حجمه 314 مليار معلمة، والذي...