آشنایی با معماری MoE در مدلهای هوشمصنوعی
در معماری Mixture of Experts یا به طور خلاصه MoE مدل از چندین شبکه عصبی به نام Expert و یک شبکه عصبی به نام Gating Network یا Router تشکیل میشود. هر شبکه Expert روی بخشی از دیتا آموزش داده میشود. شبکه Router تصمیم میگیرد که هر توکن ورودی را به کدام Expert داده و تاثیر هر Expert در خروجی چه میزان باشد. معماری MoE امکان افزایش سایز مدل یا دیتاست را با بودجه پردازشی ثابت فراهم میسازد.
👈 مطالعه بیشتر
#moe
#آموزشی
@dumannewsletter
در معماری Mixture of Experts یا به طور خلاصه MoE مدل از چندین شبکه عصبی به نام Expert و یک شبکه عصبی به نام Gating Network یا Router تشکیل میشود. هر شبکه Expert روی بخشی از دیتا آموزش داده میشود. شبکه Router تصمیم میگیرد که هر توکن ورودی را به کدام Expert داده و تاثیر هر Expert در خروجی چه میزان باشد. معماری MoE امکان افزایش سایز مدل یا دیتاست را با بودجه پردازشی ثابت فراهم میسازد.
👈 مطالعه بیشتر
#moe
#آموزشی
@dumannewsletter
کمپانی فرانسوی Mistral نسخه جدید مدل زبانی خود را با نام Mixtral 8×22B منتشر کرد. این مدل از معماری MoE استفاده کرده و دارای Context Window به سایز ۶۵ هزار توکن است (هر توکن را معادل یک لغت در نظر بگیرید). تعداد پارامترهای این مدل ۱۷۶ میلیارد بوده و دارای سایز ۲۸۱ گیگابایت است. اطلاعات دانلود این مدل از تورنت در اینجا منتشر شده است.
#mistral
#moe
@dumannewsletter
#mistral
#moe
@dumannewsletter
انتشار مدل اپنسورس Phi-3.5-MoE توسط مایکروسافت
نسخه جدید مدل زبانی Phi توسط مایکروسافت به نام Phi-3.5-MoE منتشر شد. این نسخه دارای معماری MoE است (برای آشنایی با این معماری اینجا را بخوانید) و جز مدلهای زبانی کوچک و یا به اختصار SLM است. هر prompt این مدل توانایی دریافت حدودا ۱۲۵ هزار لغت را دارد (سایز context window حدودا ۱۲۸ کیلو بایت است). این نسخه نسبت به مدلهای مشابه Gemma 2 9B و Llama 3 8B عملکرد بهتری داشته است. Phi-3.5-MoE به صورت اپنسورس تحت لایسنس MIT در پلتفرم HuggingFace در دسترس عموم قرار گرفته است (اینجا را مشاهده کنید).
#moe
#phi
#microsoft
@dumannewsletter
نسخه جدید مدل زبانی Phi توسط مایکروسافت به نام Phi-3.5-MoE منتشر شد. این نسخه دارای معماری MoE است (برای آشنایی با این معماری اینجا را بخوانید) و جز مدلهای زبانی کوچک و یا به اختصار SLM است. هر prompt این مدل توانایی دریافت حدودا ۱۲۵ هزار لغت را دارد (سایز context window حدودا ۱۲۸ کیلو بایت است). این نسخه نسبت به مدلهای مشابه Gemma 2 9B و Llama 3 8B عملکرد بهتری داشته است. Phi-3.5-MoE به صورت اپنسورس تحت لایسنس MIT در پلتفرم HuggingFace در دسترس عموم قرار گرفته است (اینجا را مشاهده کنید).
#moe
#phi
#microsoft
@dumannewsletter