خبرنامه هوش مصنوعی دومان
711 subscribers
259 photos
178 videos
2 files
301 links
ابزار، نوآوری‌ها و اخبار هوش مصنوعی و رباتیک

📌 ارتباط با من:

dumannewsletter@gmail.com

📌 لینک Boost کانال:

https://t.me/dumannewsletter?boost

📌 آرشیو وبسایت (به روز نمی‌شود):

duman.pouyae.ir

#هوش_مصنوعی
#رباتیک
Download Telegram
آشنایی با معماری MoE در مدل‌های هوش‌مصنوعی

در معماری Mixture of Experts یا به طور خلاصه MoE مدل از چندین شبکه عصبی به نام Expert و یک شبکه عصبی به نام Gating Network یا Router تشکیل می‌شود. هر شبکه Expert روی بخشی از دیتا آموزش داده می‌شود. شبکه Router تصمیم می‌گیرد که هر توکن ورودی را به کدام Expert داده و تاثیر هر Expert در خروجی چه میزان باشد. معماری MoE امکان افزایش سایز مدل یا دیتاست را با بودجه پردازشی ثابت فراهم می‌سازد.

👈 مطالعه بیشتر

#moe
#آموزشی

@dumannewsletter
کمپانی فرانسوی Mistral نسخه جدید مدل زبانی خود را با نام Mixtral 8×22B منتشر کرد. این مدل از معماری MoE استفاده کرده و دارای Context Window به سایز ۶۵ هزار توکن است (هر توکن را معادل یک لغت در نظر بگیرید). تعداد پارامترهای این مدل ۱۷۶ میلیارد بوده و دارای سایز ۲۸۱ گیگابایت است. اطلاعات دانلود این مدل از تورنت در اینجا منتشر شده است.

#mistral
#moe

@dumannewsletter
انتشار مدل اپن‌سورس Phi-3.5-MoE توسط مایکروسافت

نسخه جدید مدل زبانی Phi توسط مایکروسافت به نام Phi-3.5-MoE منتشر شد. این نسخه دارای معماری MoE است (برای آشنایی با این معماری اینجا را بخوانید) و جز مدل‌های زبانی کوچک و یا به اختصار SLM است. هر prompt این مدل توانایی دریافت حدودا ۱۲۵ هزار لغت را دارد (سایز context window حدودا ۱۲۸ کیلو بایت است). این نسخه نسبت به مدل‌های مشابه Gemma 2 9B و Llama 3 8B عملکرد بهتری داشته است. Phi-3.5-MoE به صورت اپن‌سورس تحت لایسنس MIT در پلتفرم HuggingFace در دسترس عموم قرار گرفته است (اینجا را مشاهده کنید).

#moe
#phi
#microsoft

@dumannewsletter