Tensorflow(@CVision)
🔥 مدل DeepSeek چالش جدید چینی برای غولهای هوش مصنوعی 🔥
🔹 استارتاپ چینی DeepSeek با معرفی مدل هوش مصنوعی جدید خود، R1، تحولی در بازار هوش مصنوعی ایجاد کرده است. این مدل با عملکردی مشابه مدلهای پیشرفته غربی، اما با هزینهای بهمراتب کمتر توسعه یافته است. این دستاورد باعث کاهش ۱۲ درصدی ارزش سهام انویدیا و افت ۳۸۴ میلیارد دلاری ارزش بازار آن شده است.
🔸 مدل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر، از معماری «ترکیب متخصصان» (Mixture of Experts) بهره میبرد که در آن تنها ۳۷ میلیارد پارامتر در هر پردازش فعال میشوند. این رویکرد منجر به کاهش قابلتوجهی در مصرف منابع محاسباتی و افزایش کارایی مدل شده است.
این مدل با استفاده از تنها ۲,۰۰۰ واحد پردازش گرافیکی (GPU) انویدیا، مدل خود را آموزش داده است؛ در حالی که مدلهای مشابه به حدود ۱۶,۰۰۰ GPU نیاز دارند. این کارایی بالا و هزینه پایین، نگرانیهایی را در مورد آینده سرمایهگذاریهای شرکتهایی مانند مایکروسافت و گوگل در حوزه هوش مصنوعی برانگیخته است.
🔹 مدل DeepSeek-R1 با استفاده از یادگیری تقویتی (Reinforcement Learning) و بدون نیاز به تنظیمات نظارتشده (Supervised Fine-Tuning)، توانسته است در بنچمارکهای مختلفی مانند AIME و MATH-500 عملکردی بهتر یا مشابه با مدل o1 از OpenAI ارائه دهد. این مدل در تستهای ریاضی AIME امتیاز ۷۹.۸ درصد و در MATH-500 امتیاز ۹۷.۳ درصد را کسب کرده است.
GIT
Source: barrons - theverge - wikipedia
🔸 مدل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر، از معماری «ترکیب متخصصان» (Mixture of Experts) بهره میبرد که در آن تنها ۳۷ میلیارد پارامتر در هر پردازش فعال میشوند. این رویکرد منجر به کاهش قابلتوجهی در مصرف منابع محاسباتی و افزایش کارایی مدل شده است.
این مدل با استفاده از تنها ۲,۰۰۰ واحد پردازش گرافیکی (GPU) انویدیا، مدل خود را آموزش داده است؛ در حالی که مدلهای مشابه به حدود ۱۶,۰۰۰ GPU نیاز دارند. این کارایی بالا و هزینه پایین، نگرانیهایی را در مورد آینده سرمایهگذاریهای شرکتهایی مانند مایکروسافت و گوگل در حوزه هوش مصنوعی برانگیخته است.
🔹 مدل DeepSeek-R1 با استفاده از یادگیری تقویتی (Reinforcement Learning) و بدون نیاز به تنظیمات نظارتشده (Supervised Fine-Tuning)، توانسته است در بنچمارکهای مختلفی مانند AIME و MATH-500 عملکردی بهتر یا مشابه با مدل o1 از OpenAI ارائه دهد. این مدل در تستهای ریاضی AIME امتیاز ۷۹.۸ درصد و در MATH-500 امتیاز ۹۷.۳ درصد را کسب کرده است.
GIT
Source: barrons - theverge - wikipedia
❤39👍11⚡1
مدل جدید DeepSeek به اسم Janus که مولتیمدال هست هم در ورودی هم خروجی امروز منتشر شد:
https://github.com/deepseek-ai/Janus
https://github.com/deepseek-ai/Janus
GitHub
GitHub - deepseek-ai/Janus: Janus-Series: Unified Multimodal Understanding and Generation Models
Janus-Series: Unified Multimodal Understanding and Generation Models - deepseek-ai/Janus
👍9
سری Janus از تیم DeepSeek نسل جدیدی از مدلهای هوش مصنوعی هست که برای کار با دادههای متنوع مثل متن، تصویر و حتی ترکیب این دو طراحی شده. این مدلها میتونن هر نوع ورودی رو بگیرن (متن، تصویر) و هر نوع خروجی تولید کنن (متن، تصویر). به خاطر همین، بهشون میگن مدلهای “any-to-any” که یعنی هر چیزی رو به هر چیزی تبدیل میکنن!
نسخه پیشرفتهی این سری (Janus-Pro) که با سه تا بهبود اصلی ارائه شده:
1. استراتژی آموزشی بهینهشده که یادگیری مدل رو دقیقتر کرده.
2. اضافه شدن دادههای بیشتر به فرایند آموزش که مدل رو باهوشتر کرده.
3. بزرگتر شدن ابعاد مدل که باعث شده عملکردش توی درک و تولید تصویر از متن خیلی قویتر بشه.
نتیجه این شده که Janus-Pro توی درک و تولید Multimodal پیشرفتهای فوقالعادهای داشته و حتی توی تولید تصویر از متن، پایداری خیلی بالایی نشون داده.
نسخه اصلی، یعنی Janus، یه معماری جالب و هوشمندانه داره. این مدل پردازش تصویر رو از بقیه وظایف جدا کرده ولی همچنان با یه معماری یکپارچهی ترانسفورمر همه چیز رو مدیریت میکنه. این طراحی باعث شده مدل توی هر دو بخش درک و تولید خیلی منعطف و کارآمد باشه و حتی از مدلهای تخصصی توی این زمینه جلو بزنه.
یه مدل دیگه توی این سری JanusFlow هست که یه ایده جدید رو اجرا کرده: ترکیب مدلهای اتورگرسیو با روش پیشرفتهای به اسم Rectified Flow. این ترکیب، ساده و موثر انجام شده و نیاز به پیچیدگی خاصی نداره. نتیجه؟ یه مدل که هم میتونه تصویر تولید کنه و هم توی کارهای Multimodal عملکردش خیلی بهتر از بقیه مدلهای موجوده.
نسخه پیشرفتهی این سری (Janus-Pro) که با سه تا بهبود اصلی ارائه شده:
1. استراتژی آموزشی بهینهشده که یادگیری مدل رو دقیقتر کرده.
2. اضافه شدن دادههای بیشتر به فرایند آموزش که مدل رو باهوشتر کرده.
3. بزرگتر شدن ابعاد مدل که باعث شده عملکردش توی درک و تولید تصویر از متن خیلی قویتر بشه.
نتیجه این شده که Janus-Pro توی درک و تولید Multimodal پیشرفتهای فوقالعادهای داشته و حتی توی تولید تصویر از متن، پایداری خیلی بالایی نشون داده.
نسخه اصلی، یعنی Janus، یه معماری جالب و هوشمندانه داره. این مدل پردازش تصویر رو از بقیه وظایف جدا کرده ولی همچنان با یه معماری یکپارچهی ترانسفورمر همه چیز رو مدیریت میکنه. این طراحی باعث شده مدل توی هر دو بخش درک و تولید خیلی منعطف و کارآمد باشه و حتی از مدلهای تخصصی توی این زمینه جلو بزنه.
یه مدل دیگه توی این سری JanusFlow هست که یه ایده جدید رو اجرا کرده: ترکیب مدلهای اتورگرسیو با روش پیشرفتهای به اسم Rectified Flow. این ترکیب، ساده و موثر انجام شده و نیاز به پیچیدگی خاصی نداره. نتیجه؟ یه مدل که هم میتونه تصویر تولید کنه و هم توی کارهای Multimodal عملکردش خیلی بهتر از بقیه مدلهای موجوده.
👍42👏1
گروهی از محققان هوش مصنوعی دانشگاه کالیفرنیا، برکلی،ادعا می کنند که فناوری اصلی DeepSeek R1-Zero را با تنها 30 دلار بازسازی کردن و نشون دادن که چگونه میشه مدل های پیشرفته را با هزینه ای مقرون به صرفه پیاده سازی کرد.
تیم DeepSeek این کارو با چندین نوآوری واقعی و چشمگیر انجام داد، که بیشترشون مربوط به افزایش کارایی مهندسی بودن. پیشرفت های خیلی خلاقانه ای توی مدیریت در بخش"Key-Value cache" و فعال کردن "MOEs" به وجود اومد که تا قبل از این توجه چندانی بهش نشده بود، هر چند که ایده mixture of experts به ۱۹۹۱ بر میگرده
https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-research-team-claims-to-reproduce-deepseek-core-technologies-for-usd30-relatively-small-r1-zero-model-has-remarkable-problem-solving-abilities
https://github.com/Jiayi-Pan/TinyZero
تیم DeepSeek این کارو با چندین نوآوری واقعی و چشمگیر انجام داد، که بیشترشون مربوط به افزایش کارایی مهندسی بودن. پیشرفت های خیلی خلاقانه ای توی مدیریت در بخش"Key-Value cache" و فعال کردن "MOEs" به وجود اومد که تا قبل از این توجه چندانی بهش نشده بود، هر چند که ایده mixture of experts به ۱۹۹۱ بر میگرده
https://www.tomshardware.com/tech-industry/artificial-intelligence/ai-research-team-claims-to-reproduce-deepseek-core-technologies-for-usd30-relatively-small-r1-zero-model-has-remarkable-problem-solving-abilities
https://github.com/Jiayi-Pan/TinyZero
GitHub
GitHub - Jiayi-Pan/TinyZero: Minimal reproduction of DeepSeek R1-Zero
Minimal reproduction of DeepSeek R1-Zero. Contribute to Jiayi-Pan/TinyZero development by creating an account on GitHub.
👍25❤8👀2⚡1
DeepSeek
اخیرا نسخه سوم مدل خودش بنام DeepSeek V3رو منتشر کرد که در حال حاضر بهترین عملکرد در بین مدل های متن باز در بنچ مارک های مختلف داره. به همراه این مدل، یک گزارش فنی هم منتشر شد که جزئیات آموزش مدل رو شرح میده.
نکته جالب اینجاست که این عملکرد عالی با استفاده از فقط ۲.۸ میلیون ساعت سخت افزار آموزشی H800 بدست اومده که این مقدار تقریبا ده برابر کمتر از محاسبات آموزشی مدل Llama3.1 405B با عملکرد مشابه ست.
امشب در این مورد بحث خواهیم کرد و به برخی از بهبودهای معماری مهمی که DeepSeek در گزارش خود به اونها اشاره کرده می پردازیم و اینکه چطور این بهبودها منجر به عملکرد بهتر در مقایسه با یک مدل ترانسفورمر معمولی شد.
مهم ترین نوآوری های این معماری به ترتیب:
✅Multi-head latent attention
✅Mixture-of-experts
✅Auxiliary-loss-free load balancing
✅Multi-token prediction
هستند که به مرور بحث خواهیم کرد.
🔅Multi-head latent attention
مهم ترین نوآوری معماری در DeepSeek برای استنتاج متن های طولانی هست. این تکنیک برای اولین بار در DeepSeek نسخه ۲ معرفی شد و روشی بهتر برای کاهش اندازه KV cache در مقایسه با روشهای معرفی شده grouped-query attention و multi-query attention هست.
ادامه دارد...
اخیرا نسخه سوم مدل خودش بنام DeepSeek V3رو منتشر کرد که در حال حاضر بهترین عملکرد در بین مدل های متن باز در بنچ مارک های مختلف داره. به همراه این مدل، یک گزارش فنی هم منتشر شد که جزئیات آموزش مدل رو شرح میده.
نکته جالب اینجاست که این عملکرد عالی با استفاده از فقط ۲.۸ میلیون ساعت سخت افزار آموزشی H800 بدست اومده که این مقدار تقریبا ده برابر کمتر از محاسبات آموزشی مدل Llama3.1 405B با عملکرد مشابه ست.
امشب در این مورد بحث خواهیم کرد و به برخی از بهبودهای معماری مهمی که DeepSeek در گزارش خود به اونها اشاره کرده می پردازیم و اینکه چطور این بهبودها منجر به عملکرد بهتر در مقایسه با یک مدل ترانسفورمر معمولی شد.
مهم ترین نوآوری های این معماری به ترتیب:
✅Multi-head latent attention
✅Mixture-of-experts
✅Auxiliary-loss-free load balancing
✅Multi-token prediction
هستند که به مرور بحث خواهیم کرد.
🔅Multi-head latent attention
مهم ترین نوآوری معماری در DeepSeek برای استنتاج متن های طولانی هست. این تکنیک برای اولین بار در DeepSeek نسخه ۲ معرفی شد و روشی بهتر برای کاهش اندازه KV cache در مقایسه با روشهای معرفی شده grouped-query attention و multi-query attention هست.
ادامه دارد...
👍17❤7⚡1
Tensorflow(@CVision)
DeepSeek اخیرا نسخه سوم مدل خودش بنام DeepSeek V3رو منتشر کرد که در حال حاضر بهترین عملکرد در بین مدل های متن باز در بنچ مارک های مختلف داره. به همراه این مدل، یک گزارش فنی هم منتشر شد که جزئیات آموزش مدل رو شرح میده. نکته جالب اینجاست که این عملکرد عالی…
ابتدا با یه توضیح مختصر در مورد اینکه KV cache چیه، شروع کنیم.
هنگامی که یه مدل زبانی برای تولید متوالی توکن ها در زمان استنتاج استفاده میشه، باید متن(context) همه توکن های قبلی رو هنگام تصمیم گیری در مورد اینکه کدوم توکن رو بعدا در خروجی تولید کنه، ببینه.
راه ساده اینه هر بار که میخوایم یه توکن جدید تولید کنیم، یک محاسبات رو به جلو شامل همه توکن های گذشته رو انجام بدیم، اما این کار بسیار ناکارامده چون توکن های گذشته قبلا توسط مدل زبانی پردازش شدن و با اینکار فقط داریم نتایج از قبل به دستآمده رو مجددا محاسبه میکنیم.
برای جلوگیری از این محاسبه مجدد، ذخیره حالت داخلی مرتبط برای همه توکنهای گذشته و سپس بازیابی نتایج از یک حافظه در صورت نیاز برای توکن های آینده پیشنهاد میشه.
از اونجایی که تنها راه تاثیر توکن های قبلی بر توکن های آینده از طریق بردارهای Key و Value آنها در مکانیسم توجه هست، ذخیره این بردارها کافی به نظر میرسه که نام Key-Value cache یا به اختصار cache KV از اینجا میاد.
ادامه دارد ...
هنگامی که یه مدل زبانی برای تولید متوالی توکن ها در زمان استنتاج استفاده میشه، باید متن(context) همه توکن های قبلی رو هنگام تصمیم گیری در مورد اینکه کدوم توکن رو بعدا در خروجی تولید کنه، ببینه.
راه ساده اینه هر بار که میخوایم یه توکن جدید تولید کنیم، یک محاسبات رو به جلو شامل همه توکن های گذشته رو انجام بدیم، اما این کار بسیار ناکارامده چون توکن های گذشته قبلا توسط مدل زبانی پردازش شدن و با اینکار فقط داریم نتایج از قبل به دستآمده رو مجددا محاسبه میکنیم.
برای جلوگیری از این محاسبه مجدد، ذخیره حالت داخلی مرتبط برای همه توکنهای گذشته و سپس بازیابی نتایج از یک حافظه در صورت نیاز برای توکن های آینده پیشنهاد میشه.
از اونجایی که تنها راه تاثیر توکن های قبلی بر توکن های آینده از طریق بردارهای Key و Value آنها در مکانیسم توجه هست، ذخیره این بردارها کافی به نظر میرسه که نام Key-Value cache یا به اختصار cache KV از اینجا میاد.
ادامه دارد ...
❤6👍5
Tensorflow(@CVision)
ابتدا با یه توضیح مختصر در مورد اینکه KV cache چیه، شروع کنیم. هنگامی که یه مدل زبانی برای تولید متوالی توکن ها در زمان استنتاج استفاده میشه، باید متن(context) همه توکن های قبلی رو هنگام تصمیم گیری در مورد اینکه کدوم توکن رو بعدا در خروجی تولید کنه، ببینه.…
این روش برای طول متنهای کوتاه خوبه، اما برای متون بلند میتونه پرهزینه باشه، چون خوندن کش هزینه داره و بایستی همه بردارها رو در حافظه با پهنای باند بالا GPU ذخیره تا هنگام نیاز به هسته های تنسور بارگذاری کنیم.
اگر هر توکن نیاز داشته باشه که کل متن گذشته خودش رو بدونه، به این معناست که برای هر توکنی که تولید میکنیم، باید کل کش KV گذشته را ازکارت گرافیک بخونیم.
این کار به ویژه در متنهای بالای چند هزار توکن میتونه مشکل ساز شه و نیاز به روشهایی برای کاهش اندازه کش KV را ضروری میسازه.
محاسبه مقدار حافظه مورد نیاز برای کش KV از طریق ضرب مقادیر زیر بدست میاد:
number of layers*batch size*number of attention heads*attention head size*sequence length
به عنوان مثال در GPT3 با 175 میلیارد پارامتر اندازه کش KV با batch size 1 و sequence length
10,000 توکن حافظه مورد نیاز برابر با 43GB هست!
توضیحات بیشتر در ویدیو زیر:
https://www.youtube.com/watch?v=80bIUggRJf4
ادامه دارد...
اگر هر توکن نیاز داشته باشه که کل متن گذشته خودش رو بدونه، به این معناست که برای هر توکنی که تولید میکنیم، باید کل کش KV گذشته را ازکارت گرافیک بخونیم.
این کار به ویژه در متنهای بالای چند هزار توکن میتونه مشکل ساز شه و نیاز به روشهایی برای کاهش اندازه کش KV را ضروری میسازه.
محاسبه مقدار حافظه مورد نیاز برای کش KV از طریق ضرب مقادیر زیر بدست میاد:
number of layers*batch size*number of attention heads*attention head size*sequence length
به عنوان مثال در GPT3 با 175 میلیارد پارامتر اندازه کش KV با batch size 1 و sequence length
10,000 توکن حافظه مورد نیاز برابر با 43GB هست!
توضیحات بیشتر در ویدیو زیر:
https://www.youtube.com/watch?v=80bIUggRJf4
ادامه دارد...
YouTube
The KV Cache: Memory Usage in Transformers
Try Voice Writer - speak your thoughts and let AI handle the grammar: https://voicewriter.io
The KV cache is what takes up the bulk of the GPU memory during inference for large language models like GPT-4. Learn about how the KV cache works in this video!…
The KV cache is what takes up the bulk of the GPU memory during inference for large language models like GPT-4. Learn about how the KV cache works in this video!…
❤7👍3
Tensorflow(@CVision)
این روش برای طول متنهای کوتاه خوبه، اما برای متون بلند میتونه پرهزینه باشه، چون خوندن کش هزینه داره و بایستی همه بردارها رو در حافظه با پهنای باند بالا GPU ذخیره تا هنگام نیاز به هسته های تنسور بارگذاری کنیم. اگر هر توکن نیاز داشته باشه که کل متن گذشته…
یکی از روش های رایج که مدل های متن باز ازش استفاده میکنند Grouped-Query Attention و Multi-Query Attention هست که اندازه کش KV رو به طور قابل توجهی کاهش میدن.
مدل های متن باز مثل Llama 3.3 70B و Mistral Large 2 از این روش استفاده کردن و اندازه کش KV رو به شکل چشمگیری کاهش دادن.
https://arxiv.org/pdf/1911.02150
در معماری Multi-Head Attention، هر head مجموعه منحصر به فردی از بردارهای Q، K و V رو محاسبه میکنه اما در معماری Multi-Query Attention، فقط بردارهای Q برای هر head منحصر به فرده، در حالی که بردارهای Key و Value بین همه head ها به اشتراک گذاشته میشه.
در این حالت با توجه به فرمول قبل اندازه حافظه مورد نیاز به 468MB کاهش پیدا میکنه! اما مقاله زیر نشون میده که این روش مشکلاتی رو در وظایفی مثل خلاصه سازی متون رو میتونه به همراه داشته باشه و معماری Multi-Head Attention در این وظایف بهتر عمل میکنه.
https://arxiv.org/abs/2305.13245
همونطور که میدونید مدل هایی که از معماری transformer استفاده میکنن اغلب به حافظه بیشتری نسبت به مقدار حافظه ای که در یک GPU قرار داره، نیاز دارن بنابراین به نوعی از موازی سازی برای آموزش و استنتاج نیاز داریم! موازی سازی تنسور(Tensor Parallelism) روشی برای موازی سازی مدل های بزرگ تولید متن هست.
به طور خلاصه، موازی سازی تنسور با اختصاص attention head مختلف به GPUهای مختلف کار میکنه.
برای مثال، مدل ۱۷۵ میلیارد پارامتری GPT-3 دارای ۹۶ head هست. میتونیم این مدل رو روی ۸ GPU با اختصاص ۱۲ head به هر کدام موازی کنیم.
هر GPU کل محاسبات attention رو برای head اختصاص داده شده خودش انجام میده، در نهایت همه GPUها نتایج محاسبات خودشون رو مبادله میکنن.
اما در معماری Multi-Query Attention، هر attention head روی مجموعه یکسانی از بردارهای K و V عمل میکنه و این یعنی ما مجموعه یکسانی از بردارهای K و V را روی هر GPU محاسبه و کش میکنیم.
https://arxiv.org/abs/1910.10683
ادامه دارد...
مدل های متن باز مثل Llama 3.3 70B و Mistral Large 2 از این روش استفاده کردن و اندازه کش KV رو به شکل چشمگیری کاهش دادن.
https://arxiv.org/pdf/1911.02150
در معماری Multi-Head Attention، هر head مجموعه منحصر به فردی از بردارهای Q، K و V رو محاسبه میکنه اما در معماری Multi-Query Attention، فقط بردارهای Q برای هر head منحصر به فرده، در حالی که بردارهای Key و Value بین همه head ها به اشتراک گذاشته میشه.
در این حالت با توجه به فرمول قبل اندازه حافظه مورد نیاز به 468MB کاهش پیدا میکنه! اما مقاله زیر نشون میده که این روش مشکلاتی رو در وظایفی مثل خلاصه سازی متون رو میتونه به همراه داشته باشه و معماری Multi-Head Attention در این وظایف بهتر عمل میکنه.
https://arxiv.org/abs/2305.13245
همونطور که میدونید مدل هایی که از معماری transformer استفاده میکنن اغلب به حافظه بیشتری نسبت به مقدار حافظه ای که در یک GPU قرار داره، نیاز دارن بنابراین به نوعی از موازی سازی برای آموزش و استنتاج نیاز داریم! موازی سازی تنسور(Tensor Parallelism) روشی برای موازی سازی مدل های بزرگ تولید متن هست.
به طور خلاصه، موازی سازی تنسور با اختصاص attention head مختلف به GPUهای مختلف کار میکنه.
برای مثال، مدل ۱۷۵ میلیارد پارامتری GPT-3 دارای ۹۶ head هست. میتونیم این مدل رو روی ۸ GPU با اختصاص ۱۲ head به هر کدام موازی کنیم.
هر GPU کل محاسبات attention رو برای head اختصاص داده شده خودش انجام میده، در نهایت همه GPUها نتایج محاسبات خودشون رو مبادله میکنن.
اما در معماری Multi-Query Attention، هر attention head روی مجموعه یکسانی از بردارهای K و V عمل میکنه و این یعنی ما مجموعه یکسانی از بردارهای K و V را روی هر GPU محاسبه و کش میکنیم.
https://arxiv.org/abs/1910.10683
ادامه دارد...
❤7👍5
Tensorflow(@CVision)
یکی از روش های رایج که مدل های متن باز ازش استفاده میکنند Grouped-Query Attention و Multi-Query Attention هست که اندازه کش KV رو به طور قابل توجهی کاهش میدن. مدل های متن باز مثل Llama 3.3 70B و Mistral Large 2 از این روش استفاده کردن و اندازه کش KV رو به…
روش دومی که قبلا در موردش صحبت کردیم Grouped-Query Attention هست.
در معماری Multi-Head Attention، تعداد بردارهای K و V منحصر به فرد برابر با تعداد head بود و در معماری Multi-Query Attention، تعداد بردارهای K و V منحصر به فرد برابر با ۱ بود.
در معماری GQA، تعداد بردارهای K و V منحصر به فرد برابر با یک ابرپارامتر G است که تعداد گروهها ست.
به عنوان مثال، اگر تعداد head ۴ باشه و Gیا گروه ها برابر با 2 باشه، دو مجموعه منحصر به فرد از بردارهای K و V وجود خواهد داشت که هر کدام توسط دو head استفاده میشن.
https://arxiv.org/abs/2305.13245
این روش در مقایسه با روش قبلی، بهبود جزئی در عملکرد ارائه میده اما در واقع، هنگام کار در یک محیط چند GPU با موازی سازی تنسور، میتونیم اساسا دستاورد عملکردی رو به صورت رایگان با تنظیم G برابر با تعداد GPUها به دست بیاریم همچنین مشکل کارایی پایین MQA در خلاصه سازی متون رو برطرف میکنه.
در این روش با توجه به مقدار قبل و فرض داشتن 8 گروه مقدار حافظه مورد نیاز در GPT3 برابر با 3.6GB میشه.
ادامه دارد....
در معماری Multi-Head Attention، تعداد بردارهای K و V منحصر به فرد برابر با تعداد head بود و در معماری Multi-Query Attention، تعداد بردارهای K و V منحصر به فرد برابر با ۱ بود.
در معماری GQA، تعداد بردارهای K و V منحصر به فرد برابر با یک ابرپارامتر G است که تعداد گروهها ست.
به عنوان مثال، اگر تعداد head ۴ باشه و Gیا گروه ها برابر با 2 باشه، دو مجموعه منحصر به فرد از بردارهای K و V وجود خواهد داشت که هر کدام توسط دو head استفاده میشن.
https://arxiv.org/abs/2305.13245
این روش در مقایسه با روش قبلی، بهبود جزئی در عملکرد ارائه میده اما در واقع، هنگام کار در یک محیط چند GPU با موازی سازی تنسور، میتونیم اساسا دستاورد عملکردی رو به صورت رایگان با تنظیم G برابر با تعداد GPUها به دست بیاریم همچنین مشکل کارایی پایین MQA در خلاصه سازی متون رو برطرف میکنه.
در این روش با توجه به مقدار قبل و فرض داشتن 8 گروه مقدار حافظه مورد نیاز در GPT3 برابر با 3.6GB میشه.
ادامه دارد....
❤9👍6👏1
Tensorflow(@CVision)
روش دومی که قبلا در موردش صحبت کردیم Grouped-Query Attention هست. در معماری Multi-Head Attention، تعداد بردارهای K و V منحصر به فرد برابر با تعداد head بود و در معماری Multi-Query Attention، تعداد بردارهای K و V منحصر به فرد برابر با ۱ بود. در معماری GQA،…
مشکل اصلی روشهایی قبلی اینه که برای کم کردن حجم کش KV، مجبوریم کیفیت مدل رو پایین بیاریم، یعنی یه جورایی معامله میکنیم: حافظه کمتر، کیفیت کمتر در عوض مدل بزرگتر!
اما DeepSeek مدلی رو پیشنهاد میده که حجم کش KV رو کم کنه بدون اینکه کیفیت مدل کم شه.
به عبارت دیگه، تونستن هم حافظه رو کم کنن و هم کیفیت رو حفظ کنن و هم اندازه مدل رو بزرگ کنن که خیلی مهمه!
روش Multi-head latent attention با ترکیب فاکتورگیری رتبه پایین(Low-Rank Factorization
) و بردارهای پنهان، هم حجم حافظه را کاهش میده و هم عملکرد مدل رو حفظ میکنه.
فاکتورگیری رتبه پایین یعنی یه ماتریس بزرگ رو به دو تا ماتریس کوچک تر تبدیل میکنیم. این کار تعداد پارامترها رو کم میکنه. البته، یه سری معایب هم داره مثل اینکه محاسبات بیشتر می شه و ممکنه یه مقدار از اطلاعات ماتریس اصلی رو از دست بدیم.
در واقع، یه جورایی داره حافظه رو با محاسبات "معاوضه" می کنه. این روش برای مواردی که محدودیت اصلی حافظه هست مثل fine-tuning و کاهش کش KV خیلی مفیده.
هدف اینجا هم اینه که تا جایی که ممکنه عملکرد مدل حفظ بشه و در عین حال حجم کش KV هم کم شه.
دلیل موثر بودن این روش، همپوشانی اطلاعات بین attention head های مختلفه. attention head های مختلف به اطلاعات مشابهی نیاز دارن. روشهای دیگه مثل GQA هم از این همپوشانی استفاده می کنن، اما به شکل ناکارآمد.
اونها head هایی که با هم گروه بندی شدن رو مجبور می کنن که به پرسش ها جوابهای مشابهی بدن، که کارآمد نیست. اما روش DeepSeek این مشکل رو نداره و اجازه میده که headهای مختلف از یه اطلاعات یکسان به روشهای خیلی متفاوت استفاده کنن.
اگر علاقه مندید توضیحات جامع تر به همراه نمایش بصری رو در لینک زیر مشاهده کنید:
https://planetbanatt.net/articles/mla.html
اما DeepSeek مدلی رو پیشنهاد میده که حجم کش KV رو کم کنه بدون اینکه کیفیت مدل کم شه.
به عبارت دیگه، تونستن هم حافظه رو کم کنن و هم کیفیت رو حفظ کنن و هم اندازه مدل رو بزرگ کنن که خیلی مهمه!
روش Multi-head latent attention با ترکیب فاکتورگیری رتبه پایین(Low-Rank Factorization
) و بردارهای پنهان، هم حجم حافظه را کاهش میده و هم عملکرد مدل رو حفظ میکنه.
فاکتورگیری رتبه پایین یعنی یه ماتریس بزرگ رو به دو تا ماتریس کوچک تر تبدیل میکنیم. این کار تعداد پارامترها رو کم میکنه. البته، یه سری معایب هم داره مثل اینکه محاسبات بیشتر می شه و ممکنه یه مقدار از اطلاعات ماتریس اصلی رو از دست بدیم.
در واقع، یه جورایی داره حافظه رو با محاسبات "معاوضه" می کنه. این روش برای مواردی که محدودیت اصلی حافظه هست مثل fine-tuning و کاهش کش KV خیلی مفیده.
هدف اینجا هم اینه که تا جایی که ممکنه عملکرد مدل حفظ بشه و در عین حال حجم کش KV هم کم شه.
دلیل موثر بودن این روش، همپوشانی اطلاعات بین attention head های مختلفه. attention head های مختلف به اطلاعات مشابهی نیاز دارن. روشهای دیگه مثل GQA هم از این همپوشانی استفاده می کنن، اما به شکل ناکارآمد.
اونها head هایی که با هم گروه بندی شدن رو مجبور می کنن که به پرسش ها جوابهای مشابهی بدن، که کارآمد نیست. اما روش DeepSeek این مشکل رو نداره و اجازه میده که headهای مختلف از یه اطلاعات یکسان به روشهای خیلی متفاوت استفاده کنن.
اگر علاقه مندید توضیحات جامع تر به همراه نمایش بصری رو در لینک زیر مشاهده کنید:
https://planetbanatt.net/articles/mla.html
planetbanatt.net
On MLA
👍16❤8
OAI
نسخهی o3-Mini را منتشر کرد و با این اقدام هوش مصنوعی با استدلال هوشمندتر، سریعتر و ارزانتر را در اختیار کاربران قرار میدهد.
همه کاربران میتوانند از طریق دکمهی جدید «Reason» از آن استفاده کنند
https://openai.com/index/openai-o3-mini
نسخهی o3-Mini را منتشر کرد و با این اقدام هوش مصنوعی با استدلال هوشمندتر، سریعتر و ارزانتر را در اختیار کاربران قرار میدهد.
همه کاربران میتوانند از طریق دکمهی جدید «Reason» از آن استفاده کنند
https://openai.com/index/openai-o3-mini
👍9❤4
Forwarded from 🚀 کلاسویژن | یادگیری هوش مصنوعی از پایه تا پیشرفته
با کلیک بر روی این لینک و کپی کردن کد تخفیف زیر از 50 درصد تخفیف دوره opencv در مکتب خونه استفاده کنید:
COUPON-0d542
مکتبخونه
آموزش پردازش تصویر و بینایی ماشین با OpenCV
دوره آموزش پردازش تصویر و بینایی ماشین با opencv برای ایجاد یک پایه قوی در بینایی کامپیوتر طراحی شده است. در این دوره شما درک کاملی از تقریبا تمام ابزارهای OpenCV برای پردازش تصویر، بینایی کامپیوتری، پردازش ویدئو و اصول اولیه هوش مصنوعی خواهید داشت.
👍6❤1
Forwarded from 🚀 کلاسویژن | یادگیری هوش مصنوعی از پایه تا پیشرفته
📢 اطلاعیه مهم
دوستان و همراهان عزیز، سلام 🌹
به اطلاع میرسانیم به دلیل یکسانسازی قیمت دورههای مشترک در پلتفرمهای آموزشی مختلف (نظیر مکتب خونه) و همچنین تغییرات قیمت در بازار، ناگزیر به افزایش 30 درصدی قیمت برخی از دورهها روی سایت کلاس ویژن شدهایم.
🎁 خبر خوب:
برای اینکه شما عزیزان بتوانید با همان قیمتهای قبلی از دورهها استفاده کنید، تا تاریخ 25 بهمن ماه، تخفیف ویژهای در نظر گرفتهایم و میتوانید دورهها را با قیمت قبلی از سایت کلاس ویژن تهیه نمایید. موقتا قیمت قبلی در قالب تخفیف فرصت ویژه روی دوره ها اعمال شده است.
⏰ فرصت محدود است!
پیشنهاد میکنیم اگر قصد تهیه دورهها را دارید، از این فرصت استثنایی استفاده کنید.
با تشکر از همراهی شما
#کلاس_ویژن
دوستان و همراهان عزیز، سلام 🌹
به اطلاع میرسانیم به دلیل یکسانسازی قیمت دورههای مشترک در پلتفرمهای آموزشی مختلف (نظیر مکتب خونه) و همچنین تغییرات قیمت در بازار، ناگزیر به افزایش 30 درصدی قیمت برخی از دورهها روی سایت کلاس ویژن شدهایم.
🎁 خبر خوب:
برای اینکه شما عزیزان بتوانید با همان قیمتهای قبلی از دورهها استفاده کنید، تا تاریخ 25 بهمن ماه، تخفیف ویژهای در نظر گرفتهایم و میتوانید دورهها را با قیمت قبلی از سایت کلاس ویژن تهیه نمایید. موقتا قیمت قبلی در قالب تخفیف فرصت ویژه روی دوره ها اعمال شده است.
⏰ فرصت محدود است!
پیشنهاد میکنیم اگر قصد تهیه دورهها را دارید، از این فرصت استثنایی استفاده کنید.
با تشکر از همراهی شما
#کلاس_ویژن
👍4🤔4
اوپن ای آی deep research را معرفی کرد. این حالت به کاربران این امکان رو میده تا "تحقیقات چند مرحلهای در اینترنت برای وظایف پیچیده" انجام بدن.
این گامی دیگر به سوی تحقق وعده صنعت هوش مصنوعی ست که AI Agents به زودی قادر به انجام وظایف انسانی به طور قابل اعتماد، کارآمد و مستقل خواهند بود. این ویژگی برای افرادی که کارهای دانشمحور فشرده در زمینههایی مانند مالی، علم، سیاست و مهندسی انجام میدهند و به تحقیقات کامل، دقیق و قابل اعتماد نیاز دارند، ساخته شده.
حالت Deep research، یک مقاله تحقیقاتی جامع و کاملا مستند به کاربر ارائه میده، چیزی که اساسا یک تحلیلگر یا یک متخصص در یک زمینه ممکن است برای شما تهیه کنه.
https://openai.com/index/introducing-deep-research/
این گامی دیگر به سوی تحقق وعده صنعت هوش مصنوعی ست که AI Agents به زودی قادر به انجام وظایف انسانی به طور قابل اعتماد، کارآمد و مستقل خواهند بود. این ویژگی برای افرادی که کارهای دانشمحور فشرده در زمینههایی مانند مالی، علم، سیاست و مهندسی انجام میدهند و به تحقیقات کامل، دقیق و قابل اعتماد نیاز دارند، ساخته شده.
حالت Deep research، یک مقاله تحقیقاتی جامع و کاملا مستند به کاربر ارائه میده، چیزی که اساسا یک تحلیلگر یا یک متخصص در یک زمینه ممکن است برای شما تهیه کنه.
https://openai.com/index/introducing-deep-research/
Openai
Introducing deep research
An agent that uses reasoning to synthesize large amounts of online information and complete multi-step research tasks for you. Available to Pro users today, Plus and Team next.
❤8👍6
Tensorflow(@CVision)
اوپن ای آی deep research را معرفی کرد. این حالت به کاربران این امکان رو میده تا "تحقیقات چند مرحلهای در اینترنت برای وظایف پیچیده" انجام بدن. این گامی دیگر به سوی تحقق وعده صنعت هوش مصنوعی ست که AI Agents به زودی قادر به انجام وظایف انسانی به طور قابل…
یک نکتهی بسیار برجسته در Deep Research، تفاوت چشمگیر بین زمان صرف شده برای انجام کار در مقایسه با انسان بود. طبق تخمینهای برخی از کارکنان OpenAI، به نظر میرسه که این تفاوت در حال حاضر تقریبا ۱۵ برابره. اهمیت این موضوع از اونجاست که به پرسشی بزرگ در مورد خودکارسازی وظایف شناختی پاسخ میده و اون سوال اینه که چه زمانی هزینهی انجام کار توسط هوش مصنوعی برابر یا ارزان تر از پرداخت به انسان خواهد بود؟
چند ماه پیش که نتایج o3 منتشر شد هنگامی که به هزینههای اجرای o3 روی ARC AGI نگاه می کردیم، به نظر میرسید که هنوز چندین مرتبه از این نقطه فاصله داریم، اما به نظر Deep Research داره نشون میده که ما بسیار نزدیک تر از آنچه ابتدا به نظر میرسید، هستیم. این حالت به زودی برای کاربران حرفهای با ۱۰۰ پرسش در ماه در دسترس خواهد بود، بنابراین در حال حاضر ما با حدود ۲ دلار برای چندین ساعت کار روبرو هستیم، که از همین حالا یک مرتبه ارزانتر از انسان، در این مورد خاصه.
اگر مدلهای اپراتور پیشرفته تری رو تصور کنیم که بتونن تمام وظایف یک شغل اداری با مهارت پایینتر رو انجام بدن، اما ۳ هفته کار رو در یک روز کاری کامل کنند، تصور اینکه چگونه هزینه نیروی کار به سرعت نزدیک به صفر بشه، دور از ذهن نیست
چند ماه پیش که نتایج o3 منتشر شد هنگامی که به هزینههای اجرای o3 روی ARC AGI نگاه می کردیم، به نظر میرسید که هنوز چندین مرتبه از این نقطه فاصله داریم، اما به نظر Deep Research داره نشون میده که ما بسیار نزدیک تر از آنچه ابتدا به نظر میرسید، هستیم. این حالت به زودی برای کاربران حرفهای با ۱۰۰ پرسش در ماه در دسترس خواهد بود، بنابراین در حال حاضر ما با حدود ۲ دلار برای چندین ساعت کار روبرو هستیم، که از همین حالا یک مرتبه ارزانتر از انسان، در این مورد خاصه.
اگر مدلهای اپراتور پیشرفته تری رو تصور کنیم که بتونن تمام وظایف یک شغل اداری با مهارت پایینتر رو انجام بدن، اما ۳ هفته کار رو در یک روز کاری کامل کنند، تصور اینکه چگونه هزینه نیروی کار به سرعت نزدیک به صفر بشه، دور از ذهن نیست
👍10❤2
This media is not supported in your browser
VIEW IN TELEGRAM
محققان چینی مدل OmniHuman را منتشر کردند.
این مدل میتواند ویدیوهای واقعگرایانه از انسانها را در هر نسبت ابعاد و اندازهی بدن، تنها با استفاده از یک تصویر و صدا ایجاد کند.
این مدل بهطور چشمگیری مدیریت حرکات و ژستها را بهبود میبخشد، که چالشی برای روشهای موجود محسوب میشود، و نتایج بسیار واقعگرایانهای تولید میکند.
https://omnihuman-lab.github.io/
این مدل میتواند ویدیوهای واقعگرایانه از انسانها را در هر نسبت ابعاد و اندازهی بدن، تنها با استفاده از یک تصویر و صدا ایجاد کند.
این مدل بهطور چشمگیری مدیریت حرکات و ژستها را بهبود میبخشد، که چالشی برای روشهای موجود محسوب میشود، و نتایج بسیار واقعگرایانهای تولید میکند.
https://omnihuman-lab.github.io/
👍22🤯19😱2
Tensorflow(@CVision)
اوپن ای آی deep research را معرفی کرد. این حالت به کاربران این امکان رو میده تا "تحقیقات چند مرحلهای در اینترنت برای وظایف پیچیده" انجام بدن. این گامی دیگر به سوی تحقق وعده صنعت هوش مصنوعی ست که AI Agents به زودی قادر به انجام وظایف انسانی به طور قابل…
۲۴ ساعت بعد، نسخه متن باز Deep Research توسط hugging face منتشر شد.
DeepResearch
از دو بخش اصلی تشکیل شده است:
یک مدل زبانی بزرگ: این مدل میتونه از لیست مدلهای زبانی بزرگی که توسط OpenAI ارائه میشه (مثل 4o، o1، o3 و غیره) انتخاب شه. به عبارتی، هسته اصلی DeepResearch یک LLM هست که وظیفهی پردازش زبان طبیعی و تولید متن رو بر عهده داره.
دوم "Agentic Framework" : این فریمورک، مدل زبانی رو در استفاده از ابزارهایی مانند جستجوی وب و سازماندهی اقدامات خودش به صورت گام به گام راهنمایی میکنه. این بخش، DeepResearch رو قادر میسازه تا به طور هوشمندانه تر و مؤثرتر عمل کنه. به جای اینکه فقط به مدل زبانی برای تولید متن تکیه کنه، این فریم ورک بهش کمک میکنه تا با دنیای خارج تعامل داشته باشه (از طریق جستجوی وب) و وظایف پیچیده رو به مراحل کوچکتر و قابل مدیریت تقسیم کنه
نکته قابل توجه عملکرد نسخه متن باز با کسب امتیاز 54% در مجموعه داده مشابه، در مقایسه با امتیاز 67% مدل اصلی توسط OpenAI هست.
https://huggingface.co/blog/open-deep-research
DeepResearch
از دو بخش اصلی تشکیل شده است:
یک مدل زبانی بزرگ: این مدل میتونه از لیست مدلهای زبانی بزرگی که توسط OpenAI ارائه میشه (مثل 4o، o1، o3 و غیره) انتخاب شه. به عبارتی، هسته اصلی DeepResearch یک LLM هست که وظیفهی پردازش زبان طبیعی و تولید متن رو بر عهده داره.
دوم "Agentic Framework" : این فریمورک، مدل زبانی رو در استفاده از ابزارهایی مانند جستجوی وب و سازماندهی اقدامات خودش به صورت گام به گام راهنمایی میکنه. این بخش، DeepResearch رو قادر میسازه تا به طور هوشمندانه تر و مؤثرتر عمل کنه. به جای اینکه فقط به مدل زبانی برای تولید متن تکیه کنه، این فریم ورک بهش کمک میکنه تا با دنیای خارج تعامل داشته باشه (از طریق جستجوی وب) و وظایف پیچیده رو به مراحل کوچکتر و قابل مدیریت تقسیم کنه
نکته قابل توجه عملکرد نسخه متن باز با کسب امتیاز 54% در مجموعه داده مشابه، در مقایسه با امتیاز 67% مدل اصلی توسط OpenAI هست.
https://huggingface.co/blog/open-deep-research
huggingface.co
Open-source DeepResearch – Freeing our search agents
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍16❤5
دیپ سیک یک مدل ۱۶ میلیارد پارامتری MOE با نام DeepSeek-VL2 Small برای وظایف مختلف تولید متن منتشر کرد.
دموی مدل در huggingface :
https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small
دموی مدل در huggingface :
https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small
huggingface.co
Chat with DeepSeek-VL2-small - a Hugging Face Space by deepseek-ai
This app lets you type a question or instruction and upload one or more pictures. The AI reads the text and visual content, then replies with answers, descriptions, or guidance—such as identifying ...
🔥8👍3
This media is not supported in your browser
VIEW IN TELEGRAM
مدل ترجمه همزمان گفتار به گفتار Hibiki، صحبتهای شما رو از فرانسه به انگلیسی به صورت زنده ترجمه میکنه.
این مدل نه تنها متن ترجمه شده رو نشون میده، بلکه اون رو با صدای خودتون و با همان سرعت و لحن بیان میکنه.
Hibiki
در مقایسه با سیستم های مشابه قبلی، ترجمه های دقیق تر، طبیعی تر و با صدای شبیه تر به صدای شما ارائه میده و تقریبا به خوبی یک مترجم انسانی عمل میکنه.
مقاله :
https://arxiv.org/abs/2502.03382
کد:
https://github.com/kyutai-labs/hibiki
این مدل نه تنها متن ترجمه شده رو نشون میده، بلکه اون رو با صدای خودتون و با همان سرعت و لحن بیان میکنه.
Hibiki
در مقایسه با سیستم های مشابه قبلی، ترجمه های دقیق تر، طبیعی تر و با صدای شبیه تر به صدای شما ارائه میده و تقریبا به خوبی یک مترجم انسانی عمل میکنه.
مقاله :
https://arxiv.org/abs/2502.03382
کد:
https://github.com/kyutai-labs/hibiki
👍11