Tensorflow(@CVision)
15.2K subscribers
1.29K photos
310 videos
81 files
2.54K links
اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت:
http://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support

لینک گروه:
@tf2keras
Download Telegram
Tensorflow(@CVision)
اول معماری Mixture of Experts (MoE) با پراکندگی (Sparsity) بالا: یادآوری MoE: مثل اینه که یک تیم بزرگ از خبرگان داشته باشیم. هر کدوم از این خبرگان در یک زمینه خاص مهارت دارن. وقتی یک سوال یا وظیفه جدید به این تیم داده می‌ شه، فقط چند تا از متخصص ‌هایی که…
بخش دوم به چالش پراکندگی بالا و راه‌حلAuxiliary Loss اختصاص داره:

مشکل پراکندگی بالا: خب، هر چیزی یک خوبی ‌هایی داره و یک بدی ‌هایی. خوبی پراکندگی بالا رو گفتیم. اما مشکلش چیه؟ مشکل اینه که وقتی فقط  تعداد کمی از خبرگان برای هر وظیفه فعال می ‌شن، ممکنه بعضی از خبرگان اصلا فرصت یادگیری پیدا نکنن.

یعنی همیشه در حالت استراحت بمونن و هیچ‌ وقت فعال نشن. این باعث میشه که توانایی مدل به صورت چشمگیری کاهش پیدا کنه، چون ازهمه‌ ظرفیتش استفاده نمی ‌شه.

راه‌ حل معرفی Auxiliary Loss هست:

جریمه برای چی؟ این جریمه برای اینه که اگه بعضی از خبرگان برای مدت طولانی فعال نشن، مدل جریمه می‌ شه. این جریمه باعث می‌ شه که مدل مجبور شه همه‌ ی خبرگان رو در طول آموزش فعال کنه و از همه ‌شون استفاده کنه.نتیجه این کار باعث می‌شه که همه ‌ی خبرگان به خوبی آموزش ببینن و مدل قوی ‌تر بشه.(در قالب پارامتر گاما)

و بخش سوم به بهینه‌ سازی‌های سطح پایین اختصاص داره:

DeepSeek
 فقط به MoE و Auxiliary Loss اکتفا نکرده. اون‌ها رفتن سراغ بهینه ‌سازی ‌های خیلی سطح پایین ‌تر!

اول استفاده از کتابخانه ارتباطی NCCL اختصاصی هست.  

اول اومدن نسخه اختصاصی خودشون از کتابخانه ارتباطی NCCL انویدیا رو پیاده‌سازی کردن.این کتابخانه مسئول ارتباط بین GPUهاست. وقتی GPUها بخوان با هم اطلاعات رد و بدل کنن، از این کتابخانه استفاده می‌کنن DeepSeek با ساختن نسخه اختصاصی خودش، تونسته این ارتباط رو خیلی بهینه ‌تر کنه.

دوم استفاده از دستورالعمل‌های PTX:

این تیم از دستورالعمل‌های PTX (Parallel Thread Execution) که یک زبان میانی بین کد CUDA و سخت‌افزار GPU  هست، برای مدیریت نحوه زمان‌بندی SMها (Streaming Multiprocessors) در GPU استفاده کردن. این کار به اونها اجازه داد تا کنترل دقیق‌تری بر روی نحوه اجرای محاسبات در GPU داشته باشند و عملکرد رو بهبود ببخشن.

 این بهینه‌سازی‌های سطح پایین باعث شدن که مدل‌های DeepSeek بتونن با سخت‌افزار محدودشون، عملکرد خیلی بالایی داشته باشن. یعنی با اینکه GPUهای کمتری نسبت به رقبای خودشون داشتن، تونستن نتایج خیلی خوبی بگیرن.
👏8👍3
این مقاله که توسط محققین استفورد با بودجه ۶ دلار آموزش داده شده یک روش ساده Test-Time Scaling رو معرفی می‌کنه که به مدل‌های زبانی کمک می‌کنه هنگام آزمایش (Test) استدلال بهتری داشته باشن. محققان یک تکنیک ساده برای این کار معرفی کردن که Budget Forcing نام داره. این تکنیک در واقع مشخص می‌کنه مدل قبل از ارائه‌ پاسخ، چقدر محاسبات انجام بده.  

شاید اولین بار مدل o1 بود که نشون داد که میشه بدون تغییر مدل، فقط با افزایش میزان محاسبات در زمان آزمایش (Test)، دقت و توانایی استدلال مدل رو بالا برد اما خوب جزییات زیادی از روش آموزش این مدل منتشر نشد.

در حالت عادی، یک مدل ممکنه خیلی زود تصمیم بگیره که پاسخ نهایی رو ارائه بده، حتی اگر بتونه با تفکر بیشتر، پاسخ بهتری پیدا کنه. برای حل این مشکل، توی این مقاله از تکنیک بسیار ساده ای به نام  Budget Forcing استفاده میشه که مدل رو مجبور می‌کنه بیشتر فکر کنه. در این روش، اگر مدل خیلی زود تصمیم به توقف بگیره، به‌جای توقف، به‌طور خودکار یک کلمه‌ ی "Wait" به خروجی خود اضافه می‌کنه. این کار باعث می‌شه مدل فرایند استدلال خودش رو ادامه بده و در نتیجه دقت پاسخ‌ها افزایش پیدا کنه. 

برخلاف مدل‌های رایج که روی مجموعه داده‌های بسیار بزرگ آموزش می‌ بینن، محققان در این پژوهش از یک مدل با ۳۲ میلیارد پارامتر استفاده کردن که فقط با ۱۰۰۰ نمونه‌ی خاص از مسائل استدلالی آموزش دیده اما با این حال، مدل تونسته در برخی آزمایش‌ها عملکردی بهتر از مدل o1-preview داشته باشه.
  
وقتی مدل مجبور شد زمان بیشتری برای فکر کردن صرف کنه، تونست مسائل پیچیده‌تر ریاضی و علمی رو با دقت بیشتری حل کنه. این موضوع نشون میده که بسیاری از مدل‌های زبانی فعلی می‌تونن با همین سخت‌افزار و معماری، اما با روش‌های بهینه‌سازی مثل Test-Time Scaling، عملکرد بهتری داشته باشن.

https://arxiv.org/abs/2501.19393
👍203
Forwarded from Ai Events️ (حمید محمودآبادی)
ارائه‌ی دکتر مهدیه سلیمانی (استاد گروه هوش مصنوعی دانشگاه شریف) در مورد مقاله DeepSeek R1 و تفاوت رویکرد آن در استفاده از RL برای جستجو

مشاهده در یوتیوب


مشاهده در آپارات


@Ai_Events
👍14👏43
مدل‌های استدلالی (reasoning) چیست و چگونه ساخته می‌شوند؟

حتما این روزها بارها مدل‌های استدلالی مثل DeepSeek R1 به گوش و چشمتون خورده. اگر هنوز دقیق نمی‌دونید این مدلها معنیشون چیه و کجا به درد میخورند، بیاید که دواتون پیش آقای سباستین راشکا (نویسنده کتاب Build a Large Language Model From Scratch) هست. ایشون یه بلاگ مشتی راجع به مدل‌های استدلالی (همون reasoning) نوشته و مثل همیشه خیلی خوب داستان را شفاف کرده. این را داشته باشید تا منابع بعدی.

مواردی که در این بلاگ توضیح میده:
- تعریف مدل استدلالی چیه؟
- کجا باید از این مدل‌ها استفاده کنیم؟
- پایپلاین پشت R1 چیه؟
- چهار روش اصلی برای ساختن و بهبود مدلهای استدلالی چیه؟
- نکاتی پیرامون مدل R1
- نکاتی برای توسعه مدل‌های استدلالی با بودجه بسیار کم (حتی به اندازه دانشگاه‌های ایران کم ☺️)

اول میگه استدلال (reasoning) واسه وقتیه که سوالی را حل کنیم که نیاز به راه‌حل پیچیده و چندمرحله‌ای داره. مثلا پایتخت فرانسه کجاست اینجوری نیست ولی مثلا حل یه سوال فیزیک و ریاضی یا سوال acmای اینجوریه.

بعد میاد میگه سه جا خوب نیست اصلا از این مدل‌ها استفاده کنیم:
- وقتی ما نیاز به سرعت و قیمت پایین داریم
- وقتی سوال‌های دانشی (knowledge based) مثل همین پایتخت داریم چون این مدل‌ها دچار هذیان‌گویی میشن
- سوالات ساده چون این مدل‌ها مثل اکثر ما overthink میکنند

در ادامه میاد پایپلاین R1 را به شکل بسیار روان و ساده‌ای توضیح میده. عکس ضمیمه یک کلیتی از این پایپلاینه. میگه deepseek سه تا مدل داده: DeepSeek-R1-Zero، DeepSeek-R1 و DeepSeek-R1-Distill.
اول. با مدل DeepSeek-V3 که سپتامبر بیرون دادن، با یک RL cold start (بدون SFT) شبیه همون RLHF با دو تا reward (یکی دقت و دومی فرمت به جای ترجیح آدمیزاد) آموزش میده؛ و مدل DeepSeek-R1-Zero را درست میکنه. بعد از همین مدل میاد یه داده SFT بزرگ درست میکنه. ریوارد دقت میاد از leetcode استفاده میکنه که نتیجه کد را مستقیما اجرا کنه و بگه!! فرمت هم میاد از یه سری تگ استفاده میکنه که دقیقا با همون فرمت جواب بده.
دوم. بعد دوباره همون مدل زبانی اولیه سپتامبری DeepSeek-V3 را با همین دیتا SFT که در مرحله قبل ساخته شده بود یه بار فاین تیون میکنه و دوباره همون RL رو میزنه. این بار ولی بهش consistency هم اضافه میکنه که مدل سر چند زبانه بودن پنالتی نزنه. از همین مدل دو تا دیتاست SFT میسازه که یکیش با اندازه ۶۰۰ هزارتا chaing of thoughts داره و دیگری با اندازه ۲۰۰هزارتا knowldegeای هستش. بعد میاد یه RL دیگه هم میزنه که دیتاش کد و ریاضی هست. اینجا مدل DeepSeek R1 معروف ساخته میشه.
سوم. از اون دوتا دیتای SFT هم برای آموزش مدل‌های distill استفاده میکنه. البته اینجا distill مثل اون معروفه نیست، اینجا وقتی دیتای sft رو یه مدل قوی درست میکنه و مدل کوچیک (نیم الی ۷۰ میلیاردی) باهاش فاین تیون میشه، بهش میگن distillation.

خلاصه چهار تا روش برای تولید مدل استدلالی میگه:
- روش inference-time scaling: که از پرامپت و اینا استفاده میشه. منابع بیشتری لازمه. گرونتر هم درمیاد چون خیلی حرف میزنه.
- روش RL خالص مثل DeepSeek-R1-Zero
- روش SFT + RL مثل DeepSeek-R1
- روش SFT خالص با distillation: مثل DeepSeek-R1-Distill-Qwen
برای هر کدوم میزان کارایی رو توضیح میده و نهایتا میگه حالت سوم بهترین نتیجه رو میده ولی موارد دیگه هم چیزای جالبی بهمون یاد میده مثل اینکه RL خالی هم به استدلال مدل خیلی کمک میکنه.

در این بلاگ حدس‌های خوبی هم راجع به اینکه O1 و mini-O1 هم چطور آموزش داده شدند میگه که O1 ترکیب سوم و اولیه و o1-mini روش چهارم هست.

در نهایت هم میاد نظراتش رو راجع به R1 vs O1 میگه: در کل شبیه هم هستند ولی R1 بهینه‌تر و ارزانتره که دلیلش رو این میدونه که دیپ‌سیک بیشتر روی آموزش مدل وقت گذاشته ولی o1 روی inference-time رفته. و چون ما اندازه مدل o1 رو نمیدونیم خیلی مقایسه منصفانه‌ای نخواهیم داشت. درباره‌ی هزینه هم میگه این ۶ میلیون دلار که معروف شده ترکیب DeepSeek-R1 (همون سپتامبریه که پایه‌ی R1 هست) و R1 هستش ولی هزینه R1 رو دیپ‌سیک مشخص نکرده.

برای موضوع آخر هم میگه کسایی که پول کم هم دارند خوبه برن سراغ Distillation: به لطف مقاله مفصلی که برای R1 نوشتند مشخص شد که این روش هم خیلی موثره. مثلا میگه مقاله‌ای اومده یه مدل به نام Sky-T1 منتشر کرده که با ۴۵۰ دلار (۴۰ تومن) مدل ۳۲ میلیاردی را با ۱۷ هزارتا دیتای sft یه فاین تیون هدفمند کرده و در مواردی شبیه o1 عمل کرده!! موارد مهمی هم ادامش راجع به Journey Learning میگه که دیگه توی پست جا نمیشه :))

لینک پست:
https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html

#read
#blog

🙏Thanks to: @nlp_stuff
15👍7
This media is not supported in your browser
VIEW IN TELEGRAM
Pikadditions
 توسط Pika معرفی شده و امکان Video Inpainting رو فراهم می‌کنه!

این قابلیت به شما اجازه می‌ده تا اشیاء، حیوانات یا افراد رو به ویدیوهای موجود اضافه کنید. این ویژگی از هوش مصنوعی استفاده می‌کنه تا این عناصر رو به‌طور یکپارچه و طبیعی در فیلم یا ویدیوهای دنیای واقعی ادغام کنه

https://pikalabsai.org/pikadditions/
👌14👍5
این مقاله به یک مشکل اصلی در روش‌ های زنجیره افکار (CoT) که در مدل‌های زبانی و چند رسانه‌ای بزرگ استفاده میشه، می‌پردازه.

 مشکل اینه که این روش‌ها تنها به نمایش افکار به صورت متنی تکیه دارن، که در مسائل پیچیده‌ی استدلال فضایی کافی نیست. در این مقاله یه گروه از محققین Microsoft Research با الهام از فرآیند فکر کردن انسان که به طور طبیعی از ترکیب افکار کلامی و تصویری بهره می‌بره، یه روش جدید به نام MVoT (Multimodal Visualization-of-Though) رو پیشنهاد دادن.

این روش با ایجاد امکان تفکر همزمان بصری و کلامی، دقت استدلال مدل رو افزایش میده و همچنین با نشون دادن مراحل میانی استدلال تصویری، قابلیت توضیح‌ پذیری مدل رو بهبود می‌ بخشه. 

مفاهیمی که میشه تنها با کلمات به خوبی پردازش کرد، محدود هستن، اما مقاله هایی از این دست که استدلالی ترکیبی شامل افکار متنی (کلامی) و افکار تصویری (بومی) رو ایجاد میکنن، می‌تونن ما رو به AGI نزدیک و نزدیک تر کنن.

به قول معروف 

one picture is worth a 1000 words

https://arxiv.org/pdf/2501.07542
👌11👍1🤩1
هاگینگ فیس دوره ای تحت عنوان AI Agents برگزار می‌کنه.

این دوره به بررسی مفاهیم، طراحی، و پیاده‌سازی Agents هوش مصنوعی می‌ پردازه که شما با اصول اولیه، نحوه‌ی استفاده از کتابخانه‌های مطرح مانند smolagents، LangChain و LlamaIndex آشنا میشین، همچنین در طول دوره با پروژه‌های کاربردی رو به‌ رو میشین و در نهایت میتونید Agent شخصی ساز خودتون رو بسازید.

دوره به‌ طور رسمی با یک جلسه پرسش و پاسخ زنده (Live Q&A) آغاز میشه که روز چهارشنبه ۱۲ فوریه، ساعت ۵ بعد از ظهر به وقت CET برگزار میشه. در این جلسه نحوه‌ ی اجرای دوره، مباحث، واحدها، چالش‌ها و سایر موارد توضیح داده میشه.

پیش نیازها:

دانش ابتدایی زبان برنامه‌نویسی Python

آشنایی مقدماتی با LLms

داشتن یک حساب کاربری در Hugging Face (برای استفاده از مدل‌ها، Agents و ایجاد Spaces)

http://hf.co/learn/agents-course
❤‍🔥18👍7👌1
گروه پرسش و پاسخ مرتبط با کانال:
@tf2keras

گروه opencv مرتبط با کانال:
@opencv_py

کانال اطلاع رسانی دوره ها و تخفیف ها:
@class_vision
🙏2
این مقاله هم که دیروز منتشر شد یک معماری جدید معرفی می‌کنه که به کمک ایجاد استدلال در فضای نهان یا latent reasoning تونسته محاسبات لازم برای استدلال در زمان آزمون (test-time) رو به‌ طور پویا افزایش بده.

همونطور که مطلع هستین فضای نهان در مدل‌های عصبی، فضاییه که در اون اطلاعات ورودی به شکل ویژگی‌های عددی و چند بعدی نمایش داده میشن. در این مقاله، به جای نمایش مراحل استدلال به صورت زنجیره‌ای از کلمات (که ممکنه طولانی و پرهزینه باشه)، مدل به صورت داخلی و پنهانی چندین بار روی این نمایش عمل میکنه تا پاسخ نهایی رو بهبود ببخشه.

به عبارت دیگه، به جای تولید توکن‌ های بیشتر (مثل chain-of-thought) برای استدلال، این مدل از یه بلوک تکراری (recurrent block) استفاده میکنه که به صورت پنهانی (در فضای نهان) چندین بار اجرا میشه.

این رویکرد اجازه میده تا مدل به عمق محاسباتی دلخواه در زمان آزمون دست پیدا کنه بدون اینکه به داده‌های آموزشی تخصصی یا پنجره‌های متنی بزرگ نیاز داشته باشه.

نویسندگان ادعا میکنن که به جای تولید توکن‌ های بیشتر که هم می‌ تونه منجر به افزایش مصرف منابع بشه، این روش با استفاده از محاسبات پنهان، کارایی مدل رو بهبود میبخشه و با هزینه محاسباتی کمتر میتونه عملکردی معادل با مدل‌های بسیار بزرگتر (مثلاً تا 50 میلیارد پارامتر) به دست بیاره.

https://arxiv.org/abs/2502.05171

کد:
https://github.com/seal-rg/recurrent-pretraining
👍12🤔1
وقت زیادی نداریم و هوش مصنوعی داره با سرعتی جلو میره که اگه همراهش نشیم، ممکنه جا بمونیم. شاید تا یکی دو سال دیگه، یعنی ۲۰۲۶ یا ۲۰۲۷ (و حتماً قبل از ۲۰۳۰)، این تکنولوژی اون‌ قدر پیشرفته بشه که انگار یه کشور جدید با کلی آدم فوق‌العاده باهوش به دنیا اضافه شده، به عبارتی سرزمینی از نوابغ توی یه دیتاسنتر، که تأثیرات بزرگی روی اقتصاد، علم و امنیت دنیا میگذاره.

از یه طرف، فرصت‌ های فوق‌ العاده‌ای توی زمینه‌ های مختلف به وجود میاد که شاید هیچ تکنولوژی دیگه‌ ای در طول تاریخ بشر این‌ قدر تاثیر گذار نبوده. ولی از اون طرف، خطر ها و چالش‌ های جدی‌ هم هست که باید با دقت بهشون فکر کنیم و مدیریت‌ شون کنیم.

https://www.anthropic.com/news/paris-ai-summit
👍131👀1
Tensorflow(@CVision)
وقت زیادی نداریم و هوش مصنوعی داره با سرعتی جلو میره که اگه همراهش نشیم، ممکنه جا بمونیم. شاید تا یکی دو سال دیگه، یعنی ۲۰۲۶ یا ۲۰۲۷ (و حتماً قبل از ۲۰۳۰)، این تکنولوژی اون‌ قدر پیشرفته بشه که انگار یه کشور جدید با کلی آدم فوق‌العاده باهوش به دنیا اضافه شده،…
یه کم موضوع رو بازتر کنم.

شاید برای برخی هنوز سورپرایز کننده باشه که روزی الگوریتم ها توانایی فراتر از انسانها داشته باشن اما دیر یا زود مشکل حافظه بلند مدت در مدل های زبانی و حافظه تقریبا نامحدود حل خواهد شد و شرکت های بزرگ تولید کننده کارت گرافیک، تراشه هوش مصنوعی نسل بعدی ارزان قیمت که مخصوص عملیات محاسباتی مدل های زبانی هستند رو روانه بازار خواهند کرد.

گواه این موضوع هم مقالاتی هست که اخیرا منتشر شده از طرفی با سرعت رشد نمایی که شاهدیم در دو سال آینده شاهد انقلابی در این زمینه خواهیم بود.

به عنوان مثال معماری Titans که یک ماه پیش توسط علی بهروز Google Research، منتشر شد از یه مدل هوش مصنوعی جدید، رونمایی می‌کنه که یاد می‌گیره اطلاعات رو در یک حافظه بلند مدت اختصاصی، در زمان آزمایش test-time، ذخیره کنه.

این بدان معناست که مدل می‌تونه هر زمان که با موضوع غافلگیر کننده‌ای مواجه میشه، خودش رو تطبیق بده و حافظه‌ خودش رو به‌ صورت آنی به‌ روزرسانی کنه.

برخلاف ترانسفورمرهای استاندارد که فقط پنجره متن فعلی رو پردازش می‌کنن، این معماری یه رکورد عمیق‌ تر و دائمی‌تر، مشابه حافظه کوتاه‌مدت در مقابل حافظه بلندمدت در ما انسانها، نگه میداره.

این روش به صورت کارآمدتر نسبت به ترانسفورمرهای معمولی برای ورودی های بسیار طولانی مقیاس پذیره، یعنی، به طور نظری context window بی‌نهایت!

https://arxiv.org/abs/2501.00663

این فقط یه هوش مصنوعی نسل بعدی نیست، بلکه گامی به سوی خودآگاهی مصنوعی با حافظه پایداره!

اگه خودآگاهی رو به عنوان توانایی مدل‌سازی درونی (خودمدل‌سازی)، سازماندهی، یکپارچه‌سازی و بازیابی داده‌ها (با توجه به ورودی) تعریف کنیم، همونطور که توسط نظریه اطلاعات یکپارچه (IIT) مطرح شده!

https://www.nature.com/articles/nrn.2016.44
👌10👍64
Tensorflow(@CVision)
یه کم موضوع رو بازتر کنم. شاید برای برخی هنوز سورپرایز کننده باشه که روزی الگوریتم ها توانایی فراتر از انسانها داشته باشن اما دیر یا زود مشکل حافظه بلند مدت در مدل های زبانی و حافظه تقریبا نامحدود حل خواهد شد و شرکت های بزرگ تولید کننده کارت گرافیک، تراشه…
نمیخواهم بیش از حد فلسفیش کنم اما به نظر من هر چه سطح پیشرفت های علمی و تکنولوژی بالاتر میره، الزاما انسانها رو شادتر نمی‌بینی. در عصر کنونی، آدما مثل یه اسیر در قفسی نامرئی از الگوریتم‌ها و داده‌ها شدن، جایی که حقیقت و واقعیت به تدریج زیر بار سرمایه‌ داران فناوری و بازیگران سیاسی فرو می‌ ریزن.

مثلاً پیشنهاد 97 میلیارد دلاری دیروز ایلان ماسک برای تصاحب OpenAI قطعا به نقش بسیار پررنگ هوش مصنوعی در آینده نزدیک اشاره داره، و قدرتی که برای سرمایه داران به ارمغان میاره.

https://in.mashable.com/tech/89649/elon-is-not-a-happy-person-sam-altman-takes-a-dig-after-rejecting-musks-974-billion-offer-to-buy-ope

 همونطور که روزگاری سیاستمداران بزرگ با شعارهای بلند و وعده‌ ها، بعد واقعی جهان را تغییر می‌ دادن، امروز این نقش در دست چهره‌ های دیجیتاله که با ابزارهای نوین، تصویری فریبنده از جهان برای ما می‌ سازن.

در زمان‌هایی که مرز بین واقعیت و خیال به وضوح تعیین شده بود، جامعه به تفکری عمیق پیرامون حقیقت می‌پرداخت، اما حالا با ظهور قدرت‌های نامرئی در دنیای فناوری، چیزی که به چشم میاد و آنچه در دل نهفته ست، هم‌ آمیخته و درهم تنیده شدن. قدرت‌ هایی که با هوش مصنوعی و الگوریتم‌های پیشرفته، موجی از اطلاعات دستکاری‌ شده رو به ما عرضه میکنن و ما رو در مسیری قرار میدن که انگار تنها تصویر نمایشی از واقعیته.

https://www.theatlantic.com/ideas/archive/2025/02/trump-administration-voter-perception/681598/?utm_source=reddit&utm_medium=social&utm_campaign=the-atlantic&utm_content=edit-promo
👍163
اجرای مدل‌ های بزرگی مثل DeepSeek-R1 با ۶۷۱ میلیارد پارامتر بر روی سخت‌افزارهای معمولی تقریبا غیر ممکنه. 

برای اجرای چنین مدل‌ هایی معمولا از نسخه‌های فشرده‌ شده استفاده میشه که به دلیل کاهش بیش از ۹۰ درصدی پارامترها، نمی‌تونیم به عملکرد واقعی مدل‌ های اصلی دست پیدا کنیم. 

اما با رویکرد جدید، تیم KVCache.AI
 اجرای این مدل زبانی بزرگ روی کارت گرافیک‌ هایی با حافظه ۲۴ گیگابایت مثل 4090 امکان‌ پذیر شده.

این تیم با بهره گیری از محاسبات ناهمگن یا heterogeneous computing (تقسیم کار بین GPU و CPU)، به جای اینکه همه‌ پردازش‌ روی کارت گرافیک انجام شه، بخش‌ هایی از محاسبات رو روی CPU انجام میده.

براساس توضیحات درج شده در گزارش بخش‌ هایی از مدل که کمتر استفاده میشن (یعنی بخش‌های پراکنده MoE) روی حافظه رم (DRAM) و CPU قرار میگیرن و با استفاده از ابزار llamafile پردازش میشن.  

بخش‌های اصلی و پرکاربرد مدل روی کارت گرافیک (GPU) قرار میگیرن و با Marlin(فریم ورک بهینه‌ شده Nvidia برای پردازش‌ های هوش مصنوعی روی GPU) پردازش میشن.

به لطف این روش و استفاده از کوانتیزاسیون ۴ بیتی، مقدار حافظه‌ لازم برای اجرای مدل روی GPU فقط ۲۴ گیگابایته. یعنی این مدل حتی روی یک کارت گرافیک RTX 4090 هم به راحتی اجراست.

https://github.com/kvcache-ai/ktransformers/blob/main/doc/en/DeepseekR1_V3_tutorial.md
👍275
This media is not supported in your browser
VIEW IN TELEGRAM
مایکروسافت OmniParser V2 رو به صورت متن باز منتشر کرد که به عنوان یک Agent ویندوز و مرورگر رو برای انجام وظایف داده شده از طریق دستورات کنترل می‌کنه.

این ابزار می‌تونه برای خودکار کردن وظایف مختلف در ویندوز و مرورگر استفاده شه. برای مثال، میتونید از اون برای باز کردن یک وب‌ سایت خاص، پر کردن فرم‌ ها، یا دانلود فایل‌ها از طریق پرامپت استفاده کنید

https://github.com/microsoft/OmniParser/tree/master/omnitool
👍133
این تحقیق فوق‌العاده از متا، که دست به همکاری با مرکز باسکی شناخت، مغز و زبان زده، قدم بزرگی توی راه ارتباط مستقیم بین مغز و نوشتار برداشته.


ماجرا از این قراره که ۳۵ نفر داوطلب توی مرکز BCBL شرکت کردن. وقتی این افراد داشتند جملات رو تایپ می‌کردن، فعالیت‌های مغزشون با استفاده از دستگاه‌های MEG و EEG ضبط میشد.

پژوهشگران با استفاده از هوش مصنوعی تلاش کردن تا از این سیگنال‌های مغزی، جملات رو دوباره بسازن؛ به طرز حیرت‌آوری تونستن تا ۸۰ درصد از حروف رو درست تشخیص بدن، یعنی عملکردش دو برابر سیستم‌های EEG معمولی بوده!

این دستاورد، ادامه‌ کارهای قبلی متا توی کشف راز ادراک تصاویر و صدا از مغزه و حالا دیگه به مرحله تولید جملات رسیده. موفقیت این پروژه در های تازه‌ای رو برای واسط‌ های مغز و کامپیوتر باز کرده.

https://gigazine.net/gsc_news/en/20250210-ai-decode-language-from-brain/
👍245
مدل متن باز بعدی
o3-mini?🔥

مدل استدلالی که می‌تونه به عنوان نیروی محرکه برای بهبود مداوم در مدل‌های باز استفاده شه، و احتمالاً در صورت نیاز تا اندازه تلفن نیز کوچک شه یا یه مدل مخصوص edge device که شش ماه دیگه منسوخ میشه و برای هیچ چیز دیگه ای مفید نخواهد بود؟
👌10👍2
هم اکنون لایو استریم انتشار Grok 3

بنچ مارک ها

https://www.youtube.com/live/pHe-IUWrJXs?si=nNyrbHjBg5I6p_bM
👍111
مقاله جدید از Deepseek

مدل معرفی شده در این مقاله یه تحول مهم در طراحی مکانیزم Attention داره. به طور خلاصه، محققان تیم Deepseek یه مکانیزم جدید به نام NSA (Native Sparse Attention) معرفی کردن.

استراتژی سلسله‌ مراتبی معرفی شده محاسبات رو بطور قابل توجهی سریع‌ تر انجام میده، مثلاً در پردازش توالی‌های 64 هزار توکنی، سرعت تا 11.6 برابر افزایش پیدا میکنه.

از نظر اندازه، این مدل از یک ساختار ترانسفورمر 27 میلیارد پارامتری استفاده میکنه که به کمک معماری Mixture-of-Experts (MoE) تنها حدود 3 میلیارد پارامتر به صورت فعال در هر محاسبه شرکت می‌کنن.

https://arxiv.org/abs/2502.11089
👍15🔥1011