Tensorflow(@CVision)
اوپن ای آی deep research را معرفی کرد. این حالت به کاربران این امکان رو میده تا "تحقیقات چند مرحلهای در اینترنت برای وظایف پیچیده" انجام بدن. این گامی دیگر به سوی تحقق وعده صنعت هوش مصنوعی ست که AI Agents به زودی قادر به انجام وظایف انسانی به طور قابل…
۲۴ ساعت بعد، نسخه متن باز Deep Research توسط hugging face منتشر شد.
DeepResearch
از دو بخش اصلی تشکیل شده است:
یک مدل زبانی بزرگ: این مدل میتونه از لیست مدلهای زبانی بزرگی که توسط OpenAI ارائه میشه (مثل 4o، o1، o3 و غیره) انتخاب شه. به عبارتی، هسته اصلی DeepResearch یک LLM هست که وظیفهی پردازش زبان طبیعی و تولید متن رو بر عهده داره.
دوم "Agentic Framework" : این فریمورک، مدل زبانی رو در استفاده از ابزارهایی مانند جستجوی وب و سازماندهی اقدامات خودش به صورت گام به گام راهنمایی میکنه. این بخش، DeepResearch رو قادر میسازه تا به طور هوشمندانه تر و مؤثرتر عمل کنه. به جای اینکه فقط به مدل زبانی برای تولید متن تکیه کنه، این فریم ورک بهش کمک میکنه تا با دنیای خارج تعامل داشته باشه (از طریق جستجوی وب) و وظایف پیچیده رو به مراحل کوچکتر و قابل مدیریت تقسیم کنه
نکته قابل توجه عملکرد نسخه متن باز با کسب امتیاز 54% در مجموعه داده مشابه، در مقایسه با امتیاز 67% مدل اصلی توسط OpenAI هست.
https://huggingface.co/blog/open-deep-research
DeepResearch
از دو بخش اصلی تشکیل شده است:
یک مدل زبانی بزرگ: این مدل میتونه از لیست مدلهای زبانی بزرگی که توسط OpenAI ارائه میشه (مثل 4o، o1، o3 و غیره) انتخاب شه. به عبارتی، هسته اصلی DeepResearch یک LLM هست که وظیفهی پردازش زبان طبیعی و تولید متن رو بر عهده داره.
دوم "Agentic Framework" : این فریمورک، مدل زبانی رو در استفاده از ابزارهایی مانند جستجوی وب و سازماندهی اقدامات خودش به صورت گام به گام راهنمایی میکنه. این بخش، DeepResearch رو قادر میسازه تا به طور هوشمندانه تر و مؤثرتر عمل کنه. به جای اینکه فقط به مدل زبانی برای تولید متن تکیه کنه، این فریم ورک بهش کمک میکنه تا با دنیای خارج تعامل داشته باشه (از طریق جستجوی وب) و وظایف پیچیده رو به مراحل کوچکتر و قابل مدیریت تقسیم کنه
نکته قابل توجه عملکرد نسخه متن باز با کسب امتیاز 54% در مجموعه داده مشابه، در مقایسه با امتیاز 67% مدل اصلی توسط OpenAI هست.
https://huggingface.co/blog/open-deep-research
huggingface.co
Open-source DeepResearch – Freeing our search agents
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
👍16❤5
دیپ سیک یک مدل ۱۶ میلیارد پارامتری MOE با نام DeepSeek-VL2 Small برای وظایف مختلف تولید متن منتشر کرد.
دموی مدل در huggingface :
https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small
دموی مدل در huggingface :
https://huggingface.co/spaces/deepseek-ai/deepseek-vl2-small
huggingface.co
Chat with DeepSeek-VL2-small - a Hugging Face Space by deepseek-ai
This app lets you type a question or instruction and upload one or more pictures. The AI reads the text and visual content, then replies with answers, descriptions, or guidance—such as identifying ...
🔥8👍3
This media is not supported in your browser
VIEW IN TELEGRAM
مدل ترجمه همزمان گفتار به گفتار Hibiki، صحبتهای شما رو از فرانسه به انگلیسی به صورت زنده ترجمه میکنه.
این مدل نه تنها متن ترجمه شده رو نشون میده، بلکه اون رو با صدای خودتون و با همان سرعت و لحن بیان میکنه.
Hibiki
در مقایسه با سیستم های مشابه قبلی، ترجمه های دقیق تر، طبیعی تر و با صدای شبیه تر به صدای شما ارائه میده و تقریبا به خوبی یک مترجم انسانی عمل میکنه.
مقاله :
https://arxiv.org/abs/2502.03382
کد:
https://github.com/kyutai-labs/hibiki
این مدل نه تنها متن ترجمه شده رو نشون میده، بلکه اون رو با صدای خودتون و با همان سرعت و لحن بیان میکنه.
Hibiki
در مقایسه با سیستم های مشابه قبلی، ترجمه های دقیق تر، طبیعی تر و با صدای شبیه تر به صدای شما ارائه میده و تقریبا به خوبی یک مترجم انسانی عمل میکنه.
مقاله :
https://arxiv.org/abs/2502.03382
کد:
https://github.com/kyutai-labs/hibiki
👍11
Tensorflow(@CVision)
مشکل اصلی روشهایی قبلی اینه که برای کم کردن حجم کش KV، مجبوریم کیفیت مدل رو پایین بیاریم، یعنی یه جورایی معامله میکنیم: حافظه کمتر، کیفیت کمتر در عوض مدل بزرگتر! اما DeepSeek مدلی رو پیشنهاد میده که حجم کش KV رو کم کنه بدون اینکه کیفیت مدل کم شه. به عبارت…
بحث قبلی رو امشب ادامه بدیم.
دیشب لکس فریدمن یه گفتگو در مورد روش آموزش Deepseek داشت و نکات جالبی رد بدل شد که به صورت خلاصه بخش های مهمش رو مینویسم، علاقه مند بودید میتونید این گفتگو رو توی لینک زیر دنبال کنید.
موضوع بحث بیشتر در مورد این بود که چطور این شرکت تونسته با وجود محدودیت در منابع سختافزاری، مدلهای زبانی بزرگ و قدرتمندی رو آموزش بده.
خوب تیم DeepSeek برای این کار، از چند تا ترفند و نوآوری جالب استفاده کردن.
این تیم با استفاده از ترکیبی از نوآوریها مثل MoE با پراکندگی بالا و Auxiliary Loss و بهینه سازیهای سطح پایین مثل کتابخانه NCCL اختصاصی و دستورالعملهایPTX، نشون دادن که حتی با منابع محدود هم میشه مدلهای زبانی بزرگ و قدرتمندی رو آموزش داد.
این موضوع نشون میده که همیشه لازم نیست بهترین و گرون ترین سخت افزار رو داشته باشیم، بلکه با خلاقیت میشه کارهای بزرگی انجام داد.
https://www.youtube.com/watch?v=aAfanTeRn84
ادامه دارد...
دیشب لکس فریدمن یه گفتگو در مورد روش آموزش Deepseek داشت و نکات جالبی رد بدل شد که به صورت خلاصه بخش های مهمش رو مینویسم، علاقه مند بودید میتونید این گفتگو رو توی لینک زیر دنبال کنید.
موضوع بحث بیشتر در مورد این بود که چطور این شرکت تونسته با وجود محدودیت در منابع سختافزاری، مدلهای زبانی بزرگ و قدرتمندی رو آموزش بده.
خوب تیم DeepSeek برای این کار، از چند تا ترفند و نوآوری جالب استفاده کردن.
این تیم با استفاده از ترکیبی از نوآوریها مثل MoE با پراکندگی بالا و Auxiliary Loss و بهینه سازیهای سطح پایین مثل کتابخانه NCCL اختصاصی و دستورالعملهایPTX، نشون دادن که حتی با منابع محدود هم میشه مدلهای زبانی بزرگ و قدرتمندی رو آموزش داد.
این موضوع نشون میده که همیشه لازم نیست بهترین و گرون ترین سخت افزار رو داشته باشیم، بلکه با خلاقیت میشه کارهای بزرگی انجام داد.
https://www.youtube.com/watch?v=aAfanTeRn84
ادامه دارد...
YouTube
DeepSeek's GPU optimization tricks | Lex Fridman Podcast
Lex Fridman Podcast full episode: https://www.youtube.com/watch?v=_1f-o0nqpEI
Thank you for listening ❤ Check out our sponsors: https://lexfridman.com/sponsors/cv8472-sb
See below for guest bio, links, and to give feedback, submit questions, contact Lex,…
Thank you for listening ❤ Check out our sponsors: https://lexfridman.com/sponsors/cv8472-sb
See below for guest bio, links, and to give feedback, submit questions, contact Lex,…
👍7
Tensorflow(@CVision)
بحث قبلی رو امشب ادامه بدیم. دیشب لکس فریدمن یه گفتگو در مورد روش آموزش Deepseek داشت و نکات جالبی رد بدل شد که به صورت خلاصه بخش های مهمش رو مینویسم، علاقه مند بودید میتونید این گفتگو رو توی لینک زیر دنبال کنید. موضوع بحث بیشتر در مورد این بود که چطور این…
اول معماری Mixture of Experts (MoE) با پراکندگی (Sparsity) بالا:
یادآوری MoE: مثل اینه که یک تیم بزرگ از خبرگان داشته باشیم. هر کدوم از این خبرگان در یک زمینه خاص مهارت دارن.
وقتی یک سوال یا وظیفه جدید به این تیم داده می شه، فقط چند تا از متخصص هایی که بیشترین ارتباط رو با اون سوال دارن، فعال می شن و بقیه در حالت استراحت باقی می مونن.
این کار باعث می شه که بتونیم مدل های خیلی بزرگ و پیچیدهای رو بسازیم، بدون اینکه نیاز باشه همه ی بخشهای مدل همیشه فعال باشن.
بلاگ زیر به صورت فنی-بصری ترکیب خبرگان در مدل های زبانی رو به تفضیل و به بهترین شکل ممکن توضیح میده:
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts
حالا سوال اینجاست که نوآوری DeepSeek کجاست و چیکار کرده، چون گوگل چند سال پیش در حال توسعه مجموعه ای از مدل ها بود، که با Switch Transformer در سال ۲۰۲۱ شروع شد.
در واقع تیم DeepSeek اومدن تعداد خبرگان رو خیلی زیاد کردن (۲۵۶ تا)، اما در عین حال، تعداد خبرگانی که برای هر وظیفه فعال می شن رو خیلی کم نگه داشتن (فقط ۸ تا).
به این میگن "پراکندگی بالا High Sparsity" یعنی از بین اون همه متخصص، فقط تعداد خیلی کمی فعال میشن.
این خیلی با مدل های دیگه فرق داره، در مدلهای دیگه، معمولاً از بین ۸ تا متخصص، ۲ تاشون فعال میشن اگه اشتباه نکنم توی مدل متن باز mixtral 8x7b این کار انجام شد اماDeepSeek اومده این نسبت رو خیلی تغییر داده.
اما چرا این کار رو کردن؟ خوب این کار چند تا فایده داره:
✅ اول این کار باعث افزایش ظرفیت مدل میشه. با داشتن تعداد خیلی زیاد متخصص، مدل میتونه اطلاعات و دانش خیلی بیشتری رو در خودش ذخیره کنه.
✅ مزیت دوم کاهش محاسبات هست، چون فقط تعداد کمی از خبرگان فعال میشن، حجم محاسباتی که برای هر وظیفه انجام میشه، خیلی کمتره. این به DeepSeek کمک میکنه که بتونه با سخت افزار محدودتر، مدل های بزرگتری رو آموزش بده.
ادامه دارد...
یادآوری MoE: مثل اینه که یک تیم بزرگ از خبرگان داشته باشیم. هر کدوم از این خبرگان در یک زمینه خاص مهارت دارن.
وقتی یک سوال یا وظیفه جدید به این تیم داده می شه، فقط چند تا از متخصص هایی که بیشترین ارتباط رو با اون سوال دارن، فعال می شن و بقیه در حالت استراحت باقی می مونن.
این کار باعث می شه که بتونیم مدل های خیلی بزرگ و پیچیدهای رو بسازیم، بدون اینکه نیاز باشه همه ی بخشهای مدل همیشه فعال باشن.
بلاگ زیر به صورت فنی-بصری ترکیب خبرگان در مدل های زبانی رو به تفضیل و به بهترین شکل ممکن توضیح میده:
https://newsletter.maartengrootendorst.com/p/a-visual-guide-to-mixture-of-experts
حالا سوال اینجاست که نوآوری DeepSeek کجاست و چیکار کرده، چون گوگل چند سال پیش در حال توسعه مجموعه ای از مدل ها بود، که با Switch Transformer در سال ۲۰۲۱ شروع شد.
در واقع تیم DeepSeek اومدن تعداد خبرگان رو خیلی زیاد کردن (۲۵۶ تا)، اما در عین حال، تعداد خبرگانی که برای هر وظیفه فعال می شن رو خیلی کم نگه داشتن (فقط ۸ تا).
به این میگن "پراکندگی بالا High Sparsity" یعنی از بین اون همه متخصص، فقط تعداد خیلی کمی فعال میشن.
این خیلی با مدل های دیگه فرق داره، در مدلهای دیگه، معمولاً از بین ۸ تا متخصص، ۲ تاشون فعال میشن اگه اشتباه نکنم توی مدل متن باز mixtral 8x7b این کار انجام شد اماDeepSeek اومده این نسبت رو خیلی تغییر داده.
اما چرا این کار رو کردن؟ خوب این کار چند تا فایده داره:
✅ اول این کار باعث افزایش ظرفیت مدل میشه. با داشتن تعداد خیلی زیاد متخصص، مدل میتونه اطلاعات و دانش خیلی بیشتری رو در خودش ذخیره کنه.
✅ مزیت دوم کاهش محاسبات هست، چون فقط تعداد کمی از خبرگان فعال میشن، حجم محاسباتی که برای هر وظیفه انجام میشه، خیلی کمتره. این به DeepSeek کمک میکنه که بتونه با سخت افزار محدودتر، مدل های بزرگتری رو آموزش بده.
ادامه دارد...
Maartengrootendorst
A Visual Guide to Mixture of Experts (MoE)
Demystifying the role of MoE in Large Language Models
👍12
Tensorflow(@CVision)
اول معماری Mixture of Experts (MoE) با پراکندگی (Sparsity) بالا: یادآوری MoE: مثل اینه که یک تیم بزرگ از خبرگان داشته باشیم. هر کدوم از این خبرگان در یک زمینه خاص مهارت دارن. وقتی یک سوال یا وظیفه جدید به این تیم داده می شه، فقط چند تا از متخصص هایی که…
بخش دوم به چالش پراکندگی بالا و راهحلAuxiliary Loss اختصاص داره:
مشکل پراکندگی بالا: خب، هر چیزی یک خوبی هایی داره و یک بدی هایی. خوبی پراکندگی بالا رو گفتیم. اما مشکلش چیه؟ مشکل اینه که وقتی فقط تعداد کمی از خبرگان برای هر وظیفه فعال می شن، ممکنه بعضی از خبرگان اصلا فرصت یادگیری پیدا نکنن.
یعنی همیشه در حالت استراحت بمونن و هیچ وقت فعال نشن. این باعث میشه که توانایی مدل به صورت چشمگیری کاهش پیدا کنه، چون ازهمه ظرفیتش استفاده نمی شه.
راه حل معرفی Auxiliary Loss هست:
جریمه برای چی؟ این جریمه برای اینه که اگه بعضی از خبرگان برای مدت طولانی فعال نشن، مدل جریمه می شه. این جریمه باعث می شه که مدل مجبور شه همه ی خبرگان رو در طول آموزش فعال کنه و از همه شون استفاده کنه.نتیجه این کار باعث میشه که همه ی خبرگان به خوبی آموزش ببینن و مدل قوی تر بشه.(در قالب پارامتر گاما)
و بخش سوم به بهینه سازیهای سطح پایین اختصاص داره:
DeepSeek
فقط به MoE و Auxiliary Loss اکتفا نکرده. اونها رفتن سراغ بهینه سازی های خیلی سطح پایین تر!
✅اول استفاده از کتابخانه ارتباطی NCCL اختصاصی هست.
اول اومدن نسخه اختصاصی خودشون از کتابخانه ارتباطی NCCL انویدیا رو پیادهسازی کردن.این کتابخانه مسئول ارتباط بین GPUهاست. وقتی GPUها بخوان با هم اطلاعات رد و بدل کنن، از این کتابخانه استفاده میکنن DeepSeek با ساختن نسخه اختصاصی خودش، تونسته این ارتباط رو خیلی بهینه تر کنه.
✅دوم استفاده از دستورالعملهای PTX:
این تیم از دستورالعملهای PTX (Parallel Thread Execution) که یک زبان میانی بین کد CUDA و سختافزار GPU هست، برای مدیریت نحوه زمانبندی SMها (Streaming Multiprocessors) در GPU استفاده کردن. این کار به اونها اجازه داد تا کنترل دقیقتری بر روی نحوه اجرای محاسبات در GPU داشته باشند و عملکرد رو بهبود ببخشن.
این بهینهسازیهای سطح پایین باعث شدن که مدلهای DeepSeek بتونن با سختافزار محدودشون، عملکرد خیلی بالایی داشته باشن. یعنی با اینکه GPUهای کمتری نسبت به رقبای خودشون داشتن، تونستن نتایج خیلی خوبی بگیرن.
مشکل پراکندگی بالا: خب، هر چیزی یک خوبی هایی داره و یک بدی هایی. خوبی پراکندگی بالا رو گفتیم. اما مشکلش چیه؟ مشکل اینه که وقتی فقط تعداد کمی از خبرگان برای هر وظیفه فعال می شن، ممکنه بعضی از خبرگان اصلا فرصت یادگیری پیدا نکنن.
یعنی همیشه در حالت استراحت بمونن و هیچ وقت فعال نشن. این باعث میشه که توانایی مدل به صورت چشمگیری کاهش پیدا کنه، چون ازهمه ظرفیتش استفاده نمی شه.
راه حل معرفی Auxiliary Loss هست:
جریمه برای چی؟ این جریمه برای اینه که اگه بعضی از خبرگان برای مدت طولانی فعال نشن، مدل جریمه می شه. این جریمه باعث می شه که مدل مجبور شه همه ی خبرگان رو در طول آموزش فعال کنه و از همه شون استفاده کنه.نتیجه این کار باعث میشه که همه ی خبرگان به خوبی آموزش ببینن و مدل قوی تر بشه.(در قالب پارامتر گاما)
و بخش سوم به بهینه سازیهای سطح پایین اختصاص داره:
DeepSeek
فقط به MoE و Auxiliary Loss اکتفا نکرده. اونها رفتن سراغ بهینه سازی های خیلی سطح پایین تر!
✅اول استفاده از کتابخانه ارتباطی NCCL اختصاصی هست.
اول اومدن نسخه اختصاصی خودشون از کتابخانه ارتباطی NCCL انویدیا رو پیادهسازی کردن.این کتابخانه مسئول ارتباط بین GPUهاست. وقتی GPUها بخوان با هم اطلاعات رد و بدل کنن، از این کتابخانه استفاده میکنن DeepSeek با ساختن نسخه اختصاصی خودش، تونسته این ارتباط رو خیلی بهینه تر کنه.
✅دوم استفاده از دستورالعملهای PTX:
این تیم از دستورالعملهای PTX (Parallel Thread Execution) که یک زبان میانی بین کد CUDA و سختافزار GPU هست، برای مدیریت نحوه زمانبندی SMها (Streaming Multiprocessors) در GPU استفاده کردن. این کار به اونها اجازه داد تا کنترل دقیقتری بر روی نحوه اجرای محاسبات در GPU داشته باشند و عملکرد رو بهبود ببخشن.
این بهینهسازیهای سطح پایین باعث شدن که مدلهای DeepSeek بتونن با سختافزار محدودشون، عملکرد خیلی بالایی داشته باشن. یعنی با اینکه GPUهای کمتری نسبت به رقبای خودشون داشتن، تونستن نتایج خیلی خوبی بگیرن.
👏8👍3
این مقاله که توسط محققین استفورد با بودجه ۶ دلار آموزش داده شده یک روش ساده Test-Time Scaling رو معرفی میکنه که به مدلهای زبانی کمک میکنه هنگام آزمایش (Test) استدلال بهتری داشته باشن. محققان یک تکنیک ساده برای این کار معرفی کردن که Budget Forcing نام داره. این تکنیک در واقع مشخص میکنه مدل قبل از ارائه پاسخ، چقدر محاسبات انجام بده.
شاید اولین بار مدل o1 بود که نشون داد که میشه بدون تغییر مدل، فقط با افزایش میزان محاسبات در زمان آزمایش (Test)، دقت و توانایی استدلال مدل رو بالا برد اما خوب جزییات زیادی از روش آموزش این مدل منتشر نشد.
در حالت عادی، یک مدل ممکنه خیلی زود تصمیم بگیره که پاسخ نهایی رو ارائه بده، حتی اگر بتونه با تفکر بیشتر، پاسخ بهتری پیدا کنه. برای حل این مشکل، توی این مقاله از تکنیک بسیار ساده ای به نام Budget Forcing استفاده میشه که مدل رو مجبور میکنه بیشتر فکر کنه. در این روش، اگر مدل خیلی زود تصمیم به توقف بگیره، بهجای توقف، بهطور خودکار یک کلمه ی "Wait" به خروجی خود اضافه میکنه. این کار باعث میشه مدل فرایند استدلال خودش رو ادامه بده و در نتیجه دقت پاسخها افزایش پیدا کنه.
برخلاف مدلهای رایج که روی مجموعه دادههای بسیار بزرگ آموزش می بینن، محققان در این پژوهش از یک مدل با ۳۲ میلیارد پارامتر استفاده کردن که فقط با ۱۰۰۰ نمونهی خاص از مسائل استدلالی آموزش دیده اما با این حال، مدل تونسته در برخی آزمایشها عملکردی بهتر از مدل o1-preview داشته باشه.
وقتی مدل مجبور شد زمان بیشتری برای فکر کردن صرف کنه، تونست مسائل پیچیدهتر ریاضی و علمی رو با دقت بیشتری حل کنه. این موضوع نشون میده که بسیاری از مدلهای زبانی فعلی میتونن با همین سختافزار و معماری، اما با روشهای بهینهسازی مثل Test-Time Scaling، عملکرد بهتری داشته باشن.
https://arxiv.org/abs/2501.19393
شاید اولین بار مدل o1 بود که نشون داد که میشه بدون تغییر مدل، فقط با افزایش میزان محاسبات در زمان آزمایش (Test)، دقت و توانایی استدلال مدل رو بالا برد اما خوب جزییات زیادی از روش آموزش این مدل منتشر نشد.
در حالت عادی، یک مدل ممکنه خیلی زود تصمیم بگیره که پاسخ نهایی رو ارائه بده، حتی اگر بتونه با تفکر بیشتر، پاسخ بهتری پیدا کنه. برای حل این مشکل، توی این مقاله از تکنیک بسیار ساده ای به نام Budget Forcing استفاده میشه که مدل رو مجبور میکنه بیشتر فکر کنه. در این روش، اگر مدل خیلی زود تصمیم به توقف بگیره، بهجای توقف، بهطور خودکار یک کلمه ی "Wait" به خروجی خود اضافه میکنه. این کار باعث میشه مدل فرایند استدلال خودش رو ادامه بده و در نتیجه دقت پاسخها افزایش پیدا کنه.
برخلاف مدلهای رایج که روی مجموعه دادههای بسیار بزرگ آموزش می بینن، محققان در این پژوهش از یک مدل با ۳۲ میلیارد پارامتر استفاده کردن که فقط با ۱۰۰۰ نمونهی خاص از مسائل استدلالی آموزش دیده اما با این حال، مدل تونسته در برخی آزمایشها عملکردی بهتر از مدل o1-preview داشته باشه.
وقتی مدل مجبور شد زمان بیشتری برای فکر کردن صرف کنه، تونست مسائل پیچیدهتر ریاضی و علمی رو با دقت بیشتری حل کنه. این موضوع نشون میده که بسیاری از مدلهای زبانی فعلی میتونن با همین سختافزار و معماری، اما با روشهای بهینهسازی مثل Test-Time Scaling، عملکرد بهتری داشته باشن.
https://arxiv.org/abs/2501.19393
arXiv.org
s1: Simple test-time scaling
Test-time scaling is a promising new approach to language modeling that uses extra test-time compute to improve performance. Recently, OpenAI's o1 model showed this capability but did not publicly...
👍20❤3
Forwarded from Ai Events️ (حمید محمودآبادی)
ارائهی دکتر مهدیه سلیمانی (استاد گروه هوش مصنوعی دانشگاه شریف) در مورد مقاله DeepSeek R1 و تفاوت رویکرد آن در استفاده از RL برای جستجو
مشاهده در یوتیوب
مشاهده در آپارات
@Ai_Events
مشاهده در یوتیوب
مشاهده در آپارات
@Ai_Events
👍14👏4❤3
مدلهای استدلالی (reasoning) چیست و چگونه ساخته میشوند؟
حتما این روزها بارها مدلهای استدلالی مثل DeepSeek R1 به گوش و چشمتون خورده. اگر هنوز دقیق نمیدونید این مدلها معنیشون چیه و کجا به درد میخورند، بیاید که دواتون پیش آقای سباستین راشکا (نویسنده کتاب Build a Large Language Model From Scratch) هست. ایشون یه بلاگ مشتی راجع به مدلهای استدلالی (همون reasoning) نوشته و مثل همیشه خیلی خوب داستان را شفاف کرده. این را داشته باشید تا منابع بعدی.
مواردی که در این بلاگ توضیح میده:
- تعریف مدل استدلالی چیه؟
- کجا باید از این مدلها استفاده کنیم؟
- پایپلاین پشت R1 چیه؟
- چهار روش اصلی برای ساختن و بهبود مدلهای استدلالی چیه؟
- نکاتی پیرامون مدل R1
- نکاتی برای توسعه مدلهای استدلالی با بودجه بسیار کم (حتی به اندازه دانشگاههای ایران کم ☺️)
اول میگه استدلال (reasoning) واسه وقتیه که سوالی را حل کنیم که نیاز به راهحل پیچیده و چندمرحلهای داره. مثلا پایتخت فرانسه کجاست اینجوری نیست ولی مثلا حل یه سوال فیزیک و ریاضی یا سوال acmای اینجوریه.
بعد میاد میگه سه جا خوب نیست اصلا از این مدلها استفاده کنیم:
- وقتی ما نیاز به سرعت و قیمت پایین داریم
- وقتی سوالهای دانشی (knowledge based) مثل همین پایتخت داریم چون این مدلها دچار هذیانگویی میشن
- سوالات ساده چون این مدلها مثل اکثر ما overthink میکنند
در ادامه میاد پایپلاین R1 را به شکل بسیار روان و سادهای توضیح میده. عکس ضمیمه یک کلیتی از این پایپلاینه. میگه deepseek سه تا مدل داده: DeepSeek-R1-Zero، DeepSeek-R1 و DeepSeek-R1-Distill.
اول. با مدل DeepSeek-V3 که سپتامبر بیرون دادن، با یک RL cold start (بدون SFT) شبیه همون RLHF با دو تا reward (یکی دقت و دومی فرمت به جای ترجیح آدمیزاد) آموزش میده؛ و مدل DeepSeek-R1-Zero را درست میکنه. بعد از همین مدل میاد یه داده SFT بزرگ درست میکنه. ریوارد دقت میاد از leetcode استفاده میکنه که نتیجه کد را مستقیما اجرا کنه و بگه!! فرمت هم میاد از یه سری تگ استفاده میکنه که دقیقا با همون فرمت جواب بده.
دوم. بعد دوباره همون مدل زبانی اولیه سپتامبری DeepSeek-V3 را با همین دیتا SFT که در مرحله قبل ساخته شده بود یه بار فاین تیون میکنه و دوباره همون RL رو میزنه. این بار ولی بهش consistency هم اضافه میکنه که مدل سر چند زبانه بودن پنالتی نزنه. از همین مدل دو تا دیتاست SFT میسازه که یکیش با اندازه ۶۰۰ هزارتا chaing of thoughts داره و دیگری با اندازه ۲۰۰هزارتا knowldegeای هستش. بعد میاد یه RL دیگه هم میزنه که دیتاش کد و ریاضی هست. اینجا مدل DeepSeek R1 معروف ساخته میشه.
سوم. از اون دوتا دیتای SFT هم برای آموزش مدلهای distill استفاده میکنه. البته اینجا distill مثل اون معروفه نیست، اینجا وقتی دیتای sft رو یه مدل قوی درست میکنه و مدل کوچیک (نیم الی ۷۰ میلیاردی) باهاش فاین تیون میشه، بهش میگن distillation.
خلاصه چهار تا روش برای تولید مدل استدلالی میگه:
- روش inference-time scaling: که از پرامپت و اینا استفاده میشه. منابع بیشتری لازمه. گرونتر هم درمیاد چون خیلی حرف میزنه.
- روش RL خالص مثل DeepSeek-R1-Zero
- روش SFT + RL مثل DeepSeek-R1
- روش SFT خالص با distillation: مثل DeepSeek-R1-Distill-Qwen
برای هر کدوم میزان کارایی رو توضیح میده و نهایتا میگه حالت سوم بهترین نتیجه رو میده ولی موارد دیگه هم چیزای جالبی بهمون یاد میده مثل اینکه RL خالی هم به استدلال مدل خیلی کمک میکنه.
در این بلاگ حدسهای خوبی هم راجع به اینکه O1 و mini-O1 هم چطور آموزش داده شدند میگه که O1 ترکیب سوم و اولیه و o1-mini روش چهارم هست.
در نهایت هم میاد نظراتش رو راجع به R1 vs O1 میگه: در کل شبیه هم هستند ولی R1 بهینهتر و ارزانتره که دلیلش رو این میدونه که دیپسیک بیشتر روی آموزش مدل وقت گذاشته ولی o1 روی inference-time رفته. و چون ما اندازه مدل o1 رو نمیدونیم خیلی مقایسه منصفانهای نخواهیم داشت. دربارهی هزینه هم میگه این ۶ میلیون دلار که معروف شده ترکیب DeepSeek-R1 (همون سپتامبریه که پایهی R1 هست) و R1 هستش ولی هزینه R1 رو دیپسیک مشخص نکرده.
برای موضوع آخر هم میگه کسایی که پول کم هم دارند خوبه برن سراغ Distillation: به لطف مقاله مفصلی که برای R1 نوشتند مشخص شد که این روش هم خیلی موثره. مثلا میگه مقالهای اومده یه مدل به نام Sky-T1 منتشر کرده که با ۴۵۰ دلار (۴۰ تومن) مدل ۳۲ میلیاردی را با ۱۷ هزارتا دیتای sft یه فاین تیون هدفمند کرده و در مواردی شبیه o1 عمل کرده!! موارد مهمی هم ادامش راجع به Journey Learning میگه که دیگه توی پست جا نمیشه :))
لینک پست:
https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html
#read
#blog
🙏Thanks to: @nlp_stuff
حتما این روزها بارها مدلهای استدلالی مثل DeepSeek R1 به گوش و چشمتون خورده. اگر هنوز دقیق نمیدونید این مدلها معنیشون چیه و کجا به درد میخورند، بیاید که دواتون پیش آقای سباستین راشکا (نویسنده کتاب Build a Large Language Model From Scratch) هست. ایشون یه بلاگ مشتی راجع به مدلهای استدلالی (همون reasoning) نوشته و مثل همیشه خیلی خوب داستان را شفاف کرده. این را داشته باشید تا منابع بعدی.
مواردی که در این بلاگ توضیح میده:
- تعریف مدل استدلالی چیه؟
- کجا باید از این مدلها استفاده کنیم؟
- پایپلاین پشت R1 چیه؟
- چهار روش اصلی برای ساختن و بهبود مدلهای استدلالی چیه؟
- نکاتی پیرامون مدل R1
- نکاتی برای توسعه مدلهای استدلالی با بودجه بسیار کم (حتی به اندازه دانشگاههای ایران کم ☺️)
اول میگه استدلال (reasoning) واسه وقتیه که سوالی را حل کنیم که نیاز به راهحل پیچیده و چندمرحلهای داره. مثلا پایتخت فرانسه کجاست اینجوری نیست ولی مثلا حل یه سوال فیزیک و ریاضی یا سوال acmای اینجوریه.
بعد میاد میگه سه جا خوب نیست اصلا از این مدلها استفاده کنیم:
- وقتی ما نیاز به سرعت و قیمت پایین داریم
- وقتی سوالهای دانشی (knowledge based) مثل همین پایتخت داریم چون این مدلها دچار هذیانگویی میشن
- سوالات ساده چون این مدلها مثل اکثر ما overthink میکنند
در ادامه میاد پایپلاین R1 را به شکل بسیار روان و سادهای توضیح میده. عکس ضمیمه یک کلیتی از این پایپلاینه. میگه deepseek سه تا مدل داده: DeepSeek-R1-Zero، DeepSeek-R1 و DeepSeek-R1-Distill.
اول. با مدل DeepSeek-V3 که سپتامبر بیرون دادن، با یک RL cold start (بدون SFT) شبیه همون RLHF با دو تا reward (یکی دقت و دومی فرمت به جای ترجیح آدمیزاد) آموزش میده؛ و مدل DeepSeek-R1-Zero را درست میکنه. بعد از همین مدل میاد یه داده SFT بزرگ درست میکنه. ریوارد دقت میاد از leetcode استفاده میکنه که نتیجه کد را مستقیما اجرا کنه و بگه!! فرمت هم میاد از یه سری تگ استفاده میکنه که دقیقا با همون فرمت جواب بده.
دوم. بعد دوباره همون مدل زبانی اولیه سپتامبری DeepSeek-V3 را با همین دیتا SFT که در مرحله قبل ساخته شده بود یه بار فاین تیون میکنه و دوباره همون RL رو میزنه. این بار ولی بهش consistency هم اضافه میکنه که مدل سر چند زبانه بودن پنالتی نزنه. از همین مدل دو تا دیتاست SFT میسازه که یکیش با اندازه ۶۰۰ هزارتا chaing of thoughts داره و دیگری با اندازه ۲۰۰هزارتا knowldegeای هستش. بعد میاد یه RL دیگه هم میزنه که دیتاش کد و ریاضی هست. اینجا مدل DeepSeek R1 معروف ساخته میشه.
سوم. از اون دوتا دیتای SFT هم برای آموزش مدلهای distill استفاده میکنه. البته اینجا distill مثل اون معروفه نیست، اینجا وقتی دیتای sft رو یه مدل قوی درست میکنه و مدل کوچیک (نیم الی ۷۰ میلیاردی) باهاش فاین تیون میشه، بهش میگن distillation.
خلاصه چهار تا روش برای تولید مدل استدلالی میگه:
- روش inference-time scaling: که از پرامپت و اینا استفاده میشه. منابع بیشتری لازمه. گرونتر هم درمیاد چون خیلی حرف میزنه.
- روش RL خالص مثل DeepSeek-R1-Zero
- روش SFT + RL مثل DeepSeek-R1
- روش SFT خالص با distillation: مثل DeepSeek-R1-Distill-Qwen
برای هر کدوم میزان کارایی رو توضیح میده و نهایتا میگه حالت سوم بهترین نتیجه رو میده ولی موارد دیگه هم چیزای جالبی بهمون یاد میده مثل اینکه RL خالی هم به استدلال مدل خیلی کمک میکنه.
در این بلاگ حدسهای خوبی هم راجع به اینکه O1 و mini-O1 هم چطور آموزش داده شدند میگه که O1 ترکیب سوم و اولیه و o1-mini روش چهارم هست.
در نهایت هم میاد نظراتش رو راجع به R1 vs O1 میگه: در کل شبیه هم هستند ولی R1 بهینهتر و ارزانتره که دلیلش رو این میدونه که دیپسیک بیشتر روی آموزش مدل وقت گذاشته ولی o1 روی inference-time رفته. و چون ما اندازه مدل o1 رو نمیدونیم خیلی مقایسه منصفانهای نخواهیم داشت. دربارهی هزینه هم میگه این ۶ میلیون دلار که معروف شده ترکیب DeepSeek-R1 (همون سپتامبریه که پایهی R1 هست) و R1 هستش ولی هزینه R1 رو دیپسیک مشخص نکرده.
برای موضوع آخر هم میگه کسایی که پول کم هم دارند خوبه برن سراغ Distillation: به لطف مقاله مفصلی که برای R1 نوشتند مشخص شد که این روش هم خیلی موثره. مثلا میگه مقالهای اومده یه مدل به نام Sky-T1 منتشر کرده که با ۴۵۰ دلار (۴۰ تومن) مدل ۳۲ میلیاردی را با ۱۷ هزارتا دیتای sft یه فاین تیون هدفمند کرده و در مواردی شبیه o1 عمل کرده!! موارد مهمی هم ادامش راجع به Journey Learning میگه که دیگه توی پست جا نمیشه :))
لینک پست:
https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html
#read
#blog
🙏Thanks to: @nlp_stuff
Telegram
stuff
❤15👍7
This media is not supported in your browser
VIEW IN TELEGRAM
Pikadditions
توسط Pika معرفی شده و امکان Video Inpainting رو فراهم میکنه!
این قابلیت به شما اجازه میده تا اشیاء، حیوانات یا افراد رو به ویدیوهای موجود اضافه کنید. این ویژگی از هوش مصنوعی استفاده میکنه تا این عناصر رو بهطور یکپارچه و طبیعی در فیلم یا ویدیوهای دنیای واقعی ادغام کنه
https://pikalabsai.org/pikadditions/
توسط Pika معرفی شده و امکان Video Inpainting رو فراهم میکنه!
این قابلیت به شما اجازه میده تا اشیاء، حیوانات یا افراد رو به ویدیوهای موجود اضافه کنید. این ویژگی از هوش مصنوعی استفاده میکنه تا این عناصر رو بهطور یکپارچه و طبیعی در فیلم یا ویدیوهای دنیای واقعی ادغام کنه
https://pikalabsai.org/pikadditions/
👌14👍5
این مقاله به یک مشکل اصلی در روش های زنجیره افکار (CoT) که در مدلهای زبانی و چند رسانهای بزرگ استفاده میشه، میپردازه.
مشکل اینه که این روشها تنها به نمایش افکار به صورت متنی تکیه دارن، که در مسائل پیچیدهی استدلال فضایی کافی نیست. در این مقاله یه گروه از محققین Microsoft Research با الهام از فرآیند فکر کردن انسان که به طور طبیعی از ترکیب افکار کلامی و تصویری بهره میبره، یه روش جدید به نام MVoT (Multimodal Visualization-of-Though) رو پیشنهاد دادن.
این روش با ایجاد امکان تفکر همزمان بصری و کلامی، دقت استدلال مدل رو افزایش میده و همچنین با نشون دادن مراحل میانی استدلال تصویری، قابلیت توضیح پذیری مدل رو بهبود می بخشه.
مفاهیمی که میشه تنها با کلمات به خوبی پردازش کرد، محدود هستن، اما مقاله هایی از این دست که استدلالی ترکیبی شامل افکار متنی (کلامی) و افکار تصویری (بومی) رو ایجاد میکنن، میتونن ما رو به AGI نزدیک و نزدیک تر کنن.
به قول معروف
one picture is worth a 1000 words
https://arxiv.org/pdf/2501.07542
مشکل اینه که این روشها تنها به نمایش افکار به صورت متنی تکیه دارن، که در مسائل پیچیدهی استدلال فضایی کافی نیست. در این مقاله یه گروه از محققین Microsoft Research با الهام از فرآیند فکر کردن انسان که به طور طبیعی از ترکیب افکار کلامی و تصویری بهره میبره، یه روش جدید به نام MVoT (Multimodal Visualization-of-Though) رو پیشنهاد دادن.
این روش با ایجاد امکان تفکر همزمان بصری و کلامی، دقت استدلال مدل رو افزایش میده و همچنین با نشون دادن مراحل میانی استدلال تصویری، قابلیت توضیح پذیری مدل رو بهبود می بخشه.
مفاهیمی که میشه تنها با کلمات به خوبی پردازش کرد، محدود هستن، اما مقاله هایی از این دست که استدلالی ترکیبی شامل افکار متنی (کلامی) و افکار تصویری (بومی) رو ایجاد میکنن، میتونن ما رو به AGI نزدیک و نزدیک تر کنن.
به قول معروف
one picture is worth a 1000 words
https://arxiv.org/pdf/2501.07542
👌11👍1🤩1
هاگینگ فیس دوره ای تحت عنوان AI Agents برگزار میکنه.
این دوره به بررسی مفاهیم، طراحی، و پیادهسازی Agents هوش مصنوعی می پردازه که شما با اصول اولیه، نحوهی استفاده از کتابخانههای مطرح مانند smolagents، LangChain و LlamaIndex آشنا میشین، همچنین در طول دوره با پروژههای کاربردی رو به رو میشین و در نهایت میتونید Agent شخصی ساز خودتون رو بسازید.
دوره به طور رسمی با یک جلسه پرسش و پاسخ زنده (Live Q&A) آغاز میشه که روز چهارشنبه ۱۲ فوریه، ساعت ۵ بعد از ظهر به وقت CET برگزار میشه. در این جلسه نحوه ی اجرای دوره، مباحث، واحدها، چالشها و سایر موارد توضیح داده میشه.
پیش نیازها:
دانش ابتدایی زبان برنامهنویسی Python
آشنایی مقدماتی با LLms
داشتن یک حساب کاربری در Hugging Face (برای استفاده از مدلها، Agents و ایجاد Spaces)
http://hf.co/learn/agents-course
این دوره به بررسی مفاهیم، طراحی، و پیادهسازی Agents هوش مصنوعی می پردازه که شما با اصول اولیه، نحوهی استفاده از کتابخانههای مطرح مانند smolagents، LangChain و LlamaIndex آشنا میشین، همچنین در طول دوره با پروژههای کاربردی رو به رو میشین و در نهایت میتونید Agent شخصی ساز خودتون رو بسازید.
دوره به طور رسمی با یک جلسه پرسش و پاسخ زنده (Live Q&A) آغاز میشه که روز چهارشنبه ۱۲ فوریه، ساعت ۵ بعد از ظهر به وقت CET برگزار میشه. در این جلسه نحوه ی اجرای دوره، مباحث، واحدها، چالشها و سایر موارد توضیح داده میشه.
پیش نیازها:
دانش ابتدایی زبان برنامهنویسی Python
آشنایی مقدماتی با LLms
داشتن یک حساب کاربری در Hugging Face (برای استفاده از مدلها، Agents و ایجاد Spaces)
http://hf.co/learn/agents-course
huggingface.co
Welcome to the 🤗 AI Agents Course - Hugging Face Agents Course
We’re on a journey to advance and democratize artificial intelligence through open source and open science.
❤🔥18👍7👌1
گروه پرسش و پاسخ مرتبط با کانال:
@tf2keras
گروه opencv مرتبط با کانال:
@opencv_py
کانال اطلاع رسانی دوره ها و تخفیف ها:
@class_vision
@tf2keras
گروه opencv مرتبط با کانال:
@opencv_py
کانال اطلاع رسانی دوره ها و تخفیف ها:
@class_vision
🙏2
این مقاله هم که دیروز منتشر شد یک معماری جدید معرفی میکنه که به کمک ایجاد استدلال در فضای نهان یا latent reasoning تونسته محاسبات لازم برای استدلال در زمان آزمون (test-time) رو به طور پویا افزایش بده.
همونطور که مطلع هستین فضای نهان در مدلهای عصبی، فضاییه که در اون اطلاعات ورودی به شکل ویژگیهای عددی و چند بعدی نمایش داده میشن. در این مقاله، به جای نمایش مراحل استدلال به صورت زنجیرهای از کلمات (که ممکنه طولانی و پرهزینه باشه)، مدل به صورت داخلی و پنهانی چندین بار روی این نمایش عمل میکنه تا پاسخ نهایی رو بهبود ببخشه.
به عبارت دیگه، به جای تولید توکن های بیشتر (مثل chain-of-thought) برای استدلال، این مدل از یه بلوک تکراری (recurrent block) استفاده میکنه که به صورت پنهانی (در فضای نهان) چندین بار اجرا میشه.
این رویکرد اجازه میده تا مدل به عمق محاسباتی دلخواه در زمان آزمون دست پیدا کنه بدون اینکه به دادههای آموزشی تخصصی یا پنجرههای متنی بزرگ نیاز داشته باشه.
نویسندگان ادعا میکنن که به جای تولید توکن های بیشتر که هم می تونه منجر به افزایش مصرف منابع بشه، این روش با استفاده از محاسبات پنهان، کارایی مدل رو بهبود میبخشه و با هزینه محاسباتی کمتر میتونه عملکردی معادل با مدلهای بسیار بزرگتر (مثلاً تا 50 میلیارد پارامتر) به دست بیاره.
https://arxiv.org/abs/2502.05171
کد:
https://github.com/seal-rg/recurrent-pretraining
همونطور که مطلع هستین فضای نهان در مدلهای عصبی، فضاییه که در اون اطلاعات ورودی به شکل ویژگیهای عددی و چند بعدی نمایش داده میشن. در این مقاله، به جای نمایش مراحل استدلال به صورت زنجیرهای از کلمات (که ممکنه طولانی و پرهزینه باشه)، مدل به صورت داخلی و پنهانی چندین بار روی این نمایش عمل میکنه تا پاسخ نهایی رو بهبود ببخشه.
به عبارت دیگه، به جای تولید توکن های بیشتر (مثل chain-of-thought) برای استدلال، این مدل از یه بلوک تکراری (recurrent block) استفاده میکنه که به صورت پنهانی (در فضای نهان) چندین بار اجرا میشه.
این رویکرد اجازه میده تا مدل به عمق محاسباتی دلخواه در زمان آزمون دست پیدا کنه بدون اینکه به دادههای آموزشی تخصصی یا پنجرههای متنی بزرگ نیاز داشته باشه.
نویسندگان ادعا میکنن که به جای تولید توکن های بیشتر که هم می تونه منجر به افزایش مصرف منابع بشه، این روش با استفاده از محاسبات پنهان، کارایی مدل رو بهبود میبخشه و با هزینه محاسباتی کمتر میتونه عملکردی معادل با مدلهای بسیار بزرگتر (مثلاً تا 50 میلیارد پارامتر) به دست بیاره.
https://arxiv.org/abs/2502.05171
کد:
https://github.com/seal-rg/recurrent-pretraining
arXiv.org
Scaling up Test-Time Compute with Latent Reasoning: A Recurrent...
We study a novel language model architecture that is capable of scaling test-time computation by implicitly reasoning in latent space. Our model works by iterating a recurrent block, thereby...
👍12🤔1
وقت زیادی نداریم و هوش مصنوعی داره با سرعتی جلو میره که اگه همراهش نشیم، ممکنه جا بمونیم. شاید تا یکی دو سال دیگه، یعنی ۲۰۲۶ یا ۲۰۲۷ (و حتماً قبل از ۲۰۳۰)، این تکنولوژی اون قدر پیشرفته بشه که انگار یه کشور جدید با کلی آدم فوقالعاده باهوش به دنیا اضافه شده، به عبارتی سرزمینی از نوابغ توی یه دیتاسنتر، که تأثیرات بزرگی روی اقتصاد، علم و امنیت دنیا میگذاره.
از یه طرف، فرصت های فوق العادهای توی زمینه های مختلف به وجود میاد که شاید هیچ تکنولوژی دیگه ای در طول تاریخ بشر این قدر تاثیر گذار نبوده. ولی از اون طرف، خطر ها و چالش های جدی هم هست که باید با دقت بهشون فکر کنیم و مدیریت شون کنیم.
https://www.anthropic.com/news/paris-ai-summit
از یه طرف، فرصت های فوق العادهای توی زمینه های مختلف به وجود میاد که شاید هیچ تکنولوژی دیگه ای در طول تاریخ بشر این قدر تاثیر گذار نبوده. ولی از اون طرف، خطر ها و چالش های جدی هم هست که باید با دقت بهشون فکر کنیم و مدیریت شون کنیم.
https://www.anthropic.com/news/paris-ai-summit
Anthropic
Statement from Dario Amodei on the Paris AI Action Summit
A call for greater focus and urgency
👍13❤1👀1
Tensorflow(@CVision)
وقت زیادی نداریم و هوش مصنوعی داره با سرعتی جلو میره که اگه همراهش نشیم، ممکنه جا بمونیم. شاید تا یکی دو سال دیگه، یعنی ۲۰۲۶ یا ۲۰۲۷ (و حتماً قبل از ۲۰۳۰)، این تکنولوژی اون قدر پیشرفته بشه که انگار یه کشور جدید با کلی آدم فوقالعاده باهوش به دنیا اضافه شده،…
یه کم موضوع رو بازتر کنم.
شاید برای برخی هنوز سورپرایز کننده باشه که روزی الگوریتم ها توانایی فراتر از انسانها داشته باشن اما دیر یا زود مشکل حافظه بلند مدت در مدل های زبانی و حافظه تقریبا نامحدود حل خواهد شد و شرکت های بزرگ تولید کننده کارت گرافیک، تراشه هوش مصنوعی نسل بعدی ارزان قیمت که مخصوص عملیات محاسباتی مدل های زبانی هستند رو روانه بازار خواهند کرد.
گواه این موضوع هم مقالاتی هست که اخیرا منتشر شده از طرفی با سرعت رشد نمایی که شاهدیم در دو سال آینده شاهد انقلابی در این زمینه خواهیم بود.
به عنوان مثال معماری Titans که یک ماه پیش توسط علی بهروز Google Research، منتشر شد از یه مدل هوش مصنوعی جدید، رونمایی میکنه که یاد میگیره اطلاعات رو در یک حافظه بلند مدت اختصاصی، در زمان آزمایش test-time، ذخیره کنه.
این بدان معناست که مدل میتونه هر زمان که با موضوع غافلگیر کنندهای مواجه میشه، خودش رو تطبیق بده و حافظه خودش رو به صورت آنی به روزرسانی کنه.
برخلاف ترانسفورمرهای استاندارد که فقط پنجره متن فعلی رو پردازش میکنن، این معماری یه رکورد عمیق تر و دائمیتر، مشابه حافظه کوتاهمدت در مقابل حافظه بلندمدت در ما انسانها، نگه میداره.
این روش به صورت کارآمدتر نسبت به ترانسفورمرهای معمولی برای ورودی های بسیار طولانی مقیاس پذیره، یعنی، به طور نظری context window بینهایت!
https://arxiv.org/abs/2501.00663
این فقط یه هوش مصنوعی نسل بعدی نیست، بلکه گامی به سوی خودآگاهی مصنوعی با حافظه پایداره!
اگه خودآگاهی رو به عنوان توانایی مدلسازی درونی (خودمدلسازی)، سازماندهی، یکپارچهسازی و بازیابی دادهها (با توجه به ورودی) تعریف کنیم، همونطور که توسط نظریه اطلاعات یکپارچه (IIT) مطرح شده!
https://www.nature.com/articles/nrn.2016.44
شاید برای برخی هنوز سورپرایز کننده باشه که روزی الگوریتم ها توانایی فراتر از انسانها داشته باشن اما دیر یا زود مشکل حافظه بلند مدت در مدل های زبانی و حافظه تقریبا نامحدود حل خواهد شد و شرکت های بزرگ تولید کننده کارت گرافیک، تراشه هوش مصنوعی نسل بعدی ارزان قیمت که مخصوص عملیات محاسباتی مدل های زبانی هستند رو روانه بازار خواهند کرد.
گواه این موضوع هم مقالاتی هست که اخیرا منتشر شده از طرفی با سرعت رشد نمایی که شاهدیم در دو سال آینده شاهد انقلابی در این زمینه خواهیم بود.
به عنوان مثال معماری Titans که یک ماه پیش توسط علی بهروز Google Research، منتشر شد از یه مدل هوش مصنوعی جدید، رونمایی میکنه که یاد میگیره اطلاعات رو در یک حافظه بلند مدت اختصاصی، در زمان آزمایش test-time، ذخیره کنه.
این بدان معناست که مدل میتونه هر زمان که با موضوع غافلگیر کنندهای مواجه میشه، خودش رو تطبیق بده و حافظه خودش رو به صورت آنی به روزرسانی کنه.
برخلاف ترانسفورمرهای استاندارد که فقط پنجره متن فعلی رو پردازش میکنن، این معماری یه رکورد عمیق تر و دائمیتر، مشابه حافظه کوتاهمدت در مقابل حافظه بلندمدت در ما انسانها، نگه میداره.
این روش به صورت کارآمدتر نسبت به ترانسفورمرهای معمولی برای ورودی های بسیار طولانی مقیاس پذیره، یعنی، به طور نظری context window بینهایت!
https://arxiv.org/abs/2501.00663
این فقط یه هوش مصنوعی نسل بعدی نیست، بلکه گامی به سوی خودآگاهی مصنوعی با حافظه پایداره!
اگه خودآگاهی رو به عنوان توانایی مدلسازی درونی (خودمدلسازی)، سازماندهی، یکپارچهسازی و بازیابی دادهها (با توجه به ورودی) تعریف کنیم، همونطور که توسط نظریه اطلاعات یکپارچه (IIT) مطرح شده!
https://www.nature.com/articles/nrn.2016.44
arXiv.org
Titans: Learning to Memorize at Test Time
Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size...
👌10👍6❤4
Tensorflow(@CVision)
یه کم موضوع رو بازتر کنم. شاید برای برخی هنوز سورپرایز کننده باشه که روزی الگوریتم ها توانایی فراتر از انسانها داشته باشن اما دیر یا زود مشکل حافظه بلند مدت در مدل های زبانی و حافظه تقریبا نامحدود حل خواهد شد و شرکت های بزرگ تولید کننده کارت گرافیک، تراشه…
نمیخواهم بیش از حد فلسفیش کنم اما به نظر من هر چه سطح پیشرفت های علمی و تکنولوژی بالاتر میره، الزاما انسانها رو شادتر نمیبینی. در عصر کنونی، آدما مثل یه اسیر در قفسی نامرئی از الگوریتمها و دادهها شدن، جایی که حقیقت و واقعیت به تدریج زیر بار سرمایه داران فناوری و بازیگران سیاسی فرو می ریزن.
مثلاً پیشنهاد 97 میلیارد دلاری دیروز ایلان ماسک برای تصاحب OpenAI قطعا به نقش بسیار پررنگ هوش مصنوعی در آینده نزدیک اشاره داره، و قدرتی که برای سرمایه داران به ارمغان میاره.
https://in.mashable.com/tech/89649/elon-is-not-a-happy-person-sam-altman-takes-a-dig-after-rejecting-musks-974-billion-offer-to-buy-ope
همونطور که روزگاری سیاستمداران بزرگ با شعارهای بلند و وعده ها، بعد واقعی جهان را تغییر می دادن، امروز این نقش در دست چهره های دیجیتاله که با ابزارهای نوین، تصویری فریبنده از جهان برای ما می سازن.
در زمانهایی که مرز بین واقعیت و خیال به وضوح تعیین شده بود، جامعه به تفکری عمیق پیرامون حقیقت میپرداخت، اما حالا با ظهور قدرتهای نامرئی در دنیای فناوری، چیزی که به چشم میاد و آنچه در دل نهفته ست، هم آمیخته و درهم تنیده شدن. قدرت هایی که با هوش مصنوعی و الگوریتمهای پیشرفته، موجی از اطلاعات دستکاری شده رو به ما عرضه میکنن و ما رو در مسیری قرار میدن که انگار تنها تصویر نمایشی از واقعیته.
https://www.theatlantic.com/ideas/archive/2025/02/trump-administration-voter-perception/681598/?utm_source=reddit&utm_medium=social&utm_campaign=the-atlantic&utm_content=edit-promo
مثلاً پیشنهاد 97 میلیارد دلاری دیروز ایلان ماسک برای تصاحب OpenAI قطعا به نقش بسیار پررنگ هوش مصنوعی در آینده نزدیک اشاره داره، و قدرتی که برای سرمایه داران به ارمغان میاره.
https://in.mashable.com/tech/89649/elon-is-not-a-happy-person-sam-altman-takes-a-dig-after-rejecting-musks-974-billion-offer-to-buy-ope
همونطور که روزگاری سیاستمداران بزرگ با شعارهای بلند و وعده ها، بعد واقعی جهان را تغییر می دادن، امروز این نقش در دست چهره های دیجیتاله که با ابزارهای نوین، تصویری فریبنده از جهان برای ما می سازن.
در زمانهایی که مرز بین واقعیت و خیال به وضوح تعیین شده بود، جامعه به تفکری عمیق پیرامون حقیقت میپرداخت، اما حالا با ظهور قدرتهای نامرئی در دنیای فناوری، چیزی که به چشم میاد و آنچه در دل نهفته ست، هم آمیخته و درهم تنیده شدن. قدرت هایی که با هوش مصنوعی و الگوریتمهای پیشرفته، موجی از اطلاعات دستکاری شده رو به ما عرضه میکنن و ما رو در مسیری قرار میدن که انگار تنها تصویر نمایشی از واقعیته.
https://www.theatlantic.com/ideas/archive/2025/02/trump-administration-voter-perception/681598/?utm_source=reddit&utm_medium=social&utm_campaign=the-atlantic&utm_content=edit-promo
Mashable India
‘Elon Is Not A Happy Person’ Sam Altman Takes A Dig After Rejecting Musk’s $97.4 Billion Offer To Buy OpenAI
Probably his whole life is from a position of insecurity—Altman
👍16❤3