مدل لاما 405B اولین مدل اوپن سورس در سطح GPT4 هست و باتوجه به اینکه یک ریپورت ریز و با جزئیاتی توسط متا ازش منتشر شده، به راحتی میشه گفت دیگه هیچ سس مخفی برای ساخت مدلهای هوشمند امروزی وجود نداره و همه چیز شفافه. اگه دوست داشتید بیشتر درمورد این مدل بدونید، آرتین دانشور یه پست خوب نوشته درموردش. حتما بخونید. خودش هم یه پلتفرم آورده بالا که میتونید هم این مدل و هم مدلهای دیگه رو روش تست کنید.
لینک پست
@AI_360
لینک پست
@AI_360
This media is not supported in your browser
VIEW IN TELEGRAM
انتخاب و پیدا کردن محصول مورد علاقه از بین میلیونها محصول به خودی خود چالش بزرگیه. حالا اگه از بین محصولات، یه سری محصول باشند که براساس تصویر و ظاهرش پسند بشه، عملا بازیابی محصول توسط اطلاعات متنی اون (مثل عنوان محصول) برای این محصولات بلااستفاده است.
خداقوت به همه دوستانی که زحمت کشیدند تا جستجوی تصویری بیاد روی پروداکشن باسلام ✌️
لینک جستجوی تصویری:
Basalam.com/s/image
@AI_360
خداقوت به همه دوستانی که زحمت کشیدند تا جستجوی تصویری بیاد روی پروداکشن باسلام ✌️
لینک جستجوی تصویری:
Basalam.com/s/image
@AI_360
مدل o1 و معرفی پارادایم جدید برای مقیاس Inference
تا الان روال این بوده که بودجه محاسباتی و پردازشی LLM ها، عمدتا صرف مرحله Pre-train یا همون ساخت LLM ها میشه و بودجه عجیبی برای Inference در نظر گرفته نمیشه. چرا که به ازای هر پرامپتی که سمت LLM میاد، یک بار یک جنریشن رخ میده و پاسخ تحویل کاربر داده میشه. این روال فعلی تمام LLM ها چه Open و چه Close source هست. هرچند که خود جنریت کردن رو اگر بعنوان تسک پیشبینی توکن بعدی ببینیم، استراتژیهای زیادی براش وجود داره و اتفاقا استفاده از استراتژیهای متفاوت منجر به نتایج متفاوت میشه. مثال معروفش Temperature است که بهتره برای تسکهایی که خلاقیت نیاز داره (مثل نوشتن شعر)، بالا باشه. ولی با این وجود در هرحال عرف تا الان این بوده که برای یک پرامپت، یک پاسخ جنریت میشده ولو با استراتژیهای مختلف.
حالا بطور خلاصه اتفاق بزرگی که در o1 رخ داده، تغییر همین رواله. یعنی به ازای یک پرامپت لزوما یک پاسخ دیگه جنریت نمیشه. بلکه پاسخهای بسیاری چه بصورت موازی و چه متوالی تولید میشه و براساس یک سری مکانیزمهای انتخاب و خودبهبودی درنهایت جواب نهایی تولید و به کاربر نمایش داده میشه. پاسخهای موازی یعنی گرفتن پاسخ از LLM با کانفیگهای جنریشن متفاوت و پاسخهای متوالی یعنی دادن جنریت قبلیِ مدل به مدل و خواستن جنریت بهتر. با اینکه در نهایت به کاربر یک پاسخ نمایش داده میشه ولی میزان توکن تولیدی توسط LLM با میزان توکن نمایش داده شده برابر نیست و این همون چیزیه که OpenAI به جهات مارکتینگی اسمش رو گذاشت Thinking.
سوالی که اینجا بوجود میاد اینه که این مکانیزمهای انتخاب چی ها هستن؟ تقریبا یک ماه پیش Deep-Mind مقالهای منتشر کرد که در اون برای اولین بار صحبت از قانون مقیاس Inference time شد و با آزمایشات مختلف مکانیزمهای انتخاب رو بررسی کرد (قبلا در اینجا درمورد قانون مقیاس LLM ها نوشتم). مقاله بر محور این سوال میره جلو که اگر ما یک بودجه محاسباتی ثابت (ولی نه ناچیز بلکه زیاد) برای Inference داشته باشیم، مدل چقدر میتونه دقت بیشتر روی پرامپتهای چالشی بده؟ در ادامه مقاله دو روش برای خود-بهبودی مدل حین اینفرنس پیاده میکنه که بطور مختصر اشاره میکنم.
تو روش اول میایم distribution مدل رو برای پاسخ بهتر تغییر میدیم. مدل رو قبل از اینکه بره روی پروداکشن یک دور با یک سری دیتا و با یک سری متدهای الهامگرفته از یادگیری تقویتی مثل STaR یا ReST فاینتیون میکنیم. به محض اینکه روی پروداکشن پرامپتی بیاد که شبیه به اون پرامپتهایی باشه که در فاینتیون دیده، فورا بعد از جنریت اولیه، پاسخ بهتر رو به روش CoT تولید میکنه. حالا این پاسخها میتونه بصورت موازی باشه و چه متوالی و همچنین میتونه با روش بعدی ترکیب بشه. خالق این روش گوگل و دیپمایند نبوده و اینها صرفا برای مساله مدنظر (یعنی بررسی افزایش دقت با افزایش بودجه محاسباتی زمان Inference) ازش استفاده کردند.
تو روش دوم، مدل پاسخهای متعددی رو چه بصورت موازی و چه سری جنریت میکنه و یک مدل دیگهای (Reward Model) میاد بعنوان Verifier عمل میکنه و Score میده به پاسخها و بهترین پاسخ رو به کاربر نمایش میده. جذابیت این روش اینه که میشه تمام پاسخها رو به فرمت CoT از مدل گرفت و این بار Verifier بهجای دادن Score روی کل پاسخ بیاد روی هر قسمت از پاسخها Score بده. به این شکل میشه جوابها رو در هم ترکیب کرد و با اجرای الگوریتمهای Tree Search بهترین پاسخ رو تولید کرد. مثلا اگر از مدل، سه تا پاسخ به صورت CoT یا همون Chain of thought گرفتیم، بیایم مقدمه اول از پاسخ اول رو با مقدمه دوم از پاسخ دوم ترکیب کنیم و از قسمت نتیجه پاسخ سه استفاده کنیم و درنهایت پاسخ نهایی رو تولید کنیم. این روش تا 4 برابر میزان Inference time رو نسبت به زمانی که Verifier روی کل پاسخ (و نه بخشیاش) رای بده کاهش داده.
در نهایت این مقاله به یک نتیجهگیری مهم رسیده و اون اینکه برای تسکهای ساده تا کمی دشوار (و نه خیلی دشوار) اگر یک مدل از چنین روشی استفاده کنه، به فرض بودجه محاسباتی ثابت، دقت خروجی این مدل برابری میکنه با دقت یک مدل با 14برابر! وزن بیشتر در حالتی که فقط یک پاسخ جنریت میکنه. این یعنی میشه با همون مدل قبلی GPT4 تا 14 برابر هوشمندی بیشتر دریافت کرد. این همون نتایج شگفتانگیزیه که OpenAI خیلی زودتر از بقیه متوجه شد و الان ما اون چیزی که روی کاغذهای دیپمایند میخونیم رو توی ChatGPT حسش میکنیم. در این مقاله به این موضوع هم اشاره شده که برای تسکهای خیلی دشوار بهصرفهتر اینه که بیشترین حجم بودجه پردازشی رو بدیم به Pre-training ولی برای بقیه تسکها فرض اینه که حجم زیادی از بودجه محاسباتی برای Inference time خواهد بود.
@AI_360
تا الان روال این بوده که بودجه محاسباتی و پردازشی LLM ها، عمدتا صرف مرحله Pre-train یا همون ساخت LLM ها میشه و بودجه عجیبی برای Inference در نظر گرفته نمیشه. چرا که به ازای هر پرامپتی که سمت LLM میاد، یک بار یک جنریشن رخ میده و پاسخ تحویل کاربر داده میشه. این روال فعلی تمام LLM ها چه Open و چه Close source هست. هرچند که خود جنریت کردن رو اگر بعنوان تسک پیشبینی توکن بعدی ببینیم، استراتژیهای زیادی براش وجود داره و اتفاقا استفاده از استراتژیهای متفاوت منجر به نتایج متفاوت میشه. مثال معروفش Temperature است که بهتره برای تسکهایی که خلاقیت نیاز داره (مثل نوشتن شعر)، بالا باشه. ولی با این وجود در هرحال عرف تا الان این بوده که برای یک پرامپت، یک پاسخ جنریت میشده ولو با استراتژیهای مختلف.
حالا بطور خلاصه اتفاق بزرگی که در o1 رخ داده، تغییر همین رواله. یعنی به ازای یک پرامپت لزوما یک پاسخ دیگه جنریت نمیشه. بلکه پاسخهای بسیاری چه بصورت موازی و چه متوالی تولید میشه و براساس یک سری مکانیزمهای انتخاب و خودبهبودی درنهایت جواب نهایی تولید و به کاربر نمایش داده میشه. پاسخهای موازی یعنی گرفتن پاسخ از LLM با کانفیگهای جنریشن متفاوت و پاسخهای متوالی یعنی دادن جنریت قبلیِ مدل به مدل و خواستن جنریت بهتر. با اینکه در نهایت به کاربر یک پاسخ نمایش داده میشه ولی میزان توکن تولیدی توسط LLM با میزان توکن نمایش داده شده برابر نیست و این همون چیزیه که OpenAI به جهات مارکتینگی اسمش رو گذاشت Thinking.
سوالی که اینجا بوجود میاد اینه که این مکانیزمهای انتخاب چی ها هستن؟ تقریبا یک ماه پیش Deep-Mind مقالهای منتشر کرد که در اون برای اولین بار صحبت از قانون مقیاس Inference time شد و با آزمایشات مختلف مکانیزمهای انتخاب رو بررسی کرد (قبلا در اینجا درمورد قانون مقیاس LLM ها نوشتم). مقاله بر محور این سوال میره جلو که اگر ما یک بودجه محاسباتی ثابت (ولی نه ناچیز بلکه زیاد) برای Inference داشته باشیم، مدل چقدر میتونه دقت بیشتر روی پرامپتهای چالشی بده؟ در ادامه مقاله دو روش برای خود-بهبودی مدل حین اینفرنس پیاده میکنه که بطور مختصر اشاره میکنم.
تو روش اول میایم distribution مدل رو برای پاسخ بهتر تغییر میدیم. مدل رو قبل از اینکه بره روی پروداکشن یک دور با یک سری دیتا و با یک سری متدهای الهامگرفته از یادگیری تقویتی مثل STaR یا ReST فاینتیون میکنیم. به محض اینکه روی پروداکشن پرامپتی بیاد که شبیه به اون پرامپتهایی باشه که در فاینتیون دیده، فورا بعد از جنریت اولیه، پاسخ بهتر رو به روش CoT تولید میکنه. حالا این پاسخها میتونه بصورت موازی باشه و چه متوالی و همچنین میتونه با روش بعدی ترکیب بشه. خالق این روش گوگل و دیپمایند نبوده و اینها صرفا برای مساله مدنظر (یعنی بررسی افزایش دقت با افزایش بودجه محاسباتی زمان Inference) ازش استفاده کردند.
تو روش دوم، مدل پاسخهای متعددی رو چه بصورت موازی و چه سری جنریت میکنه و یک مدل دیگهای (Reward Model) میاد بعنوان Verifier عمل میکنه و Score میده به پاسخها و بهترین پاسخ رو به کاربر نمایش میده. جذابیت این روش اینه که میشه تمام پاسخها رو به فرمت CoT از مدل گرفت و این بار Verifier بهجای دادن Score روی کل پاسخ بیاد روی هر قسمت از پاسخها Score بده. به این شکل میشه جوابها رو در هم ترکیب کرد و با اجرای الگوریتمهای Tree Search بهترین پاسخ رو تولید کرد. مثلا اگر از مدل، سه تا پاسخ به صورت CoT یا همون Chain of thought گرفتیم، بیایم مقدمه اول از پاسخ اول رو با مقدمه دوم از پاسخ دوم ترکیب کنیم و از قسمت نتیجه پاسخ سه استفاده کنیم و درنهایت پاسخ نهایی رو تولید کنیم. این روش تا 4 برابر میزان Inference time رو نسبت به زمانی که Verifier روی کل پاسخ (و نه بخشیاش) رای بده کاهش داده.
در نهایت این مقاله به یک نتیجهگیری مهم رسیده و اون اینکه برای تسکهای ساده تا کمی دشوار (و نه خیلی دشوار) اگر یک مدل از چنین روشی استفاده کنه، به فرض بودجه محاسباتی ثابت، دقت خروجی این مدل برابری میکنه با دقت یک مدل با 14برابر! وزن بیشتر در حالتی که فقط یک پاسخ جنریت میکنه. این یعنی میشه با همون مدل قبلی GPT4 تا 14 برابر هوشمندی بیشتر دریافت کرد. این همون نتایج شگفتانگیزیه که OpenAI خیلی زودتر از بقیه متوجه شد و الان ما اون چیزی که روی کاغذهای دیپمایند میخونیم رو توی ChatGPT حسش میکنیم. در این مقاله به این موضوع هم اشاره شده که برای تسکهای خیلی دشوار بهصرفهتر اینه که بیشترین حجم بودجه پردازشی رو بدیم به Pre-training ولی برای بقیه تسکها فرض اینه که حجم زیادی از بودجه محاسباتی برای Inference time خواهد بود.
@AI_360
Forwarded from Out of Distribution (M S)
تا رسانم بوسهای بر رویِ ماهت یک سحر
نکته جالبی که در مورد openai o1 قابل دیدنه اینه که نسبت به نسخههای قبلی بهتر میتونه شعر فارسی بگه. نسخههای قبلی وزن و عروض رو به خوبی نمیتونستند دربیارن ولی o1 در این مورد خیلی بهتره. هر چند کامل نیست و خیلی جاها هم خراب میکنه ولی در کل بهتر از یک آدم نرمال میتونه شعر بگه و چه بسا o2 یا o3 بتونند فال حافظ و غزل سعدی رو هم بیکار کنند. یک نمونه از خروجیهای شعر o1 رو که هیچ اصلاحی روشون اعمال نشده رو در ادامه میفرستم:
آمدی ای صبحِ روشن، از پسِ شامِ سحر
بردهای خواب از دو چشمم، با نگاهی خیره سر
شوقِ دیدارِ تو دارم، ای نگارِ نازنین
دل شده آشفتهٔ تو، بیقرار و در به در
عشقِ تو آتشفشان است، در دلِ دیوانهام
میکِشد سودای وصلت، هر نفس سوی خطر
در رهت جان میسپارم، ای پری رویِ قمر
تا رسانم بوسهای بر رویِ ماهت یک سحر
با خیالِ وصلِ رویت زندهام در این قفس
چون شکسته بالِ خسته، منتظر بر یک خبر
کاش آید آن زمانی کز لبت نوشم شراب
میشود پایان غمها، میرسد خورشیدِ بر
نکته جالبی که در مورد openai o1 قابل دیدنه اینه که نسبت به نسخههای قبلی بهتر میتونه شعر فارسی بگه. نسخههای قبلی وزن و عروض رو به خوبی نمیتونستند دربیارن ولی o1 در این مورد خیلی بهتره. هر چند کامل نیست و خیلی جاها هم خراب میکنه ولی در کل بهتر از یک آدم نرمال میتونه شعر بگه و چه بسا o2 یا o3 بتونند فال حافظ و غزل سعدی رو هم بیکار کنند. یک نمونه از خروجیهای شعر o1 رو که هیچ اصلاحی روشون اعمال نشده رو در ادامه میفرستم:
آمدی ای صبحِ روشن، از پسِ شامِ سحر
بردهای خواب از دو چشمم، با نگاهی خیره سر
شوقِ دیدارِ تو دارم، ای نگارِ نازنین
دل شده آشفتهٔ تو، بیقرار و در به در
عشقِ تو آتشفشان است، در دلِ دیوانهام
میکِشد سودای وصلت، هر نفس سوی خطر
در رهت جان میسپارم، ای پری رویِ قمر
تا رسانم بوسهای بر رویِ ماهت یک سحر
با خیالِ وصلِ رویت زندهام در این قفس
چون شکسته بالِ خسته، منتظر بر یک خبر
کاش آید آن زمانی کز لبت نوشم شراب
میشود پایان غمها، میرسد خورشیدِ بر
معرفی سرویسهای AI باسلام
خب بالاخره سرویسهای AI باسلام پابلیک شد.
- میتونید مدل LoRA فاینتیون شدهی خودتون رو بصورت Serverless سرو کنید. (فعلا برای بیس مدل Llama3.2-3b)
- میتونید از مدلهای مخصوص خود باسلام مثل کاتالوگ محصول و مدل تشخیص اتربیوتهای محصول از روی تصویر استفاده کنید.
- میتونید از مدلهای Embedding متن و تصویر که خود باسلام هم استفاده میکنه، استفاده کنید.
- میتونید از یه سری مدل پرکاربرد مثل OCR فارسی استفاده کنید.
ai.basalam.com
@AI_360
خب بالاخره سرویسهای AI باسلام پابلیک شد.
- میتونید مدل LoRA فاینتیون شدهی خودتون رو بصورت Serverless سرو کنید. (فعلا برای بیس مدل Llama3.2-3b)
- میتونید از مدلهای مخصوص خود باسلام مثل کاتالوگ محصول و مدل تشخیص اتربیوتهای محصول از روی تصویر استفاده کنید.
- میتونید از مدلهای Embedding متن و تصویر که خود باسلام هم استفاده میکنه، استفاده کنید.
- میتونید از یه سری مدل پرکاربرد مثل OCR فارسی استفاده کنید.
ai.basalam.com
@AI_360
روشی جدید برای فاین تیون LLM ها
.
در حال حاضر برای دستکاری LLM ها دو روش اصلی وجود داره. یکی Full fine tuning؛ که در این روش تمام وزنهای مدل روی حجم زیادی از دیتا از یک دامین خاص (تو order چند میلیارد توکن) دوباره آموزش میبینه (Continual pretraining). یکی هم روش LoRA که قبلا درموردش صحبت کردیم. در این روش تعدادی ماتریس مرتبه پایین برای یک سری از لایههای مدل (که خودمون موقع آموزش مشخص میکنیم) ساخته میشه و فقط همونها Trainable میشه و به این ترتیب دست به ساختار مدل نمیزنیم.
مقالهای چند ماه پیش منتشر شد برای مقایسه این دو روش با این عنوان: LoRA Learns Less and Forgets Less. که در این پیپر این نتیجهگیری بوجود اومد که در Full fine tuning چون وزنهای مدل برای یادگیری تسک خاصی که مدنظر داریم تغییر میکنه، مدل دانش قبلی خودش در بقیه دامینها رو تا حدی فراموش میکنه. اما در روش LoRA بخاطر اینکه وزنهای مدل اصلی تغییر نمیکنه، این مشکل بوجود نمیاد. در عوض در LoRA بخاطر اینکه ما حجم خیلی کمی از وزنها رو آموزش میدیم قدرت یادگیری این روش پایینتر از Full fine tuning است. (هرچند در همون مقاله ذکر شد که اگر LoRA رو با پارامتر r بالا مثلا 512 فاینتیون کنید قدرتش ممکنه خیلی نزدیک بشه به روش Full fine tuning).
در همین راستا اخیرا مقالهای دیگه منتشر شده و یک روش جدیدی برای دستکاری LLM ها ارائه شد به نام Half Fine Tuning. به این صورت که میایم نیمی از وزنهای هر لایه رو باز و نیم دیگر رو Frozen نگه میداریم. بعبارتی، برخلاف همیشه، این بار بصورت عمودی وزنهای باز و بسته رو از هم جدا میکنیم. نتیجه بدست آمده اینه که بخاطر حفظ نیمی از وزنها، این روش نسبت به Full fine tuning در برابر فراموشی دانشهای پیشین مقاومت خوبی نشون داده و نتایج بهتری حاصل شده. ضمن اینکه با کاهش سیدرصدی زمان آموزش میتونه دقتی برابر یا حتی بیشتر از Full fine tuning بده. البته این مقاله مقایسهای با LoRA نداشته و همچنان روش LoRA بهترین روش برای یادگیری تسکهای خاصی هست که مدل دانش اولیهی خوبی از اون مساله داره.
این روش جدید (HFT) کاربرد خوبی در یادگیری تسکهای بیسیک داره و میتونه جای Full fine tuning رو بگیره.
@AI_360
.
در حال حاضر برای دستکاری LLM ها دو روش اصلی وجود داره. یکی Full fine tuning؛ که در این روش تمام وزنهای مدل روی حجم زیادی از دیتا از یک دامین خاص (تو order چند میلیارد توکن) دوباره آموزش میبینه (Continual pretraining). یکی هم روش LoRA که قبلا درموردش صحبت کردیم. در این روش تعدادی ماتریس مرتبه پایین برای یک سری از لایههای مدل (که خودمون موقع آموزش مشخص میکنیم) ساخته میشه و فقط همونها Trainable میشه و به این ترتیب دست به ساختار مدل نمیزنیم.
مقالهای چند ماه پیش منتشر شد برای مقایسه این دو روش با این عنوان: LoRA Learns Less and Forgets Less. که در این پیپر این نتیجهگیری بوجود اومد که در Full fine tuning چون وزنهای مدل برای یادگیری تسک خاصی که مدنظر داریم تغییر میکنه، مدل دانش قبلی خودش در بقیه دامینها رو تا حدی فراموش میکنه. اما در روش LoRA بخاطر اینکه وزنهای مدل اصلی تغییر نمیکنه، این مشکل بوجود نمیاد. در عوض در LoRA بخاطر اینکه ما حجم خیلی کمی از وزنها رو آموزش میدیم قدرت یادگیری این روش پایینتر از Full fine tuning است. (هرچند در همون مقاله ذکر شد که اگر LoRA رو با پارامتر r بالا مثلا 512 فاینتیون کنید قدرتش ممکنه خیلی نزدیک بشه به روش Full fine tuning).
در همین راستا اخیرا مقالهای دیگه منتشر شده و یک روش جدیدی برای دستکاری LLM ها ارائه شد به نام Half Fine Tuning. به این صورت که میایم نیمی از وزنهای هر لایه رو باز و نیم دیگر رو Frozen نگه میداریم. بعبارتی، برخلاف همیشه، این بار بصورت عمودی وزنهای باز و بسته رو از هم جدا میکنیم. نتیجه بدست آمده اینه که بخاطر حفظ نیمی از وزنها، این روش نسبت به Full fine tuning در برابر فراموشی دانشهای پیشین مقاومت خوبی نشون داده و نتایج بهتری حاصل شده. ضمن اینکه با کاهش سیدرصدی زمان آموزش میتونه دقتی برابر یا حتی بیشتر از Full fine tuning بده. البته این مقاله مقایسهای با LoRA نداشته و همچنان روش LoRA بهترین روش برای یادگیری تسکهای خاصی هست که مدل دانش اولیهی خوبی از اون مساله داره.
این روش جدید (HFT) کاربرد خوبی در یادگیری تسکهای بیسیک داره و میتونه جای Full fine tuning رو بگیره.
@AI_360
postimg.cc
Screenshot from 2024 10 25 21 49 11 — Postimages
شکست سنگین API های تجاری فاینتیون LLM
اخیرا یه پیپر و یک Evaluation Dataset از استنفورد منتشر شده برای ارزیابی API های تجاری فاینتیون LLM ها. API هایی مثل Open AI fine tune و همچنین API های فاین تیون گوگل. از اونجا که استارتاپها و شرکتها بعد از اینکه تسکشون با پرامپت و In Context Learning شکست میخوره میرن سراغ فاینتیون کردن API های تجاری (چون هم کد زدن نمیخواد و هم بهترین مدلها رو فاین تیون میکنی)، این دوستان اومدن با این دیتاست، وضعیت این API ها رو بررسی کردند. این بررسی در دو بُعد انجام شده. 1. یادگیری دانش جدید و 2. آپدیت دانش فعلی.
برای بررسی یادگیری دانش جدید از دو دیتاست استفاده کردند. یکی دیتاست شخصیتهای خیالی؛ که براساس یک سری فکت حول محور یک سری شخصیت خیالی سوالاتی رو از LLM میپرسه. یکی هم دیتاست اخبار. این دیتاستها هرکدوم جداگانه دو نوع دیتاست تست دارند. یکی دیتاست سوالات مستقیم از متن و یکی هم سوالاتی که برای پاسخ دادن بهش به استنتاج و تعمیم بالاتر نیازه. نتایج روی همه LLM ها نشون میده همهشون خوب بلدند فکتها رو حفظ کنند (memorization قوی) ولی وقتی نوبت میرسه به سوالات استنتاجی بشدت عملکردشون افت میکنه و غیرقابل پذیرش میشه (Generalization ضعیف). با این حال مدلهای OpenAI از گوگل بهتر بوده هرچند که همه مدلها عملکرد رضایتبخشی نداشتند.
برای بررسی یادگیری آپدیت دانشهای فعلی هم از دو دیتاست استفاده کردند. یکی دیتاست کد و یکی هم دیتاست پزشکی. در این قسمت با اینکه مدلهای OpenAI از گوگل بهتر بوده ولی باز هردو عملکرد ضعیفی داشتند. نکته جالب دیگه اینکه میانگین دقت روی یادگیری دانش جدید 37 درصد بوده درحالیکه میانگین دقت روی آپدیت دانش 19 درصد بوده. این یعنی آپدیت دانشهای فعلی کار سختتری بوده برای LLM تا یادگیری چیزهای جدید.
البته توی این پیپر جای بررسی مدلهای اوپن سورس و همچنین تکنیکهای جدید فاینتیون که توی API های تجاری ساپورت نمیشه خالی بود. با این حال این دیتاست که اسمش رو گذاشتند FINETUNEBENCH اوپن سورسه و میتونید روی LLM های موجود تست کنید.
@AI_360
اخیرا یه پیپر و یک Evaluation Dataset از استنفورد منتشر شده برای ارزیابی API های تجاری فاینتیون LLM ها. API هایی مثل Open AI fine tune و همچنین API های فاین تیون گوگل. از اونجا که استارتاپها و شرکتها بعد از اینکه تسکشون با پرامپت و In Context Learning شکست میخوره میرن سراغ فاینتیون کردن API های تجاری (چون هم کد زدن نمیخواد و هم بهترین مدلها رو فاین تیون میکنی)، این دوستان اومدن با این دیتاست، وضعیت این API ها رو بررسی کردند. این بررسی در دو بُعد انجام شده. 1. یادگیری دانش جدید و 2. آپدیت دانش فعلی.
برای بررسی یادگیری دانش جدید از دو دیتاست استفاده کردند. یکی دیتاست شخصیتهای خیالی؛ که براساس یک سری فکت حول محور یک سری شخصیت خیالی سوالاتی رو از LLM میپرسه. یکی هم دیتاست اخبار. این دیتاستها هرکدوم جداگانه دو نوع دیتاست تست دارند. یکی دیتاست سوالات مستقیم از متن و یکی هم سوالاتی که برای پاسخ دادن بهش به استنتاج و تعمیم بالاتر نیازه. نتایج روی همه LLM ها نشون میده همهشون خوب بلدند فکتها رو حفظ کنند (memorization قوی) ولی وقتی نوبت میرسه به سوالات استنتاجی بشدت عملکردشون افت میکنه و غیرقابل پذیرش میشه (Generalization ضعیف). با این حال مدلهای OpenAI از گوگل بهتر بوده هرچند که همه مدلها عملکرد رضایتبخشی نداشتند.
برای بررسی یادگیری آپدیت دانشهای فعلی هم از دو دیتاست استفاده کردند. یکی دیتاست کد و یکی هم دیتاست پزشکی. در این قسمت با اینکه مدلهای OpenAI از گوگل بهتر بوده ولی باز هردو عملکرد ضعیفی داشتند. نکته جالب دیگه اینکه میانگین دقت روی یادگیری دانش جدید 37 درصد بوده درحالیکه میانگین دقت روی آپدیت دانش 19 درصد بوده. این یعنی آپدیت دانشهای فعلی کار سختتری بوده برای LLM تا یادگیری چیزهای جدید.
البته توی این پیپر جای بررسی مدلهای اوپن سورس و همچنین تکنیکهای جدید فاینتیون که توی API های تجاری ساپورت نمیشه خالی بود. با این حال این دیتاست که اسمش رو گذاشتند FINETUNEBENCH اوپن سورسه و میتونید روی LLM های موجود تست کنید.
@AI_360
arXiv.org
FineTuneBench: How well do commercial fine-tuning APIs infuse...
There is great interest in fine-tuning frontier large language models (LLMs) to inject new information and update existing knowledge. While commercial LLM fine-tuning APIs from providers such as...
ورود مدلهای متنباز به لیگ o1
.
چند وقتیه که صحبت از توسعه مدلهای Inference Scaling تو شرکتهای توسعهدهنده مدلهای متنبازه. چیزی شبیه مدل o1 از Open AI که دقت مدلها رو تو یه لیگ دیگه وارد کرد (قبلا در موردش اینجا نوشتم). تا همین اخیرا چیزی منتشر نشده بود ولی الان به یک باره دو مدل از دو شرکت DeepSeek و Qwen منتشر شد. بطور خلاصه بخوام بگم، عدد و رقمها حقیقتا عجیبند. هم از لحاظ تعداد پارامتر کمی که این مدلها دارن و هم دقت بالایی که روی کاغذ درموردشون ثبت شده.
مدل جدید شرکت DeepSeek که اسمش رو DeepSeek-R1-Lite-Preview گذاشتند، طبق جدول دقت، روی دیتاستهای ریاضیاتی بطور قاطع از مدل o1 هم بالاتره. روی دیتاست MATH درحالی به دقت ۹۱ درصد رسیده که تا الان بیشترین دقت ۸۵ درصد بوده (o1). روی کد هم پایاپای با o1 رفته جلو و با اینکه نمیشه گفت از o1 بهتره ولی میشه گفت تو لیگ o1 بازی میکنه. بقیه بنچمارک ها هم بطور قاطع از مدلهای بسته قبلی مثل GPT4 و Claude 3.5 sonnet بالاتره درحالیکه طبق برخی منابع و اخبار فقط با 16B پارامتر کار میکنه؛ که تازه چون معماری این مدل MoE هست، موقع Inference فقط 2.4B پارامتر فعاله. البته این مدل بطور رسمی منتشر نشده. هرچند مرام گذاشتند و به جای Wait-list و این مسخرهبازیها یه دمو با Chat-ui دادن که میتونید اینجا تست کنید. من خودم روی کد تست کردم حقیقتا عالی بود و کیف کردم. نکته جالب دیگه درمورد این مدل اینه که ظاهراً این تازه Lite شونه و ممکنه مدلهای بزرگتری هم ارائه بدهند.
دیشب هم تیم Qwen که در واقع تیم «مدل زبانی» شرکت Alibaba است، اولین مدل Inference scale اش رو به نام QwQ-32B-Preview (اسپیس برای تست) تو هاگینگفیس منتشر کرد. 32B پارامتر داره و فاینتیون شده روی Qwen2.5 هست. البته خاضعانه خودشون اذعان کردند که این مدل هنوز تو مود experimental research هست و یه سری ضعفها داره. از جمله اینکه ممکنه وارد حلقه بینهایت استدلال بشه بدون اینکه نتیجهای ارائه بده. یا ممکنه وسط حرف زدن زبان عوض کنه بدون دلیل و.. . با این حال، عددهای این مدل هم یا همسطح o1 و یا حتی در بعضی موضوعات بهتره. مثلا روی ریاضیات شبیه مدل DeepSeek روی دقت ۹۰ درصده و روی کد و بقیه بنچمارکها با اینکه پایینتر از o1 هست بطور قاطع از تمامی مدلهای بسته قبلی بالاتره.
البته کارایی این مدلها صرفا با بنچمارکها ارزیابی نمیشه و همیشه روشهایی مثل Arena و بازتاب کامیونیتی و Vibe-checks، بازنمایی بهتری از دقت مدلها میدن. ولی در کل اینکه سرعت رسیدن مدلهای متنباز به دقت مدلهای بسته نسبت به قبل بیشتر شده خودش جای امیدواری بسیاره. بخصوص اینکه خیلی از این مدلها از کشورهای دوست و برادر مثل چین منتشر میشه :)
@AI_360
.
چند وقتیه که صحبت از توسعه مدلهای Inference Scaling تو شرکتهای توسعهدهنده مدلهای متنبازه. چیزی شبیه مدل o1 از Open AI که دقت مدلها رو تو یه لیگ دیگه وارد کرد (قبلا در موردش اینجا نوشتم). تا همین اخیرا چیزی منتشر نشده بود ولی الان به یک باره دو مدل از دو شرکت DeepSeek و Qwen منتشر شد. بطور خلاصه بخوام بگم، عدد و رقمها حقیقتا عجیبند. هم از لحاظ تعداد پارامتر کمی که این مدلها دارن و هم دقت بالایی که روی کاغذ درموردشون ثبت شده.
مدل جدید شرکت DeepSeek که اسمش رو DeepSeek-R1-Lite-Preview گذاشتند، طبق جدول دقت، روی دیتاستهای ریاضیاتی بطور قاطع از مدل o1 هم بالاتره. روی دیتاست MATH درحالی به دقت ۹۱ درصد رسیده که تا الان بیشترین دقت ۸۵ درصد بوده (o1). روی کد هم پایاپای با o1 رفته جلو و با اینکه نمیشه گفت از o1 بهتره ولی میشه گفت تو لیگ o1 بازی میکنه. بقیه بنچمارک ها هم بطور قاطع از مدلهای بسته قبلی مثل GPT4 و Claude 3.5 sonnet بالاتره درحالیکه طبق برخی منابع و اخبار فقط با 16B پارامتر کار میکنه؛ که تازه چون معماری این مدل MoE هست، موقع Inference فقط 2.4B پارامتر فعاله. البته این مدل بطور رسمی منتشر نشده. هرچند مرام گذاشتند و به جای Wait-list و این مسخرهبازیها یه دمو با Chat-ui دادن که میتونید اینجا تست کنید. من خودم روی کد تست کردم حقیقتا عالی بود و کیف کردم. نکته جالب دیگه درمورد این مدل اینه که ظاهراً این تازه Lite شونه و ممکنه مدلهای بزرگتری هم ارائه بدهند.
دیشب هم تیم Qwen که در واقع تیم «مدل زبانی» شرکت Alibaba است، اولین مدل Inference scale اش رو به نام QwQ-32B-Preview (اسپیس برای تست) تو هاگینگفیس منتشر کرد. 32B پارامتر داره و فاینتیون شده روی Qwen2.5 هست. البته خاضعانه خودشون اذعان کردند که این مدل هنوز تو مود experimental research هست و یه سری ضعفها داره. از جمله اینکه ممکنه وارد حلقه بینهایت استدلال بشه بدون اینکه نتیجهای ارائه بده. یا ممکنه وسط حرف زدن زبان عوض کنه بدون دلیل و.. . با این حال، عددهای این مدل هم یا همسطح o1 و یا حتی در بعضی موضوعات بهتره. مثلا روی ریاضیات شبیه مدل DeepSeek روی دقت ۹۰ درصده و روی کد و بقیه بنچمارکها با اینکه پایینتر از o1 هست بطور قاطع از تمامی مدلهای بسته قبلی بالاتره.
البته کارایی این مدلها صرفا با بنچمارکها ارزیابی نمیشه و همیشه روشهایی مثل Arena و بازتاب کامیونیتی و Vibe-checks، بازنمایی بهتری از دقت مدلها میدن. ولی در کل اینکه سرعت رسیدن مدلهای متنباز به دقت مدلهای بسته نسبت به قبل بیشتر شده خودش جای امیدواری بسیاره. بخصوص اینکه خیلی از این مدلها از کشورهای دوست و برادر مثل چین منتشر میشه :)
@AI_360
کمی درمورد جزئیات فنی DeepSeek-R1
.
احتمالا این روزها اخبار مربوط به مدل جدید DeepSeek رو شنیدید. مدل Open Weight که وارد لیگ o1 شده و همتراز (و نه لزوما بهتر) با اون کد میزنه و ریاضی حل میکنه و استدلال میکنه. اما این وسط چیزی که بیشتر از خود مدل ارزشمند بود پیپر Technical Report این مدل بود. اهمیت این پیپر در اینجاست که بسیاری از یافتههایی که تو این سالها شرکتهای Close source در آموزش LLM ها داشتند و رو نکرده بودند رو به نمایش گذاشت. از طرفی هزینه ساخت مدل DeepSeek-R1 با چند صدم هزینهای ساخته شد که Meta باهاش نسخه Llama3 رو داد. در نهایت با چند صدم قیمتی که Open AI برای o1 میگیره API این مدل رو ارائه کردند. خلاصه این جوانان چینی با مدل بومی خودشون بازی بزرگی رو به نفع جامعه اوپن سورس به هم زدند.
مکانیزم RLHF رو اگر یادتون باشه در دو فاز اجرا میشد. مدل ابتدا پس از مرحله Pre-training با یک حجمی از دادههای انسانی بصورت Supervised fine-tuning تنظیم دقیق میشد. بعد به کمک Reward model که دادههای ترجیحات انسانی رو دیده، مدل اصلی رو با الگوریتمهای RL آموزش میدادند. این وسط اخیرا مدلها به سمت Inference-time Scaling هم رفتند که باز در همین چارچوب اجرا میشه. حالا مکانیزمی که DeepSeek ارائه داده پیچیدهتر و گستردهتر از این حرفهاست. و البته همراه با به چالش کشیدن فرضیههای قبلی.
اول اینکه در همون ابتدا برخلاف RLHF بدون اینکه مرحله SFT رو اجرا کنند مستقیم مدل Base رو (DeepSeek-v3) با RL آموزش دادند. به این شکل، مدل خودش بدون هیچ راهنمایی، یاد میگیره چطوری استدلال کنه و سوالات پیچیده رو حل کنه. اسم این مدل رو گذاشتن DeepSeek-R1-Zero. توی این فرایند، مدل خودبهخود رفتارهای جالب و قدرتمندی مثل خودبازبینی و تفکر طولانی رو یاد میگیره. روی بعضی از نمونههای آموزشی، اینطور رفتار کرده که یک جاهایی وسط استدلال کردن، فرضیات قبلی خودش رو زیرسوال میبره و یا مثلا یکدفعه نتیجه جدید میگیره و یک «Aha moment» براش ایجاد میشه و یه جورایی انگار خودش، خودش رو آموزش میده. این اتفاق حتی برای خودشون هم غیرمنتظره و هیجانانگیز بوده. با این حال با اینکه DeepSeek-R1-Zero خیلی خفن بود، یه سری مشکل هم داشت. مثلاً بعضی وقتها جوابهاش خیلی قابل خوندن نبود، یا زبانها رو مخلوط میکرد (مثلا چینی-انگلیسی صحبت میکرد).
در آزمایش بعدی، روی همون مدل Base مرحله SFT رو اول اجرا میکنند. یعنی ابتدا به کمک یک حجم کمی داده تمیز با زنجیرهفکری طولانی (long CoT) مرحله SFT رو اجرا میکنند. بعد دوباره مرحله قبل رو تکرار میکنند (یعنی دوباره RL میزنند). این بار میبینند که مدل بهبود پیدا کرده و اون مشکلات زبانی رو دیگه نداره. اینجا خاصیت SFT تقریبا شفاف میشه که بیشتر کاربرد زبانی داره تا تعمیق یادگیری و استدلال.
جذابیت اصلی ماجرا اینجاست که بعد از مرحله RL با مدل بدست آمده، دیتاستهای جدید درست میکنند و با کمک اون دیتاستها دوباره مدل رو توسعه آموزش میدن. به این شکل که ابتدا یک دیتاست 600k استدلالی و مشروح (o1 پسند) ایجاد میکنند که تمرکزش روی حل مسائل ریاضی و کد و تسکهای استدلالی است. همچنین یک دیتاست 200k هم برای کارهای عمومی و غیراستدلالی و سوال و جوابهای کوتاه ایجاد میکنند که مدل یاد بگیره برای هر پرامپتی کلی فکر نکنه. از ترکیب این دو دیتاست یک مرحله SFT دیگه اجرا میکنند. درنهایت هم برای بهبودهای عمومی مثل کاهش توهم و کمککننده بودن و ساختن گاردریلهای لازم، دوباره RL میزنند.
پس بطور خلاصه برخلاف رویه قبلی، اینجا دو بار SFT و سه بار RL اجرا میشه که البته منجر به ساخت دو مدل مجزا میشه. نکته جالب ماجرا اینه که در هر مرحلهای که از RL استفاده میکنند، از Reward های مختلف استفاده کردند که از جنبههای مختلف مدل رو بهبود بدهند. بعبارتی همون مکانیزم RLHF رو بجای اینکه یک بار اجرا کنند، چند بار اجرا کردند با این تفاوت که هر بار بطور تخصصی و عمیق یک جنبه از قدرتمندی مدل رو بهبود میدادند. انگار که کل اون پروسه بسیار هزینه بر رو انداخته باشند تو for loop با این توضیح که تو هر iteration یه گوشه از کار رو عمیقا درستش کردند. مثلا تو ایتریشن اول توانایی استدلال کردن تو کانتکس طولانی رو هندل کردن ولی خب مشکل خوانایی داشته. تو یه ایتریشن ثبات زبانی رو یادش دادند، تو ایتریشن بعد تسک های عمومی و بعد هم گاردریل ها و harmlessness و این موضوعات اخلاقی.
در آخر یک سری از متدهای پیچیده که برای Inference-time Scaling شدن مدلها معمولا اجرا میشده، اجرا نکردند چون دقت رو بهبود نمیداده و سعی کردند با long CoT توانایی استدلال مدل رو پیشرفت بدهند.
@AI_360
.
احتمالا این روزها اخبار مربوط به مدل جدید DeepSeek رو شنیدید. مدل Open Weight که وارد لیگ o1 شده و همتراز (و نه لزوما بهتر) با اون کد میزنه و ریاضی حل میکنه و استدلال میکنه. اما این وسط چیزی که بیشتر از خود مدل ارزشمند بود پیپر Technical Report این مدل بود. اهمیت این پیپر در اینجاست که بسیاری از یافتههایی که تو این سالها شرکتهای Close source در آموزش LLM ها داشتند و رو نکرده بودند رو به نمایش گذاشت. از طرفی هزینه ساخت مدل DeepSeek-R1 با چند صدم هزینهای ساخته شد که Meta باهاش نسخه Llama3 رو داد. در نهایت با چند صدم قیمتی که Open AI برای o1 میگیره API این مدل رو ارائه کردند. خلاصه این جوانان چینی با مدل بومی خودشون بازی بزرگی رو به نفع جامعه اوپن سورس به هم زدند.
مکانیزم RLHF رو اگر یادتون باشه در دو فاز اجرا میشد. مدل ابتدا پس از مرحله Pre-training با یک حجمی از دادههای انسانی بصورت Supervised fine-tuning تنظیم دقیق میشد. بعد به کمک Reward model که دادههای ترجیحات انسانی رو دیده، مدل اصلی رو با الگوریتمهای RL آموزش میدادند. این وسط اخیرا مدلها به سمت Inference-time Scaling هم رفتند که باز در همین چارچوب اجرا میشه. حالا مکانیزمی که DeepSeek ارائه داده پیچیدهتر و گستردهتر از این حرفهاست. و البته همراه با به چالش کشیدن فرضیههای قبلی.
اول اینکه در همون ابتدا برخلاف RLHF بدون اینکه مرحله SFT رو اجرا کنند مستقیم مدل Base رو (DeepSeek-v3) با RL آموزش دادند. به این شکل، مدل خودش بدون هیچ راهنمایی، یاد میگیره چطوری استدلال کنه و سوالات پیچیده رو حل کنه. اسم این مدل رو گذاشتن DeepSeek-R1-Zero. توی این فرایند، مدل خودبهخود رفتارهای جالب و قدرتمندی مثل خودبازبینی و تفکر طولانی رو یاد میگیره. روی بعضی از نمونههای آموزشی، اینطور رفتار کرده که یک جاهایی وسط استدلال کردن، فرضیات قبلی خودش رو زیرسوال میبره و یا مثلا یکدفعه نتیجه جدید میگیره و یک «Aha moment» براش ایجاد میشه و یه جورایی انگار خودش، خودش رو آموزش میده. این اتفاق حتی برای خودشون هم غیرمنتظره و هیجانانگیز بوده. با این حال با اینکه DeepSeek-R1-Zero خیلی خفن بود، یه سری مشکل هم داشت. مثلاً بعضی وقتها جوابهاش خیلی قابل خوندن نبود، یا زبانها رو مخلوط میکرد (مثلا چینی-انگلیسی صحبت میکرد).
در آزمایش بعدی، روی همون مدل Base مرحله SFT رو اول اجرا میکنند. یعنی ابتدا به کمک یک حجم کمی داده تمیز با زنجیرهفکری طولانی (long CoT) مرحله SFT رو اجرا میکنند. بعد دوباره مرحله قبل رو تکرار میکنند (یعنی دوباره RL میزنند). این بار میبینند که مدل بهبود پیدا کرده و اون مشکلات زبانی رو دیگه نداره. اینجا خاصیت SFT تقریبا شفاف میشه که بیشتر کاربرد زبانی داره تا تعمیق یادگیری و استدلال.
جذابیت اصلی ماجرا اینجاست که بعد از مرحله RL با مدل بدست آمده، دیتاستهای جدید درست میکنند و با کمک اون دیتاستها دوباره مدل رو توسعه آموزش میدن. به این شکل که ابتدا یک دیتاست 600k استدلالی و مشروح (o1 پسند) ایجاد میکنند که تمرکزش روی حل مسائل ریاضی و کد و تسکهای استدلالی است. همچنین یک دیتاست 200k هم برای کارهای عمومی و غیراستدلالی و سوال و جوابهای کوتاه ایجاد میکنند که مدل یاد بگیره برای هر پرامپتی کلی فکر نکنه. از ترکیب این دو دیتاست یک مرحله SFT دیگه اجرا میکنند. درنهایت هم برای بهبودهای عمومی مثل کاهش توهم و کمککننده بودن و ساختن گاردریلهای لازم، دوباره RL میزنند.
پس بطور خلاصه برخلاف رویه قبلی، اینجا دو بار SFT و سه بار RL اجرا میشه که البته منجر به ساخت دو مدل مجزا میشه. نکته جالب ماجرا اینه که در هر مرحلهای که از RL استفاده میکنند، از Reward های مختلف استفاده کردند که از جنبههای مختلف مدل رو بهبود بدهند. بعبارتی همون مکانیزم RLHF رو بجای اینکه یک بار اجرا کنند، چند بار اجرا کردند با این تفاوت که هر بار بطور تخصصی و عمیق یک جنبه از قدرتمندی مدل رو بهبود میدادند. انگار که کل اون پروسه بسیار هزینه بر رو انداخته باشند تو for loop با این توضیح که تو هر iteration یه گوشه از کار رو عمیقا درستش کردند. مثلا تو ایتریشن اول توانایی استدلال کردن تو کانتکس طولانی رو هندل کردن ولی خب مشکل خوانایی داشته. تو یه ایتریشن ثبات زبانی رو یادش دادند، تو ایتریشن بعد تسک های عمومی و بعد هم گاردریل ها و harmlessness و این موضوعات اخلاقی.
در آخر یک سری از متدهای پیچیده که برای Inference-time Scaling شدن مدلها معمولا اجرا میشده، اجرا نکردند چون دقت رو بهبود نمیداده و سعی کردند با long CoT توانایی استدلال مدل رو پیشرفت بدهند.
@AI_360
وقایع اتفاقیه AI
کمی درمورد جزئیات فنی DeepSeek-R1 . احتمالا این روزها اخبار مربوط به مدل جدید DeepSeek رو شنیدید. مدل Open Weight که وارد لیگ o1 شده و همتراز (و نه لزوما بهتر) با اون کد میزنه و ریاضی حل میکنه و استدلال میکنه. اما این وسط چیزی که بیشتر از خود مدل ارزشمند…
درمورد سرعت وحشتناک توسعهی هاگینگفیس زیاد صحبت شده. و همچنین نقش پررنگی که در مردمی (دموکراتایز) کردن تکنولوژیهای AI داشته. از کتابخانه trl گرفته که مکانیزم RLHF رو پیادهسازی کردند تا پیادهسازی مقالههای مهمی مثل LoRA. از توسعه تکنیکهای بهینهساز برای آموزش مدلها روی دیوایسهای کوچیک تا توسعه Inference engine برای دیپلوی LLM. هرکدوم از این موارد خودش کلی بحث میطلبه که چقدر ماها رو در استفاده بیشتر و بهتر از AI جلو برد.
حالا کنار توسعه این محصولات، دیروز محصول جدیدی رو شروع کردند به توسعه به نام Open-R1؛ که در اون کل pipeline که باهاش مدل DeepSeek-R1 ساخته شده رو پیادهسازی کردند. قطعا چنین کاری به اندازه خود انتشار مقاله و مدل دیپسیک مهمه و یک قدم مهمی است در جهت تکرارپذیری راحت و بیدردسر تکنولوژیهایی که تا چند روز پیش منحصر به یکی دوتا شرکت بزرگ AI بود.
@AI_360
حالا کنار توسعه این محصولات، دیروز محصول جدیدی رو شروع کردند به توسعه به نام Open-R1؛ که در اون کل pipeline که باهاش مدل DeepSeek-R1 ساخته شده رو پیادهسازی کردند. قطعا چنین کاری به اندازه خود انتشار مقاله و مدل دیپسیک مهمه و یک قدم مهمی است در جهت تکرارپذیری راحت و بیدردسر تکنولوژیهایی که تا چند روز پیش منحصر به یکی دوتا شرکت بزرگ AI بود.
@AI_360
GitHub
GitHub - huggingface/open-r1: Fully open reproduction of DeepSeek-R1
Fully open reproduction of DeepSeek-R1. Contribute to huggingface/open-r1 development by creating an account on GitHub.
Forwarded from Out of Distribution (Mahdi)
ضرب شست چینیها: R1 > O1
بیشک، رونمایی از مدل DeepSeek R1 داغترین اتفاق چند روز گذشته هوش مصنوعی بود. زلزلهای که لرزههاش به هوش مصنوعی محدود نموند و پسلرزههاش امروز باعث ریزش ۲۰ درصدی قیمت سهام nvidia در ۵ روز گذشته شده و این افت nvidia هم مثل یک دومینو باعث ریزش قیمت بیت کوین و سایررمزارزها شده. اما قضیه کلا از چه قراره و اهمیت DeepSeek R1 در چیه؟
- اولا این که این اولین جهش و درخشش DeepSeek نیست. حدود ۲۰ روز پیش این شرکت چینی، مدل DeepSeek V3 خودش رو به صورت اوپن سورس منتشر کرد. مدلی که در عملکرد بالاتر از Llama و در رقابت نزدیک با GPT-4o قرار میگیره و البته طبق ادعاش تنها با ۵.۵ میلیون دلار آموزش دیده. اهمیت DeepSeek V3 در این بود که آموزش مدل در اون ابعاد مخصوصا با در نظر گرفتن تحریم GPUهای H100 که آمریکا روی چینیها تحمیل کرده کار راحتی نیست. در واقع برای آموزش LLMهایی در این ابعاد باید تعداد بسیار زیادی H100 به هم متصل بشن و با هم آموزش ببینند و آمریکا هم فروش H100 به چین رو ممنوع کرده. سر همین داستان هم، nvidia یک نسخه دستکاریشده از H100 به نام H800 رو که نرخ انتقال داده کمتری نسبت به اون داره رو برای چینیها میسازه و بهشون میفروشه.. و این حدس زده شد که این چینیها GPUهای H800 رو به هم متصل کردند و سپس در سطحی پایینتر از Cuda اونها رو پروگرم کردند تا به چنین عملکردی بتونن برسند.
- دوما اما این که ماجرا به DeepSeek V3 ختم نشد و چینیها پس از پنجه در پنجه انداختن با GPT-4o این بار سراغ زورآزمایی با GPT-o1 رفتند و از مدل DeepSeek R1 رونمایی کردند. نکته این مدل اینه که قدرت reasoning ای در سطح o1 داره، با صرفا ۶ میلیون دلار هزینه درست شده و قیمت اینفرنسش هم نسبت به o1 پایین تره، به طوری که اگر قیمت o1 به ازای هر یک میلیون توکن ورودی و خروجی، ۱۵ دلار و ۶۰ دلاره، این نرخ برای R1 تنها ۰.۵۵ و ۲.۱۹ دلاره!
- سوما، اما نکته فنی که نتونستم ازش عبور کنم، نوآوری R1 در نحوه آموزشش هست. مغز نوآوری که چینیها برای این مدل به خرج دادند اینه که به جای استفاده از SFT مستقیما از RL استفاده کردند. دقت کنید که RL و نه RLHF! یعنی مدل رو صرفا در یک ستینگ RL اون هم با دو ریوارد مدل سادهای که یکیشون جواب نهایی رو قراره چک کنه و یکیشون هم قراره که مدل رو ملزم به خروجی داده در یک فورمت خاصی کنه، آموزش دادند. نکته جالب اینه که این ریوارد مدلها یعنی بسیار ساده هستند و صرفا میشه Rule-Based شون دید. نکته جالب دیگه این که گفتند استفاده از PRM یا همون Process Reward Model هم براشون سود خاصی نداشته و تکنیکهای Inference time compute هم تفاوت چندانی در جواب نداشته. در حالی که این تکنیکها، تکیهگاههای اصلی مدل O1 هستند، R1 بدون چنین تکنیکهایی به چنین سطح عملکرد رسیده. از کل این بند همون bitter lesson در ذهن تداعی میشه که وجود داده و ظرفیت محاسبه کافی، برای رسیدن به هوش کافیه.
- چهارما، حالا چرا سیلیکون ولی و nvidia شوک دیدند؟ حرف و حدیث در این زمینه زیاده. بعضیها با عینک خیلی فنی این جوری تحلیل کردند که شاید این که روش R1 تونسته بدون تکیه بر تکنیکهای Inference Time Compute که مستلزم استفاده بیشتر از قدرت محاسباتی هستند، به AGI نزدیک بشه از اهمیت GPUها کاسته. تکه اولش درسته ولی خب تکه دومش نه، چرا که به هر حال با رواج این مدل هم میزان مصرف GPUها بیشتر میشه. توضیح جالبی که دیدم این بود که اولا این یک شوک موقتی هست و ناشی از سه چیزه. اولا این که بالاخره چینیها تونستند در زمینه مدلهای زبانی به رقابت نزدیک به آمریکا برسند و در حالی که همیشه آزمایشگاههای هوش مصنوعی چینی عقبتر از آمریکاییها بودند، R3 به مثابه یک شوک و نقطه عطف برای مونوپلی آمریکا در هوش میتونه باشه. دوما این که قیمت پایین آموزش و اینفرنس R1 میتونه باعث یک تکانه به وابستگی به nvidia باشه که البته صرفا در حد یک شوک موقته. و سوما هم این که از این زاویه میشه نگاه کرد که DeepSeek تونسته تحریمهای آمریکا در زمینه GPU رو کماثرتر بکنه و شاید این روند در آینده ادامه دار باشه.
- پنجما، آیا DeepSeek برده؟ نه خیر و نه هنوز. چرا که o3 هنوز عملکرد بسیار بهتری نسبت به R1 داره، با این وجود R1 کاراتره، هم میتونه روی دیوایسها اجرا بشه و هم هزینه اینفرنس پایینتری داره و هم با اوپن سورس کردنش فشار رو برای کاهش قیمت به مدلهایی مثل o1 و o1-mini وارد میکنه. باید دید رقابت بین آمریکاییها و چینیها در ادامه چه خواهد شد. الله اعلم.
لینک پیپر R1:
arxiv.org/abs/2501.12948
یک سری لینک مفید دیگه برای توضیحات:
stratechery.com/2025/deepseek-faq/
youtubetranscriptoptimizer.com/blog/05_the_short_case_for_nvda
بیشک، رونمایی از مدل DeepSeek R1 داغترین اتفاق چند روز گذشته هوش مصنوعی بود. زلزلهای که لرزههاش به هوش مصنوعی محدود نموند و پسلرزههاش امروز باعث ریزش ۲۰ درصدی قیمت سهام nvidia در ۵ روز گذشته شده و این افت nvidia هم مثل یک دومینو باعث ریزش قیمت بیت کوین و سایررمزارزها شده. اما قضیه کلا از چه قراره و اهمیت DeepSeek R1 در چیه؟
- اولا این که این اولین جهش و درخشش DeepSeek نیست. حدود ۲۰ روز پیش این شرکت چینی، مدل DeepSeek V3 خودش رو به صورت اوپن سورس منتشر کرد. مدلی که در عملکرد بالاتر از Llama و در رقابت نزدیک با GPT-4o قرار میگیره و البته طبق ادعاش تنها با ۵.۵ میلیون دلار آموزش دیده. اهمیت DeepSeek V3 در این بود که آموزش مدل در اون ابعاد مخصوصا با در نظر گرفتن تحریم GPUهای H100 که آمریکا روی چینیها تحمیل کرده کار راحتی نیست. در واقع برای آموزش LLMهایی در این ابعاد باید تعداد بسیار زیادی H100 به هم متصل بشن و با هم آموزش ببینند و آمریکا هم فروش H100 به چین رو ممنوع کرده. سر همین داستان هم، nvidia یک نسخه دستکاریشده از H100 به نام H800 رو که نرخ انتقال داده کمتری نسبت به اون داره رو برای چینیها میسازه و بهشون میفروشه.. و این حدس زده شد که این چینیها GPUهای H800 رو به هم متصل کردند و سپس در سطحی پایینتر از Cuda اونها رو پروگرم کردند تا به چنین عملکردی بتونن برسند.
- دوما اما این که ماجرا به DeepSeek V3 ختم نشد و چینیها پس از پنجه در پنجه انداختن با GPT-4o این بار سراغ زورآزمایی با GPT-o1 رفتند و از مدل DeepSeek R1 رونمایی کردند. نکته این مدل اینه که قدرت reasoning ای در سطح o1 داره، با صرفا ۶ میلیون دلار هزینه درست شده و قیمت اینفرنسش هم نسبت به o1 پایین تره، به طوری که اگر قیمت o1 به ازای هر یک میلیون توکن ورودی و خروجی، ۱۵ دلار و ۶۰ دلاره، این نرخ برای R1 تنها ۰.۵۵ و ۲.۱۹ دلاره!
- سوما، اما نکته فنی که نتونستم ازش عبور کنم، نوآوری R1 در نحوه آموزشش هست. مغز نوآوری که چینیها برای این مدل به خرج دادند اینه که به جای استفاده از SFT مستقیما از RL استفاده کردند. دقت کنید که RL و نه RLHF! یعنی مدل رو صرفا در یک ستینگ RL اون هم با دو ریوارد مدل سادهای که یکیشون جواب نهایی رو قراره چک کنه و یکیشون هم قراره که مدل رو ملزم به خروجی داده در یک فورمت خاصی کنه، آموزش دادند. نکته جالب اینه که این ریوارد مدلها یعنی بسیار ساده هستند و صرفا میشه Rule-Based شون دید. نکته جالب دیگه این که گفتند استفاده از PRM یا همون Process Reward Model هم براشون سود خاصی نداشته و تکنیکهای Inference time compute هم تفاوت چندانی در جواب نداشته. در حالی که این تکنیکها، تکیهگاههای اصلی مدل O1 هستند، R1 بدون چنین تکنیکهایی به چنین سطح عملکرد رسیده. از کل این بند همون bitter lesson در ذهن تداعی میشه که وجود داده و ظرفیت محاسبه کافی، برای رسیدن به هوش کافیه.
- چهارما، حالا چرا سیلیکون ولی و nvidia شوک دیدند؟ حرف و حدیث در این زمینه زیاده. بعضیها با عینک خیلی فنی این جوری تحلیل کردند که شاید این که روش R1 تونسته بدون تکیه بر تکنیکهای Inference Time Compute که مستلزم استفاده بیشتر از قدرت محاسباتی هستند، به AGI نزدیک بشه از اهمیت GPUها کاسته. تکه اولش درسته ولی خب تکه دومش نه، چرا که به هر حال با رواج این مدل هم میزان مصرف GPUها بیشتر میشه. توضیح جالبی که دیدم این بود که اولا این یک شوک موقتی هست و ناشی از سه چیزه. اولا این که بالاخره چینیها تونستند در زمینه مدلهای زبانی به رقابت نزدیک به آمریکا برسند و در حالی که همیشه آزمایشگاههای هوش مصنوعی چینی عقبتر از آمریکاییها بودند، R3 به مثابه یک شوک و نقطه عطف برای مونوپلی آمریکا در هوش میتونه باشه. دوما این که قیمت پایین آموزش و اینفرنس R1 میتونه باعث یک تکانه به وابستگی به nvidia باشه که البته صرفا در حد یک شوک موقته. و سوما هم این که از این زاویه میشه نگاه کرد که DeepSeek تونسته تحریمهای آمریکا در زمینه GPU رو کماثرتر بکنه و شاید این روند در آینده ادامه دار باشه.
- پنجما، آیا DeepSeek برده؟ نه خیر و نه هنوز. چرا که o3 هنوز عملکرد بسیار بهتری نسبت به R1 داره، با این وجود R1 کاراتره، هم میتونه روی دیوایسها اجرا بشه و هم هزینه اینفرنس پایینتری داره و هم با اوپن سورس کردنش فشار رو برای کاهش قیمت به مدلهایی مثل o1 و o1-mini وارد میکنه. باید دید رقابت بین آمریکاییها و چینیها در ادامه چه خواهد شد. الله اعلم.
لینک پیپر R1:
arxiv.org/abs/2501.12948
یک سری لینک مفید دیگه برای توضیحات:
stratechery.com/2025/deepseek-faq/
youtubetranscriptoptimizer.com/blog/05_the_short_case_for_nvda
arXiv.org
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via...
We introduce our first-generation reasoning models, DeepSeek-R1-Zero and DeepSeek-R1. DeepSeek-R1-Zero, a model trained via large-scale reinforcement learning (RL) without supervised fine-tuning...
وقایع اتفاقیه AI
ضرب شست چینیها: R1 > O1 بیشک، رونمایی از مدل DeepSeek R1 داغترین اتفاق چند روز گذشته هوش مصنوعی بود. زلزلهای که لرزههاش به هوش مصنوعی محدود نموند و پسلرزههاش امروز باعث ریزش ۲۰ درصدی قیمت سهام nvidia در ۵ روز گذشته شده و این افت nvidia هم مثل یک دومینو…
مهدی سمیعی به خوبی و خیلی بهتر از من ابعاد فنی و غیرفنی دیگه این پدیدهی چینی رو باز کرد. حیفم اومد نذارم.
بعد از خوندن این پست دو نکته دیگه به ذهنم رسید. یک اینکه تا الان اگر همهی مدلها رو با RLHF آموزش میدادن، احتمالا از این به بعد روی تسکهای برنامهنویسی بیشتر از قبل با RL مستقیم و با ریوارد مدل Rule-based آموزش بدن و روی این تکنیک، خط پژوهشی جدیدی باز بشه. در مقابل تسکهایی که بحث preference مطرحه و درست و غلط شفافی نیست همچنان RLHF و ریواردمدلهای پیچیده کارساز باشه و مجبور باشند این تکنیکها رو رها نکنند.
دوم اینکه بنظرم یک احتمال دیگه اینجا مطرحه و اون اینکه باتوجه به اینکه تولید دیتاستهای کد و برنامهنویسی سادهتر از دیتاستهاییه که یا منطق فازی دارند یا درست و غلط شفافی ندارند یا از جنس Preference هستند و همچنین از طرف دیگه چون بازار تسکهای برنامهنویسی و کد پایداره و یوزرش رو پیدا کرده، مدلهای تخصصی مثل مدل برنامهنویس و مدل ریاضیدان از مدلهای با هوش و دانش عمومی جدا بشه و این مقدمهای باشه برای شروع مجدد دوره مدلهای Specific با این تفاوت که اینبار اما خیلی متخصص.
بعد از خوندن این پست دو نکته دیگه به ذهنم رسید. یک اینکه تا الان اگر همهی مدلها رو با RLHF آموزش میدادن، احتمالا از این به بعد روی تسکهای برنامهنویسی بیشتر از قبل با RL مستقیم و با ریوارد مدل Rule-based آموزش بدن و روی این تکنیک، خط پژوهشی جدیدی باز بشه. در مقابل تسکهایی که بحث preference مطرحه و درست و غلط شفافی نیست همچنان RLHF و ریواردمدلهای پیچیده کارساز باشه و مجبور باشند این تکنیکها رو رها نکنند.
دوم اینکه بنظرم یک احتمال دیگه اینجا مطرحه و اون اینکه باتوجه به اینکه تولید دیتاستهای کد و برنامهنویسی سادهتر از دیتاستهاییه که یا منطق فازی دارند یا درست و غلط شفافی ندارند یا از جنس Preference هستند و همچنین از طرف دیگه چون بازار تسکهای برنامهنویسی و کد پایداره و یوزرش رو پیدا کرده، مدلهای تخصصی مثل مدل برنامهنویس و مدل ریاضیدان از مدلهای با هوش و دانش عمومی جدا بشه و این مقدمهای باشه برای شروع مجدد دوره مدلهای Specific با این تفاوت که اینبار اما خیلی متخصص.
درمورد چیستی و چرایی MCP
مدتیه که درمورد MCP یا همون Model Context Protocol و کاربردهاش زیاد صحبت میشه. پروتکلی که توسط آنتروپیک توسعه داده شده تا استانداردی باشه برای ارائه کانتکس بیشتر به LLM ها. چیزی شبیه USB-C برای کامپیوترها. باوجود اینکه این پروتکل نوامبر 2024 (آذرماه 03) معرفی شد، اما سه ماه بعد - پس از اینکه در عمل کمی خودش رو نشون داد - بحث درموردش تو محافل و کامیونیتیها گل انداخت. هم موافقان زیادی داره و حجم هیجانها رو میشه از روی تعداد استار پروژه دید. هم ابهاماتی درموردش مطرح هست و عدهای سعی در زیرسوال بردنش دارند. از اونجا که بشخصه درگیر توسعه Agent ها هستم سعی کردم بفهممش. اینجا سعی کردم توضیحاتی درمورد اینکه چطوری کار میکنه، چه نیازی بهش داریم و چه معایبی داره بنویسم.
@AI_360
مدتیه که درمورد MCP یا همون Model Context Protocol و کاربردهاش زیاد صحبت میشه. پروتکلی که توسط آنتروپیک توسعه داده شده تا استانداردی باشه برای ارائه کانتکس بیشتر به LLM ها. چیزی شبیه USB-C برای کامپیوترها. باوجود اینکه این پروتکل نوامبر 2024 (آذرماه 03) معرفی شد، اما سه ماه بعد - پس از اینکه در عمل کمی خودش رو نشون داد - بحث درموردش تو محافل و کامیونیتیها گل انداخت. هم موافقان زیادی داره و حجم هیجانها رو میشه از روی تعداد استار پروژه دید. هم ابهاماتی درموردش مطرح هست و عدهای سعی در زیرسوال بردنش دارند. از اونجا که بشخصه درگیر توسعه Agent ها هستم سعی کردم بفهممش. اینجا سعی کردم توضیحاتی درمورد اینکه چطوری کار میکنه، چه نیازی بهش داریم و چه معایبی داره بنویسم.
@AI_360
Telegraph
درمورد چیستی و چرایی پروتکل MCP
مدتیه که درمورد MCP یا همون Model Context Protocol و کاربردهاش زیاد صحبت میشه. پروتکلی که توسط آنتروپیک توسعه داده شده تا استانداردی باشه برای ارائه کانتکس بیشتر به LLM ها. چیزی شبیه USB-C برای کامپیوترها. باوجود اینکه این پروتکل نوامبر 2024 (آذرماه 03)…
پدیدهی Catastrophic Overtraining.
تو بحث قانون مقیاس LLM ها یک اصلی که مطرح بود این بود که برای ساخت LLM بهینه باید هرچقدر که پارامترهای مدل رو افزایش میدیم دیتای pre-train هم بصورت خطی باید افزایش پیدا کنه. بعدا این موضوع مطرح شد که میشه هدفمون لزوما ساخت LLM با هزینه محاسباتی بهینه نباشه و با پذیرفتن یک سربار محاسباتی، LLM کوچکتر و با تعداد پارامتر کمتری آموزش بدیم که دقتش معادل همون LLM باشه که با هزینه محاسباتی بهینه ساخته شده. که در این صورت باید طبیعتا حجم دیتایی که LLM میبینه رو افزایش بدیم (اینجا مفصل درموردش نوشتم). این موضوع باعث شد که کمپانیهای بزرگ کلا در توسعه LLM به سمت توسعهی مدلهای کلاس 7 میلیاردی با حجم توکن در مقیاس تریلیون برن و این سبک توسعه LLM تبدیل به یک عرف شد. مثال معروفش Llama-3 است که با 15T توکن آموزش دید. این عدد معادل 75 برابر میزان توکنی بود که درحالت بهینه باید آموزش دیده میشد.
حالا یک پیپر جدیدی منتشر شده و عملکرد اینجور LLM ها در Post-training و تسکهای پایین دستی (downstream) رو بررسی کرده و کلا این سبک و سیاق توسعه LLM رو زیرسوال برده و میگه فرض «هرچه دیتا بیشتر، بهتر» لزوما درست نیست و درسته که عملکرد مدل رو درحالت Zero-shot بهتر میکنه ولی وقتی مدل رو میبریم تو مرحله Instruction-tuning اونجا گند میزنه. اسم این پدیده رو گذاشتند Catastrophic Overtraining.
این مساله رو به چند شکل آزمایش کردند. اول اومدند یه تعداد LLM رو انتخاب کردند و با دو بودجه توکنی متفاوت آموزششون دادند. بعنوان مثال مدل OLMo-1B رو یک بار با 2.3T توکن و یک بار هم با 3T توکن آموزش دادند و بعد هر دو رو بردند تو مرحله Instruction-tuning و بعد نتایج عملکردشون رو روی بنچمارکهای معروف بررسی کردند و دیدند مدلی که 2.3T توکن آموزش دیده 2% عملکرد بهتری داره. سراغ مدلهای مالتی مودال مثل Llava هم رفتند و همین نتیجه رو گرفتند.
جذابیت پیپر بنظرم در آزمایشهای کنترل شدهتر بعدی بود. در ادامه اومدند یک سری نویز نرمال به وزنهای مدلهایی که با بودجه توکنی مختلف آموزش دیدن اضافه کردند و دیدند مدلهایی که در Pre-train حجم توکن خیلی زیادی دیدند، بعد از Instruction-tuning دچار سرگشتگی (Perplexity) بیشتری میشن. سرگشتگی رو اینطور میشه تعریف کرد که به ازای هر Next token که مدل میخواد پیشبینی کنه، مدل یه توزیع احتمالی برای تمام کلمات موجود در توکنایزر میسازه. پس هرچه این توزیع احتمال روی یک تعداد توکن خیلی محدود همگرا باشه این یعنی قطعیت مدل بیشتره و هرچه واگرا باشه سرگشتگی مدل بیشتره و این یعنی مدل نمیدونه چی کار کنه.
بعبارتی اگر تو مرحله Pre-train مدل زیادی دیتا ببینه و آموزش طول بکشه، ویژگیهایی که یاد میگیره بیشتر درهمتنیده است و این ویژگیهای درهمتنیده بیشتر مختص distribution دیتاست Pre-train عه. در نتیجه پارامترهای مدل خیلی شکننده میشه و حساسیت به تغییر بالا میره و دیگه خیلی راحت نمیتونه تسکهای out-of-distribution موجود در Instruction-tuning رو یاد بگیره.
پ.ن: این مساله رو بارها در این یکسال اخیر هم تجربه کردیم و هم به شکلهای دیگه بحثش مطرح شده ولی این پیپر خیلی جامع و اصولی به قضیه پرداخت. مثلا در بررسی این این پیپر متوجه میشیم که فاینتیون مدلهای Close-source مثل GPT-4 خیلی کارآمد نیستند و این مدلها در آپدیت دانش قبلی خودش و استنتاج و Generalization بسیار ضعیف عمل میکنند. تو بعضی از مدلهای اوپن مثل همین Llama-3 هم این قضیه بوده و بعضا تجربه شده.
@AI_360
تو بحث قانون مقیاس LLM ها یک اصلی که مطرح بود این بود که برای ساخت LLM بهینه باید هرچقدر که پارامترهای مدل رو افزایش میدیم دیتای pre-train هم بصورت خطی باید افزایش پیدا کنه. بعدا این موضوع مطرح شد که میشه هدفمون لزوما ساخت LLM با هزینه محاسباتی بهینه نباشه و با پذیرفتن یک سربار محاسباتی، LLM کوچکتر و با تعداد پارامتر کمتری آموزش بدیم که دقتش معادل همون LLM باشه که با هزینه محاسباتی بهینه ساخته شده. که در این صورت باید طبیعتا حجم دیتایی که LLM میبینه رو افزایش بدیم (اینجا مفصل درموردش نوشتم). این موضوع باعث شد که کمپانیهای بزرگ کلا در توسعه LLM به سمت توسعهی مدلهای کلاس 7 میلیاردی با حجم توکن در مقیاس تریلیون برن و این سبک توسعه LLM تبدیل به یک عرف شد. مثال معروفش Llama-3 است که با 15T توکن آموزش دید. این عدد معادل 75 برابر میزان توکنی بود که درحالت بهینه باید آموزش دیده میشد.
حالا یک پیپر جدیدی منتشر شده و عملکرد اینجور LLM ها در Post-training و تسکهای پایین دستی (downstream) رو بررسی کرده و کلا این سبک و سیاق توسعه LLM رو زیرسوال برده و میگه فرض «هرچه دیتا بیشتر، بهتر» لزوما درست نیست و درسته که عملکرد مدل رو درحالت Zero-shot بهتر میکنه ولی وقتی مدل رو میبریم تو مرحله Instruction-tuning اونجا گند میزنه. اسم این پدیده رو گذاشتند Catastrophic Overtraining.
این مساله رو به چند شکل آزمایش کردند. اول اومدند یه تعداد LLM رو انتخاب کردند و با دو بودجه توکنی متفاوت آموزششون دادند. بعنوان مثال مدل OLMo-1B رو یک بار با 2.3T توکن و یک بار هم با 3T توکن آموزش دادند و بعد هر دو رو بردند تو مرحله Instruction-tuning و بعد نتایج عملکردشون رو روی بنچمارکهای معروف بررسی کردند و دیدند مدلی که 2.3T توکن آموزش دیده 2% عملکرد بهتری داره. سراغ مدلهای مالتی مودال مثل Llava هم رفتند و همین نتیجه رو گرفتند.
جذابیت پیپر بنظرم در آزمایشهای کنترل شدهتر بعدی بود. در ادامه اومدند یک سری نویز نرمال به وزنهای مدلهایی که با بودجه توکنی مختلف آموزش دیدن اضافه کردند و دیدند مدلهایی که در Pre-train حجم توکن خیلی زیادی دیدند، بعد از Instruction-tuning دچار سرگشتگی (Perplexity) بیشتری میشن. سرگشتگی رو اینطور میشه تعریف کرد که به ازای هر Next token که مدل میخواد پیشبینی کنه، مدل یه توزیع احتمالی برای تمام کلمات موجود در توکنایزر میسازه. پس هرچه این توزیع احتمال روی یک تعداد توکن خیلی محدود همگرا باشه این یعنی قطعیت مدل بیشتره و هرچه واگرا باشه سرگشتگی مدل بیشتره و این یعنی مدل نمیدونه چی کار کنه.
بعبارتی اگر تو مرحله Pre-train مدل زیادی دیتا ببینه و آموزش طول بکشه، ویژگیهایی که یاد میگیره بیشتر درهمتنیده است و این ویژگیهای درهمتنیده بیشتر مختص distribution دیتاست Pre-train عه. در نتیجه پارامترهای مدل خیلی شکننده میشه و حساسیت به تغییر بالا میره و دیگه خیلی راحت نمیتونه تسکهای out-of-distribution موجود در Instruction-tuning رو یاد بگیره.
پ.ن: این مساله رو بارها در این یکسال اخیر هم تجربه کردیم و هم به شکلهای دیگه بحثش مطرح شده ولی این پیپر خیلی جامع و اصولی به قضیه پرداخت. مثلا در بررسی این این پیپر متوجه میشیم که فاینتیون مدلهای Close-source مثل GPT-4 خیلی کارآمد نیستند و این مدلها در آپدیت دانش قبلی خودش و استنتاج و Generalization بسیار ضعیف عمل میکنند. تو بعضی از مدلهای اوپن مثل همین Llama-3 هم این قضیه بوده و بعضا تجربه شده.
@AI_360
فرایند Latent Reasoning؛ قدمی در راستای تفکر انسانگونه
.
فرایند Reasoning که تو بعضی مدلهای زبانی جدید وجود داره از لحاظ ماهوی و معماری هیچ تفاوتی با مدلهای قبل از خودش نداره. در واقع Thinking چیزی نبود جز همون Next Token Generation که مکانیزم اصلی مدلهای Generative هست با این تفاوت که در این مدلها بواسطه CoT و تولید توکن بیشتر Inference time طول میکشید و بخشی از توکنهایی که تولید میکرد بعنوان thinking تولید میشد. این در حالیه که ما انسانها فکر کردنمون با حرف زدنمون یکی نیست و فکر کردن قبل از صحبت کردن در درون اتفاق میافته.
این پیپر سعی کرده چنین مکانیزمی رو پیاده کنه؛ به این معنی که مدل بتونه قبل از تولید توکن به کمک Recurrent block های که تو معماری گذاشتند در Latent Space «فکر» کنه و پس از خروج از بلوک Recurrent شروع به تولید توکن کنه. به این شکل فرایند تفکر دیگه معادل با حرف زدن نیست و شبیه انسان قبل از صحبت کردن فرایند تفکر رخ داده.
چیزی که در بلوکهای Recurrent انجام می شه اینه که اول توکنهای ورودی امبد میشن و میرن تو فضای لایههای Recurrent و بعد اونجا در یه فرایند iterative این Latent state ها آپدیت میشن. درنهایت بعد از چندین iteration این Latent state ها میرن که با عبور از بقیه معماری توکن بعدی رو تولید کنند.
جذابیت این روش اینه که به تناسب تسک میزان این iteration متفاوته و مدل خودش این رو یاد میگیره که مثلا برای ریاضیات بیشتر iterate کنه و در مسائل ساده کمتر.
این روش چندتا مزیت خیلی مهم داره. اولا فرایند آموزش رو سریع میکنه چون نیاز به تولید توکن نیست. دوما چون کانتکس رو با توکنهای thinking پر نمیکنه استفاده بهینهای از Context Window میشه و این باعث کارایی بیشتر مدل میشه. سوما استدلالاتی که تبدیلشون به کلمه کار سختیه رو میتونه انجام بده.
البته این پیپر و مدل کوچیکی که توسعه دادند در حد Proof of concept هست ولی خب از اون ریسرچهاست که امید بسیار زیادی بهش هست.
@AI_360
.
فرایند Reasoning که تو بعضی مدلهای زبانی جدید وجود داره از لحاظ ماهوی و معماری هیچ تفاوتی با مدلهای قبل از خودش نداره. در واقع Thinking چیزی نبود جز همون Next Token Generation که مکانیزم اصلی مدلهای Generative هست با این تفاوت که در این مدلها بواسطه CoT و تولید توکن بیشتر Inference time طول میکشید و بخشی از توکنهایی که تولید میکرد بعنوان thinking تولید میشد. این در حالیه که ما انسانها فکر کردنمون با حرف زدنمون یکی نیست و فکر کردن قبل از صحبت کردن در درون اتفاق میافته.
این پیپر سعی کرده چنین مکانیزمی رو پیاده کنه؛ به این معنی که مدل بتونه قبل از تولید توکن به کمک Recurrent block های که تو معماری گذاشتند در Latent Space «فکر» کنه و پس از خروج از بلوک Recurrent شروع به تولید توکن کنه. به این شکل فرایند تفکر دیگه معادل با حرف زدن نیست و شبیه انسان قبل از صحبت کردن فرایند تفکر رخ داده.
چیزی که در بلوکهای Recurrent انجام می شه اینه که اول توکنهای ورودی امبد میشن و میرن تو فضای لایههای Recurrent و بعد اونجا در یه فرایند iterative این Latent state ها آپدیت میشن. درنهایت بعد از چندین iteration این Latent state ها میرن که با عبور از بقیه معماری توکن بعدی رو تولید کنند.
جذابیت این روش اینه که به تناسب تسک میزان این iteration متفاوته و مدل خودش این رو یاد میگیره که مثلا برای ریاضیات بیشتر iterate کنه و در مسائل ساده کمتر.
این روش چندتا مزیت خیلی مهم داره. اولا فرایند آموزش رو سریع میکنه چون نیاز به تولید توکن نیست. دوما چون کانتکس رو با توکنهای thinking پر نمیکنه استفاده بهینهای از Context Window میشه و این باعث کارایی بیشتر مدل میشه. سوما استدلالاتی که تبدیلشون به کلمه کار سختیه رو میتونه انجام بده.
البته این پیپر و مدل کوچیکی که توسعه دادند در حد Proof of concept هست ولی خب از اون ریسرچهاست که امید بسیار زیادی بهش هست.
@AI_360
Forwarded from DesAIn (Hassan Bashari)
ورود مدل جدید متا لاما ۴ یه اتفاق بزرگ به حساب میاد
نه از این جهت که یه سری بنچمارکها رو جابجا کرده
اونا مهم نیست اونا همچنان در حال جابجا شدن خواهند بود
قدم بزرگی که این مدل برداشته حرکت بزرگ به سمت حذف آموزش مدلهاست
حرکت به این سمت که در نقطه به کارگیری هوش مصنوعی دیگه نیازی به آموزش مدل نداشته باشیم
۱۰ میلیون توکن اندازه ورودی این مدل جدیده
و این یعنی اینکه ما داریم به نقطهای میرسیم که دادههایی که که قبلاً برای آموزش مدل به کار میرفتند میتونن به سادگی در پرامت قرار بگیرند
یه اصطلاحاً کپی پیست ساده
در لایه کاربرد این یه انقلاب میتونه باشه
نه فقط از جهت کاهش هزینه
بلکه بالا رفتن سرعت آزمون و خطای محصول
این لینک توضیحات فنی تکمیلی خوبی داره
نه از این جهت که یه سری بنچمارکها رو جابجا کرده
اونا مهم نیست اونا همچنان در حال جابجا شدن خواهند بود
قدم بزرگی که این مدل برداشته حرکت بزرگ به سمت حذف آموزش مدلهاست
حرکت به این سمت که در نقطه به کارگیری هوش مصنوعی دیگه نیازی به آموزش مدل نداشته باشیم
۱۰ میلیون توکن اندازه ورودی این مدل جدیده
و این یعنی اینکه ما داریم به نقطهای میرسیم که دادههایی که که قبلاً برای آموزش مدل به کار میرفتند میتونن به سادگی در پرامت قرار بگیرند
یه اصطلاحاً کپی پیست ساده
در لایه کاربرد این یه انقلاب میتونه باشه
نه فقط از جهت کاهش هزینه
بلکه بالا رفتن سرعت آزمون و خطای محصول
این لینک توضیحات فنی تکمیلی خوبی داره
Forwarded from Dev Tweet
Please open Telegram to view this post
VIEW IN TELEGRAM
توهم لیدربورد و آیندهی بنچمارکینگ
.
نمیدونم از مقاله اخیر شرکت Cohere خبر دارید یا نه. مقالهای با عنوان «توهم لیدربورد!» که برخلاف معمول پیپرها نه حول محور مدلهای زبانی بود نه بنچمارک جدیدی معرفی کرده و نه صحبتی از قابلیت و معماری جدید بود. بلکه به نوعی افشاگری بود علیه سیستم رنکینگ Arena که تیم LMsys راهاندازی کرده و تا الان میشه گفت معتبرترین بنچمارک مدلهای زبانی به شمار میاد.
خلاصه افشاگری اینه که تو این سیستم، شرکتهای بزرگ «از ما بهترون» هستند و مدلهاشون (مثل GPT یا Gemini یا لاما) بیش از مدلهای وزنباز مورد لطف قرار میگیره توسط این تیم و دارای امتیازاتی است که مدلهای وزنباز این امتیازات و امکانات رو ندارند. مثلا این شرکتها به Sample rate بزرگتری از دیتاست Arena دسترسی دارند. برای مثال گوگل و اوپنایآی به ترتیب ۱۹.۲٪ و ۲۰.۴٪ از دادهها را دریافت کردهاند، در حالی که ۸۳ مدل متنباز فقط ۲۹.۷٪ داده دارند. این نابرابری باعث برتری ناعادلانه مدلهای اختصاصی میشه. امتیاز دیگهی این شرکتها اینه که انقدر نسخههای مختلفی از یک LLM رو ارایه میدن تا بهترین نتیجه رو تو Arena بگیرند. در واقع یهجورایی با دادن نسخههای مختلف سعی میکنند مدلشون رو روی دیتاست Arena اپتیمایز کنند. برای مثال لاما 4 یه چیزی حدود 27 بار مدل ریلیز کرد تا بتونه یه مدلی منتشر کنه که تو Arena جایگاهی خوبی داشته باشه. (لعنت بر متا)
این وسط کرپثی هم طی یک توییتی سعی میکنه به خوبی از کار شرکت Cohere دفاع کنه و همچنین نکات خوبی درمورد آینده بنچمارکینگ مطرح کنه. توییتش بنظرم دو نکته جالب داشت. یکی اینکه با اشاره به اون جملهی معروف جف بزوس (وقتی دادهها و روایتها با هم مغایرت دارند، روایتها معمولاً درست هستند) سعی کرد تایید کنه که بله خیلی از ماها این رو تجربه کردیم که روی لیدربورد یک سری مدلها بالا هستند ولی در عمل نتیجه خوبی نمیگیریم. نکته مهم دیگهاش این بود که درکنار پیشنهادات این مقاله برای بهتر شدن ارزیابی مدلها، این بحث رو باز کرد که اصلا آیندهی بنچمارکینگ در دستان امثال OpenRouter هست که نقش رپر بودن روی مدلها رو خوب بازی کرده و حجم زیادی از ریکوئستها به مدلها از این طریق انجام میشه و بنابراین رنکینگ اوپن روتر بسیار معتبرتر از بنچمارکهای فعلی است. چرا که Call کردن API و هزینه دادن بخاطر اون برای ساختن اپهای واقعی است و اینجا دیگه کار اسباببازیطور شکل نمیگیره. بنابراین رنکینگ خیلی واقعیتره.
پ.ن: امشب که این پست خانم هوکر که مدیر Cohere هست رو دیدم حیفم اومد ازش حرفی نزنم و گفتم به بهانه این ماجرا این شخصیت پنهان و ارزشمند هوش مصنوعی رو معرفی کنم. کسی که حواسش همیشه به non-consumer مدلهای زبانی هست و از اولین شرکتهایی بود که سراغ مدلهای چند زبانه رفت و مدل aya23 شون از اولین مدلهایی بود که فارسی رو ساپورت میکرد.
@AI_360
.
نمیدونم از مقاله اخیر شرکت Cohere خبر دارید یا نه. مقالهای با عنوان «توهم لیدربورد!» که برخلاف معمول پیپرها نه حول محور مدلهای زبانی بود نه بنچمارک جدیدی معرفی کرده و نه صحبتی از قابلیت و معماری جدید بود. بلکه به نوعی افشاگری بود علیه سیستم رنکینگ Arena که تیم LMsys راهاندازی کرده و تا الان میشه گفت معتبرترین بنچمارک مدلهای زبانی به شمار میاد.
خلاصه افشاگری اینه که تو این سیستم، شرکتهای بزرگ «از ما بهترون» هستند و مدلهاشون (مثل GPT یا Gemini یا لاما) بیش از مدلهای وزنباز مورد لطف قرار میگیره توسط این تیم و دارای امتیازاتی است که مدلهای وزنباز این امتیازات و امکانات رو ندارند. مثلا این شرکتها به Sample rate بزرگتری از دیتاست Arena دسترسی دارند. برای مثال گوگل و اوپنایآی به ترتیب ۱۹.۲٪ و ۲۰.۴٪ از دادهها را دریافت کردهاند، در حالی که ۸۳ مدل متنباز فقط ۲۹.۷٪ داده دارند. این نابرابری باعث برتری ناعادلانه مدلهای اختصاصی میشه. امتیاز دیگهی این شرکتها اینه که انقدر نسخههای مختلفی از یک LLM رو ارایه میدن تا بهترین نتیجه رو تو Arena بگیرند. در واقع یهجورایی با دادن نسخههای مختلف سعی میکنند مدلشون رو روی دیتاست Arena اپتیمایز کنند. برای مثال لاما 4 یه چیزی حدود 27 بار مدل ریلیز کرد تا بتونه یه مدلی منتشر کنه که تو Arena جایگاهی خوبی داشته باشه. (لعنت بر متا)
این وسط کرپثی هم طی یک توییتی سعی میکنه به خوبی از کار شرکت Cohere دفاع کنه و همچنین نکات خوبی درمورد آینده بنچمارکینگ مطرح کنه. توییتش بنظرم دو نکته جالب داشت. یکی اینکه با اشاره به اون جملهی معروف جف بزوس (وقتی دادهها و روایتها با هم مغایرت دارند، روایتها معمولاً درست هستند) سعی کرد تایید کنه که بله خیلی از ماها این رو تجربه کردیم که روی لیدربورد یک سری مدلها بالا هستند ولی در عمل نتیجه خوبی نمیگیریم. نکته مهم دیگهاش این بود که درکنار پیشنهادات این مقاله برای بهتر شدن ارزیابی مدلها، این بحث رو باز کرد که اصلا آیندهی بنچمارکینگ در دستان امثال OpenRouter هست که نقش رپر بودن روی مدلها رو خوب بازی کرده و حجم زیادی از ریکوئستها به مدلها از این طریق انجام میشه و بنابراین رنکینگ اوپن روتر بسیار معتبرتر از بنچمارکهای فعلی است. چرا که Call کردن API و هزینه دادن بخاطر اون برای ساختن اپهای واقعی است و اینجا دیگه کار اسباببازیطور شکل نمیگیره. بنابراین رنکینگ خیلی واقعیتره.
پ.ن: امشب که این پست خانم هوکر که مدیر Cohere هست رو دیدم حیفم اومد ازش حرفی نزنم و گفتم به بهانه این ماجرا این شخصیت پنهان و ارزشمند هوش مصنوعی رو معرفی کنم. کسی که حواسش همیشه به non-consumer مدلهای زبانی هست و از اولین شرکتهایی بود که سراغ مدلهای چند زبانه رفت و مدل aya23 شون از اولین مدلهایی بود که فارسی رو ساپورت میکرد.
@AI_360
چه مدلی برای ساختن Agent خوبه؟
این لیدربورد با بررسی مسایل مختلف کار با ایجنتها مثل ارور هندلینگ، تعاملات multi turn (چندین tool calling در یک راند) و انتخاب بهجا و درست tool ها مدلها رو بررسی کردند و چنین رنکینگی رو منتشر کردند.
بشخصه این رنکینگ با تجربهام از کار با ایجنتها همخونی داره. بخصوص درمورد جمنای که کلا این خانواده از مدلها معروفه که خیلی Agent friendly هستند و از این جهت بنظرم بازنمایی خوبی از وضعیت مدلهاست. تو کامیونیتی هم محبوبیت خوبی داره این لیدربورد. ضمن اینکه با رنکینگ اوپنروتر (بیشترین میزان مصرف API ها) هم همخوانی داره.
@AI_360
این لیدربورد با بررسی مسایل مختلف کار با ایجنتها مثل ارور هندلینگ، تعاملات multi turn (چندین tool calling در یک راند) و انتخاب بهجا و درست tool ها مدلها رو بررسی کردند و چنین رنکینگی رو منتشر کردند.
بشخصه این رنکینگ با تجربهام از کار با ایجنتها همخونی داره. بخصوص درمورد جمنای که کلا این خانواده از مدلها معروفه که خیلی Agent friendly هستند و از این جهت بنظرم بازنمایی خوبی از وضعیت مدلهاست. تو کامیونیتی هم محبوبیت خوبی داره این لیدربورد. ضمن اینکه با رنکینگ اوپنروتر (بیشترین میزان مصرف API ها) هم همخوانی داره.
@AI_360
ما تو «باسلام» با چالشهای مهمی روبهرو هستیم. نه از اونها که توی مقالات فقط حرفش هست — از اونهایی که حل کردنشون، روی اقتصاد فروشندگان آنلاین اثر میذاره. اگر دوست دارید یه رد ماندگاری از خودتون بهجا بذارید این سه موقعیت فرصت خوبیه:
- دیتاساینتیست End-to-End
میخوایم باسلام رو AI-first طراحی کنیم. برای این کار دنبال دیتاساینتیستهایی هستیم که از فهم پروداکت تا ساخت مدل و دیپلوی کردن، همهفنحریف باشن.
- متخصص Representation Learning
دنبال کسی هستیم که خاک Encoders رو خورده باشه و محصولات باسلامی رو طوری با زبان Vector بشناسه که وقتی کاربر "پنیر لیوان" سرچ میکنه، بفهمه منظورش "پنیر لیقوان" بوده و دقیقاً همون رو بهش نشون بده! :)
- مهندس نرمافزار هوش مصنوعی (LLM Agent Developer)
دنبال کسی هستیم که Agent هایی بسازه که فرایندهای باسلام رو هوشمند کنه. به شکلی که وقتی مشتری میپرسه "سلام، پس کی محصول به دستم میرسه؟!"، خودش بفهمه طرف عصبانیه و سریع بره دو تا ریکوئست به اداره پست بزنه و بهش پاسخ بده.
هر موقعیت، یه فرصت درست برای ساختنه. اگه فکر میکنی یکی از این مسئلهها، مسئلهی توئه، در خدمتیم!
- دیتاساینتیست End-to-End
میخوایم باسلام رو AI-first طراحی کنیم. برای این کار دنبال دیتاساینتیستهایی هستیم که از فهم پروداکت تا ساخت مدل و دیپلوی کردن، همهفنحریف باشن.
- متخصص Representation Learning
دنبال کسی هستیم که خاک Encoders رو خورده باشه و محصولات باسلامی رو طوری با زبان Vector بشناسه که وقتی کاربر "پنیر لیوان" سرچ میکنه، بفهمه منظورش "پنیر لیقوان" بوده و دقیقاً همون رو بهش نشون بده! :)
- مهندس نرمافزار هوش مصنوعی (LLM Agent Developer)
دنبال کسی هستیم که Agent هایی بسازه که فرایندهای باسلام رو هوشمند کنه. به شکلی که وقتی مشتری میپرسه "سلام، پس کی محصول به دستم میرسه؟!"، خودش بفهمه طرف عصبانیه و سریع بره دو تا ریکوئست به اداره پست بزنه و بهش پاسخ بده.
هر موقعیت، یه فرصت درست برای ساختنه. اگه فکر میکنی یکی از این مسئلهها، مسئلهی توئه، در خدمتیم!