وقایع اتفاقیه AI
717 subscribers
28 photos
2 videos
69 links
سعی‌مون اینه که به دور از هیاهوی اخبار زرد هوش مصنوعی، مسائل این حوزه رو پیگیری کنیم و بلاگ و تحلیل و مقاله و آموزش خوب به اشتراک بگذاریم. برای تطابق بهتر با آینده‌ای که Generative AI نقش پررنگی درش داره.
سوالی داشتید یا فیدبک در خدمتم:
@Esmln
Download Telegram
مدل لاما 405B اولین مدل اوپن سورس در سطح GPT4 هست و باتوجه به اینکه یک ریپورت ریز و با جزئیاتی توسط متا ازش منتشر شده، به راحتی می‌شه گفت دیگه هیچ سس مخفی برای ساخت مدل‌های هوشمند امروزی وجود نداره و همه چیز شفافه. اگه دوست داشتید بیشتر درمورد این مدل بدونید، آرتین دانشور یه پست خوب نوشته درموردش. حتما بخونید. خودش هم یه پلتفرم آورده بالا که می‌تونید هم این مدل و هم مدل‌های دیگه رو روش تست کنید.

لینک پست
@AI_360
This media is not supported in your browser
VIEW IN TELEGRAM
انتخاب و پیدا کردن محصول مورد علاقه از بین میلیون‌ها محصول به خودی خود چالش بزرگیه. حالا اگه از بین محصولات، یه سری محصول باشند که براساس تصویر و ظاهرش پسند بشه، عملا بازیابی محصول توسط اطلاعات متنی اون (مثل عنوان محصول) برای این محصولات بلااستفاده است.

خداقوت به همه دوستانی که زحمت کشیدند تا جستجوی تصویری بیاد روی پروداکشن باسلام ✌️

لینک جستجوی تصویری:
Basalam.com/s/image

@AI_360
مدل o1 و معرفی پارادایم جدید برای مقیاس Inference


تا الان روال این بوده که بودجه محاسباتی و پردازشی LLM ها، عمدتا صرف مرحله Pre-train یا همون ساخت LLM ها می‌شه و بودجه عجیبی برای Inference در نظر گرفته نمیشه. چرا که به ازای هر پرامپتی که سمت LLM میاد، یک بار یک جنریشن رخ می‌ده و پاسخ تحویل کاربر داده می‌شه. این روال فعلی تمام LLM ها چه Open و چه Close source هست. هرچند که خود جنریت کردن رو اگر بعنوان تسک پیش‌بینی توکن بعدی ببینیم، استراتژی‌های زیادی براش وجود داره و اتفاقا استفاده از استراتژی‌های متفاوت منجر به نتایج متفاوت می‌شه. مثال معروفش Temperature است که بهتره برای تسک‌هایی که خلاقیت نیاز داره (مثل نوشتن شعر)، بالا باشه. ولی با این وجود در هرحال عرف تا الان این بوده که برای یک پرامپت، یک پاسخ جنریت می‌شده ولو با استراتژی‌های مختلف.

حالا بطور خلاصه اتفاق بزرگی که در o1 رخ داده، تغییر همین رواله. یعنی به ازای یک پرامپت لزوما یک پاسخ دیگه جنریت نمی‌شه. بلکه پاسخ‌های بسیاری چه بصورت موازی و چه متوالی تولید می‌شه و براساس یک سری مکانیزم‌های انتخاب و خودبهبودی درنهایت جواب نهایی تولید و به کاربر نمایش داده می‌شه. پاسخ‌های موازی یعنی گرفتن پاسخ از LLM با کانفیگ‌های جنریشن متفاوت و پاسخ‌های متوالی یعنی دادن جنریت قبلیِ مدل به مدل و خواستن جنریت بهتر. با اینکه در نهایت به کاربر یک پاسخ نمایش داده می‌شه ولی میزان توکن تولیدی توسط LLM با میزان توکن نمایش داده شده برابر نیست و این همون چیزیه که OpenAI به جهات مارکتینگی اسمش رو گذاشت Thinking.

سوالی که اینجا بوجود میاد اینه که این مکانیزم‌های انتخاب چی ها هستن؟ تقریبا یک ماه پیش Deep-Mind مقاله‌ای منتشر کرد که در اون برای اولین بار صحبت از قانون مقیاس Inference time شد و با آزمایشات مختلف مکانیزم‌های انتخاب رو بررسی کرد (قبلا در اینجا درمورد قانون مقیاس LLM ها نوشتم). مقاله بر محور این سوال می‌ره جلو که اگر ما یک بودجه محاسباتی ثابت (ولی نه ناچیز بلکه زیاد) برای Inference داشته باشیم، مدل چقدر می‌تونه دقت بیشتر روی پرامپت‌های چالشی بده؟ در ادامه مقاله دو روش برای خود-بهبودی مدل حین اینفرنس پیاده می‌کنه که بطور مختصر اشاره می‌کنم.

تو روش اول میایم distribution مدل رو برای پاسخ بهتر تغییر می‌دیم. مدل رو قبل از اینکه بره روی پروداکشن یک دور با یک سری دیتا و با یک سری متدهای الهام‌گرفته از یادگیری تقویتی مثل STaR یا ReST فاین‌تیون می‌کنیم. به محض اینکه روی پروداکشن پرامپتی بیاد که شبیه به اون پرامپت‌هایی باشه که در فاین‌تیون دیده، فورا بعد از جنریت اولیه، پاسخ بهتر رو به روش CoT تولید می‌کنه. حالا این پاسخ‌ها می‌تونه بصورت موازی باشه و چه متوالی و همچنین می‌تونه با روش بعدی ترکیب بشه. خالق این روش گوگل و دیپ‌مایند نبوده و اینها صرفا برای مساله مدنظر (یعنی بررسی افزایش دقت با افزایش بودجه محاسباتی زمان Inference) ازش استفاده کردند.

تو روش دوم، مدل پاسخ‌های متعددی رو چه بصورت موازی و چه سری جنریت می‌کنه و یک مدل دیگه‌ای (Reward Model) میاد بعنوان Verifier عمل می‌کنه و Score میده به پاسخ‌ها و بهترین پاسخ رو به کاربر نمایش می‌ده. جذابیت این روش اینه که می‌شه تمام پاسخ‌ها رو به فرمت CoT از مدل گرفت و این بار Verifier به‌جای دادن Score روی کل پاسخ بیاد روی هر قسمت از پاسخ‌ها Score بده. به این شکل می‌شه جواب‌ها رو در هم ترکیب کرد و با اجرای الگوریتم‌های Tree Search بهترین پاسخ رو تولید کرد. مثلا اگر از مدل، سه تا پاسخ به صورت CoT یا همون Chain of thought گرفتیم، بیایم مقدمه اول از پاسخ اول رو با مقدمه دوم از پاسخ دوم ترکیب کنیم و از قسمت نتیجه پاسخ سه استفاده کنیم و درنهایت پاسخ نهایی رو تولید کنیم. این روش تا 4 برابر میزان Inference time رو نسبت به زمانی که Verifier روی کل پاسخ (و نه بخشی‌اش) رای بده کاهش داده.

در نهایت این مقاله به یک نتیجه‌گیری مهم رسیده و اون اینکه برای تسک‌های ساده تا کمی دشوار (و نه خیلی دشوار) اگر یک مدل از چنین روشی استفاده کنه، به فرض بودجه محاسباتی ثابت، دقت خروجی این مدل برابری می‌کنه با دقت یک مدل با 14برابر! وزن بیشتر در حالتی که فقط یک پاسخ جنریت می‌کنه. این یعنی می‌شه با همون مدل قبلی GPT4 تا 14 برابر هوشمندی بیشتر دریافت کرد. این همون نتایج شگفت‌انگیزیه که OpenAI خیلی زودتر از بقیه متوجه شد و الان ما اون چیزی که روی کاغذهای دیپ‌مایند می‌خونیم رو توی ChatGPT حسش می‌کنیم. در این مقاله به این موضوع هم اشاره شده که برای تسک‌های خیلی دشوار به‌صرفه‌تر اینه که بیشترین حجم بودجه پردازشی رو بدیم به Pre-training ولی برای بقیه تسک‌ها فرض اینه که حجم زیادی از بودجه محاسباتی برای Inference time خواهد بود.

@AI_360
Forwarded from Out of Distribution (M S)
تا رسانم بوسه‌ای بر رویِ ماهت یک سحر

نکته جالبی که در مورد openai o1 قابل دیدنه اینه که نسبت به نسخه‌های قبلی بهتر می‌تونه شعر فارسی بگه. نسخه‌های قبلی وزن و عروض رو به خوبی نمی‌تونستند دربیارن ولی o1 در این مورد خیلی بهتره. هر چند کامل نیست و خیلی جاها هم خراب می‌کنه ولی در کل بهتر از یک آدم نرمال می‌تونه شعر بگه و چه بسا o2 یا o3 بتونند فال حافظ و غزل سعدی رو هم بی‌کار کنند. یک نمونه از خروجی‌های شعر o1 رو که هیچ اصلاحی روشون اعمال نشده رو در ادامه می‌فرستم:

آمدی ای صبحِ روشن، از پسِ شامِ سحر
برده‌ای خواب از دو چشمم، با نگاهی خیره سر

شوقِ دیدارِ تو دارم، ای نگارِ نازنین
دل شده آشفتهٔ تو، بی‌قرار و در به در

عشقِ تو آتش‌فشان است، در دلِ دیوانه‌ام
می‌کِشد سودای وصلت، هر نفس سوی خطر

در رهت جان می‌سپارم، ای پری رویِ قمر
تا رسانم بوسه‌ای بر رویِ ماهت یک سحر

با خیالِ وصلِ رویت زنده‌ام در این قفس
چون شکسته بالِ خسته، منتظر بر یک خبر

کاش آید آن زمانی کز لبت نوشم شراب
می‌شود پایان غم‌ها، می‌رسد خورشیدِ بر
معرفی سرویس‌های AI باسلام

خب بالاخره سرویس‌های AI باسلام پابلیک شد.

- می‌تونید مدل LoRA فاین‌تیون شده‌ی خودتون رو بصورت Serverless سرو کنید. (فعلا برای بیس مدل Llama3.2-3b)

- می‌تونید از مدل‌های مخصوص خود باسلام مثل کاتالوگ محصول و مدل تشخیص اتربیوت‌های محصول از روی تصویر استفاده کنید.

- می‌تونید از مدل‌های Embedding متن و تصویر که خود باسلام هم استفاده می‌کنه، استفاده کنید.

- می‌تونید از یه سری مدل پرکاربرد مثل OCR فارسی استفاده کنید.

ai.basalam.com

@AI_360
روشی جدید برای فاین تیون LLM ها
.
در حال حاضر برای دستکاری LLM ها دو روش اصلی وجود داره. یکی Full fine tuning؛ که در این روش تمام وزن‌های مدل روی حجم زیادی از دیتا از یک دامین خاص (تو order چند میلیارد توکن) دوباره آموزش می‌بینه (Continual pretraining). یکی هم روش LoRA که قبلا درموردش صحبت کردیم. در این روش تعدادی ماتریس مرتبه پایین برای یک سری از لایه‌های مدل (که خودمون موقع آموزش مشخص می‌کنیم) ساخته می‌شه و فقط همون‌ها Trainable می‌شه و به این ترتیب دست به ساختار مدل نمی‌زنیم.
مقاله‌ای چند ماه پیش منتشر شد برای مقایسه این دو روش با این عنوان:‌ LoRA Learns Less and Forgets Less. که در این پیپر این نتیجه‌گیری بوجود اومد که در Full fine tuning چون وزن‌های مدل برای یادگیری تسک خاصی که مدنظر داریم تغییر می‌کنه، مدل دانش قبلی خودش در بقیه دامین‌ها رو تا حدی فراموش می‌کنه. اما در روش LoRA بخاطر اینکه وزن‌های مدل اصلی تغییر نمی‌کنه، این مشکل بوجود نمیاد. در عوض در LoRA بخاطر اینکه ما حجم خیلی کمی از وزن‌ها رو آموزش می‌دیم قدرت یادگیری این روش پایین‌تر از Full fine tuning است. (هرچند در همون مقاله ذکر شد که اگر LoRA رو با پارامتر r بالا مثلا 512 فاین‌تیون کنید قدرتش ممکنه خیلی نزدیک بشه به روش Full fine tuning).

در همین راستا اخیرا مقاله‌ای دیگه منتشر شده و یک روش جدیدی برای دست‌کاری LLM ها ارائه شد به نام Half Fine Tuning. به این صورت که میایم نیمی از وزن‌های هر لایه رو باز و نیم دیگر رو Frozen نگه می‌داریم. بعبارتی، برخلاف همیشه، این بار بصورت عمودی وزن‌های باز و بسته رو از هم جدا می‌کنیم. نتیجه بدست آمده اینه که بخاطر حفظ نیمی از وزن‌ها، این روش نسبت به Full fine tuning در برابر فراموشی دانش‌های پیشین مقاومت خوبی نشون داده و نتایج بهتری حاصل شده. ضمن اینکه با کاهش سی‌درصدی زمان آموزش می‌تونه دقتی برابر یا حتی بیشتر از Full fine tuning بده. البته این مقاله مقایسه‌ای با LoRA نداشته و همچنان روش LoRA بهترین روش برای یادگیری تسک‌های خاصی هست که مدل دانش اولیه‌ی خوبی از اون مساله داره.

این روش جدید (HFT) کاربرد خوبی در یادگیری تسک‌های بیسیک داره و می‌تونه جای Full fine tuning رو بگیره.


@AI_360
شکست سنگین API های تجاری فاین‌تیون LLM

اخیرا یه پیپر و یک Evaluation Dataset از استنفورد منتشر شده برای ارزیابی API های تجاری فاین‌تیون LLM ها. API هایی مثل Open AI fine tune و همچنین API های فاین تیون گوگل. از اونجا که استارتاپ‌ها و شرکت‌ها بعد از اینکه تسک‌شون با پرامپت و In Context Learning شکست می‌خوره می‌رن سراغ فاین‌تیون کردن API های تجاری (چون هم کد زدن نمی‌خواد و هم بهترین مدل‌ها رو فاین تیون می‌کنی)، این دوستان اومدن با این دیتاست، وضعیت این API ها رو بررسی کردند. این بررسی در دو بُعد انجام شده. 1. یادگیری دانش جدید و 2. آپدیت دانش فعلی.

برای بررسی یادگیری دانش جدید از دو دیتاست استفاده کردند. یکی دیتاست شخصیت‌های خیالی؛ که براساس یک سری فکت حول محور یک سری شخصیت خیالی سوالاتی رو از LLM می‌پرسه. یکی هم دیتاست اخبار. این دیتاست‌ها هرکدوم جداگانه دو نوع دیتاست تست دارند. یکی دیتاست سوالات مستقیم از متن و یکی هم سوالاتی که برای پاسخ دادن بهش به استنتاج و تعمیم بالاتر نیازه. نتایج روی همه LLM ها نشون می‌ده همه‌شون خوب بلدند فکت‌ها رو حفظ کنند (memorization قوی) ولی وقتی نوبت می‌رسه به سوالات استنتاجی بشدت عملکردشون افت می‌کنه و غیرقابل پذیرش می‌شه (Generalization ضعیف). با این حال مدل‌های OpenAI از گوگل بهتر بوده هرچند که همه مدل‌ها عملکرد رضایت‌بخشی نداشتند.

برای بررسی یادگیری آپدیت دانش‌های فعلی هم از دو دیتاست استفاده کردند. یکی دیتاست کد و یکی هم دیتاست پزشکی. در این قسمت با اینکه مدل‌های OpenAI از گوگل بهتر بوده ولی باز هردو عملکرد ضعیفی داشتند. نکته جالب دیگه اینکه میانگین دقت روی یادگیری دانش جدید 37 درصد بوده درحالی‌که میانگین دقت روی آپدیت دانش 19 درصد بوده. این یعنی آپدیت دانش‌های فعلی کار سخت‌تری بوده برای LLM تا یادگیری چیزهای جدید.

البته توی این پیپر جای بررسی مدل‌های اوپن سورس و همچنین تکنیک‌های جدید فاین‌تیون که توی API های تجاری ساپورت نمی‌شه خالی بود. با این حال این دیتاست که اسمش رو گذاشتند FINETUNEBENCH اوپن سورسه و می‌تونید روی LLM های موجود تست کنید.

@AI_360
ورود مدل‌های متن‌باز به لیگ o1
.
چند وقتیه که صحبت از توسعه مدل‌های Inference Scaling تو شرکت‌های توسعه‌دهنده مدل‌های متن‌بازه. چیزی شبیه مدل o1 از Open AI که دقت مدل‌ها رو تو یه لیگ دیگه وارد کرد (قبلا در موردش اینجا نوشتم). تا همین اخیرا چیزی منتشر نشده بود ولی الان به یک باره دو مدل از دو شرکت DeepSeek و Qwen منتشر شد. بطور خلاصه بخوام بگم، عدد و رقم‌ها حقیقتا عجیب‌ند. هم از لحاظ تعداد پارامتر کمی که این مدل‌ها دارن و هم دقت بالایی که روی کاغذ درموردشون ثبت شده.

مدل جدید شرکت DeepSeek که اسمش رو DeepSeek-R1-Lite-Preview گذاشتند، طبق جدول دقت، روی دیتاست‌های ریاضیاتی بطور قاطع از مدل o1 هم بالاتره. روی دیتاست MATH درحالی به دقت ۹۱ درصد رسیده که تا الان بیشترین دقت ۸۵ درصد بوده (o1). روی کد هم پایاپای با o1 رفته جلو و با اینکه نمیشه گفت از o1 بهتره ولی میشه گفت تو لیگ o1 بازی می‌کنه. بقیه بنچ‌مارک ها هم بطور قاطع از مدل‌های بسته قبلی مثل GPT4 و Claude 3.5 sonnet بالاتره درحالی‌که طبق برخی منابع و اخبار فقط با 16B پارامتر کار می‌کنه؛ که تازه چون معماری این مدل MoE هست، موقع Inference فقط 2.4B پارامتر فعاله. البته این مدل بطور رسمی منتشر نشده. هرچند مرام گذاشتند و به جای Wait-list و این مسخره‌بازی‌ها یه دمو با Chat-ui دادن که می‌تونید اینجا تست کنید. من خودم روی کد تست کردم حقیقتا عالی بود و کیف کردم. نکته جالب دیگه درمورد این مدل اینه که ظاهراً این تازه Lite شونه و ممکنه مدل‌های بزرگتری هم ارائه بدهند.

دیشب هم تیم Qwen که در واقع تیم «مدل زبانی» شرکت Alibaba است، اولین مدل Inference scale اش رو به نام QwQ-32B-Preview (اسپیس برای تست) تو هاگینگ‌فیس منتشر کرد. 32B پارامتر داره و فاین‌تیون شده روی Qwen2.5 هست. البته خاضعانه خودشون اذعان کردند که این مدل هنوز تو مود experimental research هست و یه سری ضعف‌ها داره. از جمله اینکه ممکنه وارد حلقه بی‌نهایت استدلال بشه بدون اینکه نتیجه‌ای ارائه بده. یا ممکنه وسط حرف زدن زبان عوض کنه بدون دلیل و.. . با این حال، عددهای این مدل هم یا هم‌سطح o1 و یا حتی در بعضی موضوعات بهتره. مثلا روی ریاضیات شبیه مدل DeepSeek روی دقت ۹۰ درصده و روی کد و بقیه بنچ‌مارک‌ها با اینکه پایین‌تر از o1 هست بطور قاطع از تمامی مدل‌های بسته قبلی بالاتره.

البته کارایی این مدل‌ها صرفا با بنچ‌مارک‌ها ارزیابی نمیشه و همیشه روش‌هایی مثل Arena و بازتاب کامیونیتی و Vibe-checks، بازنمایی بهتری از دقت مدل‌ها می‌دن. ولی در کل اینکه سرعت رسیدن مدل‌های متن‌باز به دقت مدل‌های بسته نسبت به قبل بیشتر شده خودش جای امیدواری بسیاره. بخصوص اینکه خیلی از این مدل‌ها از کشورهای دوست و برادر مثل چین منتشر می‌شه :)

@AI_360
کمی درمورد جزئیات فنی DeepSeek-R1
.

احتمالا این روزها اخبار مربوط به مدل جدید DeepSeek رو شنیدید. مدل Open Weight که وارد لیگ o1 شده و هم‌تراز (و نه لزوما بهتر) با اون کد می‌زنه و ریاضی حل می‌کنه و استدلال می‌کنه. اما این وسط چیزی که بیشتر از خود مدل ارزشمند بود پیپر Technical Report این مدل بود. اهمیت این پیپر در اینجاست که بسیاری از یافته‌هایی که تو این سالها شرکت‌های Close source در آموزش LLM ها داشتند و رو نکرده بودند رو به نمایش گذاشت. از طرفی هزینه ساخت مدل DeepSeek-R1 با چند صدم هزینه‌ای ساخته شد که Meta باهاش نسخه Llama3 رو داد. در نهایت با چند صدم قیمتی که Open AI برای o1 می‌گیره API این مدل رو ارائه کردند. خلاصه این جوانان چینی با مدل بومی خودشون بازی بزرگی رو به نفع جامعه اوپن سورس به هم زدند.

مکانیزم RLHF رو اگر یادتون باشه در دو فاز اجرا می‌شد. مدل ابتدا پس از مرحله Pre-training با یک حجمی از داده‌های انسانی بصورت Supervised fine-tuning تنظیم دقیق می‌شد. بعد به کمک Reward model که داده‌های ترجیحات انسانی رو دیده، مدل اصلی رو با الگوریتم‌های RL آموزش می‌دادند. این وسط اخیرا مدل‌ها به سمت Inference-time Scaling هم رفتند که باز در همین چارچوب اجرا می‌شه. حالا مکانیزمی که DeepSeek ارائه داده پیچیده‌تر و گسترده‌تر از این حرف‌هاست. و البته همراه با به چالش کشیدن فرضیه‌های قبلی.

اول اینکه در همون ابتدا برخلاف RLHF بدون اینکه مرحله SFT رو اجرا کنند مستقیم مدل Base رو (DeepSeek-v3) با RL آموزش دادند. به این شکل، مدل خودش بدون هیچ راهنمایی، یاد میگیره چطوری استدلال کنه و سوالات پیچیده رو حل کنه. اسم این مدل رو گذاشتن DeepSeek-R1-Zero. توی این فرایند، مدل خودبه‌خود رفتارهای جالب و قدرتمندی مثل خودبازبینی و تفکر طولانی رو یاد می‌گیره. روی بعضی از نمونه‌های آموزشی، اینطور رفتار کرده که یک جاهایی وسط استدلال کردن، فرضیات قبلی خودش رو زیرسوال می‌بره و یا مثلا یک‌دفعه نتیجه جدید می‌گیره و یک «Aha moment» براش ایجاد می‌شه و یه جورایی انگار خودش، خودش رو آموزش میده. این اتفاق حتی برای خودشون هم غیرمنتظره و هیجان‌انگیز بوده. با این حال با اینکه DeepSeek-R1-Zero خیلی خفن بود، یه سری مشکل هم داشت. مثلاً بعضی وقتها جواب‌هاش خیلی قابل خوندن نبود، یا زبان‌ها رو مخلوط می‌کرد (مثلا چینی-انگلیسی صحبت می‌کرد).

در آزمایش بعدی، روی همون مدل Base مرحله SFT رو اول اجرا می‌کنند. یعنی ابتدا به کمک یک حجم کمی داده تمیز با زنجیره‌فکری طولانی (long CoT) مرحله SFT رو اجرا می‌کنند. بعد دوباره مرحله قبل رو تکرار می‌کنند (یعنی دوباره RL می‌زنند). این بار می‌بینند که مدل بهبود پیدا کرده و اون مشکلات زبانی رو دیگه نداره. اینجا خاصیت SFT تقریبا شفاف می‌شه که بیشتر کاربرد زبانی داره تا تعمیق یادگیری و استدلال.

جذابیت اصلی ماجرا اینجاست که بعد از مرحله RL با مدل بدست آمده، دیتاست‌های جدید درست می‌کنند و با کمک اون دیتاست‌ها دوباره مدل رو توسعه آموزش می‌دن. به این شکل که ابتدا یک دیتاست 600k استدلالی و مشروح (o1 پسند) ایجاد می‌کنند که تمرکزش روی حل مسائل ریاضی و کد و تسک‌های استدلالی است. همچنین یک دیتاست 200k هم برای کارهای عمومی و غیراستدلالی و سوال و جواب‌های کوتاه ایجاد می‌کنند که مدل یاد بگیره برای هر پرامپتی کلی فکر نکنه. از ترکیب این دو دیتاست یک مرحله SFT دیگه اجرا می‌کنند. درنهایت هم برای بهبودهای عمومی مثل کاهش توهم و کمک‌کننده بودن و ساختن گاردریل‌های لازم، دوباره RL می‌زنند.

پس بطور خلاصه برخلاف رویه قبلی، اینجا دو بار SFT و سه بار RL اجرا می‌شه که البته منجر به ساخت دو مدل مجزا می‌شه. نکته جالب ماجرا اینه که در هر مرحله‌ای که از RL استفاده می‌کنند، از Reward های مختلف استفاده کردند که از جنبه‌های مختلف مدل رو بهبود بدهند. بعبارتی همون مکانیزم RLHF رو بجای اینکه یک بار اجرا کنند، چند بار اجرا کردند با این تفاوت که هر بار بطور تخصصی و عمیق یک جنبه از قدرتمندی مدل رو بهبود می‌دادند. انگار که کل اون پروسه بسیار هزینه بر رو انداخته باشند تو for loop با این توضیح که تو هر iteration یه گوشه از کار رو عمیقا درستش کردند. مثلا تو ایتریشن‌ اول توانایی استدلال کردن تو کانتکس طولانی رو هندل کردن ولی خب مشکل خوانایی داشته. تو یه ایتریشن ثبات زبانی رو یادش دادند، تو ایتریشن بعد تسک های عمومی و بعد هم گاردریل ها و harmlessness و این موضوعات اخلاقی.

در آخر یک سری از متدهای پیچیده که برای Inference-time Scaling شدن مدل‌ها معمولا اجرا می‌شده، اجرا نکردند چون دقت رو بهبود نمی‌داده و سعی کردند با long CoT توانایی استدلال مدل رو پیشرفت بدهند.

@AI_360
وقایع اتفاقیه AI
کمی درمورد جزئیات فنی DeepSeek-R1 . احتمالا این روزها اخبار مربوط به مدل جدید DeepSeek رو شنیدید. مدل Open Weight که وارد لیگ o1 شده و هم‌تراز (و نه لزوما بهتر) با اون کد می‌زنه و ریاضی حل می‌کنه و استدلال می‌کنه. اما این وسط چیزی که بیشتر از خود مدل ارزشمند…
درمورد سرعت وحشتناک توسعه‌ی هاگینگ‌فیس زیاد صحبت شده. و همچنین نقش پررنگی که در مردمی (دموکراتایز) کردن تکنولوژی‌های AI داشته. از کتابخانه trl گرفته که مکانیزم RLHF رو پیاده‌سازی کردند تا پیاده‌سازی مقاله‌های مهمی مثل LoRA. از توسعه تکنیک‌های بهینه‌ساز برای آموزش مدل‌ها روی دیوایس‌های کوچیک تا توسعه Inference engine برای دیپلوی LLM. هرکدوم از این موارد خودش کلی بحث می‌طلبه که چقدر ماها رو در استفاده بیشتر و بهتر از AI جلو برد.

حالا کنار توسعه این محصولات، دیروز محصول جدیدی رو شروع کردند به توسعه به نام Open-R1؛ که در اون کل pipeline که باهاش مدل DeepSeek-R1 ساخته شده رو پیاده‌سازی کردند. قطعا چنین کاری به اندازه خود انتشار مقاله و مدل دیپ‌سیک مهمه و یک قدم مهمی است در جهت تکرارپذیری راحت و بی‌دردسر تکنولوژی‌هایی که تا چند روز پیش منحصر به یکی دوتا شرکت بزرگ AI بود.

@AI_360
Forwarded from Out of Distribution (Mahdi)
ضرب شست چینی‌ها:‌ R1 > O1

بی‌شک، رونمایی از مدل DeepSeek R1 داغ‌ترین اتفاق چند روز گذشته هوش مصنوعی بود. زلزله‌ای که لرزه‌هاش به هوش مصنوعی محدود نموند و پس‌لرزه‌هاش امروز باعث ریزش ۲۰ درصدی قیمت سهام nvidia در ۵ روز گذشته شده و این افت nvidia هم مثل یک دومینو باعث ریزش قیمت بیت کوین و سایررمز‌ارزها شده. اما قضیه کلا از چه قراره و اهمیت DeepSeek R1 در چیه؟

- اولا این که این اولین جهش و درخشش DeepSeek نیست. حدود ۲۰ روز پیش این شرکت چینی، مدل DeepSeek V3 خودش رو به صورت اوپن سورس منتشر کرد. مدلی که در عملکرد بالاتر از Llama و در رقابت نزدیک با GPT-4o قرار می‌گیره و البته طبق ادعاش تنها با ۵.۵ میلیون دلار آموزش دیده. اهمیت DeepSeek V3 در این بود که آموزش مدل در اون ابعاد مخصوصا با در نظر گرفتن تحریم GPU‌های H100 که آمریکا روی چینی‌ها تحمیل کرده کار راحتی نیست. در واقع برای آموزش LLM‌هایی در این ابعاد باید تعداد بسیار زیادی H100 به هم متصل بشن و با هم آموزش ببینند و آمریکا هم فروش H100 به چین رو ممنوع کرده. سر همین داستان هم، nvidia یک نسخه دستکاری‌شده از H100 به نام H800 رو که نرخ انتقال داده کمتری نسبت به اون داره رو برای چینی‌ها می‌سازه و بهشون می‌فروشه.. و این حدس زده شد که این‌ چینی‌ها GPU‌های H800 رو به هم متصل کردند و سپس در سطحی پایین‌تر از Cuda اونها رو پروگرم کردند تا به چنین عملکردی بتونن برسند.

- دوما اما این که ماجرا به DeepSeek V3 ختم نشد و چینی‌ها پس از پنجه در پنجه انداختن با GPT-4o این بار سراغ زورآزمایی با GPT-o1 رفتند و از مدل DeepSeek R1 رونمایی کردند. نکته این مدل اینه که قدرت reasoning ای در سطح o1 داره، با صرفا ۶ میلیون دلار هزینه درست شده و قیمت اینفرنسش هم نسبت به o1 پایین تره، به طوری که اگر قیمت o1 به ازای هر یک میلیون توکن ورودی و خروجی، ۱۵ دلار و ۶۰ دلاره، این نرخ برای R1 تنها ۰.۵۵ و ۲.۱۹ دلاره!

- سوما، اما نکته‌ فنی که نتونستم ازش عبور کنم، نوآوری R1 در نحوه آموزشش هست. مغز نوآوری که چینی‌ها برای این مدل به خرج دادند اینه که به جای استفاده از SFT مستقیما از RL استفاده کردند. دقت کنید که RL و نه RLHF! یعنی مدل رو صرفا در یک ستینگ RL اون هم با دو ریوارد مدل ساده‌ای که یکیشون جواب نهایی رو قراره چک کنه و یکیشون هم قراره که مدل رو ملزم به خروجی داده در یک فورمت خاصی کنه، آموزش دادند. نکته جالب اینه که این ریوارد مدل‌ها یعنی بسیار ساده هستند و صرفا می‌شه Rule-Based شون دید. نکته جالب دیگه این که گفتند استفاده از PRM یا همون Process Reward Model هم براشون سود خاصی نداشته و تکنیک‌های Inference time compute هم تفاوت چندانی در جواب نداشته. در حالی که این تکنیک‌ها، تکیه‌گاه‌های اصلی مدل O1 هستند، R1 بدون چنین تکنیک‌هایی به چنین سطح عملکرد رسیده. از کل این بند همون bitter lesson در ذهن تداعی می‌شه که وجود داده و ظرفیت محاسبه کافی،‌ برای رسیدن به هوش کافیه.

- چهارما، حالا چرا سیلیکون ولی و nvidia شوک دیدند؟ حرف‌ و حدیث در این زمینه زیاده. بعضی‌ها با عینک خیلی فنی این جوری تحلیل کردند که شاید این که روش R1 تونسته بدون تکیه بر تکنیک‌های Inference Time Compute که مستلزم استفاده بیشتر از قدرت محاسباتی هستند، به AGI نزدیک بشه از اهمیت GPU‌ها کاسته. تکه اولش درسته ولی خب تکه دومش نه، چرا که به هر حال با رواج این مدل هم میزان مصرف GPU‌ها بیشتر میشه. توضیح جالبی که دیدم این بود که اولا این یک شوک موقتی هست و ناشی از سه چیزه. اولا این که بالاخره چینی‌ها تونستند در زمینه مدل‌های زبانی به رقابت نزدیک به آمریکا برسند و در حالی که همیشه آزمایشگاه‌های هوش مصنوعی چینی عقب‌تر از آمریکایی‌‌ها بودند، R3 به مثابه یک شوک و نقطه عطف برای مونوپلی آمریکا در هوش می‌تونه باشه. دوما این که قیمت پایین‌ آموزش و اینفرنس R1 می‌تونه باعث یک تکانه به وابستگی به nvidia باشه که البته صرفا در حد یک شوک موقته. و سوما هم این که از این زاویه می‌شه نگاه کرد که DeepSeek تونسته تحریم‌های آمریکا در زمینه GPU رو کم‌اثرتر بکنه و شاید این روند در آینده ادامه دار باشه.

- پنجما، آیا DeepSeek برده؟ نه خیر و نه هنوز. چرا که o3 هنوز عملکرد بسیار بهتری نسبت به R1 داره، با این وجود R1 کاراتره، هم می‌تونه روی دیوایس‌ها اجرا بشه و هم هزینه اینفرنس پایین‌تری داره و هم با اوپن سورس کردنش فشار رو برای کاهش قیمت به مدل‌هایی مثل o1 و o1-mini وارد می‌کنه. باید دید رقابت بین آمریکایی‌ها و چینی‌ها در ادامه چه خواهد شد. الله اعلم.

لینک پیپر R1:
arxiv.org/abs/2501.12948

یک سری لینک مفید دیگه برای توضیحات:
stratechery.com/2025/deepseek-faq/
youtubetranscriptoptimizer.com/blog/05_the_short_case_for_nvda
وقایع اتفاقیه AI
ضرب شست چینی‌ها:‌ R1 > O1 بی‌شک، رونمایی از مدل DeepSeek R1 داغ‌ترین اتفاق چند روز گذشته هوش مصنوعی بود. زلزله‌ای که لرزه‌هاش به هوش مصنوعی محدود نموند و پس‌لرزه‌هاش امروز باعث ریزش ۲۰ درصدی قیمت سهام nvidia در ۵ روز گذشته شده و این افت nvidia هم مثل یک دومینو…
مهدی سمیعی به خوبی و خیلی بهتر از من ابعاد فنی و غیرفنی دیگه این پدیده‌ی چینی رو باز کرد. حیفم اومد نذارم.

بعد از خوندن این پست دو نکته دیگه به ذهنم رسید. یک اینکه تا الان اگر همه‌ی مدل‌ها رو با RLHF آموزش می‌دادن، احتمالا از این به بعد روی تسک‌های برنامه‌نویسی بیشتر از قبل با RL مستقیم و با ریوارد مدل Rule-based آموزش بدن و روی این تکنیک، خط پژوهشی جدیدی باز بشه. در مقابل تسک‌هایی که بحث preference مطرحه و درست و غلط شفافی نیست همچنان RLHF و ریواردمدل‌های پیچیده کارساز باشه و مجبور باشند این تکنیک‌ها رو رها نکنند.

دوم اینکه بنظرم یک احتمال دیگه اینجا مطرحه و اون اینکه باتوجه به اینکه تولید دیتاست‌های کد و برنامه‌نویسی ساده‌تر از دیتاست‌هاییه که یا منطق فازی دارند یا درست و غلط شفافی ندارند یا از جنس Preference هستند و همچنین از طرف دیگه چون بازار تسک‌های برنامه‌نویسی و کد پایداره و یوزرش رو پیدا کرده، مدل‌های تخصصی مثل مدل برنامه‌نویس و مدل ریاضی‌دان از مدل‌های با هوش و دانش عمومی جدا بشه و این مقدمه‌ای باشه برای شروع مجدد دوره مدل‌های Specific با این تفاوت که این‌بار اما خیلی متخصص.
درمورد چیستی و چرایی MCP

مدتیه که درمورد MCP یا همون Model Context Protocol و کاربردهاش زیاد صحبت می‌شه. پروتکلی که توسط آنتروپیک توسعه داده شده تا استانداردی باشه برای ارائه کانتکس بیشتر به LLM ها. چیزی شبیه USB-C برای کامپیوترها. باوجود اینکه این پروتکل نوامبر 2024 (آذرماه 03) معرفی شد، اما سه ماه بعد - پس از اینکه در عمل کمی خودش رو نشون داد - بحث درموردش تو محافل و کامیونیتی‌ها گل انداخت. هم موافقان زیادی داره و حجم هیجان‌ها رو می‌شه از روی تعداد استار پروژه دید. هم ابهاماتی درموردش مطرح هست و عده‌ای سعی در زیرسوال بردنش دارند. از اونجا که بشخصه درگیر توسعه Agent ها هستم سعی کردم بفهممش. اینجا سعی کردم توضیحاتی درمورد اینکه چطوری کار می‌کنه، چه نیازی بهش داریم و چه معایبی داره بنویسم.

@AI_360
پدیده‌ی Catastrophic Overtraining.

تو بحث قانون مقیاس LLM ها یک اصلی که مطرح بود این بود که برای ساخت LLM بهینه باید هرچقدر که پارامترهای مدل رو افزایش می‌دیم دیتای pre-train هم بصورت خطی باید افزایش پیدا کنه. بعدا این موضوع مطرح شد که می‌شه هدفمون لزوما ساخت LLM با هزینه محاسباتی بهینه نباشه و با پذیرفتن یک سربار محاسباتی، LLM کوچکتر و با تعداد پارامتر کمتری آموزش بدیم که دقتش معادل همون LLM باشه که با هزینه محاسباتی بهینه ساخته شده. که در این صورت باید طبیعتا حجم دیتایی که LLM می‌بینه رو افزایش بدیم (اینجا مفصل درموردش نوشتم). این موضوع باعث شد که کمپانی‌های بزرگ کلا در توسعه LLM به سمت توسعه‌ی مدل‌های کلاس 7 میلیاردی با حجم توکن در مقیاس تریلیون برن و این سبک توسعه LLM تبدیل به یک عرف شد. مثال معروفش Llama-3 است که با 15T توکن آموزش دید. این عدد معادل 75 برابر میزان توکنی بود که درحالت بهینه باید آموزش دیده می‌شد.

حالا یک پیپر جدیدی منتشر شده و عملکرد اینجور LLM ها در Post-training و تسک‌های پایین دستی (downstream) رو بررسی کرده و کلا این سبک و سیاق توسعه LLM رو زیرسوال برده و می‌گه فرض «هرچه دیتا بیشتر، بهتر» لزوما درست نیست و درسته که عملکرد مدل رو درحالت Zero-shot بهتر می‌کنه ولی وقتی مدل رو می‌بریم تو مرحله Instruction-tuning اونجا گند می‌زنه. اسم این پدیده رو گذاشتند Catastrophic Overtraining.

این مساله رو به چند شکل آزمایش کردند. اول اومدند یه تعداد LLM رو انتخاب کردند و با دو بودجه توکنی متفاوت آموزششون دادند. بعنوان مثال مدل OLMo-1B رو یک بار با 2.3T توکن و یک بار هم با 3T توکن آموزش دادند و بعد هر دو رو بردند تو مرحله Instruction-tuning و بعد نتایج عملکردشون رو روی بنچ‌مارک‌های معروف بررسی کردند و دیدند مدلی که 2.3T توکن آموزش دیده 2% عملکرد بهتری داره. سراغ مدل‌های مالتی مودال مثل Llava هم رفتند و همین نتیجه رو گرفتند.

جذابیت پیپر بنظرم در آزمایش‌های کنترل شده‌تر بعدی بود. در ادامه اومدند یک سری نویز نرمال به وزن‌های مدل‌هایی که با بودجه توکنی مختلف آموزش دیدن اضافه کردند و دیدند مدل‌هایی که در Pre-train حجم توکن خیلی زیادی دیدند، بعد از Instruction-tuning دچار سرگشتگی (Perplexity) بیشتری می‌شن. سرگشتگی رو اینطور می‌شه تعریف کرد که به ازای هر Next token که مدل می‌خواد پیش‌بینی کنه، مدل یه توزیع احتمالی برای تمام کلمات موجود در توکنایزر می‌سازه. پس هرچه این توزیع احتمال روی یک تعداد توکن خیلی محدود همگرا باشه این یعنی قطعیت مدل بیشتره و هرچه واگرا باشه سرگشتگی مدل بیشتره و این یعنی مدل نمی‌دونه چی کار کنه.

بعبارتی اگر تو مرحله Pre-train مدل زیادی دیتا ببینه و آموزش طول بکشه، ویژگی‌هایی که یاد می‌گیره بیشتر درهم‌تنیده است و این ویژگی‌های درهم‌تنیده بیشتر مختص distribution دیتاست Pre-train عه. در نتیجه پارامترهای مدل خیلی شکننده می‌شه و حساسیت به تغییر بالا می‌ره و دیگه خیلی راحت نمی‌تونه تسک‌های out-of-distribution موجود در Instruction-tuning رو یاد بگیره.

پ.ن: این مساله رو بارها در این یکسال اخیر هم تجربه کردیم و هم به شکل‌های دیگه بحثش مطرح شده ولی این پیپر خیلی جامع و اصولی به قضیه پرداخت. مثلا در بررسی این این پیپر متوجه می‌شیم که فاین‌تیون مدل‌های Close-source مثل GPT-4 خیلی کارآمد نیستند و این مدل‌ها در آپدیت دانش قبلی خودش و استنتاج و Generalization بسیار ضعیف عمل می‌کنند. تو بعضی از مدل‌های اوپن مثل همین Llama-3 هم این قضیه بوده و بعضا تجربه شده.

@AI_360
فرایند Latent Reasoning؛ قدمی در راستای تفکر انسان‌گونه
.


فرایند Reasoning که تو بعضی مدل‌های زبانی جدید وجود داره از لحاظ ماهوی و معماری هیچ تفاوتی با مدل‌های قبل از خودش نداره. در واقع Thinking چیزی نبود جز همون Next Token Generation که مکانیزم اصلی مدل‌های Generative هست با این تفاوت که در این مدل‌ها بواسطه CoT و تولید توکن بیشتر Inference time طول می‌کشید و بخشی از توکن‌هایی که تولید می‌کرد بعنوان thinking تولید می‌شد. این در حالیه که ما انسان‌ها فکر کردنمون با حرف زدنمون یکی نیست و فکر کردن قبل از صحبت کردن در درون اتفاق می‌افته.

این پیپر سعی کرده چنین مکانیزمی رو پیاده کنه؛ به این معنی که مدل بتونه قبل از تولید توکن به کمک Recurrent block های که تو معماری گذاشتند در Latent Space «فکر» کنه و پس از خروج از بلوک Recurrent شروع به تولید توکن کنه. به این شکل فرایند تفکر دیگه معادل با حرف زدن نیست و شبیه انسان قبل از صحبت کردن فرایند تفکر رخ داده.

چیزی که در بلوک‌های Recurrent انجام می شه اینه که اول توکن‌های ورودی امبد می‌شن و میرن تو فضای لایه‌های Recurrent و بعد اونجا در یه فرایند iterative این Latent state ها آپدیت می‌شن. درنهایت بعد از چندین iteration این Latent state ها میرن که با عبور از بقیه معماری توکن بعدی رو تولید کنند.

جذابیت این روش اینه که به تناسب تسک میزان این iteration متفاوته و مدل خودش این رو یاد می‌گیره که مثلا برای ریاضیات بیشتر iterate کنه و در مسائل ساده کمتر.

این روش چندتا مزیت خیلی مهم داره. اولا فرایند آموزش رو سریع می‌کنه چون نیاز به تولید توکن نیست. دوما چون کانتکس رو با توکن‌های thinking پر نمی‌کنه استفاده بهینه‌ای از Context Window می‌شه و این باعث کارایی بیشتر مدل می‌شه. سوما استدلالاتی که تبدیلشون به کلمه کار سختیه رو می‌تونه انجام بده.

البته این پیپر و مدل کوچیکی که توسعه دادند در حد Proof of concept هست ولی خب از اون ریسرچ‌هاست که امید بسیار زیادی بهش هست.

@AI_360
Forwarded from DesAIn (Hassan Bashari)
ورود مدل جدید متا لاما ۴ یه اتفاق بزرگ به حساب میاد

نه از این جهت که یه سری بنچمارک‌ها رو جابجا کرده

اونا مهم نیست اونا همچنان در حال جابجا شدن خواهند بود

قدم بزرگی که این مدل برداشته حرکت بزرگ به سمت حذف آموزش مدل‌هاست

حرکت به این سمت که در نقطه به کارگیری هوش مصنوعی دیگه نیازی به آموزش مدل نداشته باشیم

۱۰ میلیون توکن اندازه ورودی این مدل جدیده

و این یعنی اینکه ما داریم به نقطه‌ای می‌رسیم که داده‌هایی که که قبلاً برای آموزش مدل به کار می‌رفتند می‌تونن به سادگی در پرامت قرار بگیرند

یه اصطلاحاً کپی پیست ساده

در لایه کاربرد این یه انقلاب می‌تونه باشه

نه فقط از جهت کاهش هزینه

بلکه بالا رفتن سرعت آزمون و خطای محصول



این لینک توضیحات فنی تکمیلی خوبی داره
Forwarded from Dev Tweet
Please open Telegram to view this post
VIEW IN TELEGRAM
توهم لیدربورد و آینده‌ی بنچ‌مارکینگ
.

نمی‌دونم از مقاله اخیر شرکت Cohere خبر دارید یا نه. مقاله‌ای با عنوان «توهم لیدربورد!» که برخلاف معمول پیپرها نه حول محور مدل‌های زبانی بود نه بنچ‌مارک جدیدی معرفی کرده و نه صحبتی از قابلیت و معماری جدید بود. بلکه به نوعی افشاگری بود علیه سیستم رنکینگ Arena که تیم LMsys راه‌اندازی کرده و تا الان می‌شه گفت معتبرترین بنچ‌مارک مدل‌های زبانی به شمار میاد.

خلاصه افشاگری اینه که تو این سیستم، شرکت‌های بزرگ «از ما بهترون» هستند و مدل‌هاشون (مثل GPT یا Gemini یا لاما) بیش از مدل‌های وزن‌باز مورد لطف قرار می‌گیره توسط این تیم و دارای امتیازاتی است که مدل‌های وزن‌باز این امتیازات و امکانات رو ندارند. مثلا این شرکت‌ها به Sample rate بزرگتری از دیتاست Arena دسترسی دارند. برای مثال گوگل و اوپن‌ای‌آی به ترتیب ۱۹.۲٪ و ۲۰.۴٪ از داده‌ها را دریافت کرده‌اند، در حالی که ۸۳ مدل متن‌باز فقط ۲۹.۷٪ داده دارند. این نابرابری باعث برتری ناعادلانه مدل‌های اختصاصی می‌شه. امتیاز دیگه‌ی این شرکت‌ها اینه که انقدر نسخه‌های مختلفی از یک LLM رو ارایه میدن تا بهترین نتیجه رو تو Arena بگیرند. در واقع یه‌جورایی با دادن نسخه‌های مختلف سعی می‌کنند مدل‌شون رو روی دیتاست Arena اپتیمایز کنند. برای مثال لاما 4 یه چیزی حدود 27 بار مدل ریلیز کرد تا بتونه یه مدلی منتشر کنه که تو Arena جایگاهی خوبی داشته باشه. (لعنت بر متا)

این وسط کرپثی هم طی یک توییتی سعی می‌کنه به خوبی از کار شرکت Cohere دفاع کنه و همچنین نکات خوبی درمورد آینده بنچ‌مارکینگ مطرح کنه. توییتش بنظرم دو نکته جالب داشت. یکی اینکه با اشاره به اون جمله‌ی معروف جف بزوس (وقتی داده‌ها و روایت‌ها با هم مغایرت دارند، روایت‌ها معمولاً درست هستند) سعی کرد تایید کنه که بله خیلی از ماها این رو تجربه کردیم که روی لیدربورد یک سری مدل‌ها بالا هستند ولی در عمل نتیجه خوبی نمی‌گیریم. نکته مهم دیگه‌اش این بود که درکنار پیشنهادات این مقاله برای بهتر شدن ارزیابی مدل‌ها، این بحث رو باز کرد که اصلا آینده‌ی بنچ‌مارکینگ در دستان امثال OpenRouter هست که نقش رپر بودن روی مدل‌ها رو خوب بازی کرده و حجم زیادی از ریکوئست‌ها به مدل‌ها از این طریق انجام میشه و بنابراین رنکینگ اوپن روتر بسیار معتبرتر از بنچ‌مارک‌های فعلی است. چرا که Call کردن API و هزینه دادن بخاطر اون برای ساختن اپ‌های واقعی است و اینجا دیگه کار اسباب‌بازی‌طور شکل نمی‌گیره. بنابراین رنکینگ خیلی واقعی‌تره.

پ.ن: امشب که این پست خانم هوکر که مدیر Cohere هست رو دیدم حیفم اومد ازش حرفی نزنم و گفتم به بهانه این ماجرا این شخصیت پنهان و ارزشمند هوش مصنوعی رو معرفی کنم. کسی که حواسش همیشه به non-consumer مدل‌های زبانی هست و از اولین شرکت‌هایی بود که سراغ مدل‌های چند زبانه رفت و مدل aya23 شون از اولین مدلهایی بود که فارسی رو ساپورت می‌کرد.

@AI_360
چه مدلی برای ساختن Agent خوبه؟

این لیدربورد با بررسی مسایل مختلف کار با ایجنت‌ها مثل ارور هندلینگ، تعاملات multi turn (چندین tool calling در یک راند) و انتخاب به‌جا و درست tool ها مدل‌ها رو بررسی کردند و چنین رنکینگی رو منتشر کردند.

بشخصه این رنکینگ با تجربه‌ام از کار با ایجنت‌ها همخونی داره. بخصوص درمورد جمنای که کلا این خانواده از مدل‌ها معروفه که خیلی Agent friendly هستند و از این جهت بنظرم بازنمایی خوبی از وضعیت مدل‌هاست. تو کامیونیتی هم محبوبیت خوبی داره این لیدربورد. ضمن اینکه با رنکینگ اوپن‌روتر (بیشترین میزان مصرف API ها) هم همخوانی داره.

@AI_360
ما تو «باسلام» با چالش‌های مهمی روبه‌رو هستیم. نه از اون‌ها که توی مقالات فقط حرفش هست — از اون‌هایی که حل کردنشون، روی اقتصاد فروشندگان آنلاین اثر می‌ذاره. اگر دوست دارید یه رد ماندگاری از خودتون به‌جا بذارید این سه موقعیت فرصت خوبیه:

- دیتاساینتیست End-to-End
می‌خوایم باسلام رو AI-first طراحی کنیم. برای این کار دنبال دیتاساینتیست‌هایی هستیم که از فهم پروداکت تا ساخت مدل و دیپلوی کردن، همه‌فن‌حریف باشن.

- متخصص Representation Learning
دنبال کسی هستیم که خاک Encoders رو خورده باشه و محصولات باسلامی رو طوری با زبان Vector بشناسه که وقتی کاربر "پنیر لیوان" سرچ می‌کنه، بفهمه منظورش "پنیر لیقوان" بوده و دقیقاً همون رو بهش نشون بده! :)

- مهندس نرم‌افزار هوش مصنوعی (LLM Agent Developer)
دنبال کسی هستیم که Agent هایی بسازه که فرایندهای باسلام رو هوشمند کنه. به شکلی که وقتی مشتری می‌پرسه "سلام، پس کی محصول به دستم می‌رسه؟!"، خودش بفهمه طرف عصبانیه و سریع بره دو تا ریکوئست به اداره پست بزنه و بهش پاسخ بده.

هر موقعیت، یه فرصت درست برای ساختنه. اگه فکر می‌کنی یکی از این مسئله‌ها، مسئله‌ی توئه، در خدمتیم!