DeepMind AI Expert

خداحافظی با استدلال مبتنی بر توکن!

سلام به استدلال در فضای نهفته‌ی پیوسته!

به طور جدی، این مقاله ارزش خواندن دارد، زیرا تلاش‌های تحقیقاتی زیادی در حال بررسی روش‌های کارآمد برای استدلال هستند.

خلاصه:

این پژوهش یک مدل ترانسفورمر با عمق بازگشتی نهفته را معرفی می‌کند که می‌تواند در زمان آزمایش، استدلال را در مقیاس بزرگ انجام دهد، بدون اینکه نیاز به تولید توکن‌های اضافی داشته باشد.

به جای افزایش پنجره‌ی زمینه (context window) یا تنظیم دقیق (fine-tuning) برای زنجیره‌ی تفکر (Chain-of-Thought - CoT)، این روش استدلال در فضای نهفته را به صورت تکراری در زمان استنتاج (inference) ممکن می‌سازد و بهبودی مشابه با یک مدل ۵۰ میلیارد پارامتری را ارائه می‌دهد، در حالی که تنها ۳.۵ میلیارد پارامتر دارد.

نکات کلیدی:

۱. محاسبات بازگشتی در زمان آزمایش

این مدل در زمان استنتاج یک بلوک بازگشتی را باز می‌کند و برای تعداد دلخواهی از مراحل اجرا می‌شود. این کار عمق محاسباتی بیشتری را بدون تغییر در توالی ورودی فراهم می‌کند. برخلاف روش‌های استاندارد CoT که استدلال را از طریق تولید توکن انجام می‌دهند، این تکنیک استدلال را در فضای نهفته نگه می‌دارد و کارایی را افزایش می‌دهد.

۲. عدم نیاز به آموزش خاص برای CoT

برخلاف روش‌های CoT که به داده‌های آموزشی تخصصی نیاز دارند، این روش بدون نیاز به مجموعه داده‌های خاص، فقط با استفاده از داده‌های پیش‌پردازش استاندارد کار می‌کند و در وظایف استدلالی مختلف قابل تعمیم است.

۳. بهبود در کارایی حافظه و محاسبات

استدلال در فضای نهفته به مدل این امکان را می‌دهد که بدون افزایش تعداد پارامترها، مقیاس‌پذیری داشته باشد. همچنین نسبت به ترانسفورمرهای با زمینه‌ی طولانی (long-context transformers) حافظه‌ی کمتری مصرف می‌کند. علاوه بر این، این روش باعث بهبود محاسبات تطبیقی در سطح توکن، رمزگشایی احتمالی (speculative decoding) و اشتراک‌گذاری حافظه‌ی کلید-مقدار (KV-cache sharing) می‌شود که کارایی کلی را افزایش می‌دهد.

۴. عملکرد در سطح مدل‌های ۵۰ میلیارد پارامتری

آزمایش‌ها نشان داده‌اند که با تعداد کافی از مراحل بازگشتی در زمان آزمایش، این مدل در وظایف استدلالی پیچیده مانند ARC, GSM8K, OpenBookQA عملکردی مشابه یا برتر از مدل‌های LLM بسیار بزرگ‌تر دارد.

۵. ظهور رفتارهای جدید در فضای نهفته

تحلیل‌ها نشان می‌دهند که مدل، الگوهای محاسباتی خودسازمان‌دهی ایجاد می‌کند، مانند مدارهای نهفته در وظایف عددی و تفکر وابسته به زمینه در پرسش‌های دشوار. این موضوع نشان می‌دهد که مدل ممکن است راهبردهای شناختی غیرزبانی را بیاموزد.

چرا این موضوع مهم است؟

این پژوهش نشان می‌دهد که مدل‌های آینده ممکن است به جای اتکا بر استدلال مبتنی بر توکن، از استدلال در فضای نهفته‌ی پیوسته یا سایر روش‌های کارآمد بهره ببرند. این امر می‌تواند افق‌های جدیدی در کارایی استدلال ایجاد کند.

▪️ Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

#علوم_پزشکی #مقاله #ایده_جذاب

🔸 مطالب بیشتر 👇👇

✅ @AI_DeepMind
🔸 @AI_Person

👍19🔥3👎1

3.64K viewsFarzad 🦅, 19:23