DeepMind AI Expert
14.8K subscribers
1.3K photos
388 videos
121 files
2.28K links
مقالات کاربردی هوش مصنوعی در پایتون، علوم پزشکی، علوم انسانی، علوم اعصاب و...
دوره های آموزشی از دانشگاه های بزرگ و موسسات انلاین
@ffarzaddh
پژوهشگران هوش مصنوعی ایران

تبادلات پیام بدید
Download Telegram
خداحافظی با استدلال مبتنی بر توکن!

سلام به استدلال در فضای نهفته‌ی پیوسته!

به طور جدی، این مقاله ارزش خواندن دارد، زیرا تلاش‌های تحقیقاتی زیادی در حال بررسی روش‌های کارآمد برای استدلال هستند.

خلاصه:

این پژوهش یک مدل ترانسفورمر با عمق بازگشتی نهفته را معرفی می‌کند که می‌تواند در زمان آزمایش، استدلال را در مقیاس بزرگ انجام دهد، بدون اینکه نیاز به تولید توکن‌های اضافی داشته باشد.

به جای افزایش پنجره‌ی زمینه (context window) یا تنظیم دقیق (fine-tuning) برای زنجیره‌ی تفکر (Chain-of-Thought - CoT)، این روش استدلال در فضای نهفته را به صورت تکراری در زمان استنتاج (inference) ممکن می‌سازد و بهبودی مشابه با یک مدل ۵۰ میلیارد پارامتری را ارائه می‌دهد، در حالی که تنها ۳.۵ میلیارد پارامتر دارد.

نکات کلیدی:

۱. محاسبات بازگشتی در زمان آزمایش

این مدل در زمان استنتاج یک بلوک بازگشتی را باز می‌کند و برای تعداد دلخواهی از مراحل اجرا می‌شود. این کار عمق محاسباتی بیشتری را بدون تغییر در توالی ورودی فراهم می‌کند. برخلاف روش‌های استاندارد CoT که استدلال را از طریق تولید توکن انجام می‌دهند، این تکنیک استدلال را در فضای نهفته نگه می‌دارد و کارایی را افزایش می‌دهد.

۲. عدم نیاز به آموزش خاص برای CoT

برخلاف روش‌های CoT که به داده‌های آموزشی تخصصی نیاز دارند، این روش بدون نیاز به مجموعه داده‌های خاص، فقط با استفاده از داده‌های پیش‌پردازش استاندارد کار می‌کند و در وظایف استدلالی مختلف قابل تعمیم است.

۳. بهبود در کارایی حافظه و محاسبات

استدلال در فضای نهفته به مدل این امکان را می‌دهد که بدون افزایش تعداد پارامترها، مقیاس‌پذیری داشته باشد. همچنین نسبت به ترانسفورمرهای با زمینه‌ی طولانی (long-context transformers) حافظه‌ی کمتری مصرف می‌کند. علاوه بر این، این روش باعث بهبود محاسبات تطبیقی در سطح توکن، رمزگشایی احتمالی (speculative decoding) و اشتراک‌گذاری حافظه‌ی کلید-مقدار (KV-cache sharing) می‌شود که کارایی کلی را افزایش می‌دهد.

۴. عملکرد در سطح مدل‌های ۵۰ میلیارد پارامتری

آزمایش‌ها نشان داده‌اند که با تعداد کافی از مراحل بازگشتی در زمان آزمایش، این مدل در وظایف استدلالی پیچیده مانند ARC, GSM8K, OpenBookQA عملکردی مشابه یا برتر از مدل‌های LLM بسیار بزرگ‌تر دارد.

۵. ظهور رفتارهای جدید در فضای نهفته

تحلیل‌ها نشان می‌دهند که مدل، الگوهای محاسباتی خودسازمان‌دهی ایجاد می‌کند، مانند مدارهای نهفته در وظایف عددی و تفکر وابسته به زمینه در پرسش‌های دشوار. این موضوع نشان می‌دهد که مدل ممکن است راهبردهای شناختی غیرزبانی را بیاموزد.

چرا این موضوع مهم است؟

این پژوهش نشان می‌دهد که مدل‌های آینده ممکن است به جای اتکا بر استدلال مبتنی بر توکن، از استدلال در فضای نهفته‌ی پیوسته یا سایر روش‌های کارآمد بهره ببرند. این امر می‌تواند افق‌های جدیدی در کارایی استدلال ایجاد کند.

▪️ Scaling up Test-Time Compute with Latent Reasoning: A Recurrent Depth Approach

#علوم_پزشکی #مقاله #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍19🔥3👎1
با #هوش_مصنوعی لوگو طراحی کنید

https://github.com/Nutlope/logocreator

#الگوریتمها

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍51👎1
Forwarded from Metis Ai
This media is not supported in your browser
VIEW IN TELEGRAM
به دنبال هم تیمی جدید برای پوزیشن‌های جذاب می‌گردیم!

ما توی متیس با توجه به گسترش کسب‌وکار و مشتری‌ها نیاز به تعدادی هم‌تیمی باحال داریم که توی مسیر کنارمون باشن:

1️⃣ مهندس یادگیری ماشین: مسلط به الگوریتم‌های یادگیری ماشین، پیش‌پردازش داده‌ها و پایپ‌لاین‌های داده.

2️⃣ متخصص Generatve AI: شخصی که با ابزارها و مفاهیم این حوزه آشنایی خوبی داشته باشه و با اونها کار کرده باشه و چالش‌های این بخش رو خوب بشناسه. علاقه به ساخت محصول و دید حل مسئله برای این پوزیشن فاکتور مهمی به حساب میاد.

3️⃣ مهندس یادگیری ماشین(پردازش زبان طبیعی و بازیابی اطلاعات): یک مهندس یادگیری ماشین که در حوزه‌ی NLP و بازیابی اطلاعات تجربه‌ی خوبی داشته باشه و بتونه ما رو در پردازش متون، بهبود سیستم‌های بازیابی اطلاعات و استخراج دانش از متن کمک کنه.

لطفا در لینکدین ما رو دنبال کنید و رزومه‌هاتون رو به دایرکت ما در لینکدین ارسال کنید. همچنین با اشتراک‌گذاری این پست ما رو در پیدا کردن هم‌تیمی‌های جدیدمون یاری کنید.

#job

📱 https://www.linkedin.com/company/metis-ai-ir

🔗 metisai.ir

📺 کانال آپارات ما: aparat.com/metis_ai
👌3👎1
دانشمندان با ترکیب کنترل دیجیتال و شبیه‌سازی آنالوگ، یک شبیه‌ساز کوانتومی قدرتمند ایجاد کرده‌اند که فراتر از محدودیت‌های سنتی عمل می‌کند.

این سیستم هیبریدی امکان دستکاری دقیق حالات کوانتومی را فراهم می‌کند و در عین حال، فیزیک دنیای واقعی را به‌طور طبیعی مدل‌سازی می‌کند. این دستاورد می‌تواند باعث پیشرفت‌های چشمگیری در شبیه سازی جهان ما مانند مغناطیس، ابررسانایی و حتی اخترفیزیک شود.

دستاوردی مهم در #شبیه‌_سازی_کوانتومی

فیزیکدانان آزمایشگاه گوگل نوع جدیدی از شبیه‌ساز کوانتومی دیجیتال-آنالوگ را توسعه داده‌اند که قادر است فرآیندهای پیچیده فیزیکی را با دقت و انعطاف‌پذیری بی‌سابقه‌ای مطالعه کند. دو پژوهشگر از مرکز محاسبات علمی، نظریه و داده در مؤسسه PSI نقش کلیدی در این پیشرفت ایفا کرده‌اند.

برای درک بهتر این موضوع، می‌توان به عمل ساده ریختن شیر سرد درون قهوه داغ فکر کرد – شیر چگونه پخش و ترکیب می‌شود؟ حتی پیشرفته‌ترین ابررایانه‌ها برای مدل‌سازی دقیق این فرآیند با مشکل مواجه می‌شوند، زیرا مکانیک کوانتومی زیربنایی آن فوق‌العاده پیچیده است.

در سال ۱۹۸۲، فیزیکدان برنده جایزه نوبل، ریچارد فاینمن، جایگزین دیگری پیشنهاد کرد: به‌جای استفاده از رایانه‌های کلاسیک، چرا رایانه‌های کوانتومی نسازیم که بتوانند مستقیماً فرآیندهای فیزیکی کوانتومی را شبیه‌سازی کنند؟ اکنون، با پیشرفت‌های سریع در محاسبات کوانتومی، دیدگاه فاینمن بیش از هر زمان دیگری به واقعیت نزدیک شده است..

یکی از جنبه‌های کلیدی این پردازنده کوانتومی جدید این است که ۶۹ کیوبیت ابررسانای موجود در تراشه کوانتومی گوگل، امکان عملکرد در هر دو حالت دیجیتال و آنالوگ را فراهم می‌کنند.

رایانه‌های کوانتومی دیجیتال، عملیات خود را با استفاده از گیت‌های کوانتومی عمومی انجام می‌دهند که مشابه گیت‌های منطقی در رایانه‌های کلاسیک هستند. تفاوت در این است که، به لطف برهم‌نهی کوانتومی، کیوبیت‌ها می‌توانند نه‌تنها در حالت‌های ۰ و ۱ باشند، بلکه تعداد زیادی از حالات میانی را نیز در بر بگیرند.
https://mitechnews.com/science/quantum-computing-breakthrough-brings-us-closer-to-universal-simulation/

#کوانتوم‌ #فیزیک #مقاله #هوش_مصنوعی

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
8👍4👎1
Forwarded from DeepMind AI Expert (Farzad)
سلام دوستان لینک دعوت فیلترشکن برای ی برنامه‌نویسان، گیمرها، دانشجویان، فعالین حوزه رمز ارز، فریلنسرها از لینک دعوت من استفاده کنین هم شما ی فیلترشکن مطمین استفاده کنین بدونین قطعی نداره هم من ی حجمی بدست بیارم😁، هم شما به فیلترشکنی قابل پشتیبان دسترسی داشته باشید
https://t.me/F14PanelBot?start=invite_56479f968ee3cd3dd92bfa05ebf07fc9

پ.ن: خدماتشون من به شدت راضیم دوستانتون رو دعوت کنید و حجم هدیه بگیرید
👎82👍2
یک تویتی از استاد بزرگ که فرمودند داغ ترین زبان برنامه نویسی یادگیری زبان انگلیسی هست حالا تو بیا اینو حالی کن به بقیه میگن زبان فارسی باشه😂

#برنامه_نویسی #مقاله

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍18👌8👎71
اگه رشتتون #شیمی هست و در زمینه #یادگیری_عمیق فعالیت میکنید اینجا یک موقعیت اسپانسری ویزا هست میتونین براش اقدام کنید
https://www.linkedin.com/feed/update/urn:li:activity:7297257774961340416

#اپلای

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍3👎1
مدل Mistral-24B-Reasoning به صورت #متن_باز منتشر شد این مدل به رقابت با مدل پرسروصدای دیپ سیک از خود قدرتی چشمگیر رو به نمایش گذاشت.
📊 New SOTA for open R1 reproduction:
MATH 500: 95.0%
AIME 2025: 53.33%
GPQA-D: 62.02%

https://huggingface.co/yentinglin/Mistral-Small-24B-Instruct-2501-reasoning

#مقاله #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
👍19👎1🆒1
▪️ Less is More for RL Scaling!

- What makes a good example for RL scaling?
We demonstrate that a strategically selected subset of just 1,389 samples can outperform the full 8,523-sample dataset.

- How to make a good RL training selection?
We introduce Learning Impact Measurement (LIM), an automated method to evaluate and prioritize training samples.

- Interesting observation:
while recent data-efficient approaches (e.g., LIMO and s1) show promise with 32B-scale models, we find it significantly underperforms at 7B-scale through supervised fine-tuning (SFT).
Our RL-based LIMR achieves 16.7% higher accuracy on AIME24 and outperforms LIMO and s1 by 13.0% and 22.2% on MATH500

▪️ Opensource
▪️ Dataset

#مقاله #ایده_جذاب

🔸 مطالب بیشتر 👇👇

@AI_DeepMind
🔸 @AI_Person
4👍3👎1
مدل Grok3
👍8👎4
DeepMind AI Expert
مدل Grok3
https://x.com/i/broadcasts/1gqGvjeBljOGB?s=09
لایو معرفی مدل گراک رو اینجا دنبال کنید
👍31👎1
ظاهرا حق با ایلان ماسک بود باهوش ترین مدل هوش مصنوعی دنیا منتشر کرده
🔥20👎6👍31
👎7
Forwarded from DeepMind AI Expert (Farzad)
سلام دوستان لینک دعوت فیلترشکن برای ی برنامه‌نویسان، گیمرها، دانشجویان، فعالین حوزه رمز ارز، فریلنسرها از لینک دعوت من استفاده کنین هم شما ی فیلترشکن مطمین استفاده کنین بدونین قطعی نداره هم من ی حجمی بدست بیارم😁، هم شما به فیلترشکنی قابل پشتیبان دسترسی داشته باشید
https://t.me/F14PanelBot?start=invite_56479f968ee3cd3dd92bfa05ebf07fc9

پ.ن: خدماتشون من به شدت راضیم دوستانتون رو دعوت کنید و حجم هدیه بگیرید
👎18👍51🔥1
با ip امریکا grok2 دردسترس هست باید منتظر ماند تا نسخه های اپدیت شده بیاد برای دسترسی به نسخه ۳ باید کاربرپرومیوم بود
👍123🔥2👎1
⭐️ تلگرام یه پلتفرمی داره به اسم "fragment" که باهاش میتونید تلگرام پریمیوم و استارز بخرید.

اما مشکلی که داره اینه که احراز هویت میخواد و برای ایران تحریمه. این دوستمون اومده یه مینی اپ نوشته که مستقیم وصله به یه اکانت فرگمنت تو ترکیه و این محدودیت ها رو نداره.

T.me/PremiumAndStarBot
2👍5👎41