LLM Club

🔔 برگزاری جلسه‌ی نوزدهم باشگاه مدل‌های زبانی بزرگ 📚 موضوع: درس‌هایی از دیپ‌سیک: بهبود مشکلات دیپ‌سیک با روش DAPO 👤 سخنران: معین سلیمی 🗓 زمان: یک‌شنبه ۱۴۰۴/۰۱/۳۱ ساعت ۲۰:۰۰ تا ۲۱:۳۰ 📍 مکان برگزاری: vc.sharif.edu/mjafari 🔍 در این جلسه، الگوریتم DAPO معرفی…

یادآوری

2.36K views16:15

LLM Club

🔔برگزاری جلسه‌ی بیستم باشگاه مدل‌های زبانی بزرگ

📚 موضوع: بهبود خودکار مدل‌های زبانی بزرگ با تخیل، جستجو و نقد هوشمندانه
👤 سخنران: فاطمه شاه‌حسینی
🗓 زمان: دوشنبه ۱۴۰۴/۰۲/۰۸ ساعت ۱۷:۰۰
📍 لینک جلسه: https://vc.sharif.edu/ch/mjafari
🔍 این مقاله چارچوب ALPHALLM را معرفی می‌کند که به مدل‌های زبانی بزرگ امکان می‌دهد بدون نیاز به داده‌های برچسب‌خورده‌ی جدید، خود را بهبود دهند. این سیستم با تولید خودکار سوالات جدید (تخیل)، جستجوی پاسخ‌های بهتر با الگوریتم ηMCTS (جستجو)، و ارزیابی پاسخ‌ها با سه مدل منتقد (نقد)، کیفیت مدل را در حل مسائل دشوار مثل ریاضیات به طور چشمگیری افزایش می‌دهد. نتایج نشان می‌دهد که ALPHALLM می‌تواند مدل‌هایی مثل Llama-2 را بدون داده‌ی انسانی به سطح عملکرد GPT-4 برساند

منابع:
1. Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing

یوتیوب (ویدئو و اسلاید جلسه‌ها)
توییتر
افزودن رویداد به تقویم گوگل‌

از همه‌ی شما دعوت می‌کنیم که در این جلسه شرکت کنید.
#LLM_Club
@LLM_CLUB

3.07K viewsedited 07:23

LLM Club

شروع جلسه ساعت ۱۸:٠٠ خواهد بود.

2.36K views07:45

LLM Club

یادآوری

2.19K views14:18

LLM Club

🔔 برگزاری جلسه‌ی بیست‌ویکم باشگاه مدل‌های زبانی بزرگ

📚 موضوع: مواجهه‌ی مدل‌های زبانی با سوال‌های باز (Open-Ended Questions)؛ ارزیابی مدل‌های زبانی بزرگ در استدلال‌های انسان‌گونه
👤 ارائه‌دهنده: معین سلیمی
🗓 زمان: یک‌شنبه ۱۴۰۴/۰۲/۱۴ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari

🔍 در این جلسه، مقاله‌ای از دانشگاه واشینگتن در باب توانایی مدل‌های زبانی بزرگ برای درک «Theory of Mind» یا ذهن‌خوانی انسان‌گونه درباره‌ی سوال‌هایی که پاسخ مشخصی ندارند (open‑ended questions)، بررسی خواهد شد. این تحقیق با تحلیل پاسخ‌های انسانی و مدل‌های زبانی مختلف (روی دیتاست پست‌های ChangeMyView در ردیت)، نشان می‌دهد که حتی پیشرفته‌ترین مدل‌ها نیز در بازتولید کامل استدلال‌های انسانی ناتوان‌اند. با روش‌های مبتنی بر پرامپت و با ترکیبی از نیت، احساس و لحن پرسش، عملکرد آن‌ها به‌طور قابل‌توجهی بهبود می‌یابد اما هنوز فاصله‌ی زیادی تا رسیدن به سطح استدلال انسانی دارند.

📝 منابع
1. Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses

یوتیوب (ویدئو و اسلاید جلسه‌ها)
توییتر
افزودن رویداد به تقویم گوگل‌

از همه دعوت می‌کنیم در این جلسه شرکت کنید!
#LLM_Club #TheoryOfMind #OpenEnded #LLM_Research
@LLM_CLUB

3.01K viewsedited 13:37

LLM Club

یادآوری

2.25K views16:16

LLM Club

🔔 برگزاری جلسه‌ی بیست‌ودوم باشگاه مدل‌های زبانی بزرگ

📚 موضوع: استدلال معکوس (Abductive Reasoning) در مدل‌های زبانی: تحلیل عملکرد آن‌ها در پرسش‌های چندگزینه‌ای و فرایندهای تشخیص پزشکی
👤 ارائه‌دهنده: معین سلیمی
🗓 زمان: یک‌شنبه ۱۴۰۴/۰۲/۲۱ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این ارائه به بررسی نحوه‌ی استدلال در مدل‌های زبانی بزرگ در دو زمینه‌ی متفاوت می‌پردازیم. ابتدا می‌بینیم که این مدل‌ها چگونه می‌توانند حتی بدون داشتن متن سوال، به‌درستی به سوالات چندگزینه‌ای پاسخ دهند و همچنین نقش الگوهای پنهان (artifacts) و استدلال معکوس (Abductive Reasoning) را بررسی می‌کنیم. سپس به دنیای پزشکی به سراغ روشی می‌رویم که با هم‌راستاسازی فرایندهای تشخیص پزشکی، تلاش می‌کند تا عملکرد تشخیص پزشکی را بهبود می‌دهد. هدف این است که درک عمیق‌تری از مسیرهای استدلالی این مدل‌ها به دست آوریم. هر دو مقاله، از زاویه‌های متفاوت، به توانایی مدل‌ها در استدلال و تصمیم‌گیری می‌پردازند. این جلسه تلاش دارد تا نقش استدلال معکوس را در هر دو حوزه‌ی پرسش و پاسخ عمومی و کاربردهای تخصصی پزشکی بررسی کند.
📝 منابع
1. Reasoning Like a Doctor: Improving Medical Dialogue Systems via Diagnostic Reasoning Process Alignment
2. Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question?

یوتیوب (ویدئو و اسلاید جلسه‌ها)
توییتر
افزودن رویداد به تقویم گوگل‌

از همه دعوت می‌کنیم در این جلسه شرکت کنید!
#LLM_Club #LLM_Research
@LLM_CLUB

3.48K views12:05

LLM Club

ویدیوی جلسه‌های پیشین باشگاه مدل‌های زبانی بزرگ: جلسه‌ی ۱. پرسش و پاسخ آزاد - دکتر علی اسلامی (ضبط نشده) جلسه‌ی ۲. بهبود قدرت استدلال در مدل‌های زبانی بزرگ (اِستار و وی‌اِستار) - معین سلیمی (ضبط نشده) جلسه‌ی ۳. مدل‌های زبانی چندزبانه؛ چرا و چگونه؟ - دکتر مرضیه…

ویدئوی جلسه‌های ۱٧ و ١٨ و ١٩ و ٢٠ و ٢١ در یوتیوب بارگذاری شده و لیست بالا به‌روزرسانی شده است.

2.68K views07:55

LLM Club

🔔 برگزاری جلسه‌ی بیست و سوم باشگاه مدل‌های زبانی بزرگ

📚 موضوع: آیا «شبکه‌های بازگشتی ساده‌شده» می‌توانند جایگزینی برای ترنسفورمر در مدل‌های زبانی بزرگ باشند؟
👤 ارائه‌دهنده: دکتر حسین حاجی‌میرصادقی، پژوهشگر ارشد هوش مصنوعی در RBC Borealis و پژوهشگر پیشین در اوراکل
🗓 زمان: یک‌شنبه ۱۴۰۴/۰۲/۲۹ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این جلسه معماری‌های بازگشتی ساده‌شده‌ای مانند minLSTM و minGRU مورد بحث قرار می‌گیرند که در بسیاری از وظایف زبانی می‌توانند عملکردی قابل مقایسه یا حتی بهتر از ترنسفورمرها داشته باشند، در حالی که پارامترها و محاسبات بسیار کم‌تری نیاز دارند. مهم‌ترین مزایای این روش عبارت‌اند از:
۱. مدل‌های بازگشتی جدیدی (minLSTM، minGRU و Delta-RNN) معرفی شده‌اند که ساده، مؤثر و قابل موازی‌سازی هستند.
۲. این مدل‌ها در وظایف مختلف NLP مانند ترجمه، زبان مدل‌سازی و طبقه‌بندی، عملکردی نزدیک یا بهتر از ترنسفورمرها دارند.
۳. ترنسفورمرها به دلیل self-attention گران و دشوار در مقیاس‌پذیری هستند، در حالی که RNNهای ساده‌شده می‌توانند جایگزین مناسبی باشند.
📝 منابع
1. Were RNNs All We Needed?

یوتیوب (ویدئو و اسلاید جلسه‌ها)
توییتر
افزودن رویداد به تقویم گوگل‌

از همه دعوت می‌کنیم در این جلسه شرکت کنید!
#LLM_Club #LLM_Research
@LLM_CLUB

5.24K viewsedited 16:36

LLM Club

🔔 برگزاری جلسه‌ی بیست و سوم باشگاه مدل‌های زبانی بزرگ 📚 موضوع: آیا «شبکه‌های بازگشتی ساده‌شده» می‌توانند جایگزینی برای ترنسفورمر در مدل‌های زبانی بزرگ باشند؟ 👤 ارائه‌دهنده: دکتر حسین حاجی‌میرصادقی، پژوهشگر ارشد هوش مصنوعی در RBC Borealis و پژوهشگر پیشین در…

یادآوری

2.56K views16:20

LLM Club

ویدئوی جلسه‌های ٢٢ و ٢٣ در یوتیوب بارگذاری شده و لیست بالا به‌روزرسانی شده است.

2.26K viewsedited 17:06

LLM Club

🔔 برگزاری جلسه‌ی بیست و چهارم باشگاه مدل‌های زبانی بزرگ

📚 موضوع: مروری سیستماتیک بر کاربرد مدل‌های زبانی بزرگ در پژوهش علمی و ایده‌پردازی
👤 ارائه‌دهنده: معین سلیمی
🗓 زمان: چهارشنبه ۱۴۰۴/۰۳/۰۷ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 این مقاله نخستین مرور جامع و سیستماتیک درباره‌ی نقش مدل‌های زبانی بزرگ در فرآیند پژوهش علمی است. نویسندگان نشان می‌دهند که این مدل‌ها چگونه می‌توانند در چهار مرحله‌ی کلیدی پژوهش علمی به کار گرفته شوند:
۱. کشف فرضیه‌های علمی ۲. طراحی و اجرای آزمایش‌ها ۳. نگارش علمی و ۴. داوری علمی
این مقاله با بررسی دقیق روش‌ها، چالش‌ها و معیارهای ارزیابی در هر مرحله، تصویری روشن از قابلیت‌ها و محدودیت‌های فعلی مدل‌های زبانی بزرگ در حوزه‌ی پژوهش علمی ارائه می‌دهد و مسیرهای آینده برای پژوهش را نیز پیشنهاد می‌کند.
📝 منابع
1. LLM4SR: A Survey on Large Language Models for Scientific Research
2. IRIS: Interactive Research Ideation System for Accelerating Scientific Discovery
یوتیوب (ویدئو و اسلاید جلسه‌ها)
توییتر
افزودن رویداد به تقویم گوگل‌

از همه دعوت می‌کنیم در این جلسه شرکت کنید!
#LLM_Club #LLM_Research
@LLM_CLUB

6.34K viewsedited 19:27

LLM Club

برگزاری جلسه‌ی بیست و پنجم باشگاه مدل‌های زبانی بزرگ
📚 موضوع: بازتعریف معیارهای ارزیابی مدل‌های چندزبانی بزرگ
👤 سخنران: Julia Kreutzer، پژوهشگر ارشد هوش مصنوعی در Cohere
🗓 زمان: چهارشنبه ۱۴۰۴/۰۳/۱۴ ساعت ۱۸:۲۰
📍 لینک جلسه: کلاس مجازی دانشگاه شریف
🔍 در این جلسه، روش‌های ارزیابی توانایی تولید متن در مدل‌های چندزبانه بررسی می‌شود. تاکید می‌شود که ترجمه‌ی ماشینی پرامپت‌ها می‌تواند بر نتایج تأثیر بگذارد، بنابراین استفاده از متن اصلی به‌جای متن ترجمه‌شده توصیه شده و همچنین پیشنهاد می‌شود از روش‌هایی مانند آزمون‌های معنی‌دار آماری، تحلیل کیفی خطاها، و تجزیه و تحلیل دسته‌بندی‌شده بر اساس زبان استفاده شود تا نتایجی قابل‌اعتمادتر و بازتولیدپذیرتر به‌دست آید. در پایان نیز چک‌لیستی عملی برای بهبود ارزیابی در اختیار پژوهشگران قرار می‌گیرد.
منابع:
1. Multilingual LLM Evaluation through the Lens of Machine Translation Evaluation

یوتیوب (ویدئو جلسه‌ها)
توییتر
افزودن رویداد به تقویم گوگل‌
از همه دعوت می‌کنیم که در این جلسه شرکت کنند.
#LLM_Club
@LLM_CLUB

8.79K viewsedited 18:45

LLM Club

برگزاری جلسه‌ی بیست و پنجم باشگاه مدل‌های زبانی بزرگ 📚 موضوع: بازتعریف معیارهای ارزیابی مدل‌های چندزبانی بزرگ 👤 سخنران: Julia Kreutzer، پژوهشگر ارشد هوش مصنوعی در Cohere 🗓 زمان: چهارشنبه ۱۴۰۴/۰۳/۱۴ ساعت ۱۸:۲۰ 📍 لینک جلسه: کلاس مجازی دانشگاه شریف 🔍 در این…

یادآوری

2.41K views14:45

LLM Club

برگزاری جلسه‌ی بیست و ششم باشگاه مدل‌های زبانی بزرگ
📚 موضوع: بررسی قدرت استدلال مدل‌های زبانی بزرگ در زمان تست
👤 سخنران: دکتر مهدی رضاقلی‌زاده، پژوهشگر ارشد هوش مصنوعی در AMD
🗓 زمان: یک‌شنبه ۱۴۰۴/۰۳/۱۸ ساعت ۲۰:۰۰
📍 لینک جلسه: کلاس مجازی دانشگاه شریف
🔍 در این جلسه موضوع «استدلال با مدل‌های زبانی بزرگ با استفاده از توان محاسباتی در زمان تست» بررسی می‌شوند. در این بحث، تمرکز بر روش‌هایی خواهد بود که به جای افزایش اندازه مدل یا نیاز به بازآموزی، از ظرفیت محاسباتی در زمان استنتاج (test-time compute) برای بهبود توانایی استدلال مدل استفاده می‌کنند. هدف این ارائه بررسی مزایا، چالش‌ها و پیشرفت‌های اخیر در این حوزه است که راه‌های جدیدی را برای بهبود عملکرد مدل‌ها بدون هزینه‌های سنگین آموزش دوباره‌ی آن‌ها پیشنهاد می‌دهند.
یوتیوب (ویدئو جلسه‌ها)
توییتر
افزودن رویداد به تقویم گوگل‌
از همه دعوت می‌کنیم که در این جلسه شرکت کنند.
#LLM_Club
@LLM_CLUB

7K viewsedited 13:34

LLM Club

یادآوری....

3.55K views16:25

LLM Club

ویدئوی جلسه‌های ٢۴ و ٢۵ در یوتیوب بارگذاری شده و لیست بالا به‌روزرسانی شده است.

3.3K views17:47

LLM Club

جذب دستیار پژوهشی در پروژه مدل‌های زبانی بزرگ
در صورت آشنایی با حوزه مدل‌های زبانی بزرگ می‌توانید به عنوان دستیار پژوهشی در این پروژه‌ها با ما همکاری کنید. پروژه‌ی مورد نظر تحت نظارت آزمایشگاه INL و RIML دانشگاه صنعتی شریف تعریف شده و می‌تواند در صورت امکان به عنوان پروژه‌ی کارشناسی و یا کارشناسی ارشد نیز در نظر گرفته شود. خواهشمندست در صورت علاقه‌مندی، این فرم را تکمیل نمایید.

6.61K viewsedited 06:09

LLM Club

جلسه‌ی بیست و هفتم باشگاه مدل‌های زبانی بزرگ
📚 موضوع: آیا بهبود استدلال ریاضی، قابلیت‌های عمومی مدل‌های زبانی را بهبود می‌بخشد؟ – بررسی قابلیت انتقال استدلال در ال‌ال‌ام‌ها
👤 ارائه‌دهنده: معین سلیمی
🗓 زمان: دوشنبه ۱۴۰۴/۰۴/۲۳ ساعت ۲۰:۰۰
📍 لینک جلسه: کلاس مجازی دانشگاه شریف
🔍 در این مقاله بیش از ۲۰ مدل زبانی با وزن‌های باز را بررسی شده تا مشخص شود آیا آموزش مدل‌ها در حوزه‌ی «استدلال ریاضی»، باعث بهبود توانایی‌های عمومی آن‌ها نیز می‌شود؟ نتایج نشان می‌دهد مدل‌هایی که از طریق یادگیری تقویتی و بر روی دیتاست‌های ریاضی آموزش می‌بینند، عملکرد بهتری در تسک‌های غیرریاضی (مانند پرسش و پاسخ علمی، تولید کد، و برنامه‌ریزی) نیز دارند، حتی اگر تنها روی داده‌های ریاضی آموزش دیده باشند. در مقابل، مدل‌هایی که با تنظیم دقیق تحت نظارت (SFT) آموزش داده شده‌اند، گرچه در ریاضیات قوی می‌شوند، اما توانایی‌های عمومی آن‌ها بهبود نمی‌یابد.
منابع:
Understanding Transferability of LLM Reasoning

یوتیوب (ویدئو جلسه‌ها)
توییتر
افزودن رویداد به تقویم گوگل‌
وبگاه ژورنال‌کلاب
از همه دعوت می‌کنیم که در این جلسه شرکت کنند
#LLM_Club
@LLM_CLUB

4.33K viewsedited 09:23

LLM Club

یادآوری

2.61K views16:31

LLM Club

جلسه‌ی بیست و هشتم باشگاه مدل‌های زبانی بزرگ
📚 موضوع: بهبود یادگیری قوانین در مدل‌های زبانی بزرگ با بهره‌گیری از استنتاج استقرایی، قیاسی و ربایشی
👤 ارائه‌دهنده: شایگان ادیم
🗓 زمان: یک‌شنبه ۱۴۰۴/۰۴/۲۹ ساعت ۲۰:۰۰
📍 لینک جلسه: کلاس مجازی دانشگاه شریف
منابع:
IDEA: Enhancing the Rule Learning Ability of Large Language Model Agent through Induction, Deduction, and Abduction

یوتیوب (ویدئو جلسه‌ها)
توییتر
افزودن رویداد به تقویم گوگل‌
وبسایت ژورنال‌کلاب
از همه دعوت می‌کنیم که در این جلسه شرکت کنند.
#LLM_Club
@LLM_CLUB

4.91K viewsedited 08:30

About

Blog

Apps

Platform