LLM Club
1.65K subscribers
10 photos
1 file
49 links
باشگاه مدل‌های زبانی بزرگ؛ دانشگاه صنعتی شریف، آزمایشگاه INL

یوتیوب (ویدئوها)
https://youtube.com/@LLM_CLUB

وبگاه:
LLMClub.github.io

توییتر:
https://x.com/LLM_CLUB

برای ارائه، با حساب تلگرام
@Moein_Salimi
ارتباط بگیرید
Download Telegram
🔔 اعلام برنامه جلسه‌ی هشتم ژورنال‌کلاب مدل‌های زبانی بزرگ

📚 موضوع: معماری دوگانه برای بهبود ایمنی و کارایی در مدل‌های زبانی بزرگ
👤 سخنران مهمان: دکتر شروین قاسملو از پژوهشگران ارشد هوش مصنوعی در شرکت متا
🗓 زمان: سه‌شنبه ۱۴۰۳/۰۹/۲۰، ساعت ۲۱:۳۰ تا ۲۳:۰۰
مکان برگزاری: vc.sharif.edu/ch/mjafari
🔍 در این جلسه، دکتر شروین قاسملو درباره‌ی معماری نوآورانه‌ی Doppelgänger صحبت خواهد کرد؛ روشی که به‌صورت همزمان به بهینه‌سازی ایمنی و مفید بودن مدل‌های زبانی بزرگ (LLM) می‌پردازد. این معماری با اضافه کردن یک ماژول موازی به مدل، ایمنی ورودی و خروجی را در لحظه‌ی تولید هر توکن پیش‌بینی می‌کند و نیاز به مدل‌های جداگانه برای ارزیابی ایمنی پس از تولید را حذف می‌کند. این رویکرد با استفاده از داده‌های کم، نتایجی دقیق‌تر و کارآمدتر ارائه می‌دهد و به بهبود سرعت و کاهش مصرف منابع منجر می‌شود.

منابع:
1. Doppelgänger’s Watch: A Split Objective Approach to Large Language Model
افزودن رویداد به تقویم گوگل‌
از همه‌ی شما دعوت می‌کنیم که در این جلسه شرکت کنید.
#LLM #LLM_JC #LLM_Club #INL_Lab
🔔 اعلام برنامه جلسه‌ی نهم ژورنال‌کلاب مدل‌های زبانی بزرگ

📚 موضوع: مروری بر برخی از نوآوری‌های اخیر در رگ و چالش‌های آن‌ها
👤 ارائه‌دهنده: حانیه سرتیپی
🗓 زمان: یک‌شنبه ۱۴۰۳/۰۹/۲۵، ساعت ۱۸:۰۰ تا ۱۹:۳۰
مکان برگزاری: vc.sharif.edu/ch/mjafari
🔍 در ارائه‌ی این هفته، روش‌های جدید برای بهبود رگ را بررسی می‌کنیم.
بحث‌ها شامل موارد زیر خواهند بود: اصلاح خطاهای مدل با استفاده از داده‌های بازیابی‌شده، نقد خودکار برای ارتقای کیفیت پاسخ‌ها، و بهینه‌سازی پرس‌وجوها برای دستیابی به پاسخ‌های دقیق‌تر.
منابع:
1. Corrective Retrieval Augmented Generation
2. Self-RAG: Learning to Retrieve, Generate, and Critique Through Self-Reflection
3. RQ-RAG: Learning to Refine Queries for Retrieval Augmented Generation
افزودن رویداد به تقویم گوگل‌
از همه‌ی شما دعوت می‌کنیم که در این جلسه‌ شرکت کنید.
#LLM #LLM_JC #LLM_Club #INL_Lab
🔔 اعلام برنامه جلسه‌ی دهم ژورنال‌کلاب مدل‌های زبانی بزرگ

📚 موضوع: انتساب مقیاس‌پذیر رفتار مدل‌های زبانی بزرگ به منابع داده و نورون‌ها
👤 سخنران مهمان: دکتر طاها بهادری، پژوهشگر ارشد یادگیری ماشین در آمازون و عضو هیئت علمی وابسته دانشگاه واشنگتن
🗓 زمان: یک‌شنبه ۱۴۰۳/۱۰/۰۹، ساعت ۱۹:۰۰ تا ۲۰:۳۰
مکان برگزاری: vc.sharif.edu/ch/mjafari
🔍 در این جلسه، دکتر طاها بهادری، به معرفی روش‌های نوین برای بررسی و تحلیل رفتار مدل‌های زبانی بزرگ خواهند پرداخت. این ارائه بر روی چگونگی نسبت دادن رفتار این مدل‌ها به داده‌های آموزشی و سازوکارهای داخلی (مانند نورون‌ها) تمرکز خواهد کرد. همچنین، از مفاهیم یادگیری درون‌متنی (In-Context Learning) برای انتساب سریع داده‌های آموزشی استفاده خواهد شد.
برخی از منابع مرتبط با جلسه:
1. Fast Training Dataset Attribution via In-Context Learning

افزودن رویداد به تقویم گوگل‌
کانال یوتیوب ژورنال‌کلاب
از همه‌ی شما دعوت می‌کنیم که در این جلسه شرکت کنید.
#LLM #LLM_JC #LLM_Club #INL_Lab
🔔 اعلام برنامه جلسه‌ی یازدهم ژورنال‌کلاب مدل‌های زبانی بزرگ

📚 موضوع: «بهبود قدرت استدلال در مدل‌های زبانی بزرگ»؛ بررسی شش پژوهش پذیرفته شده در آی‌سی‌ام‌ال ۲۰۲۴
👤 ارائه‌دهنده: معین سلیمی
🗓 زمان: یک‌شنبه ۱۴۰۳/۱۰/۱۶، ساعت ۱۸:۰۰ تا ۱۹:۳۰
مکان برگزاری: vc.sharif.edu/ch/mjafari
🔍 در این جلسه، پنج مقاله مرتبط با «استدلال» در مدل‌های زبانی بزرگ که در کنفرانس آی‌سی‌ام‌ال ۲۰۲۴ پذیرفته شده‌اند بررسی خواهند شد.
منابع:
1. NExT: Teaching Large Language Models to Reason about Code Execution
2. Premise Order Matters in Reasoning with Large Language Models
3. Improving Factuality and Reasoning in Language Models through Multiagent Debate
4. Chain of Code: Reasoning with a Language Model-Augmented Code Emulator
5. MathScale: Scaling Instruction Tuning for Mathematical Reasoning
6. language Agent Tree Search Unifies Reasoning, Acting, and Planning in Language Models

کانال یوتیوب ژورنال‌کلاب (اسلایدها و ویدئوها)
افزودن رویداد به تقویم گوگل‌
از همه‌ی شما دعوت می‌کنیم که در این جلسه شرکت کنید.
#LLM #LLM_JC #LLM_Club #INL_Lab #Reasoning
🔔 اعلام برنامه جلسه‌ی دوازدهم ژورنال‌کلاب مدل‌های زبانی بزرگ

📚 موضوع: چالش‌های اخیر در مالتی‌مدال‌ها
👤 سخنران مهمان: دکتر علی‌رضا فتحی، رهبر تیم در گوگل دیپ‌مایند، پژوهشگر پیشین هوش مصنوعی در اپل و پژوهشگر پیشین در دانشگاه استنفورد
🗓 زمان: یک‌شنبه ۱۴۰۳/۱۰/۲۳، ساعت ۱۸:۰۰ تا ۱۹:۳۰
مکان برگزاری: vc.sharif.edu/ch/mjafari
🔍 در این جلسه، دکتر علی‌رضا فتحی پیرامون چالش‌ها و پیشرفت‌های اخیرِ مالتی‌مدال‌ها صحبت خواهند کرد.

افزودن رویداد به تقویم گوگل‌
کانال یوتیوب ژورنال‌کلاب
از همه‌ی شما دعوت می‌کنیم که در این جلسه شرکت کنید.
#LLM #LLM_JC #LLM_Club #INL_Lab
🔔 اعلام برنامه جلسه‌ی دوازدهم ژورنال‌کلاب مدل‌های زبانی بزرگ

📚 موضوع:
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

👤 سخنران مهمان: محمدرضا صالحی، دانشجوی دکترای دانشگاه واشینگتن و پژوهشگر هوش مصنوعی در شرکت اپل
🗓 زمان: یک‌شنبه ۱۴۰۳/۱۰/۳۰، ساعت ۲۱:۳۰ تا ۲۳:۰۰
📍 مکان برگزاری: vc.sharif.edu/ch/mjafari
🔍 در این جلسه:
مدل‌های Molmo و PixMo بررسی می‌شوند که با استفاده از وزن‌ها و داده‌های باز، پیشرفت‌هایی چشمگیر در مدل‌های چندوجهی زبان-تصویر ارائه داده‌اند. این مدل‌ها با تکیه بر مجموعه‌داده‌های نوآورانه، زیرنویس‌های دقیق انسانی، و معماری بهینه‌سازی‌شده، عملکردی رقابتی با سیستم‌های انحصاری دارند و تمامی وزن‌ها، داده‌ها و کدهای آن‌ها به‌صورت باز منتشر شده است.
منابع:
Molmo and PixMo: Open Weights and Open Data for State-of-the-Art Vision-Language Models

📺 کانال یوتیوب ژورنال‌کلاب
📅 افزودن رویداد به تقویم گوگل

از همه‌ی علاقه‌مندان دعوت می‌کنیم که در این جلسه شرکت کنند!
#LLM #LLM_JC #LLM_Club #INL_Lab
#VLM
🔔 اعلام برنامه جلسه‌ی سیزدهم ژورنال‌کلاب مدل‌های زبانی بزرگ

📚 موضوع: تقویت استدلال در مدل‌های زبانی بزرگ با استفاده از یادگیری تقویتی با برنامه‌ریزی معکوس

👤 ارائه‌دهنده: معین سلیمی
🗓 زمان: یک‌شنبه ۱۴۰۳/۱۱/۰۷، ساعت ۲۰:۰۰ تا ۲۱:۳۰
مکان برگزاری: vc.sharif.edu/ch/mjafari
🔍 در این جلسه، روشی برای تقویت توانایی استدلال در مدل‌های زبانی بزرگ معرفی می‌شود. با استفاده از یادگیری تقویتی و برنامه‌ریزی معکوس، مدل‌ها از نقاط ساده‌تر آموزش را آغاز کرده و به تدریج در انجام وظایف پیچیده‌تر بهبود می‌یابند. این روش عملکرد مدل‌ها را در حل مسائل چندمرحله‌ای به شکل قابل‌توجهی بهبود می‌دهد.
منابع:
Training Large Language Models for Reasoning through Reverse Curriculum Reinforcement Learning

کانال یوتیوب ژورنال‌کلاب
افزودن رویداد به تقویم گوگل‌
از همه‌ی شما دعوت می‌کنیم که در این جلسه شرکت کنید.
🔔 اعلام برنامه جلسه‌ی سیزدهم ژورنال‌کلاب مدل‌های زبانی بزرگ

📚 موضوع
Multi-Modal Agents: Memory, Tool Use and Reasoning
👤 سخنران مهمان: دکتر علی‌رضا فتحی، رهبر تیم در گوگل دیپ‌مایند، پژوهشگر پیشین هوش مصنوعی در اپل و پژوهشگر پیشین در دانشگاه استنفورد
🗓 زمان: یک‌شنبه ۱۴۰۳/۱۱/۱۴، ساعت ۲۱:۳۰ تا ۲۳:۰۰
مکان برگزاری: vc.sharif.edu/ch/mjafari
🔍 در این جلسه، دکتر علی‌رضا فتحی به بررسی چالش‌ها، پیشرفت‌ها و کاربردهای اخیر در حوزه مالتی‌مدال‌ها خواهند پرداخت. ایشان موضوعاتی مانند نقش حافظه در مالتی‌مدال‌ها، استفاده از ابزارهای مختلف و قابلیت استدلال این مدل‌ها را پوشش می‌دهند.

افزودن رویداد به تقویم گوگل‌
کانال یوتیوب ژورنال‌کلاب
از همه‌ی شما دعوت می‌کنیم که در این جلسه شرکت کنید.
#LLM #LLM_JC #LLM_Club #INL_Lab
@LLM_JC
ویدیوی جلسه‌های پیشین باشگاه مدل‌های زبانی بزرگ:
جلسه‌ی ۱. پرسش و پاسخ آزاد - دکتر علی اسلامی (ضبط نشده)
جلسه‌ی ۲. بهبود قدرت استدلال در مدل‌های زبانی بزرگ (اِستار و وی‌اِستار) - معین سلیمی (ضبط نشده)
جلسه‌ی ۳.
مدل‌های زبانی چندزبانه؛ چرا و چگونه؟ - دکتر مرضیه فدایی
جلسه‌ی ۴.
مروری بر روش‌های به‌کارگیری تکنیک‌های یادگیری تقویتی در مدل‌های زبانی بزرگ و برعکس - معین سلیمی
جلسه‌ی ۵.
روش‌های کارای فاین‌تیونینگ در مدل‌های زبانی بزرگ - معین سلیمی
جلسه‌ی ۶.
رونمایی از LayerSkip؛ روش جدید متا اِی‌آی برای سرعت‌بخشی به فرآیند تولید توکن در مدل‌های زبانی بزرگ - معین سلیمی
جلسه‌ی ۷.
بررسی پژوهش Self-Instruct - یگانه کردی
جلسه‌ی ۸.
معماری دوگانه برای بهبود ایمنی و کارایی در مدل‌های زبانی بزرگ - شروین قاسملو
جلسه‌ی ۹.
مروری بر برخی از نوآوری‌های اخیر در رگ و چالش‌های آن‌ها - حانیه سرتیپی
جلسه‌ی ۱۰.
انتساب مقیاس‌پذیر رفتار مدل‌های زبانی بزرگ به منابع داده و نورون‌ها - طاها بهادری
جلسه‌ی ۱۱.
«بهبود قدرت استدلال در مدل‌های زبانی بزرگ»؛ بررسی شش پژوهش پذیرفته شده در آی‌سی‌ام‌ال ۲۰۲۴ - معین سلیمی
جلسه‌ی ۱۲. بررسی دو پژوهش مالتی‌مدال: مالمو و پیکسمو - محمدرضا صالحی (ضبط‌نشده‌‌)
جلسه‌ی ۱۳.
عامل‌های مالتی‌مدال‌: استدلال، استفاده از ابزار و حافظه - علی‌رضا فتحی
جلسه‌ی ١۴.
نحوه‌ی ساخت و آموزش مدل‌های زبانی چندزبانه و به طور خاص مدل Aya-expanse - دکتر مرضیه فدایی
جلسه‌ی ١۵.
دیپ‌سیک دقیقا چگونه کار می‌کند؟ - دکتر محمدحسین رهبان
جلسه‌ی ١۶. عامل‌های هوشمند؛ تشخیص کلاهبرداری - دکتر منصوره کرمی (ضبط نشده)
جلسه‌ی ١٧.
سامانه‌های توصیه‌گر بر پایه‌ی مدل‌های مولد - دکتر یاشار دلجو
جلسه‌ی ١٨.
مروری سیستماتیک بر روش‌های پرامپتینگ در پردازش زبان طبیعی - رومینا اعتضادی
جلسه‌ی ۱۹.
درس‌هایی از دیپ‌سیک: بهبود مشکلات دیپ‌سیک با روش DAPO - معین سلیمی
جلسه‌ی ۲۰.
بهبود خودکار مدل‌های زبانی بزرگ با تخیل، جستجو و نقد هوشمندانه - فاطمه شاه‌حسینی
جلسه‌ی ۲۱.
مواجهه‌ی مدل‌های زبانی با سوال‌های باز (Open-Ended Questions)؛ ارزیابی مدل‌های زبانی بزرگ در استدلال‌های انسان‌گونه - معین سلیمی
جلسه‌ی ٢٢.
استدلال معکوس (Abductive Reasoning) در مدل‌های زبانی: تحلیل عملکرد آن‌ها در پرسش‌های چندگزینه‌ای و فرایندهای تشخیص پزشکی - معین سلیمی
جلسه‌ی ٢٣.
آیا «شبکه‌های بازگشتی ساده‌شده» می‌توانند جایگزینی برای ترنسفورمر در مدل‌های زبانی بزرگ باشند؟ - دکتر حسین حاجی‌میرصادقی
جلسه‌ی ۲۴.
مروری سیستماتیک بر کاربرد مدل‌های زبانی بزرگ در پژوهش علمی و ایده‌پردازی ـ معین سلیمی
جلسه‌ی ۲۵.
بازتعریف معیارهای ارزیابی مدل‌های چندزبانی بزرگ - Julia Kreutzer
جلسه‌ی ۲۶. بررسی قدرت استدلال مدل‌های زبانی بزرگ در زمان تست - دکتر مهدی رضاقلی‌زاده (ضبط نشده)
جلسه‌ی ۲۷.
آیا بهبود استدلال ریاضی، قابلیت‌های عمومی مدل‌های زبانی را بهبود می‌بخشد؟ – بررسی قابلیت انتقال استدلال در ال‌ال‌ام‌ها - معین سلیمی
جلسه‌ی ۲۸.
بهبود یادگیری قوانین در مدل‌های زبانی بزرگ با بهره‌گیری از استنتاج استقرایی، قیاسی و ربایشی -شایگان ادیم
جلسه‌ی ۲۹.
بررسی AlphaEvolve - نیما علیقارداشی
جلسه‌ی ٣٠. مدل استدلال سلسله‌مراتبی - یوسف میریوسفی
جلسه‌ی ٣١.
برآورد عدم قطعیت در شبکه‌های عمیق - دکتر یاسین عباسی
این لیست به‌روز می‌شود.
LLM Club pinned «ویدیوی جلسه‌های پیشین باشگاه مدل‌های زبانی بزرگ: جلسه‌ی ۱. پرسش و پاسخ آزاد - دکتر علی اسلامی (ضبط نشده) جلسه‌ی ۲. بهبود قدرت استدلال در مدل‌های زبانی بزرگ (اِستار و وی‌اِستار) - معین سلیمی (ضبط نشده) جلسه‌ی ۳. مدل‌های زبانی چندزبانه؛ چرا و چگونه؟ - دکتر مرضیه…»
🔔 اعلام برنامه جلسه‌ی چهاردهم باشگاه مدل‌های زبانی بزرگ

📚 موضوع: نحوه‌ی ساخت و آموزش مدل‌های زبانی چندزبانه و به طور خاص مدل Aya-expanse
👤 سخنران مهمان: دکتر مرضیه فدایی، پژوهشگر ارشد هوش مصنوعی در شرکت Cohere
🗓 زمان: یک‌شنبه ۱۴۰۳/۱۱/۲۸، ساعت ۱۹:۳۰ تا ۲۱:٠٠
مکان برگزاری: vc.sharif.edu/ch/mjafari
🔍 مدل زبانی آیا-اکسپنس یک مدل چندزبانه بزرگ است که توسط تیم Cohere For AI توسعه یافته و از ۲۳ زبان مختلف از جمله فارسی پشتیبانی می‌کند. این مدل با استفاده از تکنیک‌های پیشرفته‌ای مانند داوری داده، آموزش با ترجیح چندزبانه، تنظیمات ایمنی و ترکیب مدل‌ها، عملکرد بالایی را در پردازش زبان‌های مختلف ارائه می‌دهد. هدف از توسعه ایا-اکسپنس، ارائه یک مدل چندزبانه با کیفیت بالا برای استفاده پژوهشگران در سراسر جهان است. طبق معیارها و سنجه‌های مختلف (از جمله این سنجه) مدل آیا-اکسپنس کیفیت خوبی بر روی زبان فارسی نیز دارد.

لینک یوتیوب ‌(ویدئو و اسلاید جلسه‌ها)
افزودن رویداد به تقویم گوگل‌
توییتر

از همه‌ی شما دعوت می‌کنیم که در این جلسه شرکت کنید.
#LLM #LLM_JC #LLM_Club #INL_Lab #Aya_Expanse
@LLM_JC