🔔 برگزاری جلسهی هفدهم باشگاه مدلهای زبانی بزرگ
📚 موضوع: سامانههای توصیهگر بر پایهی مدلهای مولد
👤 سخنران: دکتر یاشار دلجو استادیار دانشگاه پلیتکنیک باری
🗓 زمان: یکشنبه ۱۴۰۳/۱۲/۲۶ ساعت ۱۹:۳۰ تا ۲۱:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این جلسه به بررسی کاربرد مدلهای مولد در سامانههای توصیهگر پرداخته میشود. پژوهشهای اخیر نشان میدهد که استفاده از مدلهای مولد (مانند مدلهای زبان بزرگ) میتواند با بهبود دقت توصیهها و کاهش مشکلاتی مانند توهمگویی و تصادفی بودن توصیهها، سامانههای توصیهگر را به سطح جدیدی ارتقا دهد. علاوه بر این، چارچوبهای جامع ارزیابی پیشنهادی، جنبههای اخلاقی، امنیتی و عدالت در ارائه توصیهها را نیز مورد توجه قرار میدهد. این رویکرد نوین، افقهای تازهای در توسعه سامانههای توصیهگر نسل بعدی و بهبود تجربه کاربری باز میکند.
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM_Club
@LLM_CLUB
📚 موضوع: سامانههای توصیهگر بر پایهی مدلهای مولد
👤 سخنران: دکتر یاشار دلجو استادیار دانشگاه پلیتکنیک باری
🗓 زمان: یکشنبه ۱۴۰۳/۱۲/۲۶ ساعت ۱۹:۳۰ تا ۲۱:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این جلسه به بررسی کاربرد مدلهای مولد در سامانههای توصیهگر پرداخته میشود. پژوهشهای اخیر نشان میدهد که استفاده از مدلهای مولد (مانند مدلهای زبان بزرگ) میتواند با بهبود دقت توصیهها و کاهش مشکلاتی مانند توهمگویی و تصادفی بودن توصیهها، سامانههای توصیهگر را به سطح جدیدی ارتقا دهد. علاوه بر این، چارچوبهای جامع ارزیابی پیشنهادی، جنبههای اخلاقی، امنیتی و عدالت در ارائه توصیهها را نیز مورد توجه قرار میدهد. این رویکرد نوین، افقهای تازهای در توسعه سامانههای توصیهگر نسل بعدی و بهبود تجربه کاربری باز میکند.
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM_Club
@LLM_CLUB
🔔 برگزاری جلسهی هجدهم باشگاه مدلهای زبانی بزرگ
📚 موضوع: مروری سیستماتیک بر روشهای پرامپتینگ در پردازش زبان طبیعی
👤 سخنران: رومینا اعتضادی
🗓 زمان: یکشنبه ۱۴۰۴/۰۱/۱۷ ساعت ۱۹:۳۰ تا ۲۱:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
در این جلسه به بررسی برخی از روشهای پرامپتینگ پرداخته میشود. در ابتدا مدلهای از پیشآموزش دیده و نقش آنها در شکلدهی به توانمندیهای زبانی معرفی میشوند، سپس تکنیکهای مختلف طراحی پرامپت برای بهبود عملکرد مدلها و چالشهای موجود در این مسیر مورد بررسی قرار میگیرند. هدف اصلی این مرور، ارائه یک دید سیستماتیک نسبت به روندهای نوین در استفاده از پرامپتینگ در کاربردهای مختلف زبانی است
منابع:
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM_Club
@LLM_CLUB
📚 موضوع: مروری سیستماتیک بر روشهای پرامپتینگ در پردازش زبان طبیعی
👤 سخنران: رومینا اعتضادی
🗓 زمان: یکشنبه ۱۴۰۴/۰۱/۱۷ ساعت ۱۹:۳۰ تا ۲۱:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
در این جلسه به بررسی برخی از روشهای پرامپتینگ پرداخته میشود. در ابتدا مدلهای از پیشآموزش دیده و نقش آنها در شکلدهی به توانمندیهای زبانی معرفی میشوند، سپس تکنیکهای مختلف طراحی پرامپت برای بهبود عملکرد مدلها و چالشهای موجود در این مسیر مورد بررسی قرار میگیرند. هدف اصلی این مرور، ارائه یک دید سیستماتیک نسبت به روندهای نوین در استفاده از پرامپتینگ در کاربردهای مختلف زبانی است
منابع:
Pre-train, Prompt, and Predict: A Systematic Survey of Prompting Methods in Natural Language Processing
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM_Club
@LLM_CLUB
LLM Club
ویدیوی جلسههای پیشین باشگاه مدلهای زبانی بزرگ: جلسهی ۱. پرسش و پاسخ آزاد - دکتر علی اسلامی (ضبط نشده) جلسهی ۲. بهبود قدرت استدلال در مدلهای زبانی بزرگ (اِستار و ویاِستار) - معین سلیمی (ضبط نشده) جلسهی ۳. مدلهای زبانی چندزبانه؛ چرا و چگونه؟ - دکتر مرضیه…
ویدئوی جلسههای ۱۶ و ۱٧ بارگذاری شده و لیست بالا بهروزرسانی شده است.
🔔 برگزاری جلسهی نوزدهم باشگاه مدلهای زبانی بزرگ
📚 موضوع: درسهایی از دیپسیک: بهبود یادگیری تقویتی در مدلهای زبانی بزرگ با الگوریتم DAPO
👤 سخنران: معین سلیمی
🗓 زمان: یکشنبه ۱۴۰۴/۰۱/۲۵ ساعت ۱۹:۳۰ تا ۲۱:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این جلسه، الگوریتم DAPO معرفی خواهد شد که با هدف بهبود تواناییهای استدلالی مدلهای زبانی بزرگ توسعه یافته است. این الگوریتم با ارائه تکنیکهایی مانند «Clip-Higher» برای افزایش تنوع سیستم و جلوگیری از فروپاشی آنتروپی، «نمونهبرداری پویا» برای بهبود کارایی و پایداری آموزش، و «شکلدهی پاداش» برای کاهش نویز پاداش و تثبیت آموزش، عملکرد مدلهای زبانی را بهبود میبخشد. نتایج نشان میدهد که DAPO با استفاده از مدل پایه Qwen2.5-32B، امتیاز ۵۰ را در آزمون AIME 2024 کسب کرده.
منابع:
1. DAPO: An Open-Source LLM Reinforcement Learning System at Scale
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM_Club #RL #Deepseek
@LLM_CLUB
📚 موضوع: درسهایی از دیپسیک: بهبود یادگیری تقویتی در مدلهای زبانی بزرگ با الگوریتم DAPO
👤 سخنران: معین سلیمی
🗓 زمان: یکشنبه ۱۴۰۴/۰۱/۲۵ ساعت ۱۹:۳۰ تا ۲۱:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این جلسه، الگوریتم DAPO معرفی خواهد شد که با هدف بهبود تواناییهای استدلالی مدلهای زبانی بزرگ توسعه یافته است. این الگوریتم با ارائه تکنیکهایی مانند «Clip-Higher» برای افزایش تنوع سیستم و جلوگیری از فروپاشی آنتروپی، «نمونهبرداری پویا» برای بهبود کارایی و پایداری آموزش، و «شکلدهی پاداش» برای کاهش نویز پاداش و تثبیت آموزش، عملکرد مدلهای زبانی را بهبود میبخشد. نتایج نشان میدهد که DAPO با استفاده از مدل پایه Qwen2.5-32B، امتیاز ۵۰ را در آزمون AIME 2024 کسب کرده.
منابع:
1. DAPO: An Open-Source LLM Reinforcement Learning System at Scale
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM_Club #RL #Deepseek
@LLM_CLUB
LLM Club
🔔 برگزاری جلسهی نوزدهم باشگاه مدلهای زبانی بزرگ 📚 موضوع: درسهایی از دیپسیک: بهبود یادگیری تقویتی در مدلهای زبانی بزرگ با الگوریتم DAPO 👤 سخنران: معین سلیمی 🗓 زمان: یکشنبه ۱۴۰۴/۰۱/۲۵ ساعت ۱۹:۳۰ تا ۲۱:۰۰ 📍 مکان برگزاری: vc.sharif.edu/mjafari 🔍 در این…
با پوزش، متاسفانه این جلسه لغو میشود و در هفتههای آینده برگزار خواهد شد.
🔔 برگزاری جلسهی نوزدهم باشگاه مدلهای زبانی بزرگ
📚 موضوع: درسهایی از دیپسیک: بهبود مشکلات دیپسیک با روش DAPO
👤 سخنران: معین سلیمی
🗓 زمان: یکشنبه ۱۴۰۴/۰۱/۳۱ ساعت ۲۰:۰۰ تا ۲۱:۳۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این جلسه، الگوریتم DAPO معرفی خواهد شد که با هدف بهبود تواناییهای استدلالی مدلهای زبانی بزرگ توسعه یافته است. این الگوریتم با ارائه تکنیکهایی مانند «Clip-Higher» برای افزایش تنوع سیستم و جلوگیری از فروپاشی آنتروپی، «نمونهبرداری پویا» برای بهبود کارایی و پایداری آموزش، و «شکلدهی پاداش» برای کاهش نویز پاداش و تثبیت آموزش، عملکرد مدلهای زبانی را بهبود میبخشد. نتایج نشان میدهد که DAPO با استفاده از مدل پایه Qwen2.5-32B، امتیاز ۵۰ را در آزمون AIME 2024 کسب کرده.
منابع:
1. DAPO: An Open-Source LLM Reinforcement Learning System at Scale
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM_Club #RL #Deepseek
@LLM_CLUB
📚 موضوع: درسهایی از دیپسیک: بهبود مشکلات دیپسیک با روش DAPO
👤 سخنران: معین سلیمی
🗓 زمان: یکشنبه ۱۴۰۴/۰۱/۳۱ ساعت ۲۰:۰۰ تا ۲۱:۳۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این جلسه، الگوریتم DAPO معرفی خواهد شد که با هدف بهبود تواناییهای استدلالی مدلهای زبانی بزرگ توسعه یافته است. این الگوریتم با ارائه تکنیکهایی مانند «Clip-Higher» برای افزایش تنوع سیستم و جلوگیری از فروپاشی آنتروپی، «نمونهبرداری پویا» برای بهبود کارایی و پایداری آموزش، و «شکلدهی پاداش» برای کاهش نویز پاداش و تثبیت آموزش، عملکرد مدلهای زبانی را بهبود میبخشد. نتایج نشان میدهد که DAPO با استفاده از مدل پایه Qwen2.5-32B، امتیاز ۵۰ را در آزمون AIME 2024 کسب کرده.
منابع:
1. DAPO: An Open-Source LLM Reinforcement Learning System at Scale
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM_Club #RL #Deepseek
@LLM_CLUB
🔔برگزاری جلسهی بیستم باشگاه مدلهای زبانی بزرگ
📚 موضوع: بهبود خودکار مدلهای زبانی بزرگ با تخیل، جستجو و نقد هوشمندانه
👤 سخنران: فاطمه شاهحسینی
🗓 زمان: دوشنبه ۱۴۰۴/۰۲/۰۸ ساعت ۱۷:۰۰
📍 لینک جلسه: https://vc.sharif.edu/ch/mjafari
🔍 این مقاله چارچوب ALPHALLM را معرفی میکند که به مدلهای زبانی بزرگ امکان میدهد بدون نیاز به دادههای برچسبخوردهی جدید، خود را بهبود دهند. این سیستم با تولید خودکار سوالات جدید (تخیل)، جستجوی پاسخهای بهتر با الگوریتم ηMCTS (جستجو)، و ارزیابی پاسخها با سه مدل منتقد (نقد)، کیفیت مدل را در حل مسائل دشوار مثل ریاضیات به طور چشمگیری افزایش میدهد. نتایج نشان میدهد که ALPHALLM میتواند مدلهایی مثل Llama-2 را بدون دادهی انسانی به سطح عملکرد GPT-4 برساند
منابع:
1. Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM_Club
@LLM_CLUB
📚 موضوع: بهبود خودکار مدلهای زبانی بزرگ با تخیل، جستجو و نقد هوشمندانه
👤 سخنران: فاطمه شاهحسینی
🗓 زمان: دوشنبه ۱۴۰۴/۰۲/۰۸ ساعت ۱۷:۰۰
📍 لینک جلسه: https://vc.sharif.edu/ch/mjafari
🔍 این مقاله چارچوب ALPHALLM را معرفی میکند که به مدلهای زبانی بزرگ امکان میدهد بدون نیاز به دادههای برچسبخوردهی جدید، خود را بهبود دهند. این سیستم با تولید خودکار سوالات جدید (تخیل)، جستجوی پاسخهای بهتر با الگوریتم ηMCTS (جستجو)، و ارزیابی پاسخها با سه مدل منتقد (نقد)، کیفیت مدل را در حل مسائل دشوار مثل ریاضیات به طور چشمگیری افزایش میدهد. نتایج نشان میدهد که ALPHALLM میتواند مدلهایی مثل Llama-2 را بدون دادهی انسانی به سطح عملکرد GPT-4 برساند
منابع:
1. Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM_Club
@LLM_CLUB
🔔 برگزاری جلسهی بیستویکم باشگاه مدلهای زبانی بزرگ
📚 موضوع: مواجههی مدلهای زبانی با سوالهای باز (Open-Ended Questions)؛ ارزیابی مدلهای زبانی بزرگ در استدلالهای انسانگونه
👤 ارائهدهنده: معین سلیمی
🗓 زمان: یکشنبه ۱۴۰۴/۰۲/۱۴ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این جلسه، مقالهای از دانشگاه واشینگتن در باب توانایی مدلهای زبانی بزرگ برای درک «Theory of Mind» یا ذهنخوانی انسانگونه دربارهی سوالهایی که پاسخ مشخصی ندارند (open‑ended questions)، بررسی خواهد شد. این تحقیق با تحلیل پاسخهای انسانی و مدلهای زبانی مختلف (روی دیتاست پستهای ChangeMyView در ردیت)، نشان میدهد که حتی پیشرفتهترین مدلها نیز در بازتولید کامل استدلالهای انسانی ناتواناند. با روشهای مبتنی بر پرامپت و با ترکیبی از نیت، احساس و لحن پرسش، عملکرد آنها بهطور قابلتوجهی بهبود مییابد اما هنوز فاصلهی زیادی تا رسیدن به سطح استدلال انسانی دارند.
📝 منابع
1. Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم در این جلسه شرکت کنید!
#LLM_Club #TheoryOfMind #OpenEnded #LLM_Research
@LLM_CLUB
📚 موضوع: مواجههی مدلهای زبانی با سوالهای باز (Open-Ended Questions)؛ ارزیابی مدلهای زبانی بزرگ در استدلالهای انسانگونه
👤 ارائهدهنده: معین سلیمی
🗓 زمان: یکشنبه ۱۴۰۴/۰۲/۱۴ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این جلسه، مقالهای از دانشگاه واشینگتن در باب توانایی مدلهای زبانی بزرگ برای درک «Theory of Mind» یا ذهنخوانی انسانگونه دربارهی سوالهایی که پاسخ مشخصی ندارند (open‑ended questions)، بررسی خواهد شد. این تحقیق با تحلیل پاسخهای انسانی و مدلهای زبانی مختلف (روی دیتاست پستهای ChangeMyView در ردیت)، نشان میدهد که حتی پیشرفتهترین مدلها نیز در بازتولید کامل استدلالهای انسانی ناتواناند. با روشهای مبتنی بر پرامپت و با ترکیبی از نیت، احساس و لحن پرسش، عملکرد آنها بهطور قابلتوجهی بهبود مییابد اما هنوز فاصلهی زیادی تا رسیدن به سطح استدلال انسانی دارند.
📝 منابع
1. Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم در این جلسه شرکت کنید!
#LLM_Club #TheoryOfMind #OpenEnded #LLM_Research
@LLM_CLUB
🔔 برگزاری جلسهی بیستودوم باشگاه مدلهای زبانی بزرگ
📚 موضوع: استدلال معکوس (Abductive Reasoning) در مدلهای زبانی: تحلیل عملکرد آنها در پرسشهای چندگزینهای و فرایندهای تشخیص پزشکی
👤 ارائهدهنده: معین سلیمی
🗓 زمان: یکشنبه ۱۴۰۴/۰۲/۲۱ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این ارائه به بررسی نحوهی استدلال در مدلهای زبانی بزرگ در دو زمینهی متفاوت میپردازیم. ابتدا میبینیم که این مدلها چگونه میتوانند حتی بدون داشتن متن سوال، بهدرستی به سوالات چندگزینهای پاسخ دهند و همچنین نقش الگوهای پنهان (artifacts) و استدلال معکوس (Abductive Reasoning) را بررسی میکنیم. سپس به دنیای پزشکی به سراغ روشی میرویم که با همراستاسازی فرایندهای تشخیص پزشکی، تلاش میکند تا عملکرد تشخیص پزشکی را بهبود میدهد. هدف این است که درک عمیقتری از مسیرهای استدلالی این مدلها به دست آوریم. هر دو مقاله، از زاویههای متفاوت، به توانایی مدلها در استدلال و تصمیمگیری میپردازند. این جلسه تلاش دارد تا نقش استدلال معکوس را در هر دو حوزهی پرسش و پاسخ عمومی و کاربردهای تخصصی پزشکی بررسی کند.
📝 منابع
1. Reasoning Like a Doctor: Improving Medical Dialogue Systems via Diagnostic Reasoning Process Alignment
2. Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question?
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم در این جلسه شرکت کنید!
#LLM_Club #LLM_Research
@LLM_CLUB
📚 موضوع: استدلال معکوس (Abductive Reasoning) در مدلهای زبانی: تحلیل عملکرد آنها در پرسشهای چندگزینهای و فرایندهای تشخیص پزشکی
👤 ارائهدهنده: معین سلیمی
🗓 زمان: یکشنبه ۱۴۰۴/۰۲/۲۱ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این ارائه به بررسی نحوهی استدلال در مدلهای زبانی بزرگ در دو زمینهی متفاوت میپردازیم. ابتدا میبینیم که این مدلها چگونه میتوانند حتی بدون داشتن متن سوال، بهدرستی به سوالات چندگزینهای پاسخ دهند و همچنین نقش الگوهای پنهان (artifacts) و استدلال معکوس (Abductive Reasoning) را بررسی میکنیم. سپس به دنیای پزشکی به سراغ روشی میرویم که با همراستاسازی فرایندهای تشخیص پزشکی، تلاش میکند تا عملکرد تشخیص پزشکی را بهبود میدهد. هدف این است که درک عمیقتری از مسیرهای استدلالی این مدلها به دست آوریم. هر دو مقاله، از زاویههای متفاوت، به توانایی مدلها در استدلال و تصمیمگیری میپردازند. این جلسه تلاش دارد تا نقش استدلال معکوس را در هر دو حوزهی پرسش و پاسخ عمومی و کاربردهای تخصصی پزشکی بررسی کند.
📝 منابع
1. Reasoning Like a Doctor: Improving Medical Dialogue Systems via Diagnostic Reasoning Process Alignment
2. Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question?
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم در این جلسه شرکت کنید!
#LLM_Club #LLM_Research
@LLM_CLUB
LLM Club
ویدیوی جلسههای پیشین باشگاه مدلهای زبانی بزرگ: جلسهی ۱. پرسش و پاسخ آزاد - دکتر علی اسلامی (ضبط نشده) جلسهی ۲. بهبود قدرت استدلال در مدلهای زبانی بزرگ (اِستار و ویاِستار) - معین سلیمی (ضبط نشده) جلسهی ۳. مدلهای زبانی چندزبانه؛ چرا و چگونه؟ - دکتر مرضیه…
ویدئوی جلسههای ۱٧ و ١٨ و ١٩ و ٢٠ و ٢١ در یوتیوب بارگذاری شده و لیست بالا بهروزرسانی شده است.
🔔 برگزاری جلسهی بیست و سوم باشگاه مدلهای زبانی بزرگ
📚 موضوع: آیا «شبکههای بازگشتی سادهشده» میتوانند جایگزینی برای ترنسفورمر در مدلهای زبانی بزرگ باشند؟
👤 ارائهدهنده: دکتر حسین حاجیمیرصادقی، پژوهشگر ارشد هوش مصنوعی در RBC Borealis و پژوهشگر پیشین در اوراکل
🗓 زمان: یکشنبه ۱۴۰۴/۰۲/۲۹ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این جلسه معماریهای بازگشتی سادهشدهای مانند minLSTM و minGRU مورد بحث قرار میگیرند که در بسیاری از وظایف زبانی میتوانند عملکردی قابل مقایسه یا حتی بهتر از ترنسفورمرها داشته باشند، در حالی که پارامترها و محاسبات بسیار کمتری نیاز دارند. مهمترین مزایای این روش عبارتاند از:
۱. مدلهای بازگشتی جدیدی (minLSTM، minGRU و Delta-RNN) معرفی شدهاند که ساده، مؤثر و قابل موازیسازی هستند.
۲. این مدلها در وظایف مختلف NLP مانند ترجمه، زبان مدلسازی و طبقهبندی، عملکردی نزدیک یا بهتر از ترنسفورمرها دارند.
۳. ترنسفورمرها به دلیل self-attention گران و دشوار در مقیاسپذیری هستند، در حالی که RNNهای سادهشده میتوانند جایگزین مناسبی باشند.
📝 منابع
1. Were RNNs All We Needed?
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم در این جلسه شرکت کنید!
#LLM_Club #LLM_Research
@LLM_CLUB
📚 موضوع: آیا «شبکههای بازگشتی سادهشده» میتوانند جایگزینی برای ترنسفورمر در مدلهای زبانی بزرگ باشند؟
👤 ارائهدهنده: دکتر حسین حاجیمیرصادقی، پژوهشگر ارشد هوش مصنوعی در RBC Borealis و پژوهشگر پیشین در اوراکل
🗓 زمان: یکشنبه ۱۴۰۴/۰۲/۲۹ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این جلسه معماریهای بازگشتی سادهشدهای مانند minLSTM و minGRU مورد بحث قرار میگیرند که در بسیاری از وظایف زبانی میتوانند عملکردی قابل مقایسه یا حتی بهتر از ترنسفورمرها داشته باشند، در حالی که پارامترها و محاسبات بسیار کمتری نیاز دارند. مهمترین مزایای این روش عبارتاند از:
۱. مدلهای بازگشتی جدیدی (minLSTM، minGRU و Delta-RNN) معرفی شدهاند که ساده، مؤثر و قابل موازیسازی هستند.
۲. این مدلها در وظایف مختلف NLP مانند ترجمه، زبان مدلسازی و طبقهبندی، عملکردی نزدیک یا بهتر از ترنسفورمرها دارند.
۳. ترنسفورمرها به دلیل self-attention گران و دشوار در مقیاسپذیری هستند، در حالی که RNNهای سادهشده میتوانند جایگزین مناسبی باشند.
📝 منابع
1. Were RNNs All We Needed?
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم در این جلسه شرکت کنید!
#LLM_Club #LLM_Research
@LLM_CLUB
LLM Club
ویدیوی جلسههای پیشین باشگاه مدلهای زبانی بزرگ: جلسهی ۱. پرسش و پاسخ آزاد - دکتر علی اسلامی (ضبط نشده) جلسهی ۲. بهبود قدرت استدلال در مدلهای زبانی بزرگ (اِستار و ویاِستار) - معین سلیمی (ضبط نشده) جلسهی ۳. مدلهای زبانی چندزبانه؛ چرا و چگونه؟ - دکتر مرضیه…
ویدئوی جلسههای ٢٢ و ٢٣ در یوتیوب بارگذاری شده و لیست بالا بهروزرسانی شده است.
🔔 برگزاری جلسهی بیست و چهارم باشگاه مدلهای زبانی بزرگ
📚 موضوع: مروری سیستماتیک بر کاربرد مدلهای زبانی بزرگ در پژوهش علمی و ایدهپردازی
👤 ارائهدهنده: معین سلیمی
🗓 زمان: چهارشنبه ۱۴۰۴/۰۳/۰۷ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 این مقاله نخستین مرور جامع و سیستماتیک دربارهی نقش مدلهای زبانی بزرگ در فرآیند پژوهش علمی است. نویسندگان نشان میدهند که این مدلها چگونه میتوانند در چهار مرحلهی کلیدی پژوهش علمی به کار گرفته شوند:
۱. کشف فرضیههای علمی ۲. طراحی و اجرای آزمایشها ۳. نگارش علمی و ۴. داوری علمی
این مقاله با بررسی دقیق روشها، چالشها و معیارهای ارزیابی در هر مرحله، تصویری روشن از قابلیتها و محدودیتهای فعلی مدلهای زبانی بزرگ در حوزهی پژوهش علمی ارائه میدهد و مسیرهای آینده برای پژوهش را نیز پیشنهاد میکند.
📝 منابع
1. LLM4SR: A Survey on Large Language Models for Scientific Research
2. IRIS: Interactive Research Ideation System for Accelerating Scientific Discovery
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم در این جلسه شرکت کنید!
#LLM_Club #LLM_Research
@LLM_CLUB
📚 موضوع: مروری سیستماتیک بر کاربرد مدلهای زبانی بزرگ در پژوهش علمی و ایدهپردازی
👤 ارائهدهنده: معین سلیمی
🗓 زمان: چهارشنبه ۱۴۰۴/۰۳/۰۷ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 این مقاله نخستین مرور جامع و سیستماتیک دربارهی نقش مدلهای زبانی بزرگ در فرآیند پژوهش علمی است. نویسندگان نشان میدهند که این مدلها چگونه میتوانند در چهار مرحلهی کلیدی پژوهش علمی به کار گرفته شوند:
۱. کشف فرضیههای علمی ۲. طراحی و اجرای آزمایشها ۳. نگارش علمی و ۴. داوری علمی
این مقاله با بررسی دقیق روشها، چالشها و معیارهای ارزیابی در هر مرحله، تصویری روشن از قابلیتها و محدودیتهای فعلی مدلهای زبانی بزرگ در حوزهی پژوهش علمی ارائه میدهد و مسیرهای آینده برای پژوهش را نیز پیشنهاد میکند.
📝 منابع
1. LLM4SR: A Survey on Large Language Models for Scientific Research
2. IRIS: Interactive Research Ideation System for Accelerating Scientific Discovery
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم در این جلسه شرکت کنید!
#LLM_Club #LLM_Research
@LLM_CLUB