🔔برگزاری جلسهی بیستم باشگاه مدلهای زبانی بزرگ
📚 موضوع: بهبود خودکار مدلهای زبانی بزرگ با تخیل، جستجو و نقد هوشمندانه
👤 سخنران: فاطمه شاهحسینی
🗓 زمان: دوشنبه ۱۴۰۴/۰۲/۰۸ ساعت ۱۷:۰۰
📍 لینک جلسه: https://vc.sharif.edu/ch/mjafari
🔍 این مقاله چارچوب ALPHALLM را معرفی میکند که به مدلهای زبانی بزرگ امکان میدهد بدون نیاز به دادههای برچسبخوردهی جدید، خود را بهبود دهند. این سیستم با تولید خودکار سوالات جدید (تخیل)، جستجوی پاسخهای بهتر با الگوریتم ηMCTS (جستجو)، و ارزیابی پاسخها با سه مدل منتقد (نقد)، کیفیت مدل را در حل مسائل دشوار مثل ریاضیات به طور چشمگیری افزایش میدهد. نتایج نشان میدهد که ALPHALLM میتواند مدلهایی مثل Llama-2 را بدون دادهی انسانی به سطح عملکرد GPT-4 برساند
منابع:
1. Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM_Club
@LLM_CLUB
📚 موضوع: بهبود خودکار مدلهای زبانی بزرگ با تخیل، جستجو و نقد هوشمندانه
👤 سخنران: فاطمه شاهحسینی
🗓 زمان: دوشنبه ۱۴۰۴/۰۲/۰۸ ساعت ۱۷:۰۰
📍 لینک جلسه: https://vc.sharif.edu/ch/mjafari
🔍 این مقاله چارچوب ALPHALLM را معرفی میکند که به مدلهای زبانی بزرگ امکان میدهد بدون نیاز به دادههای برچسبخوردهی جدید، خود را بهبود دهند. این سیستم با تولید خودکار سوالات جدید (تخیل)، جستجوی پاسخهای بهتر با الگوریتم ηMCTS (جستجو)، و ارزیابی پاسخها با سه مدل منتقد (نقد)، کیفیت مدل را در حل مسائل دشوار مثل ریاضیات به طور چشمگیری افزایش میدهد. نتایج نشان میدهد که ALPHALLM میتواند مدلهایی مثل Llama-2 را بدون دادهی انسانی به سطح عملکرد GPT-4 برساند
منابع:
1. Toward Self-Improvement of LLMs via Imagination, Searching, and Criticizing
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همهی شما دعوت میکنیم که در این جلسه شرکت کنید.
#LLM_Club
@LLM_CLUB
🔔 برگزاری جلسهی بیستویکم باشگاه مدلهای زبانی بزرگ
📚 موضوع: مواجههی مدلهای زبانی با سوالهای باز (Open-Ended Questions)؛ ارزیابی مدلهای زبانی بزرگ در استدلالهای انسانگونه
👤 ارائهدهنده: معین سلیمی
🗓 زمان: یکشنبه ۱۴۰۴/۰۲/۱۴ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این جلسه، مقالهای از دانشگاه واشینگتن در باب توانایی مدلهای زبانی بزرگ برای درک «Theory of Mind» یا ذهنخوانی انسانگونه دربارهی سوالهایی که پاسخ مشخصی ندارند (open‑ended questions)، بررسی خواهد شد. این تحقیق با تحلیل پاسخهای انسانی و مدلهای زبانی مختلف (روی دیتاست پستهای ChangeMyView در ردیت)، نشان میدهد که حتی پیشرفتهترین مدلها نیز در بازتولید کامل استدلالهای انسانی ناتواناند. با روشهای مبتنی بر پرامپت و با ترکیبی از نیت، احساس و لحن پرسش، عملکرد آنها بهطور قابلتوجهی بهبود مییابد اما هنوز فاصلهی زیادی تا رسیدن به سطح استدلال انسانی دارند.
📝 منابع
1. Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم در این جلسه شرکت کنید!
#LLM_Club #TheoryOfMind #OpenEnded #LLM_Research
@LLM_CLUB
📚 موضوع: مواجههی مدلهای زبانی با سوالهای باز (Open-Ended Questions)؛ ارزیابی مدلهای زبانی بزرگ در استدلالهای انسانگونه
👤 ارائهدهنده: معین سلیمی
🗓 زمان: یکشنبه ۱۴۰۴/۰۲/۱۴ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این جلسه، مقالهای از دانشگاه واشینگتن در باب توانایی مدلهای زبانی بزرگ برای درک «Theory of Mind» یا ذهنخوانی انسانگونه دربارهی سوالهایی که پاسخ مشخصی ندارند (open‑ended questions)، بررسی خواهد شد. این تحقیق با تحلیل پاسخهای انسانی و مدلهای زبانی مختلف (روی دیتاست پستهای ChangeMyView در ردیت)، نشان میدهد که حتی پیشرفتهترین مدلها نیز در بازتولید کامل استدلالهای انسانی ناتواناند. با روشهای مبتنی بر پرامپت و با ترکیبی از نیت، احساس و لحن پرسش، عملکرد آنها بهطور قابلتوجهی بهبود مییابد اما هنوز فاصلهی زیادی تا رسیدن به سطح استدلال انسانی دارند.
📝 منابع
1. Do LLMs Exhibit Human-Like Reasoning? Evaluating Theory of Mind in LLMs for Open-Ended Responses
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم در این جلسه شرکت کنید!
#LLM_Club #TheoryOfMind #OpenEnded #LLM_Research
@LLM_CLUB
🔔 برگزاری جلسهی بیستودوم باشگاه مدلهای زبانی بزرگ
📚 موضوع: استدلال معکوس (Abductive Reasoning) در مدلهای زبانی: تحلیل عملکرد آنها در پرسشهای چندگزینهای و فرایندهای تشخیص پزشکی
👤 ارائهدهنده: معین سلیمی
🗓 زمان: یکشنبه ۱۴۰۴/۰۲/۲۱ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این ارائه به بررسی نحوهی استدلال در مدلهای زبانی بزرگ در دو زمینهی متفاوت میپردازیم. ابتدا میبینیم که این مدلها چگونه میتوانند حتی بدون داشتن متن سوال، بهدرستی به سوالات چندگزینهای پاسخ دهند و همچنین نقش الگوهای پنهان (artifacts) و استدلال معکوس (Abductive Reasoning) را بررسی میکنیم. سپس به دنیای پزشکی به سراغ روشی میرویم که با همراستاسازی فرایندهای تشخیص پزشکی، تلاش میکند تا عملکرد تشخیص پزشکی را بهبود میدهد. هدف این است که درک عمیقتری از مسیرهای استدلالی این مدلها به دست آوریم. هر دو مقاله، از زاویههای متفاوت، به توانایی مدلها در استدلال و تصمیمگیری میپردازند. این جلسه تلاش دارد تا نقش استدلال معکوس را در هر دو حوزهی پرسش و پاسخ عمومی و کاربردهای تخصصی پزشکی بررسی کند.
📝 منابع
1. Reasoning Like a Doctor: Improving Medical Dialogue Systems via Diagnostic Reasoning Process Alignment
2. Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question?
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم در این جلسه شرکت کنید!
#LLM_Club #LLM_Research
@LLM_CLUB
📚 موضوع: استدلال معکوس (Abductive Reasoning) در مدلهای زبانی: تحلیل عملکرد آنها در پرسشهای چندگزینهای و فرایندهای تشخیص پزشکی
👤 ارائهدهنده: معین سلیمی
🗓 زمان: یکشنبه ۱۴۰۴/۰۲/۲۱ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این ارائه به بررسی نحوهی استدلال در مدلهای زبانی بزرگ در دو زمینهی متفاوت میپردازیم. ابتدا میبینیم که این مدلها چگونه میتوانند حتی بدون داشتن متن سوال، بهدرستی به سوالات چندگزینهای پاسخ دهند و همچنین نقش الگوهای پنهان (artifacts) و استدلال معکوس (Abductive Reasoning) را بررسی میکنیم. سپس به دنیای پزشکی به سراغ روشی میرویم که با همراستاسازی فرایندهای تشخیص پزشکی، تلاش میکند تا عملکرد تشخیص پزشکی را بهبود میدهد. هدف این است که درک عمیقتری از مسیرهای استدلالی این مدلها به دست آوریم. هر دو مقاله، از زاویههای متفاوت، به توانایی مدلها در استدلال و تصمیمگیری میپردازند. این جلسه تلاش دارد تا نقش استدلال معکوس را در هر دو حوزهی پرسش و پاسخ عمومی و کاربردهای تخصصی پزشکی بررسی کند.
📝 منابع
1. Reasoning Like a Doctor: Improving Medical Dialogue Systems via Diagnostic Reasoning Process Alignment
2. Artifacts or Abduction: How Do LLMs Answer Multiple-Choice Questions Without the Question?
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم در این جلسه شرکت کنید!
#LLM_Club #LLM_Research
@LLM_CLUB
LLM Club
ویدیوی جلسههای پیشین باشگاه مدلهای زبانی بزرگ: جلسهی ۱. پرسش و پاسخ آزاد - دکتر علی اسلامی (ضبط نشده) جلسهی ۲. بهبود قدرت استدلال در مدلهای زبانی بزرگ (اِستار و ویاِستار) - معین سلیمی (ضبط نشده) جلسهی ۳. مدلهای زبانی چندزبانه؛ چرا و چگونه؟ - دکتر مرضیه…
ویدئوی جلسههای ۱٧ و ١٨ و ١٩ و ٢٠ و ٢١ در یوتیوب بارگذاری شده و لیست بالا بهروزرسانی شده است.
🔔 برگزاری جلسهی بیست و سوم باشگاه مدلهای زبانی بزرگ
📚 موضوع: آیا «شبکههای بازگشتی سادهشده» میتوانند جایگزینی برای ترنسفورمر در مدلهای زبانی بزرگ باشند؟
👤 ارائهدهنده: دکتر حسین حاجیمیرصادقی، پژوهشگر ارشد هوش مصنوعی در RBC Borealis و پژوهشگر پیشین در اوراکل
🗓 زمان: یکشنبه ۱۴۰۴/۰۲/۲۹ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این جلسه معماریهای بازگشتی سادهشدهای مانند minLSTM و minGRU مورد بحث قرار میگیرند که در بسیاری از وظایف زبانی میتوانند عملکردی قابل مقایسه یا حتی بهتر از ترنسفورمرها داشته باشند، در حالی که پارامترها و محاسبات بسیار کمتری نیاز دارند. مهمترین مزایای این روش عبارتاند از:
۱. مدلهای بازگشتی جدیدی (minLSTM، minGRU و Delta-RNN) معرفی شدهاند که ساده، مؤثر و قابل موازیسازی هستند.
۲. این مدلها در وظایف مختلف NLP مانند ترجمه، زبان مدلسازی و طبقهبندی، عملکردی نزدیک یا بهتر از ترنسفورمرها دارند.
۳. ترنسفورمرها به دلیل self-attention گران و دشوار در مقیاسپذیری هستند، در حالی که RNNهای سادهشده میتوانند جایگزین مناسبی باشند.
📝 منابع
1. Were RNNs All We Needed?
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم در این جلسه شرکت کنید!
#LLM_Club #LLM_Research
@LLM_CLUB
📚 موضوع: آیا «شبکههای بازگشتی سادهشده» میتوانند جایگزینی برای ترنسفورمر در مدلهای زبانی بزرگ باشند؟
👤 ارائهدهنده: دکتر حسین حاجیمیرصادقی، پژوهشگر ارشد هوش مصنوعی در RBC Borealis و پژوهشگر پیشین در اوراکل
🗓 زمان: یکشنبه ۱۴۰۴/۰۲/۲۹ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 در این جلسه معماریهای بازگشتی سادهشدهای مانند minLSTM و minGRU مورد بحث قرار میگیرند که در بسیاری از وظایف زبانی میتوانند عملکردی قابل مقایسه یا حتی بهتر از ترنسفورمرها داشته باشند، در حالی که پارامترها و محاسبات بسیار کمتری نیاز دارند. مهمترین مزایای این روش عبارتاند از:
۱. مدلهای بازگشتی جدیدی (minLSTM، minGRU و Delta-RNN) معرفی شدهاند که ساده، مؤثر و قابل موازیسازی هستند.
۲. این مدلها در وظایف مختلف NLP مانند ترجمه، زبان مدلسازی و طبقهبندی، عملکردی نزدیک یا بهتر از ترنسفورمرها دارند.
۳. ترنسفورمرها به دلیل self-attention گران و دشوار در مقیاسپذیری هستند، در حالی که RNNهای سادهشده میتوانند جایگزین مناسبی باشند.
📝 منابع
1. Were RNNs All We Needed?
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم در این جلسه شرکت کنید!
#LLM_Club #LLM_Research
@LLM_CLUB
LLM Club
ویدیوی جلسههای پیشین باشگاه مدلهای زبانی بزرگ: جلسهی ۱. پرسش و پاسخ آزاد - دکتر علی اسلامی (ضبط نشده) جلسهی ۲. بهبود قدرت استدلال در مدلهای زبانی بزرگ (اِستار و ویاِستار) - معین سلیمی (ضبط نشده) جلسهی ۳. مدلهای زبانی چندزبانه؛ چرا و چگونه؟ - دکتر مرضیه…
ویدئوی جلسههای ٢٢ و ٢٣ در یوتیوب بارگذاری شده و لیست بالا بهروزرسانی شده است.
🔔 برگزاری جلسهی بیست و چهارم باشگاه مدلهای زبانی بزرگ
📚 موضوع: مروری سیستماتیک بر کاربرد مدلهای زبانی بزرگ در پژوهش علمی و ایدهپردازی
👤 ارائهدهنده: معین سلیمی
🗓 زمان: چهارشنبه ۱۴۰۴/۰۳/۰۷ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 این مقاله نخستین مرور جامع و سیستماتیک دربارهی نقش مدلهای زبانی بزرگ در فرآیند پژوهش علمی است. نویسندگان نشان میدهند که این مدلها چگونه میتوانند در چهار مرحلهی کلیدی پژوهش علمی به کار گرفته شوند:
۱. کشف فرضیههای علمی ۲. طراحی و اجرای آزمایشها ۳. نگارش علمی و ۴. داوری علمی
این مقاله با بررسی دقیق روشها، چالشها و معیارهای ارزیابی در هر مرحله، تصویری روشن از قابلیتها و محدودیتهای فعلی مدلهای زبانی بزرگ در حوزهی پژوهش علمی ارائه میدهد و مسیرهای آینده برای پژوهش را نیز پیشنهاد میکند.
📝 منابع
1. LLM4SR: A Survey on Large Language Models for Scientific Research
2. IRIS: Interactive Research Ideation System for Accelerating Scientific Discovery
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم در این جلسه شرکت کنید!
#LLM_Club #LLM_Research
@LLM_CLUB
📚 موضوع: مروری سیستماتیک بر کاربرد مدلهای زبانی بزرگ در پژوهش علمی و ایدهپردازی
👤 ارائهدهنده: معین سلیمی
🗓 زمان: چهارشنبه ۱۴۰۴/۰۳/۰۷ ساعت ۲۰:۰۰
📍 مکان برگزاری: vc.sharif.edu/mjafari
🔍 این مقاله نخستین مرور جامع و سیستماتیک دربارهی نقش مدلهای زبانی بزرگ در فرآیند پژوهش علمی است. نویسندگان نشان میدهند که این مدلها چگونه میتوانند در چهار مرحلهی کلیدی پژوهش علمی به کار گرفته شوند:
۱. کشف فرضیههای علمی ۲. طراحی و اجرای آزمایشها ۳. نگارش علمی و ۴. داوری علمی
این مقاله با بررسی دقیق روشها، چالشها و معیارهای ارزیابی در هر مرحله، تصویری روشن از قابلیتها و محدودیتهای فعلی مدلهای زبانی بزرگ در حوزهی پژوهش علمی ارائه میدهد و مسیرهای آینده برای پژوهش را نیز پیشنهاد میکند.
📝 منابع
1. LLM4SR: A Survey on Large Language Models for Scientific Research
2. IRIS: Interactive Research Ideation System for Accelerating Scientific Discovery
یوتیوب (ویدئو و اسلاید جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم در این جلسه شرکت کنید!
#LLM_Club #LLM_Research
@LLM_CLUB
برگزاری جلسهی بیست و پنجم باشگاه مدلهای زبانی بزرگ
📚 موضوع: بازتعریف معیارهای ارزیابی مدلهای چندزبانی بزرگ
👤 سخنران: Julia Kreutzer، پژوهشگر ارشد هوش مصنوعی در Cohere
🗓 زمان: چهارشنبه ۱۴۰۴/۰۳/۱۴ ساعت ۱۸:۲۰
📍 لینک جلسه: کلاس مجازی دانشگاه شریف
🔍 در این جلسه، روشهای ارزیابی توانایی تولید متن در مدلهای چندزبانه بررسی میشود. تاکید میشود که ترجمهی ماشینی پرامپتها میتواند بر نتایج تأثیر بگذارد، بنابراین استفاده از متن اصلی بهجای متن ترجمهشده توصیه شده و همچنین پیشنهاد میشود از روشهایی مانند آزمونهای معنیدار آماری، تحلیل کیفی خطاها، و تجزیه و تحلیل دستهبندیشده بر اساس زبان استفاده شود تا نتایجی قابلاعتمادتر و بازتولیدپذیرتر بهدست آید. در پایان نیز چکلیستی عملی برای بهبود ارزیابی در اختیار پژوهشگران قرار میگیرد.
منابع:
1. Multilingual LLM Evaluation through the Lens of Machine Translation Evaluation
یوتیوب (ویدئو جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم که در این جلسه شرکت کنند.
#LLM_Club
@LLM_CLUB
📚 موضوع: بازتعریف معیارهای ارزیابی مدلهای چندزبانی بزرگ
👤 سخنران: Julia Kreutzer، پژوهشگر ارشد هوش مصنوعی در Cohere
🗓 زمان: چهارشنبه ۱۴۰۴/۰۳/۱۴ ساعت ۱۸:۲۰
📍 لینک جلسه: کلاس مجازی دانشگاه شریف
🔍 در این جلسه، روشهای ارزیابی توانایی تولید متن در مدلهای چندزبانه بررسی میشود. تاکید میشود که ترجمهی ماشینی پرامپتها میتواند بر نتایج تأثیر بگذارد، بنابراین استفاده از متن اصلی بهجای متن ترجمهشده توصیه شده و همچنین پیشنهاد میشود از روشهایی مانند آزمونهای معنیدار آماری، تحلیل کیفی خطاها، و تجزیه و تحلیل دستهبندیشده بر اساس زبان استفاده شود تا نتایجی قابلاعتمادتر و بازتولیدپذیرتر بهدست آید. در پایان نیز چکلیستی عملی برای بهبود ارزیابی در اختیار پژوهشگران قرار میگیرد.
منابع:
1. Multilingual LLM Evaluation through the Lens of Machine Translation Evaluation
یوتیوب (ویدئو جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم که در این جلسه شرکت کنند.
#LLM_Club
@LLM_CLUB
برگزاری جلسهی بیست و ششم باشگاه مدلهای زبانی بزرگ
📚 موضوع: بررسی قدرت استدلال مدلهای زبانی بزرگ در زمان تست
👤 سخنران: دکتر مهدی رضاقلیزاده، پژوهشگر ارشد هوش مصنوعی در AMD
🗓 زمان: یکشنبه ۱۴۰۴/۰۳/۱۸ ساعت ۲۰:۰۰
📍 لینک جلسه: کلاس مجازی دانشگاه شریف
🔍 در این جلسه موضوع «استدلال با مدلهای زبانی بزرگ با استفاده از توان محاسباتی در زمان تست» بررسی میشوند. در این بحث، تمرکز بر روشهایی خواهد بود که به جای افزایش اندازه مدل یا نیاز به بازآموزی، از ظرفیت محاسباتی در زمان استنتاج (test-time compute) برای بهبود توانایی استدلال مدل استفاده میکنند. هدف این ارائه بررسی مزایا، چالشها و پیشرفتهای اخیر در این حوزه است که راههای جدیدی را برای بهبود عملکرد مدلها بدون هزینههای سنگین آموزش دوبارهی آنها پیشنهاد میدهند.
یوتیوب (ویدئو جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم که در این جلسه شرکت کنند.
#LLM_Club
@LLM_CLUB
📚 موضوع: بررسی قدرت استدلال مدلهای زبانی بزرگ در زمان تست
👤 سخنران: دکتر مهدی رضاقلیزاده، پژوهشگر ارشد هوش مصنوعی در AMD
🗓 زمان: یکشنبه ۱۴۰۴/۰۳/۱۸ ساعت ۲۰:۰۰
📍 لینک جلسه: کلاس مجازی دانشگاه شریف
🔍 در این جلسه موضوع «استدلال با مدلهای زبانی بزرگ با استفاده از توان محاسباتی در زمان تست» بررسی میشوند. در این بحث، تمرکز بر روشهایی خواهد بود که به جای افزایش اندازه مدل یا نیاز به بازآموزی، از ظرفیت محاسباتی در زمان استنتاج (test-time compute) برای بهبود توانایی استدلال مدل استفاده میکنند. هدف این ارائه بررسی مزایا، چالشها و پیشرفتهای اخیر در این حوزه است که راههای جدیدی را برای بهبود عملکرد مدلها بدون هزینههای سنگین آموزش دوبارهی آنها پیشنهاد میدهند.
یوتیوب (ویدئو جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
از همه دعوت میکنیم که در این جلسه شرکت کنند.
#LLM_Club
@LLM_CLUB
LLM Club
ویدیوی جلسههای پیشین باشگاه مدلهای زبانی بزرگ: جلسهی ۱. پرسش و پاسخ آزاد - دکتر علی اسلامی (ضبط نشده) جلسهی ۲. بهبود قدرت استدلال در مدلهای زبانی بزرگ (اِستار و ویاِستار) - معین سلیمی (ضبط نشده) جلسهی ۳. مدلهای زبانی چندزبانه؛ چرا و چگونه؟ - دکتر مرضیه…
ویدئوی جلسههای ٢۴ و ٢۵ در یوتیوب بارگذاری شده و لیست بالا بهروزرسانی شده است.
جذب دستیار پژوهشی در پروژه مدلهای زبانی بزرگ
در صورت آشنایی با حوزه مدلهای زبانی بزرگ میتوانید به عنوان دستیار پژوهشی در این پروژهها با ما همکاری کنید. پروژهی مورد نظر تحت نظارت آزمایشگاه INL و RIML دانشگاه صنعتی شریف تعریف شده و میتواند در صورت امکان به عنوان پروژهی کارشناسی و یا کارشناسی ارشد نیز در نظر گرفته شود. خواهشمندست در صورت علاقهمندی، این فرم را تکمیل نمایید.
در صورت آشنایی با حوزه مدلهای زبانی بزرگ میتوانید به عنوان دستیار پژوهشی در این پروژهها با ما همکاری کنید. پروژهی مورد نظر تحت نظارت آزمایشگاه INL و RIML دانشگاه صنعتی شریف تعریف شده و میتواند در صورت امکان به عنوان پروژهی کارشناسی و یا کارشناسی ارشد نیز در نظر گرفته شود. خواهشمندست در صورت علاقهمندی، این فرم را تکمیل نمایید.
جلسهی بیست و هفتم باشگاه مدلهای زبانی بزرگ
📚 موضوع: آیا بهبود استدلال ریاضی، قابلیتهای عمومی مدلهای زبانی را بهبود میبخشد؟ – بررسی قابلیت انتقال استدلال در الالامها
👤 ارائهدهنده: معین سلیمی
🗓 زمان: دوشنبه ۱۴۰۴/۰۴/۲۳ ساعت ۲۰:۰۰
📍 لینک جلسه: کلاس مجازی دانشگاه شریف
🔍 در این مقاله بیش از ۲۰ مدل زبانی با وزنهای باز را بررسی شده تا مشخص شود آیا آموزش مدلها در حوزهی «استدلال ریاضی»، باعث بهبود تواناییهای عمومی آنها نیز میشود؟ نتایج نشان میدهد مدلهایی که از طریق یادگیری تقویتی و بر روی دیتاستهای ریاضی آموزش میبینند، عملکرد بهتری در تسکهای غیرریاضی (مانند پرسش و پاسخ علمی، تولید کد، و برنامهریزی) نیز دارند، حتی اگر تنها روی دادههای ریاضی آموزش دیده باشند. در مقابل، مدلهایی که با تنظیم دقیق تحت نظارت (SFT) آموزش داده شدهاند، گرچه در ریاضیات قوی میشوند، اما تواناییهای عمومی آنها بهبود نمییابد.
منابع:
Understanding Transferability of LLM Reasoning
یوتیوب (ویدئو جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
وبگاه ژورنالکلاب
از همه دعوت میکنیم که در این جلسه شرکت کنند
#LLM_Club
@LLM_CLUB
📚 موضوع: آیا بهبود استدلال ریاضی، قابلیتهای عمومی مدلهای زبانی را بهبود میبخشد؟ – بررسی قابلیت انتقال استدلال در الالامها
👤 ارائهدهنده: معین سلیمی
🗓 زمان: دوشنبه ۱۴۰۴/۰۴/۲۳ ساعت ۲۰:۰۰
📍 لینک جلسه: کلاس مجازی دانشگاه شریف
🔍 در این مقاله بیش از ۲۰ مدل زبانی با وزنهای باز را بررسی شده تا مشخص شود آیا آموزش مدلها در حوزهی «استدلال ریاضی»، باعث بهبود تواناییهای عمومی آنها نیز میشود؟ نتایج نشان میدهد مدلهایی که از طریق یادگیری تقویتی و بر روی دیتاستهای ریاضی آموزش میبینند، عملکرد بهتری در تسکهای غیرریاضی (مانند پرسش و پاسخ علمی، تولید کد، و برنامهریزی) نیز دارند، حتی اگر تنها روی دادههای ریاضی آموزش دیده باشند. در مقابل، مدلهایی که با تنظیم دقیق تحت نظارت (SFT) آموزش داده شدهاند، گرچه در ریاضیات قوی میشوند، اما تواناییهای عمومی آنها بهبود نمییابد.
منابع:
Understanding Transferability of LLM Reasoning
یوتیوب (ویدئو جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
وبگاه ژورنالکلاب
از همه دعوت میکنیم که در این جلسه شرکت کنند
#LLM_Club
@LLM_CLUB
جلسهی بیست و هشتم باشگاه مدلهای زبانی بزرگ
📚 موضوع: بهبود یادگیری قوانین در مدلهای زبانی بزرگ با بهرهگیری از استنتاج استقرایی، قیاسی و ربایشی
👤 ارائهدهنده: شایگان ادیم
🗓 زمان: یکشنبه ۱۴۰۴/۰۴/۲۹ ساعت ۲۰:۰۰
📍 لینک جلسه: کلاس مجازی دانشگاه شریف
منابع:
IDEA: Enhancing the Rule Learning Ability of Large Language Model Agent through Induction, Deduction, and Abduction
یوتیوب (ویدئو جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
وبسایت ژورنالکلاب
از همه دعوت میکنیم که در این جلسه شرکت کنند.
#LLM_Club
@LLM_CLUB
📚 موضوع: بهبود یادگیری قوانین در مدلهای زبانی بزرگ با بهرهگیری از استنتاج استقرایی، قیاسی و ربایشی
👤 ارائهدهنده: شایگان ادیم
🗓 زمان: یکشنبه ۱۴۰۴/۰۴/۲۹ ساعت ۲۰:۰۰
📍 لینک جلسه: کلاس مجازی دانشگاه شریف
منابع:
IDEA: Enhancing the Rule Learning Ability of Large Language Model Agent through Induction, Deduction, and Abduction
یوتیوب (ویدئو جلسهها)
توییتر
افزودن رویداد به تقویم گوگل
وبسایت ژورنالکلاب
از همه دعوت میکنیم که در این جلسه شرکت کنند.
#LLM_Club
@LLM_CLUB