مقاله ای جالب در مورد وابسته بودن پاسخ سوالات به زمان و مکان سوال
#مقاله #معرفی_دیتاست
پاسخهای یک سؤال ممکن است بسته به عواملی فراتر از زبان (مثل زمان و مکان پرسیدن سؤال) تغییر کند. برای این چالش سیستم SituatedQA معرفی شده است که یک مجموعه داده QA را شامل میشود. سیستم باید با توجه به بافت زمانی یا جغرافیایی، پاسخ صحیح به یک سوال را ارائه دهد.
برای مثال همانطور در تصویر مشخص است، این سوال که کدام واکسن برای یک کشور تایید شده است میتواند در زمان های مختلف، جواب مختلف داشته باشد. و یا خود این سوال که کدام واکسن در کشور حال حاضر تاییده شده است میتواند در هر کشور پاسخ متفاوتی داشته باشد.
مقاله | گیتهاب
@silicon_brain
#مقاله #معرفی_دیتاست
پاسخهای یک سؤال ممکن است بسته به عواملی فراتر از زبان (مثل زمان و مکان پرسیدن سؤال) تغییر کند. برای این چالش سیستم SituatedQA معرفی شده است که یک مجموعه داده QA را شامل میشود. سیستم باید با توجه به بافت زمانی یا جغرافیایی، پاسخ صحیح به یک سوال را ارائه دهد.
برای مثال همانطور در تصویر مشخص است، این سوال که کدام واکسن برای یک کشور تایید شده است میتواند در زمان های مختلف، جواب مختلف داشته باشد. و یا خود این سوال که کدام واکسن در کشور حال حاضر تاییده شده است میتواند در هر کشور پاسخ متفاوتی داشته باشد.
مقاله | گیتهاب
@silicon_brain
ارزیابی دسته بند باینری با استفاده از منحنی راک (ROC)
اگر با شاخص هایی مانند #accuracy یا #recall آشنا نیستید ابتدا این پست را بخوانید.
یکی از روشهای ارزیابی عملکرد دستهبندی باینری، «نمودار مشخصه عملکرد» (Receiver Operating Characteristic) یا #ROC است. کارایی الگوریتمهای باینری معمولا با شاخصهایی بنام «حساسیت» (Sensitivity) یا «بازیابی» (Recall) سنجیده میشود. اما در نمودار ROC هر دوی این شاخصها ترکیب شده و به صورت یک منحنی نمایش داده میشوند.
در نمودار نمایش داده شده، خطوط منقطعی که از میان نمودار عبور کرده و نقطه (0,0) را به (1,1) پیوند میدهد، حدس تصادفی است که به صورت ناحیه ۵۰٪-۵۰٪ نیز شناخته میشوند. اگر نقطهای روی این خطوط منقطع قرار گرفته باشد، تشخیص درستی نسبت به قرارگیری در هر گروه، برایش وجود ندارد.
مطابق با تصویر خط قطری، فضای ROC را به دو بخش تقسیم میکند. ناحیه بالای این خط، ناحیه مطلوب (بهتر از دستهبندی تصادفی) و ناحیه نامطلوب (بدتر از دستهبندی تصادفی) را تشکیل میدهند.
@silicon_brain
اگر با شاخص هایی مانند #accuracy یا #recall آشنا نیستید ابتدا این پست را بخوانید.
یکی از روشهای ارزیابی عملکرد دستهبندی باینری، «نمودار مشخصه عملکرد» (Receiver Operating Characteristic) یا #ROC است. کارایی الگوریتمهای باینری معمولا با شاخصهایی بنام «حساسیت» (Sensitivity) یا «بازیابی» (Recall) سنجیده میشود. اما در نمودار ROC هر دوی این شاخصها ترکیب شده و به صورت یک منحنی نمایش داده میشوند.
در نمودار نمایش داده شده، خطوط منقطعی که از میان نمودار عبور کرده و نقطه (0,0) را به (1,1) پیوند میدهد، حدس تصادفی است که به صورت ناحیه ۵۰٪-۵۰٪ نیز شناخته میشوند. اگر نقطهای روی این خطوط منقطع قرار گرفته باشد، تشخیص درستی نسبت به قرارگیری در هر گروه، برایش وجود ندارد.
مطابق با تصویر خط قطری، فضای ROC را به دو بخش تقسیم میکند. ناحیه بالای این خط، ناحیه مطلوب (بهتر از دستهبندی تصادفی) و ناحیه نامطلوب (بدتر از دستهبندی تصادفی) را تشکیل میدهند.
@silicon_brain
مقاله ای جدید: دیگر نیاز به مدل های از پیش آموزش داده شده برای تسک های NLP نیست!
مدل های زبانی از پیش آموزش دیده (Pretrained language models) به دلیل عملکرد قوی به رویکرد استاندارد برای بسیاری از تسک های #NLP تبدیل شده اند، اما آموزش آنها بسیار گران است.
در این #مقاله یک فریمورک یادگیری ساده و کارآمد، به اسم TLM، پیشنهاد شده است که به پیشآموزش مدل در مقیاس های بزرگ نیاز ندارد.
همانطور که در شکل سمت راست مشخص است TLM از دادههای وظیفه به عنوان پرس و جو جهت بازیابی زیرمجموعه کوچکی از مجموعه کلی استفاده میکند و عملا مدلسازی زبان را از ابتدا بهینه میکند.
در ارزیابی این روش که روی هشت دیتاست طبقهبندی شده در چهار حوزه مختلف انجام شده است، TLM به نتایجی بهتر یا مشابه با مدلهای زبانی از قبل آموزشدیده (مانند RoBERTa-Large) دست یافته است.
مقاله | گیتهاب | پیپرویدکد
@silicon_brain
مدل های زبانی از پیش آموزش دیده (Pretrained language models) به دلیل عملکرد قوی به رویکرد استاندارد برای بسیاری از تسک های #NLP تبدیل شده اند، اما آموزش آنها بسیار گران است.
در این #مقاله یک فریمورک یادگیری ساده و کارآمد، به اسم TLM، پیشنهاد شده است که به پیشآموزش مدل در مقیاس های بزرگ نیاز ندارد.
همانطور که در شکل سمت راست مشخص است TLM از دادههای وظیفه به عنوان پرس و جو جهت بازیابی زیرمجموعه کوچکی از مجموعه کلی استفاده میکند و عملا مدلسازی زبان را از ابتدا بهینه میکند.
در ارزیابی این روش که روی هشت دیتاست طبقهبندی شده در چهار حوزه مختلف انجام شده است، TLM به نتایجی بهتر یا مشابه با مدلهای زبانی از قبل آموزشدیده (مانند RoBERTa-Large) دست یافته است.
مقاله | گیتهاب | پیپرویدکد
@silicon_brain
This media is not supported in your browser
VIEW IN TELEGRAM
انیمیشنی در مورد تاثیر طول گام های انتخابی در پیدا کردن نقطه مینیمم
این تصویر در مورد عملکرد الگوریتم #گرادیان_کاهشی است که مینیمومهای محلی را در یک تابع پیدا میکند.
همه نمودارهای بالا تا 25 گام کشیده شده است. یعنی 25 بار فرآیند گرادیان کاهشی جهت پیدا کردن نقطه ی مینیمم امتحان شده است و تنها تفاوت 4 شکل بالا ضریبی به نام طول گام (نرخ یادگیری) است .
🔹در طول گام 0.2 و 0.4 اوضاع خوب است. بهخوبی به سمت مینیموم محلی سرازیر میشویم. قبل از 25 گام به مینیموم میرسند. البته، 0.4 زودتر میرسد. یعنی، نسبت به 0.2 طول گام مناسبتری است.
🔹در طول گام 0.6 سریع پیش رفتیم. اما درنهایت، بین دو نقطه نوسان کردیم و به مینیموم محلی نرسیدیم.
🔹در طول گام 0.8 اوضاع بد هست. بهنظر میرسد نوسان شدیدی داریم و احتمال کمی دارد که به مینیموم محلی برسیم.
طول گام یک پارامتر است که توسط مهندسان تنظیم میشود. این پارامتر باید به درستی انتخاب شود تا به نتیجه مطلوب برسیم.
(تصاویر با کیفیت بهتر در کامنت آپلود شد)
#gradient_descent
@silicon_brain
این تصویر در مورد عملکرد الگوریتم #گرادیان_کاهشی است که مینیمومهای محلی را در یک تابع پیدا میکند.
همه نمودارهای بالا تا 25 گام کشیده شده است. یعنی 25 بار فرآیند گرادیان کاهشی جهت پیدا کردن نقطه ی مینیمم امتحان شده است و تنها تفاوت 4 شکل بالا ضریبی به نام طول گام (نرخ یادگیری) است .
🔹در طول گام 0.2 و 0.4 اوضاع خوب است. بهخوبی به سمت مینیموم محلی سرازیر میشویم. قبل از 25 گام به مینیموم میرسند. البته، 0.4 زودتر میرسد. یعنی، نسبت به 0.2 طول گام مناسبتری است.
🔹در طول گام 0.6 سریع پیش رفتیم. اما درنهایت، بین دو نقطه نوسان کردیم و به مینیموم محلی نرسیدیم.
🔹در طول گام 0.8 اوضاع بد هست. بهنظر میرسد نوسان شدیدی داریم و احتمال کمی دارد که به مینیموم محلی برسیم.
طول گام یک پارامتر است که توسط مهندسان تنظیم میشود. این پارامتر باید به درستی انتخاب شود تا به نتیجه مطلوب برسیم.
(تصاویر با کیفیت بهتر در کامنت آپلود شد)
#gradient_descent
@silicon_brain
👍1🤩1
🟣سری یازدهم از یادگیری ماشین در مورد الگوریتم #شبکه_عصبی
#یادگیری_ماشین
#machine_learning #neural_network
#یادگیری_ماشین
#machine_learning #neural_network
❤3