Forwarded from NLP stuff
یکی از مباحث مهم، کوچک کردن مدلهای غولپیکره. قبلا یه پست (https://t.me/nlp_stuff/60) دربارهاش گذاشته بودیم. Quantization یکی دیگه از روشهای کوچک کردن مدلهای بزرگه. در این روش بدون آموزش مجدد، مثلا اعداد اعشاری ۳۲ بیتی با یک عدد صحیح ۸ بیتی تخمین زده میشه و با اینکه کارایی مدل یه ذره کم میشه، اما حجم مدل خیلی پایین میاد و کلی در مصرف رم و حافظه صرفهجویی میشه و سرعت بالا میره.
در لینک زیر این روش برای مدلهای کتابخانهی hugging face و با استفاده از کتابخانهی ONNX Runtime پیاده شده و نتایج مقایسه شده:
https://medium.com/microsoftazure/faster-and-smaller-quantized-nlp-with-hugging-face-and-onnx-runtime-ec5525473bb7
#read
#blog
@nlp_stuff
در لینک زیر این روش برای مدلهای کتابخانهی hugging face و با استفاده از کتابخانهی ONNX Runtime پیاده شده و نتایج مقایسه شده:
https://medium.com/microsoftazure/faster-and-smaller-quantized-nlp-with-hugging-face-and-onnx-runtime-ec5525473bb7
#read
#blog
@nlp_stuff
Forwarded from NLP stuff
گلچین EMNLP و ICLR به روایت رودر
آقای Sebastian Ruder در شمارهی ۵۴ از NLP News سایتش، مقالههایی را که به نظرش در EMNLP و ICLR امسال قشنگ هستند و همینطور کارهای اخیر در موضوع toxicity detection و data augmentation آورده. بعضی از مقالهها و بلاگهایی که گفته قبلا در کانال بحث کردیم. دنبالش کنید که چیزای خوبی یاد میگیرید.
http://newsletter.ruder.io/issues/emnlp-iclr-2020-toxicity-detection-data-augmentation-and-adversarial-examples-285207
#read
#blog
@nlp_stuff
آقای Sebastian Ruder در شمارهی ۵۴ از NLP News سایتش، مقالههایی را که به نظرش در EMNLP و ICLR امسال قشنگ هستند و همینطور کارهای اخیر در موضوع toxicity detection و data augmentation آورده. بعضی از مقالهها و بلاگهایی که گفته قبلا در کانال بحث کردیم. دنبالش کنید که چیزای خوبی یاد میگیرید.
http://newsletter.ruder.io/issues/emnlp-iclr-2020-toxicity-detection-data-augmentation-and-adversarial-examples-285207
#read
#blog
@nlp_stuff
Forwarded from NLP stuff
گلچین شاد NeurIPS2020
ده تا از بهترین مقالههای مرتبط با پردازش زبان طبیعی که در کنفرانس NeurIPS2020 ارائه شدند، در این پست آورده شده. حداقل یه نگاهی بهشون بندازید خوبه.
https://www.topbots.com/neurips-2020-nlp-research-papers/
#read
#blog
@nlp_stuff
ده تا از بهترین مقالههای مرتبط با پردازش زبان طبیعی که در کنفرانس NeurIPS2020 ارائه شدند، در این پست آورده شده. حداقل یه نگاهی بهشون بندازید خوبه.
https://www.topbots.com/neurips-2020-nlp-research-papers/
#read
#blog
@nlp_stuff
TOPBOTS
NeurIPS 2020: Key Research Papers in Natural Language Processing (NLP) & Conversational AI
Here are the most interesting NLP and conversational AI research papers introduced at NeurIPS 2020.
Forwarded from NLP stuff
آنچه بنجیو در خشت خام میبیند
یاشوا بنجیو که (انصافا) یکی از پدرهای هوش مصنوعی و دیپ لرنینگ است، از یکی دو سال پیش به تدریج در تاکهای مختلف (مثلا اینجا و اینجا و اینجا و اینجا) ایدههای خود برای پیشرفت آینده هوش مصنوعی را شرح داده است. ایدههای او بر بناکردن inductive biasهای جدیدی (به طور خیلی خلاصه و مفید inductive bias همان فرضیاتی که یک الگوریتم یادگیری قبل از حل مساله در مورد آن در نظر میگیرد و راه حلش روی آن فرض بنا شده است، برای مثال وقتی ما فرض میکنیم که معنای یک تیکه از تصویر میتواند از تیکههای مجاورش دریافت شود این فرض ما منجر به بناشدن شبکههای cnnای میشود) برای دیپ لرنینگ حول کلیدواژه مهم out of distribution generalization (
تا الان بدین شکل بوده که مدل ما یک توزیع از دادههای آموزشی در میآورده و نهایتا با کمی تغییر دنبال این توزیع در دادههای تست بوده است. اما شیخ ما اعتقاد دارد بایستی از این به بعد تغییرات گسترده در دادههای تست نسبت به توزیع دادههای آموزش را هم بتواند تحمل کند. مثلا باید یادگرفتن را یادبگیرد تا اگر توزیع محیطش تغییری هم کرد بتواند خودش را با آن وفق دهد!) بنا شده است.
به طور مختصر و مفید؛ پیر ما معتقد است که تسکهایی را که مغز انسان انجام میدهد میتوان به دسته سیستم ۱ و سیستم ۲ تقسیم بندی کرد. تسکهای سیستم ۱ مسائلی هستند که به صورت ناخودآگاه و البته سریع و بدون نیاز به تفکر قابل انجام توسط مغز هستند مثلا تشخیص خر از پنگوئن، تشخیص ناسزا از غیرناسزا و ... ، حال ان که تسکهای سیستم ۲ بایستی با توجه و برنامهریزی و البته آگاهانه انجام شوند مثلا رانندگی کردن.
بنجیو میگوید که توانایی فعلی دیپ لرنینگ در انجام دادن تسکهای سیستم ۱ است و در سیستم ۲ توفیقی هنوز ندارد. در ادامه بنجیو پیشنهاد میدهد که آینده هوش مصنوعی درگیر با انجام تسکهای سیستم ۲ و همچنین همان کلیدواژه out of distribution generalization خواهد بود.
بر اساس همین ایده اولیه، بنجیو تعدادی ایده برای الهامگیری و شکستن بنبست فعلی پیشرفت دیپ لرنینگ پیشنهاد میکند که از آنها میتوان به بررسی مسائل multi agent، خلق شبکههای عصبی با ویژگی ماژولاریزیشن نظیر RIMها، دیدن مسائل از زاویه گرافهای علی (causal) متغیرها، متالرنینگ و ... اشاره کرد.
لینک مقالهاش:
https://arxiv.org/pdf/2011.15091.pdf
پ.ن. لطفا کانال را به کسایی که هوش مصنوعی دوست دارند، معرفی کنید! ممنون.
#paper
#read
@nlp_stuff
یاشوا بنجیو که (انصافا) یکی از پدرهای هوش مصنوعی و دیپ لرنینگ است، از یکی دو سال پیش به تدریج در تاکهای مختلف (مثلا اینجا و اینجا و اینجا و اینجا) ایدههای خود برای پیشرفت آینده هوش مصنوعی را شرح داده است. ایدههای او بر بناکردن inductive biasهای جدیدی (به طور خیلی خلاصه و مفید inductive bias همان فرضیاتی که یک الگوریتم یادگیری قبل از حل مساله در مورد آن در نظر میگیرد و راه حلش روی آن فرض بنا شده است، برای مثال وقتی ما فرض میکنیم که معنای یک تیکه از تصویر میتواند از تیکههای مجاورش دریافت شود این فرض ما منجر به بناشدن شبکههای cnnای میشود) برای دیپ لرنینگ حول کلیدواژه مهم out of distribution generalization (
تا الان بدین شکل بوده که مدل ما یک توزیع از دادههای آموزشی در میآورده و نهایتا با کمی تغییر دنبال این توزیع در دادههای تست بوده است. اما شیخ ما اعتقاد دارد بایستی از این به بعد تغییرات گسترده در دادههای تست نسبت به توزیع دادههای آموزش را هم بتواند تحمل کند. مثلا باید یادگرفتن را یادبگیرد تا اگر توزیع محیطش تغییری هم کرد بتواند خودش را با آن وفق دهد!) بنا شده است.
به طور مختصر و مفید؛ پیر ما معتقد است که تسکهایی را که مغز انسان انجام میدهد میتوان به دسته سیستم ۱ و سیستم ۲ تقسیم بندی کرد. تسکهای سیستم ۱ مسائلی هستند که به صورت ناخودآگاه و البته سریع و بدون نیاز به تفکر قابل انجام توسط مغز هستند مثلا تشخیص خر از پنگوئن، تشخیص ناسزا از غیرناسزا و ... ، حال ان که تسکهای سیستم ۲ بایستی با توجه و برنامهریزی و البته آگاهانه انجام شوند مثلا رانندگی کردن.
بنجیو میگوید که توانایی فعلی دیپ لرنینگ در انجام دادن تسکهای سیستم ۱ است و در سیستم ۲ توفیقی هنوز ندارد. در ادامه بنجیو پیشنهاد میدهد که آینده هوش مصنوعی درگیر با انجام تسکهای سیستم ۲ و همچنین همان کلیدواژه out of distribution generalization خواهد بود.
بر اساس همین ایده اولیه، بنجیو تعدادی ایده برای الهامگیری و شکستن بنبست فعلی پیشرفت دیپ لرنینگ پیشنهاد میکند که از آنها میتوان به بررسی مسائل multi agent، خلق شبکههای عصبی با ویژگی ماژولاریزیشن نظیر RIMها، دیدن مسائل از زاویه گرافهای علی (causal) متغیرها، متالرنینگ و ... اشاره کرد.
لینک مقالهاش:
https://arxiv.org/pdf/2011.15091.pdf
پ.ن. لطفا کانال را به کسایی که هوش مصنوعی دوست دارند، معرفی کنید! ممنون.
#paper
#read
@nlp_stuff
YouTube
Yoshua Bengio: Deep Learning Cognition | Full Keynote - AI in 2020 & Beyond
Yoshua Bengio, considered one of the 'Godfathers of Artificial Intelligence' discusses Recurrent independent mechanisms, sample complexity, end-to-end adaptation, multivariate categorical MLP conditionals and more.
When summarising his talk, Professor Bengio…
When summarising his talk, Professor Bengio…
Forwarded from NLP stuff
This media is not supported in your browser
VIEW IN TELEGRAM
توضیح خلاصهی ViT
در چند روز اخیر سیلی عظیمی از مدلهای ترنسفورمری برای vision به راه افتادهاند. اگر هنوز مقاله An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale را نخوندید و حوصله خوندن پیپرش را هم هنوز ندارید، ده دقیقه این پست را مشاهده کنید تا بفهمید چه خبره و از قافله بعدی عقب نمونید.
https://theaisummer.com/vision-transformer/
پ.ن. قبلا این مقاله را در این پست (https://t.me/nlp_stuff/82) معرفی کرده بودیم.
#read
#blog
@nlp_stuff
در چند روز اخیر سیلی عظیمی از مدلهای ترنسفورمری برای vision به راه افتادهاند. اگر هنوز مقاله An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale را نخوندید و حوصله خوندن پیپرش را هم هنوز ندارید، ده دقیقه این پست را مشاهده کنید تا بفهمید چه خبره و از قافله بعدی عقب نمونید.
https://theaisummer.com/vision-transformer/
پ.ن. قبلا این مقاله را در این پست (https://t.me/nlp_stuff/82) معرفی کرده بودیم.
#read
#blog
@nlp_stuff
Forwarded from NLP stuff
نورونهای عصبی Multi-Modal زیر ذرهبین OpenAI Microscope!
چند روز پیش مقالهای با نام Multimodal Neurons in Artificial Neural Networks از تیم OpenAI منتشر شد. این مقاله میاد نشون میده که یک نورون در مدلی multi modal مثل CLIP داره به یک کانسپت و مفهوم (انسان، درخت، احساسات و ...) واکنش میده و فعال میشه وقتی اون مفهوم چه به صورت عکس، چه به صورت متن یا چه به صورت نقاشی باشه. این موضوع قبلا هم توسط bioکارها راجع به نورون طبیعی گفته شده بود (ما چه کلمه درخت را بخونید، چه عکس درخت ببینید چه نقاشی درخت نشونمون بدهند، میتونیم همشون را به مفهوم درخت مرتبط کنیم).
مثلا اومدند دیدند که یه نورون هست که چه عکس یارویی که لباس مرد عکنبوتی پوشیده، چه نقاشی مرد عنکبوتی یا چه کلمهی spider ببینه پاسخ میده و فعال میشه؛ یعنی یه نورون کلا به کانسپت spider man (چه تصویر چه نقاشی چه کلمه) پاسخ میده. پس این مدل Multi-Modal تونسته جنبههای مختلف از یک مفهوم را به هم ربط بده. دو تا چیز جالبه اینجا: اول اینکه مدله این ارتباط را تونسته ایجاد کنه. دوم اینکه اینا چقدر قشنگ اینو بررسی کردند. کیف کنیم!
بعد هم اینا اومدند نورونهای مختلف برای مفاهیم مختلف مثل: Region, Person, Emotion, Holiday, Color و ... را پیدا کردند و به نمایش گذاشتند. چجوری؟ OpenAI یه ابزاری به نام Microscope درست کرده (متاسفانه این یکی از زیر دستمون سر خورده و توی کانال نگذاشتیم) که نورونهای لایههای مدلهای معروف تصویری مثل AlexNet ،ResNet ،Inception ،VGG و CLIP را به تصویر کشیده تا بشه تفسیرشون کرد. برای اینکار اومدند عکسایی که نورون موردنظر یا اون کانال تصویری مدنظر را خیلی فعال کردند، یه جا جمع کردند و از سمتی تصاویر ورودی از دیتاست ImageNet که اون نورونها را فعال کردند هم آوردند؛ مثلا میشه دید که همبرگر و پنکیک فلان نورون از فلان لایه را خیلی فعال میکنه. حالا اومدند نورونهای لایههای مختلف مدل CLIP هم با همین روش بررسی کردند و برای مفاهیم مختلف نورونهاشون را آوردند. و اینکه برای هر کدوم از مفاهیم هم اومدند نشون دادند که چه تصاویر صورتی، چه متونی، چه معماریهایی، چه مناظری و... نشون دهندهی اون مفهوم برای این نورونه و اون نورون را فعال میکنه. مثلا میتونید ببینید که این مدل، «آمریکا» را با چه چیزایی میتونه تشخیص بده یا مثلا «ترامپ» را با چه چیزایی یا مثلا مفهوم «خوشحال» را با چه چیزایی!
لینک ویدیوی توضیح مقاله:
https://youtu.be/Z_kWZpgEZ7w
لینک مقاله که کلی مثال خفن هم در این صفحه آوردند که باهاشون ور برید لذت ببرید:
https://distill.pub/2021/multimodal-neurons/
پ.ن. زکات لذت از این پست، نشر آن است!
#read
#paper
#watch
@nlp_stuff
چند روز پیش مقالهای با نام Multimodal Neurons in Artificial Neural Networks از تیم OpenAI منتشر شد. این مقاله میاد نشون میده که یک نورون در مدلی multi modal مثل CLIP داره به یک کانسپت و مفهوم (انسان، درخت، احساسات و ...) واکنش میده و فعال میشه وقتی اون مفهوم چه به صورت عکس، چه به صورت متن یا چه به صورت نقاشی باشه. این موضوع قبلا هم توسط bioکارها راجع به نورون طبیعی گفته شده بود (ما چه کلمه درخت را بخونید، چه عکس درخت ببینید چه نقاشی درخت نشونمون بدهند، میتونیم همشون را به مفهوم درخت مرتبط کنیم).
مثلا اومدند دیدند که یه نورون هست که چه عکس یارویی که لباس مرد عکنبوتی پوشیده، چه نقاشی مرد عنکبوتی یا چه کلمهی spider ببینه پاسخ میده و فعال میشه؛ یعنی یه نورون کلا به کانسپت spider man (چه تصویر چه نقاشی چه کلمه) پاسخ میده. پس این مدل Multi-Modal تونسته جنبههای مختلف از یک مفهوم را به هم ربط بده. دو تا چیز جالبه اینجا: اول اینکه مدله این ارتباط را تونسته ایجاد کنه. دوم اینکه اینا چقدر قشنگ اینو بررسی کردند. کیف کنیم!
بعد هم اینا اومدند نورونهای مختلف برای مفاهیم مختلف مثل: Region, Person, Emotion, Holiday, Color و ... را پیدا کردند و به نمایش گذاشتند. چجوری؟ OpenAI یه ابزاری به نام Microscope درست کرده (متاسفانه این یکی از زیر دستمون سر خورده و توی کانال نگذاشتیم) که نورونهای لایههای مدلهای معروف تصویری مثل AlexNet ،ResNet ،Inception ،VGG و CLIP را به تصویر کشیده تا بشه تفسیرشون کرد. برای اینکار اومدند عکسایی که نورون موردنظر یا اون کانال تصویری مدنظر را خیلی فعال کردند، یه جا جمع کردند و از سمتی تصاویر ورودی از دیتاست ImageNet که اون نورونها را فعال کردند هم آوردند؛ مثلا میشه دید که همبرگر و پنکیک فلان نورون از فلان لایه را خیلی فعال میکنه. حالا اومدند نورونهای لایههای مختلف مدل CLIP هم با همین روش بررسی کردند و برای مفاهیم مختلف نورونهاشون را آوردند. و اینکه برای هر کدوم از مفاهیم هم اومدند نشون دادند که چه تصاویر صورتی، چه متونی، چه معماریهایی، چه مناظری و... نشون دهندهی اون مفهوم برای این نورونه و اون نورون را فعال میکنه. مثلا میتونید ببینید که این مدل، «آمریکا» را با چه چیزایی میتونه تشخیص بده یا مثلا «ترامپ» را با چه چیزایی یا مثلا مفهوم «خوشحال» را با چه چیزایی!
لینک ویدیوی توضیح مقاله:
https://youtu.be/Z_kWZpgEZ7w
لینک مقاله که کلی مثال خفن هم در این صفحه آوردند که باهاشون ور برید لذت ببرید:
https://distill.pub/2021/multimodal-neurons/
پ.ن. زکات لذت از این پست، نشر آن است!
#read
#paper
#watch
@nlp_stuff
Telegram
stuff
Forwarded from NLP stuff
معماری تماما MLP برای پردازش تصویر
پست امروز درباره یک معماری ساده است که همین دو روز پیش مقالهاش منتشر شده. این معماری برای تسک دستهبندی تصاویر ارائه شده و بر خلاف شبکههای نامداری مثل ResNet و ViT هیچ گونه کانولوشن و اتنشی درون خودش نداره و تماما از MLP تشکیل شده. خیلی خلاصه بخوایم توضیح بدیم، ابتدا مثل ViT میاد و تصویر رو به تکه (patch) هایی تقسیم میکنه، سپس بعد از عبور دادن این پچها از لایهی امبدینگ و به دست آوردن یک وکتور برای هر یک از تکهها، اونها رو از N تا لایه به اسم MixerLayer میگذرونه. این MixerLayer درون خودش از دو تا شبکه MLP تشکیل شده که اولیش میاد یک فیدفوروارد روی یک جنبه از تماما تصویرها میزنه (در واقع یک فیچر از روی یک فیچر تمامی تکهها درست میکنه) و دومین MLP هم میاد یک فیدفوروارد از روی فیچرهای یک تکه درست میکنه (شکل پیوست شده رو اگر ببینید درکش بسیار راحته، به اون T یا Transpose ها فقط باید دقت کنید) در نهایت هم به یک شبکه رسیدند و آزمایشهای مختلف پیشآزمایش و فاین تیون رو روش انجام دادند.
شبکه اش از نظر دقتی خاص و برجسته نیست و البته پرت هم نیست. نقطه مثبتش رو میشه نرخ توان عملیاتی بالاش (throughput) دونست که خیلی از شبکههای مثل ViT بهتره (یک دلیلش میتونه این باشه که توی ViT به خاطر وجود اتنشن با افزایش رزولشن و در نتیجه افزایش تعداد تکهها و طول ورودی، میزان نیاز به حافظه به صورت توان دویی زیاد میشه ولی اینجا این اتفاق به صورت خطی رخ میده).
کلا مقاله جالبیه و خب البته سوالاتی رو هم برمیانگیزه که چطوری بدون سوگیری القایی (inductive bias) خاصی به این نتیجه رسیده.
مثل همیشه یانیک کیلچر هم به سرعت یک ویدئو در توضیح این مقاله بیرون داده که میتونید تماشا کنید:
https://www.youtube.com/watch?v=7K4Z8RqjWIk
لینک مقاله:
https://arxiv.org/abs/2105.01601v1
#read
#paper
#watch
@nlp_stuff
پست امروز درباره یک معماری ساده است که همین دو روز پیش مقالهاش منتشر شده. این معماری برای تسک دستهبندی تصاویر ارائه شده و بر خلاف شبکههای نامداری مثل ResNet و ViT هیچ گونه کانولوشن و اتنشی درون خودش نداره و تماما از MLP تشکیل شده. خیلی خلاصه بخوایم توضیح بدیم، ابتدا مثل ViT میاد و تصویر رو به تکه (patch) هایی تقسیم میکنه، سپس بعد از عبور دادن این پچها از لایهی امبدینگ و به دست آوردن یک وکتور برای هر یک از تکهها، اونها رو از N تا لایه به اسم MixerLayer میگذرونه. این MixerLayer درون خودش از دو تا شبکه MLP تشکیل شده که اولیش میاد یک فیدفوروارد روی یک جنبه از تماما تصویرها میزنه (در واقع یک فیچر از روی یک فیچر تمامی تکهها درست میکنه) و دومین MLP هم میاد یک فیدفوروارد از روی فیچرهای یک تکه درست میکنه (شکل پیوست شده رو اگر ببینید درکش بسیار راحته، به اون T یا Transpose ها فقط باید دقت کنید) در نهایت هم به یک شبکه رسیدند و آزمایشهای مختلف پیشآزمایش و فاین تیون رو روش انجام دادند.
شبکه اش از نظر دقتی خاص و برجسته نیست و البته پرت هم نیست. نقطه مثبتش رو میشه نرخ توان عملیاتی بالاش (throughput) دونست که خیلی از شبکههای مثل ViT بهتره (یک دلیلش میتونه این باشه که توی ViT به خاطر وجود اتنشن با افزایش رزولشن و در نتیجه افزایش تعداد تکهها و طول ورودی، میزان نیاز به حافظه به صورت توان دویی زیاد میشه ولی اینجا این اتفاق به صورت خطی رخ میده).
کلا مقاله جالبیه و خب البته سوالاتی رو هم برمیانگیزه که چطوری بدون سوگیری القایی (inductive bias) خاصی به این نتیجه رسیده.
مثل همیشه یانیک کیلچر هم به سرعت یک ویدئو در توضیح این مقاله بیرون داده که میتونید تماشا کنید:
https://www.youtube.com/watch?v=7K4Z8RqjWIk
لینک مقاله:
https://arxiv.org/abs/2105.01601v1
#read
#paper
#watch
@nlp_stuff
Telegram
stuff
Forwarded from NLP stuff
مقالهای برای مرور ترنسفورمرها
این بار با مقاله سرویطوری در خدمتتون هستیم که اگر حوزه تحقیقاتیتون مرتبط با ترنسفورمرهاست، خوندش مستحب موکده. این مقاله اومده یه بررسی جامعی رو روی انواع و طبقهبندی ترنسفورمرها کرده و بر اساس تفاوتهاشون در معماری با هم (که میتونه شامل تفاوت در قسمت توجه، بازنمایی مکانی، نرمالساز لایهای و ... باشه) ریز به ریز این تفاوتها رو توضیح داده.
نکته مثبت این مقاله در تصویرسازیهای به نظر خوبشه که باعث شیرفهم شدن مخاطب میتونه بشه. اگر نیاز دارید که روی انواع ترنسفورمرها آشنا باشید و اشتباهی روی موضوعی کار نکنید که قبلا شده، این مقاله رو از دست ندید!
لینک مقاله:
https://arxiv.org/abs/2106.04554
#read
#paper
@nlp_stuff
این بار با مقاله سرویطوری در خدمتتون هستیم که اگر حوزه تحقیقاتیتون مرتبط با ترنسفورمرهاست، خوندش مستحب موکده. این مقاله اومده یه بررسی جامعی رو روی انواع و طبقهبندی ترنسفورمرها کرده و بر اساس تفاوتهاشون در معماری با هم (که میتونه شامل تفاوت در قسمت توجه، بازنمایی مکانی، نرمالساز لایهای و ... باشه) ریز به ریز این تفاوتها رو توضیح داده.
نکته مثبت این مقاله در تصویرسازیهای به نظر خوبشه که باعث شیرفهم شدن مخاطب میتونه بشه. اگر نیاز دارید که روی انواع ترنسفورمرها آشنا باشید و اشتباهی روی موضوعی کار نکنید که قبلا شده، این مقاله رو از دست ندید!
لینک مقاله:
https://arxiv.org/abs/2106.04554
#read
#paper
@nlp_stuff
Forwarded from NLP stuff
آقای تورینگ! تست شما پاس شد؛ لطفا سوال بعدی!
چند وقتی هست که مدل GPT-3 معرفی شده و هر روز که از خواب پا میشیم به زیبا بودن این مدل بیشتر و بیشتر پی میبریم. از معرفی ابزار copilot توسط گیتهاب گرفته (که براساس GPT-3 بود و بر اساس function definition به زبان طبیعی، به ۸۰ زبان زنده دنیا کدنویسی میکرد) تا این مقاله از خانوم کلارک که به عنوان یکی از برجستهترین مقالات رویداد ACLNLP2021 انتخاب شده است. در این مقاله درواقع چارچوبی برای تست انسانی مدلهای تولید زبان طبیعی (NLG) معرفی شده است و در کنار اون نتایج ارزیابی انسانی مدل GPT-3 بررسی شده است.
حتما میدونید که یکی از اهداف مقدس آلن تورینگ فقید در دهه ۵۰ میلادی، طراحی سیستمی بود که اگر جملاتی به زبان انگلیسی تولید میکرد و به انسانهای مختلف نشان داده میشد، کسی قادر نباشد که مشخص کند تولیدکننده آن متنها ماشین است. در این مقاله خانوم کلارک و دوستان با استفاده از ابزار Amazon Mechanical Turk که امکان crowdsourcing را فراهم میکند، این تست را بر روی مدل GPT-3 انجام دادند. تستها در سه دامنه داستانهای کوتاه، مقاله کوتاه خبری و دستورآشپزی بودند. شاید جالب باشه که بدونید کیفیت تشخیص ارزیابیکنندگان این متون، حدود ۵۰ درصد بوده است!!! یعنی دقیقا با شانس رندم توانستند machine-generated بودن این متون را تشخیص دهند. اما کار اصلی این مقاله، انجام آزمایشاتی در راستای آموزش ارزیابیکنندگان برای ارزیابی این مجموعه متون تستی بود تا کیفیت تشخیص آنها بهبود یابد. در این مقاله ۳ سناریو برای آموزش انتخاب شده است. در سناریو اول ابتدا در کنار هر متن تستی، چند جمله در جهت راهنمایی برای تشخیص کیفیت متن گذاشته میشود و سپس ارزیابی صورت میگیرد. در سناریوی بعدی در هر متن تستی، بعد از انتخاب گزینه توسط ارزیابیکننده (در ابزار AMT میتونید برای هر تست گزینههایی انتخاب کنید که ارزیابیکنندهها از بین اونها انتخاب کنند و در اینجا به صورت ساده ۴ گزینه درنظر گرفته شده است. گزینه اول ؛ مطمئنا انسان نوشته است، گزینه دوم؛ احتمالا انسان نوشته است، گزینه سوم؛ احتمالا ماشین نوشته است و گزینه آخر؛ قطعا ماشین نوشته است انتخاب شدهاند) در صورتی که اشتباه انتخاب میکردهاست، گزینه درست به همراه دلایلی برای توضیح به ارزیابیکنندگان نشان داده میشده است. همچنین در سناریو سوم دو متن که با جملات یکسان اولیه یکی توسط انسان و دیگری توسط ماشین تولید شده است به ارزیابیکنندگان داده شده و پس از انتخاب گزینه، گزینه درست به آنها نمایش داده شده است. تا اینجا اگه فکر میکنید که این سناریوها در بهبود کیفیت تشخیص ارزیابیکنندگان خیلی موثر بودند باید بگم که سخت در اشتباهید!! مدل GPT-3 حتی در این سناریوها نیز قدرت خودش رو نشون داد و فقط سناریو دوم تونست یه مقدار موثر باشه و بهطور میانگین حدود ۶ درصد تشخیص رو بهتر کنه!
نویسندگان این مقاله با تحلیل و بررسی نتایج آزمایشات دریافتند که یکی از عوامل گمراهی عامل انسانی در تشخیص ماشینی بودن متون، عدم درک درست عامل انسانی از توانایی ماشین بوده! به همین دلیل، ارزیابیکنندگان برای تشخیص، بهمقدار زیاد بر روی ویژگیهای ظاهری متون مانند استایل و گرامر تکیه میکردند و با انجام آموزشهایی که در بالا به اونها اشاره شد، آگاهتر شدند و برای تشخیص به ویژگیهای محتوایی و معنایی نیز توجه بیشتری کردند و از لایه ظاهری برای تشخیص عبور کردند( که البته این عبور خیلی موفقیتآمیز نبود همونطور که گفتیم!)
در نهایت هم چندتا پیشنهاد برای محققان حوزه NLG دارند که باید سرلوحه کار خودشون قرار بدهند. اول اینکه، نتایج تست انسانی مدلهاشون رو سعی کنند با چارچوب معرفی شده گزارش کنند. دوم اینکه در ارزیابیهای انسانی از لایه ظاهر عبور کنند و توجه بیشتری به معنا و مفید بودن متن بکنند. مثلا یک تست جذاب برای این موضوع این است که از ارزیابیکننده درخواست کنند تا در ادامه متن داده شده، متنی را بنویسند و توانایی همراهی ارزیابیکننده با متن را اندازهگیری کنند. همچنین از ارزیابی متنهای کوتاه عبور کرده و به سمت متنهای طولانیتر بروند.
این پیشنهادها به طور ضمنی چالشهای بعدی حوزه NLG رو هم مشخص میکنند. بههمین خاطر توصیه میکنیم این مقاله رو حتما اگر نمیخونید حداقل یه نگاه بهش بندازید خداوکیلی!
لینک مقاله:
https://arxiv.org/abs/2107.00061
پ.ن.۱: به عکس دقت کنید! به نظرتون کدومش کار ماشینه؟ ☺️
پ.ن.۲: جا داره یه نگاه دوباره به این پست از کانال بندازید که بررسی مقالهی برندهی ACL2020 بود و اون هم روی یک نگاه دیگه از ارزیابی مدل تکیه کرده بود:
https://t.me/nlp_stuff/48
#read
#paper
@nlp_stuff
چند وقتی هست که مدل GPT-3 معرفی شده و هر روز که از خواب پا میشیم به زیبا بودن این مدل بیشتر و بیشتر پی میبریم. از معرفی ابزار copilot توسط گیتهاب گرفته (که براساس GPT-3 بود و بر اساس function definition به زبان طبیعی، به ۸۰ زبان زنده دنیا کدنویسی میکرد) تا این مقاله از خانوم کلارک که به عنوان یکی از برجستهترین مقالات رویداد ACLNLP2021 انتخاب شده است. در این مقاله درواقع چارچوبی برای تست انسانی مدلهای تولید زبان طبیعی (NLG) معرفی شده است و در کنار اون نتایج ارزیابی انسانی مدل GPT-3 بررسی شده است.
حتما میدونید که یکی از اهداف مقدس آلن تورینگ فقید در دهه ۵۰ میلادی، طراحی سیستمی بود که اگر جملاتی به زبان انگلیسی تولید میکرد و به انسانهای مختلف نشان داده میشد، کسی قادر نباشد که مشخص کند تولیدکننده آن متنها ماشین است. در این مقاله خانوم کلارک و دوستان با استفاده از ابزار Amazon Mechanical Turk که امکان crowdsourcing را فراهم میکند، این تست را بر روی مدل GPT-3 انجام دادند. تستها در سه دامنه داستانهای کوتاه، مقاله کوتاه خبری و دستورآشپزی بودند. شاید جالب باشه که بدونید کیفیت تشخیص ارزیابیکنندگان این متون، حدود ۵۰ درصد بوده است!!! یعنی دقیقا با شانس رندم توانستند machine-generated بودن این متون را تشخیص دهند. اما کار اصلی این مقاله، انجام آزمایشاتی در راستای آموزش ارزیابیکنندگان برای ارزیابی این مجموعه متون تستی بود تا کیفیت تشخیص آنها بهبود یابد. در این مقاله ۳ سناریو برای آموزش انتخاب شده است. در سناریو اول ابتدا در کنار هر متن تستی، چند جمله در جهت راهنمایی برای تشخیص کیفیت متن گذاشته میشود و سپس ارزیابی صورت میگیرد. در سناریوی بعدی در هر متن تستی، بعد از انتخاب گزینه توسط ارزیابیکننده (در ابزار AMT میتونید برای هر تست گزینههایی انتخاب کنید که ارزیابیکنندهها از بین اونها انتخاب کنند و در اینجا به صورت ساده ۴ گزینه درنظر گرفته شده است. گزینه اول ؛ مطمئنا انسان نوشته است، گزینه دوم؛ احتمالا انسان نوشته است، گزینه سوم؛ احتمالا ماشین نوشته است و گزینه آخر؛ قطعا ماشین نوشته است انتخاب شدهاند) در صورتی که اشتباه انتخاب میکردهاست، گزینه درست به همراه دلایلی برای توضیح به ارزیابیکنندگان نشان داده میشده است. همچنین در سناریو سوم دو متن که با جملات یکسان اولیه یکی توسط انسان و دیگری توسط ماشین تولید شده است به ارزیابیکنندگان داده شده و پس از انتخاب گزینه، گزینه درست به آنها نمایش داده شده است. تا اینجا اگه فکر میکنید که این سناریوها در بهبود کیفیت تشخیص ارزیابیکنندگان خیلی موثر بودند باید بگم که سخت در اشتباهید!! مدل GPT-3 حتی در این سناریوها نیز قدرت خودش رو نشون داد و فقط سناریو دوم تونست یه مقدار موثر باشه و بهطور میانگین حدود ۶ درصد تشخیص رو بهتر کنه!
نویسندگان این مقاله با تحلیل و بررسی نتایج آزمایشات دریافتند که یکی از عوامل گمراهی عامل انسانی در تشخیص ماشینی بودن متون، عدم درک درست عامل انسانی از توانایی ماشین بوده! به همین دلیل، ارزیابیکنندگان برای تشخیص، بهمقدار زیاد بر روی ویژگیهای ظاهری متون مانند استایل و گرامر تکیه میکردند و با انجام آموزشهایی که در بالا به اونها اشاره شد، آگاهتر شدند و برای تشخیص به ویژگیهای محتوایی و معنایی نیز توجه بیشتری کردند و از لایه ظاهری برای تشخیص عبور کردند( که البته این عبور خیلی موفقیتآمیز نبود همونطور که گفتیم!)
در نهایت هم چندتا پیشنهاد برای محققان حوزه NLG دارند که باید سرلوحه کار خودشون قرار بدهند. اول اینکه، نتایج تست انسانی مدلهاشون رو سعی کنند با چارچوب معرفی شده گزارش کنند. دوم اینکه در ارزیابیهای انسانی از لایه ظاهر عبور کنند و توجه بیشتری به معنا و مفید بودن متن بکنند. مثلا یک تست جذاب برای این موضوع این است که از ارزیابیکننده درخواست کنند تا در ادامه متن داده شده، متنی را بنویسند و توانایی همراهی ارزیابیکننده با متن را اندازهگیری کنند. همچنین از ارزیابی متنهای کوتاه عبور کرده و به سمت متنهای طولانیتر بروند.
این پیشنهادها به طور ضمنی چالشهای بعدی حوزه NLG رو هم مشخص میکنند. بههمین خاطر توصیه میکنیم این مقاله رو حتما اگر نمیخونید حداقل یه نگاه بهش بندازید خداوکیلی!
لینک مقاله:
https://arxiv.org/abs/2107.00061
پ.ن.۱: به عکس دقت کنید! به نظرتون کدومش کار ماشینه؟ ☺️
پ.ن.۲: جا داره یه نگاه دوباره به این پست از کانال بندازید که بررسی مقالهی برندهی ACL2020 بود و اون هم روی یک نگاه دیگه از ارزیابی مدل تکیه کرده بود:
https://t.me/nlp_stuff/48
#read
#paper
@nlp_stuff
Telegram
stuff
Forwarded from NLP stuff
بهترینهای کنفرانس EMNLP2021
بهترین مقالههای (کوتاه، بلند و برجسته) کنفرانس EMNLP2021 انتخاب شدند. اینجا لینک مربوط به هر مقاله و خلاصهی سرپایی چندخطیشون رو آوردیم. ما کمکم سراغشون میریم ولی اگر شما هم هر کدوم رو خوندید و خلاصهی کاملتری نوشتید، بفرستید تا به اسم خودتون منتشرش میکنیم.
لینک اسامی و نویسندههای مقالات منتخب:
https://2021.emnlp.org/blog/2021-10-29-best-paper-awards
۱. بهترین مقالهی بلند
- نام مقاله: Visually Grounded Reasoning across Languages and Cultures
- خلاصه: یک روشی ارائه کردند تا دیتاست ترکیبی عکس و متن استایل ImageNet بشه ساخت اما برای زبانها و فرهنگهای مختلف و نه فقط طبق زبان و فرهنگ آمریکای شمالی و اروپای غربی. و یه دیتاست چندزبانه تصویر و متن به نام Multicultural Reasoning over Vision and Language (MaRVL) درست کردند که هر دونه از اعضای این دیتاست به شکل دو تصویر + یک متن توصیفی به زبانهای متنوع و مختلفی مثل اندونزیایی، چینی، ترکی و… است و برچسبش True/False است. نمونهای ازش در ضمیمه اومده. یه سری مدل هم به عنوان مدلهای پایه برای این تسک ارائه کردند.
- لینک مقاله:
https://arxiv.org/abs/2109.13238
۲. بهترین مقالهی کوتاه
- نام مقاله: CHoRa: Collecting Humor Reaction Labels from Millions of Social Media Users
- خلاصه: همونجوری که از اسمش مشخصه، یه روشی و چهارچوبی ارائه کردند تا شوخیهای ملت رو بتونند در ابعاد بزرگ از شبکههای اجتماعی بدون برچسبزنی دستی و با استفاده از عکسالعمل بقیهی کاربران (ایموجی و اینا) جمعآوری کنند. چون هر زبون و فرهنگی مدل شوخیهای خودشو داره، جمعآوری دیتا در ابعاد بزرگ سخته، پس تبعا و طبعا؛ تسکش هم سخت میشه. این مقاله یک دیتاست عظیم ۷۸۵هزارتایی حول موضوع کرونا ارائه کردند و تحلیلهایی هم از ساختار گرامری و معنایی و احساسی این پستها انجام دادند. تصویری از نمونه دادگان ضمیمه شده است.
- لینک ارائه مقاله:
https://underline.io/lecture/37879-choral-collecting-humor-reaction-labels-from-millions-of-social-media-users
۳. مقالههای برجسته
- نام مقاله: MindCraft: Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks
- لینک مقاله:
https://arxiv.org/abs/2109.06275
- نام مقاله: SituatedQA: Incorporating Extra-Linguistic Contexts into QA
- خلاصه: سوالها ممکنه جوابشون در مکانها و زمانهای (context) مختلف متفاوت باشه. مثلا سوال چه واکسنهای کرونایی برای بزرگسالان تایید شده است؟ برای زمانها و و مکانهای مختلف متفاوت میشه. این مقاله همونطور که از اسمش پیداست، یه دیتاست به اسم SITUATEDQA تقدیم جامعه کردند که کنار سوال، یه کانتست زمان یا مکان هم چاشنی کار کردند که مدل باید در نظر بگیره. یه عکس از نمونهاش در ضمیمه گذاشتیم. مسیر جمعآوری و برچسبزنی داده رو هم آوردند.
- لینک مقاله:
https://arxiv.org/abs/2109.06157
- نام مقاله: When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute
- خلاصه: در جریان هزینههای بالای محاسباتی آموزش مدلهای زبانی بزرگ هستید دیگه؟ این مقاله اومده مدل زبانی رو با یه سری یونیت بازگشتی ترکیب کرده و با ترنسفورمرهایی مثل Trans-XL و Longformer و Shortformer مقایسه کردند و در حالی که هزینهها را یک سوم تا یک دهم کرده، تونسته در بعضی تسکها بر مدلهای زبانی مذکور فائق بیاد.
- لینک مقاله:
https://arxiv.org/abs/2102.12459
- نام مقاله: Shortcutted Commonsense: Data Spuriousness in Deep Learning of Commonsense Reasoning
- لینک کد مقاله:
https://github.com/nlx-group/Shortcutted-Commonsense-Reasoning
۴. کتابخونهی dataset هاگینگفیس هم جایزهی بهترین مقالهی demo رو برده.
پ.ن. لطفا کانال را به بقیه هم معرفی کنید.
#read
#paper
#conf
@nlp_stuff
بهترین مقالههای (کوتاه، بلند و برجسته) کنفرانس EMNLP2021 انتخاب شدند. اینجا لینک مربوط به هر مقاله و خلاصهی سرپایی چندخطیشون رو آوردیم. ما کمکم سراغشون میریم ولی اگر شما هم هر کدوم رو خوندید و خلاصهی کاملتری نوشتید، بفرستید تا به اسم خودتون منتشرش میکنیم.
لینک اسامی و نویسندههای مقالات منتخب:
https://2021.emnlp.org/blog/2021-10-29-best-paper-awards
۱. بهترین مقالهی بلند
- نام مقاله: Visually Grounded Reasoning across Languages and Cultures
- خلاصه: یک روشی ارائه کردند تا دیتاست ترکیبی عکس و متن استایل ImageNet بشه ساخت اما برای زبانها و فرهنگهای مختلف و نه فقط طبق زبان و فرهنگ آمریکای شمالی و اروپای غربی. و یه دیتاست چندزبانه تصویر و متن به نام Multicultural Reasoning over Vision and Language (MaRVL) درست کردند که هر دونه از اعضای این دیتاست به شکل دو تصویر + یک متن توصیفی به زبانهای متنوع و مختلفی مثل اندونزیایی، چینی، ترکی و… است و برچسبش True/False است. نمونهای ازش در ضمیمه اومده. یه سری مدل هم به عنوان مدلهای پایه برای این تسک ارائه کردند.
- لینک مقاله:
https://arxiv.org/abs/2109.13238
۲. بهترین مقالهی کوتاه
- نام مقاله: CHoRa: Collecting Humor Reaction Labels from Millions of Social Media Users
- خلاصه: همونجوری که از اسمش مشخصه، یه روشی و چهارچوبی ارائه کردند تا شوخیهای ملت رو بتونند در ابعاد بزرگ از شبکههای اجتماعی بدون برچسبزنی دستی و با استفاده از عکسالعمل بقیهی کاربران (ایموجی و اینا) جمعآوری کنند. چون هر زبون و فرهنگی مدل شوخیهای خودشو داره، جمعآوری دیتا در ابعاد بزرگ سخته، پس تبعا و طبعا؛ تسکش هم سخت میشه. این مقاله یک دیتاست عظیم ۷۸۵هزارتایی حول موضوع کرونا ارائه کردند و تحلیلهایی هم از ساختار گرامری و معنایی و احساسی این پستها انجام دادند. تصویری از نمونه دادگان ضمیمه شده است.
- لینک ارائه مقاله:
https://underline.io/lecture/37879-choral-collecting-humor-reaction-labels-from-millions-of-social-media-users
۳. مقالههای برجسته
- نام مقاله: MindCraft: Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks
- لینک مقاله:
https://arxiv.org/abs/2109.06275
- نام مقاله: SituatedQA: Incorporating Extra-Linguistic Contexts into QA
- خلاصه: سوالها ممکنه جوابشون در مکانها و زمانهای (context) مختلف متفاوت باشه. مثلا سوال چه واکسنهای کرونایی برای بزرگسالان تایید شده است؟ برای زمانها و و مکانهای مختلف متفاوت میشه. این مقاله همونطور که از اسمش پیداست، یه دیتاست به اسم SITUATEDQA تقدیم جامعه کردند که کنار سوال، یه کانتست زمان یا مکان هم چاشنی کار کردند که مدل باید در نظر بگیره. یه عکس از نمونهاش در ضمیمه گذاشتیم. مسیر جمعآوری و برچسبزنی داده رو هم آوردند.
- لینک مقاله:
https://arxiv.org/abs/2109.06157
- نام مقاله: When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute
- خلاصه: در جریان هزینههای بالای محاسباتی آموزش مدلهای زبانی بزرگ هستید دیگه؟ این مقاله اومده مدل زبانی رو با یه سری یونیت بازگشتی ترکیب کرده و با ترنسفورمرهایی مثل Trans-XL و Longformer و Shortformer مقایسه کردند و در حالی که هزینهها را یک سوم تا یک دهم کرده، تونسته در بعضی تسکها بر مدلهای زبانی مذکور فائق بیاد.
- لینک مقاله:
https://arxiv.org/abs/2102.12459
- نام مقاله: Shortcutted Commonsense: Data Spuriousness in Deep Learning of Commonsense Reasoning
- لینک کد مقاله:
https://github.com/nlx-group/Shortcutted-Commonsense-Reasoning
۴. کتابخونهی dataset هاگینگفیس هم جایزهی بهترین مقالهی demo رو برده.
پ.ن. لطفا کانال را به بقیه هم معرفی کنید.
#read
#paper
#conf
@nlp_stuff
Telegram
stuff
Forwarded from NLP stuff
خطکشی برای سنجش کیفیت document understanding
در این پست میخوایم به معرفی benchmark برای تسک document undestanding بپردازیم. این benchmark تسک document undestaning رو تبدیل به سه مساله اصلی کرده:
- تسک اول Document QA است که از روی layout داکیومنت میتونه سوال بپرسه و مدل باید جواب بده. در این حالت سوالها به صورت زبان طبیعی پرسیده میشه اما کانتکست درواقع یه داکیومنته که layout داره (متنی که استایل داره یعنی فونت یا سایزهای متفاوتی داره). مثلا از مدل میپرسند که دو نوع تاریخی که در این داکیومنت وجود داره چه چیزهایی هستند؟ و مدل هم باید مثلا بگه تاریخ فاکتور و تاریخ پرداخت.
- تسک دوم key information extraction است که شبیه تسک اوله با این تفاوت که دیگه query با زبان طبیعی مطرح نمیشه بلکه مدل اطلاعات کلیدی این داکیومنت رو باید بیرون بکشه. مثلا مجموع فاکتور برابر با ۲۰۰۰ دلاره.
- تسک سوم هم Table QA/NLI هست که کار QA و یا NLI رو بر روی جداول انجام میده. این تسک مشخصا بر روی جداول تمرکز داره و سعی میکنه برخی از عبارات رو با استفاده از جدول موجود در داکیومنت verify کنه. مثلا یه جمله ورودی میگیره که آیتم شماره ۱ به مقدار ۲۰۰ قلم فروخته شده و مدل باید بگه که این جمله درسته یا نه. البته میشه از روی جدول، سوال هم پرسید و مدل باید بتونه جواب بده.
یه صفحه هم در نظر گرفته شده که leaderboard است و امتیاز مدلهای مختلف رو گذاشته و حالت overall روی این سه تا تسک داره. اگه در این زمینه کار میکنید خوبه به این بنچمارک توجه کنید و نتایجتون رو با leaderboard مقایسه کنید. در تصویر مثالهای بهتری از هر یک از این سه تسک آورده شده که میتونید مشاهده کنید.
لینک benchmark:
https://duebenchmark.com/leaderboard
لینک github:
https://github.com/due-benchmark
لینک مقاله:
https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/file/069059b7ef840f0c74a814ec9237b6ec-Paper-round2.pdf
#read
#paper
@nlp_stuff
در این پست میخوایم به معرفی benchmark برای تسک document undestanding بپردازیم. این benchmark تسک document undestaning رو تبدیل به سه مساله اصلی کرده:
- تسک اول Document QA است که از روی layout داکیومنت میتونه سوال بپرسه و مدل باید جواب بده. در این حالت سوالها به صورت زبان طبیعی پرسیده میشه اما کانتکست درواقع یه داکیومنته که layout داره (متنی که استایل داره یعنی فونت یا سایزهای متفاوتی داره). مثلا از مدل میپرسند که دو نوع تاریخی که در این داکیومنت وجود داره چه چیزهایی هستند؟ و مدل هم باید مثلا بگه تاریخ فاکتور و تاریخ پرداخت.
- تسک دوم key information extraction است که شبیه تسک اوله با این تفاوت که دیگه query با زبان طبیعی مطرح نمیشه بلکه مدل اطلاعات کلیدی این داکیومنت رو باید بیرون بکشه. مثلا مجموع فاکتور برابر با ۲۰۰۰ دلاره.
- تسک سوم هم Table QA/NLI هست که کار QA و یا NLI رو بر روی جداول انجام میده. این تسک مشخصا بر روی جداول تمرکز داره و سعی میکنه برخی از عبارات رو با استفاده از جدول موجود در داکیومنت verify کنه. مثلا یه جمله ورودی میگیره که آیتم شماره ۱ به مقدار ۲۰۰ قلم فروخته شده و مدل باید بگه که این جمله درسته یا نه. البته میشه از روی جدول، سوال هم پرسید و مدل باید بتونه جواب بده.
یه صفحه هم در نظر گرفته شده که leaderboard است و امتیاز مدلهای مختلف رو گذاشته و حالت overall روی این سه تا تسک داره. اگه در این زمینه کار میکنید خوبه به این بنچمارک توجه کنید و نتایجتون رو با leaderboard مقایسه کنید. در تصویر مثالهای بهتری از هر یک از این سه تسک آورده شده که میتونید مشاهده کنید.
لینک benchmark:
https://duebenchmark.com/leaderboard
لینک github:
https://github.com/due-benchmark
لینک مقاله:
https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/file/069059b7ef840f0c74a814ec9237b6ec-Paper-round2.pdf
#read
#paper
@nlp_stuff
Telegram
stuff
Forwarded from NLP stuff
بهبود عملکرد LLM با نشوندادن Chain of Thought غلط
مدلهای زبانی بزرگ با این که کلی از مسائل حوزه پردازش زبان رو درنوردیدند ولی همچنان در برخی مسائل با فاز reasoningطور (مثل مثلا حل مسائل ریاضی) دچار مشکلات جدی هستند. یکی از راهحلهای پیشنهادشده برای بهبود عملکرد این مدلها روی این مسائل، راهکار Chain-of-Thought Prompting (به اختصار CoT) هست. تو این راهکار وقتی میخوایم یک مساله را به صورت few-shot به LLM توضیح بدیم عوض این که در exampleهامون صرفا جواب آخر رو بنویسیم و میایم و مرحله به مرحله نحوه رسیدن به جواب رو توضیح میدیم و این جوری مدل هم وقتی میخواد به کوئری ما پاسخ بده به نوعی مجبور میشه که مرحله به مرحله جواب رو بنویسه. آزمایشات نشون داده که باعث میشه درصد جوابهای پایانی درستی که میده بیشتر بشه.
حالا یک مقاله اومده و یک ایده به نام contrastive chaint of thought prompting رو مطرح کرده. تو این ایده، علاوه بر این که CoT درست به مدل داده میشود بهش CoT اشتباه هم نشون داده میشه و آزمایشات مقاله نشون میده که این ایده نشون دادن CoT غلط در کنار CoT باعث میشه تا عملکرد LLM باز هم بهبود پیدا کنه.
لینک مقاله:
https://arxiv.org/abs/2311.09277
#paper
#read
@nlp_stuff
مدلهای زبانی بزرگ با این که کلی از مسائل حوزه پردازش زبان رو درنوردیدند ولی همچنان در برخی مسائل با فاز reasoningطور (مثل مثلا حل مسائل ریاضی) دچار مشکلات جدی هستند. یکی از راهحلهای پیشنهادشده برای بهبود عملکرد این مدلها روی این مسائل، راهکار Chain-of-Thought Prompting (به اختصار CoT) هست. تو این راهکار وقتی میخوایم یک مساله را به صورت few-shot به LLM توضیح بدیم عوض این که در exampleهامون صرفا جواب آخر رو بنویسیم و میایم و مرحله به مرحله نحوه رسیدن به جواب رو توضیح میدیم و این جوری مدل هم وقتی میخواد به کوئری ما پاسخ بده به نوعی مجبور میشه که مرحله به مرحله جواب رو بنویسه. آزمایشات نشون داده که باعث میشه درصد جوابهای پایانی درستی که میده بیشتر بشه.
حالا یک مقاله اومده و یک ایده به نام contrastive chaint of thought prompting رو مطرح کرده. تو این ایده، علاوه بر این که CoT درست به مدل داده میشود بهش CoT اشتباه هم نشون داده میشه و آزمایشات مقاله نشون میده که این ایده نشون دادن CoT غلط در کنار CoT باعث میشه تا عملکرد LLM باز هم بهبود پیدا کنه.
لینک مقاله:
https://arxiv.org/abs/2311.09277
#paper
#read
@nlp_stuff
Telegram
stuff
Forwarded from NLP stuff
شکست gpt3.5 توسط مدل وزنباز Mixtral-8x7B-v0.1 !
خلاصه بخوایم بگیم: جدیدا شرکت Mistral.ai یه مدل داده بیرون به اسم Mixtral-8x7B-v0.1 که با هشت تا مدل هفت میلیارد پارامتری Mistral با روش high-quality sparse mixture of experts model (SMoE) ساخته شده، تونسته در اکثر ارزیابیها هم لاما ۷۰ میلیاردی و هم جیپیتی۳.۵ رو شکست بده. خوشمزگی داستان اینه که یک سال بعد از جیپیتی ۳.۵ حالا میشه این مدل رو به صورت لوکال (طبیعتا با رم و جیپییو به اندازه کافی) سرو کرد. این مدل رو میسترال خیلی لاتیطور اول یه لینک تورنت بدون توضیح گذاشت و بعد که ملت به جنب و جوش دراومدند، چند روز بعد یه توضیحی هم منتشر کرد!
مدل mixtral 8x7b که امروز توسط میسترال منتشر شد یک سطح جدیدی برای مدل وزنباز (نه متنباز، چون کد و دیتا و... رو نداده) را ارائه کرد و تونست مدل چت جیپیتی ۳.۵ رو در اکثر بنچمارکها شکست بده. معماری این مدل شبیه مدل میسترال ۷ میلیاردیه (به زودی معماری اون هم براتون شرح خواهیم داد) با این تفاوت که در حقیقت این مدل جدید ۸ تا مدل expert در یک پکه. اینجا از یک تکنیک به نام MoE (Mixture of Experts) استفاده شده. این مدل یک مدل دیکودریه که بلوک فیدفوروارد بین ۸ گروه از پارامترها در هر لایه و برای هر توکن دو تا از این کارشناسها (expert) رو انتخاب میکنه که توکن پردازش بشه. در معماری ترنسفورمرها یک سری لایه feed-forward داره، در MoE جای بعضی از این لایهها از لایههای MoE استفاده شده است. لایهی MoE یک شبکهی روتری داره که انتخاب میکنه کدوم کارشناس (Expert) کدوم توکنها رو بهتر پردازش میکنند. این تکنینم باعث میشه تعدا پارامترها زیاد بشه اما هزینه و سرعت کنترل بشه چون مدل فقط از بخشی از تعداد کل پارامترها رو برای یک توکن استفاده میکنه. همونطور که گفتیم در این میکسترال دو تا کارشناس در هر لحظه انتخاب میشن که باعث میشه سرعت دیکودینگ شبیه یه مدل ۱۲.۹ میلیاردی بشه در صورتی که ۴ برابرش (۴۶.۷ میلیارد) پارامتر داره!! یه عده اشتباه فکر میکردند ۵۶ میلیارد (۸*۷) پارامتر داره ولی اشتباهه چون فقط بعضی لایههای feed-forward فقط تکرار شدند نه همگی پارامترها. اگر بابت MoE کمی گیج شدید، نگران نباشید چون این یکی هم مفصلا در پست دیگهای شرح میدیم. تا اینجا دو تا طلبتون پس.
جونمون براتون بگه که مدل پایه و مدل Instruct رو منتشر کردند. طول کانتکستش ۳۲ هزار شده. تونسته مساوی یا بهتر از مدل ۷۰ میلیاردی لاما۲ و جیپیتی ۳.۵ در اکثر بنچمارکها باشه. عکس نتایج رو در پیوست گذاشتیم. پنج تا زبون انگلیسی، فرانسوی، آلمانی، اسپانیایی و ایتالیایی رو بلده (به نظر روی دیتای togethercomputer/RedPajama-Data-V2 ترینش کردند، حدس ماست). توی تسک کدزنی هم خوبه و توی HumanEval به ۴۰.۲ رسیده. در نهایتا هم با Apache2.0 منتشرش کردند که همگی صفا کنیم. مدل Instruct فرمت پرامپت خودشو داره که توی لینکهایی که آخر میذاریم هست. مثل میسترال ۷b نمیدونیم دیتاستش چیه و چه حجمی داره و چجور پیشپردازش شده. دیتای sft و DPO (برای فاین تیون کردن) هم نمیدونیم! کد لود کردن و اینفرنس هم توی لینکها هست که البته حداقل ۳۰ گیگ رم و جیپییویی مثل A100 میخواد.
لینک بلاگ پست انتشار مدل:
https://mistral.ai/news/mixtral-of-experts/
لینک مدل پایه Mixtral-8x7B-v0.1:
https://huggingface.co/mistralai/Mixtral-8x7B-v0.1
لینک مدل Mixtral-8x7B-Instruct-v0.1:
https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
لینک بلاگ هاگینگفیس:
https://huggingface.co/blog/mixtral
#read
#blog
#link
#model
@nlp_stuff
خلاصه بخوایم بگیم: جدیدا شرکت Mistral.ai یه مدل داده بیرون به اسم Mixtral-8x7B-v0.1 که با هشت تا مدل هفت میلیارد پارامتری Mistral با روش high-quality sparse mixture of experts model (SMoE) ساخته شده، تونسته در اکثر ارزیابیها هم لاما ۷۰ میلیاردی و هم جیپیتی۳.۵ رو شکست بده. خوشمزگی داستان اینه که یک سال بعد از جیپیتی ۳.۵ حالا میشه این مدل رو به صورت لوکال (طبیعتا با رم و جیپییو به اندازه کافی) سرو کرد. این مدل رو میسترال خیلی لاتیطور اول یه لینک تورنت بدون توضیح گذاشت و بعد که ملت به جنب و جوش دراومدند، چند روز بعد یه توضیحی هم منتشر کرد!
مدل mixtral 8x7b که امروز توسط میسترال منتشر شد یک سطح جدیدی برای مدل وزنباز (نه متنباز، چون کد و دیتا و... رو نداده) را ارائه کرد و تونست مدل چت جیپیتی ۳.۵ رو در اکثر بنچمارکها شکست بده. معماری این مدل شبیه مدل میسترال ۷ میلیاردیه (به زودی معماری اون هم براتون شرح خواهیم داد) با این تفاوت که در حقیقت این مدل جدید ۸ تا مدل expert در یک پکه. اینجا از یک تکنیک به نام MoE (Mixture of Experts) استفاده شده. این مدل یک مدل دیکودریه که بلوک فیدفوروارد بین ۸ گروه از پارامترها در هر لایه و برای هر توکن دو تا از این کارشناسها (expert) رو انتخاب میکنه که توکن پردازش بشه. در معماری ترنسفورمرها یک سری لایه feed-forward داره، در MoE جای بعضی از این لایهها از لایههای MoE استفاده شده است. لایهی MoE یک شبکهی روتری داره که انتخاب میکنه کدوم کارشناس (Expert) کدوم توکنها رو بهتر پردازش میکنند. این تکنینم باعث میشه تعدا پارامترها زیاد بشه اما هزینه و سرعت کنترل بشه چون مدل فقط از بخشی از تعداد کل پارامترها رو برای یک توکن استفاده میکنه. همونطور که گفتیم در این میکسترال دو تا کارشناس در هر لحظه انتخاب میشن که باعث میشه سرعت دیکودینگ شبیه یه مدل ۱۲.۹ میلیاردی بشه در صورتی که ۴ برابرش (۴۶.۷ میلیارد) پارامتر داره!! یه عده اشتباه فکر میکردند ۵۶ میلیارد (۸*۷) پارامتر داره ولی اشتباهه چون فقط بعضی لایههای feed-forward فقط تکرار شدند نه همگی پارامترها. اگر بابت MoE کمی گیج شدید، نگران نباشید چون این یکی هم مفصلا در پست دیگهای شرح میدیم. تا اینجا دو تا طلبتون پس.
جونمون براتون بگه که مدل پایه و مدل Instruct رو منتشر کردند. طول کانتکستش ۳۲ هزار شده. تونسته مساوی یا بهتر از مدل ۷۰ میلیاردی لاما۲ و جیپیتی ۳.۵ در اکثر بنچمارکها باشه. عکس نتایج رو در پیوست گذاشتیم. پنج تا زبون انگلیسی، فرانسوی، آلمانی، اسپانیایی و ایتالیایی رو بلده (به نظر روی دیتای togethercomputer/RedPajama-Data-V2 ترینش کردند، حدس ماست). توی تسک کدزنی هم خوبه و توی HumanEval به ۴۰.۲ رسیده. در نهایتا هم با Apache2.0 منتشرش کردند که همگی صفا کنیم. مدل Instruct فرمت پرامپت خودشو داره که توی لینکهایی که آخر میذاریم هست. مثل میسترال ۷b نمیدونیم دیتاستش چیه و چه حجمی داره و چجور پیشپردازش شده. دیتای sft و DPO (برای فاین تیون کردن) هم نمیدونیم! کد لود کردن و اینفرنس هم توی لینکها هست که البته حداقل ۳۰ گیگ رم و جیپییویی مثل A100 میخواد.
لینک بلاگ پست انتشار مدل:
https://mistral.ai/news/mixtral-of-experts/
لینک مدل پایه Mixtral-8x7B-v0.1:
https://huggingface.co/mistralai/Mixtral-8x7B-v0.1
لینک مدل Mixtral-8x7B-Instruct-v0.1:
https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1
لینک بلاگ هاگینگفیس:
https://huggingface.co/blog/mixtral
#read
#blog
#link
#model
@nlp_stuff
Telegram
stuff