Machine Learning NLP + CV
286 subscribers
223 photos
53 videos
42 files
474 links
مطالب مفید در حوزه های یادگیری ماشین و بینایی کامپیوتر
Download Telegram
Forwarded from NLP stuff
یکی از مباحث مهم، کوچک کردن مدل‌های غول‌پیکره. قبلا یه پست (https://t.me/nlp_stuff/60) درباره‌اش گذاشته بودیم. Quantization یکی دیگه از روش‌های کوچک کردن مدل‌های بزرگه. در این روش بدون آموزش مجدد، مثلا اعداد اعشاری ۳۲ بیتی با یک عدد صحیح ۸ بیتی تخمین زده میشه و با اینکه کارایی مدل یه ذره کم میشه، اما حجم مدل خیلی پایین میاد و کلی در مصرف رم و حافظه صرفه‌جویی میشه و سرعت بالا میره.
در لینک زیر این روش برای مدل‌های کتابخانه‌ی hugging face و با استفاده از کتابخانه‌ی ONNX Runtime پیاده شده و نتایج مقایسه شده:

https://medium.com/microsoftazure/faster-and-smaller-quantized-nlp-with-hugging-face-and-onnx-runtime-ec5525473bb7

#read
#blog

@nlp_stuff
Forwarded from NLP stuff
گلچین EMNLP و ICLR به روایت رودر

آقای Sebastian Ruder در شماره‌ی ۵۴ از NLP News سایتش، مقاله‌هایی را که به نظرش در EMNLP و ICLR امسال قشنگ هستند و همینطور کارهای اخیر در موضوع toxicity detection و data augmentation آورده. بعضی از مقاله‌ها و بلاگ‌هایی که گفته قبلا در کانال بحث کردیم. دنبالش کنید که چیزای خوبی یاد می‌گیرید.

http://newsletter.ruder.io/issues/emnlp-iclr-2020-toxicity-detection-data-augmentation-and-adversarial-examples-285207

#read
#blog

@nlp_stuff
Forwarded from NLP stuff
گلچینشاد NeurIPS2020

ده تا از بهترین مقاله‌های مرتبط با پردازش زبان طبیعی که در کنفرانس NeurIPS2020 ارائه شدند، در این پست آورده شده. حداقل یه نگاهی بهشون بندازید خوبه.

https://www.topbots.com/neurips-2020-nlp-research-papers/

#read
#blog

@nlp_stuff
Forwarded from NLP stuff
آنچه بنجیو در خشت خام می‌بیند

یاشوا بنجیو که (انصافا) یکی از پدرهای هوش مصنوعی و دیپ لرنینگ است، از یکی دو سال پیش به تدریج در تاک‌های مختلف (مثلا اینجا و اینجا و اینجا و اینجا) ایده‌های خود برای پیشرفت‌ آینده هوش مصنوعی را شرح داده است. ایده‌های او بر بناکردن inductive biasهای جدیدی (به طور خیلی خلاصه و مفید inductive bias همان فرضیاتی که یک الگوریتم یادگیری قبل از حل مساله در مورد آن در نظر می‌گیرد و راه حلش روی آن فرض بنا شده است، برای مثال وقتی ما فرض می‌کنیم که معنای یک تیکه از تصویر می‌تواند از تیکه‌های مجاورش دریافت شود این فرض ما منجر به بناشدن شبکه‌های cnnای می‌شود) برای دیپ لرنینگ حول کلیدواژه مهم out of distribution generalization (
تا الان بدین شکل بوده که مدل ما یک توزیع از داده‌های آموزشی در می‌آورده و نهایتا با کمی تغییر دنبال این توزیع در داده‌های تست بوده است. اما شیخ ما اعتقاد دارد بایستی از این به بعد تغییرات گسترده در داده‌های تست نسبت به توزیع داده‌های آموزش را هم بتواند تحمل کند. مثلا باید یادگرفتن را یادبگیرد تا اگر توزیع محیطش تغییری هم کرد بتواند خودش را با آن وفق دهد!) بنا شده است.
به طور مختصر و مفید؛ پیر ما معتقد است که تسک‌هایی را که مغز انسان انجام می‌دهد می‌توان به دسته سیستم ۱ و سیستم ۲ تقسیم ‌بندی کرد. تسک‌های سیستم ۱ مسائلی هستند که به صورت ناخودآگاه و البته سریع و بدون نیاز به تفکر قابل انجام توسط مغز هستند مثلا تشخیص خر از پنگوئن، تشخیص ناسزا از غیرناسزا و ... ، حال ان که تسک‌های سیستم ۲ بایستی با توجه و برنامه‌ریزی و البته آگاهانه انجام شوند مثلا رانندگی کردن.
بنجیو می‌گوید که توانایی فعلی دیپ لرنینگ در انجام دادن تسک‌های سیستم ۱ است و در سیستم ۲ توفیقی هنوز ندارد. در ادامه بنجیو پیشنهاد می‌دهد که آینده هوش مصنوعی درگیر با انجام تسک‌های سیستم ۲ و همچنین همان کلیدواژه out of distribution generalization خواهد بود.

بر اساس همین ایده اولیه، بنجیو تعدادی ایده برای الهام‌گیری و شکستن بن‌بست فعلی پیشرفت دیپ لرنینگ پیشنهاد می‌کند که از آن‌ها می‌توان به بررسی مسائل multi agent، خلق شبکه‌های عصبی با ویژگی ماژولاریزیشن نظیر RIMها، دیدن مسائل از زاویه گراف‌های علی (causal) متغیر‌ها، متالرنینگ و ... اشاره کرد.

لینک مقاله‌‌اش:

https://arxiv.org/pdf/2011.15091.pdf

پ.ن. لطفا کانال را به کسایی که هوش مصنوعی دوست دارند، معرفی کنید! ممنون.

#paper
#read

@nlp_stuff
Forwarded from NLP stuff
This media is not supported in your browser
VIEW IN TELEGRAM
توضیح خلاصه‌ی ViT

در چند روز اخیر سیلی عظیمی از مدل‌های ترنسفورمری برای vision به راه افتاده‌اند. اگر هنوز مقاله An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale را نخوندید و حوصله خوندن پیپرش را هم هنوز ندارید، ده دقیقه این پست را مشاهده کنید تا بفهمید چه خبره و از قافله بعدی عقب نمونید.

https://theaisummer.com/vision-transformer/

پ.ن. قبلا این مقاله را در این پست (https://t.me/nlp_stuff/82) معرفی کرده بودیم.
#read
#blog

@nlp_stuff
Forwarded from NLP stuff
نورون‌های عصبی Multi-Modal زیر ذره‌بین OpenAI Microscope!

چند روز پیش مقاله‌ای با نام Multimodal Neurons in Artificial Neural Networks از تیم OpenAI منتشر شد. این مقاله میاد نشون میده که یک نورون در مدلی multi modal مثل CLIP داره به یک کانسپت و مفهوم (انسان، درخت، احساسات و ...) واکنش میده و فعال میشه وقتی اون مفهوم چه به صورت عکس، چه به صورت متن یا چه به صورت نقاشی باشه. این موضوع قبلا هم توسط bioکارها راجع به نورون طبیعی گفته شده بود (ما چه کلمه درخت را بخونید، چه عکس درخت ببینید چه نقاشی درخت نشونمون بدهند، می‌تونیم همشون را به مفهوم درخت مرتبط کنیم).
مثلا اومدند دیدند که یه نورون هست که چه عکس یارویی که لباس مرد عکنبوتی پوشیده، چه نقاشی مرد عنکبوتی یا چه کلمه‌ی spider ببینه پاسخ میده و فعال میشه؛ یعنی یه نورون کلا به کانسپت spider man (چه تصویر چه نقاشی چه کلمه) پاسخ میده. پس این مدل Multi-Modal تونسته جنبه‌های مختلف از یک مفهوم را به هم ربط بده. دو تا چیز جالبه اینجا: اول اینکه مدله این ارتباط را تونسته ایجاد کنه. دوم اینکه اینا چقدر قشنگ اینو بررسی کردند. کیف کنیم!
بعد هم اینا اومدند نورون‌های مختلف برای مفاهیم مختلف مثل: Region, Person, Emotion, Holiday, Color و ... را پیدا کردند و به نمایش گذاشتند. چجوری؟ OpenAI یه ابزاری به نام Microscope درست کرده (متاسفانه این یکی از زیر دستمون سر خورده و توی کانال نگذاشتیم) که نورون‌های لایه‌های مدل‌های معروف تصویری مثل AlexNet ،ResNet ،Inception ،VGG و CLIP را به تصویر کشیده تا بشه تفسیرشون کرد. برای اینکار اومدند عکسایی که نورون موردنظر یا اون کانال تصویری مدنظر را خیلی فعال کردند، یه جا جمع کردند و از سمتی تصاویر ورودی از دیتاست ImageNet که اون نورون‌ها را فعال کردند هم آوردند؛ مثلا میشه دید که همبرگر و پنکیک فلان نورون از فلان لایه را خیلی فعال می‌کنه. حالا اومدند نورون‌های لایه‌های مختلف مدل CLIP هم با همین روش بررسی کردند و برای مفاهیم مختلف نورون‌هاشون را آوردند. و اینکه برای هر کدوم از مفاهیم هم اومدند نشون دادند که چه تصاویر صورتی، چه متونی، چه معماری‌هایی، چه مناظری و... نشون دهنده‌ی اون مفهوم برای این نورونه و اون نورون را فعال می‌کنه. مثلا می‌تونید ببینید که این مدل، «آمریکا» را با چه چیزایی می‌تونه تشخیص بده یا مثلا «ترامپ» را با چه چیزایی یا مثلا مفهوم «خوشحال» را با چه چیزایی!

لینک ویدیوی توضیح مقاله:
https://youtu.be/Z_kWZpgEZ7w

لینک مقاله که کلی مثال خفن هم در این صفحه آوردند که باهاشون ور برید لذت ببرید:
https://distill.pub/2021/multimodal-neurons/

پ.ن. زکات لذت از این پست، نشر آن است!
#read
#paper
#watch

@nlp_stuff
Forwarded from NLP stuff
معماری تماما MLP برای پردازش تصویر

پست امروز درباره یک معماری ساده است که همین دو روز پیش مقاله‌اش منتشر شده. این معماری برای تسک دسته‌بندی تصاویر ارائه شده و بر خلاف شبکه‌های نامداری مثل ResNet و ViT هیچ گونه کانولوشن و اتنشی درون خودش نداره و تماما از MLP تشکیل شده. خیلی خلاصه بخوایم توضیح بدیم، ابتدا مثل ViT میاد و تصویر رو به تکه (patch) هایی تقسیم می‌کنه، سپس بعد از عبور دادن این پچ‌ها از لایه‌ی امبدینگ و به دست آوردن یک وکتور برای هر یک از تکه‌ها، اونها رو از N تا لایه به اسم MixerLayer می‌گذرونه. این MixerLayer درون خودش از دو تا شبکه MLP تشکیل شده که اولیش میاد یک فیدفوروارد روی یک جنبه از تماما تصویر‌ها میزنه (در واقع یک فیچر از روی یک فیچر تمامی تکه‌ها درست می‌کنه) و دومین MLP هم میاد یک فیدفوروارد از روی فیچر‌های یک تکه درست می‌کنه (شکل پیوست شده رو اگر ببینید درکش بسیار راحته، به اون T یا Transpose ها فقط باید دقت کنید) در نهایت هم به یک شبکه رسیدند و آزمایش‌های مختلف پیش‌آزمایش و فاین تیون رو روش انجام دادند.
شبکه اش از نظر دقتی خاص و برجسته نیست و البته پرت هم نیست. نقطه مثبتش رو میشه نرخ توان عملیاتی بالاش (throughput) دونست که خیلی از شبکه‌های مثل ViT بهتره (یک دلیلش میتونه این باشه که توی ViT به خاطر وجود اتنشن با افزایش رزولشن و در نتیجه افزایش تعداد تکه‌ها و طول ورودی، میزان نیاز به حافظه به صورت توان دویی زیاد میشه ولی اینجا این اتفاق به صورت خطی رخ میده).
کلا مقاله جالبیه و خب البته سوالاتی رو هم برمی‌انگیزه که چطوری بدون سوگیری القایی (inductive bias) خاصی به این نتیجه رسیده.

مثل همیشه یانیک کیلچر هم به سرعت یک ویدئو در توضیح این مقاله بیرون داده که می‌تونید تماشا کنید:
https://www.youtube.com/watch?v=7K4Z8RqjWIk

لینک مقاله:
https://arxiv.org/abs/2105.01601v1

#read
#paper
#watch

@nlp_stuff
Forwarded from NLP stuff
مقاله‌ای برای مرور ترنسفورمر‌ها

این بار با مقاله سروی‌طوری در خدمتتون هستیم که اگر حوزه تحقیقاتی‌تون مرتبط با ترنسفورمرهاست، خوندش مستحب موکده. این مقاله اومده یه بررسی جامعی رو روی انواع و طبقه‌بندی ترنسفورمر‌ها کرده و بر اساس تفاوت‌هاشون در معماری با هم (که میتونه شامل تفاوت در قسمت توجه، بازنمایی مکانی، نرمالساز لایه‌ای و ... باشه) ریز به ریز این تفاوت‌ها رو توضیح داده.
نکته مثبت این مقاله در تصویر‌سازی‌های به نظر خوبشه که باعث شیرفهم شدن مخاطب می‌تونه بشه. اگر نیاز دارید که روی انواع ترنسفورمرها آشنا باشید و اشتباهی روی موضوعی کار نکنید که قبلا شده، این مقاله رو از دست ندید!

لینک مقاله:
https://arxiv.org/abs/2106.04554

#read
#paper

@nlp_stuff
Forwarded from NLP stuff
آقای تورینگ! تست شما پاس شد؛ لطفا سوال بعدی!

چند وقتی هست که مدل GPT-3 معرفی شده و هر روز که از خواب پا میشیم به زیبا بودن این مدل بیشتر و بیشتر پی می‌بریم. از معرفی ابزار copilot توسط گیت‌هاب گرفته (که براساس GPT-3 بود و بر اساس function definition به زبان طبیعی، به ۸۰ زبان زنده دنیا کدنویسی می‌کرد) تا این مقاله از خانوم کلارک که به عنوان یکی از برجسته‌ترین مقالات رویداد ACLNLP2021 انتخاب شده است. در این مقاله درواقع چارچوبی برای تست انسانی مدل‌های تولید زبان طبیعی (NLG) معرفی شده است و در کنار اون نتایج ارزیابی انسانی مدل GPT-3 بررسی شده است.

حتما می‌دونید که یکی از اهداف مقدس آلن تورینگ فقید در دهه ۵۰ میلادی، طراحی سیستمی بود که اگر جملاتی به زبان انگلیسی تولید می‌کرد و به انسان‌های مختلف نشان داده می‌شد، کسی قادر نباشد که مشخص کند تولیدکننده آن متن‌ها ماشین است. در این مقاله خانوم کلارک و دوستان با استفاده از ابزار Amazon Mechanical Turk که امکان crowdsourcing را فراهم می‌کند، این تست را بر روی مدل GPT-3 انجام دادند. تست‌ها در سه دامنه داستان‌های کوتاه، مقاله کوتاه خبری و دستورآشپزی بودند. شاید جالب باشه که بدونید کیفیت تشخیص ارزیابی‌کنندگان این متون، حدود ۵۰ درصد بوده است!!! یعنی دقیقا با شانس رندم توانستند machine-generated بودن این متون را تشخیص دهند. اما کار اصلی این مقاله، انجام آزمایشاتی در راستای آموزش ارزیابی‌کنندگان برای ارزیابی این مجموعه متون تستی بود تا کیفیت تشخیص آن‌ها بهبود یابد. در این مقاله ۳ سناریو برای آموزش انتخاب شده است. در سناریو اول ابتدا در کنار هر متن تستی، چند جمله در جهت راهنمایی برای تشخیص کیفیت متن گذاشته می‌شود و سپس ارزیابی صورت می‌گیرد. در سناریوی بعدی در هر متن تستی، بعد از انتخاب گزینه توسط ارزیابی‌کننده (در ابزار AMT می‌تونید برای هر تست گزینه‌هایی انتخاب کنید که ارزیابی‌کننده‌ها از بین اون‌ها انتخاب کنند و در اینجا به صورت ساده ۴ گزینه درنظر گرفته شده است. گزینه اول ؛ مطمئنا انسان نوشته است، گزینه دوم؛ احتمالا انسان نوشته است، گزینه سوم؛ احتمالا ماشین نوشته است و گزینه آخر؛ قطعا ماشین نوشته است انتخاب شده‌اند) در صورتی که اشتباه انتخاب می‌کرده‌است، گزینه درست به همراه دلایلی برای توضیح به ارزیابی‌کنندگان نشان داده می‌شده است. همچنین در سناریو سوم دو متن که با جملات یکسان اولیه یکی توسط انسان و دیگری توسط ماشین تولید شده است به ارزیابی‌کنندگان داده شده و پس از انتخاب گزینه، گزینه درست به آن‌ها نمایش داده شده است. تا اینجا اگه فکر می‌کنید که این سناریوها در بهبود کیفیت تشخیص ارزیابی‌کنندگان خیلی موثر بودند باید بگم که سخت در اشتباهید!! مدل GPT-3 حتی در این سناریوها نیز قدرت خودش رو نشون داد و فقط سناریو دوم تونست یه مقدار موثر باشه و به‌طور میانگین حدود ۶ درصد تشخیص رو بهتر کنه!

نویسندگان این مقاله با تحلیل و بررسی نتایج آزمایشات دریافتند که یکی از عوامل گمراهی عامل انسانی در تشخیص ماشینی بودن متون، عدم درک درست عامل انسانی از توانایی ماشین بوده! به همین دلیل، ارزیابی‌کنندگان برای تشخیص، به‌مقدار زیاد بر روی ویژگی‌های ظاهری متون مانند استایل و گرامر تکیه می‌کردند و با انجام آموزش‌هایی که در بالا به اون‌ها اشاره شد، آگاه‌تر شدند و برای تشخیص به ویژگی‌های محتوایی و معنایی نیز توجه بیشتری کردند و از لایه ظاهری برای تشخیص عبور کردند( که البته این عبور خیلی موفقیت‌آمیز نبود همون‌طور که گفتیم!)
در نهایت هم چندتا پیشنهاد برای محققان حوزه NLG دارند که باید سرلوحه کار خودشون قرار بدهند. اول اینکه، نتایج تست انسانی مدل‌هاشون رو سعی کنند با چارچوب معرفی شده گزارش کنند. دوم اینکه در ارزیابی‌های انسانی از لایه ظاهر عبور کنند و توجه بیشتری به معنا و مفید بودن متن بکنند. مثلا یک تست جذاب برای این موضوع این است که از ارزیابی‌کننده درخواست کنند تا در ادامه متن داده شده، متنی را بنویسند و توانایی همراهی ارزیابی‌کننده با متن را اندازه‌گیری کنند. همچنین از ارزیابی متن‌های کوتاه عبور کرده و به سمت متن‌های طولانی‌تر بروند.
این پیشنهاد‌ها به طور ضمنی چالش‌های بعدی حوزه NLG رو هم مشخص می‌کنند. به‌همین خاطر توصیه می‌کنیم این مقاله رو حتما اگر نمی‌خونید حداقل یه نگاه بهش بندازید خداوکیلی!

لینک مقاله:
https://arxiv.org/abs/2107.00061

پ.ن.۱: به عکس دقت کنید! به نظرتون کدومش کار ماشینه؟ ☺️

پ.ن.۲: جا داره یه نگاه دوباره به این پست از کانال بندازید که بررسی مقاله‌ی برنده‌ی ACL2020 بود و اون هم روی یک نگاه دیگه از ارزیابی مدل تکیه کرده بود:
https://t.me/nlp_stuff/48

#read
#paper

@nlp_stuff
Forwarded from NLP stuff
بهترین‌های کنفرانس EMNLP2021

بهترین مقاله‌های (کوتاه، بلند و برجسته) کنفرانس EMNLP2021 انتخاب شدند. اینجا لینک مربوط به هر مقاله و خلاصه‌ی سرپایی چندخطیشون رو آوردیم. ما کم‌کم سراغشون میریم ولی اگر شما هم هر کدوم رو خوندید و خلاصه‌ی کامل‌تری نوشتید، بفرستید تا به اسم خودتون منتشرش می‌کنیم.

لینک اسامی و نویسنده‌های مقالات منتخب:
https://2021.emnlp.org/blog/2021-10-29-best-paper-awards


۱. بهترین مقاله‌ی بلند

- نام مقاله: Visually Grounded Reasoning across Languages and Cultures
- خلاصه: یک روشی ارائه کردند تا دیتاست ترکیبی عکس و متن استایل ImageNet بشه ساخت اما برای زبان‌ها و فرهنگ‌های مختلف و نه فقط طبق زبان و فرهنگ آمریکای شمالی و اروپای غربی. و یه دیتاست چندزبانه تصویر و متن به نام Multicultural Reasoning over Vision and Language (MaRVL) درست کردند که هر دونه از اعضای این دیتاست به شکل دو تصویر + یک متن توصیفی به زبان‌های متنوع و مختلفی مثل اندونزیایی، چینی، ترکی و… است و برچسبش True/False است. نمونه‌ای ازش در ضمیمه اومده. یه سری مدل هم به عنوان مدل‌های پایه برای این تسک ارائه کردند.
- لینک مقاله:
https://arxiv.org/abs/2109.13238


۲. بهترین مقاله‌ی کوتاه

- نام مقاله: CHoRa: Collecting Humor Reaction Labels from Millions of Social Media Users
- خلاصه: همونجوری که از اسمش مشخصه، یه روشی و چهارچوبی ارائه کردند تا شوخی‌های ملت رو بتونند در ابعاد بزرگ از شبکه‌های اجتماعی بدون برچسب‌زنی دستی و با استفاده از عکس‌العمل بقیه‌ی کاربران (ایموجی و اینا) جمع‌آوری کنند. چون هر زبون و فرهنگی مدل شوخی‌های خودشو داره، جمع‌آوری دیتا در ابعاد بزرگ سخته، پس تبعا و طبعا؛ تسکش هم سخت میشه. این مقاله یک دیتاست عظیم ۷۸۵هزارتایی حول موضوع کرونا ارائه کردند و تحلیل‌هایی هم از ساختار گرامری و معنایی و احساسی این پست‌ها انجام دادند. تصویری از نمونه دادگان ضمیمه شده است.
- لینک ارائه مقاله:
https://underline.io/lecture/37879-choral-collecting-humor-reaction-labels-from-millions-of-social-media-users


۳. مقاله‌های برجسته

- نام مقاله: MindCraft: Theory of Mind Modeling for Situated Dialogue in Collaborative Tasks
- لینک مقاله:
https://arxiv.org/abs/2109.06275

- نام مقاله: SituatedQA: Incorporating Extra-Linguistic Contexts into QA
- خلاصه: سوال‌ها ممکنه جوابشون در مکان‌ها و زمان‌های (context) مختلف متفاوت باشه. مثلا سوال چه واکسن‌های کرونایی برای بزرگسالان تایید شده است؟ برای زمان‌ها و و مکان‌های مختلف متفاوت میشه. این مقاله همونطور که از اسمش پیداست، یه دیتاست به اسم SITUATEDQA تقدیم جامعه کردند که کنار سوال، یه کانتست زمان یا مکان هم چاشنی کار کردند که مدل باید در نظر بگیره. یه عکس از نمونه‌اش در ضمیمه گذاشتیم. مسیر جمع‌آوری و برچسب‌زنی داده رو هم آوردند.
- لینک مقاله:
https://arxiv.org/abs/2109.06157

- نام مقاله: When Attention Meets Fast Recurrence: Training Language Models with Reduced Compute
- خلاصه: در جریان هزینه‌های بالای محاسباتی آموزش مدل‌های زبانی بزرگ هستید دیگه؟ این مقاله اومده مدل زبانی رو با یه سری یونیت بازگشتی ترکیب کرده و با ترنسفورمرهایی مثل Trans-XL و Longformer و Shortformer مقایسه کردند و در حالی که هزینه‌ها را یک سوم تا یک دهم کرده، تونسته در بعضی تسک‌ها بر مدل‌های زبانی مذکور فائق بیاد.
- لینک مقاله:
https://arxiv.org/abs/2102.12459

- نام مقاله: Shortcutted Commonsense: Data Spuriousness in Deep Learning of Commonsense Reasoning
- لینک کد مقاله:
https://github.com/nlx-group/Shortcutted-Commonsense-Reasoning


۴. کتابخونه‌ی dataset هاگینگ‌فیس هم جایزه‌ی بهترین مقاله‌ی demo رو برده.


پ.ن. لطفا کانال را به بقیه هم معرفی کنید.

#read
#paper
#conf

@nlp_stuff
Forwarded from NLP stuff
خط‌کشی برای سنجش کیفیت document understanding

در این پست می‌خوایم به معرفی benchmark برای تسک document undestanding بپردازیم. این benchmark تسک document undestaning رو تبدیل به سه مساله اصلی کرده:

- تسک اول Document QA است که از روی layout داکیومنت می‌تونه سوال بپرسه و مدل باید جواب بده. در این حالت سوال‌ها به صورت زبان طبیعی پرسیده میشه اما کانتکست درواقع یه داکیومنته که layout داره (متنی که استایل داره یعنی فونت یا سایزهای متفاوتی داره). مثلا از مدل می‌پرسند که دو نوع تاریخی که در این داکیومنت وجود داره چه چیزهایی هستند؟ و مدل هم باید مثلا بگه تاریخ فاکتور و تاریخ پرداخت.

- تسک دوم key information extraction است که شبیه تسک اوله با این تفاوت که دیگه query با زبان طبیعی مطرح نمیشه بلکه مدل اطلاعات کلیدی این داکیومنت رو باید بیرون بکشه. مثلا مجموع فاکتور برابر با ۲۰۰۰ دلاره.

- تسک سوم هم Table QA/NLI هست که کار QA و یا NLI رو بر روی جداول انجام می‌ده. این تسک مشخصا بر روی جداول تمرکز داره و سعی می‌کنه برخی از عبارات رو با استفاده از جدول موجود در داکیومنت verify کنه. مثلا یه جمله ورودی می‌گیره که آیتم شماره ۱ به مقدار ۲۰۰ قلم فروخته شده و مدل باید بگه که این جمله درسته یا نه. البته میشه از روی جدول، سوال هم پرسید و مدل باید بتونه جواب بده.

یه صفحه هم در نظر گرفته شده که leaderboard است و امتیاز مدل‌های مختلف رو گذاشته و حالت overall روی این سه تا تسک داره. اگه در این زمینه کار می‌کنید خوبه به این بنچ‌مارک توجه کنید و نتایج‌تون رو با leaderboard مقایسه کنید. در تصویر مثال‌های بهتری از هر یک از این سه تسک آورده شده که می‌تونید مشاهده کنید.

لینک benchmark:
https://duebenchmark.com/leaderboard

لینک github:
https://github.com/due-benchmark

لینک مقاله:
https://datasets-benchmarks-proceedings.neurips.cc/paper/2021/file/069059b7ef840f0c74a814ec9237b6ec-Paper-round2.pdf

#read
#paper

@nlp_stuff
Forwarded from NLP stuff
بهبود عملکرد LLM با نشون‌دادن Chain of Thought غلط

مدل‌های زبانی بزرگ با این که کلی از مسائل حوزه پردازش زبان رو درنوردیدند ولی همچنان در برخی مسائل با فاز reasoning‌طور (مثل مثلا حل مسائل ریاضی) دچار مشکلات جدی هستند. یکی از راه‌حل‌های پیشنهادشده برای بهبود عملکرد این مدل‌ها روی این مسائل، راهکار Chain-of-Thought Prompting (به اختصار CoT) هست. تو این راهکار وقتی میخوایم یک مساله را به صورت few-shot به LLM توضیح بدیم عوض این که در example‌هامون صرفا جواب آخر رو بنویسیم و میایم و مرحله به مرحله نحوه رسیدن به جواب رو توضیح می‌دیم و این جوری مدل هم وقتی میخواد به کوئری ما پاسخ بده به نوعی مجبور میشه که مرحله به مرحله جواب رو بنویسه. آزمایشات نشون داده که باعث می‌شه درصد جواب‌های پایانی درستی که می‌ده بیشتر بشه.

حالا یک مقاله اومده و یک ایده به نام contrastive chaint of thought prompting رو مطرح کرده. تو این ایده، علاوه بر این که CoT درست به مدل داده می‌شود بهش CoT اشتباه هم نشون داده می‌شه و آزمایشات مقاله نشون می‌ده که این ایده نشون دادن CoT غلط در کنار CoT باعث میشه تا عملکرد LLM باز هم بهبود پیدا کنه.

لینک مقاله:
https://arxiv.org/abs/2311.09277

#paper
#read

@nlp_stuff
Forwarded from NLP stuff
شکست gpt3.5 توسط مدل وزن‌باز Mixtral-8x7B-v0.1 !

خلاصه بخوایم بگیم: جدیدا شرکت Mistral.ai یه مدل داده بیرون به اسم Mixtral-8x7B-v0.1 که با هشت تا مدل هفت میلیارد پارامتری Mistral با روش  high-quality sparse mixture of experts model (SMoE) ساخته شده، تونسته در اکثر ارزیابی‌ها هم لاما ۷۰ میلیاردی و هم جی‌پی‌تی۳.۵ رو شکست بده. خوش‌مزگی داستان اینه که یک سال بعد از جی‌پی‌تی ۳.۵ حالا میشه این مدل رو به صورت لوکال (طبیعتا با رم و جی‌پی‌یو به اندازه کافی) سرو کرد. این مدل رو میسترال خیلی لاتی‌طور اول یه لینک تورنت بدون توضیح گذاشت و بعد که ملت به جنب و جوش دراومدند، چند روز بعد یه توضیحی هم منتشر کرد!

مدل mixtral 8x7b که امروز توسط میسترال منتشر شد یک سطح جدیدی برای مدل وزن‌باز (نه متن‌باز، چون کد و دیتا و... رو نداده) را ارائه کرد و تونست مدل چت جی‌پی‌تی ۳.۵ رو در اکثر بنچمارک‌ها شکست بده. معماری این مدل شبیه مدل میسترال ۷ میلیاردیه (به زودی معماری اون هم براتون شرح خواهیم داد) با این تفاوت که در حقیقت این مدل جدید ۸ تا مدل expert در یک پکه. اینجا از یک تکنیک به نام MoE (Mixture of Experts) استفاده شده. این مدل یک مدل دیکودریه که بلوک فیدفوروارد بین ۸ گروه از پارامترها در هر لایه و برای هر توکن دو تا از این کارشناس‌ها (expert) رو انتخاب میکنه که توکن پردازش بشه. در معماری ترنسفورمرها یک سری لایه feed-forward داره، در MoE جای بعضی از این لایه‌ها از لایه‌های MoE استفاده شده است. لایه‌ی MoE یک شبکه‌ی روتری داره که انتخاب میکنه کدوم کارشناس (Expert) کدوم توکن‌ها رو بهتر پردازش می‌کنند. این تکنینم باعث میشه تعدا پارامترها زیاد بشه اما هزینه و سرعت کنترل بشه چون مدل فقط از بخشی از تعداد کل پارامترها رو برای یک توکن استفاده می‌کنه. همونطور که گفتیم در این میکسترال دو تا کارشناس در هر لحظه انتخاب میشن که باعث میشه سرعت دیکودینگ شبیه یه مدل ۱۲.۹ میلیاردی بشه در صورتی که ۴ برابرش (۴۶.۷ میلیارد) پارامتر داره!! یه عده اشتباه فکر میکردند ۵۶ میلیارد (۸*۷) پارامتر داره ولی اشتباهه چون فقط بعضی لایه‌های feed-forward فقط تکرار شدند نه همگی پارامترها. اگر بابت MoE کمی گیج شدید، نگران نباشید چون این یکی هم مفصلا در پست دیگه‌ای شرح میدیم. تا اینجا دو تا  طلبتون پس.

جونمون براتون بگه که مدل پایه و مدل Instruct رو منتشر کردند. طول کانتکستش ۳۲ هزار شده. تونسته مساوی یا بهتر از مدل ۷۰ میلیاردی لاما۲ و  جی‌پی‌تی ۳.۵ در اکثر بنچ‌مارک‌ها باشه. عکس نتایج رو در پیوست گذاشتیم. پنج تا زبون انگلیسی، فرانسوی، آلمانی، اسپانیایی و ایتالیایی رو بلده (به نظر روی دیتای togethercomputer/RedPajama-Data-V2 ترینش کردند، حدس ماست). توی تسک کدزنی هم خوبه و توی HumanEval به ۴۰.۲ رسیده. در نهایتا هم با Apache2.0 منتشرش کردند که همگی صفا کنیم. مدل Instruct فرمت پرامپت خودشو داره که توی لینک‌هایی که آخر میذاریم هست. مثل میسترال ۷b نمیدونیم دیتاستش چیه و چه حجمی داره و چجور پیش‌پردازش شده. دیتای sft و DPO (برای فاین تیون کردن) هم نمیدونیم! کد لود کردن و اینفرنس هم توی لینک‌ها هست که البته حداقل ۳۰ گیگ رم و جی‌پی‌یویی مثل A100 می‌خواد.


لینک بلاگ پست انتشار مدل:
https://mistral.ai/news/mixtral-of-experts/

لینک مدل پایه Mixtral-8x7B-v0.1:
https://huggingface.co/mistralai/Mixtral-8x7B-v0.1

لینک مدل Mixtral-8x7B-Instruct-v0.1:
https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1

لینک بلاگ هاگینگ‌فیس:
https://huggingface.co/blog/mixtral

#read
#blog
#link
#model

@nlp_stuff