یک مقاله خوب گوگل به نام Attention Is All You Need توسط گوگل در سال 2017 به انتشار رسیده. این مقاله، مدل Transformer را معرفی میکند که بهجای استفاده از ساختارهای بازگشتی مانند RNN، تنها با بهرهگیری از مکانیزم Self-Attention قادر است وابستگیهای معنایی بین کلمات را در جمله تشخیص دهد.
این رویکرد باعث بهبود چشمگیر در سرعت آموزش، قابلیت پردازش موازی و دقت مدلهای ترجمه ماشینی و سایر وظایف پردازش زبان طبیعی شد و پایهگذار نسل جدیدی از مدلهای زبانی مانند BERT و GPT شد.
قابل ذکره تا به حال نزدیک 185 هزار بار به این مقاله رفرنس داده شده.
متن چکیده به فارسی:
مدلهای غالب در تبدیل توالی (Sequence Transduction) معمولاً بر پایهی شبکههای عصبی بازگشتی (RNN) یا پیچشی (CNN) پیچیده هستند که شامل یک رمزگذار (Encoder) و یک رمزگشا (Decoder) میباشند. بهترین مدلها همچنین از یک مکانیزم توجه (Attention) برای اتصال بین رمزگذار و رمزگشا استفاده میکنند. ما یک معماری ساده و جدید به نام Transformer پیشنهاد میدهیم که تنها بر پایهی مکانیزمهای توجه طراحی شده و بهطور کامل از بازگشت (Recurrence) و پیچش (Convolution) صرفنظر میکند. آزمایشها روی دو وظیفهی ترجمه ماشینی نشان میدهند که این مدلها از نظر کیفیت عملکرد بهتری دارند، در عین حال امکان پردازش موازی بیشتری دارند و زمان آموزش کمتری نیاز دارند.
مدل ما به امتیاز 28.4 BLEU در وظیفهی ترجمهی انگلیسی به آلمانی (WMT 2014) دست یافته است، که بیش از ۲ واحد BLEU بهتر از بهترین نتایج پیشین (حتی مدلهای ترکیبی) است. همچنین در وظیفهی ترجمهی انگلیسی به فرانسوی (WMT 2014)، مدل ما با امتیاز 41.8 BLEU یک رکورد جدید برای مدلهای تکی ثبت میکند، آن هم تنها پس از ۳.۵ روز آموزش با ۸ کارت گرافیک، که بخش کوچکی از هزینهی آموزشی مدلهای پیشرفتهی موجود در ادبیات علمی است. ما همچنین نشان میدهیم که Transformer قابلیت تعمیم خوبی به وظایف دیگر دارد، چرا که آن را با موفقیت روی تجزیهی نحوی انگلیسی (English constituency parsing) هم با دادهی زیاد و هم محدود به کار گرفتیم.
#paper #AI #transformers #ml #dl
این رویکرد باعث بهبود چشمگیر در سرعت آموزش، قابلیت پردازش موازی و دقت مدلهای ترجمه ماشینی و سایر وظایف پردازش زبان طبیعی شد و پایهگذار نسل جدیدی از مدلهای زبانی مانند BERT و GPT شد.
قابل ذکره تا به حال نزدیک 185 هزار بار به این مقاله رفرنس داده شده.
متن چکیده به فارسی:
مدلهای غالب در تبدیل توالی (Sequence Transduction) معمولاً بر پایهی شبکههای عصبی بازگشتی (RNN) یا پیچشی (CNN) پیچیده هستند که شامل یک رمزگذار (Encoder) و یک رمزگشا (Decoder) میباشند. بهترین مدلها همچنین از یک مکانیزم توجه (Attention) برای اتصال بین رمزگذار و رمزگشا استفاده میکنند. ما یک معماری ساده و جدید به نام Transformer پیشنهاد میدهیم که تنها بر پایهی مکانیزمهای توجه طراحی شده و بهطور کامل از بازگشت (Recurrence) و پیچش (Convolution) صرفنظر میکند. آزمایشها روی دو وظیفهی ترجمه ماشینی نشان میدهند که این مدلها از نظر کیفیت عملکرد بهتری دارند، در عین حال امکان پردازش موازی بیشتری دارند و زمان آموزش کمتری نیاز دارند.
مدل ما به امتیاز 28.4 BLEU در وظیفهی ترجمهی انگلیسی به آلمانی (WMT 2014) دست یافته است، که بیش از ۲ واحد BLEU بهتر از بهترین نتایج پیشین (حتی مدلهای ترکیبی) است. همچنین در وظیفهی ترجمهی انگلیسی به فرانسوی (WMT 2014)، مدل ما با امتیاز 41.8 BLEU یک رکورد جدید برای مدلهای تکی ثبت میکند، آن هم تنها پس از ۳.۵ روز آموزش با ۸ کارت گرافیک، که بخش کوچکی از هزینهی آموزشی مدلهای پیشرفتهی موجود در ادبیات علمی است. ما همچنین نشان میدهیم که Transformer قابلیت تعمیم خوبی به وظایف دیگر دارد، چرا که آن را با موفقیت روی تجزیهی نحوی انگلیسی (English constituency parsing) هم با دادهی زیاد و هم محدود به کار گرفتیم.
#paper #AI #transformers #ml #dl
🔥7💔2