Machine Learning NLP + CV
286 subscribers
223 photos
53 videos
42 files
474 links
مطالب مفید در حوزه های یادگیری ماشین و بینایی کامپیوتر
Download Telegram
📝 در مورد کارایی ترسفورمرها و تحولاتی که ایجاد کردن میدونیم. مثلا اینکه منجر به ساخت مدل زبانی قدرتمند #GPT_3 (با اون کاربردهای وحشتناکش!) شدن. حتی کاربرد ترسفورمرها به حوزه پردازش تصویر هم کشیده شده...
اما مطمئنا براتون جالب خواهد بود که بدونید مکانیزم توجه استفاده شده در ترسفورمرها، چطور کار میکنه. سوالی که در مقاله زیر به زیبایی بهش پاسخ داده میشه: 👌

📘https://arxiv.org/abs/2008.02217

#transformers #attention_mechanism #BERT_models #NLP

@ml_nlp_cv
می بینیم که اخیراً با مدل زبانی GPT_3 (و سایر مدلهای زبانی) دارند هوش مصنوعی های فوق العاده ای رو توسعه می دهند. هوش مصنوعی هایی که حائز AGI هستن (عملکردشون قابل تمایز از انسان نیست) و...

اما زمانی که بخواهیم هوش مصنوعی مان بهره ای از common sense (عقل سلیم) هم برده باشد، زبان جای مناسبی برای شروع نیست. در مقالهٔ زیر که در مجلهٔ Cell چاپ شده، نویسندگان بحث کرده اند که بر اساس تعامل یک هوشمندیِ دارای بدن، با یک محیط سه بعدیِ حاوی اشیاء است که می توان عقل سلیم را تعریف کرد!

https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(20)30216-3

#AI #Common_Sense #cognitive_science #Reasoning
#GPT_3 #AGI

@ml_nlp_cv
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity

توضیح مقاله: در عنوان مقاله ذکر شده که تعداد پارامترهای ترسفورمر به یک تریلیون افزایش یافته است (تعداد پارامترهای مدل #GPT_3، صدوهفتاد و پنج بیلیون بود!)
سوالی که در اینجا پیش می آید این است که آیا واقعا تعداد پارامترها، در مقایسه با ترنسفورمرهای قبلی به این نسبت (تقریبا ۵.۵ برابر) افزایش پیدا کرده است؟!
بله، ولی اینجا به روش متفاوتی از پارامترها استفاده میشه. یک روش sparse (در عنوان مقاله هم کلمه sparsity قید شده)

در این کار از یک معماری به اسم Switch-Tramsformers استفاده کرده اند. معماری که بر اساس MoE عمل میکنه‌ (خود MoE یا Mixture of Experts هم مفهوم با ارزشی است که اخیرا داره مطرح میشه)
لایه فیدفوروارد شبکه به این expert ها تقسیم بندی میشه و سوئیچ-ترنسفورمر، هر توکِن رو فقط به یک اکسپرت route میکنه (اسپارسیتی یا تُنُک بودن اینجا هست)
روشهای قبلی مبتنی بر MoE ادعا میکردند برای اینکه یک سیگنال آموزشی باثبات داشته باشیم حداقل به دو تا expert نیاز داریم. اما معماری ترسفورمری که اینجا ارائه شده این تعداد را به یک عدد کاهش داده است.
نتیجه: امکان scaling اکسپرت ها، و در واقع امکان افزایش تعداد پارامترهای مدل، اون هم بدون اینکه مدل مجبور به محاسبات بیشتری باشد، فراهم شده است (این فرض و مفهومی خیلی مهم و باارزش محسوب می شود)
به همین دلیل در ابتدا عرض شد که تعداد یک تریلیون پارامتر عنوان شده در این مقاله، لزوما قابل قیاس با ۱۷۵ بیلیون پارامتر مدل GPT-3 نمیباشد!
راهکارهایی که در این مقاله برای با ثبات کردن آموزش ارائه شده:
• Selective Dropout
• Selective Casting of Parameters to Defferent Precisions
• Better initializiong

اینم لینک این مقاله جالب و نسبتا طولانی، تقدیم به شما:

https://arxiv.org/abs/2101.03961

@ml_nlp_cv
در مورد کاربردهای #gpt_3 بسیار گفته‌ایم. یکی دیگر از موارد استفاده کاربردی و جالب‌اش را می‌توانید اینجا ملاحظه کنید.

#nlp #nlu

@ml_nlp_cv
There is a claim that #ChatGPT is capable of writing a code based on a text input

Why does it matter: it potentially can lower the barrier for programmers and allow more tools for efficient software development to emerge.

Source: tweet

#GPT_3 #NLU #NLP #codegeneration

@ml_nlp_cv
یک دوره بسیار ارزشمند برای علاقه‌مندان هوش مصنوعی:

دوره "مدل های بزرگ زبانی" یا "LLMs"

مدرسان: دکتر محمدحسین رهبان، دکتر مهدیه سلیمانی و دکتر  احسان‌الدین عسگری

کیفیت این دوره خیلی بالاست و به شکل جامعی به موارد متنوعی پرداخته از جمله معماری، تکنیک‌های آموزشی و کاربردهای مدل‌های زبانی بزرگ، #یادگیری_چندوجهی، فرآیند‌های جمع‌آوری داده و روش‌های #PEFT)

صفحه اصلی دوره شامل ویدیوهای کلاس، اسلایدها و تمرین‌ها:
sharif-llm.ir

سرفصل‌های دوره

ویدیوهای‌ دوره

#معرفی_دوره #course  #مبدل #سلیمانی #GPT_3 #مراجع #LLM #شریف #رهبان
#منابع  #Transformer

@ml_nlp_cv