OpenAI Unveils 175 Billion Parameter GPT-3 Language Model
https://medium.com/@Synced/openai-unveils-175-billion-parameter-gpt-3-language-model-3d3f453124cd
#NLP #GPT-3
@ml_nlp_cv
https://medium.com/@Synced/openai-unveils-175-billion-parameter-gpt-3-language-model-3d3f453124cd
#NLP #GPT-3
@ml_nlp_cv
Medium
OpenAI Unveils 175 Billion Parameter GPT-3 Language Model
OpenAI announced the upgraded GPT-3 with a whopping 175 billion parameters.
GPT-3: The First Artificial General Intelligence?
https://towardsdatascience.com/gpt-3-the-first-artificial-general-intelligence-b8d9b38557a1
#NLP #GPT_3 #AI
@ml_nlp_cv
https://towardsdatascience.com/gpt-3-the-first-artificial-general-intelligence-b8d9b38557a1
#NLP #GPT_3 #AI
@ml_nlp_cv
Medium
GPT-3: The First Artificial General Intelligence?
When historians look back, will they single 2020 as the year AGI was invented?
“What’s the next big trend in programming? Maybe it’s sloppy programming” — Guy Steele on the Future of Programming Languages
https://medium.com/intuitionmachine/why-gpt-3-feels-like-programming-bf9d854c1d82
#GPT_3 #programming
@ml_nlp_cv
https://medium.com/intuitionmachine/why-gpt-3-feels-like-programming-bf9d854c1d82
#GPT_3 #programming
@ml_nlp_cv
Medium
Why GPT-3 feels like Programming
“What’s the next big trend in programming? Maybe it’s sloppy programming” — Guy Steele on the Future of Programming Languages
📝 در مورد کارایی ترسفورمرها و تحولاتی که ایجاد کردن میدونیم. مثلا اینکه منجر به ساخت مدل زبانی قدرتمند #GPT_3 (با اون کاربردهای وحشتناکش!) شدن. حتی کاربرد ترسفورمرها به حوزه پردازش تصویر هم کشیده شده...
اما مطمئنا براتون جالب خواهد بود که بدونید مکانیزم توجه استفاده شده در ترسفورمرها، چطور کار میکنه. سوالی که در مقاله زیر به زیبایی بهش پاسخ داده میشه: 👌
📘https://arxiv.org/abs/2008.02217
#transformers #attention_mechanism #BERT_models #NLP
@ml_nlp_cv
اما مطمئنا براتون جالب خواهد بود که بدونید مکانیزم توجه استفاده شده در ترسفورمرها، چطور کار میکنه. سوالی که در مقاله زیر به زیبایی بهش پاسخ داده میشه: 👌
📘https://arxiv.org/abs/2008.02217
#transformers #attention_mechanism #BERT_models #NLP
@ml_nlp_cv
می بینیم که اخیراً با مدل زبانی GPT_3 (و سایر مدلهای زبانی) دارند هوش مصنوعی های فوق العاده ای رو توسعه می دهند. هوش مصنوعی هایی که حائز AGI هستن (عملکردشون قابل تمایز از انسان نیست) و...
اما زمانی که بخواهیم هوش مصنوعی مان بهره ای از common sense (عقل سلیم) هم برده باشد، زبان جای مناسبی برای شروع نیست. در مقالهٔ زیر که در مجلهٔ Cell چاپ شده، نویسندگان بحث کرده اند که بر اساس تعامل یک هوشمندیِ دارای بدن، با یک محیط سه بعدیِ حاوی اشیاء است که می توان عقل سلیم را تعریف کرد!
https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(20)30216-3
#AI #Common_Sense #cognitive_science #Reasoning
#GPT_3 #AGI
@ml_nlp_cv
اما زمانی که بخواهیم هوش مصنوعی مان بهره ای از common sense (عقل سلیم) هم برده باشد، زبان جای مناسبی برای شروع نیست. در مقالهٔ زیر که در مجلهٔ Cell چاپ شده، نویسندگان بحث کرده اند که بر اساس تعامل یک هوشمندیِ دارای بدن، با یک محیط سه بعدیِ حاوی اشیاء است که می توان عقل سلیم را تعریف کرد!
https://www.cell.com/trends/cognitive-sciences/fulltext/S1364-6613(20)30216-3
#AI #Common_Sense #cognitive_science #Reasoning
#GPT_3 #AGI
@ml_nlp_cv
Switch Transformers: Scaling to Trillion Parameter Models with Simple and Efficient Sparsity
توضیح مقاله: در عنوان مقاله ذکر شده که تعداد پارامترهای ترسفورمر به یک تریلیون افزایش یافته است (تعداد پارامترهای مدل #GPT_3، صدوهفتاد و پنج بیلیون بود!)
سوالی که در اینجا پیش می آید این است که آیا واقعا تعداد پارامترها، در مقایسه با ترنسفورمرهای قبلی به این نسبت (تقریبا ۵.۵ برابر) افزایش پیدا کرده است؟!
بله، ولی اینجا به روش متفاوتی از پارامترها استفاده میشه. یک روش sparse (در عنوان مقاله هم کلمه sparsity قید شده)
در این کار از یک معماری به اسم Switch-Tramsformers استفاده کرده اند. معماری که بر اساس MoE عمل میکنه (خود MoE یا Mixture of Experts هم مفهوم با ارزشی است که اخیرا داره مطرح میشه)
لایه فیدفوروارد شبکه به این expert ها تقسیم بندی میشه و سوئیچ-ترنسفورمر، هر توکِن رو فقط به یک اکسپرت route میکنه (اسپارسیتی یا تُنُک بودن اینجا هست)
روشهای قبلی مبتنی بر MoE ادعا میکردند برای اینکه یک سیگنال آموزشی باثبات داشته باشیم حداقل به دو تا expert نیاز داریم. اما معماری ترسفورمری که اینجا ارائه شده این تعداد را به یک عدد کاهش داده است.
نتیجه: امکان scaling اکسپرت ها، و در واقع امکان افزایش تعداد پارامترهای مدل، اون هم بدون اینکه مدل مجبور به محاسبات بیشتری باشد، فراهم شده است (این فرض و مفهومی خیلی مهم و باارزش محسوب می شود)
به همین دلیل در ابتدا عرض شد که تعداد یک تریلیون پارامتر عنوان شده در این مقاله، لزوما قابل قیاس با ۱۷۵ بیلیون پارامتر مدل GPT-3 نمیباشد!
راهکارهایی که در این مقاله برای با ثبات کردن آموزش ارائه شده:
• Selective Dropout
• Selective Casting of Parameters to Defferent Precisions
• Better initializiong
اینم لینک این مقاله جالب و نسبتا طولانی، تقدیم به شما:
https://arxiv.org/abs/2101.03961
@ml_nlp_cv
توضیح مقاله: در عنوان مقاله ذکر شده که تعداد پارامترهای ترسفورمر به یک تریلیون افزایش یافته است (تعداد پارامترهای مدل #GPT_3، صدوهفتاد و پنج بیلیون بود!)
سوالی که در اینجا پیش می آید این است که آیا واقعا تعداد پارامترها، در مقایسه با ترنسفورمرهای قبلی به این نسبت (تقریبا ۵.۵ برابر) افزایش پیدا کرده است؟!
بله، ولی اینجا به روش متفاوتی از پارامترها استفاده میشه. یک روش sparse (در عنوان مقاله هم کلمه sparsity قید شده)
در این کار از یک معماری به اسم Switch-Tramsformers استفاده کرده اند. معماری که بر اساس MoE عمل میکنه (خود MoE یا Mixture of Experts هم مفهوم با ارزشی است که اخیرا داره مطرح میشه)
لایه فیدفوروارد شبکه به این expert ها تقسیم بندی میشه و سوئیچ-ترنسفورمر، هر توکِن رو فقط به یک اکسپرت route میکنه (اسپارسیتی یا تُنُک بودن اینجا هست)
روشهای قبلی مبتنی بر MoE ادعا میکردند برای اینکه یک سیگنال آموزشی باثبات داشته باشیم حداقل به دو تا expert نیاز داریم. اما معماری ترسفورمری که اینجا ارائه شده این تعداد را به یک عدد کاهش داده است.
نتیجه: امکان scaling اکسپرت ها، و در واقع امکان افزایش تعداد پارامترهای مدل، اون هم بدون اینکه مدل مجبور به محاسبات بیشتری باشد، فراهم شده است (این فرض و مفهومی خیلی مهم و باارزش محسوب می شود)
به همین دلیل در ابتدا عرض شد که تعداد یک تریلیون پارامتر عنوان شده در این مقاله، لزوما قابل قیاس با ۱۷۵ بیلیون پارامتر مدل GPT-3 نمیباشد!
راهکارهایی که در این مقاله برای با ثبات کردن آموزش ارائه شده:
• Selective Dropout
• Selective Casting of Parameters to Defferent Precisions
• Better initializiong
اینم لینک این مقاله جالب و نسبتا طولانی، تقدیم به شما:
https://arxiv.org/abs/2101.03961
@ml_nlp_cv
توضیح خیلی خوب و روان مدل #GPT_3، و معرفی پنج ابزار مبتنی بر این مدل برای تولید محتوا، تولید متون تبلیغاتی و بازاریابی:
https://techpp.com/2021/01/28/gpt-3-tools-for-copywriting
@ml_nlp_cv
https://techpp.com/2021/01/28/gpt-3-tools-for-copywriting
@ml_nlp_cv
TechPP
GPT-3 for Copywriting: What is it and What are the Best GPT-3 Tools for Copywriting - TechPP
If you've been keeping an eye on GPT-3 and are interested in trying it out for your copywriting needs, here are some of the best GPT-3 tools to help you with different content generation needs.
This media is not supported in your browser
VIEW IN TELEGRAM
From conversation to code: Microsoft introduces its first product features powered by #GPT-3
https://blogs.microsoft.com/ai/from-conversation-to-code-microsoft-introduces-its-first-product-features-powered-by-gpt-3/
@ml_nlp_cv
https://blogs.microsoft.com/ai/from-conversation-to-code-microsoft-introduces-its-first-product-features-powered-by-gpt-3/
@ml_nlp_cv
در مورد کاربردهای #gpt_3 بسیار گفتهایم. یکی دیگر از موارد استفاده کاربردی و جالباش را میتوانید اینجا ملاحظه کنید.
#nlp #nlu
@ml_nlp_cv
#nlp #nlu
@ml_nlp_cv
There is a claim that #ChatGPT is capable of writing a code based on a text input
Why does it matter: it potentially can lower the barrier for programmers and allow more tools for efficient software development to emerge.
Source: tweet
#GPT_3 #NLU #NLP #codegeneration
@ml_nlp_cv
Why does it matter: it potentially can lower the barrier for programmers and allow more tools for efficient software development to emerge.
Source: tweet
#GPT_3 #NLU #NLP #codegeneration
@ml_nlp_cv
یک دوره بسیار ارزشمند برای علاقهمندان هوش مصنوعی:
دوره "مدل های بزرگ زبانی" یا "LLMs"
مدرسان: دکتر محمدحسین رهبان، دکتر مهدیه سلیمانی و دکتر احسانالدین عسگری
کیفیت این دوره خیلی بالاست و به شکل جامعی به موارد متنوعی پرداخته از جمله معماری، تکنیکهای آموزشی و کاربردهای مدلهای زبانی بزرگ، #یادگیری_چندوجهی، فرآیندهای جمعآوری داده و روشهای #PEFT)
صفحه اصلی دوره شامل ویدیوهای کلاس، اسلایدها و تمرینها:
sharif-llm.ir
سرفصلهای دوره
ویدیوهای دوره
#معرفی_دوره #course #مبدل #سلیمانی #GPT_3 #مراجع #LLM #شریف #رهبان
#منابع #Transformer
@ml_nlp_cv
دوره "مدل های بزرگ زبانی" یا "LLMs"
مدرسان: دکتر محمدحسین رهبان، دکتر مهدیه سلیمانی و دکتر احسانالدین عسگری
کیفیت این دوره خیلی بالاست و به شکل جامعی به موارد متنوعی پرداخته از جمله معماری، تکنیکهای آموزشی و کاربردهای مدلهای زبانی بزرگ، #یادگیری_چندوجهی، فرآیندهای جمعآوری داده و روشهای #PEFT)
صفحه اصلی دوره شامل ویدیوهای کلاس، اسلایدها و تمرینها:
sharif-llm.ir
سرفصلهای دوره
ویدیوهای دوره
#معرفی_دوره #course #مبدل #سلیمانی #GPT_3 #مراجع #LLM #شریف #رهبان
#منابع #Transformer
@ml_nlp_cv
LLM Course
About
Course policies and information.