معرفی مدل زبانی Mistral 7B
استارتاپ فرانسوی Mistral مدل بزرگ زبانی (LLM) خود موسوم به Mistral 7B را تحت لایسنس Apache 2.0 به صورت عمومی منتشر کرد. طبق ادعای این استارتاپ این مدل نسبت به مدلهای مشابه (از نظر سایز) نظیر Llama 2 13B و Llama 1 34B بهتر عمل میکند. برای تسکهای برنامهنویسی نیز عملکرد مشابه مدل CodeLlama 7B دارد. تقریباً هیچ اقدام جدی برای ایمنی این مدل انجام نشده و طبق نمونههای منتشر شده در پلتفرم ایکس (توئیتر) میتوان به راحتی از آن برای تولید محتوای نژاد پرستی و یا راهنمای خودکشی استفاده کرد. البته Mistral اعلام کرده که این نسخه اولیه بوده که در اسرع وقت ریلیز شده و در آینده اقدامات لازم برای افزایش ایمنی این مدل را انجام خواهد داد. بنابر ادعای این استارت مدل Mistral 7B تنها طی ۳ ماه کار فشرده توسعه داده شده است. تمرکز این استارتاپ در حوزه هوشمصنوعی مولد بوده و قصد دارد محصولات خود را به صورت اپنسورس در اختیار عموم قرار دهد.
👈 برای مطالعه جزئیات بیشتر به اینجا مراجعه کنید.
#mistral
#llm
@dumannewsletter
استارتاپ فرانسوی Mistral مدل بزرگ زبانی (LLM) خود موسوم به Mistral 7B را تحت لایسنس Apache 2.0 به صورت عمومی منتشر کرد. طبق ادعای این استارتاپ این مدل نسبت به مدلهای مشابه (از نظر سایز) نظیر Llama 2 13B و Llama 1 34B بهتر عمل میکند. برای تسکهای برنامهنویسی نیز عملکرد مشابه مدل CodeLlama 7B دارد. تقریباً هیچ اقدام جدی برای ایمنی این مدل انجام نشده و طبق نمونههای منتشر شده در پلتفرم ایکس (توئیتر) میتوان به راحتی از آن برای تولید محتوای نژاد پرستی و یا راهنمای خودکشی استفاده کرد. البته Mistral اعلام کرده که این نسخه اولیه بوده که در اسرع وقت ریلیز شده و در آینده اقدامات لازم برای افزایش ایمنی این مدل را انجام خواهد داد. بنابر ادعای این استارت مدل Mistral 7B تنها طی ۳ ماه کار فشرده توسعه داده شده است. تمرکز این استارتاپ در حوزه هوشمصنوعی مولد بوده و قصد دارد محصولات خود را به صورت اپنسورس در اختیار عموم قرار دهد.
👈 برای مطالعه جزئیات بیشتر به اینجا مراجعه کنید.
#mistral
#llm
@dumannewsletter
معرفی مدل زبانی Stable LM 3B توسط Stability AI
شرکت Stability AI مدل کوچک زبانی Stable LM 3B با ۳ میلیارد پارامتر را معرفی کرد. برخلاف مدلهای رایج که تعداد پارامترهای بسیار بیشتری دارند و برای اجرا به سختافزار قدرتمندی نیاز دارند، این مدل برای لپتاپ و تلفنهای همراه که منابع پردازشی کمتری دارند توسعه داده شده است. بنابر ادعای Stability AI این مدل توانایی رقابت با مدلهای ۷ میلیارد پارامتری معرفی شده را دارد. وجود چنین مدلهایی میتواند به افراد و کسبوکارهای کوچک برای بهرهبرداری از قابلیتهای مدلهای زبانی کمک بسزایی کند. Stable LM 3B به عنوان مدل پایه منتشر شده و برای کاربردهای خاص نظیر چتبات و برنامهنویسی باید fine tune شود. قابل ذکر است این مدل به صورت اپنسورس تحت لایسنس CC-By-SA 4.0 از طریق HuggingFace در دسترس عموم قرار گرفته است.
#llm
#stable_lm_3b
#stability_ai
@dumannewsletter
شرکت Stability AI مدل کوچک زبانی Stable LM 3B با ۳ میلیارد پارامتر را معرفی کرد. برخلاف مدلهای رایج که تعداد پارامترهای بسیار بیشتری دارند و برای اجرا به سختافزار قدرتمندی نیاز دارند، این مدل برای لپتاپ و تلفنهای همراه که منابع پردازشی کمتری دارند توسعه داده شده است. بنابر ادعای Stability AI این مدل توانایی رقابت با مدلهای ۷ میلیارد پارامتری معرفی شده را دارد. وجود چنین مدلهایی میتواند به افراد و کسبوکارهای کوچک برای بهرهبرداری از قابلیتهای مدلهای زبانی کمک بسزایی کند. Stable LM 3B به عنوان مدل پایه منتشر شده و برای کاربردهای خاص نظیر چتبات و برنامهنویسی باید fine tune شود. قابل ذکر است این مدل به صورت اپنسورس تحت لایسنس CC-By-SA 4.0 از طریق HuggingFace در دسترس عموم قرار گرفته است.
#llm
#stable_lm_3b
#stability_ai
@dumannewsletter
انتشار مدل Fuyu-8B به صورت اپنسورس
مدل کوچک Fuyu-8B توسط تیم Adept به صورت اپنسورس تحت لایسنس CC-BY-NC منتشر شد. Fuyu-8B یک دیکدر ترنسفورمر است که ورودی عکس و متن را گرفته و خروجی متن بازمیگرداند. تصویر فوق کپشن پیشنهادی Fuyu برای یک تصویر است. برای مطالعه جزئیات فنی به اینجا و برای دسترسی به مدل در HuggingFace به اینجا مراجعه کنید.
#llm
#fuyu8b
@dumannewsletter
مدل کوچک Fuyu-8B توسط تیم Adept به صورت اپنسورس تحت لایسنس CC-BY-NC منتشر شد. Fuyu-8B یک دیکدر ترنسفورمر است که ورودی عکس و متن را گرفته و خروجی متن بازمیگرداند. تصویر فوق کپشن پیشنهادی Fuyu برای یک تصویر است. برای مطالعه جزئیات فنی به اینجا و برای دسترسی به مدل در HuggingFace به اینجا مراجعه کنید.
#llm
#fuyu8b
@dumannewsletter
دیدگاه Andrej Karpathy در مورد AGI
آندره کارپاسی (Andrej Karpathy) از متخصصان برجسته هوشمصنوعی در گفتوگوی اخیرش دیدگاه خود درباره رسیدن به AGI را مطرح کرد. براساس دیدگاه آندره، مسیر رسیدن به AGI از LLM OS میگذرد. ایده LLM OS را آندره اولین بار در توئیتر اعلام کرد (اینجا را بخوانید) که بسیار مورد توجه قرار گرفت. براساس این ایده، LLM به عنوان کرنل با سایر ماژولهای جانبی در تعامل است (اینجا را بخوانید). برای مشاهده ویدئوی کامل اینجا را ببینید.
آندره کارپاسی از دانشگاه استنفورد در زمینه هوشمصنوعی مدرک دکتری گرفته و در سالهای اخیر با تسلا و OpenAI همکاری داشته است.
#andrej_karpathy
#agi
#llm_os
@dumannewsletter
آندره کارپاسی (Andrej Karpathy) از متخصصان برجسته هوشمصنوعی در گفتوگوی اخیرش دیدگاه خود درباره رسیدن به AGI را مطرح کرد. براساس دیدگاه آندره، مسیر رسیدن به AGI از LLM OS میگذرد. ایده LLM OS را آندره اولین بار در توئیتر اعلام کرد (اینجا را بخوانید) که بسیار مورد توجه قرار گرفت. براساس این ایده، LLM به عنوان کرنل با سایر ماژولهای جانبی در تعامل است (اینجا را بخوانید). برای مشاهده ویدئوی کامل اینجا را ببینید.
آندره کارپاسی از دانشگاه استنفورد در زمینه هوشمصنوعی مدرک دکتری گرفته و در سالهای اخیر با تسلا و OpenAI همکاری داشته است.
#andrej_karpathy
#agi
#llm_os
@dumannewsletter