Code By Me

‍ ‏چرا DeepSeek دنیای هوش مصنوعی را شوکه کرده است؟

طی چند روز گذشته دو مدل هوش مصنوعی از یک شرکت چینی نام DeepSeek سروصدای زیادی به راه‌انداخته و حتی بازار بورس دنیا را تکان داده است.

برای مثال، سهام شرکت انویدیا نزدیک به ۶۰۰ میلیارد دلار اُفت کرده که بزرگ‌ترین سقوط آزاد در تاریخ بورس جهان به شمار می‌آید! (هرچند تا اینجا حدود ۲۶۰ میلیارد از سقوط اولیه دوباره بازگشته).

اما مگر دیپ سیک (DeepSeek) با مدل‌های زبانی جدیدش که به نام‌های R1 و V3 شناخته می‌شوند، چه کرده که چنین موجی به راه افتاده؟ جالب است بدانید این شرکت تازه حدود یک سال قبل تاسیس شده است!

اینجا سعی می‌کنیم به طور خلاصه و به زبان ساده موضوع را شرح دهیم و برای این کار از توضیحات آقای مورگان براون (مدیر هوش مصنوعی شرکت دراپ باکس) هم کمک می‌گیریم:

در حال حاضر آموزش‌ (train) مدل‌های هوش مصنوعی بسیار پرهزینه است. مثلا شرکت‌هایی مانند OpenAI صدها میلیون دلار صرف دیتاسنترها و زیرساخت‌های سخت‌افزاری می‌کنند. در هر کدام از این دیتاسنترها هزاران پردازشگر گرانقیمت (ساخت شرکت انویدیا) قرار دارد.

اما شرکت دیپ سیک ناگهان از راه رسید و بازی را عوض کرد: آنها نشان دادند که می‌توان یک کار ‍۱۰۰ میلیون دلاری را با ۵ میلیون دلار انجام داد و به نتیجه‌ای بسیار نزدیک دست یافت.

مدل ارائه شده‌ی آنها در بسیاری از کارها از GPT-4 و Claude بهتر عمل کرده و این دنیای هوش مصنوعی را تکان داده است.

آنها در فرایند تولید مدل جدید، همه چیز را از زاویه‌ی متفاوتی نسبت به روش‌های فعلی دیده‌اند:

مدل آنها ۷۵ درصد حافظه‌ی کمتری مصرف می‌کند و از سیستمی به نام multi-token استفاده می‌کند.

مدل‌های فعلی مانند بچه‌ی کلاس اولی کار می‌کنند: آنها متن‌ها را به صورت کلمه به کلمه می‌خوانند. اما دیپ سیک عبارات طولانی‌تر و جملات را می‌بینید و به همین خاطر دو برابر سریع‌تر است و با این حال به اندازه ۹۰ درصد هم دقت دارد.

دیپ سیک یک کار هوشمندانه‌ی دیگر هم انجام داده: مدل‌های فعلی «همه کاره» هستند و می‌توانند همزمان در نقش پزشک، معمار و برنامه نویس عمل کنند. به همین خاطر مثلا ۱.۸ تریلیون پارامتر فعال دارند.

اما دیپ سیک وظایف تخصصی را از هم جدا کرده‌ و فقط هنگام نیاز از آنها استفاده می‌کند.

نتیجه این شده که هزینه آموزش مدل از ۱۰۰ میلیون دلار به ۵ میلیون رسیده. تعداد پردازشگرهای مورد نیاز از ۱۰۰ هزار به ۲ هزار رسیده و هزینه API هم حدود ۹۵ درصد ارزان‌تر شده است.

مدل جدید خبر خوبی برای شرکت انویدیا نیست، چون رشد فوق العاده‌ی این شرکت مرهون نیاز مدل‌های هوش مصنوعی به پردازشگرهای متعدد و گران است.

دیپ سیک طراحی مدل جدید را با یک تیم کوچک ۲۰۰ نفره انجام داده، در حالی که در شرکت‌های بزرگ «سیلیکون ولی» تیم‌های بزرگی روی مدل‌ها کار می‌کنند.

جالب است بدانید که طی همین چند روزی که از ارائه دیپ سیک گذشته، اپلیکیشن آن در اپ استور اپل در قسمت اپلیکیشن‌های رایگان به رتبه اول ارتقا پیدا کرده و «چت جی‌پی‌تی» و گوگل جمنای در جایگاه دوم و سوم قرار گرفته‌اند!

البته پشت سر این شرکت، حرف‌هایی هم زده می‌شود. برای مثال برخی کارشناسان می‌گویند که هزینه آموزش مدل این شرکت خیلی بیشتر از ۵ میلیون دلار ادعا شده است.

اما با وجود همه این حرف‌ها، دیپ سیک بازی را عوض کرده و اکنون رقابت بسیار جدی‌تر شده و البته نتیجه‌ی آن به نفع مصرف‌کنندگان خواهد بود و قاعدتا بازیگران بزرگ هوش مصنوعی هم از نوآوری‌های دیپ سیک استفاده خواهند کرد. چون مهم‌ترین لطف دیپ سیک این بوده که مدل‌هایش را به صورت اوپن سورس یا «متن باز» ارائه کرده است.

@codebyme

👍7❤3

893 viewsedited 12:35