AI Pulse
3.74K subscribers
397 photos
137 videos
5 files
138 links
اخبار، اموزش و معرفی ابزارهای هوش مصنوعی
Download Telegram
شرکت OpenAI از دستیابی به یک پیشرفت چشمگیر در توانایی استدلال مدل‌های زبانی خودش در حل مسائل پیچیده ریاضی خبر داده؛ موفقیتی که می‌تونه یکی از جدی‌ترین گام‌ها در مسیر رسیدن به هوش مصنوعی عمومی (AGI) تلقی بشه. مدل آزمایشی OpenAI موفق شده در رقابت رسمی المپیاد جهانی ریاضی ۲۰۲۵، پنج مسئله از شش مسئله اصلی رو حل کنه و با کسب ۳۵ امتیاز از مجموع ۴۲، به سطح مدال طلا برسه. این اولین‌باریه که یک مدل هوش مصنوعی به چنین سطحی در یکی از دشوارترین آزمون‌های ریاضی جهان می‌رسه. تمام پاسخ‌ها به زبان طبیعی نوشته شدن، هیچ ابزاری استفاده نشده و داوری هم به‌صورت ناشناس توسط مدال‌آوران سابق IMO انجام شده.

نکته مهم اینجاست که برخلاف مدل‌هایی مثل AlphaGeometry که به‌طور خاص برای ریاضی طراحی شدن، مدل OpenAI یه مدل عمومی برای استدلال و زبان محسوب می‌شه و از هیچ روش مهندسی‌شده‌ای برای حل این مسائل استفاده نکرده. به گفته الکساندر وی، سرپرست تیم تحقیقاتی این پروژه، این دستاورد نتیجه به‌کارگیری تکنیک‌های جدید در یادگیری تقویتی عمومی و افزایش توان محاسباتی در زمان اجراست. نوآم براون، یکی دیگه از پژوهشگرهای OpenAI، هم تأیید کرده که این مدل بر پایه روش‌هایی آزمایشی ساخته شده و هنوز جای زیادی برای ارتقاء داره.

جری توورک، پژوهشگر دیگه OpenAI، گفته که این مدل هیچ آموزش اختصاصی برای IMO ندیده و تنها روی مدل پایه عمومی شرکت آموزش بیشتری دیده. او این موفقیت رو یه «پیشرفت واقعی تحقیقاتی» توصیف کرده که توسط تیم وی انجام شده و احتمال داده که نسخه‌ای از این مدل تا پایان سال منتشر بشه. به گفته توورک، همین سیستم یادگیری تقویتی، پشت چندتا از اعلام‌های اخیر OpenAI هم بوده؛ از جمله ایجنت جدید ChatGPT و مدلی که توی یک رقابت برنامه‌نویسی نزدیک‌ترین نتیجه رو به انسان‌ها گرفته.

زمان انتشار این خبر هم قابل توجهه. چند روز قبل، پلتفرم MathArena گزارش داده بود که مدل‌های زبانی معروف مثل Gemini 2.5 Pro، Grok-4، DeepSeek-R1 و حتی مدل‌های o3 و o4-mini متعلق به خود OpenAI، عملکرد بسیار ضعیفی در حل مسائل IMO داشتن و حتی به آستانه مدال برنز هم نرسیدن. این مدل‌ها در آزمون‌ها پر از خطاهای منطقی، راه‌حل‌های ناقص و حتی قضایای ساختگی بودن. در مقایسه با این نتایج، دستاورد OpenAI یه پاسخ مستقیم و پرقدرت به محدودیت‌های فعلی مدل‌های زبانیه.

‏OpenAI فعلاً برنامه‌ای برای انتشار عمومی این مدل نداره و تأکید کرده که این یه پروژه تحقیقاتی‌ه، نه یه محصول نهایی. با این حال، نوآم براون گفته که این فناوری در آینده می‌تونه به محصول تبدیل بشه و با توجه به سرعت پیشرفت، نسخه‌های بعدی حتی فراتر از این هم خواهند رفت. به گفته اون، این نتایج حتی برای کارکنان خود OpenAI هم غافلگیرکننده بوده و می‌تونن نقطه عطفی باشن که خیلی‌ها انتظارش رو تا چند سال دیگه داشتن.

@aipulse24
🔥262👍2
AI Pulse
شرکت OpenAI از دستیابی به یک پیشرفت چشمگیر در توانایی استدلال مدل‌های زبانی خودش در حل مسائل پیچیده ریاضی خبر داده؛ موفقیتی که می‌تونه یکی از جدی‌ترین گام‌ها در مسیر رسیدن به هوش مصنوعی عمومی (AGI) تلقی بشه. مدل آزمایشی OpenAI موفق شده در رقابت رسمی المپیاد…
حالا توی این بحبوحه یه اتفاق جالب هم افتاده، ظاهرا گوگل حتی یک روز قبل از OpenAI مدال طلا رو گرفته ولی اعلام نکردن!
تا این لحظه هم هیچ مطلبی درموردش روی وبسایت دیپ‌مایند یا جای دیگه‌ای قرار ندادن.

@aipulse24
🔥22😁5👍3
AI Pulse
حالا توی این بحبوحه یه اتفاق جالب هم افتاده، ظاهرا گوگل حتی یک روز قبل از OpenAI مدال طلا رو گرفته ولی اعلام نکردن! تا این لحظه هم هیچ مطلبی درموردش روی وبسایت دیپ‌مایند یا جای دیگه‌ای قرار ندادن. @aipulse24
فعلا ۲تا تئوری داره توی تویتر راجع به این میچرخه:

۱. موسسه المپیاد ریاضی از هردو این ها خواسته بوده که اجازه بدن تا توجه ها روی موفقیت بچه های رقابت کننده باقی بمونه و تا پایان مراسم اعلام نکنن گوگل به این درخواست متعهد مونده و اعلام نکرده ولی openai گوش نداده و زودتر اعلام کرده

۲. گمانه زنی دوم اینه که گوگل خبر رو فرستاده واسه تیم مارکتینگ و تا اونا برای انتشار و نحوه انتشار تایید های نهایی رو بدن openai اعلام کرده و توجه هارو به خودش جلب کرده
👍24
AI Pulse
حالا توی این بحبوحه یه اتفاق جالب هم افتاده، ظاهرا گوگل حتی یک روز قبل از OpenAI مدال طلا رو گرفته ولی اعلام نکردن! تا این لحظه هم هیچ مطلبی درموردش روی وبسایت دیپ‌مایند یا جای دیگه‌ای قرار ندادن. @aipulse24
دیپ مایند بالاخره به صورت رسمی کسب مدال طلای المپیاد ریاضی رو اعلام کرده.

به دنبال اون دمیس هاسابیس هم در توییتر توضیحاتی در این مورد داده، اون گفته ما روز جمعه اعلام نکردیم چون به درخواست اولیهٔ هیئت برگزاری المپیاد جهانی ریاضی (IMO) احترام گذاشتیم؛ درخواستی که گفته بود همهٔ آزمایشگاه‌های هوش مصنوعی نتایجشون رو فقط بعد از این منتشر کنن که نتایج رسمی توسط کارشناسان مستقل تأیید شده باشه و شرکت کننده‌ها تحسینی که شایسته‌اش بودن رو به‌درستی دریافت کرده باشن.

الان بهمون اجازه داده شده که نتایجمون رو منتشر کنیم و خوشحالیم که یکی از اولین گروه هایی بودیم که نتایج مدل‌هامون به‌صورت رسمی توسط کارشناسان IMO ارزیابی و تأیید شده و موفق به دریافت اولین مدال طلای رسمی برای یک سیستم هوش مصنوعی شدیم.


@aipulse24
🫡297👍5🤯1😭1
شرکت Runway ازAct-Two رونمایی کرده که نسخه پیشرفته‌تری از فناوری قبلی این شرکت یعنی Act-One به شمار می‌ره. این ابزار به کاربر اجازه می‌ده با ترکیب یک ویدیوی اجرا (شامل حرکت، حالت چهره و گفتار) با تصویر یا ویدیویی از یک شخصیت، خروجی‌هایی واقع‌گرایانه و متحرک تولید کنه. Act-Two برای تصویرهای شخصیت، به‌طور خودکار حرکات محیطی مثل لرزش دوربین رو اضافه می‌کنه و امکان کنترل حرکات بدن و دست‌ها از طریق ویدیوی اجرا رو هم فراهم کرده.

این ابزار از طریق نسخه وب در دسترسه و خروجی‌ها رو با نسبت‌های مختلف تصویری و نرخ فریم ۲۴ فریم بر ثانیه تولید می‌کنه. هزینه استفاده از Act-Two برابر با ۵ کردیت به ازای هر ثانیه و با حداقل زمان ۳ ثانیه (۱۵ کردیت) تعیین شده. کاربران می‌تونن تنظیماتی مثل شدت حالت‌های چهره و فعال یا غیرفعال بودن کنترل حرکات بدن رو هم پیش از تولید مشخص کنن. به‌گفته Runway، این ابزار در کنترل دقیق‌تر ژست‌ها، پشتیبانی از شخصیت‌های غیرانسانی و ترکیب سبک‌های متنوع، نسبت به نسخه قبلی خودش پیشرفت قابل توجهی داشته.

@aipulse24
12🔥5👍4
شرکت انتروپیک اعلام کرده که بعضی از کاربران Claude Code به‌طور ۲۴ ساعته از این ابزار استفاده می‌کنن و حجم بالایی از منابع سرور رو مصرف می‌کنن. مثلاً یه کاربر با پلن ۲۰۰ دلاری، ده‌ها هزار دلار مصرف داشته. انتروپیک گفته این استفاده‌ها هرچند جالبه، اما هزینه‌ی سنگینی داره و نمی‌تونن برای همه ادامه‌اش بدن.

از اون طرف، یه عده‌ی دیگه قوانین رو زیر پا گذاشتن و دارن حساب‌ها رو به اشتراک می‌ذارن یا می‌فروشن. این کار باعث شده کیفیت خدمات برای بقیه‌ی کاربرا بیاد پایین و انتروپیک داره جلوی این موارد رو می‌گیره.

بنابراین از تاریخ ۲۸ اوت، محدودیت‌های هفتگی جدیدی اعمال می‌شن تا از این سوءاستفاده‌ها جلوگیری شه و در عین حال، کمترین تأثیر ممکن رو روی بقیه‌ی کاربرا داشته باشه. کاربرای پلن Max هم اگه بخوان، می‌تونن مصرف اضافه رو با نرخ API بخرن.

@aipulse24
👎19👍16🤔2🥰1🖕1🗿1
سم آلتمن، مدیرعامل OpenAI، اخیراً در گفت‌وگویی با تئو وان، کمدین و مجری پادکست This Past Weekend، به نگرانی مهمی درباره حریم خصوصی کاربران چت‌بات‌های هوش مصنوعی اشاره کرده. او گفته که هنوز صنعت هوش مصنوعی نتونسته چارچوب مشخصی برای محافظت از حریم خصوصی گفتگوهای حساس کاربران با ابزارهایی مثل ChatGPT ایجاد کنه، به‌ویژه وقتی پای مسائل عاطفی، روانی یا شخصی وسطه. به‌گفته‌ی آلتمن، چون در حال حاضر برای این نوع گفتگوها هیچ مفهومی مثل «محرمانگی دکتر و بیمار» تعریف نشده، کاربران نباید تصور کنن که صحبت‌هاشون با یک مدل هوش مصنوعی واقعاً امن و شخصیه.

آلتمن توضیح داده که بسیاری از کاربران، به‌خصوص جوان‌ترها، از ChatGPT به‌عنوان مشاور، روان‌درمانگر یا همراه احساسی استفاده می‌کنن و درباره‌ی خصوصی‌ترین جنبه‌های زندگی‌شون باهاش حرف می‌زنن، اما برخلاف گفتگو با پزشک، روان‌شناس یا وکیل، فعلاً هیچ چارچوب قانونی مشخصی برای محافظت از این حرف‌ها وجود نداره. این موضوع می‌تونه در صورت پیگرد قانونی، به ضرر کاربران تموم بشه، چون OpenAI ممکنه مجبور بشه این گفتگوها رو تحویل مراجع قضایی بده که به گفته‌ی آلتمن، این وضعیت می‌تونه جلوی پذیرش گسترده‌تر ابزارهای هوش مصنوعی رو بگیره.

او در ادامه گفته که باید سطح حفاظت از گفتگوهای کاربران با AI به‌اندازه‌ی گفت‌وگو با یک درمانگر بالا بره و تأکید کرده که چنین دغدغه‌ای تا همین یک سال پیش اصلاً مطرح نبود.

در این مصاحبه، وقتی آلتمن از تئو وان پرسید چرا زیاد از ChatGPT استفاده نمی‌کنه، وان گفت که به خاطر نگرانی از حریم خصوصی فعلاً علاقه‌ای نداره. آلتمن هم با این دیدگاه موافقت کرد و گفت منطقیه که قبل از استفاده‌ی جدی، آدم منتظر شفاف‌سازی قانونی بمونه.

@aipulse24
👍216👎3👏2
گوگل در تازه‌ترین به‌روزرسانی اپلیکیشن Gemini، قابلیت جدیدی به نام Deep Think رو برای کاربران پلن «Google AI Ultra» فعال کرده؛ مدلی پیشرفته که توانایی حل مسائل پیچیده علمی و ریاضی رو داره.

این نسخه از مدل Gemini 2.5، با استفاده از روش «تفکر موازی» می‌تونه هم‌زمان چند ایده مختلف رو بررسی و اصلاح کنه و در نهایت به راه‌حل بهینه برسه. جالبه بدونید نسخه کامل این مدل در رقابت‌های المپیاد جهانی ریاضی (IMO) موفق به کسب مدال طلا شده و حالا نسخه سریع‌تر و کاربردی‌ترش در اختیار عموم کاربران حرفه‌ای قرار گرفته.

بر اساس ارزیابی‌های داخلی گوگل، Deep Think توی حل مسائل کدنویسی پیچیده، کشف فرضیات ریاضی، و توسعه مرحله‌ای طراحی و محصول عملکرد چشم‌گیری داشته و در بنچ‌مارک‌هایی مثل LiveCodeBench V6 و Humanity’s Last Exam نتایج خوبی کسب کرده.

این قابلیت فعلاً با محدودیت تعداد درخواست روزانه در دسترس کاربران Ultra هست و به‌زودی از طریق API برای توسعه‌دهنده‌ها هم ارائه می‌شه. گوگل می‌گه این تنها شروع مسیریه که قراره مرزهای تفکر مصنوعی رو جابه‌جا کنه.

@aipulse24
🔥255❤‍🔥3👍1🥴1
شرکت OpenAI امروز دو مدل جدید با وزن‌های باز و قابلیت استدلال پیشرفته معرفی کرده که از نظر عملکرد نزدیک به مدل‌های سری o این شرکت هستن. این مدل‌ها با نام‌های gpt-oss-120b و gpt-oss-20b عرضه شدن و مدل کوچک‌تر این مجموعه برای اجرا روی یک GPU انویدیا یا حتی لپ‌تاپ‌های معمولی با ۱۶ گیگابایت رم بهینه شدن. هر دو مدل به‌صورت رایگان از طریق پلتفرم Hugging Face قابل دانلود هستن و این اولین‌بار از زمان انتشار GPT-2 در سال ۲۰۱۹ هست که OpenAI یک مدل زبانی باز منتشر می‌کنه.

‏OpenAI گفته این مدل‌ها می‌تونن وقتی توان انجام یک وظیفه خاص رو ندارن، درخواست رو به مدل‌های قدرتمندتر و غیر باز خودش در فضای ابری بفرستن. این تصمیم در حالی گرفته شده که این شرکت طی سال‌های اخیر بیشتر به سمت مدل‌های بسته حرکت کرده بود. فشار روزافزون از طرف آزمایشگاه‌های هوش مصنوعی چین مثل DeepSeek، Qwen و Moonshot AI، و همچنین درخواست اخیر دولت آمریکا برای متن‌باز کردن بخشی از فناوری‌ها، از دلایل مهم این تغییر مسیر عنوان شده.

در آزمون Codeforces، مدل gpt-oss-120b امتیاز ۲۶۲۲ و مدل gpt-oss-20b امتیاز ۲۵۱۶ رو کسب کرده که بهتر از DeepSeek R1 اما ضعیف‌تر از مدل‌های o3 و o4-mini بوده. توی آزمون Humanity’s Last Exam هم این دو مدل به‌ترتیب ۱۹٪ و ۱۷.۳٪ امتیاز گرفتن. با این حال، نرخ خطا یا «هذیان‌گویی» این مدل‌ها بالاست و در سنجش PersonQA به ۴۹٪ و ۵۳٪ رسیده که بیش از سه برابر مدل o1 هست.

‏OpenAI گفته فرآیند آموزش این مدل‌ها شبیه مدل‌های اختصاصی خودش بوده و از معماری mixture-of-experts و یادگیری تقویتی با محاسبات سنگین استفاده کرده. این مدل‌ها قابلیت فراخوانی ابزارهایی مثل جستجوی وب یا اجرای کد پایتون رو دارن، ولی صرفاً متنی هستن و نمی‌تونن تصویر یا صوت رو پردازش کنن. انتشارشون تحت مجوز آزاد Apache 2.0 انجام شده که به شرکت‌ها اجازه می‌ده بدون هزینه برای مقاصد تجاری ازشون استفاده کنن، ولی داده‌های آموزشی اون‌ها منتشر نمی‌شه.

‏OpenAI عرضه این مدل‌ها رو چندین بار به دلیل بررسی‌های ایمنی عقب انداخته بود. آزمایش‌ها نشون داده هرچند gpt-oss کمی توانایی در حوزه‌های زیستی پیدا می‌کنه، اما به آستانه خطر بالا در این زمینه‌ها نمی‌رسه. با این حال، بازار مدل‌های باز به‌زودی با عرضه DeepSeek R2 و مدل تازه Meta رقابتی‌تر می‌شه.

اگر حوصله اجرای لوکال این مدل‌هارو ندارید از طریق وبسایت gpt-oss.com میتونید این مدل هارو امتحان کنید.

@aipulse24
👍19🔥4❤‍🔥2🌭1
This media is not supported in your browser
VIEW IN TELEGRAM
گوگل دیپ‌مایند نسخه جدید مدل هوش مصنوعی «جهان‌ساز» خودش با نام Genie 3 رو معرفی کرده؛ مدلی که می‌تونه محیط‌های سه‌بعدی رو به‌صورت زنده و در لحظه تولید کنه و کاربرها یا عامل‌های هوش مصنوعی بتونن باهاش تعامل داشته باشن. دیپ‌مایند میگه این نسخه نسبت به قبل مدت زمان بیشتری امکان گشت‌وگذار در محیط‌ها رو فراهم می‌کنه و حتی مکان اشیا رو در حافظه نگه می‌داره تا وقتی کاربر دوباره به اون نقطه برگرده، جزئیات تغییری نکرده باشن.

مدل‌های «جهان‌ساز» (World Models) نوعی سیستم هوش مصنوعی هستن که می‌تونن برای اهدافی مثل آموزش، سرگرمی یا حتی آموزش ربات‌ها، محیط‌های مجازی بسازن. کاربر با دادن یک پرامپت می‌تونه محیطی شبیه یک بازی ویدئویی ایجاد کنه، با این تفاوت که این دنیا به‌جای طراحی دستی با ابزارهای سه‌بعدی، به‌طور کامل با هوش مصنوعی ساخته میشه. گوگل در ماه دسامبر نسخه قبلی یعنی Genie 2 رو معرفی کرده بود که می‌تونست از روی یک تصویر، دنیایی تعاملی بسازه و حالا تیم ویژه «مدل‌سازی جهان» رو زیر نظر یکی از مدیران سابق پروژه Sora اوپن‌ای‌آی توسعه میده.

با این حال، نسخه‌های قبلی محدودیت‌های زیادی داشتن؛ مثلا محیط‌های Genie 2 فقط تا حدود یک دقیقه قابل بازی بودن و در بسیاری مواقع جزئیات محیط به‌طور غیرمنتظره تغییر می‌کردن. اما Genie 3 این محدودیت رو بهبود داده و حالا میشه با یک پرامپت، دنیایی ساخت که چند دقیقه تعامل مداوم رو پشتیبانی کنه. همچنین این مدل می‌تونه برای حدود یک دقیقه، جزئیات محیط رو در حافظه نگه داره؛ یعنی اگر از یک دیوار با نوشته خاص دور بشید و دوباره برگردید، نوشته همون‌طور باقی می‌مونه. کیفیت محیط‌ها هم ۷۲۰p و نرخ فریم ۲۴fps خواهد بود.

یکی از قابلیت‌های جدید Genie 3، امکان ایجاد رویدادهای جهان‌محور با پرامپت هست. مثلا کاربر می‌تونه تنها با نوشتن یک دستور، شرایط آب‌وهوایی رو تغییر بده یا شخصیت‌های جدید به محیط اضافه کنه. این ویژگی می‌تونه تجربه تعامل رو برای آموزش یا سرگرمی بسیار متنوع‌تر کنه.

با این وجود، گوگل فعلا این مدل رو به‌صورت پیش‌نمایش تحقیقاتی محدود ارائه می‌کنه و فقط گروه کوچکی از پژوهشگرها و خالقان محتوا بهش دسترسی خواهند داشت تا ریسک‌ها و راهکارهای ایمن‌سازی بهتر بررسی بشه. محدودیت‌هایی مثل نوع تعامل کاربر با محیط‌ها و دشواری تولید متن خوانا در داخل دنیاهای ساخته‌شده همچنان وجود داره. گوگل گفته در آینده احتمالا این مدل رو برای آزمایش‌کننده‌های بیشتری در دسترس قرار خواهد داد.

@aipulse24
👏18👍6❤‍🔥4🤯2😍2
از امروز می‌تونید با اپ جمنای، کتاب‌های داستانی تصویری و شخصی‌سازی‌شده بسازید؛ با روایت صوتی و تصویرسازی اختصاصی. فقط کافیه داستانی که توی ذهنتونه رو توصیف کنید تا جمنای یه کتاب ده‌صفحه‌ای با تصویر و صدای منحصر‌به‌فرد بسازه. حتی می‌تونید از عکس‌ها و فایل‌های شخصیتون هم استفاده کنید تا داستان‌ها حال‌وهوای واقعی‌تری بگیرن.

سبک تصویرسازی هم کاملاً به انتخاب شماست، از پیکسل‌آرت و کمیک گرفته تا استاپ‌موشن، عروسکی، یا حتی کتاب رنگ‌آمیزی، و همه اینا در بیش از ۴۵ زبان مختلف در دسترسه. می‌تونید برای بچه‌تون یه داستان آموزنده بسازید، با شخصیت اصلی‌ای که بچه‌تون دوستش داره. یا مثلاً یه داستان درباره منظومه شمسی که برای یه کودک ۵ ساله قابل فهم باشه. حتی نقاشی بچه‌تون رو آپلود کنید تا جمنای براش یه داستان تخیلی بسازه.

@aipulse24
21🤯3👏2👍1😍1
شرکت OpenAI نسل جدید مدل هوش مصنوعی خودش با نام GPT-5 رو معرفی کرده؛ مدلی که قراره قلب تپنده نسخه‌های آینده ChatGPT باشه. این مدل تازه، نه فقط یک ارتقاء فنی، بلکه یک حرکت مهم در مسیر ساخت هوش مصنوعی‌های عامل‌محور محسوب میشه؛ یعنی هوش‌هایی که مثل یک دستیار واقعی می‌تونن کارهای پیچیده انجام بدن، نه فقط چت کنن.

‏GPT-5 اولین مدلیه که OpenAI اون رو «یکپارچه» می‌دونه؛ چون ترکیبیه از توان استدلالی سری o و سرعت پاسخگویی سری GPT. به‌کمک این مدل، حالا ChatGPT می‌تونه وظایفی مثل ساخت اپلیکیشن، بررسی تقویم، یا تولید گزارش‌های پژوهشی رو هم برعهده بگیره. از طرفی، کار کردن باهاش ساده‌تر شده چون GPT-5 خودش تصمیم می‌گیره چقدر فکر کنه و چطور بهترین پاسخ رو بده.

سم آلتمن، مدیرعامل OpenAI، در جلسه خبری گفته GPT-5 «بهترین مدل دنیاست» و اضافه کرده که این مدل، گام بزرگی به‌سوی رسیدن به هوش عمومی مصنوعی (AGI) محسوب میشه؛ یعنی مدلی که بتونه از انسان در بیشتر کارها پیشی بگیره. از امروز همه کاربران رایگان ChatGPT می‌تونن به GPT-5 دسترسی داشته باشن. این تصمیم، بخشی از هدف OpenAI برای توزیع برابرتر هوش مصنوعیه.

طبق آمار رسمی، ChatGPT حالا بیش از ۷۰۰ میلیون کاربر هفتگی داره و انتظار می‌ره GPT-5 با توانایی‌هاش، نه فقط برای کاربران عادی، بلکه برای شرکت‌های فناوری، بازارهای مالی و سیاست‌گذاران هم اهمیت پیدا کنه. چون هم به‌عنوان نشانه‌ای از پیشرفت AI شناخته می‌شه و هم می‌تونه استانداردهای جدیدی برای رقبا تعیین کنه.

از نظر فنی، GPT-5 تونسته عملکرد خیلی خوبی در حوزه کدنویسی داشته باشه. توی آزمون SWE-bench Verified، که مجموعه‌ای از تسک‌های واقعی برنامه‌نویسیه، این مدل با امتیاز ۷۴.۹٪ بالاتر از Claude Opus 4.1 (با ۷۴.۵٪) و Gemini 2.5 Pro (با ۵۹.۶٪) قرار گرفته. توی حوزه علوم هم عملکرد خوبی داشته؛ مثلاً در آزمون GPQA Diamond مربوط به سوالات سطح دکتری، امتیاز ۸۹.۴٪ کسب کرده.

از نظر ایمنی و دقت هم GPT-5 پیشرفت قابل توجهی داشته. نرخ "هذیان‌گویی" مدل، یعنی زمانی که اطلاعات نادرست ارائه می‌ده، به ۴.۸٪ رسیده؛ عددی که در مدل‌های قبلی مثل GPT-4o حدود ۲۰٪ بود. این مدل همچنین در تشخیص درخواست‌های خطرناک نسبت به درخواست‌های عادی عملکرد بهتری داره و کمتر دچار قضاوت اشتباه می‌شه.

برای کاربران ChatGPT هم قابلیت‌های جدیدی درنظر گرفته شده. حالا می‌تونید از بین چهار شخصیت جدید (مثل ربات، شنونده، یا شخصیت بدبین و Nerd) یکی رو انتخاب کنید تا مدل متناسب با اون شخصیت باهاتون حرف بزنه. همچنین نسخه Pro با پرداخت ۲۰۰ دلار در ماه امکانات بیشتری مثل دسترسی به GPT-5 Pro رو فراهم می‌کنه.

در نهایت، GPT-5 با سه نسخه مختلف (Nano، Mini و Base) به API اضافه شده و قیمت پایه اون برای توسعه‌دهنده‌ها ۱.۲۵ دلار به ازای هر میلیون توکن ورودی اعلام شده. با اینکه GPT-5 در برخی حوزه‌ها مثل تعامل با وب‌سایت‌ها هنوز به سطح رقبا نرسیده، اما در مجموع می‌تونه نقطه عطفی در مسیر توسعه هوش مصنوعی باشه. حالا باید دید در دنیای واقعی، عملکردش چقدر با وعده‌ها همخوانی داره.

@aipulse24
1👍2011