Forwarded from Reza Jafari
معرفی بنچمارک جدید ProgramBench : سخترین آزمون مهندسی نرم افزار برای LLMها
بنچمارک ProgramBench یه بنچمارک خیلی جدی و متفاوت برای ارزیابی توانایی LLMها در ساخت نرمافزار از صفره. ایدهی اصلیش اینه که ببینه آیا مدلهای زبانی واقعاً میتونن فقط با داشتن یک executable و documentation، دوباره کل یک برنامه رو بازسازی کنن یا نه.
توی هر تسک، Agent فقط به فایل اجرایی برنامه و مستنداتش دسترسی داره؛ نه Source Code رو میبینه، نه اجازهی decompile کردن داره و نه حتی اینترنت در اختیارشه. یعنی مدل باید دقیقاً مثل یه مهندس نرمافزار واقعی، رفتار برنامه رو بررسی کنه، Architecture طراحی کنه، Language انتخاب کنه، کل Source Code رو بنویسه و حتی Build Script هم بسازه.
این بنچمارک حدود ۲۰۰ تسک مختلف داره؛ از ابزارهای سبک command-line مثل jq و ripgrep گرفته تا پروژههای سنگین و پیچیدهای مثل PHP، FFmpeg و SQLite.
نکتهی مهم اینه که ProgramBench هیچ ساختار آمادهای به مدل نمیده. خبری از method signature، class skeleton یا حتی توضیح دربارهی ساختار فایلها نیست. Agent خودش باید تصمیم بگیره برنامه چطور modular بشه، چه abstractionهایی تعریف بشه و interfaceها چه شکلی باشن. همین باعث میشه این بنچمارک بیشتر از اینکه صرفاً coding رو بسنجه، توانایی واقعی software design و system architecture رو اندازهگیری کنه.
بعد از اینکه Agent برنامه رو تحویل میده، یه test suite خیلی بزرگ رفتار نسخهی ساختهشده رو با برنامهی اصلی مقایسه میکنه. این تستها با agent-driven fuzzing تولید شدن و در مجموع بیشتر از 248 هزار behavioral test روی ۲۰۰ تسک اجرا میشه. فقط وقتی همهی تستها پاس بشن، اون تسک «حلشده» حساب میشه.
یکی از جذابترین بخشهای ProgramBench اینه که عمداً جلوی shortcutها و cheating گرفته شده. Agentها داخل sandbox اجرا میشن، اینترنت ندارن و حتی دسترسی read به binary هم ندارن؛ یعنی ابزارهایی مثل decompiler، disassembler یا objdump عملاً کار نمیکنن. هدف اینه که benchmark واقعاً توانایی “building from scratch” رو اندازه بگیره، نه سرهم کردن کدهای decompiled.
امتیازها فعلاً خیلی پایینن، ولی این خودش نشون میده مسئله چقدر سخت و واقعی طراحی شده. با اینکه مدلها روی خیلی از تسکها partial progress دارن، ولی هنوز ساخت کامل و بدون نقص نرمافزارهای بزرگ برای AI یه چالش جدیه.
در کل، ProgramBench الان یکی از جدیترین بنچمارکها برای سنجش توانایی واقعی AI Agentها در Software Engineering محسوب میشه؛ جایی که فقط code generation مهم نیست، بلکه planning، architecture، debugging و understanding رفتار سیستم هم نقش اصلی رو دارن.
🔗 لینک سایت ProgramBench
👑 توضیحات در مورد دوره منتورینگ
🏆 نحوه ثبتنام در دوره منتورینگ
🤝 تجارب موفق قبلی بچهها از منتورینگ
@reza_jafari_ai
بنچمارک ProgramBench یه بنچمارک خیلی جدی و متفاوت برای ارزیابی توانایی LLMها در ساخت نرمافزار از صفره. ایدهی اصلیش اینه که ببینه آیا مدلهای زبانی واقعاً میتونن فقط با داشتن یک executable و documentation، دوباره کل یک برنامه رو بازسازی کنن یا نه.
توی هر تسک، Agent فقط به فایل اجرایی برنامه و مستنداتش دسترسی داره؛ نه Source Code رو میبینه، نه اجازهی decompile کردن داره و نه حتی اینترنت در اختیارشه. یعنی مدل باید دقیقاً مثل یه مهندس نرمافزار واقعی، رفتار برنامه رو بررسی کنه، Architecture طراحی کنه، Language انتخاب کنه، کل Source Code رو بنویسه و حتی Build Script هم بسازه.
این بنچمارک حدود ۲۰۰ تسک مختلف داره؛ از ابزارهای سبک command-line مثل jq و ripgrep گرفته تا پروژههای سنگین و پیچیدهای مثل PHP، FFmpeg و SQLite.
نکتهی مهم اینه که ProgramBench هیچ ساختار آمادهای به مدل نمیده. خبری از method signature، class skeleton یا حتی توضیح دربارهی ساختار فایلها نیست. Agent خودش باید تصمیم بگیره برنامه چطور modular بشه، چه abstractionهایی تعریف بشه و interfaceها چه شکلی باشن. همین باعث میشه این بنچمارک بیشتر از اینکه صرفاً coding رو بسنجه، توانایی واقعی software design و system architecture رو اندازهگیری کنه.
بعد از اینکه Agent برنامه رو تحویل میده، یه test suite خیلی بزرگ رفتار نسخهی ساختهشده رو با برنامهی اصلی مقایسه میکنه. این تستها با agent-driven fuzzing تولید شدن و در مجموع بیشتر از 248 هزار behavioral test روی ۲۰۰ تسک اجرا میشه. فقط وقتی همهی تستها پاس بشن، اون تسک «حلشده» حساب میشه.
یکی از جذابترین بخشهای ProgramBench اینه که عمداً جلوی shortcutها و cheating گرفته شده. Agentها داخل sandbox اجرا میشن، اینترنت ندارن و حتی دسترسی read به binary هم ندارن؛ یعنی ابزارهایی مثل decompiler، disassembler یا objdump عملاً کار نمیکنن. هدف اینه که benchmark واقعاً توانایی “building from scratch” رو اندازه بگیره، نه سرهم کردن کدهای decompiled.
امتیازها فعلاً خیلی پایینن، ولی این خودش نشون میده مسئله چقدر سخت و واقعی طراحی شده. با اینکه مدلها روی خیلی از تسکها partial progress دارن، ولی هنوز ساخت کامل و بدون نقص نرمافزارهای بزرگ برای AI یه چالش جدیه.
در کل، ProgramBench الان یکی از جدیترین بنچمارکها برای سنجش توانایی واقعی AI Agentها در Software Engineering محسوب میشه؛ جایی که فقط code generation مهم نیست، بلکه planning، architecture، debugging و understanding رفتار سیستم هم نقش اصلی رو دارن.
@reza_jafari_ai
Please open Telegram to view this post
VIEW IN TELEGRAM
3❤12👍6
جزئیات آسیب پذیری کشف شده در Ollama :
👉 @ai_python ✍️
Ollama Out-of-Bounds Read Vulnerability Allows Remote Process Memory Leak
Ollama Out-of-Bounds Read Vulnerability Allows Remote Process Memory Leak
Please open Telegram to view this post
VIEW IN TELEGRAM
1😭5👍2💔2
قبلن در چانال به این موضوع اشاره کرده بودیم که اجنت های هوش مصنوعی به قدری در اکوسیستم Microsoft اینتگریت شدن که حتی در محصولی مثل Entra ، همون دسترسی هایی که به کاربران معمولی می دیم برای اجنت های خودکار هوش مصنوعی هم وجود داره و قابل تعریف هستند.
👉 @ai_python ✍️
حالا سوال اینجاست که دیتاهای ما چگونه باشند تا اجنت ها، موثر تر بتوانند آن ها را بخوانند و نتایج قابل اتکا تری به ما ارائه کنند؟ برای مثل در SharePoint ساختار مناسب برای داده ها چگونه است؟
این پست وبلاگ مایکروسافت درباره همین موضوع است :
Unlocking knowledge through intelligence: Lessons learned using SharePoint agents at Microsoft - Inside Track Blog
حالا سوال اینجاست که دیتاهای ما چگونه باشند تا اجنت ها، موثر تر بتوانند آن ها را بخوانند و نتایج قابل اتکا تری به ما ارائه کنند؟ برای مثل در SharePoint ساختار مناسب برای داده ها چگونه است؟
این پست وبلاگ مایکروسافت درباره همین موضوع است :
Unlocking knowledge through intelligence: Lessons learned using SharePoint agents at Microsoft - Inside Track Blog
Please open Telegram to view this post
VIEW IN TELEGRAM
Microsoft News
Unlocking knowledge through intelligence: Lessons learned using SharePoint agents at Microsoft
Discover how we’re using SharePoint agents to scale enterprise knowledge internally here at Microsoft.
1❤5👍2
در حال حاضر سه راه اصلی برای ایجاد محدودیت خواندن داده ها برای Agent های هوش مصنوعی در SharePoint وجود داره.
👉 @ai_python ✍️
نکته مهم درباره راه سوم اینه که نیاز به لایسنس اضافه داره.
نکته مهم درباره راه سوم اینه که نیاز به لایسنس اضافه داره.
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤4👍2
Please open Telegram to view this post
VIEW IN TELEGRAM
6👍8❤3🐳3
Forwarded from ایلان ماسک به فارسی
ایلان ماسک گفته که فقط الگوریتم X بین شبکه های اجتماعی منتشر می شه و همه می تونن ببینن.
🖥 @elonfact 🙄
این درحالیه که بقیه مخفیانه الگوریتم هارو دستکاری می کنند.
برخی معتقد هستند که این از نظر فنی دقیقن درست نیست. چون برای مثال وزن های مدل Ranking در رپوی گیت هاب منتشر نشده. و ایراداتی از این قبیل. که البته من خودم چک نکردم و اطلاع ندارم.
اما در هر صورت ایلان ماسک امروز لینک گیت هاب جدید ترین الگوریتم رو به اشتراک گذاشت :
Elon Musk auf X: „The latest 𝕏 algorithm has been published to GitHub https://t.co/ZCOm51uxmh“ / X
این درحالیه که بقیه مخفیانه الگوریتم هارو دستکاری می کنند.
برخی معتقد هستند که این از نظر فنی دقیقن درست نیست. چون برای مثال وزن های مدل Ranking در رپوی گیت هاب منتشر نشده. و ایراداتی از این قبیل. که البته من خودم چک نکردم و اطلاع ندارم.
اما در هر صورت ایلان ماسک امروز لینک گیت هاب جدید ترین الگوریتم رو به اشتراک گذاشت :
Elon Musk auf X: „The latest 𝕏 algorithm has been published to GitHub https://t.co/ZCOm51uxmh“ / X
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍9❤3
Forwarded from ایلان ماسک به فارسی
اینترنت تنها چیزی است که به معنای واقعی کلمه تولید ناخالص داخلی کل کشور را افزایش میدهد.
هر کشوری که با استارلینک قرارداد امضا کند، یک زیرساخت اینترنتی موازی دریافت میکند.
هر کشوری که تأخیر کند، بیشتر عقب میماند.
🖥 @elonfact 🙄
The internet is the one single thing that literally lifts an entire country's GDP
Every country that signs with Starlink gets a parallel internet infrastructure
Every country that delays gets left further behind
هر کشوری که با استارلینک قرارداد امضا کند، یک زیرساخت اینترنتی موازی دریافت میکند.
هر کشوری که تأخیر کند، بیشتر عقب میماند.
The internet is the one single thing that literally lifts an entire country's GDP
Every country that signs with Starlink gets a parallel internet infrastructure
Every country that delays gets left further behind
Please open Telegram to view this post
VIEW IN TELEGRAM
10👍13😭10💔3❤1
واقعن چرا؟ دلیلش دو تا مورد می تونه باشه به نظر من :
👉 @ai_python ✍️
1 - بوروکراسی شدید در اروپا
2 - احزاب سیاسی ای که کوکورانه بر ضد تمام انواع سرمایه داری هستند
1 - بوروکراسی شدید در اروپا
2 - احزاب سیاسی ای که کوکورانه بر ضد تمام انواع سرمایه داری هستند
Please open Telegram to view this post
VIEW IN TELEGRAM
11👍30❤4
DLeX: AI Python
واقعن چرا؟ دلیلش دو تا مورد می تونه باشه به نظر من : 👉 @ai_python ✍️ 1 - بوروکراسی شدید در اروپا 2 - احزاب سیاسی ای که کوکورانه بر ضد تمام انواع سرمایه داری هستند
بعد از اینکه برخی از مخاطبان لطف کردن و نظرشون رو درباره پست قبلی گفتن، نکته مهمی توجهم رو جلب کرد.
و اونم اینه که درسته که شرکت هایی مثل DeepL یا Black Forest Labs اروپایی هستند، (البته یکی از دوستان هم گفتند HuggingFace که اون اروپایی نیست و از نظر حقوقی یک شرکت آمریکایی محسوب می شه با این که بنیانگذارانش در اصل آمریکایی نبودند) اما توجه کنید که شرکت های معرفی شده در پست قبلی، شرکت هایی هستند که مدل Frontier دارند.
👉 @ai_python ✍️
تقریبن به جز Mistral هیچ شرکتی در اروپا نداریم که مدل Frontier داشته باشه. مدل های Frontier مدل هایی هستند که تقریبن توی تمام بنچ مارک ها رقابت می کنند و از طرف دیگه سرمایه گذاران بسیاری هم دارند. مشخصه اصلی این شرکت ها اینه که برای AGI رقابت می کنند.
با این اوصاف این تفاوت بین آمریکا و اروپا از این نظر بسیار شدید دیده می شه.
حالا بگذریم که خود میسترال هم از نظر ماهیتی تقاوت بسیاری با شرکت هایی که به عرضه مدل های Frontier مشهور هستند داره و بیش تر مشتریانش Enterprise هستند.
و اونم اینه که درسته که شرکت هایی مثل DeepL یا Black Forest Labs اروپایی هستند، (البته یکی از دوستان هم گفتند HuggingFace که اون اروپایی نیست و از نظر حقوقی یک شرکت آمریکایی محسوب می شه با این که بنیانگذارانش در اصل آمریکایی نبودند) اما توجه کنید که شرکت های معرفی شده در پست قبلی، شرکت هایی هستند که مدل Frontier دارند.
تقریبن به جز Mistral هیچ شرکتی در اروپا نداریم که مدل Frontier داشته باشه. مدل های Frontier مدل هایی هستند که تقریبن توی تمام بنچ مارک ها رقابت می کنند و از طرف دیگه سرمایه گذاران بسیاری هم دارند. مشخصه اصلی این شرکت ها اینه که برای AGI رقابت می کنند.
با این اوصاف این تفاوت بین آمریکا و اروپا از این نظر بسیار شدید دیده می شه.
حالا بگذریم که خود میسترال هم از نظر ماهیتی تقاوت بسیاری با شرکت هایی که به عرضه مدل های Frontier مشهور هستند داره و بیش تر مشتریانش Enterprise هستند.
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤5👍3😭2
Please open Telegram to view this post
VIEW IN TELEGRAM
1🐳4❤3👍2
خلاصه مختصر و مفیدی از دوره (سرتیفیکیت) AI-901 :
👉 @ai_python ✍️
https://youtu.be/a-yuXz_uV30?si=mdMpk_0DsY6a-9ff
https://youtu.be/a-yuXz_uV30?si=mdMpk_0DsY6a-9ff
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
AI-901 Microsoft Azure AI Fundamentals Study Cram
Key information to help pass the AI-901 certification exam.
Set an environment variable:
$Env:AZURE_OPENAI_KEY = 'YOURKEYHERE'
▬▬▬▬▬▬ C H A P T E R S ⏰ ▬▬▬▬▬▬
00:00 - Introduction
00:37 - Study resources
02:49 - What is AI
05:30 - Assistants and agents…
Set an environment variable:
$Env:AZURE_OPENAI_KEY = 'YOURKEYHERE'
▬▬▬▬▬▬ C H A P T E R S ⏰ ▬▬▬▬▬▬
00:00 - Introduction
00:37 - Study resources
02:49 - What is AI
05:30 - Assistants and agents…
1❤2👍2
Forwarded from ایلان ماسک به فارسی
خب می بینم که ایلان ماسک به جای این که فوکوس بذاره روی برنامه نویسی خالص، می خواد کمی هم روی DevOps و کنترل زیرساخت، فوکوس کنه که بلکه Grok Build بتونه سری میون سرها دربیاره ...
🖥 @elonfact 🙄
نظر شما چیه؟
نظر شما چیه؟
Please open Telegram to view this post
VIEW IN TELEGRAM
8👍8❤3🐳2
مهم ترین نکاتی که در این ویدیو گفته شده :
از اواسط ماه ژوئیه، قابلیت Copilot به طور مستقیم در SharePoint برای تمام کاربرانی که لایسنس Copilot دارن فعال خواهد شد.
همچنین در Purview به منظور DLP می شه ایمیل های خارجی رو از منابع تحت دسترس Copilot مستثنی کرد.
👉 @ai_python ✍️
https://youtu.be/rBEBKTy7HuU?si=5WOrkpoOfCsY2GK4
از اواسط ماه ژوئیه، قابلیت Copilot به طور مستقیم در SharePoint برای تمام کاربرانی که لایسنس Copilot دارن فعال خواهد شد.
همچنین در Purview به منظور DLP می شه ایمیل های خارجی رو از منابع تحت دسترس Copilot مستثنی کرد.
https://youtu.be/rBEBKTy7HuU?si=5WOrkpoOfCsY2GK4
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Copilot in SharePoint | OneDrive- & SPO-Updates | Power Automate Flows wiederherstellen | & mehr
⚠ Die NEWS: Power Automate Flows wiederherstellen | SharePoint Speicherkontingente | Copilot in SharePoint | Authoritative Sites & DLP für Copilot | M365 Backup Neuerungen
Microsoft Power Automate erhält ab 1. Juni eine Wiederherstellungsfunktion für gelöschte…
Microsoft Power Automate erhält ab 1. Juni eine Wiederherstellungsfunktion für gelöschte…
2❤2👍2
Media is too big
VIEW IN TELEGRAM
مدل های جهانی یا همون World Models نوعی سیستم هوش مصنوعی هستن که یاد میگیرن جهان واقعی رو شبیهسازی کنن. یعنی به جای اینکه فقط تصویر یا ویدیو تولید کنن، رفتار و قوانین دنیای واقعی رو درک میکنن و میتونن اتفاقات آینده رو پیشبینی کنن.
تفاوتشون با مدل های Video Generation ای که الان وجود دارن چیه؟ : مدل های مثل مدل های شرکت Runway و خیلی مدل های دیگه ای که توی ذهنمون هست فقط ویدیو های کوتاه و واقع بینانه می سازن.
👉 @ai_python ✍️
اما World Models یک شبیهساز تعاملی از جهان هستن. میتونی باهاشون تعامل کنی، تصمیم بگیری و ببینی چه اتفاقی میافته (مثل یک بازی ویدیویی هوشمند).
1️⃣ کاربردهای عملی: آموزش رباتها و خودروهای خودران بدون نیاز به دنیای واقعی
2️⃣ تولید دادههای مصنوعی (Synthetic Data) با کیفیت خیلی بالا
3️⃣ شبیهسازی محیطهای پیچیده مثل شهرها، جادهها، کارخانهها و غیره
👉 @ai_python ✍️
در این ویدیو، مصاحبههایی با متخصصان انویدیا مثل TJ Galda انجام شده و مدلهایی مثل NVIDIA Cosmos Predict و مقایسه با V-JEPA و شبیهساز CARLA نشون داده میشه.
خود خانم Julia Turk رو می تونید از این جا دنبال کنید : https://x.com/juliarturc
تفاوتشون با مدل های Video Generation ای که الان وجود دارن چیه؟ : مدل های مثل مدل های شرکت Runway و خیلی مدل های دیگه ای که توی ذهنمون هست فقط ویدیو های کوتاه و واقع بینانه می سازن.
اما World Models یک شبیهساز تعاملی از جهان هستن. میتونی باهاشون تعامل کنی، تصمیم بگیری و ببینی چه اتفاقی میافته (مثل یک بازی ویدیویی هوشمند).
در این ویدیو، مصاحبههایی با متخصصان انویدیا مثل TJ Galda انجام شده و مدلهایی مثل NVIDIA Cosmos Predict و مقایسه با V-JEPA و شبیهساز CARLA نشون داده میشه.
خود خانم Julia Turk رو می تونید از این جا دنبال کنید : https://x.com/juliarturc
Please open Telegram to view this post
VIEW IN TELEGRAM
1❤3👍2
کیفیت تصمیم ها، به کیفیت داده های پشت آن ها ارتباط دارد.
👉 @ai_python 🦁 ☀️
Situational awareness means understanding what is happening in your environment in near or real time. It turns raw data into clarity, giving leaders the insight they need to act with confidence.
X
Situational awareness means understanding what is happening in your environment in near or real time. It turns raw data into clarity, giving leaders the insight they need to act with confidence.
X
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4
Forwarded from ایلان ماسک به فارسی
Please open Telegram to view this post
VIEW IN TELEGRAM
👍10🐳6
مایکروسافت این بار Anthropic رو خیلی جدی گرفت و حتی در پاورپوینت هم مدل جدید Claude Opus 4.8 رو فعال کرد !!!
👉 @ai_python 🦁 ☀️
البته من نمی دونم برای کسانی که Microsoft Frontier رو روی Tenant شون فعال نکردن هم نشونش می ده یا نه؟ اما در اعلام خبر خودشون چیزی هنوز در این باره نگفتن.
هرچند در بعضی از حالت های Agent فقط روی انتخاب مدل Auto قابل استفاده س.
البته من نمی دونم برای کسانی که Microsoft Frontier رو روی Tenant شون فعال نکردن هم نشونش می ده یا نه؟ اما در اعلام خبر خودشون چیزی هنوز در این باره نگفتن.
هرچند در بعضی از حالت های Agent فقط روی انتخاب مدل Auto قابل استفاده س.
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍3
خانم Esther Perel که به خصوص در حوزه روان شناسی به دلیل ساختارشکنی های جسورانه و زاویه نگاه خاصش شناخته می شه، در SXSW درباره عشق، تنهایی و هوش مصنوعی با آقای Spike Jonze به گفت و گو می نشیند.
👉 @ai_python 🦁 ☀️
Love, Loneliness, and AI Where Should We Begin Live with Esther Perel and Spike Jonze
پرل بارها تأکید میکند که عشق انسانی همیشه با ریسک، عدم قطعیت، نیازهای متقابل و گاهی رنج همراه است. اما رابطه با یک AI کاملاً فریکشنلس است: همیشه در دسترس، همیشه مهربان، همیشه تأییدکننده. او هشدار میدهد که اگر به این نوع رابطه😴 عادت کنیم، ممکن است توقعمان از انسانها غیرواقعی شود ... انسانهایی که خسته میشوند، نیاز دارند، اشتباه میکنند و همیشه نمیتوانند نسخه کامل باشند.
https://youtu.be/mV2ilz0WxEI?si=kIKWvGYZHcCmpMQG
Love, Loneliness, and AI Where Should We Begin Live with Esther Perel and Spike Jonze
پرل بارها تأکید میکند که عشق انسانی همیشه با ریسک، عدم قطعیت، نیازهای متقابل و گاهی رنج همراه است. اما رابطه با یک AI کاملاً فریکشنلس است: همیشه در دسترس، همیشه مهربان، همیشه تأییدکننده. او هشدار میدهد که اگر به این نوع رابطه
https://youtu.be/mV2ilz0WxEI?si=kIKWvGYZHcCmpMQG
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
Love, Loneliness, and AI Where Should We Begin Live with Esther Perel and Spike Jonze
On this week's episode of Where Should We Begin? with Esther Perel: More than a decade ago, the film Her imagined a love story between a human and an artificial intelligence.
Today, it no longer feels like fiction.
In this special live taping of Where…
Today, it no longer feels like fiction.
In this special live taping of Where…
❤5👍3
مطابق با اعلام Arena AI مدل تصویر به ویدیو Grok Imagine Video 1.5 Preview در بین مدل های هم خانواده در جایگاه اول قرار گرفت.
👉 @ai_python 🦁 ☀️
X
X
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍1