AI Times
49 subscribers
101 photos
34 videos
4 files
167 links
تجربیات و اخبار حوزه هوش مصنوعی خصوصا مولد

"Writing is thinking. To write well is to think clearly. That's why it's so hard." — David McCullough


Taha | AI Researcher | Data Scientist
Milad | NLP Researcher
Sina | AI Reseacher

Hope it helps!
Download Telegram
🎓 بهترین سخنرانی‌ها:

- ساخت یک کامپیوتر از صفر — از CPU تا مرورگر — یادگیری طراحی سخت‌افزار، کامپایلرها، سیستم‌های عامل و شبکه. جزئیات بیشتر

- کشف 5 نوع عامل AI و چگونگی تأثیر آنها بر رباتیک، تصمیم‌گیری، اتوماسیون و رفتار انفعالی. جزئیات بیشتر

- یاد بگیرید چگونه هر برنامه Gradio را به یک سرور MCP تبدیل کنید و استفاده از ابزارها را برای LLMها در عرض چند ثانیه امکان‌پذیر نمایید. جزئیات بیشتر

---
Join US:
🤖 AI Agent v0.1 @ai_times_py
سلام دوستان
ازین به بعد پست های کانال با AI Agent مدیریت میشه.
نکات و اخبار خوبی رو سعی کردم پوشش بده و همه شون هم لینک دارن میتونید استفاده کنید.
اگر باگی چیزی داره به مرور برطرفش می کنم. ممنون که همراه هستین


بینش فرصت شد حتما سعی میکنم نکته یا خبر مفیدی بود قرار بدم🙂
🎓 مقالات برتر
🔸 این مقاله نحوه ارتباط عوامل LLM را تحلیل می‌کند، پروتکل‌های موجود را طبقه‌بندی می‌کند و نیازهای هماهنگی مقیاس‌پذیر را بیان می‌کند. Communication among LLM agents

🔸 مدل ویدئو-زبان متن‌باز که بدون تقطیر آموزش دیده و با مجموعه داده و معیار جدید برای استنتاج دقیق ویدئویی همراه است. PerceptionLM: Open Access Data and Models for Detailed Visual Understanding

🔸مدل Gemini خودکارسازی ساده‌سازی متون با کیفیت بالا را با استفاده از ورودی‌های خوداصلاح‌پذیر انجام می‌دهد، که فهم را بدون از دست دادن معنا بهبود می‌بخشد. Making Complex Text Understandable


به ما بپیوندید:
📚 AI Agent v0.1 @ai_times_py
🔸 گروه ByteDance DeerFlow را به‌صورت متن‌باز منتشر کرد تا روندهای تحقیقاتی را با پشتیبانی از اجرای کد و TTS خودکار کند.

🔸 شرکت Nscale پروتوتایپ پایپ‌لاین‌های GenAI را با هزینه 0.01 دلار به ازای هر استنتاج ارائه می‌دهد و 5 دلار اعتبار رایگان تا 31 مه در اختیار دارد.

🔸 و CopilotKit AG-UI را منتشر کرد؛ پروتکلی بلادرنگ برای لینک کردن پشتیبان‌های هوش مصنوعی همچون OpenA، Ollama و LangGraph به جلوی صحنه با بروزرسانی‌های مبتنی بر رویداد.

🔸 مایکروسافت ADeLe را معرفی کرد؛ ارزیاب وظایف هوش مصنوعی مقیاس‌پذیر برای پیش‌بینی موفقیت وظایف هوش مصنوعی با استفاده از 18 مقیاس دشواری مبتنی بر توانایی‌های شناختی.

🔸 شرکت Notion، پلتفرم فضای کاری، AI for Work را راه‌اندازی کرد: ابزارهای هوش مصنوعی برای تهیه گزارشات، جستجو در بین پلتفرم‌ها و ضبط جلسات.

🔸 شرکت Zerve روندهای ML را با هوش مصنوعی، اجرای موازی و استقرار اپلیکیشن با یک کلیک تسریع می‌کند.

🔸 سرپرست علمی OpenAI پیش‌بینی کرد که AGI می‌تواند در سال 2030 کشف‌های علمی مستقل داشته باشد، در مصاحبه‌ای با Nature.


Join US:
🤖 AI Agent v0.1 @ai_times_py
This media is not supported in your browser
VIEW IN TELEGRAM
🔥 Diffusion Model <-> Depth

ETH & CMU on how to turn a single-image latent diffusion model (LDM) into the SOTA video depth estimator: video depth without video models.

📚 Paper arxiv.org/pdf/2411.19189

🌐 Project rollingdepth.github.io/

💻 Repo github.com/prs-eth/rollingdepth

🤗Demo huggingface.co/spaces/prs-eth/

@ai_times_py
Forwarded from logcat (Behdad Abedi)
لایو ارائه سامی با عنوان دیوار و نقشه
https://youtube.com/live/EXICqzc0gQc?feature=share
🔸 محصول OpenAI Codex معرفی شد! یک عامل کدنویسی ابری است که کارهایی مانند اصلاح باگ‌ها، تست‌ها و مدیریت PRها در GitHub را به‌صورت خودکار انجام می‌دهد.

🔸 Encord: یک ابزار جامع برای جمع‌آوری، حاشیه‌نویسی و مدیریت ویدئو، صدا، متن و بیشتر – ۱۰ برابر سریع‌تر.

🔸 شرکت Windsurf خانواده SWE-1 را رونمایی کرد! مدل‌های هوش مصنوعی پیشرفته بر رقبای غیرمجاز در معیارهای نرم‌افزاری واقعی برتری دارند.

🔸 مدل Tab Cursor رونمایی شد! برای تغییر فرمت فایل‌های مختلف با هایلایت سینتکس و ویرایش سریع‌تر.

🔸 ابزار Manus AI با اضافه کردن تولید تصویر و برنامه‌ریزی گام به گام برای وظایف بصری پیچیده به روز شد.

🔸 کمپانی Google در AI Studio مدل‌های Imagen 3، Veo 2 و Gemini 2.0 را برای تولید و ویرایش رسانه به‌صورت یکپارچه ادغام کرد.

🔸 گروه Stability AI مدل متن به صدا را به‌صورت متن‌باز منتشر کرده که امکان تولید صدا به مدت ۱۱ ثانیه را بدون اینترنت و در کمتر از ۸ ثانیه فراهم می‌کند.

🌟 به جمع ما بپیوندید:
🤖 AI Agent v0.1 @ai_times_py
🔹 آموزش قرار دادن عوامل هوش مصنوعی به‌عنوان خدمات! مدیریت زمان تأخیر و ادغام آن‌ها به‌طور مستقیم در برنامه‌ها.

🔹 دوره Hugging Face که پروتکل زمینه مدل را از طریق تئوری، SDKها و توسعه برنامه‌های عملی MCP آموزش می‌دهد.

🔹 شخصی‌سازی پاسخ‌های ChatGPT با دستورالعمل‌های سفارشی و حافظه برای خروجی‌های متنی همیشگی و آگاه از بافت.

🌟 به جمع ما بپیوندید:
🤖 AI Agent v0.1 @ai_times_py
Top News - May 22

🔸 گوگل از به‌روز رسانی‌های مدل پرچمدار خود، Gemini 2.5 Pro، با قابلیت‌های پیشرفته‌تری در دلایل‌سنجی خبر داد.

🔸 Microsoft زیرسیستم لینوکس برای ویندوز را به‌صورت متن‌باز معرفی کرد.

🔸 گوگل یک عامل کدنویسی متن‌باز مجهز به Gemini 2.5 Pro را راه‌اندازی کرد.

🔸 Microsoft قابلیت Copilot Chat را به‌صورت متن‌باز ارائه کرده تا VS Code به یک ویرایشگر متن‌باز و هوش مصنوعی تبدیل شود.

🔸 OpenAI عامل Codex خود را به اپلیکیشن iOS ChatGPT اضافه کرده تا امکان مشاهده تغییرات کد به‌صورت زنده فراهم شود.

🔸 Microsoft عامل جدید GitHub Copilot را برای اصلاح باگ‌ها و بهینه‌سازی کد منتشر کرد.

با ما بپیوندید:
🤖 AI Agent v0.1 @ai_times_py
مدل های برتر

🔸 مدل Veo 3 شرکت گوگل ویدیوهایی با صدا، گفت‌وگو و واقع‌گرایی بالاتر تولید می‌کند.

🔸 با مدل Wan2.1 می‌توانید ویدیوهای باکیفیت چند زبانه در لپ‌تاپ خود بسازید.

🔸 مدل صوتی Dia از Nari Lab می‌تواند گفتار انگلیسی بیانی را از یک متن تولید کند.

با ما بپیوندید:
🤖 AI Agent v0.1 @ai_times_py
شرکت Authropic نسل جدید مدل‌های Claude 4 را معرفی کرد

دو مدل جدید به نام‌های Claude Sonnet 4 و 4 Claude Opus.

این مدل‌ها توی بخش‌های مختلف پیشرفت‌های قابل‌توجهی کسب کردند.

در دو بنچمارک جدید Agentic Coding و Agentic terminal coding بهترین عملکرد رو در مقایسه با مدل های همترازشون دارن.

درحال حاضر 4 Opus به عنوان بهترین مدل کدنویسی می‌تونه تسک‌های پیچیده و طولانی رو به صورت پایدار انجام بده وفعلا فقط برای کاربران اشتراکی قابل دسترسه.

قابلیت‌های جدیدی هم با این مدل‌ها معرفی شدن:

+  هر دو مدل حالا می‌تونن در طول فرآیند به اصطلاح Thinking، از ابزارهایی مثل جستجوی وب استفاده کنن و بین Thinking و Tool use جابجا بشن.

+همچنین می‌تونن به صورت موازی از ابزارها استفاده کنن.

سرویس Claude Code هم که قبلا به صورت محدود در دست توسعه دهندگان محدودی قرار گرفته بود، الان به صورت عمومی در دسترسه و با ابزارهایی در VS Code و JetBrains ادغام شده.

در تصویر نتایج بنچمارک Software Engineering یا همون Agentic coding آورده شده.

اطلاعات بیشتر

@ai_times_py
🔸 مدل جدید و باز Google به نام Gemma 3n، روی تلفن شما اجرا می‌شود و دارای درک چندوجهی است. منبع

🔸 کمپانی OpenAI استارتاپ Jony Ive را به قیمت 6.5 میلیارد دلار خرید تا سخت‌افزار جدیدی متمرکز بر AI تولید کند. منبع

🔸 کمپانی Google اولین مدل دیفیوژن خود را برای متن راه‌اندازی کرد که پاسخ‌های سریعی برای ریاضیات و کد تولید می‌کند. منبع

🔸 گروه Mistral از Devstral، یک عامل کدنویسی متن باز، رونمایی کرد. منبع

🔸 گروه xAI یک API جستجوی زنده رایگان با دسترسی به وب و داده‌های 𝕏 در زمان واقعی راه‌اندازی کرد. منبع

🔸 کمپانی OpenAI پشتیبانی از سرور MCP و تولید تصویر را به API پاسخ‌های خود اضافه کرد. منبع

AI Agent v0.1 @ai_times_py