🌵 تشخیص نقاط کلیدی متراکم All-in-One 🌵
📍 مدل DeepDetect یک مدل نوآورانه است که بهعنوان یک تشخیصدهندهی نقاط کلیدی (Dense Keypoints Detector) طراحی شده و قدرت چندین الگوریتم کلاسیک مانند:
🔹 SIFT
🔹 ORB
🔹 BRISK
🔹 FAST
🔹 AGAST
🔹 Harris
🔹 Shi-Tomasi
🔹 Canny & Sobel
را در قالب یک شبکه عصبی واحد ترکیب میکند.
💬 نویسندگان میگویند: این مدل، بازآفرینی عاشقانهای از تمام تکنیکهای قدیمی در قالب یادگیری عمیق است — و نام آن هم واقعاً برازنده است: DeepDetect.
💙 مجوز: MIT License
🔗 لینکها:
👉 مقاله (arXiv)
👉 مخزن GitHub
#هوش_مصنوعی #بینایی_ماشین #DeepLearning #Keypoints #ComputerVision #SIFT #ORB #NeuralNetworks #AIResearch
📍 مدل DeepDetect یک مدل نوآورانه است که بهعنوان یک تشخیصدهندهی نقاط کلیدی (Dense Keypoints Detector) طراحی شده و قدرت چندین الگوریتم کلاسیک مانند:
🔹 SIFT
🔹 ORB
🔹 BRISK
🔹 FAST
🔹 AGAST
🔹 Harris
🔹 Shi-Tomasi
🔹 Canny & Sobel
را در قالب یک شبکه عصبی واحد ترکیب میکند.
💬 نویسندگان میگویند: این مدل، بازآفرینی عاشقانهای از تمام تکنیکهای قدیمی در قالب یادگیری عمیق است — و نام آن هم واقعاً برازنده است: DeepDetect.
💙 مجوز: MIT License
🔗 لینکها:
👉 مقاله (arXiv)
👉 مخزن GitHub
#هوش_مصنوعی #بینایی_ماشین #DeepLearning #Keypoints #ComputerVision #SIFT #ORB #NeuralNetworks #AIResearch
This media is not supported in your browser
    VIEW IN TELEGRAM
  🎨 «تکامل یادگیری عمیق» — انیمیشنی هنری دربارهی تاریخ هوش مصنوعی
یک هنرمند با انتشار اثری بهنام “Evolution of Deep Learning by Hand” روند تکامل یادگیری عمیق را بهزیبایی به تصویر کشیده است.
👁️ در این انیمیشن، مسیر از اولین نورونهای مصنوعی تا معماریهای پیچیدهی امروزی بهصورت دستی ترسیم شده و بیننده را با تاریخچهی شکلگیری دنیای مدرن شبکههای عصبی آشنا میکند.
✨ هدف اثر — ادای احترام به جفری هینتون، یکی از بنیانگذاران یادگیری عمیق و برندهی جایزه نوبل، که با ایدههایش راه را برای نسل جدید هوش مصنوعی هموار کرد.
#DeepLearning #AI #NeuralNetworks #Animation #Hinton #ArtTech #هوش_مصنوعی #یادگیری_عمیق #هنر_دیجیتال #تاریخ_فناوری
یک هنرمند با انتشار اثری بهنام “Evolution of Deep Learning by Hand” روند تکامل یادگیری عمیق را بهزیبایی به تصویر کشیده است.
👁️ در این انیمیشن، مسیر از اولین نورونهای مصنوعی تا معماریهای پیچیدهی امروزی بهصورت دستی ترسیم شده و بیننده را با تاریخچهی شکلگیری دنیای مدرن شبکههای عصبی آشنا میکند.
✨ هدف اثر — ادای احترام به جفری هینتون، یکی از بنیانگذاران یادگیری عمیق و برندهی جایزه نوبل، که با ایدههایش راه را برای نسل جدید هوش مصنوعی هموار کرد.
#DeepLearning #AI #NeuralNetworks #Animation #Hinton #ArtTech #هوش_مصنوعی #یادگیری_عمیق #هنر_دیجیتال #تاریخ_فناوری
👍2🔥1💩1
  This media is not supported in your browser
    VIEW IN TELEGRAM
  🔥 SAM 2++: 
رهگیری هرچیز در هر سطحی! 🔥
🧠 مدل SAM 2++ نسخهای پیشرفته از سیستم Segment Anything است که بهصورت یکپارچه میتواند اشیاء را در هر سطحی (ماسک، باکس یا نقطه) رهگیری کند.
نتایج اولیه بسیار چشمگیر هستند — اما متأسفانه هنوز کد آن منتشر نشده 😢
📘 جزئیات بیشتر:
🔹 مقاله: arxiv.org/pdf/2510.18822
🔹 پروژه: tracking-any-granularity.github.io
🔹 ریپازیتوری: 😞 هنوز منتشر نشده
@rss_ai_ir
#AI #SAM #Segmentation #Tracking #ComputerVision #DeepLearning #هوش_مصنوعی #بینایی_ماشین
رهگیری هرچیز در هر سطحی! 🔥
🧠 مدل SAM 2++ نسخهای پیشرفته از سیستم Segment Anything است که بهصورت یکپارچه میتواند اشیاء را در هر سطحی (ماسک، باکس یا نقطه) رهگیری کند.
نتایج اولیه بسیار چشمگیر هستند — اما متأسفانه هنوز کد آن منتشر نشده 😢
📘 جزئیات بیشتر:
🔹 مقاله: arxiv.org/pdf/2510.18822
🔹 پروژه: tracking-any-granularity.github.io
🔹 ریپازیتوری: 😞 هنوز منتشر نشده
@rss_ai_ir
#AI #SAM #Segmentation #Tracking #ComputerVision #DeepLearning #هوش_مصنوعی #بینایی_ماشین
❤1
  This media is not supported in your browser
    VIEW IN TELEGRAM
  🚀 هوش مصنوعی متنباز با سرعتی بیسابقه در حال پیشرفت است — و حالا NVIDIA پیشتاز شده! ⚡️
انویدیا اکنون در صدر مشارکتهای جهانی AI متنباز قرار دارد و با انتشار مجموعهای از مدلهای بزرگ مانند:
🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،
در حال بازتعریف نحوهی توسعه و اشتراکگذاری مدلهای هوش مصنوعی در سراسر دنیاست.
این حرکت نهتنها صنعت را متحول میکند، بلکه مرز بین مدلهای اختصاصی و متنباز را هم از بین میبرد.
بینظیر! 🔥
@rss_ai_ir
#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
  انویدیا اکنون در صدر مشارکتهای جهانی AI متنباز قرار دارد و با انتشار مجموعهای از مدلهای بزرگ مانند:
🧠 Nemotron، 🧬 BioNeMo، 🌌 Cosmos و 🤖 Gr00t،
در حال بازتعریف نحوهی توسعه و اشتراکگذاری مدلهای هوش مصنوعی در سراسر دنیاست.
این حرکت نهتنها صنعت را متحول میکند، بلکه مرز بین مدلهای اختصاصی و متنباز را هم از بین میبرد.
بینظیر! 🔥
@rss_ai_ir
#NVIDIA #AI #OpenSource #Nemotron #BioNeMo #Cosmos #Gr00t #هوش_مصنوعی #متن_باز #DeepLearning #MachineLearning
This media is not supported in your browser
    VIEW IN TELEGRAM
  🏜️ مدل ناوبری خودران OmniNWM — گامی تازه در دنیای رانندگی خودکار 🚗🤖
مدل OmniNWM یک سیستم یکپارچهی جهانمحور و پانورامیک است که آیندهی رانندگی خودکار را متحول میکند.
این مدل میتواند حالتهای چندوجهی (multi-modal states) شامل تصویر RGB، نقشههای معنایی، عمق و اشغال سهبعدی (3D occupancy) را بهصورت همزمان تولید کند.
✨ ویژگیهای کلیدی:
♻️تولید همزمان دادههای تصویری، عمقی و فضایی برای درک کامل محیط؛
♻️کنترل دقیق حرکات و تصمیمگیریها در لحظه؛
♻️ارزیابی بسته (closed-loop) با پاداشهای متراکم مبتنی بر اشغال فضا؛
♻️اجرای سریع و بهینه روی GPU.
📘 این مدل تحت مجوز Apache 2.0 منتشر شده و برای پژوهش و توسعه کاملاً آزاد است.
🔗 منابع:
👉 مقاله: arxiv.org/pdf/2510.17422
👉 پروژه: urbanverseproject.github.io
👉 ریپوی GitHub: lnkd.in/efCSvjtp
@rss_ai_ir
#AI #AutonomousDriving #Navigation #ComputerVision #OmniNWM #DeepLearning #OpenSource
  مدل OmniNWM یک سیستم یکپارچهی جهانمحور و پانورامیک است که آیندهی رانندگی خودکار را متحول میکند.
این مدل میتواند حالتهای چندوجهی (multi-modal states) شامل تصویر RGB، نقشههای معنایی، عمق و اشغال سهبعدی (3D occupancy) را بهصورت همزمان تولید کند.
✨ ویژگیهای کلیدی:
♻️تولید همزمان دادههای تصویری، عمقی و فضایی برای درک کامل محیط؛
♻️کنترل دقیق حرکات و تصمیمگیریها در لحظه؛
♻️ارزیابی بسته (closed-loop) با پاداشهای متراکم مبتنی بر اشغال فضا؛
♻️اجرای سریع و بهینه روی GPU.
📘 این مدل تحت مجوز Apache 2.0 منتشر شده و برای پژوهش و توسعه کاملاً آزاد است.
🔗 منابع:
👉 مقاله: arxiv.org/pdf/2510.17422
👉 پروژه: urbanverseproject.github.io
👉 ریپوی GitHub: lnkd.in/efCSvjtp
@rss_ai_ir
#AI #AutonomousDriving #Navigation #ComputerVision #OmniNWM #DeepLearning #OpenSource
🤖 WorldVLA —
ترکیب VLA و World Model در یک هستهی خودمولد (Autoregressive Core)
شرکت Alibaba از مدل جدیدی به نام WorldVLA رونمایی کرده است — گامی بزرگ بهسوی ساخت مدل خودبازگشتی جهانِ کنشها، جایی که یک معماری واحد همزمان میتواند فریمهای بعدی و اقدامات عامل (agent) را پیشبینی کند.
🧠 ایدهی اصلی:
مدل WorldVLA مدلهای Vision-Language-Action (VLA) و World Model را درون یک ترنسفورمر یکپارچه میکند:
ورودی: (image + language + action)
خروجی: (image + language + action)
یعنی مدل نهتنها دنیای فیزیکی را «درک» میکند، بلکه یاد میگیرد چگونه در آن «عمل» کند.
⚙️ نحوهی عملکرد:
معماری: یک ترنسفورمر واحد که بهطور همزمان روی دادههای مربوط به مدلهای کنش و مدلهای جهان آموزش میبیند.
تابع هزینه (Loss): ترکیبی از پیشبینی وضعیت محیط و پیشبینی کنشها.
ترفند کلیدی در Attention Mask: پنهانسازی کنشهای قبلی در هنگام تولید کنش فعلی — که باعث بهبود چشمگیر در کیفیت بخش «action-chunk» میشود.
📊 نتایج:
در آزمون LIBERO benchmark، مدل WorldVLA از مدلهایی که بهطور جداگانه برای کنش یا شبیهسازی جهان آموزش دیده بودند، بهتر عمل کرده است.
💬 بهطور خلاصه، Alibaba گام بعدی را بهسوی عاملهای AGI با درک واقعی از فیزیک جهان برداشته است —
جایی که یک هستهی واحد میتواند ادراک، پیشبینی و عمل را همزمان انجام دهد.
📄 مقاله:
arxiv.org/abs/2506.21539
💻 کد:
github.com/alibaba-damo-academy/WorldVLA
@rss_ai_ir
#هوش_مصنوعی #WorldModel #VLA #Alibaba #DeepLearning #Transformers #AGI
ترکیب VLA و World Model در یک هستهی خودمولد (Autoregressive Core)
شرکت Alibaba از مدل جدیدی به نام WorldVLA رونمایی کرده است — گامی بزرگ بهسوی ساخت مدل خودبازگشتی جهانِ کنشها، جایی که یک معماری واحد همزمان میتواند فریمهای بعدی و اقدامات عامل (agent) را پیشبینی کند.
🧠 ایدهی اصلی:
مدل WorldVLA مدلهای Vision-Language-Action (VLA) و World Model را درون یک ترنسفورمر یکپارچه میکند:
ورودی: (image + language + action)
خروجی: (image + language + action)
یعنی مدل نهتنها دنیای فیزیکی را «درک» میکند، بلکه یاد میگیرد چگونه در آن «عمل» کند.
⚙️ نحوهی عملکرد:
معماری: یک ترنسفورمر واحد که بهطور همزمان روی دادههای مربوط به مدلهای کنش و مدلهای جهان آموزش میبیند.
تابع هزینه (Loss): ترکیبی از پیشبینی وضعیت محیط و پیشبینی کنشها.
ترفند کلیدی در Attention Mask: پنهانسازی کنشهای قبلی در هنگام تولید کنش فعلی — که باعث بهبود چشمگیر در کیفیت بخش «action-chunk» میشود.
📊 نتایج:
در آزمون LIBERO benchmark، مدل WorldVLA از مدلهایی که بهطور جداگانه برای کنش یا شبیهسازی جهان آموزش دیده بودند، بهتر عمل کرده است.
💬 بهطور خلاصه، Alibaba گام بعدی را بهسوی عاملهای AGI با درک واقعی از فیزیک جهان برداشته است —
جایی که یک هستهی واحد میتواند ادراک، پیشبینی و عمل را همزمان انجام دهد.
📄 مقاله:
arxiv.org/abs/2506.21539
💻 کد:
github.com/alibaba-damo-academy/WorldVLA
@rss_ai_ir
#هوش_مصنوعی #WorldModel #VLA #Alibaba #DeepLearning #Transformers #AGI
👏2👍1🔥1
  🧠 فرمت ONNX — زبان مشترک مدلهای هوش مصنوعی
در دنیای یادگیری عمیق، هر فریمورک (مثل PyTorch، TensorFlow یا Scikit-learn) مدلها را به فرمت مخصوص خودش ذخیره میکند.
اما اگر بخواهیم مدلی را در پایتورچ آموزش دهیم و بعد در محیط دیگری مثل OpenCV، C++، یا موبایل اجرا کنیم چه؟ 🤔
🔹 پاسخ: ONNX (Open Neural Network Exchange)
فرمت ONNX یک فرمت استاندارد و متنباز است که برای انتقال و اجرای مدلهای هوش مصنوعی در پلتفرمهای مختلف طراحی شده است.
💡 به زبان ساده:
فرمت ONNX مثل فایل PDF برای مدلهای هوش مصنوعی است —
فرقی نمیکند در چه فریمورکی ساخته شده، در هر جایی باز و اجرا میشود.
⚙️ مزایا:
♻️انتقال آسان مدلها بین فریمورکها (PyTorch → TensorFlow → OpenCV) 🔄
♻️اجرا روی دستگاههای مختلف (CPU، GPU، موبایل، Edge) ⚙️
♻️پشتیبانی از بهینهسازها مثل ONNX Runtime برای سرعت بیشتر 🚀
♻️پشتیبانی رسمی توسط شرکتهایی مثل Microsoft, NVIDIA, Meta و Intel 💼
📦 مثال:
در پایتورچ، میتوان مدل را با یک خط کد به ONNX صادر کرد:
و سپس با ONNX Runtime در هر محیطی اجرا کرد:
🌍 کاربردهای رایج:
♻️بهکارگیری مدلها در سیستمهای صنعتی
♻️اجرای مدلها روی وب یا موبایل
♻️ترکیب مدلهای ساختهشده در فریمورکهای مختلف
📌 فرمتONNX پلی است میان آموزش و استقرار —
به کمک آن، مدل شما میتواند از آزمایشگاه تا دنیای واقعی سفر کند 🌐
@rss_ai_ir
#هوش_مصنوعی #ONNX #DeepLearning #AI #PyTorch #TensorFlow #MachineLearning #EdgeAI
در دنیای یادگیری عمیق، هر فریمورک (مثل PyTorch، TensorFlow یا Scikit-learn) مدلها را به فرمت مخصوص خودش ذخیره میکند.
اما اگر بخواهیم مدلی را در پایتورچ آموزش دهیم و بعد در محیط دیگری مثل OpenCV، C++، یا موبایل اجرا کنیم چه؟ 🤔
🔹 پاسخ: ONNX (Open Neural Network Exchange)
فرمت ONNX یک فرمت استاندارد و متنباز است که برای انتقال و اجرای مدلهای هوش مصنوعی در پلتفرمهای مختلف طراحی شده است.
💡 به زبان ساده:
فرمت ONNX مثل فایل PDF برای مدلهای هوش مصنوعی است —
فرقی نمیکند در چه فریمورکی ساخته شده، در هر جایی باز و اجرا میشود.
⚙️ مزایا:
♻️انتقال آسان مدلها بین فریمورکها (PyTorch → TensorFlow → OpenCV) 🔄
♻️اجرا روی دستگاههای مختلف (CPU، GPU، موبایل، Edge) ⚙️
♻️پشتیبانی از بهینهسازها مثل ONNX Runtime برای سرعت بیشتر 🚀
♻️پشتیبانی رسمی توسط شرکتهایی مثل Microsoft, NVIDIA, Meta و Intel 💼
📦 مثال:
در پایتورچ، میتوان مدل را با یک خط کد به ONNX صادر کرد:
torch.onnx.export(model, inputs, "model.onnx")
و سپس با ONNX Runtime در هر محیطی اجرا کرد:
import onnxruntime as ort
session = ort.InferenceSession("model.onnx")
outputs = session.run(None, {"input": data})
🌍 کاربردهای رایج:
♻️بهکارگیری مدلها در سیستمهای صنعتی
♻️اجرای مدلها روی وب یا موبایل
♻️ترکیب مدلهای ساختهشده در فریمورکهای مختلف
📌 فرمتONNX پلی است میان آموزش و استقرار —
به کمک آن، مدل شما میتواند از آزمایشگاه تا دنیای واقعی سفر کند 🌐
@rss_ai_ir
#هوش_مصنوعی #ONNX #DeepLearning #AI #PyTorch #TensorFlow #MachineLearning #EdgeAI
❤4🔥2👌2🙏1
  🚀 NVIDIA ModelOpt — 
ابزار متنباز برای بهینهسازی مدلهای هوش مصنوعی در محیط تولید (Production) ⚙️
🔹 جعبه ابزار ModelOpt که بخشی از اکوسیستم TensorRT است، یک جعبهابزار متنباز جدید از NVIDIA برای افزایش سرعت و کارایی مدلها در مرحله استقرار واقعی است.
✨ ویژگیها و قابلیتها:
بهینهسازی سرتاسری (End-to-End) شامل:
🔸 Quantization
🔸 Pruning
🔸 Distillation
🔸 Speculative Decoding
🔸 Sparsity
پشتیبانی کامل از مدلهای PyTorch, Hugging Face, ONNX
سازگار با فریمورکهای NeMo, Megatron-LM, HF Accelerate
قابلیت استقرار در SGLang, TensorRT-LLM, TensorRT, و vLLM
📦 مخزن رسمی GitHub:
👉 github.com/NVIDIA/TensorRT-Model-Optimizer
این ابزار به مهندسان یادگیری ماشین کمک میکند تا مدلهای خود را بدون کاهش دقت، تا چندین برابر سریعتر در GPU مستقر کنند.
@rss_ai_ir
#NVIDIA #ModelOpt #TensorRT #AI #DeepLearning #هوش_مصنوعی #بهینه_سازی_مدل
ابزار متنباز برای بهینهسازی مدلهای هوش مصنوعی در محیط تولید (Production) ⚙️
🔹 جعبه ابزار ModelOpt که بخشی از اکوسیستم TensorRT است، یک جعبهابزار متنباز جدید از NVIDIA برای افزایش سرعت و کارایی مدلها در مرحله استقرار واقعی است.
✨ ویژگیها و قابلیتها:
بهینهسازی سرتاسری (End-to-End) شامل:
🔸 Quantization
🔸 Pruning
🔸 Distillation
🔸 Speculative Decoding
🔸 Sparsity
پشتیبانی کامل از مدلهای PyTorch, Hugging Face, ONNX
سازگار با فریمورکهای NeMo, Megatron-LM, HF Accelerate
قابلیت استقرار در SGLang, TensorRT-LLM, TensorRT, و vLLM
📦 مخزن رسمی GitHub:
👉 github.com/NVIDIA/TensorRT-Model-Optimizer
این ابزار به مهندسان یادگیری ماشین کمک میکند تا مدلهای خود را بدون کاهش دقت، تا چندین برابر سریعتر در GPU مستقر کنند.
@rss_ai_ir
#NVIDIA #ModelOpt #TensorRT #AI #DeepLearning #هوش_مصنوعی #بهینه_سازی_مدل
❤1
  🔥 خلاصه کنفرانس PyTorchCon 2025 در سانفرانسیسکو
⛔️کنفرانس امسال PyTorch واقعاً پر از دستاوردهای مهم بود. در اینجا چهار مورد از جالبترین و کاربردیترین ابزارهایی که در این چند روز معرفی شدند را مرور میکنیم 👇
---
1️⃣ 🧠 Helion —
❌زبان جدید برنامهنویسی مخصوص PyTorch
✳️زبان جدیدی که روی پایه پایتون ساخته شده تا بتوانید هستههای پردازشی (kernels) را مستقیماً بنویسید.
همچنین Helion کد را بهصورت خودکار به Triton کامپایل میکند، یعنی بدون دردسر میتوانید کرنلهای GPU بهینه بنویسید.
🔗 Helion
---
2️⃣ ⚙️ torchcomms —
❌کتابخانه ارتباطی جدید برای یادگیری توزیعشده
✳️کتابخانهای مخصوص آموزش مدلها روی سختافزارهای عظیم (تا ۱۰۰هزار GPU 😮).
هدف اصلی: بهینهسازی ارتباط بین نودها و کاهش تاخیر در سیستمهای بزرگ.
🔗 torchcomms
---
3️⃣ 📱 ExecuTorch 1.0 —
❌ اجرای مدلها روی موبایل و گجتها
✳️راهحلی کامل برای اجرای مدلهای PyTorch روی موبایل، ساعتهای هوشمند و دستگاههای لبهای (Edge Devices).
هم از نظر سرعت، هم مصرف حافظه و انرژی، فوقالعاده بهینه شده.
🔗 ExecuTorch 1.0
---
4️⃣ 🤖 torchforge —
❌کتابخانهای برای یادگیری تقویتی (RL) و ساخت Agentها
✳️همچنین PyTorch با Torchforge مسیر تازهای در هوش مصنوعی عاملمحور باز کرده است.
ساختارش به گونهای طراحی شده که بخش الگوریتمی از زیرساخت جداست — تا تمرکز فقط روی منطق یادگیری باشد.
🔗 torchforge
---
📊 نتیجه:
همچنین PyTorch بهوضوح دارد از یک فریمورک آموزشی به اکوسیستم کامل AI برای تولید، استقرار و بهینهسازی مدلها تبدیل میشود.
دو روز فوقالعاده پربار برای جامعه هوش مصنوعی 🌍
@rss_ai_ir
#PyTorch #Helion #ExecuTorch #torchforge #AI #DeepLearning #ML #PyTorchCon
⛔️کنفرانس امسال PyTorch واقعاً پر از دستاوردهای مهم بود. در اینجا چهار مورد از جالبترین و کاربردیترین ابزارهایی که در این چند روز معرفی شدند را مرور میکنیم 👇
---
1️⃣ 🧠 Helion —
❌زبان جدید برنامهنویسی مخصوص PyTorch
✳️زبان جدیدی که روی پایه پایتون ساخته شده تا بتوانید هستههای پردازشی (kernels) را مستقیماً بنویسید.
همچنین Helion کد را بهصورت خودکار به Triton کامپایل میکند، یعنی بدون دردسر میتوانید کرنلهای GPU بهینه بنویسید.
🔗 Helion
---
2️⃣ ⚙️ torchcomms —
❌کتابخانه ارتباطی جدید برای یادگیری توزیعشده
✳️کتابخانهای مخصوص آموزش مدلها روی سختافزارهای عظیم (تا ۱۰۰هزار GPU 😮).
هدف اصلی: بهینهسازی ارتباط بین نودها و کاهش تاخیر در سیستمهای بزرگ.
🔗 torchcomms
---
3️⃣ 📱 ExecuTorch 1.0 —
❌ اجرای مدلها روی موبایل و گجتها
✳️راهحلی کامل برای اجرای مدلهای PyTorch روی موبایل، ساعتهای هوشمند و دستگاههای لبهای (Edge Devices).
هم از نظر سرعت، هم مصرف حافظه و انرژی، فوقالعاده بهینه شده.
🔗 ExecuTorch 1.0
---
4️⃣ 🤖 torchforge —
❌کتابخانهای برای یادگیری تقویتی (RL) و ساخت Agentها
✳️همچنین PyTorch با Torchforge مسیر تازهای در هوش مصنوعی عاملمحور باز کرده است.
ساختارش به گونهای طراحی شده که بخش الگوریتمی از زیرساخت جداست — تا تمرکز فقط روی منطق یادگیری باشد.
🔗 torchforge
---
📊 نتیجه:
همچنین PyTorch بهوضوح دارد از یک فریمورک آموزشی به اکوسیستم کامل AI برای تولید، استقرار و بهینهسازی مدلها تبدیل میشود.
دو روز فوقالعاده پربار برای جامعه هوش مصنوعی 🌍
@rss_ai_ir
#PyTorch #Helion #ExecuTorch #torchforge #AI #DeepLearning #ML #PyTorchCon
🔥2👏1🙏1
  ⚡️ LMMs Engine –
موتور واحد برای آموزش مدلهای چندوجهی (Multimodal)
فریمورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدلهایی که همزمان میتوانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️
🎯 ویژگیها:
پشتیبانی از بیش از ۱۹ معماری مختلف:
🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن
🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت
🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)
🌫 dLLM:
مدلهای زبانی دیفیوژنی
🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدلهای پیشرفته
📜 لایسنس: Apache 2.0 — قابلاستفاده حتی در پروژههای تجاری
🔗 گیتهاب:
github.com/EvolvingLMMs-Lab/lmms-engine
@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
موتور واحد برای آموزش مدلهای چندوجهی (Multimodal)
فریمورکی ساده، منعطف و قدرتمند از LMMs-Lab برای آموزش مدلهایی که همزمان میتوانند متن، تصویر، صدا و ویدیو را درک کنند — همه در یک محیط یکپارچه 🎛️
🎯 ویژگیها:
پشتیبانی از بیش از ۱۹ معماری مختلف:
🧠 Qwen3-VL:
پردازش تصویر با رزولوشن اصلی و کانتکست بیش از ۱۰٬۰۰۰ توکن
🎧 Qwen2.5-Omni:
مدل واحد برای متن، تصویر و صوت
🎥 WanVideo:
تولید ویدیو از متن، تصویر یا ویدیو (T2V, I2V, V2V)
🌫 dLLM:
مدلهای زبانی دیفیوژنی
🪄 LLaVA-OneVision، Bagel، SiT، RAE-SigLip و دیگر مدلهای پیشرفته
📜 لایسنس: Apache 2.0 — قابلاستفاده حتی در پروژههای تجاری
🔗 گیتهاب:
github.com/EvolvingLMMs-Lab/lmms-engine
@rss_ai_ir
#AI #Multimodal #OpenSource #DeepLearning #LLM #LMMsEngine
❤2
  ⚡️ Glyph — 
فشردهسازی بصری-متنی برای گسترش محدودهی کانتکست در مدلهای زبانی
ایدهی اصلی Glyph بسیار ساده اما نوآورانه است:
بهجای آنکه مدل را با هزاران خط متن تغذیه کنیم، متن بهصورت تصویر نمایش داده میشود و سپس توسط مدلهای Vision-Language پردازش میگردد 🧠🖼️
🔹 مدل از یک الگوریتم ژنتیکی هدایتشده توسط LLM استفاده میکند تا بهترین ترکیب از ویژگیهای بصری را پیدا کند — از جمله نوع فونت، چگالی، و چیدمان متن — و میان فشردهسازی و دقت معنایی تعادل برقرار کند.
💡 نتیجه؟
✳️هزینه محاسباتی بهشدت کاهش مییابد.
✳️ساختار معنایی متن حفظ میشود.
✳️دقت مدل تقریباً همسطح با مدلهای قدرتمندی مثل Qwen3-8B باقی میماند.
در تستهای فشردهسازی افراطی، یک مدل VLM با کانتکست 128K میتواند وظایفی را حل کند که در مدلهای متنی کلاسیک نیازمند بیش از ۱ میلیون توکن است!
بهعبارت دیگر، درک کانتکست طولانی اکنون به یک مسئلهی چندوجهی (Multimodal) تبدیل شده است، نه صرفاً متنی.
📄 مقاله:
arxiv.org/abs/2510.17800
🧩 وزنها:
huggingface.co/zai-org/Glyph
💻 کد منبع:
github.com/thu-coai/Glyph
@rss_ai_ir
#AI #LLM #Multimodal #DeepLearning #Compression #Glyph #Research
فشردهسازی بصری-متنی برای گسترش محدودهی کانتکست در مدلهای زبانی
ایدهی اصلی Glyph بسیار ساده اما نوآورانه است:
بهجای آنکه مدل را با هزاران خط متن تغذیه کنیم، متن بهصورت تصویر نمایش داده میشود و سپس توسط مدلهای Vision-Language پردازش میگردد 🧠🖼️
🔹 مدل از یک الگوریتم ژنتیکی هدایتشده توسط LLM استفاده میکند تا بهترین ترکیب از ویژگیهای بصری را پیدا کند — از جمله نوع فونت، چگالی، و چیدمان متن — و میان فشردهسازی و دقت معنایی تعادل برقرار کند.
💡 نتیجه؟
✳️هزینه محاسباتی بهشدت کاهش مییابد.
✳️ساختار معنایی متن حفظ میشود.
✳️دقت مدل تقریباً همسطح با مدلهای قدرتمندی مثل Qwen3-8B باقی میماند.
در تستهای فشردهسازی افراطی، یک مدل VLM با کانتکست 128K میتواند وظایفی را حل کند که در مدلهای متنی کلاسیک نیازمند بیش از ۱ میلیون توکن است!
بهعبارت دیگر، درک کانتکست طولانی اکنون به یک مسئلهی چندوجهی (Multimodal) تبدیل شده است، نه صرفاً متنی.
📄 مقاله:
arxiv.org/abs/2510.17800
🧩 وزنها:
huggingface.co/zai-org/Glyph
💻 کد منبع:
github.com/thu-coai/Glyph
@rss_ai_ir
#AI #LLM #Multimodal #DeepLearning #Compression #Glyph #Research
👍1
  🧠 Thinking Machines معرفی کرد:
On-Policy Distillation —
روشی جدید برای آموزش مدلهای زبانی که بهجای حفظ کردن، یاد میگیرند فکر کنند.
در این روش نوآورانه از آزمایشگاه Thinking Machines Lab، مدل کوچکتر دیگر فقط پاسخهای مدل بزرگتر را تکرار نمیکند؛ بلکه خودش تلاش میکند مسئله را حل کند، سپس «استاد» (مدل بزرگتر) مسیر منطق و خطاهایش را تحلیل کرده و راهنماییاش میکند.
به این ترتیب، مدل کوچکتر نهتنها دانش بلکه روش تفکر و استدلال مدل بزرگتر را نیز فرا میگیرد. 🧩
📊 نتایج آزمایشها (روی مسائل منطقی و ریاضی):
♻️مدل کوچک پس از آموزش با on-policy distillation به دقتی نزدیک به مدل بزرگتر رسید.
♻️هزینههای محاسباتی چندین برابر کاهش یافت.
♻️مدل توانست خطاهای خودش را بهتر درک کند و در مواجهه با مسائل جدید پایدارتر عمل کند.
💡 چرا این مهم است؟
در روشهای سنتی، مدل فقط پاسخ را تقلید میکند (مثل حفظ کردن).
اما در اینجا مدل مانند انسان یاد میگیرد — تجربه میکند، اشتباه میکند و اصلاح میشود.
🔹 روش جدید تعادلی هوشمند بین یادگیری تقویتی (RL) و دانش تقطیری (KD) ایجاد میکند.
🔹 بدون نیاز به محیطهای پیچیده RL، مدل میتواند بهصورت خودکار و با هزینهی کمتر، یادگیری تطبیقی انجام دهد.
🔹 نتیجه: مدلهای کوچکتر که تقریباً مثل مدلهای بزرگ فکر میکنند، اما سریعتر، ارزانتر و مناسب برای edge devices، رباتها و سیستمهای محلی خصوصی هستند.
📘 مطالعهی بیشتر:
thinkingmachines.ai/blog/on-policy-distillation/
@rss_ai_ir
#AI #LLM #ThinkingMachines #DeepLearning #MachineLearning #Distillation #Innovation
On-Policy Distillation —
روشی جدید برای آموزش مدلهای زبانی که بهجای حفظ کردن، یاد میگیرند فکر کنند.
در این روش نوآورانه از آزمایشگاه Thinking Machines Lab، مدل کوچکتر دیگر فقط پاسخهای مدل بزرگتر را تکرار نمیکند؛ بلکه خودش تلاش میکند مسئله را حل کند، سپس «استاد» (مدل بزرگتر) مسیر منطق و خطاهایش را تحلیل کرده و راهنماییاش میکند.
به این ترتیب، مدل کوچکتر نهتنها دانش بلکه روش تفکر و استدلال مدل بزرگتر را نیز فرا میگیرد. 🧩
📊 نتایج آزمایشها (روی مسائل منطقی و ریاضی):
♻️مدل کوچک پس از آموزش با on-policy distillation به دقتی نزدیک به مدل بزرگتر رسید.
♻️هزینههای محاسباتی چندین برابر کاهش یافت.
♻️مدل توانست خطاهای خودش را بهتر درک کند و در مواجهه با مسائل جدید پایدارتر عمل کند.
💡 چرا این مهم است؟
در روشهای سنتی، مدل فقط پاسخ را تقلید میکند (مثل حفظ کردن).
اما در اینجا مدل مانند انسان یاد میگیرد — تجربه میکند، اشتباه میکند و اصلاح میشود.
🔹 روش جدید تعادلی هوشمند بین یادگیری تقویتی (RL) و دانش تقطیری (KD) ایجاد میکند.
🔹 بدون نیاز به محیطهای پیچیده RL، مدل میتواند بهصورت خودکار و با هزینهی کمتر، یادگیری تطبیقی انجام دهد.
🔹 نتیجه: مدلهای کوچکتر که تقریباً مثل مدلهای بزرگ فکر میکنند، اما سریعتر، ارزانتر و مناسب برای edge devices، رباتها و سیستمهای محلی خصوصی هستند.
📘 مطالعهی بیشتر:
thinkingmachines.ai/blog/on-policy-distillation/
@rss_ai_ir
#AI #LLM #ThinkingMachines #DeepLearning #MachineLearning #Distillation #Innovation
❤1👍1
  ⚡️ vLLM Sleep Mode — 
حالت خواب برای تعویض سریع مدلها
در نسخهی جدید منتشرشده در بلاگ vLLM، ویژگی جدیدی به نام Sleep Mode معرفی شده که زمان تعویض بین مدلهای زبانی را بهشدت کاهش میدهد.
🧠 در روشهای سنتی، اگر بخواهید دو مدل را بهصورت همزمان در GPU داشته باشید، یا باید هر دو را بارگذاری کنید (که منابع را دو برابر مصرف میکند) یا یکی را خاموش و دیگری را مجدداً بارگذاری کنید — که معمولاً ۳۰ تا ۱۰۰ ثانیه زمان میبرد.
Sleep Mode
راه سوم را ارائه میدهد:
مدلها در حالت «خواب» قرار میگیرند و فقط در چند ثانیه دوباره «بیدار» میشوند، در حالی که وضعیت اولیهشان حفظ شده است.
🔹 دو سطح خواب:
1. Sleep Level 1:
وزنها در RAM ذخیره میشوند — راهاندازی بسیار سریع اما نیاز به رم بالا دارد.
2. Sleep Level 2:
وزنها کاملاً آزاد میشوند — مصرف رم پایینتر، ولی بیدارسازی کمی کندتر است.
📊 نتایج:
♻️سرعت سوئیچ بین مدلها تا ۱۸ تا ۲۰۰ برابر بیشتر
♻️سرعت استنتاج بعد از بیداری بین ۶۱ تا ۸۸٪ سریعتر
♻️زیرا فرآیندهایی مانند حافظهی CUDA، گرافها و JIT compilation حفظ میشوند.
💡 ویژگی Sleep Mode برای محیطهایی که نیاز به تعویض مداوم بین چند مدل دارند ایدهآل است —
از GPUهای متوسط مثل A4000 تا مدلهای قدرتمند مانند A100.
🔗 مطالعهی کامل در بلاگ vLLM
@rss_ai_ir
#vLLM #AI #Optimization #Inference #DeepLearning #LLM
حالت خواب برای تعویض سریع مدلها
در نسخهی جدید منتشرشده در بلاگ vLLM، ویژگی جدیدی به نام Sleep Mode معرفی شده که زمان تعویض بین مدلهای زبانی را بهشدت کاهش میدهد.
🧠 در روشهای سنتی، اگر بخواهید دو مدل را بهصورت همزمان در GPU داشته باشید، یا باید هر دو را بارگذاری کنید (که منابع را دو برابر مصرف میکند) یا یکی را خاموش و دیگری را مجدداً بارگذاری کنید — که معمولاً ۳۰ تا ۱۰۰ ثانیه زمان میبرد.
Sleep Mode
راه سوم را ارائه میدهد:
مدلها در حالت «خواب» قرار میگیرند و فقط در چند ثانیه دوباره «بیدار» میشوند، در حالی که وضعیت اولیهشان حفظ شده است.
🔹 دو سطح خواب:
1. Sleep Level 1:
وزنها در RAM ذخیره میشوند — راهاندازی بسیار سریع اما نیاز به رم بالا دارد.
2. Sleep Level 2:
وزنها کاملاً آزاد میشوند — مصرف رم پایینتر، ولی بیدارسازی کمی کندتر است.
📊 نتایج:
♻️سرعت سوئیچ بین مدلها تا ۱۸ تا ۲۰۰ برابر بیشتر
♻️سرعت استنتاج بعد از بیداری بین ۶۱ تا ۸۸٪ سریعتر
♻️زیرا فرآیندهایی مانند حافظهی CUDA، گرافها و JIT compilation حفظ میشوند.
💡 ویژگی Sleep Mode برای محیطهایی که نیاز به تعویض مداوم بین چند مدل دارند ایدهآل است —
از GPUهای متوسط مثل A4000 تا مدلهای قدرتمند مانند A100.
🔗 مطالعهی کامل در بلاگ vLLM
@rss_ai_ir
#vLLM #AI #Optimization #Inference #DeepLearning #LLM
This media is not supported in your browser
    VIEW IN TELEGRAM
  🌱 PlanarTrack: 
مرجع بزرگ برای رهگیری صفحات (Planar Tracking) 🌱
👉 بنچمارک PlanarTrack یک دیتاست و بنچمارک بزرگ و باکیفیت برای رهگیری صفحات در ویدیوها است — شامل ۱,۱۵۰ توالی با بیش از ۷۳۳ هزار فریم، که دربرگیرندهی ۱۰۰۰ ویدیو کوتاهمدت و ۱۵۰ ویدیو بلندمدت است.
این مجموعه برای آموزش و ارزیابی الگوریتمهای رهگیری دقیق در سطوح مختلف طراحی شده و چالشی جدید برای مدلهای بینایی ماشین محسوب میشود. 💙
🔗 مرجعها:
📘 Review
📄 Paper (arXiv)
💻 Repo
🌐 Project
🧩 Dataset
#AI #ComputerVision #Tracking #PlanarTrack #Dataset #Benchmark #DeepLearning #ML #هوش_مصنوعی #بینایی_ماشین
  مرجع بزرگ برای رهگیری صفحات (Planar Tracking) 🌱
👉 بنچمارک PlanarTrack یک دیتاست و بنچمارک بزرگ و باکیفیت برای رهگیری صفحات در ویدیوها است — شامل ۱,۱۵۰ توالی با بیش از ۷۳۳ هزار فریم، که دربرگیرندهی ۱۰۰۰ ویدیو کوتاهمدت و ۱۵۰ ویدیو بلندمدت است.
این مجموعه برای آموزش و ارزیابی الگوریتمهای رهگیری دقیق در سطوح مختلف طراحی شده و چالشی جدید برای مدلهای بینایی ماشین محسوب میشود. 💙
🔗 مرجعها:
📘 Review
📄 Paper (arXiv)
💻 Repo
🌐 Project
🧩 Dataset
#AI #ComputerVision #Tracking #PlanarTrack #Dataset #Benchmark #DeepLearning #ML #هوش_مصنوعی #بینایی_ماشین
🎓🤖 دوره جدید دانشگاه استنفورد: Transformers & Large Language Models
دانشگاه Stanford دورهای تازه با عنوان
«Transformers & Large Language Models»
منتشر کرده است
— تدریس توسط برادران Amidi، و سه جلسهی اول آن بهصورت رایگان در YouTube در دسترس است 🎥💡
این دوره یکی از منسجمترین و بهروزترین منابع برای درک سیستماتیک مدلهای زبانی بزرگ (LLM) به شمار میآید.
📘 سرفصلها:
• مبانی Transformer: توکنسازی، تعبیهها (Embeddings)، Attention و معماری کلی
• مفاهیم اصلی LLM: Mixture of Experts، انواع روشهای دیکدینگ
• آموزش و فاینتیون: SFT، RLHF، LoRA
• ارزیابی مدلها: LLM/VLM-as-a-judge و بهترین روشهای سنجش
• ترفندها و بهینهسازیها: RoPE، تقریب attention، کوانتیزهسازی
• استدلال و مقیاسپذیری در آموزش و استنتاج
• رویکردهای Agentic: RAG و Tool Calling
🧠 اگر از قبل با مدلهای زبانی آشنا هستید، این دوره فرصت عالی برای مرور عمیق و پیادهسازی از صفر است.
🔗 cme295.stanford.edu/syllabus
📡 @rss_ai_ir
#هوش_مصنوعی #استنفورد #LLM #Transformer #آموزش #DeepLearning #RAG #LoRA #RLHF #AI
  دانشگاه Stanford دورهای تازه با عنوان
«Transformers & Large Language Models»
منتشر کرده است
— تدریس توسط برادران Amidi، و سه جلسهی اول آن بهصورت رایگان در YouTube در دسترس است 🎥💡
این دوره یکی از منسجمترین و بهروزترین منابع برای درک سیستماتیک مدلهای زبانی بزرگ (LLM) به شمار میآید.
📘 سرفصلها:
• مبانی Transformer: توکنسازی، تعبیهها (Embeddings)، Attention و معماری کلی
• مفاهیم اصلی LLM: Mixture of Experts، انواع روشهای دیکدینگ
• آموزش و فاینتیون: SFT، RLHF، LoRA
• ارزیابی مدلها: LLM/VLM-as-a-judge و بهترین روشهای سنجش
• ترفندها و بهینهسازیها: RoPE، تقریب attention، کوانتیزهسازی
• استدلال و مقیاسپذیری در آموزش و استنتاج
• رویکردهای Agentic: RAG و Tool Calling
🧠 اگر از قبل با مدلهای زبانی آشنا هستید، این دوره فرصت عالی برای مرور عمیق و پیادهسازی از صفر است.
🔗 cme295.stanford.edu/syllabus
📡 @rss_ai_ir
#هوش_مصنوعی #استنفورد #LLM #Transformer #آموزش #DeepLearning #RAG #LoRA #RLHF #AI
💡⚡ انقلابی در پردازش تصویر با فوتونها، نه الکترونها!
پژوهشگران دانشگاه Tsinghua نخستین ماژول محاسبات نوری جهان را معرفی کردهاند:
🌀 OFE² — Optical Feature Extraction Engine
در این سیستم، بهجای عبور جریان الکترونی، فوتونها از میان عناصر دیفرکتیو و مدولاتورهای نوری عبور میکنند.
در این مسیر، فاز و دامنهی نور طوری تنظیم میشود که محاسبات ریاضی مورد نظر (مثل convolutions یا فیلترهای ویژگی) بهصورت کاملاً نوری انجام شود — بدون هیچ مدار الکترونیکی 💥
---
🔬 مزیت کلیدی:
از آنجا که نور با سرعت بسیار بالاتر حرکت میکند و گرما تولید نمیکند،
✅ فرکانس کاری بسیار بالاتر
✅ مصرف انرژی صدها برابر کمتر
✅ و زمان پردازش تا ۱۰۰۰ برابر سریعتر از تراشههای الکترونیکی معمولی بهدست میآید!
---
📸 در مقالهی منتشرشده، تیم نشان داده که OFE² میتواند روی وظیفهی واقعی استخراج ویژگی تصویر (Image Feature Extraction) اجرا شود.
به عبارت دیگر، میشود روی این تراشه مستقیماً عملیاتهایی مانند segmentation را انجام داد — کاملاً در دامنهی نوری (Optical Domain)، بدون نیاز به محاسبات هیبریدی 🧠💡
---
⚙️ هنوز این فناوری در مرحلهی تحقیقاتی است، اما نتایج اولیه نشان میدهد که عملکرد آن قابل مقایسه با CNNهای الکترونیکی است — با کسری از انرژی و زمان.
اگر مقیاسپذیری آن تحقق یابد، این میتواند فصل تازهای در پردازش نوری هوش مصنوعی باشد.
📄 [Paper — Tsinghua University, 2025]
📡 @rss_ai_ir
#هوش_مصنوعی #OpticalComputing #Tsinghua #OFE2 #Photonics #AI #DeepLearning #اپتوالکترونیک #CNN
پژوهشگران دانشگاه Tsinghua نخستین ماژول محاسبات نوری جهان را معرفی کردهاند:
🌀 OFE² — Optical Feature Extraction Engine
در این سیستم، بهجای عبور جریان الکترونی، فوتونها از میان عناصر دیفرکتیو و مدولاتورهای نوری عبور میکنند.
در این مسیر، فاز و دامنهی نور طوری تنظیم میشود که محاسبات ریاضی مورد نظر (مثل convolutions یا فیلترهای ویژگی) بهصورت کاملاً نوری انجام شود — بدون هیچ مدار الکترونیکی 💥
---
🔬 مزیت کلیدی:
از آنجا که نور با سرعت بسیار بالاتر حرکت میکند و گرما تولید نمیکند،
✅ فرکانس کاری بسیار بالاتر
✅ مصرف انرژی صدها برابر کمتر
✅ و زمان پردازش تا ۱۰۰۰ برابر سریعتر از تراشههای الکترونیکی معمولی بهدست میآید!
---
📸 در مقالهی منتشرشده، تیم نشان داده که OFE² میتواند روی وظیفهی واقعی استخراج ویژگی تصویر (Image Feature Extraction) اجرا شود.
به عبارت دیگر، میشود روی این تراشه مستقیماً عملیاتهایی مانند segmentation را انجام داد — کاملاً در دامنهی نوری (Optical Domain)، بدون نیاز به محاسبات هیبریدی 🧠💡
---
⚙️ هنوز این فناوری در مرحلهی تحقیقاتی است، اما نتایج اولیه نشان میدهد که عملکرد آن قابل مقایسه با CNNهای الکترونیکی است — با کسری از انرژی و زمان.
اگر مقیاسپذیری آن تحقق یابد، این میتواند فصل تازهای در پردازش نوری هوش مصنوعی باشد.
📄 [Paper — Tsinghua University, 2025]
📡 @rss_ai_ir
#هوش_مصنوعی #OpticalComputing #Tsinghua #OFE2 #Photonics #AI #DeepLearning #اپتوالکترونیک #CNN
🔥2❤1👏1👌1
  📘🤖مجموعه  Hugging Face منتشر کرد: 
Smol Training Playbook
تازهترین منبع آموزشی Hugging Face منتشر شده —
یک پلیبوک رایگان و عملی دربارهی نحوهی ساخت مدلهای SOTA از درون تیمهای تحقیقاتی 💡
بدون حرفهای کلی، فقط جزییات واقعی از تجربیات توسعهدهندگان در طراحی، آموزش و بهینهسازی LLMها.
---
📚 آنچه در پلیبوک میآموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوهی روشن و خاموشکردن یا تعویض ماژولها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاکسازی هوشمند دادهها
• فرآیند آموزش، پسپردازش و RLHF در ۲۰۲۵
• ترفندهای بهینهسازی: RoPE، کوانتیزهسازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدلهای بزرگ
---
🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook
Smol Training Playbook
تازهترین منبع آموزشی Hugging Face منتشر شده —
یک پلیبوک رایگان و عملی دربارهی نحوهی ساخت مدلهای SOTA از درون تیمهای تحقیقاتی 💡
بدون حرفهای کلی، فقط جزییات واقعی از تجربیات توسعهدهندگان در طراحی، آموزش و بهینهسازی LLMها.
---
📚 آنچه در پلیبوک میآموزید:
• منطق ساخت مدل: از «چرا» تا «چگونه»
• نحوهی روشن و خاموشکردن یا تعویض ماژولها در معماری
• طراحی معماری و توازن بین دقت، هزینه و سرعت
• انتخاب و پاکسازی هوشمند دادهها
• فرآیند آموزش، پسپردازش و RLHF در ۲۰۲۵
• ترفندهای بهینهسازی: RoPE، کوانتیزهسازی، attention approximation
• زیرساخت و مهندسی سیستم برای مدلهای بزرگ
---
🔗 لینک مستقیم:
https://huggingface.co/spaces/HuggingFaceTB/smol-training-playbook#designing-the-model-architecture
📡 @rss_ai_ir
#هوش_مصنوعی #HuggingFace #LLM #MachineLearning #DeepLearning #Training #AI #Playbook
🔥1👏1
  This media is not supported in your browser
    VIEW IN TELEGRAM
  🧷 رهگیری نقطهای مولد با Flow Matching (GenPT) 🧷
🔹 مدل Generative Point Tracker (GenPT) چارچوبی نوآورانه برای مدلسازی تراژکتوریهای چندوجهی نقاط است
— یعنی قادر است مسیرهای مختلف و احتمالی حرکت یک نقطه را بهصورت همزمان بیاموزد و بازسازی کند 🎯
این مدل با استفاده از روش Flow Matching (FM)، یاد میگیرد تا الگوهای حرکت پیچیده را در دادههای ویدئویی بازتولید کند و در نتیجه در رهگیری نقاطی که دچار انسداد (occlusion) یا تغییرات شدید صحنه میشوند عملکردی پایدار و دقیق دارد 🔍📸
---
📘 ویژگیهای کلیدی:
• مدل مولد (Generative) برای پیشبینی چند مسیر ممکن از یک نقطه
• بازسازی دقیق مسیر حتی در شرایط ناپدید شدن یا پوشش جزئی شیء
• عملکرد در حد یا بالاتر از مدلهای CNN سنتی در بنچمارکهای PointOdyssey، Dynamic Replica و TAP-Vid
• پیادهسازی متنباز با مجوز MIT 🔵
---
🔗 لینکها:
📘 مقاله:
arxiv.org/pdf/2510.20951
🌐 پروژه:
https://mtesfaldet.net/genpt_projpage/
💾 ریپازیتوری:
github.com/tesfaldet/genpt
📡 @rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #GenPT #FlowMatching #رهگیری_نقطه #AI #DeepLearning #ComputerVision
🔹 مدل Generative Point Tracker (GenPT) چارچوبی نوآورانه برای مدلسازی تراژکتوریهای چندوجهی نقاط است
— یعنی قادر است مسیرهای مختلف و احتمالی حرکت یک نقطه را بهصورت همزمان بیاموزد و بازسازی کند 🎯
این مدل با استفاده از روش Flow Matching (FM)، یاد میگیرد تا الگوهای حرکت پیچیده را در دادههای ویدئویی بازتولید کند و در نتیجه در رهگیری نقاطی که دچار انسداد (occlusion) یا تغییرات شدید صحنه میشوند عملکردی پایدار و دقیق دارد 🔍📸
---
📘 ویژگیهای کلیدی:
• مدل مولد (Generative) برای پیشبینی چند مسیر ممکن از یک نقطه
• بازسازی دقیق مسیر حتی در شرایط ناپدید شدن یا پوشش جزئی شیء
• عملکرد در حد یا بالاتر از مدلهای CNN سنتی در بنچمارکهای PointOdyssey، Dynamic Replica و TAP-Vid
• پیادهسازی متنباز با مجوز MIT 🔵
---
🔗 لینکها:
📘 مقاله:
arxiv.org/pdf/2510.20951
🌐 پروژه:
https://mtesfaldet.net/genpt_projpage/
💾 ریپازیتوری:
github.com/tesfaldet/genpt
📡 @rss_ai_ir
#هوش_مصنوعی #بینایی_ماشین #GenPT #FlowMatching #رهگیری_نقطه #AI #DeepLearning #ComputerVision
👍3🔥1
  🧨 مدل جدید Kimi معرفی شد — Kimi-Linear-48B-A3B-Base
مدل تازهی Kimi با معماری Linear Attention آمده تا نشان دهد میشود با مصرف کمتر حافظه، همان سطح عملکرد مدلهای بزرگ LLM را در متنهای طولانی بهدست آورد ⚡📜
---
💡 ویژگیهای کلیدی:
• تا ۷۵٪ مصرف کمتر حافظهی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانیها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینهشده برای context طولانی و توان عبور بالا (throughput)
---
📊 نتایج بنچمارک:
در آزمونهای reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدلهای MLA و GDN-H پیشی گرفته است 🚀
این مدل نمونهای از روندی است که در آن معماریهای attention خطی نهتنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدلهای کلاسیک نزدیک شدهاند — یا حتی از آنها جلو زدهاند 🧠💬
---
🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning
مدل تازهی Kimi با معماری Linear Attention آمده تا نشان دهد میشود با مصرف کمتر حافظه، همان سطح عملکرد مدلهای بزرگ LLM را در متنهای طولانی بهدست آورد ⚡📜
---
💡 ویژگیهای کلیدی:
• تا ۷۵٪ مصرف کمتر حافظهی KV-cache
• تا ۶.۳ برابر سرعت بیشتر در decode طولانیها
• معماری Hybrid: Kimi Delta Attention + MLA
• بهینهشده برای context طولانی و توان عبور بالا (throughput)
---
📊 نتایج بنچمارک:
در آزمونهای reasoning، تولید طولانی (long-RL) و وظایف متنی با context بالا،
مدل Kimi-Linear-48B-A3B-Base از مدلهای MLA و GDN-H پیشی گرفته است 🚀
این مدل نمونهای از روندی است که در آن معماریهای attention خطی نهتنها از نظر سرعت، بلکه از نظر کیفیت و دقت نیز به سطح مدلهای کلاسیک نزدیک شدهاند — یا حتی از آنها جلو زدهاند 🧠💬
---
🟠 GitHub:
github.com/MoonshotAI/Kimi-Linear
🟠 HuggingFace:
huggingface.co/moonshotai/Kimi-Linear-48B-A3B-Instruct
📡 @rss_ai_ir
#هوش_مصنوعی #Kimi #LLM #Transformer #Attention #AI #DeepLearning #MachineLearning
❤2👏1🙏1
  🔔 پیشرفت بزرگ در هوش مصنوعی الهامگرفته از مغز — کاهش ۹۹٪ مصرف انرژی بدون افت دقت! ⚡🧠
❌پژوهشگران گروه NICE در دانشگاه Surrey روش جدیدی برای اتصال نورونهای مصنوعی طراحی کردهاند که از ساختار مغز انسان الهام گرفته است.
این روش با نام Topographical Sparse Mapping (TSM) شناخته میشود و هدف آن ایجاد شبکههای عصبی کممصرف اما دقیق است.
---
💡 ایدهی اصلی
✳️در شبکههای سنتی، هر نورون تقریباً به همهی نورونهای دیگر متصل است — کاری بسیار پرهزینه از نظر انرژی و زمان.
✳️در روش TSM، هر نورون فقط به نورونهای نزدیک یا مرتبط متصل میشود، درست مانند مغز که اتصالاتش بهینه و موضعی است.
✳️نسخهی پیشرفتهتر، Enhanced TSM (ETSM)، حتی فرآیند هرس (pruning) در مغز را شبیهسازی میکند تا اتصالات غیرضروری در طول یادگیری حذف شوند.
---
⚙️ نتایج شگفتانگیز
♻️تا ۹۹٪ کاهش در تراکم اتصالات (sparsity)
♻️مصرف انرژی کمتر از ۱٪ در مقایسه با روشهای استاندارد
♻️سرعت آموزش بسیار بالاتر
♻️دقتی برابر یا حتی بالاتر از شبکههای کلاسیک 💥
---
این دستاورد میتواند مسیر را برای نسل جدیدی از هوش مصنوعیهای نورومورفیک (Neuromorphic AI) و تراشههای هوشمند فوقکممصرف هموار کند — سامانههایی که واقعاً مانند مغز فکر و یاد میگیرند، نه فقط شبیه آن عمل میکنند.
https://x.com/dr_singularity/status/1984618986043003058?s=12
📡 @rss_ai_ir
#هوش_مصنوعی #Neuroscience #Neuromorphic #TSM #AI #انرژی #BrainInspiredAI #DeepLearning #تکنولوژی
❌پژوهشگران گروه NICE در دانشگاه Surrey روش جدیدی برای اتصال نورونهای مصنوعی طراحی کردهاند که از ساختار مغز انسان الهام گرفته است.
این روش با نام Topographical Sparse Mapping (TSM) شناخته میشود و هدف آن ایجاد شبکههای عصبی کممصرف اما دقیق است.
---
💡 ایدهی اصلی
✳️در شبکههای سنتی، هر نورون تقریباً به همهی نورونهای دیگر متصل است — کاری بسیار پرهزینه از نظر انرژی و زمان.
✳️در روش TSM، هر نورون فقط به نورونهای نزدیک یا مرتبط متصل میشود، درست مانند مغز که اتصالاتش بهینه و موضعی است.
✳️نسخهی پیشرفتهتر، Enhanced TSM (ETSM)، حتی فرآیند هرس (pruning) در مغز را شبیهسازی میکند تا اتصالات غیرضروری در طول یادگیری حذف شوند.
---
⚙️ نتایج شگفتانگیز
♻️تا ۹۹٪ کاهش در تراکم اتصالات (sparsity)
♻️مصرف انرژی کمتر از ۱٪ در مقایسه با روشهای استاندارد
♻️سرعت آموزش بسیار بالاتر
♻️دقتی برابر یا حتی بالاتر از شبکههای کلاسیک 💥
---
این دستاورد میتواند مسیر را برای نسل جدیدی از هوش مصنوعیهای نورومورفیک (Neuromorphic AI) و تراشههای هوشمند فوقکممصرف هموار کند — سامانههایی که واقعاً مانند مغز فکر و یاد میگیرند، نه فقط شبیه آن عمل میکنند.
https://x.com/dr_singularity/status/1984618986043003058?s=12
📡 @rss_ai_ir
#هوش_مصنوعی #Neuroscience #Neuromorphic #TSM #AI #انرژی #BrainInspiredAI #DeepLearning #تکنولوژی
❤1👍1👏1👌1