آموزش LLM و VLM
مدلهای VLM (Vision-Language Model) فقط تصویر و زبان رو ترکیب میکنن و هدفشون درک یا توضیح صحنههاست. اما VLA (Vision-Language-Action)ها یه قدم جلوترن — اونها علاوه بر دیدن و فهمیدن، اقدام هم میکنن؛ یعنی میتونن در محیط واقعی تصمیم بگیرن و عمل کنن. 🔹 تازهترین…
اینم یکی از همراهان عزیز کانال تو نظرات پست قبلی معرفی کرده
AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning
https://autovla.github.io/
#vla
AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning
https://autovla.github.io/
#vla
❤8👍2
Forwarded from Tensorflow(@CVision)
🎉 فقط ۳ روز دیگه (۴ نوامبر) تولد ۹ سالگی کاناله!
به همین مناسبت، تخفیفهای ویژه روی همه دورهها در راهه 😍
هم دورههای کلاسویژن و هم مکتبخونه 🔥
منتظر باشید! 💫
به همین مناسبت، تخفیفهای ویژه روی همه دورهها در راهه 😍
هم دورههای کلاسویژن و هم مکتبخونه 🔥
منتظر باشید! 💫
❤6👍2
Forwarded from 🚀 کلاسویژن | یادگیری هوش مصنوعی از پایه تا پیشرفته
This media is not supported in your browser
VIEW IN TELEGRAM
🎉🎂 تولد ۹ سالگی کانال Tensorflow مبارک! 🎂🎉
به مناسبت این اتفاق خاص، براتون یه تخفیف فوقالعاده در نظر گرفتیم 👇
🔥 ۷۰٪ تخفیف روی همه دورهها
💥 و ۱۰۰٪ تخفیف (رایگان!) برای دوره یادگیری ماشین
📚 دورهها در مکتبخونه:
* 🤖 دوره یادگیری ماشین — کد تخفیف:
* 🧠 دوره دیپلرنینگ — کد تخفیف:
* 🦙 دوره LLM — کد تخفیف:
* 👁 دوره OpenCV — کد تخفیف:
* 📸 دوره Vision-Language Models (VLM) — کد تخفیف:
🎓 همچنین تمامی دورههای کلاسویژن (از مقدمات تا GNN!)
در دسترس شماست با ۷۰٪ تخفیف
🔗 https://class.vision/
کد تخفیف:
⏰ فقط تا 22 آبان! فرصت رو از دست نده و با این تخفیف ویژه شروع کن 🚀
به مناسبت این اتفاق خاص، براتون یه تخفیف فوقالعاده در نظر گرفتیم 👇
🔥 ۷۰٪ تخفیف روی همه دورهها
💥 و ۱۰۰٪ تخفیف (رایگان!) برای دوره یادگیری ماشین
📚 دورهها در مکتبخونه:
* 🤖 دوره یادگیری ماشین — کد تخفیف:
happy9-ml* 🧠 دوره دیپلرنینگ — کد تخفیف:
happy9-dl* 🦙 دوره LLM — کد تخفیف:
happy9-llm* 👁 دوره OpenCV — کد تخفیف:
happy9-opencv* 📸 دوره Vision-Language Models (VLM) — کد تخفیف:
happy9-vlm🎓 همچنین تمامی دورههای کلاسویژن (از مقدمات تا GNN!)
در دسترس شماست با ۷۰٪ تخفیف
🔗 https://class.vision/
کد تخفیف:
haapy9⏰ فقط تا 22 آبان! فرصت رو از دست نده و با این تخفیف ویژه شروع کن 🚀
🔥8❤1
Forwarded from Tensorflow(@CVision) (𝘴𝘪𝘯𝘢)
🧠 Gemini 2.5 Computer Use
هوش مصنوعی پشت موس و کیبورد!
گوگل دیپمایند مدل جدیدی از خانواده Gemini معرفی کرده که میتونه مستقیماً با رابطهای کاربری کار کنه، یعنی خودش کلیک کنه، تایپ کنه، اسکرول کنه و از طریق مرورگر یا موبایل، کاربر رو در محیط واقعی نرمافزار شبیهسازی کنه.
این مدل با ابزار جدید computer_use در Gemini API عرضه شده و با دریافت اسکرینشات و دستور کاربر، اقدام بعدی رو پیشبینی میکنه. فعلاً تمرکز روی کنترل مرورگر و اپهای موبایل هست، اما بهزودی دامنهاش گستردهتر میشه.
💡 در بنچمارکهای Web و Android، Gemini 2.5 عملکرد بهتری از مدلهای قبلی نشون داده و از نظر ایمنی هم سیستم تأیید اقدامات حساس رو داره.
🔧 فعلاً در مرحلهی پیشنمایش (Preview) از طریق Google AI Studio و Vertex AI در دسترسه.
📎 جزئیات بیشتر در وبلاگ رسمی گوگل:
🔗 blog.google 🔗
🌀 @cvision 🌀
هوش مصنوعی پشت موس و کیبورد!
گوگل دیپمایند مدل جدیدی از خانواده Gemini معرفی کرده که میتونه مستقیماً با رابطهای کاربری کار کنه، یعنی خودش کلیک کنه، تایپ کنه، اسکرول کنه و از طریق مرورگر یا موبایل، کاربر رو در محیط واقعی نرمافزار شبیهسازی کنه.
این مدل با ابزار جدید computer_use در Gemini API عرضه شده و با دریافت اسکرینشات و دستور کاربر، اقدام بعدی رو پیشبینی میکنه. فعلاً تمرکز روی کنترل مرورگر و اپهای موبایل هست، اما بهزودی دامنهاش گستردهتر میشه.
💡 در بنچمارکهای Web و Android، Gemini 2.5 عملکرد بهتری از مدلهای قبلی نشون داده و از نظر ایمنی هم سیستم تأیید اقدامات حساس رو داره.
🔧 فعلاً در مرحلهی پیشنمایش (Preview) از طریق Google AI Studio و Vertex AI در دسترسه.
📎 جزئیات بیشتر در وبلاگ رسمی گوگل:
🔗 blog.google 🔗
🌀 @cvision 🌀
❤5👍1
🔥 یه انقلاب عجیب تو دنیای وب شروع شده!
تا حالا فکر کردید هوش مصنوعی رو بدون هیچ سرور و هیچ فریمورکی، تنها تو مرورگر اجرا کنید؟ 😱
🎯 قابلیت PromptAPI و مدلهای SLM (LLMهای کوچک) دارن رسماً راه رو برای یه نسل جدید از اپلیکیشنهای هوشمند باز میکنن!
🧠 مرورگرهای جدید مثل Chrome و Edge الآن به صورت نیتیو از مدلهای زبانی پشتیبانی میکنن! یعنی فقط با ۵ خط کد جاوااسکریپت ساده میتونی یه چتبات، مترجم، خلاصهساز، تحلیلگر متن یا هر ابزار هوشمند دیگه بسازی — اونم بدون فرستادن حتی یک بایت به سرور! 😳
چرا باید همین الآن یادش بگیری؟ 👇
⚡️ هیچ دیتایی به هیچ سروری نمیره — همهچی لوکال روی دستگاه خود کاربر
🔐 پرایوسی در اوج — حتی آفلاین هم کار میکنه!
💡 هیچ لایبرری لازم نیست؛ خود JS و مرورگر این قابلیت رو دارن
🌍 استاندارد شده توسط W3C و قرار آینده Web Development رو تغییر بده
🛠 ساخت اپهای هوش مصنوعی فقط با HTML + JS
🤖 خروجیهات رو میتونی قالبدار و قابل کنترل تحویل بگیری
💥 اگه وب دولوپری و اینو بلد نیستی، جدی به فکر یه آپدیت بزرگ باش!
😎 اگه وب کار نیستی هم نیستی هم عاشقش میشی چون به معنی واقعی کلمه فقط با یک فایل index.html میتونی یه مدل زبان داشته باشی 🤯
📚 خبر خوب!
همین هفته یه مینیدورهی ۳ ساعته در مورد همین موضوع منتشر میشه!
📘 حتی اگه جاوااسکریپت بلد نیستی، یه فصل 0 (مقدمه JS) برای مبتدیها داریم
🔁 اگه بلدی — مستقیم میری سراغ ساخت و تجربهاش!
📍 برای شروع فقط لازمه:
یه مرورگر آپدیتشده (Chrome یا Edge)
یه سیستم نسبتا خوب (حتی اگر کارت گرافیک نداری با CPU خوب)
یه فایل index.html
پنج خط کد ساده برای فراخوانی مدل زبانی 🤯
🧪 چی میتونی بسازی؟
چتبات تو بلاگ بدون بکاند
درک تصویر و OCR و تحلیل تصویر فقط تو مرورگر
مترجم، خلاصهساز، 🎭 تحلیلگر احساس
اپهای آفلاین با هوش مصنوعی
ابزارهای آموزشی تعاملی
اگر میخوای جزو اولین کسایی باشی که این قابلیت رو یاد میگیرن، منتظر انتشار دوره باش...
تا حالا فکر کردید هوش مصنوعی رو بدون هیچ سرور و هیچ فریمورکی، تنها تو مرورگر اجرا کنید؟ 😱
🎯 قابلیت PromptAPI و مدلهای SLM (LLMهای کوچک) دارن رسماً راه رو برای یه نسل جدید از اپلیکیشنهای هوشمند باز میکنن!
🧠 مرورگرهای جدید مثل Chrome و Edge الآن به صورت نیتیو از مدلهای زبانی پشتیبانی میکنن! یعنی فقط با ۵ خط کد جاوااسکریپت ساده میتونی یه چتبات، مترجم، خلاصهساز، تحلیلگر متن یا هر ابزار هوشمند دیگه بسازی — اونم بدون فرستادن حتی یک بایت به سرور! 😳
چرا باید همین الآن یادش بگیری؟ 👇
⚡️ هیچ دیتایی به هیچ سروری نمیره — همهچی لوکال روی دستگاه خود کاربر
🔐 پرایوسی در اوج — حتی آفلاین هم کار میکنه!
💡 هیچ لایبرری لازم نیست؛ خود JS و مرورگر این قابلیت رو دارن
🌍 استاندارد شده توسط W3C و قرار آینده Web Development رو تغییر بده
🛠 ساخت اپهای هوش مصنوعی فقط با HTML + JS
🤖 خروجیهات رو میتونی قالبدار و قابل کنترل تحویل بگیری
💥 اگه وب دولوپری و اینو بلد نیستی، جدی به فکر یه آپدیت بزرگ باش!
😎 اگه وب کار نیستی هم نیستی هم عاشقش میشی چون به معنی واقعی کلمه فقط با یک فایل index.html میتونی یه مدل زبان داشته باشی 🤯
📚 خبر خوب!
همین هفته یه مینیدورهی ۳ ساعته در مورد همین موضوع منتشر میشه!
📘 حتی اگه جاوااسکریپت بلد نیستی، یه فصل 0 (مقدمه JS) برای مبتدیها داریم
🔁 اگه بلدی — مستقیم میری سراغ ساخت و تجربهاش!
📍 برای شروع فقط لازمه:
یه مرورگر آپدیتشده (Chrome یا Edge)
یه سیستم نسبتا خوب (حتی اگر کارت گرافیک نداری با CPU خوب)
یه فایل index.html
پنج خط کد ساده برای فراخوانی مدل زبانی 🤯
🧪 چی میتونی بسازی؟
چتبات تو بلاگ بدون بکاند
درک تصویر و OCR و تحلیل تصویر فقط تو مرورگر
مترجم، خلاصهساز، 🎭 تحلیلگر احساس
اپهای آفلاین با هوش مصنوعی
ابزارهای آموزشی تعاملی
اگر میخوای جزو اولین کسایی باشی که این قابلیت رو یاد میگیرن، منتظر انتشار دوره باش...
🔥11👍1
This media is not supported in your browser
VIEW IN TELEGRAM
این یکی از خفنترین دموهای Hugging Face توی این روزهاست: «کنترل دوربین» که با LoRA روی مدل Qwen Image Edit آموزش داده شده 🤯
👀 چی کار میکنه؟
کافیه یه تصویر آپلود کنی، بعد میتونی با چند تا کلیک، زاویه دوربین رو عوض کنی و یه صحنه کاملاً جدید بسازی!
از چرخوندن دوربین به چپ و راست گرفته تا جلو رفتن، زوم کردن، یا حتی تغییر زاویه نگاه از دید پرنده تا دید کرم (bird’s-eye / worm’s-eye) – همهش با یه کلیک!
🎯 این یعنی چی؟
یه ویژگی بینظیر اضافه شده: کنترل کامل زاویه دوربین توی مدلهای ویرایش تصویر.
یه چیزی که حتی Google Nano Banana هنوز نداره!
🔧 تکنیک LoRA چیه؟
همون طور که تو فصل 4 کورس LLM دیدیم LoRA یا Low-Rank Adaptation یه تکنیکیه که فقط بخش کوچیکی از پارامترهای مدل رو آموزش میده، بدون اینکه کل مدل از صفر آموزش داده بشه.
اینجا هم LoRA روی مدل Qwen Image Edit بدون نیاز به آموزش دوباره کل مدل استفاده کردن
⚡️ نکته باحال:
این پروژه از نسخهای بهینه به نام Rapid-AIO استفاده میکنه که سرعت پردازش رو خیلی بالا برده — خروجی رو فقط تو چهار مرحله میگیری!
پست مرتبط در توئیتر | دمو در هاگینگ فیس
👀 چی کار میکنه؟
کافیه یه تصویر آپلود کنی، بعد میتونی با چند تا کلیک، زاویه دوربین رو عوض کنی و یه صحنه کاملاً جدید بسازی!
از چرخوندن دوربین به چپ و راست گرفته تا جلو رفتن، زوم کردن، یا حتی تغییر زاویه نگاه از دید پرنده تا دید کرم (bird’s-eye / worm’s-eye) – همهش با یه کلیک!
🎯 این یعنی چی؟
یه ویژگی بینظیر اضافه شده: کنترل کامل زاویه دوربین توی مدلهای ویرایش تصویر.
یه چیزی که حتی Google Nano Banana هنوز نداره!
🔧 تکنیک LoRA چیه؟
همون طور که تو فصل 4 کورس LLM دیدیم LoRA یا Low-Rank Adaptation یه تکنیکیه که فقط بخش کوچیکی از پارامترهای مدل رو آموزش میده، بدون اینکه کل مدل از صفر آموزش داده بشه.
اینجا هم LoRA روی مدل Qwen Image Edit بدون نیاز به آموزش دوباره کل مدل استفاده کردن
⚡️ نکته باحال:
این پروژه از نسخهای بهینه به نام Rapid-AIO استفاده میکنه که سرعت پردازش رو خیلی بالا برده — خروجی رو فقط تو چهار مرحله میگیری!
پست مرتبط در توئیتر | دمو در هاگینگ فیس
❤10😱1
This media is not supported in your browser
VIEW IN TELEGRAM
🎓 مینی دوره: ساخت هوش مصنوعی شخصی در مرورگر
https://mktb.me/5kkw/
تو این مینی دوره یاد میگیری چطور یک Local LLM و حتی VLM رو مستقیم تو مرورگر اجرا و شخصیسازی کنی—بدون نیاز به سرور، پردازش ابری، فریمورک یا لایبری اضافی!
💡 آنچه یاد میگیرید:
- اصول پایهای جاوااسکریپت برای کار با مدلهای AI در مرورگر
- کار با Prompt API برای مدیریت و کنترل پاسخهای مدل
- شخصیسازی خروجی با Initial Prompts و JSON Schema
- پیادهسازی VLM برای تحلیل تصاویر و OCR
📌 سرفصلها:
🚀 آمادهای مهارتت در ساخت هوش مصنوعی شخصی رو یک پله بالاتر ببری؟
https://mktb.me/5kkw/
کد تخفیف 60 درصدی ویژه انتشار مینی دوره:
سایت دوره:
https://jsai.ir/
https://mktb.me/5kkw/
تو این مینی دوره یاد میگیری چطور یک Local LLM و حتی VLM رو مستقیم تو مرورگر اجرا و شخصیسازی کنی—بدون نیاز به سرور، پردازش ابری، فریمورک یا لایبری اضافی!
💡 آنچه یاد میگیرید:
- اصول پایهای جاوااسکریپت برای کار با مدلهای AI در مرورگر
- کار با Prompt API برای مدیریت و کنترل پاسخهای مدل
- شخصیسازی خروجی با Initial Prompts و JSON Schema
- پیادهسازی VLM برای تحلیل تصاویر و OCR
📌 سرفصلها:
راه اندازی Local LLM در مرورگر
شروع کار با Prompt API
نکات تکمیلی Prompt API
استفاده از Prompt Streaming یا پاسخدهی همزمان Local LLM
متوقف کردن پاسخدهی Local LLM با Aborting
پاک کردن حافظه Local LLM
اختصاصیسازی خروجی با Initial Prompts
اختصاصیسازی خروجی با JSON Schema
پیادهسازی VLM یا تحلیل تصاویر در Google Chrome
سایر APIها و راهنمای ادامه مسیر
🚀 آمادهای مهارتت در ساخت هوش مصنوعی شخصی رو یک پله بالاتر ببری؟
https://mktb.me/5kkw/
کد تخفیف 60 درصدی ویژه انتشار مینی دوره:
COUPON-35715
سایت دوره:
https://jsai.ir/
🔥5❤3👌1
به زودی تعداد کد تخفیف ۷۰ درصد برای نفرات اول که ثبت نام میکنند نیز در کانال قرار گرفته میشه نهایتاً تا یک ساعت آینده
👍1
این کد تخفیف به تعداد محدود و به مدت 3 روز روی دوره جدید فعال است
70 درصدی:
70 درصدی:
COUPON-52f8c
❤9
Media is too big
VIEW IN TELEGRAM
🎓 مینی دوره: ساخت هوش مصنوعی شخصی در مرورگر
https://mktb.me/5kkw/
تو این مینی دوره یاد میگیری چطور یک Local LLM و حتی VLM رو مستقیم تو مرورگر اجرا و شخصیسازی کنی—بدون نیاز به سرور، پردازش ابری، فریمورک یا لایبری اضافی!
💡 آنچه یاد میگیرید:
- اصول پایهای جاوااسکریپت برای کار با مدلهای AI در مرورگر
- کار با Prompt API برای مدیریت و کنترل پاسخهای مدل
- شخصیسازی خروجی با Initial Prompts و JSON Schema
- پیادهسازی VLM برای تحلیل تصاویر و OCR
📌 سرفصلها:
🚀 آمادهای مهارتت در ساخت هوش مصنوعی شخصی رو یک پله بالاتر ببری؟
https://mktb.me/5kkw/
کد تخفیف 60 درصدی ویژه انتشار مینی دوره:
سایت دوره:
https://jsai.ir/
https://mktb.me/5kkw/
تو این مینی دوره یاد میگیری چطور یک Local LLM و حتی VLM رو مستقیم تو مرورگر اجرا و شخصیسازی کنی—بدون نیاز به سرور، پردازش ابری، فریمورک یا لایبری اضافی!
💡 آنچه یاد میگیرید:
- اصول پایهای جاوااسکریپت برای کار با مدلهای AI در مرورگر
- کار با Prompt API برای مدیریت و کنترل پاسخهای مدل
- شخصیسازی خروجی با Initial Prompts و JSON Schema
- پیادهسازی VLM برای تحلیل تصاویر و OCR
📌 سرفصلها:
راه اندازی Local LLM در مرورگر
شروع کار با Prompt API
نکات تکمیلی Prompt API
استفاده از Prompt Streaming یا پاسخدهی همزمان Local LLM
متوقف کردن پاسخدهی Local LLM با Aborting
پاک کردن حافظه Local LLM
اختصاصیسازی خروجی با Initial Prompts
اختصاصیسازی خروجی با JSON Schema
پیادهسازی VLM یا تحلیل تصاویر در Google Chrome
سایر APIها و راهنمای ادامه مسیر
🚀 آمادهای مهارتت در ساخت هوش مصنوعی شخصی رو یک پله بالاتر ببری؟
https://mktb.me/5kkw/
کد تخفیف 60 درصدی ویژه انتشار مینی دوره:
COUPON-35715سایت دوره:
https://jsai.ir/
❤4
استفاده از فرمت مناسب داده برای کاهش توکن ها!
آیا TOON هزینه استفاده از LLM شما را کم میکند؟ بله امانه همیشه!
سوالی که خیلی پرسیده میشه اینه که آیا TOON نسبت به Json توکن کمتری مصرف میکند؟
جواب کوتاه: در بسیاری از جدولها، ۳۰–۶۰٪ کمتر!
اما سؤال واقعی برای مهندسین AI این است:
دادههایتان جدولی هستند یا درختی؟ TOON در جدولهای بزرگ و تکراری عالی است، اما در JSON پیچیده ممکن است نتیجه معکوس بدهد.
آیا مشکل فرمت دارید یا معماری سیستم؟ اگر هنوز همه دادهها را به مدل میفرستید، انتخاب فرمت فقط یک بهینهسازی جزئی است.
💡 نکته اصلی:
دادههای درختی → JSON
دادههای مسطح و تحلیلی → CSV
پرامپتهای LLM با جدولهای بزرگ و تکراری → TOON
امروزه، فرمت داده بخشی از پرامپت انجینیرینگ است، نه فقط پسوند فایل!
https://github.com/toon-format/toon
آیا TOON هزینه استفاده از LLM شما را کم میکند؟ بله امانه همیشه!
سوالی که خیلی پرسیده میشه اینه که آیا TOON نسبت به Json توکن کمتری مصرف میکند؟
جواب کوتاه: در بسیاری از جدولها، ۳۰–۶۰٪ کمتر!
اما سؤال واقعی برای مهندسین AI این است:
دادههایتان جدولی هستند یا درختی؟ TOON در جدولهای بزرگ و تکراری عالی است، اما در JSON پیچیده ممکن است نتیجه معکوس بدهد.
آیا مشکل فرمت دارید یا معماری سیستم؟ اگر هنوز همه دادهها را به مدل میفرستید، انتخاب فرمت فقط یک بهینهسازی جزئی است.
💡 نکته اصلی:
دادههای درختی → JSON
دادههای مسطح و تحلیلی → CSV
پرامپتهای LLM با جدولهای بزرگ و تکراری → TOON
امروزه، فرمت داده بخشی از پرامپت انجینیرینگ است، نه فقط پسوند فایل!
https://github.com/toon-format/toon
👍6❤5
یه نفر رفته system promptهای پشتپردهٔ کلی ابزار و چتبات معروف رو از طریق یه leak بزرگ پیدا کرده و همشو منتشر کرده!
الان یک ریپو تو گیتهاب هست که عملاً تبدیل شده به آرشیوی از مغزِ واقعی ابزارهای هوش مصنوعی — از Cursor و Devin گرفته تا Claude، Replit، Perplexity و دهها ابزار دیگه.
اگه میخواید ببینید این ابزارها پشت صحنه چه قوانین، چه نقشها و چه پرامپتهایی دارن، این ریپو واقعاً مثل گنج میمونه.
حتی میتونید برای طراحی agent یا پرامپتهاتون ازش ایده بگیرید.
https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools
الان یک ریپو تو گیتهاب هست که عملاً تبدیل شده به آرشیوی از مغزِ واقعی ابزارهای هوش مصنوعی — از Cursor و Devin گرفته تا Claude، Replit، Perplexity و دهها ابزار دیگه.
اگه میخواید ببینید این ابزارها پشت صحنه چه قوانین، چه نقشها و چه پرامپتهایی دارن، این ریپو واقعاً مثل گنج میمونه.
حتی میتونید برای طراحی agent یا پرامپتهاتون ازش ایده بگیرید.
https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools
👍8❤5🔥5
🚀 New Course: Semantic Caching for AI Agents
https://www.deeplearning.ai/short-courses/semantic-caching-for-ai-agents/
https://www.deeplearning.ai/short-courses/semantic-caching-for-ai-agents/
DeepLearning.AI - Learning Platform
Semantic Caching for AI Agents
Speed up and reduce the costs of your AI agents by implementing semantic caching that reuses responses based on meaning rather than exact text.
❤1
تشخیص اشیا با Qwen3-VL به روش open vocabulary!
پرامپت: «person between albert and marie»
(فرد بین آلبرت و ماری)
مدل باید نامهای «albert» و «marie» را در این عکس به آلبرت اینشتین و ماری کوری نگاشت کند، چهرهها و جایگاه آنها را تشخیص دهد و مفهوم «بین» را درست تفسیر کند تا فرد صحیح را پیدا کند.
کتابخانه Supervision از گروه roboflow کار با مدلهای چندوجهی (VLMها) را به این منظور سادهتر میکند. شما متن را پردازش میکنید، آن را به یک فرمت آشنا مثل باکسهای تشخیص تبدیل میکنید و نتیجه را بهصورت بصری نمایش میدهید.
کتابخانه Supervision از مدلهای دیگر مثل Qwen-VL، Google Gemini و DeepSeek-VL و ... پشتیبانی میکند.
نوت بوک:
https://github.com/Alireza-Akhavan/LLM/blob/main/open_vocabulary_object_detection_with_qwen3_vl.ipynb
همین امروز یادگیری VLM را شروع کنید.
پرامپت: «person between albert and marie»
(فرد بین آلبرت و ماری)
مدل باید نامهای «albert» و «marie» را در این عکس به آلبرت اینشتین و ماری کوری نگاشت کند، چهرهها و جایگاه آنها را تشخیص دهد و مفهوم «بین» را درست تفسیر کند تا فرد صحیح را پیدا کند.
کتابخانه Supervision از گروه roboflow کار با مدلهای چندوجهی (VLMها) را به این منظور سادهتر میکند. شما متن را پردازش میکنید، آن را به یک فرمت آشنا مثل باکسهای تشخیص تبدیل میکنید و نتیجه را بهصورت بصری نمایش میدهید.
TARGET = "person between albert and marie"
image = Image.open(IMAGE).convert("RGB")
response = qwen_detect(image, TARGET)
detections = sv.Detections.from_vlm(
vlm=sv.VLM.QWEN_3_VL,
result=response,
resolution_wh=image.size
)
کتابخانه Supervision از مدلهای دیگر مثل Qwen-VL، Google Gemini و DeepSeek-VL و ... پشتیبانی میکند.
نوت بوک:
https://github.com/Alireza-Akhavan/LLM/blob/main/open_vocabulary_object_detection_with_qwen3_vl.ipynb
همین امروز یادگیری VLM را شروع کنید.
👍5❤2
مثال دیگر برای تشخیص zero-shot پرامپت "yellow taxi"
https://t.me/llm_huggingface/161
IMAGE = "/content/traffic_jam.jpg"
TARGET = "yellow taxi"
image = Image.open(IMAGE).convert("RGB")
response = qwen_detect(image, TARGET)
print(response)
detections = sv.Detections.from_vlm(
vlm=sv.VLM.QWEN_3_VL,
result=response,
resolution_wh=image.size
)
annotated_image = image.copy()
annotated_image = annotate_image(image=annotated_image, detections=detections)
annotated_image.thumbnail((800, 800))
annotated_image
https://t.me/llm_huggingface/161
❤10🤔2👍1
vLLM: Deploying LLMs at Scale Like OpenAI
https://learnopencv.com/vllm-deploy-llms-at-scale-paged-attention/
https://learnopencv.com/vllm-deploy-llms-at-scale-paged-attention/
❤3👍2
به بهانه بلک فرایدی
برای همراهانی که هنوز شروع نکردند 👇
🎓 دوره جامع LLM
با تخفیف ۷۰٪ واقعی
🎟 بلیط ورود به دنیای مدلهای زبانی بزرگ 🚀
کد تخفیف:
⏳ فقط برای مدت محدود - تا 10 آذرماه
https://mktb.me/04dr/
برای همراهانی که هنوز شروع نکردند 👇
🎓 دوره جامع LLM
با تخفیف ۷۰٪ واقعی
🎟 بلیط ورود به دنیای مدلهای زبانی بزرگ 🚀
کد تخفیف:
COUPON-fa527⏳ فقط برای مدت محدود - تا 10 آذرماه
https://mktb.me/04dr/
مکتبخونه
آموزش هوش مصنوعی مولد با مدلهای زبانی بزرگ (LLM)
در این دوره ابتدا ساختار مدلهای زبانی و مفاهیم پایهای مانند زبان طبیعی، توکنسازی، ترنسفورمر و attention آموزش داده میشود. سپس مسیر آموزش این مدلها از مرحله پیشتمرین (pretraining) تا ریزتنظیم (fine-tuning) بررسی میشود.
🔥2🙏2
This media is not supported in your browser
VIEW IN TELEGRAM
🎓 دوره جامع آموزش هوش مصنوعی مولد با مدلهای زبانی بزرگ (LLM)
اگر میخواید بدونین مدلهایی مثل ChatGPT، Gemini یا Grok چطور ساخته میشن، چطور آموزش میبینن و چطور میتونن به زبانهای مختلف از جمله فارسی پاسخ بدن، این دوره دقیقاً همون چیزیه که دنبالش هستین.
📚 در این دوره یاد میگیرین:
- مدلهای زبانی بزرگ دقیقاً چی هستن و چطور کار میکنن
- مفاهیم پایهای مثل زبان طبیعی، ترنسفورمر و attention
- مراحل آموزش مدلها از pretraining تا fine-tuning
- روشهای پیشرفته مثل instruction tuning، RLHF، DPO و GRPO
📂 به همراه حدود 20 نوتبوک پروژهمحور و قابل اجرا
👨🏫 تدریس توسط مهندس علیرضا اخوانپور
💡 مناسب برای دانشجویان، پژوهشگران و علاقهمندان به AI و NLP
🔗 لینک دوره | 📄سرفصلها
🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆
🎓ما رو تو اینستاگرام هم دنبال کنید...
https://www.instagram.com/class.vision
#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتبخونه #کلاس_ویژن #علیرضا_اخوان_پور
اگر میخواید بدونین مدلهایی مثل ChatGPT، Gemini یا Grok چطور ساخته میشن، چطور آموزش میبینن و چطور میتونن به زبانهای مختلف از جمله فارسی پاسخ بدن، این دوره دقیقاً همون چیزیه که دنبالش هستین.
📚 در این دوره یاد میگیرین:
- مدلهای زبانی بزرگ دقیقاً چی هستن و چطور کار میکنن
- مفاهیم پایهای مثل زبان طبیعی، ترنسفورمر و attention
- مراحل آموزش مدلها از pretraining تا fine-tuning
- روشهای پیشرفته مثل instruction tuning، RLHF، DPO و GRPO
📂 به همراه حدود 20 نوتبوک پروژهمحور و قابل اجرا
👨🏫 تدریس توسط مهندس علیرضا اخوانپور
💡 مناسب برای دانشجویان، پژوهشگران و علاقهمندان به AI و NLP
🔗 لینک دوره | 📄سرفصلها
🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆
🎓ما رو تو اینستاگرام هم دنبال کنید...
https://www.instagram.com/class.vision
#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتبخونه #کلاس_ویژن #علیرضا_اخوان_پور
👍3❤1
Media is too big
VIEW IN TELEGRAM
🌟 مدلهای زبانی-تصویری (VLM)| مدرس: علیرضا اخوانپور
مدلهای زبانی-تصویری (VLM) نسل جدیدی از مدلهای مولد هستن که علاوه بر متن، تصویر رو هم میفهمن. یعنی میتونن عکس رو توصیف کنن، به سوال دربارهی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.
📚 در این دوره یاد میگیرید:
🔗 مشاهده دوره:
https://mktb.me/e3gx/
~~~
کانال تلگرامی دوره
@llm_huggingface
مدلهای زبانی-تصویری (VLM) نسل جدیدی از مدلهای مولد هستن که علاوه بر متن، تصویر رو هم میفهمن. یعنی میتونن عکس رو توصیف کنن، به سوال دربارهی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.
📚 در این دوره یاد میگیرید:
- ساختار و معماری مدلهای VLM
- کاربردهای جذاب مثل پرسشوپاسخ تصویری و مولتیمودال
- نحوهی آموزش و بهکارگیری این مدلها در پروژههای واقعی
🔗 مشاهده دوره:
https://mktb.me/e3gx/
~~~
کانال تلگرامی دوره
@llm_huggingface
👍3
مسیر حرفهای یادگیری مدلهای زبانی و چند وجهی
از Deep Learning تا LLM و VLM
اگر میخواهید بهصورت اصولی وارد دنیای مدلهای زبانی بزرگ و مدلهای چندوجهی شوید، این مسیر آموزشی پیشنهاد میشود:
🧠 مرحله اول: دوره جامع Deep Learning
پایهایترین و ضروریترین گام برای ورود حرفهای به هوش مصنوعی.
شامل مفاهیم کلیدی یادگیری عمیق
🔗 لینک دوره: https://mktb.me/2klm/
🤖 مرحله دوم: دوره جامع LLM
اینجا قلب ماجرا است، در این دوره بهصورت مفهومی و پروژهمحور یاد میگیرید:
🔗 لینک دوره: https://mktb.me/04dr/
🖼 مرحله سوم: دوره VLM (مدلهای چندوجهی متن-تصویر)
اگر میخواهید فراتر از متن بروید و وارد دنیای مدلهای بینایی-زبانی شوید، این مرحله مخصوص شماست.
در این دوره با معماریها و کاربردهای VLM آشنا میشوید؛ مثل:
🔗 لینک دوره: https://mktb.me/e3gx/
از Deep Learning تا LLM و VLM
اگر میخواهید بهصورت اصولی وارد دنیای مدلهای زبانی بزرگ و مدلهای چندوجهی شوید، این مسیر آموزشی پیشنهاد میشود:
🧠 مرحله اول: دوره جامع Deep Learning
پایهایترین و ضروریترین گام برای ورود حرفهای به هوش مصنوعی.
شامل مفاهیم کلیدی یادگیری عمیق
🔗 لینک دوره: https://mktb.me/2klm/
🤖 مرحله دوم: دوره جامع LLM
اینجا قلب ماجرا است، در این دوره بهصورت مفهومی و پروژهمحور یاد میگیرید:
طراحی و آموزش مدلهای زبانی بزرگ
مفاهیم کلیدی مثل Transformer، Attention، Instruction Tuning
روشهای پیشرفته مثل RLHF، DPO، GRPO و RAG
ساخت اپلیکیشنهای مبتنی بر LLM
🔗 لینک دوره: https://mktb.me/04dr/
🖼 مرحله سوم: دوره VLM (مدلهای چندوجهی متن-تصویر)
اگر میخواهید فراتر از متن بروید و وارد دنیای مدلهای بینایی-زبانی شوید، این مرحله مخصوص شماست.
در این دوره با معماریها و کاربردهای VLM آشنا میشوید؛ مثل:
درک و تحلیل تصویر با مدلهای چندوجهی
Visual QA
OCR و سیستمهای ترکیبی متن-تصویر
فاین تیون VLM ها
🔗 لینک دوره: https://mktb.me/e3gx/
❤5