آموزش LLM و VLM

مدل‌های VLM (Vision-Language Model) فقط تصویر و زبان رو ترکیب می‌کنن و هدفشون درک یا توضیح صحنه‌هاست. اما VLA (Vision-Language-Action)ها یه قدم جلوترن — اون‌ها علاوه بر دیدن و فهمیدن، اقدام هم می‌کنن؛ یعنی می‌تونن در محیط واقعی تصمیم بگیرن و عمل کنن. 🔹 تازه‌ترین…

اینم یکی از همراهان عزیز کانال تو نظرات پست قبلی معرفی کرده

AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

https://autovla.github.io/

#vla

❤8👍2

7.86K viewsedited 19:32

آموزش LLM و VLM

Forwarded from Tensorflow(@CVision)

🎉 فقط ۳ روز دیگه (۴ نوامبر) تولد ۹ سالگی کاناله!
به همین مناسبت، تخفیف‌های ویژه روی همه دوره‌ها در راهه 😍
هم دوره‌های کلاس‌ویژن و هم مکتب‌خونه 🔥
منتظر باشید! 💫

❤6👍2

1.76K views17:17

آموزش LLM و VLM

Forwarded from 🚀 کلاس‌ویژن | یادگیری هوش مصنوعی از پایه تا پیشرفته

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

🎉🎂 تولد ۹ سالگی کانال Tensorflow مبارک! 🎂🎉
به مناسبت این اتفاق خاص، براتون یه تخفیف فوق‌العاده در نظر گرفتیم 👇

🔥 ۷۰٪ تخفیف روی همه دوره‌ها
💥 و ۱۰۰٪ تخفیف (رایگان!) برای دوره یادگیری ماشین

📚 دوره‌ها در مکتب‌خونه:

* 🤖 دوره یادگیری ماشین — کد تخفیف: happy9-ml
* 🧠 دوره دیپ‌لرنینگ — کد تخفیف: happy9-dl
* 🦙 دوره LLM — کد تخفیف: happy9-llm
* 👁 دوره OpenCV — کد تخفیف: happy9-opencv
* 📸 دوره Vision-Language Models (VLM) — کد تخفیف: happy9-vlm

🎓 همچنین تمامی دوره‌های کلاس‌ویژن (از مقدمات تا GNN!)
در دسترس شماست با ۷۰٪ تخفیف
🔗 https://class.vision/
کد تخفیف: haapy9

⏰ فقط تا 22 آبان! فرصت رو از دست نده و با این تخفیف ویژه شروع کن 🚀

🔥8❤1

2.02K views12:42

آموزش LLM و VLM

Forwarded from Tensorflow(@CVision) (𝘴𝘪𝘯𝘢)

🧠 Gemini 2.5 Computer Use
هوش مصنوعی پشت موس و کیبورد!

گوگل دیپ‌مایند مدل جدیدی از خانواده Gemini معرفی کرده که می‌تونه مستقیماً با رابط‌های کاربری کار کنه، یعنی خودش کلیک کنه، تایپ کنه، اسکرول کنه و از طریق مرورگر یا موبایل، کاربر رو در محیط واقعی نرم‌افزار شبیه‌سازی کنه.

این مدل با ابزار جدید computer_use در Gemini API عرضه شده و با دریافت اسکرین‌شات و دستور کاربر، اقدام بعدی رو پیش‌بینی می‌کنه. فعلاً تمرکز روی کنترل مرورگر و اپ‌های موبایل هست، اما به‌زودی دامنه‌اش گسترده‌تر می‌شه.

💡 در بنچ‌مارک‌های Web و Android، Gemini 2.5 عملکرد بهتری از مدل‌های قبلی نشون داده و از نظر ایمنی هم سیستم تأیید اقدامات حساس رو داره.
🔧 فعلاً در مرحله‌ی پیش‌نمایش (Preview) از طریق Google AI Studio و Vertex AI در دسترسه.

📎 جزئیات بیشتر در وبلاگ رسمی گوگل:
🔗 blog.google 🔗

🌀 @cvision 🌀

❤5👍1

1.72K views13:38

آموزش LLM و VLM

🔥 یه انقلاب عجیب تو دنیای وب شروع شده!
تا حالا فکر کردید هوش مصنوعی رو بدون هیچ سرور و هیچ فریم‌ورکی، تنها تو مرورگر اجرا کنید؟ 😱

🎯 قابلیت‌ PromptAPI‌ و مدل‌های SLM (LLMهای کوچک) دارن رسماً راه رو برای یه نسل جدید از اپلیکیشن‌های هوشمند باز می‌کنن!

🧠 مرورگرهای جدید مثل Chrome و Edge الآن به صورت نیتیو از مدل‌های زبانی پشتیبانی می‌کنن! یعنی فقط با ۵ خط کد جاوااسکریپت ساده می‌تونی یه چت‌بات، مترجم، خلاصه‌ساز، تحلیل‌گر متن یا هر ابزار هوشمند دیگه بسازی — اونم بدون فرستادن حتی یک بایت به سرور! 😳

چرا باید همین الآن یادش بگیری؟ 👇

⚡️ هیچ دیتایی به هیچ سروری نمی‌ره — همه‌چی لوکال روی دستگاه خود کاربر
🔐 پرایوسی در اوج — حتی آفلاین هم کار می‌کنه!
💡 هیچ لایبرری لازم نیست؛ خود JS و مرورگر این قابلیت رو دارن
🌍 استاندارد شده توسط W3C و قرار آینده Web Development رو تغییر بده
🛠 ساخت اپ‌های هوش مصنوعی فقط با HTML + JS
🤖 خروجی‌هات رو می‌تونی قالب‌دار و قابل کنترل تحویل بگیری

💥 اگه وب دولوپری و اینو بلد نیستی، جدی به فکر یه آپدیت بزرگ باش!
😎 اگه وب کار نیستی هم نیستی هم عاشقش میشی چون به معنی واقعی کلمه فقط با یک فایل index.html می‌تونی یه مدل زبان داشته باشی 🤯

📚 خبر خوب!

همین هفته یه مینی‌دوره‌ی ۳ ساعته در مورد همین موضوع منتشر میشه!
📘 حتی اگه جاوااسکریپت بلد نیستی، یه فصل 0 (مقدمه JS) برای مبتدی‌ها داریم
🔁 اگه بلدی — مستقیم می‌ری سراغ ساخت و تجربه‌اش!

📍 برای شروع فقط لازمه:

یه مرورگر آپدیت‌شده (Chrome یا Edge)

یه سیستم نسبتا خوب (حتی اگر کارت گرافیک نداری با CPU خوب)

یه فایل index.html

پنج خط کد ساده برای فراخوانی مدل زبانی 🤯

🧪 چی می‌تونی بسازی؟

چت‌بات تو بلاگ بدون بک‌اند

درک تصویر و OCR و تحلیل تصویر فقط تو مرورگر

مترجم، خلاصه‌ساز، 🎭 تحلیل‌گر احساس

اپ‌های آفلاین با هوش مصنوعی

ابزارهای آموزشی تعاملی

اگر می‌خوای جزو اولین کسایی باشی که این قابلیت رو یاد می‌گیرن، منتظر انتشار دوره باش...

🔥11👍1

5.05K viewsedited 14:28

آموزش LLM و VLM

0:17

This media is not supported in your browser

VIEW IN TELEGRAM

این یکی از خفن‌ترین دموهای Hugging Face توی این روزهاست: «کنترل دوربین» که با LoRA روی مدل Qwen Image Edit آموزش داده شده 🤯

👀 چی کار می‌کنه؟
کافیه یه تصویر آپلود کنی، بعد می‌تونی با چند تا کلیک، زاویه دوربین رو عوض کنی و یه صحنه کاملاً جدید بسازی!
از چرخوندن دوربین به چپ و راست گرفته تا جلو رفتن، زوم کردن، یا حتی تغییر زاویه نگاه از دید پرنده تا دید کرم‌ (bird’s-eye / worm’s-eye) – همه‌ش با یه کلیک!

🎯 این یعنی چی؟
یه ویژگی بی‌نظیر اضافه شده: کنترل کامل زاویه دوربین توی مدل‌های ویرایش تصویر.
یه چیزی که حتی Google Nano Banana هنوز نداره!

🔧 تکنیک LoRA چیه؟
همون طور که تو فصل 4 کورس LLM دیدیم LoRA یا Low-Rank Adaptation یه تکنیکیه که فقط بخش کوچیکی از پارامترهای مدل رو آموزش میده، بدون اینکه کل مدل از صفر آموزش داده بشه.
اینجا هم LoRA روی مدل Qwen Image Edit بدون نیاز به آموزش دوباره کل مدل استفاده کردن

⚡️ نکته باحال:
این پروژه از نسخه‌ای بهینه به نام Rapid-AIO استفاده می‌کنه که سرعت پردازش رو خیلی بالا برده — خروجی رو فقط تو چهار مرحله می‌گیری!

پست مرتبط در توئیتر | دمو در هاگینگ فیس

❤10😱1

4.06K viewsedited 14:44

آموزش LLM و VLM

0:42

This media is not supported in your browser

VIEW IN TELEGRAM

🎓 مینی دوره: ساخت هوش مصنوعی شخصی در مرورگر

https://mktb.me/5kkw/

تو این مینی دوره یاد می‌گیری چطور یک Local LLM و حتی VLM رو مستقیم تو مرورگر اجرا و شخصی‌سازی کنی—بدون نیاز به سرور، پردازش ابری، فریم‌ورک یا لایبری اضافی!

💡 آنچه یاد می‌گیرید:

- اصول پایه‌ای جاوااسکریپت برای کار با مدل‌های AI در مرورگر
- کار با Prompt API برای مدیریت و کنترل پاسخ‌های مدل
- شخصی‌سازی خروجی با Initial Prompts و JSON Schema
- پیاده‌سازی VLM برای تحلیل تصاویر و OCR

📌 سرفصل‌ها:

راه اندازی Local LLM در مرورگر

شروع کار با Prompt API

نکات تکمیلی Prompt API

استفاده از Prompt Streaming یا پاسخ‌دهی هم‌زمان Local LLM

متوقف کردن پاسخ‌دهی  Local LLM با Aborting

پاک کردن حافظه Local LLM

اختصاصی‌سازی خروجی با Initial Prompts

اختصاصی‌سازی خروجی با JSON Schema

پیاده‌سازی VLM یا تحلیل تصاویر در Google Chrome

سایر APIها و راهنمای ادامه مسیر

🚀 آماده‌ای مهارتت در ساخت هوش مصنوعی شخصی رو یک پله بالاتر ببری؟

https://mktb.me/5kkw/

کد تخفیف 60 درصدی ویژه انتشار مینی دوره:

COUPON-35715

سایت دوره:
https://jsai.ir/

🔥5❤3👌1

5.48K viewsedited 08:07

آموزش LLM و VLM

به زودی تعداد کد تخفیف ۷۰ درصد برای نفرات اول که ثبت نام می‌کنند نیز در کانال قرار گرفته می‌شه نهایتاً تا یک ساعت آینده

👍1

1.92K views08:38

آموزش LLM و VLM

این کد تخفیف به تعداد محدود و به مدت 3 روز روی دوره جدید فعال است

70 درصدی:

COUPON-52f8c

❤9

2.09K views08:56

راه اندازی Local LLM در مرورگر

شروع کار با Prompt API

نکات تکمیلی Prompt API

استفاده از Prompt Streaming یا پاسخ‌دهی هم‌زمان Local LLM

متوقف کردن پاسخ‌دهی  Local LLM با Aborting

پاک کردن حافظه Local LLM

اختصاصی‌سازی خروجی با Initial Prompts

اختصاصی‌سازی خروجی با JSON Schema

پیاده‌سازی VLM یا تحلیل تصاویر در Google Chrome

سایر APIها و راهنمای ادامه مسیر

🚀 آماده‌ای مهارتت در ساخت هوش مصنوعی شخصی رو یک پله بالاتر ببری؟

https://mktb.me/5kkw/

کد تخفیف 60 درصدی ویژه انتشار مینی دوره:

COUPON-35715

سایت دوره:
https://jsai.ir/

❤4

6.4K viewsedited 11:46

آموزش LLM و VLM

استفاده از فرمت مناسب داده برای کاهش توکن ها!

آیا TOON هزینه استفاده از LLM شما را کم می‌کند؟ بله امانه همیشه!

سوالی که خیلی پرسیده میشه اینه که آیا TOON نسبت به Json توکن کمتری مصرف می‌کند؟

جواب کوتاه: در بسیاری از جدول‌ها، ۳۰–۶۰٪ کمتر!

اما سؤال واقعی برای مهندسین AI این است:

داده‌هایتان جدولی هستند یا درختی؟ TOON در جدول‌های بزرگ و تکراری عالی است، اما در JSON پیچیده ممکن است نتیجه معکوس بدهد.

آیا مشکل فرمت دارید یا معماری سیستم؟ اگر هنوز همه داده‌ها را به مدل می‌فرستید، انتخاب فرمت فقط یک بهینه‌سازی جزئی است.

💡 نکته اصلی:
داده‌های درختی → JSON
داده‌های مسطح و تحلیلی → CSV
پرامپت‌های LLM با جدول‌های بزرگ و تکراری → TOON

امروزه، فرمت داده بخشی از پرامپت انجینیرینگ است، نه فقط پسوند فایل!

https://github.com/toon-format/toon

👍6❤5

1.61K views10:36

آموزش LLM و VLM

یه نفر رفته system prompt‌های پشت‌پردهٔ کلی ابزار و چت‌بات معروف رو از طریق یه leak بزرگ پیدا کرده و همشو منتشر کرده!
الان یک ریپو تو گیت‌هاب هست که عملاً تبدیل شده به آرشیوی از مغزِ واقعی ابزارهای هوش مصنوعی — از Cursor و Devin گرفته تا Claude، Replit، Perplexity و ده‌ها ابزار دیگه.
اگه می‌خواید ببینید این ابزارها پشت صحنه چه قوانین، چه نقش‌ها و چه پرامپت‌هایی دارن، این ریپو واقعاً مثل گنج می‌مونه.
حتی می‌تونید برای طراحی agent یا پرامپت‌هاتون ازش ایده بگیرید.

https://github.com/x1xhlol/system-prompts-and-models-of-ai-tools

👍8❤5🔥5

6.36K viewsedited 19:17

آموزش LLM و VLM

🚀 New Course: Semantic Caching for AI Agents

https://www.deeplearning.ai/short-courses/semantic-caching-for-ai-agents/

DeepLearning.AI - Learning Platform

Semantic Caching for AI Agents

Speed up and reduce the costs of your AI agents by implementing semantic caching that reuses responses based on meaning rather than exact text.

❤1

1.55K views08:00

آموزش LLM و VLM

تشخیص اشیا با Qwen3-VL به روش open vocabulary!

پرامپت: «person between albert and marie»
(فرد بین آلبرت و ماری)

مدل باید نام‌های «albert» و «marie» را در این عکس به آلبرت اینشتین و ماری کوری نگاشت کند، چهره‌ها و جایگاه آن‌ها را تشخیص دهد و مفهوم «بین» را درست تفسیر کند تا فرد صحیح را پیدا کند.

کتابخانه Supervision از گروه roboflow کار با مدل‌های چندوجهی (VLMها) را به این منظور ساده‌تر می‌کند. شما متن را پردازش می‌کنید، آن را به یک فرمت آشنا مثل باکس‌های تشخیص تبدیل می‌کنید و نتیجه را به‌صورت بصری نمایش می‌دهید.

TARGET = "person between albert and marie"

image = Image.open(IMAGE).convert("RGB")
response = qwen_detect(image, TARGET)

detections = sv.Detections.from_vlm(
    vlm=sv.VLM.QWEN_3_VL,
    result=response,
    resolution_wh=image.size
)

کتابخانه Supervision از مدل‌های دیگر مثل Qwen-VL، Google Gemini و DeepSeek-VL و ... پشتیبانی می‌کند.

نوت بوک:

https://github.com/Alireza-Akhavan/LLM/blob/main/open_vocabulary_object_detection_with_qwen3_vl.ipynb

همین امروز یادگیری VLM را شروع کنید.

👍5❤2

4.83K viewsedited 08:14

آموزش LLM و VLM

مثال دیگر برای تشخیص zero-shot پرامپت "yellow taxi"

IMAGE = "/content/traffic_jam.jpg"

TARGET = "yellow taxi"

image = Image.open(IMAGE).convert("RGB")
response = qwen_detect(image, TARGET)

print(response)

detections = sv.Detections.from_vlm(
    vlm=sv.VLM.QWEN_3_VL,
    result=response,
    resolution_wh=image.size
)

annotated_image = image.copy()
annotated_image = annotate_image(image=annotated_image, detections=detections)
annotated_image.thumbnail((800, 800))
annotated_image

https://t.me/llm_huggingface/161

❤10🤔2👍1

2.57K viewsedited 08:18

آموزش LLM و VLM

vLLM: Deploying LLMs at Scale Like OpenAI

https://learnopencv.com/vllm-deploy-llms-at-scale-paged-attention/

❤3👍2

2.45K viewsedited 16:33

آموزش LLM و VLM

به بهانه بلک فرایدی
برای همراهانی که هنوز شروع نکردند 👇

🎓 دوره جامع LLM
با تخفیف ۷۰٪ واقعی
🎟 بلیط ورود به دنیای مدل‌های زبانی بزرگ 🚀

کد تخفیف: COUPON-fa527
⏳ فقط برای مدت محدود - تا 10 آذرماه
https://mktb.me/04dr/

مکتب‌خونه

آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM)

در این دوره ابتدا ساختار مدل‌های زبانی و مفاهیم پایه‌ای مانند زبان طبیعی، توکن‌سازی، ترنسفورمر و attention آموزش داده می‌شود. سپس مسیر آموزش این مدل‌ها از مرحله پیش‌تمرین (pretraining) تا ریزتنظیم (fine-tuning) بررسی می‌شود.

🔥2🙏2

1.5K viewsedited 14:34

آموزش LLM و VLM

0:43

This media is not supported in your browser

VIEW IN TELEGRAM

🎓 دوره جامع آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM)

اگر می‌خواید بدونین مدل‌هایی مثل ChatGPT، Gemini یا Grok چطور ساخته می‌شن، چطور آموزش می‌بینن و چطور می‌تونن به زبان‌های مختلف از جمله فارسی پاسخ بدن، این دوره دقیقاً همون چیزیه که دنبالش هستین.

📚 در این دوره یاد می‌گیرین:
- مدل‌های زبانی بزرگ دقیقاً چی هستن و چطور کار می‌کنن
- مفاهیم پایه‌ای مثل زبان طبیعی، ترنسفورمر و attention
- مراحل آموزش مدل‌ها از pretraining تا fine-tuning
- روش‌های پیشرفته مثل instruction tuning، RLHF، DPO و GRPO

📂 به همراه حدود 20 نوت‌بوک پروژه‌محور و قابل اجرا
👨‍🏫 تدریس توسط مهندس علیرضا اخوان‌پور
💡 مناسب برای دانشجویان، پژوهشگران و علاقه‌مندان به AI و NLP

🔗 لینک دوره | 📄سرفصلها

🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

🎓ما رو تو اینستاگرام هم دنبال کنید...

https://www.instagram.com/class.vision

#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتب‌خونه #کلاس_ویژن #علیرضا_اخوان_پور

👍3❤1

1.53K viewsedited 14:43

🌟 مدل‌های زبانی-تصویری (VLM)| مدرس: علیرضا اخوان‌پور

مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

🔗 مشاهده دوره:
https://mktb.me/e3gx/

~~~
کانال تلگرامی دوره
@llm_huggingface

👍3

1.72K viewsedited 14:49

آموزش LLM و VLM

مسیر حرفه‌ای یادگیری مدل‌های زبانی و چند وجهی
از Deep Learning تا LLM و VLM

اگر می‌خواهید به‌صورت اصولی وارد دنیای مدل‌های زبانی بزرگ و مدل‌های چندوجهی شوید، این مسیر آموزشی پیشنهاد می‌شود:

🧠 مرحله اول: دوره جامع Deep Learning

پایه‌ای‌ترین و ضروری‌ترین گام برای ورود حرفه‌ای به هوش مصنوعی.
شامل مفاهیم کلیدی یادگیری عمیق

🔗 لینک دوره: https://mktb.me/2klm/

🤖 مرحله دوم: دوره جامع LLM

اینجا قلب ماجرا است، در این دوره به‌صورت مفهومی و پروژه‌محور یاد می‌گیرید:

طراحی و آموزش مدل‌های زبانی بزرگ

مفاهیم کلیدی مثل Transformer، Attention، Instruction Tuning

روش‌های پیشرفته مثل RLHF، DPO، GRPO و RAG

ساخت اپلیکیشن‌های مبتنی بر LLM

🔗 لینک دوره: https://mktb.me/04dr/

🖼 مرحله سوم: دوره VLM (مدل‌های چندوجهی متن-تصویر)

اگر می‌خواهید فراتر از متن بروید و وارد دنیای مدل‌های بینایی-زبانی شوید، این مرحله مخصوص شماست.
در این دوره با معماری‌ها و کاربردهای VLM آشنا می‌شوید؛ مثل:

درک و تحلیل تصویر با مدل‌های چندوجهی

Visual QA

OCR و سیستم‌های ترکیبی متن-تصویر

فاین تیون VLM ها

🔗 لینک دوره: https://mktb.me/e3gx/

❤5

1.96K views15:57

About

Blog

Apps

Platform