آموزش LLM و VLM

1.11K views10:06

رو اعداد مشکل داره، اما متنش قابل قبوله،
قاعدتا رو انگلیسی اصلا قابل قیاس نیست و خیلی بهتره...

👍6❤3

1.04K viewsedited 10:06

📢 از اونجایی که VRAM نسخه رایگان کولب برای لود مدل Deepseek-OCR کافی نیست و مشکل OOM میخورید، بعضی از همراهان گفتن نوت‌بوک روی Colab اجرا نمی‌شه ...

برای تست راحت مدل من مدلو با 4 بیت لود کردم که برای GPUهای T4 بی دردسر اجرا شه 👇

https://colab.research.google.com/github/Alireza-Akhavan/LLM/blob/main/deepseek_ocr_inference_4bit.ipynb

فقط کافیه عکس خودتونو کنارش بزارید و آدرسشو تو متغیر image_file بنویسید...

👍12❤2

3.66K viewsedited 10:40

آموزش LLM و VLM

سایز عکس ورودی قابل تنظیمه

    Native resolution:
        Tiny: 512×512 （64 vision tokens）✅
        Small: 640×640 （100 vision tokens）✅
        Base: 1024×1024 （256 vision tokens）✅
        Large: 1280×1280 （400 vision tokens）✅
    Dynamic resolution
        Gundam: n×640×640 + 1×1024×1024 ✅

👍5🥰1

1.07K views11:40

آموزش LLM و VLM

Forwarded from Tensorflow(@CVision)

تبدیل PDF از اسلایدها (عکس) به PowerPoint با هوش مصنوعی
یه اسکریپت جالب نوشتم که هنوز کامل نیست ولی خیلی به دردم خورد! 💡
🎯 چیکار میکنه؟
یه فایل PDF از اسلایدها میگیره و با کمک DeepSeek-OCR با حفظ مکان عنوان‌ها، عکس‌ها و بقیه المان‌ها، یه PowerPoint کامل بهتون تحویل میده!
🔗 گیت‌هاب: github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr

📹 یه کیس واقعی ازش استفاده کردم:
کل ویدیوهای کورس Agentic از Andrew Ng رو پردازش کردم:
✅ با ffmpeg فقط فریم‌هایی که تغییر داشتن رو سیو کردم
✅ با OpenCV فریم‌هایی که چهره Andrew بود رو حذف کردم
✅ اسلایدهایی که مرحله به مرحله کامل میشدن رو یکی کردم
✅ همه رو تبدیل به یه PDF کردم
✅ با DeepSeek-OCR تبدیل به Markdown و JSON (موقعیت‌ها) شد
✅ با python-pptx همه چیز رو سر جاش گذاشتم و یه PPT درست کردم

📦 چی تو گیت‌هاب هست؟
فرآیند از PDF به بعد رو آپلود کردم. اگه علاقه دارید کاملش کنید یا ایده بدید، خوشحال میشم! 🙌

من میخواستم کار خودمو راه بندازم و خیلی روش وقت نذاشتم. اما با صرف وقت و سلیقه، قشنگ میشه یه محصول خفن ازش ساخت...

https://github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr

❤8👍7

897 views12:15

آموزش LLM و VLM

پروژه یکی از دوستان عضو کانال:

https://github.com/amirhoseinnaderali-pixel/AutoTune-Research-Assistan

لازم نیست دیگه وقتت رو صرف خواندن راجب مدل بکنی و دیتاست و پیچیدگی‌های کار،Auto tuneهوش مصنوعی که برای فاین‌تیونینگ فکر می‌کنه!

یه دستیار هوشمند مخصوص پژوهشگرها، دولوپرها و علاقه‌مندان هوش مصنوعی‌ه که بهت کمک می‌کنه بهترین مدل‌ها، دیتاست‌ها و استراتژی‌ها رو برای پروژه‌ فاین‌تیونینگت پیدا کنی.
کافیه فقط توضیح بدی چی می‌خوای انجام بدی — AutoTune خودش همه‌چی رو برات پیدا می‌کنه:

🔍 می‌گرده توی HuggingFace، ArXiv و Kaggle
🧠 نیازت رو با تحلیل هوشمند تشخیص می‌ده
📊 یه گزارش پژوهشی کامل با پیشنهاد مدل و دیتاست برات می‌سازه
🎯 و حتی مسیر اجرای پروژه‌ت رو قدم‌به‌قدم مشخص می‌کنه!

با AutoTune، فقط حرف بزن… و بقیه‌ش رو بسپار به هوش مصنوعی 💬🤖

❤7👍5

1.23K views07:26

آموزش LLM و VLM

🚀 Supercharge your OCR Pipelines with Open Models

📚 تیم Hugging Face توی آخرین بلاگش یه مرور عالی روی مدل‌های open-source OCR منتشر کرده.
از مدل‌های معروف مثل PaddleOCR گرفته تا مدل‌های جدیدتر مثل OlmOCR و Chandra،
همه بررسی شدن و نشون داده شده چطور می‌شه با fine-tune یا ترکیب Vision-Language Model‌ها
به دقت بالاتر و performance بهتر رسید.

💡 اگر روی taskهایی مثل document understanding، table extraction یا visual QA کار می‌کنین،
این پست پر از insightهای کاربردی برای انتخاب و deploy مدل‌های مناسب هست.

📎 لینک مطلب:
👉 huggingface.co/blog/ocr-open-models

❤6👍4

1.36K views09:57

آموزش LLM و VLM

Liquid AI's LFM2-VL-3B Brings a 3B Parameter Vision Language Model (VLM) to Edge-Class Devices - MarkTechPost https://www.marktechpost.com/2025/10/24/liquid-ais-lfm2-vl-3b-brings-a-3b-parameter-vision-language-model-vlm-to-edge-class-devices/

MarkTechPost

Liquid AI’s LFM2-VL-3B Brings a 3B Parameter Vision Language Model (VLM) to Edge-Class Devices

Explore Liquid AI's LFM2-VL-3B, a powerful vision language model enhancing accuracy and speed for image text tasks.

🔥9❤1

1.15K views19:18

آموزش LLM و VLM

0:36

This media is not supported in your browser

VIEW IN TELEGRAM

مدل‌های VLM (Vision-Language Model) فقط تصویر و زبان رو ترکیب می‌کنن و هدفشون درک یا توضیح صحنه‌هاست.
اما VLA (Vision-Language-Action)ها یه قدم جلوترن — اون‌ها علاوه بر دیدن و فهمیدن، اقدام هم می‌کنن؛ یعنی می‌تونن در محیط واقعی تصمیم بگیرن و عمل کنن.

🔹 تازه‌ترین نمونه این دسته، مدل GigaBrain-0 هست:
مدلی پایه‌ای برای ربات‌های هوشمند که با استفاده از داده‌های ساخته‌شده توسط world model (مثل ویدیوهای مصنوعی، انتقال از انسان یا شبیه‌ساز به واقعیت) یاد می‌گیره.
به لطف این روش، دیگه لازم نیست حجم زیادی داده واقعی از ربات‌ها جمع‌آوری بشه.

📈 نتیجه:

تعمیم بهتر بین وظایف مختلف

عملکرد قوی‌تر در کارهای پیچیده و بلندمدت

تصمیم‌گیری پایدارتر

نسخه سبک‌ترش، GigaBrain-0-Small هم برای سخت‌افزارهایی مثل NVIDIA Jetson AGX Orin بهینه شده.

💡 خلاصه: GigaBrain-0 گام بزرگیه به سمت ربات‌هایی که مثل انسان می‌بینن، می‌فهمن و عمل می‌کنن.

https://huggingface.co/open-gigaai

#vla #vlm

👍12

3.34K viewsedited 18:29

آموزش LLM و VLM

مدل‌های VLM (Vision-Language Model) فقط تصویر و زبان رو ترکیب می‌کنن و هدفشون درک یا توضیح صحنه‌هاست. اما VLA (Vision-Language-Action)ها یه قدم جلوترن — اون‌ها علاوه بر دیدن و فهمیدن، اقدام هم می‌کنن؛ یعنی می‌تونن در محیط واقعی تصمیم بگیرن و عمل کنن. 🔹 تازه‌ترین…

اینم یکی از همراهان عزیز کانال تو نظرات پست قبلی معرفی کرده

AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning

https://autovla.github.io/

#vla

❤8👍2

3.75K viewsedited 19:32

آموزش LLM و VLM

Forwarded from Tensorflow(@CVision)

🎉 فقط ۳ روز دیگه (۴ نوامبر) تولد ۹ سالگی کاناله!
به همین مناسبت، تخفیف‌های ویژه روی همه دوره‌ها در راهه 😍
هم دوره‌های کلاس‌ویژن و هم مکتب‌خونه 🔥
منتظر باشید! 💫

❤6👍2

506 views17:17

آموزش LLM و VLM

Forwarded from 🚀 کلاس‌ویژن | یادگیری هوش مصنوعی از پایه تا پیشرفته

0:05

This media is not supported in your browser

VIEW IN TELEGRAM

🎉🎂 تولد ۹ سالگی کانال Tensorflow مبارک! 🎂🎉
به مناسبت این اتفاق خاص، براتون یه تخفیف فوق‌العاده در نظر گرفتیم 👇

🔥 ۷۰٪ تخفیف روی همه دوره‌ها
💥 و ۱۰۰٪ تخفیف (رایگان!) برای دوره یادگیری ماشین

📚 دوره‌ها در مکتب‌خونه:

* 🤖 دوره یادگیری ماشین — کد تخفیف: happy9-ml
* 🧠 دوره دیپ‌لرنینگ — کد تخفیف: happy9-dl
* 🦙 دوره LLM — کد تخفیف: happy9-llm
* 👁 دوره OpenCV — کد تخفیف: happy9-opencv
* 📸 دوره Vision-Language Models (VLM) — کد تخفیف: happy9-vlm

🎓 همچنین تمامی دوره‌های کلاس‌ویژن (از مقدمات تا GNN!)
در دسترس شماست با ۷۰٪ تخفیف
🔗 https://class.vision/
کد تخفیف: haapy9

⏰ فقط تا 22 آبان! فرصت رو از دست نده و با این تخفیف ویژه شروع کن 🚀

🔥7❤1

337 views12:42

About

Blog

Apps

Platform