آموزش LLM و VLM
2.03K subscribers
26 photos
16 videos
11 files
59 links
آموزش تخصصی LLM و Hugging face

گروه مباحثه:

@llm_group
Download Telegram
رو اعداد مشکل داره، اما متنش قابل قبوله،
قاعدتا رو انگلیسی اصلا قابل قیاس نیست و خیلی بهتره...
👍63
📢 از اونجایی که VRAM نسخه رایگان کولب برای لود مدل Deepseek-OCR کافی نیست و مشکل OOM میخورید، بعضی از همراهان گفتن نوت‌بوک روی Colab اجرا نمی‌شه ...

برای تست راحت مدل من مدلو با 4 بیت لود کردم که برای GPUهای T4 بی دردسر اجرا شه 👇

https://colab.research.google.com/github/Alireza-Akhavan/LLM/blob/main/deepseek_ocr_inference_4bit.ipynb

فقط کافیه عکس خودتونو کنارش بزارید و آدرسشو تو متغیر image_file بنویسید...
👍122
آموزش LLM و VLM
📢 از اونجایی که VRAM نسخه رایگان کولب برای لود مدل Deepseek-OCR کافی نیست و مشکل OOM میخورید، بعضی از همراهان گفتن نوت‌بوک روی Colab اجرا نمی‌شه ... برای تست راحت مدل من مدلو با 4 بیت لود کردم که برای GPUهای T4 بی دردسر اجرا شه 👇 https://colab.rese…
سایز عکس ورودی قابل تنظیمه


    Native resolution:
Tiny: 512×512 (64 vision tokens)
Small: 640×640 (100 vision tokens)
Base: 1024×1024 (256 vision tokens)
Large: 1280×1280 (400 vision tokens)
Dynamic resolution
Gundam: n×640×640 + 1×1024×1024
👍5🥰1
Forwarded from Tensorflow(@CVision)
تبدیل PDF از اسلایدها (عکس) به PowerPoint با هوش مصنوعی
یه اسکریپت جالب نوشتم که هنوز کامل نیست ولی خیلی به دردم خورد! 💡
🎯 چیکار میکنه؟
یه فایل PDF از اسلایدها میگیره و با کمک DeepSeek-OCR با حفظ مکان عنوان‌ها، عکس‌ها و بقیه المان‌ها، یه PowerPoint کامل بهتون تحویل میده!
🔗 گیت‌هاب: github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr

📹 یه کیس واقعی ازش استفاده کردم:
کل ویدیوهای کورس Agentic از Andrew Ng رو پردازش کردم:
با ffmpeg فقط فریم‌هایی که تغییر داشتن رو سیو کردم
با OpenCV فریم‌هایی که چهره Andrew بود رو حذف کردم
اسلایدهایی که مرحله به مرحله کامل میشدن رو یکی کردم
همه رو تبدیل به یه PDF کردم
با DeepSeek-OCR تبدیل به Markdown و JSON (موقعیت‌ها) شد
با python-pptx همه چیز رو سر جاش گذاشتم و یه PPT درست کردم

📦 چی تو گیت‌هاب هست؟
فرآیند از PDF به بعد رو آپلود کردم. اگه علاقه دارید کاملش کنید یا ایده بدید، خوشحال میشم! 🙌

من میخواستم کار خودمو راه بندازم و خیلی روش وقت نذاشتم. اما با صرف وقت و سلیقه، قشنگ میشه یه محصول خفن ازش ساخت...

https://github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr
8👍7
پروژه یکی از دوستان عضو کانال:

https://github.com/amirhoseinnaderali-pixel/AutoTune-Research-Assistan


لازم نیست دیگه وقتت رو صرف خواندن راجب مدل بکنی و دیتاست و پیچیدگی‌های کار،Auto tuneهوش مصنوعی که برای فاین‌تیونینگ فکر می‌کنه!

یه دستیار هوشمند مخصوص پژوهشگرها، دولوپرها و علاقه‌مندان هوش مصنوعی‌ه که بهت کمک می‌کنه بهترین مدل‌ها، دیتاست‌ها و استراتژی‌ها رو برای پروژه‌ فاین‌تیونینگت پیدا کنی.
کافیه فقط توضیح بدی چی می‌خوای انجام بدی — AutoTune خودش همه‌چی رو برات پیدا می‌کنه:

🔍 می‌گرده توی HuggingFace، ArXiv و Kaggle
🧠 نیازت رو با تحلیل هوشمند تشخیص می‌ده
📊 یه گزارش پژوهشی کامل با پیشنهاد مدل و دیتاست برات می‌سازه
🎯 و حتی مسیر اجرای پروژه‌ت رو قدم‌به‌قدم مشخص می‌کنه!

با AutoTune، فقط حرف بزن… و بقیه‌ش رو بسپار به هوش مصنوعی 💬🤖
7👍5
🚀 Supercharge your OCR Pipelines with Open Models

📚 تیم Hugging Face توی آخرین بلاگش یه مرور عالی روی مدل‌های open-source OCR منتشر کرده.
از مدل‌های معروف مثل PaddleOCR گرفته تا مدل‌های جدیدتر مثل OlmOCR و Chandra،
همه بررسی شدن و نشون داده شده چطور می‌شه با fine-tune یا ترکیب Vision-Language Model‌ها
به دقت بالاتر و performance بهتر رسید.

💡 اگر روی taskهایی مثل document understanding، table extraction یا visual QA کار می‌کنین،
این پست پر از insightهای کاربردی برای انتخاب و deploy مدل‌های مناسب هست.

📎 لینک مطلب:
👉 huggingface.co/blog/ocr-open-models
6👍4
This media is not supported in your browser
VIEW IN TELEGRAM
مدل‌های VLM (Vision-Language Model) فقط تصویر و زبان رو ترکیب می‌کنن و هدفشون درک یا توضیح صحنه‌هاست.
اما VLA (Vision-Language-Action)ها یه قدم جلوترن — اون‌ها علاوه بر دیدن و فهمیدن، اقدام هم می‌کنن؛ یعنی می‌تونن در محیط واقعی تصمیم بگیرن و عمل کنن.

🔹 تازه‌ترین نمونه این دسته، مدل GigaBrain-0 هست:
مدلی پایه‌ای برای ربات‌های هوشمند که با استفاده از داده‌های ساخته‌شده توسط world model (مثل ویدیوهای مصنوعی، انتقال از انسان یا شبیه‌ساز به واقعیت) یاد می‌گیره.
به لطف این روش، دیگه لازم نیست حجم زیادی داده واقعی از ربات‌ها جمع‌آوری بشه.

📈 نتیجه:

تعمیم بهتر بین وظایف مختلف

عملکرد قوی‌تر در کارهای پیچیده و بلندمدت

تصمیم‌گیری پایدارتر

نسخه سبک‌ترش، GigaBrain-0-Small هم برای سخت‌افزارهایی مثل NVIDIA Jetson AGX Orin بهینه شده.

💡 خلاصه: GigaBrain-0 گام بزرگیه به سمت ربات‌هایی که مثل انسان می‌بینن، می‌فهمن و عمل می‌کنن.

https://huggingface.co/open-gigaai

#vla #vlm
👍12
Forwarded from Tensorflow(@CVision)
🎉 فقط ۳ روز دیگه (۴ نوامبر) تولد ۹ سالگی کاناله!
به همین مناسبت، تخفیف‌های ویژه روی همه دوره‌ها در راهه 😍
هم دوره‌های کلاس‌ویژن و هم مکتب‌خونه 🔥
منتظر باشید! 💫
6👍2
This media is not supported in your browser
VIEW IN TELEGRAM
🎉🎂 تولد ۹ سالگی کانال Tensorflow مبارک! 🎂🎉
به مناسبت این اتفاق خاص، براتون یه تخفیف فوق‌العاده در نظر گرفتیم 👇

🔥 ۷۰٪ تخفیف روی همه دوره‌ها
💥 و ۱۰۰٪ تخفیف (رایگان!) برای دوره یادگیری ماشین

📚 دوره‌ها در مکتب‌خونه:

* 🤖 دوره یادگیری ماشین — کد تخفیف: happy9-ml
* 🧠 دوره دیپ‌لرنینگ — کد تخفیف: happy9-dl
* 🦙 دوره LLM — کد تخفیف: happy9-llm
* 👁 دوره OpenCV — کد تخفیف: happy9-opencv
* 📸 دوره Vision-Language Models (VLM) — کد تخفیف: happy9-vlm

🎓 همچنین تمامی دوره‌های کلاس‌ویژن (از مقدمات تا GNN!)
در دسترس شماست با ۷۰٪ تخفیف
🔗 https://class.vision/
کد تخفیف: haapy9

فقط تا 22 آبان! فرصت رو از دست نده و با این تخفیف ویژه شروع کن 🚀
🔥71