آموزش LLM و VLM
1.89K subscribers
24 photos
14 videos
11 files
55 links
آموزش تخصصی LLM و Hugging face

گروه مباحثه:

@llm_group
Download Telegram
Forwarded from آموزش LLM و VLM
برای استفاده از کدهای تحفیف مکتب خونه، این تیکو حتما بردارید
نوت بوک جدید Unsloth برای GRPO روی Qwen3vl نسخه 8 میلیارد پارامتری

Qwen3_VL_(8B)-Vision-GRPO.ipynb
👍8
Forwarded from Shenasa-ai.ir
📚 دوستان سلام

سایت کتابفروشی بوکروم کار بچه‌های برنامه‌نویسی گروه شناسا هست 👩🏻‍💻👨🏻‍💻

با کسب اجازه از تیم بوکروم، دیتاست تصاویر جلد کتاب‌های فارسی همراه با عنوان‌ها رو منتشر کردیم که به‌صورت رایگان روی هاگینگ‌فیس در دسترسه:

🔗 Bookroom Persian Book Covers and Titles

#دیتاست #فارسی #ocr #vlm

@shenasa_ai
👍94🔥3
bookroom_persian_book_covers_and_titles_Qwen3_VL_8B_Vision.ipynb
755.2 KB
کد ساده‌ای که finetune کردن مدل Qwen3Vl را روی دیتاست بالا نشون میده
6
دوره MCP هاگینگ فیس منتشر شد

https://huggingface.co/learn/mcp-course/
👍7
تیم DeepSeek دوباره ترکوند! این‌بار با مدل متن‌باز DeepSeek-OCR که نه‌تنها OCR فوق‌دقیقیه، بلکه با فناوری جدیدش به نام Context Optical Compression می‌تونه ورودی‌ها رو تا ۱۰ برابر فشرده‌تر به مدل‌های زبانی بده — بدون افت دقت! 🔥

کاربردها:

استخراج متن از عکس، اسکرین‌شات و PDF

تبدیل PDF به Markdown یا HTML با حفظ جداول و ساختار

خلاصه‌سازی و تحلیل اسناد طولانی

استخراج داده از فاکتورها و فرم‌ها

پرسش‌وپاسخ درباره محتوای تصویر یا سند


🏆 دستاوردهای کلیدی:

فشرده‌سازی هوشمند زمینه (Context Compression)

دقت بالاتر از Donut و TrOCR

پشتیبانی از رزولوشن پویا برای اسناد بزرگ



🔗 deepseek.ai/blog/deepseek-ocr-context-compression


🔗https://huggingface.co/deepseek-ai/DeepSeek-OCR


#AI #OCR #DeepSeek #LLM #OpenSource
12👍3
مدل‌های Vision-Language (VLM) مثل DeepSeek-OCR و Qwen3-VL نشون دادن که مرز بین «دیدن» و «فهمیدن» توسط هوش مصنوعی داره از بین میره.

🔹 این مدل‌ها تصاویر، PDFها، نمودارها و اسناد رو می‌بینن، متن رو استخراج می‌کنن و حتی ساختار پیچیده رو حفظ می‌کنن.

🔹 با تکنیک انقلابی Context Optical Compression، می‌تونن محتوای طولانی رو تا ۱۰ برابر فشرده‌تر برای مدل‌های زبانی ارسال کنن — بدون افت دقت!

🔹 از تبدیل PDF به Markdown گرفته تا پرسش‌وپاسخ دربارهٔ محتوا، خلاصه‌سازی و استخراج داده‌ها، همه در یک مدل واحد ممکن شده.

این یعنی VLMها دارن هوش مصنوعی رو از «فقط خواندن متن» به درک واقعی جهان چندوجهی ارتقا میدن — یک انقلاب واقعی در مسیر AGI!

📚 میخوای خودت استاد VLM بشی و با این تکنولوژی انقلاب‌آفرین کار کنی؟
دوره تخصصی Vision-Language Modelsکلاس ویژن رو ببین و قدم به قدم با پروژه‌ها و مثال‌های عملی یاد بگیر: [لینک دوره]
👌9👍1
DeepSeek-OCR:

https://colab.research.google.com/drive/1Fjzv3UYNoOt28HpM0RMUc8kG34EFgvuu?usp=sharing

با این مدل جدید دیپ سیک که قبلا توضیح دادیم
محتوای screenshots, PDF, form, table و handwritten یا متن نویزی را به markdown تمیز تبدیل کنید.
👍8
دوستان بهم گفته بودند این مدل جدید deepseek-ocr را روی یه تصویر فارسی تست کن، منم روی این دادنامه (ربطی به من نداره از اینترنته :)) تست کردم، خروجی👇
![](images/0.jpg)




شماره دادنامه: ۹۱۰۹۷۱۵۲۶۰۰۱-۰۰۱


شماره پرونده: ۹۱۰۹۸۱۳۳۳۰۱-۰۶۹


شماره بایگانی شعبه: ۹۱۰۵۹


تاریخ تنظیم: ۱۳۹۱/۰۱/۱۵


پیوست:


«فلا تشیعوا الهوی آن تعدیل»


شعبه دوم دادگاه انقلاب اسلامی شهرستان ساری


پیوست:


دادگسبری جمهوری اسلامی


ایران


دادنامه


پرونده کلاسه ۹۱۰۹۸۱۳۳۳۰۱-۰۶۹ شعبه دوم دادگاه انقلاب اسلامی شهرستان ساری دادنامه شماره


۹۱۰۹۷۱۵۲۶۰۰۱-۰۰۱


متهم: آقای علی احمدی به نشانی


اتهام: تبلیغ علیه نظام از طریق فرقه بهایت


((رای دادگاه))


بیرامون اتهام آقای علی احمدی فرزند یوسفعلی با وکالت آقای فرج پور اهل قائم شهر دایر بر تبلیغ علیه نظام از طریق تبلیغ فرقه ضاله بهایت به شرح کیفرخواست شماره ۹۱۲ مورخه ۱۳۹۰/۱۱/۳۰ دادسرای عمومی وانقلاب شهرستان قائم شهر با توجه به محتویات پرونده مشروع بازجو نهایی کارشناسان اداره اطلاعات شهرستان قائم شهر و گزارش نهایی آن مرجع مغبوط در صفحه ۲۵۵ پرونده و سابقه محکومیت مشابه متهم در سال ۱۳۸۷ و لوایح تقدیمی متهم در طول تحقیقات مقدماتی که جملگی حکایت از تداوم و استمرار فعالیت متهم در امر تبلیغ علیه نظام جمهوری اسلامی ایران می باشد و انکار بلوچه متهم در جلسه دادرسی و اظهارات وکیل مدافع متهم در جلسه دادرسی و لایحه تقدیمی و سایر قراین و امارات موجود در پرونده بزه کاری متهم بنظر دادگاه مسلم است و عملش منطبق است با ماده ۵۰۰ قانون مجازات اسلامی دادگاه آقای علی احمدی را با رعایت ماده ۴۸ قانون مرقوم به تحمل یک سال حبس تعزیری محکوم می نماید این رای حضوری ظرف بیست روز پس از ابلاغ قابل تجدید نظر می باشد.


سوادکوهی
رو اعداد مشکل داره، اما متنش قابل قبوله،
قاعدتا رو انگلیسی اصلا قابل قیاس نیست و خیلی بهتره...
👍63
📢 از اونجایی که VRAM نسخه رایگان کولب برای لود مدل Deepseek-OCR کافی نیست و مشکل OOM میخورید، بعضی از همراهان گفتن نوت‌بوک روی Colab اجرا نمی‌شه ...

برای تست راحت مدل من مدلو با 4 بیت لود کردم که برای GPUهای T4 بی دردسر اجرا شه 👇

https://colab.research.google.com/github/Alireza-Akhavan/LLM/blob/main/deepseek_ocr_inference_4bit.ipynb

فقط کافیه عکس خودتونو کنارش بزارید و آدرسشو تو متغیر image_file بنویسید...
👍112
آموزش LLM و VLM
📢 از اونجایی که VRAM نسخه رایگان کولب برای لود مدل Deepseek-OCR کافی نیست و مشکل OOM میخورید، بعضی از همراهان گفتن نوت‌بوک روی Colab اجرا نمی‌شه ... برای تست راحت مدل من مدلو با 4 بیت لود کردم که برای GPUهای T4 بی دردسر اجرا شه 👇 https://colab.rese…
سایز عکس ورودی قابل تنظیمه


    Native resolution:
Tiny: 512×512 (64 vision tokens)
Small: 640×640 (100 vision tokens)
Base: 1024×1024 (256 vision tokens)
Large: 1280×1280 (400 vision tokens)
Dynamic resolution
Gundam: n×640×640 + 1×1024×1024
👍4
Forwarded from Tensorflow(@CVision)
تبدیل PDF از اسلایدها (عکس) به PowerPoint با هوش مصنوعی
یه اسکریپت جالب نوشتم که هنوز کامل نیست ولی خیلی به دردم خورد! 💡
🎯 چیکار میکنه؟
یه فایل PDF از اسلایدها میگیره و با کمک DeepSeek-OCR با حفظ مکان عنوان‌ها، عکس‌ها و بقیه المان‌ها، یه PowerPoint کامل بهتون تحویل میده!
🔗 گیت‌هاب: github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr

📹 یه کیس واقعی ازش استفاده کردم:
کل ویدیوهای کورس Agentic از Andrew Ng رو پردازش کردم:
با ffmpeg فقط فریم‌هایی که تغییر داشتن رو سیو کردم
با OpenCV فریم‌هایی که چهره Andrew بود رو حذف کردم
اسلایدهایی که مرحله به مرحله کامل میشدن رو یکی کردم
همه رو تبدیل به یه PDF کردم
با DeepSeek-OCR تبدیل به Markdown و JSON (موقعیت‌ها) شد
با python-pptx همه چیز رو سر جاش گذاشتم و یه PPT درست کردم

📦 چی تو گیت‌هاب هست؟
فرآیند از PDF به بعد رو آپلود کردم. اگه علاقه دارید کاملش کنید یا ایده بدید، خوشحال میشم! 🙌

من میخواستم کار خودمو راه بندازم و خیلی روش وقت نذاشتم. اما با صرف وقت و سلیقه، قشنگ میشه یه محصول خفن ازش ساخت...

https://github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr
7👍7
پروژه یکی از دوستان عضو کانال:

https://github.com/amirhoseinnaderali-pixel/AutoTune-Research-Assistan


لازم نیست دیگه وقتت رو صرف خواندن راجب مدل بکنی و دیتاست و پیچیدگی‌های کار،Auto tuneهوش مصنوعی که برای فاین‌تیونینگ فکر می‌کنه!

یه دستیار هوشمند مخصوص پژوهشگرها، دولوپرها و علاقه‌مندان هوش مصنوعی‌ه که بهت کمک می‌کنه بهترین مدل‌ها، دیتاست‌ها و استراتژی‌ها رو برای پروژه‌ فاین‌تیونینگت پیدا کنی.
کافیه فقط توضیح بدی چی می‌خوای انجام بدی — AutoTune خودش همه‌چی رو برات پیدا می‌کنه:

🔍 می‌گرده توی HuggingFace، ArXiv و Kaggle
🧠 نیازت رو با تحلیل هوشمند تشخیص می‌ده
📊 یه گزارش پژوهشی کامل با پیشنهاد مدل و دیتاست برات می‌سازه
🎯 و حتی مسیر اجرای پروژه‌ت رو قدم‌به‌قدم مشخص می‌کنه!

با AutoTune، فقط حرف بزن… و بقیه‌ش رو بسپار به هوش مصنوعی 💬🤖
5👍5
🚀 Supercharge your OCR Pipelines with Open Models

📚 تیم Hugging Face توی آخرین بلاگش یه مرور عالی روی مدل‌های open-source OCR منتشر کرده.
از مدل‌های معروف مثل PaddleOCR گرفته تا مدل‌های جدیدتر مثل OlmOCR و Chandra،
همه بررسی شدن و نشون داده شده چطور می‌شه با fine-tune یا ترکیب Vision-Language Model‌ها
به دقت بالاتر و performance بهتر رسید.

💡 اگر روی taskهایی مثل document understanding، table extraction یا visual QA کار می‌کنین،
این پست پر از insightهای کاربردی برای انتخاب و deploy مدل‌های مناسب هست.

📎 لینک مطلب:
👉 huggingface.co/blog/ocr-open-models
3👍3