DeepSeek-OCR:
https://colab.research.google.com/drive/1Fjzv3UYNoOt28HpM0RMUc8kG34EFgvuu?usp=sharing
با این مدل جدید دیپ سیک که قبلا توضیح دادیم
محتوای screenshots, PDF, form, table و handwritten یا متن نویزی را به markdown تمیز تبدیل کنید.
https://colab.research.google.com/drive/1Fjzv3UYNoOt28HpM0RMUc8kG34EFgvuu?usp=sharing
با این مدل جدید دیپ سیک که قبلا توضیح دادیم
محتوای screenshots, PDF, form, table و handwritten یا متن نویزی را به markdown تمیز تبدیل کنید.
Google
DeepseekOCR.ipynb
Colab notebook
👍8

شماره دادنامه: ۹۱۰۹۷۱۵۲۶۰۰۱-۰۰۱
شماره پرونده: ۹۱۰۹۸۱۳۳۳۰۱-۰۶۹
شماره بایگانی شعبه: ۹۱۰۵۹
تاریخ تنظیم: ۱۳۹۱/۰۱/۱۵
پیوست:
«فلا تشیعوا الهوی آن تعدیل»
شعبه دوم دادگاه انقلاب اسلامی شهرستان ساری
پیوست:
دادگسبری جمهوری اسلامی
ایران
دادنامه
پرونده کلاسه ۹۱۰۹۸۱۳۳۳۰۱-۰۶۹ شعبه دوم دادگاه انقلاب اسلامی شهرستان ساری دادنامه شماره
۹۱۰۹۷۱۵۲۶۰۰۱-۰۰۱
متهم: آقای علی احمدی به نشانی
اتهام: تبلیغ علیه نظام از طریق فرقه بهایت
((رای دادگاه))
بیرامون اتهام آقای علی احمدی فرزند یوسفعلی با وکالت آقای فرج پور اهل قائم شهر دایر بر تبلیغ علیه نظام از طریق تبلیغ فرقه ضاله بهایت به شرح کیفرخواست شماره ۹۱۲ مورخه ۱۳۹۰/۱۱/۳۰ دادسرای عمومی وانقلاب شهرستان قائم شهر با توجه به محتویات پرونده مشروع بازجو نهایی کارشناسان اداره اطلاعات شهرستان قائم شهر و گزارش نهایی آن مرجع مغبوط در صفحه ۲۵۵ پرونده و سابقه محکومیت مشابه متهم در سال ۱۳۸۷ و لوایح تقدیمی متهم در طول تحقیقات مقدماتی که جملگی حکایت از تداوم و استمرار فعالیت متهم در امر تبلیغ علیه نظام جمهوری اسلامی ایران می باشد و انکار بلوچه متهم در جلسه دادرسی و اظهارات وکیل مدافع متهم در جلسه دادرسی و لایحه تقدیمی و سایر قراین و امارات موجود در پرونده بزه کاری متهم بنظر دادگاه مسلم است و عملش منطبق است با ماده ۵۰۰ قانون مجازات اسلامی دادگاه آقای علی احمدی را با رعایت ماده ۴۸ قانون مرقوم به تحمل یک سال حبس تعزیری محکوم می نماید این رای حضوری ظرف بیست روز پس از ابلاغ قابل تجدید نظر می باشد.
سوادکوهی
شماره دادنامه: ۹۱۰۹۷۱۵۲۶۰۰۱-۰۰۱
شماره پرونده: ۹۱۰۹۸۱۳۳۳۰۱-۰۶۹
شماره بایگانی شعبه: ۹۱۰۵۹
تاریخ تنظیم: ۱۳۹۱/۰۱/۱۵
پیوست:
«فلا تشیعوا الهوی آن تعدیل»
شعبه دوم دادگاه انقلاب اسلامی شهرستان ساری
پیوست:
دادگسبری جمهوری اسلامی
ایران
دادنامه
پرونده کلاسه ۹۱۰۹۸۱۳۳۳۰۱-۰۶۹ شعبه دوم دادگاه انقلاب اسلامی شهرستان ساری دادنامه شماره
۹۱۰۹۷۱۵۲۶۰۰۱-۰۰۱
متهم: آقای علی احمدی به نشانی
اتهام: تبلیغ علیه نظام از طریق فرقه بهایت
((رای دادگاه))
بیرامون اتهام آقای علی احمدی فرزند یوسفعلی با وکالت آقای فرج پور اهل قائم شهر دایر بر تبلیغ علیه نظام از طریق تبلیغ فرقه ضاله بهایت به شرح کیفرخواست شماره ۹۱۲ مورخه ۱۳۹۰/۱۱/۳۰ دادسرای عمومی وانقلاب شهرستان قائم شهر با توجه به محتویات پرونده مشروع بازجو نهایی کارشناسان اداره اطلاعات شهرستان قائم شهر و گزارش نهایی آن مرجع مغبوط در صفحه ۲۵۵ پرونده و سابقه محکومیت مشابه متهم در سال ۱۳۸۷ و لوایح تقدیمی متهم در طول تحقیقات مقدماتی که جملگی حکایت از تداوم و استمرار فعالیت متهم در امر تبلیغ علیه نظام جمهوری اسلامی ایران می باشد و انکار بلوچه متهم در جلسه دادرسی و اظهارات وکیل مدافع متهم در جلسه دادرسی و لایحه تقدیمی و سایر قراین و امارات موجود در پرونده بزه کاری متهم بنظر دادگاه مسلم است و عملش منطبق است با ماده ۵۰۰ قانون مجازات اسلامی دادگاه آقای علی احمدی را با رعایت ماده ۴۸ قانون مرقوم به تحمل یک سال حبس تعزیری محکوم می نماید این رای حضوری ظرف بیست روز پس از ابلاغ قابل تجدید نظر می باشد.
سوادکوهی
رو اعداد مشکل داره، اما متنش قابل قبوله،
قاعدتا رو انگلیسی اصلا قابل قیاس نیست و خیلی بهتره...
قاعدتا رو انگلیسی اصلا قابل قیاس نیست و خیلی بهتره...
👍6❤3
📢 از اونجایی که VRAM نسخه رایگان کولب برای لود مدل Deepseek-OCR کافی نیست و مشکل OOM میخورید، بعضی از همراهان گفتن نوتبوک روی Colab اجرا نمیشه ...
برای تست راحت مدل من مدلو با 4 بیت لود کردم که برای GPUهای T4 بی دردسر اجرا شه 👇
https://colab.research.google.com/github/Alireza-Akhavan/LLM/blob/main/deepseek_ocr_inference_4bit.ipynb
فقط کافیه عکس خودتونو کنارش بزارید و آدرسشو تو متغیر image_file بنویسید...
برای تست راحت مدل من مدلو با 4 بیت لود کردم که برای GPUهای T4 بی دردسر اجرا شه 👇
https://colab.research.google.com/github/Alireza-Akhavan/LLM/blob/main/deepseek_ocr_inference_4bit.ipynb
فقط کافیه عکس خودتونو کنارش بزارید و آدرسشو تو متغیر image_file بنویسید...
👍12❤2
آموزش LLM و VLM
📢 از اونجایی که VRAM نسخه رایگان کولب برای لود مدل Deepseek-OCR کافی نیست و مشکل OOM میخورید، بعضی از همراهان گفتن نوتبوک روی Colab اجرا نمیشه ... برای تست راحت مدل من مدلو با 4 بیت لود کردم که برای GPUهای T4 بی دردسر اجرا شه 👇 https://colab.rese…
سایز عکس ورودی قابل تنظیمه
Native resolution:
Tiny: 512×512 (64 vision tokens)✅
Small: 640×640 (100 vision tokens)✅
Base: 1024×1024 (256 vision tokens)✅
Large: 1280×1280 (400 vision tokens)✅
Dynamic resolution
Gundam: n×640×640 + 1×1024×1024 ✅
👍5🥰1
Forwarded from Tensorflow(@CVision)
تبدیل PDF از اسلایدها (عکس) به PowerPoint با هوش مصنوعی
یه اسکریپت جالب نوشتم که هنوز کامل نیست ولی خیلی به دردم خورد! 💡
🎯 چیکار میکنه؟
یه فایل PDF از اسلایدها میگیره و با کمک DeepSeek-OCR با حفظ مکان عنوانها، عکسها و بقیه المانها، یه PowerPoint کامل بهتون تحویل میده!
🔗 گیتهاب: github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr
📹 یه کیس واقعی ازش استفاده کردم:
کل ویدیوهای کورس Agentic از Andrew Ng رو پردازش کردم:
✅ با ffmpeg فقط فریمهایی که تغییر داشتن رو سیو کردم
✅ با OpenCV فریمهایی که چهره Andrew بود رو حذف کردم
✅ اسلایدهایی که مرحله به مرحله کامل میشدن رو یکی کردم
✅ همه رو تبدیل به یه PDF کردم
✅ با DeepSeek-OCR تبدیل به Markdown و JSON (موقعیتها) شد
✅ با python-pptx همه چیز رو سر جاش گذاشتم و یه PPT درست کردم
📦 چی تو گیتهاب هست؟
فرآیند از PDF به بعد رو آپلود کردم. اگه علاقه دارید کاملش کنید یا ایده بدید، خوشحال میشم! 🙌
من میخواستم کار خودمو راه بندازم و خیلی روش وقت نذاشتم. اما با صرف وقت و سلیقه، قشنگ میشه یه محصول خفن ازش ساخت...
https://github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr
یه اسکریپت جالب نوشتم که هنوز کامل نیست ولی خیلی به دردم خورد! 💡
🎯 چیکار میکنه؟
یه فایل PDF از اسلایدها میگیره و با کمک DeepSeek-OCR با حفظ مکان عنوانها، عکسها و بقیه المانها، یه PowerPoint کامل بهتون تحویل میده!
🔗 گیتهاب: github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr
📹 یه کیس واقعی ازش استفاده کردم:
کل ویدیوهای کورس Agentic از Andrew Ng رو پردازش کردم:
✅ با ffmpeg فقط فریمهایی که تغییر داشتن رو سیو کردم
✅ با OpenCV فریمهایی که چهره Andrew بود رو حذف کردم
✅ اسلایدهایی که مرحله به مرحله کامل میشدن رو یکی کردم
✅ همه رو تبدیل به یه PDF کردم
✅ با DeepSeek-OCR تبدیل به Markdown و JSON (موقعیتها) شد
✅ با python-pptx همه چیز رو سر جاش گذاشتم و یه PPT درست کردم
📦 چی تو گیتهاب هست؟
فرآیند از PDF به بعد رو آپلود کردم. اگه علاقه دارید کاملش کنید یا ایده بدید، خوشحال میشم! 🙌
من میخواستم کار خودمو راه بندازم و خیلی روش وقت نذاشتم. اما با صرف وقت و سلیقه، قشنگ میشه یه محصول خفن ازش ساخت...
https://github.com/Alireza-Akhavan/pdf_to_ppt_with_deepseekocr
❤8👍7
پروژه یکی از دوستان عضو کانال:
https://github.com/amirhoseinnaderali-pixel/AutoTune-Research-Assistan
https://github.com/amirhoseinnaderali-pixel/AutoTune-Research-Assistan
لازم نیست دیگه وقتت رو صرف خواندن راجب مدل بکنی و دیتاست و پیچیدگیهای کار،Auto tuneهوش مصنوعی که برای فاینتیونینگ فکر میکنه!
یه دستیار هوشمند مخصوص پژوهشگرها، دولوپرها و علاقهمندان هوش مصنوعیه که بهت کمک میکنه بهترین مدلها، دیتاستها و استراتژیها رو برای پروژه فاینتیونینگت پیدا کنی.
کافیه فقط توضیح بدی چی میخوای انجام بدی — AutoTune خودش همهچی رو برات پیدا میکنه:
🔍 میگرده توی HuggingFace، ArXiv و Kaggle
🧠 نیازت رو با تحلیل هوشمند تشخیص میده
📊 یه گزارش پژوهشی کامل با پیشنهاد مدل و دیتاست برات میسازه
🎯 و حتی مسیر اجرای پروژهت رو قدمبهقدم مشخص میکنه!
با AutoTune، فقط حرف بزن… و بقیهش رو بسپار به هوش مصنوعی 💬🤖
❤7👍5
🚀 Supercharge your OCR Pipelines with Open Models
📚 تیم Hugging Face توی آخرین بلاگش یه مرور عالی روی مدلهای open-source OCR منتشر کرده.
از مدلهای معروف مثل PaddleOCR گرفته تا مدلهای جدیدتر مثل OlmOCR و Chandra،
همه بررسی شدن و نشون داده شده چطور میشه با fine-tune یا ترکیب Vision-Language Modelها
به دقت بالاتر و performance بهتر رسید.
💡 اگر روی taskهایی مثل document understanding، table extraction یا visual QA کار میکنین،
این پست پر از insightهای کاربردی برای انتخاب و deploy مدلهای مناسب هست.
📎 لینک مطلب:
👉 huggingface.co/blog/ocr-open-models
📚 تیم Hugging Face توی آخرین بلاگش یه مرور عالی روی مدلهای open-source OCR منتشر کرده.
از مدلهای معروف مثل PaddleOCR گرفته تا مدلهای جدیدتر مثل OlmOCR و Chandra،
همه بررسی شدن و نشون داده شده چطور میشه با fine-tune یا ترکیب Vision-Language Modelها
به دقت بالاتر و performance بهتر رسید.
💡 اگر روی taskهایی مثل document understanding، table extraction یا visual QA کار میکنین،
این پست پر از insightهای کاربردی برای انتخاب و deploy مدلهای مناسب هست.
📎 لینک مطلب:
👉 huggingface.co/blog/ocr-open-models
❤6👍4
Liquid AI's LFM2-VL-3B Brings a 3B Parameter Vision Language Model (VLM) to Edge-Class Devices - MarkTechPost https://www.marktechpost.com/2025/10/24/liquid-ais-lfm2-vl-3b-brings-a-3b-parameter-vision-language-model-vlm-to-edge-class-devices/
MarkTechPost
Liquid AI’s LFM2-VL-3B Brings a 3B Parameter Vision Language Model (VLM) to Edge-Class Devices
Explore Liquid AI's LFM2-VL-3B, a powerful vision language model enhancing accuracy and speed for image text tasks.
🔥9❤1
This media is not supported in your browser
VIEW IN TELEGRAM
مدلهای VLM (Vision-Language Model) فقط تصویر و زبان رو ترکیب میکنن و هدفشون درک یا توضیح صحنههاست.
اما VLA (Vision-Language-Action)ها یه قدم جلوترن — اونها علاوه بر دیدن و فهمیدن، اقدام هم میکنن؛ یعنی میتونن در محیط واقعی تصمیم بگیرن و عمل کنن.
🔹 تازهترین نمونه این دسته، مدل GigaBrain-0 هست:
مدلی پایهای برای رباتهای هوشمند که با استفاده از دادههای ساختهشده توسط world model (مثل ویدیوهای مصنوعی، انتقال از انسان یا شبیهساز به واقعیت) یاد میگیره.
به لطف این روش، دیگه لازم نیست حجم زیادی داده واقعی از رباتها جمعآوری بشه.
📈 نتیجه:
تعمیم بهتر بین وظایف مختلف
عملکرد قویتر در کارهای پیچیده و بلندمدت
تصمیمگیری پایدارتر
نسخه سبکترش، GigaBrain-0-Small هم برای سختافزارهایی مثل NVIDIA Jetson AGX Orin بهینه شده.
💡 خلاصه: GigaBrain-0 گام بزرگیه به سمت رباتهایی که مثل انسان میبینن، میفهمن و عمل میکنن.
https://huggingface.co/open-gigaai
#vla #vlm
اما VLA (Vision-Language-Action)ها یه قدم جلوترن — اونها علاوه بر دیدن و فهمیدن، اقدام هم میکنن؛ یعنی میتونن در محیط واقعی تصمیم بگیرن و عمل کنن.
🔹 تازهترین نمونه این دسته، مدل GigaBrain-0 هست:
مدلی پایهای برای رباتهای هوشمند که با استفاده از دادههای ساختهشده توسط world model (مثل ویدیوهای مصنوعی، انتقال از انسان یا شبیهساز به واقعیت) یاد میگیره.
به لطف این روش، دیگه لازم نیست حجم زیادی داده واقعی از رباتها جمعآوری بشه.
📈 نتیجه:
تعمیم بهتر بین وظایف مختلف
عملکرد قویتر در کارهای پیچیده و بلندمدت
تصمیمگیری پایدارتر
نسخه سبکترش، GigaBrain-0-Small هم برای سختافزارهایی مثل NVIDIA Jetson AGX Orin بهینه شده.
💡 خلاصه: GigaBrain-0 گام بزرگیه به سمت رباتهایی که مثل انسان میبینن، میفهمن و عمل میکنن.
https://huggingface.co/open-gigaai
#vla #vlm
👍12
آموزش LLM و VLM
مدلهای VLM (Vision-Language Model) فقط تصویر و زبان رو ترکیب میکنن و هدفشون درک یا توضیح صحنههاست. اما VLA (Vision-Language-Action)ها یه قدم جلوترن — اونها علاوه بر دیدن و فهمیدن، اقدام هم میکنن؛ یعنی میتونن در محیط واقعی تصمیم بگیرن و عمل کنن. 🔹 تازهترین…
اینم یکی از همراهان عزیز کانال تو نظرات پست قبلی معرفی کرده
AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning
https://autovla.github.io/
#vla
AutoVLA: A Vision-Language-Action Model for End-to-End Autonomous Driving with Adaptive Reasoning and Reinforcement Fine-Tuning
https://autovla.github.io/
#vla
❤8👍2
Forwarded from Tensorflow(@CVision)
🎉 فقط ۳ روز دیگه (۴ نوامبر) تولد ۹ سالگی کاناله!
به همین مناسبت، تخفیفهای ویژه روی همه دورهها در راهه 😍
هم دورههای کلاسویژن و هم مکتبخونه 🔥
منتظر باشید! 💫
به همین مناسبت، تخفیفهای ویژه روی همه دورهها در راهه 😍
هم دورههای کلاسویژن و هم مکتبخونه 🔥
منتظر باشید! 💫
❤6👍2