آموزش LLM و VLM
🌟 مدلهای زبانی-تصویری (VLM)| مدرس: علیرضا اخوانپور مدلهای زبانی-تصویری (VLM) نسل جدیدی از مدلهای مولد هستن که علاوه بر متن، تصویر رو هم میفهمن. یعنی میتونن عکس رو توصیف کنن، به سوال دربارهی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.…
در حاضر کد های 70 درصدی دوره LLM ، دوره VLM و کد 100 درصدی VLM از طریق بات برای مشتریان قبلی فعاله.
بات تا آخر هفته بیشتر بالا نخواهد بود
بات تا آخر هفته بیشتر بالا نخواهد بود
آموزش LLM و VLM
به درخواست همراهان کانال، بات کد تخفیف 100 درصد خرید برای مدت محدودی دوباره فعال شده است. لطفاً حتماً: - از همان نام کامل استفاده کنید که در مکتبخونه ثبت کردهاید و فیش به نام شما صادر شده است. - فیش پرداخت را دقیقاً مثل نمونهی بالا ارسال کنید. …
دوستانی که دوره LLM را قبلا تهیه کردند؛ بات فقط تا دوشنبه پیش رو فعال است. بعد اون مجدد فعال نخواهد شد
* اسم و ایمیل و شماره باید حتما درست و مطابق اطلاعات اکانت و فاکتور باشد
* حتما هر اطلاعاتی (مثلا نام) وارد کردید، صبر کنید بات پاسخ بده بعد مرحله بعد برید، اگر جواب نداد مجدد بفرستید و تا مرحله آخر برید.
@llm_vlm_bot
* اسم و ایمیل و شماره باید حتما درست و مطابق اطلاعات اکانت و فاکتور باشد
* حتما هر اطلاعاتی (مثلا نام) وارد کردید، صبر کنید بات پاسخ بده بعد مرحله بعد برید، اگر جواب نداد مجدد بفرستید و تا مرحله آخر برید.
@llm_vlm_bot
Forwarded from Shenasa-ai.ir
📚 دوستان سلام
سایت کتابفروشی بوکروم کار بچههای برنامهنویسی گروه شناسا هست 👩🏻💻👨🏻💻
با کسب اجازه از تیم بوکروم، دیتاست تصاویر جلد کتابهای فارسی همراه با عنوانها رو منتشر کردیم که بهصورت رایگان روی هاگینگفیس در دسترسه:
🔗 Bookroom Persian Book Covers and Titles
#دیتاست #فارسی #ocr #vlm
@shenasa_ai
سایت کتابفروشی بوکروم کار بچههای برنامهنویسی گروه شناسا هست 👩🏻💻👨🏻💻
با کسب اجازه از تیم بوکروم، دیتاست تصاویر جلد کتابهای فارسی همراه با عنوانها رو منتشر کردیم که بهصورت رایگان روی هاگینگفیس در دسترسه:
🔗 Bookroom Persian Book Covers and Titles
#دیتاست #فارسی #ocr #vlm
@shenasa_ai
👍9❤4🔥3
bookroom_persian_book_covers_and_titles_Qwen3_VL_8B_Vision.ipynb
755.2 KB
کد سادهای که finetune کردن مدل Qwen3Vl را روی دیتاست بالا نشون میده
❤6
تیم DeepSeek دوباره ترکوند! اینبار با مدل متنباز DeepSeek-OCR که نهتنها OCR فوقدقیقیه، بلکه با فناوری جدیدش به نام Context Optical Compression میتونه ورودیها رو تا ۱۰ برابر فشردهتر به مدلهای زبانی بده — بدون افت دقت! 🔥
کاربردها:
استخراج متن از عکس، اسکرینشات و PDF
تبدیل PDF به Markdown یا HTML با حفظ جداول و ساختار
خلاصهسازی و تحلیل اسناد طولانی
استخراج داده از فاکتورها و فرمها
پرسشوپاسخ درباره محتوای تصویر یا سند
🏆 دستاوردهای کلیدی:
فشردهسازی هوشمند زمینه (Context Compression)
دقت بالاتر از Donut و TrOCR
پشتیبانی از رزولوشن پویا برای اسناد بزرگ
🔗 deepseek.ai/blog/deepseek-ocr-context-compression
🔗https://huggingface.co/deepseek-ai/DeepSeek-OCR
#AI #OCR #DeepSeek #LLM #OpenSource
کاربردها:
استخراج متن از عکس، اسکرینشات و PDF
تبدیل PDF به Markdown یا HTML با حفظ جداول و ساختار
خلاصهسازی و تحلیل اسناد طولانی
استخراج داده از فاکتورها و فرمها
پرسشوپاسخ درباره محتوای تصویر یا سند
🏆 دستاوردهای کلیدی:
فشردهسازی هوشمند زمینه (Context Compression)
دقت بالاتر از Donut و TrOCR
پشتیبانی از رزولوشن پویا برای اسناد بزرگ
🔗 deepseek.ai/blog/deepseek-ocr-context-compression
🔗https://huggingface.co/deepseek-ai/DeepSeek-OCR
#AI #OCR #DeepSeek #LLM #OpenSource
❤10👍3
مدلهای Vision-Language (VLM) مثل DeepSeek-OCR و Qwen3-VL نشون دادن که مرز بین «دیدن» و «فهمیدن» توسط هوش مصنوعی داره از بین میره.
🔹 این مدلها تصاویر، PDFها، نمودارها و اسناد رو میبینن، متن رو استخراج میکنن و حتی ساختار پیچیده رو حفظ میکنن.
🔹 با تکنیک انقلابی Context Optical Compression، میتونن محتوای طولانی رو تا ۱۰ برابر فشردهتر برای مدلهای زبانی ارسال کنن — بدون افت دقت!
🔹 از تبدیل PDF به Markdown گرفته تا پرسشوپاسخ دربارهٔ محتوا، خلاصهسازی و استخراج دادهها، همه در یک مدل واحد ممکن شده.
✨ این یعنی VLMها دارن هوش مصنوعی رو از «فقط خواندن متن» به درک واقعی جهان چندوجهی ارتقا میدن — یک انقلاب واقعی در مسیر AGI!
📚 میخوای خودت استاد VLM بشی و با این تکنولوژی انقلابآفرین کار کنی؟
دوره تخصصی Vision-Language Modelsکلاس ویژن رو ببین و قدم به قدم با پروژهها و مثالهای عملی یاد بگیر: [لینک دوره]
🔹 این مدلها تصاویر، PDFها، نمودارها و اسناد رو میبینن، متن رو استخراج میکنن و حتی ساختار پیچیده رو حفظ میکنن.
🔹 با تکنیک انقلابی Context Optical Compression، میتونن محتوای طولانی رو تا ۱۰ برابر فشردهتر برای مدلهای زبانی ارسال کنن — بدون افت دقت!
🔹 از تبدیل PDF به Markdown گرفته تا پرسشوپاسخ دربارهٔ محتوا، خلاصهسازی و استخراج دادهها، همه در یک مدل واحد ممکن شده.
✨ این یعنی VLMها دارن هوش مصنوعی رو از «فقط خواندن متن» به درک واقعی جهان چندوجهی ارتقا میدن — یک انقلاب واقعی در مسیر AGI!
📚 میخوای خودت استاد VLM بشی و با این تکنولوژی انقلابآفرین کار کنی؟
دوره تخصصی Vision-Language Modelsکلاس ویژن رو ببین و قدم به قدم با پروژهها و مثالهای عملی یاد بگیر: [لینک دوره]
Telegram
آموزش LLM و VLM
تیم DeepSeek دوباره ترکوند! اینبار با مدل متنباز DeepSeek-OCR که نهتنها OCR فوقدقیقیه، بلکه با فناوری جدیدش به نام Context Optical Compression میتونه ورودیها رو تا ۱۰ برابر فشردهتر به مدلهای زبانی بده — بدون افت دقت! 🔥
کاربردها:
استخراج متن از…
کاربردها:
استخراج متن از…
👌9👍1
DeepSeek-OCR:
https://colab.research.google.com/drive/1Fjzv3UYNoOt28HpM0RMUc8kG34EFgvuu?usp=sharing
با این مدل جدید دیپ سیک که قبلا توضیح دادیم
محتوای screenshots, PDF, form, table و handwritten یا متن نویزی را به markdown تمیز تبدیل کنید.
https://colab.research.google.com/drive/1Fjzv3UYNoOt28HpM0RMUc8kG34EFgvuu?usp=sharing
با این مدل جدید دیپ سیک که قبلا توضیح دادیم
محتوای screenshots, PDF, form, table و handwritten یا متن نویزی را به markdown تمیز تبدیل کنید.
Google
DeepseekOCR.ipynb
Colab notebook
👍5