آموزش LLM و VLM
1.84K subscribers
20 photos
14 videos
11 files
51 links
آموزش تخصصی LLM و Hugging face

گروه مباحثه:

@llm_group
Download Telegram
Media is too big
VIEW IN TELEGRAM
🌟 مدل‌های زبانی-تصویری (VLM)| مدرس: علیرضا اخوان‌پور

مدل‌های زبانی-تصویری (VLM) نسل جدیدی از مدل‌های مولد هستن که علاوه بر متن، تصویر رو هم می‌فهمن. یعنی می‌تونن عکس رو توصیف کنن، به سوال درباره‌ی محتواش جواب بدن و حتی بین متن و تصویر ارتباط برقرار کنن.

📚 در این دوره یاد می‌گیرید:

- ساختار و معماری مدل‌های VLM

- کاربردهای جذاب مثل پرسش‌وپاسخ تصویری و مولتی‌مودال

- نحوه‌ی آموزش و به‌کارگیری این مدل‌ها در پروژه‌های واقعی

🔗 مشاهده دوره:
https://mktb.me/e3gx/

کد تخفیف 70 درصدی دوره جدید VLM


COUPON-c4cd3


——————————————

🎁همچنین به عنوان پیش نیاز با 70 درصد تخفیف ویژه به مدت محدود دوره محبوب و پرفروش LLM را نیز میتوانید با کد زیر تهیه کنید.


COUPON-c2e42


https://mktb.me/04dr/

حتما موقع استفاده تیک دسترسی کامل را بردارید، اگر قبلا در سبد خرید بوده حذف کرده و مجدد با برداشتن این تیک به سبد خرد خود اضافه کنید.

~~~
کانال تلگرامی دوره
@llm_huggingface
😍4
Channel name was changed to «آموزش LLM و VLM»
Forwarded from Tensorflow(@CVision)
انقلاب سامسونگ در هوش مصنوعی: مدل ۷ میلیونی که غول‌ها را شکست داد

فرانسیس شوله اینجا،  این رو بازنشر کرده بود:

https://fixupx.com/jacksonatkinsx/status/1975556245617512460?s=12


وقتی این مقاله را خواندم مغزم هنگ کرد.

یک مدل خیلی کوچک با تنها ۷ میلیون پارامتر همین الان در آزمون‌های استدلال روی هر دو مجموعه ARG-AGI 1 و ARC-AGI 2، از DeepSeek-R1، Gemini 2.5 pro و o3-mini جلو زد.

اسمش Tiny Recursive Model (TRM) از سامسونگ است.

چطور مدلی که ۱۰٬۰۰۰ برابر کوچکتر است می‌تواند باهوش‌تر باشد؟

نحوه کارش این‌طور است:

نوشتن یک پاسخ اولیه: برخلاف یک مدل زبان بزرگ (LLM) که کلمه‌به‌کلمه تولید می‌کند، TRM ابتدا یک «پیش‌نویس» سریع و کامل از راه‌حل تولید می‌کند. این را می‌توان اولین حدس خام آن دانست.

خلق یک «اسکراچ‌پد (scratchpad)»: سپس فضایی جداگانه برای افکار درونی‌اش می‌سازد — یک «اسکراچ‌پد» استدلال نهفته. اینجا است که جادوی واقعی رخ می‌دهد.

خودانتقادی شدید: مدل وارد یک حلقهٔ درونی شدید می‌شود. پیش‌نویسش را با مسئلهٔ اصلی مقایسه می‌کند و بارها و بارها (۶ بار پشت‌سرِ هم) استدلالش را در اسکرچ‌پد تصحیح می‌کند و از خودش می‌پرسد «آیا منطق من درست است؟ خطاها کجا هستند؟»

بازنویسی پاسخ: پس از این «تفکر» متمرکز، از منطق بهبود یافتهٔ موجود در اسکرچ‌پد استفاده می‌کند تا یک پیش‌نویس کاملاً جدید و بسیار بهتر از پاسخ نهایی بسازد.

تکرار تا رسیدن به اطمینان: کل فرایند — پیش‌نویس، تفکر، اصلاح — تا ۱۶ بار تکرار می‌شود. هر چرخه مدل را به حلِ مسئله‌ای صحیح‌تر و منطقی‌تر نزدیک‌تر می‌کند.

چرا این مهم است:

رهبران کسب‌وکار: این همان چیزی است که برتری الگوریتمی (algorithmic advantage) به نظر می‌رسد. در حالی که رقبا برای مقیاس‌بندی خام هزینه‌های عظیمی در فرایند inference می‌پردازند، یک مدل هوشمندتر و کارآمدتر می‌تواند عملکرد بهتر را با کسری از هزینه ارائه دهد.

پژوهشگران: این تأیید مهمی برای ایده‌های نوروسیمبولیک (neuro-symbolic) است. توانایی مدل در «تفکر» بازگشتی (recursively) پیش از «عمل»، نشان می‌دهد که معماری، نه صرفاً مقیاس، می‌تواند محرک اصلی قابلیت استدلال باشد.

عملی‌کنندگان: استدلال در سطح SOTA (state-of-the-art) دیگر پشت خوشه‌های GPU میلیارد دلاری قفل‌شده نیست. این مقاله یک نقشه‌راه بسیار کارآمد و کم‌پارامتر برای ساخت سامانه‌های استدلالی (reasoners) تخصصی فراهم می‌کند که می‌توانند در هر جا اجرا شوند.

این فقط کوچک‌سازیِ مقیاس نیست؛ این یک روش کاملاً متفاوت و هدفمندتر برای حل مسائل است.



@cvision
@llm_huggingface
16👍3
به درخواست همراهان کانال، بات کد تخفیف 100 درصد خرید برای مدت محدودی دوباره فعال شده است.

لطفاً حتماً:

- از همان نام کامل استفاده کنید که در مکتب‌خونه ثبت کرده‌اید و فیش به نام شما صادر شده است.

- فیش پرداخت را دقیقاً مثل نمونه‌ی بالا ارسال کنید.

- تا زمانی که تأیید مرحله‌ی قبل را نگرفته‌اید، سراغ مرحله‌ی بعد نروید.

@llm_vlm_bot

اگر قبلا دوره را تهیه کردید میتونید کد 1 بار مصرف خود را به شخص دیگر بدهید
🔥51
امروزه LLMها دیگر فقط متن نمی‌فهمند؛ آن‌ها می‌توانند داده‌های چندرسانه‌ای مثل صدا، تصویر و متن را پردازش کنند و عملکردی فراتر از مدل‌های تخصصی ارائه دهند. ولی هنوز مشکل بزرگشان این است که نمی‌توانند سری‌های زمانی (Time Series) را به‌خوبی تحلیل کنند.

حالا OpenTSLM این محدودیت را رفع می‌کند: این مدل زبان بزرگ، سری‌های زمانی پزشکی چندمتغیره را به‌عنوان ورودی می‌پذیرد و می‌تواند روی آن‌ها استدلال کند، توضیح بدهد و نتایج را به زبان طبیعی ارائه کند، برای مثال در تشخیص فعالیت انسانی، تحلیل خواب، پاسخ به سؤالات ECG و تولید توضیحات سری‌های زمانی.

خلاصه: OpenTSLM، LLM مخصوص سری‌های زمانی پزشکی است که همزمان چند سری را پردازش و نتایج قابل فهم برای انسان تولید می‌کند. قاعدتا توقع میره روی داده های بورس و کریپتو و ... هم بشه فاین تیون کرد

این مدل توسط تیمی بین‌رشته‌ای از دانشگاه استنفورد، ETH زوریخ، گوگل ریسرچ توسعه داده شده است.

https://github.com/StanfordBDHG/OpenTSLM
👍63
برای استفاده از کدهای تحفیف مکتب خونه، این تیکو حتما بردارید
1
آموزش LLM و VLM
به درخواست همراهان کانال، بات کد تخفیف 100 درصد خرید برای مدت محدودی دوباره فعال شده است. لطفاً حتماً: - از همان نام کامل استفاده کنید که در مکتب‌خونه ثبت کرده‌اید و فیش به نام شما صادر شده است. - فیش پرداخت را دقیقاً مثل نمونه‌ی بالا ارسال کنید. …
دوستانی که دوره LLM را قبلا تهیه کردند؛ بات فقط تا دوشنبه پیش رو فعال است. بعد اون مجدد فعال نخواهد شد

* اسم و ایمیل و شماره باید حتما درست و مطابق اطلاعات اکانت و فاکتور باشد

* حتما هر اطلاعاتی (مثلا نام) وارد کردید، صبر کنید بات پاسخ بده بعد مرحله بعد برید، اگر جواب نداد مجدد بفرستید و تا مرحله آخر برید.

@llm_vlm_bot
Forwarded from آموزش LLM و VLM
برای استفاده از کدهای تحفیف مکتب خونه، این تیکو حتما بردارید
نوت بوک جدید Unsloth برای GRPO روی Qwen3vl نسخه 8 میلیارد پارامتری

Qwen3_VL_(8B)-Vision-GRPO.ipynb
👍8
Forwarded from Shenasa-ai.ir
📚 دوستان سلام

سایت کتابفروشی بوکروم کار بچه‌های برنامه‌نویسی گروه شناسا هست 👩🏻‍💻👨🏻‍💻

با کسب اجازه از تیم بوکروم، دیتاست تصاویر جلد کتاب‌های فارسی همراه با عنوان‌ها رو منتشر کردیم که به‌صورت رایگان روی هاگینگ‌فیس در دسترسه:

🔗 Bookroom Persian Book Covers and Titles

#دیتاست #فارسی #ocr #vlm

@shenasa_ai
👍94🔥3
bookroom_persian_book_covers_and_titles_Qwen3_VL_8B_Vision.ipynb
755.2 KB
کد ساده‌ای که finetune کردن مدل Qwen3Vl را روی دیتاست بالا نشون میده
6
دوره MCP هاگینگ فیس منتشر شد

https://huggingface.co/learn/mcp-course/
👍7
تیم DeepSeek دوباره ترکوند! این‌بار با مدل متن‌باز DeepSeek-OCR که نه‌تنها OCR فوق‌دقیقیه، بلکه با فناوری جدیدش به نام Context Optical Compression می‌تونه ورودی‌ها رو تا ۱۰ برابر فشرده‌تر به مدل‌های زبانی بده — بدون افت دقت! 🔥

کاربردها:

استخراج متن از عکس، اسکرین‌شات و PDF

تبدیل PDF به Markdown یا HTML با حفظ جداول و ساختار

خلاصه‌سازی و تحلیل اسناد طولانی

استخراج داده از فاکتورها و فرم‌ها

پرسش‌وپاسخ درباره محتوای تصویر یا سند


🏆 دستاوردهای کلیدی:

فشرده‌سازی هوشمند زمینه (Context Compression)

دقت بالاتر از Donut و TrOCR

پشتیبانی از رزولوشن پویا برای اسناد بزرگ



🔗 deepseek.ai/blog/deepseek-ocr-context-compression


🔗https://huggingface.co/deepseek-ai/DeepSeek-OCR


#AI #OCR #DeepSeek #LLM #OpenSource
10👍3
مدل‌های Vision-Language (VLM) مثل DeepSeek-OCR و Qwen3-VL نشون دادن که مرز بین «دیدن» و «فهمیدن» توسط هوش مصنوعی داره از بین میره.

🔹 این مدل‌ها تصاویر، PDFها، نمودارها و اسناد رو می‌بینن، متن رو استخراج می‌کنن و حتی ساختار پیچیده رو حفظ می‌کنن.

🔹 با تکنیک انقلابی Context Optical Compression، می‌تونن محتوای طولانی رو تا ۱۰ برابر فشرده‌تر برای مدل‌های زبانی ارسال کنن — بدون افت دقت!

🔹 از تبدیل PDF به Markdown گرفته تا پرسش‌وپاسخ دربارهٔ محتوا، خلاصه‌سازی و استخراج داده‌ها، همه در یک مدل واحد ممکن شده.

این یعنی VLMها دارن هوش مصنوعی رو از «فقط خواندن متن» به درک واقعی جهان چندوجهی ارتقا میدن — یک انقلاب واقعی در مسیر AGI!

📚 میخوای خودت استاد VLM بشی و با این تکنولوژی انقلاب‌آفرین کار کنی؟
دوره تخصصی Vision-Language Modelsکلاس ویژن رو ببین و قدم به قدم با پروژه‌ها و مثال‌های عملی یاد بگیر: [لینک دوره]
👌9👍1
DeepSeek-OCR:

https://colab.research.google.com/drive/1Fjzv3UYNoOt28HpM0RMUc8kG34EFgvuu?usp=sharing

با این مدل جدید دیپ سیک که قبلا توضیح دادیم
محتوای screenshots, PDF, form, table و handwritten یا متن نویزی را به markdown تمیز تبدیل کنید.
👍3