آموزش LLM و VLM
1.88K subscribers
23 photos
14 videos
11 files
53 links
آموزش تخصصی LLM و Hugging face

گروه مباحثه:

@llm_group
Download Telegram
Forwarded from Tensorflow(@CVision)
انقلاب سامسونگ در هوش مصنوعی: مدل ۷ میلیونی که غول‌ها را شکست داد

فرانسیس شوله اینجا،  این رو بازنشر کرده بود:

https://fixupx.com/jacksonatkinsx/status/1975556245617512460?s=12


وقتی این مقاله را خواندم مغزم هنگ کرد.

یک مدل خیلی کوچک با تنها ۷ میلیون پارامتر همین الان در آزمون‌های استدلال روی هر دو مجموعه ARG-AGI 1 و ARC-AGI 2، از DeepSeek-R1، Gemini 2.5 pro و o3-mini جلو زد.

اسمش Tiny Recursive Model (TRM) از سامسونگ است.

چطور مدلی که ۱۰٬۰۰۰ برابر کوچکتر است می‌تواند باهوش‌تر باشد؟

نحوه کارش این‌طور است:

نوشتن یک پاسخ اولیه: برخلاف یک مدل زبان بزرگ (LLM) که کلمه‌به‌کلمه تولید می‌کند، TRM ابتدا یک «پیش‌نویس» سریع و کامل از راه‌حل تولید می‌کند. این را می‌توان اولین حدس خام آن دانست.

خلق یک «اسکراچ‌پد (scratchpad)»: سپس فضایی جداگانه برای افکار درونی‌اش می‌سازد — یک «اسکراچ‌پد» استدلال نهفته. اینجا است که جادوی واقعی رخ می‌دهد.

خودانتقادی شدید: مدل وارد یک حلقهٔ درونی شدید می‌شود. پیش‌نویسش را با مسئلهٔ اصلی مقایسه می‌کند و بارها و بارها (۶ بار پشت‌سرِ هم) استدلالش را در اسکرچ‌پد تصحیح می‌کند و از خودش می‌پرسد «آیا منطق من درست است؟ خطاها کجا هستند؟»

بازنویسی پاسخ: پس از این «تفکر» متمرکز، از منطق بهبود یافتهٔ موجود در اسکرچ‌پد استفاده می‌کند تا یک پیش‌نویس کاملاً جدید و بسیار بهتر از پاسخ نهایی بسازد.

تکرار تا رسیدن به اطمینان: کل فرایند — پیش‌نویس، تفکر، اصلاح — تا ۱۶ بار تکرار می‌شود. هر چرخه مدل را به حلِ مسئله‌ای صحیح‌تر و منطقی‌تر نزدیک‌تر می‌کند.

چرا این مهم است:

رهبران کسب‌وکار: این همان چیزی است که برتری الگوریتمی (algorithmic advantage) به نظر می‌رسد. در حالی که رقبا برای مقیاس‌بندی خام هزینه‌های عظیمی در فرایند inference می‌پردازند، یک مدل هوشمندتر و کارآمدتر می‌تواند عملکرد بهتر را با کسری از هزینه ارائه دهد.

پژوهشگران: این تأیید مهمی برای ایده‌های نوروسیمبولیک (neuro-symbolic) است. توانایی مدل در «تفکر» بازگشتی (recursively) پیش از «عمل»، نشان می‌دهد که معماری، نه صرفاً مقیاس، می‌تواند محرک اصلی قابلیت استدلال باشد.

عملی‌کنندگان: استدلال در سطح SOTA (state-of-the-art) دیگر پشت خوشه‌های GPU میلیارد دلاری قفل‌شده نیست. این مقاله یک نقشه‌راه بسیار کارآمد و کم‌پارامتر برای ساخت سامانه‌های استدلالی (reasoners) تخصصی فراهم می‌کند که می‌توانند در هر جا اجرا شوند.

این فقط کوچک‌سازیِ مقیاس نیست؛ این یک روش کاملاً متفاوت و هدفمندتر برای حل مسائل است.



@cvision
@llm_huggingface
16👍3
به درخواست همراهان کانال، بات کد تخفیف 100 درصد خرید برای مدت محدودی دوباره فعال شده است.

لطفاً حتماً:

- از همان نام کامل استفاده کنید که در مکتب‌خونه ثبت کرده‌اید و فیش به نام شما صادر شده است.

- فیش پرداخت را دقیقاً مثل نمونه‌ی بالا ارسال کنید.

- تا زمانی که تأیید مرحله‌ی قبل را نگرفته‌اید، سراغ مرحله‌ی بعد نروید.

@llm_vlm_bot

اگر قبلا دوره را تهیه کردید میتونید کد 1 بار مصرف خود را به شخص دیگر بدهید
🔥51
امروزه LLMها دیگر فقط متن نمی‌فهمند؛ آن‌ها می‌توانند داده‌های چندرسانه‌ای مثل صدا، تصویر و متن را پردازش کنند و عملکردی فراتر از مدل‌های تخصصی ارائه دهند. ولی هنوز مشکل بزرگشان این است که نمی‌توانند سری‌های زمانی (Time Series) را به‌خوبی تحلیل کنند.

حالا OpenTSLM این محدودیت را رفع می‌کند: این مدل زبان بزرگ، سری‌های زمانی پزشکی چندمتغیره را به‌عنوان ورودی می‌پذیرد و می‌تواند روی آن‌ها استدلال کند، توضیح بدهد و نتایج را به زبان طبیعی ارائه کند، برای مثال در تشخیص فعالیت انسانی، تحلیل خواب، پاسخ به سؤالات ECG و تولید توضیحات سری‌های زمانی.

خلاصه: OpenTSLM، LLM مخصوص سری‌های زمانی پزشکی است که همزمان چند سری را پردازش و نتایج قابل فهم برای انسان تولید می‌کند. قاعدتا توقع میره روی داده های بورس و کریپتو و ... هم بشه فاین تیون کرد

این مدل توسط تیمی بین‌رشته‌ای از دانشگاه استنفورد، ETH زوریخ، گوگل ریسرچ توسعه داده شده است.

https://github.com/StanfordBDHG/OpenTSLM
👍63
برای استفاده از کدهای تحفیف مکتب خونه، این تیکو حتما بردارید
1
آموزش LLM و VLM
به درخواست همراهان کانال، بات کد تخفیف 100 درصد خرید برای مدت محدودی دوباره فعال شده است. لطفاً حتماً: - از همان نام کامل استفاده کنید که در مکتب‌خونه ثبت کرده‌اید و فیش به نام شما صادر شده است. - فیش پرداخت را دقیقاً مثل نمونه‌ی بالا ارسال کنید. …
دوستانی که دوره LLM را قبلا تهیه کردند؛ بات فقط تا دوشنبه پیش رو فعال است. بعد اون مجدد فعال نخواهد شد

* اسم و ایمیل و شماره باید حتما درست و مطابق اطلاعات اکانت و فاکتور باشد

* حتما هر اطلاعاتی (مثلا نام) وارد کردید، صبر کنید بات پاسخ بده بعد مرحله بعد برید، اگر جواب نداد مجدد بفرستید و تا مرحله آخر برید.

@llm_vlm_bot
Forwarded from آموزش LLM و VLM
برای استفاده از کدهای تحفیف مکتب خونه، این تیکو حتما بردارید
نوت بوک جدید Unsloth برای GRPO روی Qwen3vl نسخه 8 میلیارد پارامتری

Qwen3_VL_(8B)-Vision-GRPO.ipynb
👍8
Forwarded from Shenasa-ai.ir
📚 دوستان سلام

سایت کتابفروشی بوکروم کار بچه‌های برنامه‌نویسی گروه شناسا هست 👩🏻‍💻👨🏻‍💻

با کسب اجازه از تیم بوکروم، دیتاست تصاویر جلد کتاب‌های فارسی همراه با عنوان‌ها رو منتشر کردیم که به‌صورت رایگان روی هاگینگ‌فیس در دسترسه:

🔗 Bookroom Persian Book Covers and Titles

#دیتاست #فارسی #ocr #vlm

@shenasa_ai
👍94🔥3
bookroom_persian_book_covers_and_titles_Qwen3_VL_8B_Vision.ipynb
755.2 KB
کد ساده‌ای که finetune کردن مدل Qwen3Vl را روی دیتاست بالا نشون میده
6
دوره MCP هاگینگ فیس منتشر شد

https://huggingface.co/learn/mcp-course/
👍7
تیم DeepSeek دوباره ترکوند! این‌بار با مدل متن‌باز DeepSeek-OCR که نه‌تنها OCR فوق‌دقیقیه، بلکه با فناوری جدیدش به نام Context Optical Compression می‌تونه ورودی‌ها رو تا ۱۰ برابر فشرده‌تر به مدل‌های زبانی بده — بدون افت دقت! 🔥

کاربردها:

استخراج متن از عکس، اسکرین‌شات و PDF

تبدیل PDF به Markdown یا HTML با حفظ جداول و ساختار

خلاصه‌سازی و تحلیل اسناد طولانی

استخراج داده از فاکتورها و فرم‌ها

پرسش‌وپاسخ درباره محتوای تصویر یا سند


🏆 دستاوردهای کلیدی:

فشرده‌سازی هوشمند زمینه (Context Compression)

دقت بالاتر از Donut و TrOCR

پشتیبانی از رزولوشن پویا برای اسناد بزرگ



🔗 deepseek.ai/blog/deepseek-ocr-context-compression


🔗https://huggingface.co/deepseek-ai/DeepSeek-OCR


#AI #OCR #DeepSeek #LLM #OpenSource
11👍3
مدل‌های Vision-Language (VLM) مثل DeepSeek-OCR و Qwen3-VL نشون دادن که مرز بین «دیدن» و «فهمیدن» توسط هوش مصنوعی داره از بین میره.

🔹 این مدل‌ها تصاویر، PDFها، نمودارها و اسناد رو می‌بینن، متن رو استخراج می‌کنن و حتی ساختار پیچیده رو حفظ می‌کنن.

🔹 با تکنیک انقلابی Context Optical Compression، می‌تونن محتوای طولانی رو تا ۱۰ برابر فشرده‌تر برای مدل‌های زبانی ارسال کنن — بدون افت دقت!

🔹 از تبدیل PDF به Markdown گرفته تا پرسش‌وپاسخ دربارهٔ محتوا، خلاصه‌سازی و استخراج داده‌ها، همه در یک مدل واحد ممکن شده.

این یعنی VLMها دارن هوش مصنوعی رو از «فقط خواندن متن» به درک واقعی جهان چندوجهی ارتقا میدن — یک انقلاب واقعی در مسیر AGI!

📚 میخوای خودت استاد VLM بشی و با این تکنولوژی انقلاب‌آفرین کار کنی؟
دوره تخصصی Vision-Language Modelsکلاس ویژن رو ببین و قدم به قدم با پروژه‌ها و مثال‌های عملی یاد بگیر: [لینک دوره]
👌9👍1
DeepSeek-OCR:

https://colab.research.google.com/drive/1Fjzv3UYNoOt28HpM0RMUc8kG34EFgvuu?usp=sharing

با این مدل جدید دیپ سیک که قبلا توضیح دادیم
محتوای screenshots, PDF, form, table و handwritten یا متن نویزی را به markdown تمیز تبدیل کنید.
👍8
دوستان بهم گفته بودند این مدل جدید deepseek-ocr را روی یه تصویر فارسی تست کن، منم روی این دادنامه (ربطی به من نداره از اینترنته :)) تست کردم، خروجی👇
![](images/0.jpg)




شماره دادنامه: ۹۱۰۹۷۱۵۲۶۰۰۱-۰۰۱


شماره پرونده: ۹۱۰۹۸۱۳۳۳۰۱-۰۶۹


شماره بایگانی شعبه: ۹۱۰۵۹


تاریخ تنظیم: ۱۳۹۱/۰۱/۱۵


پیوست:


«فلا تشیعوا الهوی آن تعدیل»


شعبه دوم دادگاه انقلاب اسلامی شهرستان ساری


پیوست:


دادگسبری جمهوری اسلامی


ایران


دادنامه


پرونده کلاسه ۹۱۰۹۸۱۳۳۳۰۱-۰۶۹ شعبه دوم دادگاه انقلاب اسلامی شهرستان ساری دادنامه شماره


۹۱۰۹۷۱۵۲۶۰۰۱-۰۰۱


متهم: آقای علی احمدی به نشانی


اتهام: تبلیغ علیه نظام از طریق فرقه بهایت


((رای دادگاه))


بیرامون اتهام آقای علی احمدی فرزند یوسفعلی با وکالت آقای فرج پور اهل قائم شهر دایر بر تبلیغ علیه نظام از طریق تبلیغ فرقه ضاله بهایت به شرح کیفرخواست شماره ۹۱۲ مورخه ۱۳۹۰/۱۱/۳۰ دادسرای عمومی وانقلاب شهرستان قائم شهر با توجه به محتویات پرونده مشروع بازجو نهایی کارشناسان اداره اطلاعات شهرستان قائم شهر و گزارش نهایی آن مرجع مغبوط در صفحه ۲۵۵ پرونده و سابقه محکومیت مشابه متهم در سال ۱۳۸۷ و لوایح تقدیمی متهم در طول تحقیقات مقدماتی که جملگی حکایت از تداوم و استمرار فعالیت متهم در امر تبلیغ علیه نظام جمهوری اسلامی ایران می باشد و انکار بلوچه متهم در جلسه دادرسی و اظهارات وکیل مدافع متهم در جلسه دادرسی و لایحه تقدیمی و سایر قراین و امارات موجود در پرونده بزه کاری متهم بنظر دادگاه مسلم است و عملش منطبق است با ماده ۵۰۰ قانون مجازات اسلامی دادگاه آقای علی احمدی را با رعایت ماده ۴۸ قانون مرقوم به تحمل یک سال حبس تعزیری محکوم می نماید این رای حضوری ظرف بیست روز پس از ابلاغ قابل تجدید نظر می باشد.


سوادکوهی