آموزش LLM و VLM – Telegram

آموزش LLM و VLM

@llm_huggingface

2.11K subscribers

27 photos

17 videos

11 files

61 links

آموزش تخصصی LLM و Hugging face

گروه مباحثه:

@llm_group

Download Telegram

About

Blog

Apps

Platform

آموزش LLM و VLM

2.11K subscribers

آموزش LLM و VLM

برای دوستانی که دوره را فقط محتوا خریداری کردند، سوالات کوییز و تمرین در اینجا قرار گرفته

https://github.com/Alireza-Akhavan/LLM/blob/main/quizzes_and_assignments.md

البته سوالات دوره و تمارین در آینده نزدیک در سایت و در گیت به روز خواهد شد.

LLM/quizzes_and_assignments.md at main · Alireza-Akhavan/LLM

LLM & Generative AI. Contribute to Alireza-Akhavan/LLM development by creating an account on GitHub.

👍7❤1

2.64K views11:27

آموزش LLM و VLM

آموزش LLM و VLM

📹دوره‌ی آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM) 🔥کد تخفیف 50 درصدی(محدود)🔥 COUPON-bdfd8 🔗 لینک دوره | 📄سرفصلها 🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید: 👇👇👇 @llm_huggingface 👆👆👆 🎓ما رو تو اینستاگرام هم دنبال کنید...…

این کد هنوز اعتبار دارد

COUPON-bdfd8

❤8😱2

1.92K views14:29

آموزش LLM و VLM

تقسیم‌بندی (Chunking) نادرست، حتی بهترین سیستم‌های RAG را هم ناکارآمد می‌کند
...

❤1👍1

1.78K views17:31

آموزش LLM و VLM

تقسیم‌بندی (Chunking) نادرست، حتی بهترین سیستم‌های RAG را هم ناکارآمد می‌کند

بیشتر پاسخ‌های نامرتبط در سیستم‌های بازیابی تقویتی (RAG)، به نحوه‌ی تقسیم اسناد یا متون برمی‌گردد. اگر این مرحله را اشتباه انجام دهید، هیچ میزان مهندسی پرامپت یا بازرتبه‌بندی (reranking) نمی‌تواند مشکل را جبران کند. پس سوال اصلی اینجاست: چگونه محتوا را به‌درستی تقسیم کنیم؟ در ادامه، انواع روش‌های رایج chunking را معرفی کرده‌ایم و توضیح داده‌ایم که در چه شرایطی باید از هرکدام استفاده کنید:
تقسیم‌بندی با اندازه‌ی ثابت (Fixed-Size)

تقسیم متن بر اساس تعداد مشخصی از کاراکترها، معمولاً با مقداری هم‌پوشانی
🔹 مناسب برای: بات‌های پرسش‌پاسخ (FAQ)، اسناد یکپارچه، محیط‌های تولیدی
🔸 نامناسب برای: متون روایی پیچیده یا اسناد با ساختار متغیر و غیریکدست
تقسیم‌بندی بازگشتی (Recursive)

تقسیم هوشمندانه؛ ابتدا براساس پاراگراف، سپس جمله، و در نهایت بخش‌های کوچکتر
🔹 مناسب برای: محتوای ترکیبی، کاربردهای عمومی بازیابی اطلاعات
🔸 نامناسب برای: اسنادی که نیاز به حفظ دقیق ساختار دارند
تقسیم‌بندی مبتنی بر ساختار سند (Document-Based)

تقسیم بر اساس ساختار طبیعی سند مانند سرفصل‌ها، بخش‌ها، جدول‌ها
🔹 مناسب برای: اسناد ساختارمند مانند راهنماها، فایل‌های Markdown، مقالات علمی
🔸 نامناسب برای: متون بدون ساختار یا محتوای پرنویز و غیررسمی
تقسیم‌بندی معنایی (Semantic)

گروه‌بندی متن براساس معنا با استفاده از embedding و خوشه‌بندی بر مبنای شباهت
🔹 مناسب برای: مدل‌سازی موضوعی، استخراج مفاهیم، دسته‌بندی محتوای مرتبط
🔸 نامناسب برای: سیستم‌های نیازمند پردازش با سرعت بالا به‌دلیل سربار پردازشی
تقسیم‌بندی مبتنی بر LLM (LLM-Based)

استفاده از مدل‌های زبانی بزرگ برای تشخیص و تقسیم بر اساس ایده‌ها یا گزاره‌های کامل
🔹 مناسب برای: وظایف پیچیده‌ی استدلالی، تحلیل‌های عمیق، محتوای باارزش
🔸 نامناسب برای: پردازش‌های حجیم یا پروژه‌های حساس به هزینه
تقسیم‌بندی تأخیری (Late Chunking)

رویکرد تحول‌ساز؛ ابتدا کل سند را embed می‌کند و سپس با حفظ بافت پیرامونی، تقسیم انجام می‌دهد
🔹 مناسب برای: اسناد چندبخشی پیچیده، محتوای ارجاعی متقابل
🔸 نامناسب برای: وظایف ساده‌ی پرسش‌پاسخ یا پروژه‌های با محدودیت بودجه
پنجره‌ی لغزان (Sliding Window)

ایجاد chunkهایی با مرزهای هم‌پوشان برای جلوگیری از گم شدن بافت معنایی
🔹 مناسب برای: حفظ پیوستگی معنایی، بازیابی مقاوم
🔸 نامناسب برای: محیط‌های دارای محدودیت ذخیره‌سازی یا مقیاس بسیار بالا

✅ راهبرد chunking خود را متناسب با نوع محتوا و سؤالات هدف انتخاب کنید.
شروع با روش‌های ساده‌ای مانند تقسیم‌بندی بازگشتی توصیه می‌شود، سپس بر اساس عملکرد سیستم و نیازهای واقعی، آن را بهینه‌سازی و تنظیم کنید.

https://t.me/llm_huggingface/42

تقسیم‌بندی (Chunking) نادرست، حتی بهترین سیستم‌های RAG را هم ناکارآمد می‌کند
...

❤11

2.3K views17:31

آموزش LLM و VLM

Forwarded from آموزش LLM و VLM

This media is not supported in your browser

VIEW IN TELEGRAM

📹دوره‌ی آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM)

🔥کد تخفیف 50 درصدی(محدود)🔥

COUPON-bdfd8

🔗 لینک دوره | 📄سرفصلها

🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

🎓ما رو تو اینستاگرام هم دنبال کنید...

https://www.instagram.com/class.vision

#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتب‌خونه #کلاس_ویژن #علیرضا_اخوان_پور

❤2👍1🔥1

3.16K views12:04

آموزش LLM و VLM

آموزش LLM و VLM pinned a video

12:05

آموزش LLM و VLM

کانال دوره های #کلاس_ویژن

https://t.me/class_vision

❤5

3.29K viewsAlireza Akhavan, edited 17:43

آموزش LLM و VLM

This media is not supported in your browser

VIEW IN TELEGRAM

📹دوره‌ی آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM)

🔥کد تخفیف 60 درصدی(محدود)🔥

COUPON-4d432

🔗 لینک دوره | 📄سرفصلها

🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

🎓ما رو تو اینستاگرام هم دنبال کنید...

https://www.instagram.com/class.vision

#llm #course #دوره #مدل_زبانی_بزرگ #هوش_مصنوعی #مکتب‌خونه #کلاس_ویژن #علیرضا_اخوان_پور

❤7🥰1🤔1🙏1

6.04K viewsAlireza Akhavan, edited 02:01

آموزش LLM و VLM

به زودی یک فصل به دوره اضافه میشود.
این فصل برای کسانی که دوره را تهیه کردند به رایگان در دسترس خواهد بود.
به نظرتون این فصل چه خواهد بود؟

❤18😱4🤔1

2.3K viewsedited 07:10

آموزش LLM و VLM

قراره یک فصل به نام VLM نیز به این دوره اضافه شود.
منتظر این فصل باشید...

🔥33🥰6❤2👍1

2.28K views07:18

آموزش LLM و VLM

آموزش LLM و VLM

📹دوره‌ی آموزش هوش مصنوعی مولد با مدل‌های زبانی بزرگ (LLM) 🔥کد تخفیف 60 درصدی(محدود)🔥 COUPON-4d432 🔗 لینک دوره | 📄سرفصلها 🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید: 👇👇👇 @llm_huggingface 👆👆👆 🎓ما رو تو اینستاگرام هم دنبال کنید...…

❌امروز آخرین مهلت استفاده از کد تخفیف ۵۰ درصدی است❌
🎓با کد زیر، #دوره_LLM رو با ۵۰٪ تخفیف تهیه کنید:

COUPON-bdfd8

🔗 همین حالا ثبت‌نام کنید و فرصت رو از دست ندید! 🚀

🔥 برای اطلاع از کدهای تخفیف، همین حالا عضو کانال تلگرام ما بشید:
👇👇👇
@llm_huggingface
👆👆👆

👏2🔥1

2.95K views05:51

آموزش LLM و VLM

به درخواست دانشجویان دوره، یک گروه برای مباحثه ایجاد گردید:

@llm_group

❤14👍1

2.62K views15:21

آموزش LLM و VLM

ضبط مبحث VLM در مکتب خونه

❤21👍1

1.91K views17:06

آموزش LLM و VLM

This media is not supported in your browser

VIEW IN TELEGRAM

بخشی از ضبط امروز مبحث VLM ...

🔥12❤6

1.79K views17:07

آموزش LLM و VLM

گوگل مدلی تازه به نام EmbeddingGemma معرفی کرده که با وجود حجم بسیار کم (۳۰۸ میلیون پارامتر)، عملکردی فوق‌العاده داره. نکته جالب اینه که با کمتر از ۲۰۰ مگابایت رم روی دستگاه اجرا میشه و حتی روی EdgeTPU می‌تونه در حدود ۱۵ میلی‌ثانیه امبدینگ تولید کنه! 🚀
این مدل از بیش از ۱۰۰ زبان پشتیبانی می‌کنه و خروجی اون رو میشه بین ۱۲۸ تا ۷۶۸ بُعد تنظیم کرد. کاملاً آفلاین کار می‌کنه، بنابراین حریم خصوصی به‌طور کامل حفظ میشه.
برای کاربردهایی مثل RAG روی دستگاه، جستجوی معنایی و پردازش داده‌های شخصی گزینه‌ای عالیه. همین حالا هم میشه راحت روی Hugging Face، Kaggle یا Vertex AI بهش دسترسی داشت.

https://developers.googleblog.com/en/introducing-embeddinggemma/

Google for Developers Blog - News about Web, Mobile, AI and Cloud

Discover EmbeddingGemma, Google's new on-device embedding model designed for efficient on-device AI, enabling features like RAG and semantic search.

❤14👍3

2.32K views07:54

آموزش LLM و VLM

آموزش LLM و VLM

گوگل مدلی تازه به نام EmbeddingGemma معرفی کرده که با وجود حجم بسیار کم (۳۰۸ میلیون پارامتر)، عملکردی فوق‌العاده داره. نکته جالب اینه که با کمتر از ۲۰۰ مگابایت رم روی دستگاه اجرا میشه و حتی روی EdgeTPU می‌تونه در حدود ۱۵ میلی‌ثانیه امبدینگ تولید کنه! 🚀 این…

👍6❤1

1.76K views07:56

آموزش LLM و VLM

Forwarded from Tensorflow(@CVision)

چرا مدل‌های زبانی دچار توهم (Hallucination) می‌شوند؟

بر اساس گزارشی از OpenAI، پدیده توهم‌زایی (Hallucination) در مدل‌های زبانی بزرگ (LLMs) یک نقص ناشناخته و black-box نیست، بلکه نتیجه‌ای کاملاً قابل پیش‌بینی از نحوه آموزش و ارزیابی این مدلهاست. این مشکل به دو بخش اصلی تقسیم می‌شود:

1️⃣ پیش‌آموزش (pretraining)
2️⃣ پس‌آموزش (post-training)

1️⃣بخش اول: مشکلات به دلیل فاز Pretraining

توهم‌زایی از نظر آماری یک خطای طبیعی است. حتی اگر داده‌های آموزشی کاملاً بدون خطا باشند، مدل‌ها برای تخمین توزیع زبان بهینه می‌شوند و در این فرآیند، خطاهایی تولید می‌کنند. این پدیده شباهت دارد به مشکل "طبقه‌بندی دودویی" (آیا یک خروجی معتبر است؟)، اما مدل‌های زبانی باید پاسخ‌های کامل و معتبر تولید کنند که کار بسیار دشوارتری است.

یک عامل کلیدی در این مرحله، "نرخ تک‌نمونه" (Singleton Rate) است. این نرخ نشان می‌دهد چه تعداد از حقایق در داده‌های آموزشی فقط یک بار تکرار شده‌اند. برای مثال، اگر 20% از تاریخ‌های تولد تنها یک بار در مجموعه داده‌ها وجود داشته باشند، انتظار می‌رود مدل در حداقل 20% موارد درباره این حقایق توهم کند!

2️⃣بخش دوم: تشدید در Post-training

علیرغم تکنیک‌هایی مانند RLHF (یادگیری تقویتی از بازخورد انسانی) که برای کاهش توهم طراحی شده‌اند، این پدیده همچنان ادامه دارد. چرا؟ چون معیارهای ارزیابی رایج، مانند بنچمارک‌های باینری (صفر و یک)، به حدس زدن پاداش می‌دهند.

در یک سیستم نمره‌دهی باینری، پاسخ صحیح 1 امتیاز می‌گیرد، اما پاسخ‌های مبهم یا "نمی‌دانم" (I Don't Know) صفر امتیاز دارند. این ساختار مدل را به «حالت امتحان‌دهی» سوق می‌دهد و آن را تشویق می‌کند تا به جای اعتراف به عدم قطعیت، یک پاسخ نادرست اما قابل‌باور تولید کند. این "اپیدمی" جریمه‌کردن عدم قطعیت، باعث می‌شود مدل‌ها همیشه حدس بزنند تا امتیاز بیشتری کسب کنند، حتی اگر از پاسخشان مطمئن نباشند.

✅راه‌حل پیشنهادی: اصلاح ساختار ارزیابی

این گزارش پیشنهاد می‌کند به جای ساخت بنچمارک‌های جدید، نحوه نمره‌دهی بنچمارک‌های موجود اصلاح شود. برای حل این مشکل، باید:

⏺️ امتیازدهی به "نمی‌دانم": به مدل‌ها اجازه داده شود بدون جریمه‌شدن، عدم قطعیت خود را ابراز کنند و حتی برای آن امتیازی در نظر گرفته شود.

⏺️تعریف آستانه‌های اطمینان: دستورالعمل‌های ارزیابی باید صراحتاً مشخص کنند که مدل تنها در صورت اطمینان بالای یک آستانه مشخص (مثلاً 75%) پاسخ دهد.

این تغییرات "جامعه‌فنی" می‌تواند به مدل‌ها انگیزه دهد تا صادقانه‌تر و قابل‌اعتمادتر باشند و زمینه را برای توسعه سیستم‌های هوش مصنوعی قابل اطمینان‌تر فراهم کند.

🤔4👍3❤1

1.77K views10:17

آموزش LLM و VLM

How to Choose the Best Open Source LLM for Your Project in 2025

https://huggingface.co/blog/dvilasuero/choosing-best-open-source-ai-models

How to Choose the Best Open Source LLM for Your Project in 2025

A Blog post by Daniel Vila on Hugging Face

🙏6🔥2

1.62K viewsedited 20:15

آموزش LLM و VLM

Forwarded from Tensorflow(@CVision)

🎉 به مناسبت روز برنامه‌نویس 🎉

برنامه‌نویسی یعنی ساختن، حل مسئله و تبدیل ایده به واقعیت. هر مهارت جدیدی که یاد می‌گیری، یه قدم به آینده روشن‌تر نزدیک‌تر می‌شی.

📌 مکتب‌خونه ۵۰ دوره پرمخاطب برنامه‌نویسی رو رایگان کرده!
کافیه دوره دلخواهت رو انتخاب کنی، تیک «دسترسی کامل» رو برداری و کد تخفیف:
👉 HELLOWORLD
رو وارد کنی تا دوره برات رایگان بشه.

⏰ این کد فقط تا یکشنبه ۲۳ شهریور فعاله و می‌تونی باهاش یه دوره رو رایگان برداری.

🔗 دوره پیشنهادی: آموزش جامع یادگیری عمیق (Deep Learning) با Tensorflow و Keras

📚 بقیه دوره‌های رایگان رو هم اینجا ببینید:
https://mktb.me/tuj6/

❤14

1.11K views06:44

آموزش LLM و VLM

👌30 درصد افزایش سرعت GRPO با به روزرسانی جدید Unsloth

Memory Efficient RL
https://docs.unsloth.ai/new/memory-efficient-rl

docs.unsloth.ai

Memory Efficient RL | Unsloth Documentation

❤8👍1

1.53K viewsedited 07:37