آموزش دیتاساینس و ماشین‌لرنینگ
1.92K subscribers
161 photos
9 videos
134 links
🔴 آموزش مباحث حوزه دیتا شامل علم داده، یادگیری ماشین و تحلیل داده (رضا شکرزاد)

🌀 کانال اخبار و منابع هوش مصنوعی:
@DSLanders

🌀 مشاوره و ارتباط مستقیم:
https://t.me/dslanders_admin

یوتیوب:
Youtube.com/@RezaShokrzad

دوره‌ها:
cafetadris.com/datascience
Download Telegram
👨‍🎓 الگوریتم K-means

الگوریتم K-means یک روش بدون ناظر برای خوشه‌بندی داده‌هاست که سعی داره داده‌ها رو به K خوشه تقسیم کنه. این الگوریتم از K مرکز اولیه (centroid) شروع می‌کنه و به‌صورت تکراری مراکز خوشه‌ها رو به‌روزرسانی می‌کنه تا زمانی که خوشه‌ها تغییر نکنن.

🔵 مراحل الگوریتم K-means

الگوریتم K-means شامل چند مرحله مهمه:

۱. تعیین تعداد خوشه‌ها (K): در اولین مرحله، باید تعداد خوشه‌هایی که قصد داریم داده‌ها رو به اونها تقسیم کنیم، مشخص کنیم. این تعداد رو با K نشون می‌دیم.

۲. انتخاب مراکز اولیه: در این مرحله، K نقطه به‌عنوان مراکز اولیه خوشه‌ها به‌طور تصادفی از بین داده‌ها انتخاب می‌شن. این نقاط می‌تونن به روش‌های مختلفی انتخاب شن، اما معمولاً از روش‌های تصادفی استفاده می‌شه.

۳. تخصیص داده‌ها به نزدیک‌ترین مرکز: در این مرحله، هر داده به نزدیک‌ترین مرکز (centroid) تخصیص داده می‌شه. برای تعیین نزدیکی، معمولاً از فاصله اقلیدسی استفاده می‌شه.

۴. به‌روزرسانی مراکز: بعد از تخصیص داده‌ها به خوشه‌ها، مراکز خوشه‌ها به‌روزرسانی می‌شن. برای هر خوشه، مرکز جدید محاسبه می‌شه که میانگین نقاط اون خوشه است.

۵. تکرار مراحل ۳ و ۴: مراحل تخصیص داده‌ها و به‌روزرسانی مراکز تا زمانی که مراکز خوشه‌ها تغییر نکنن یا تغییرات بسیار کوچک باشن، تکرار می‌شن. در این حالت، الگوریتم به همگرایی رسیده و خوشه‌بندی نهایی انجام شده.

🔵 مزایا K-means

🔵سادگی و سرعت: الگوریتم K-means بسیار ساده، سریع و به‌راحتی قابل پیاده‌سازیه.
🔵مقیاس‌پذیری: این الگوریتم قابلیت اعمال روی داده‌های بزرگ رو داره و با افزایش حجم داده‌ها هم کارآمده.
🔵انعطاف‌پذیری: الگوریتم K-means در بسیاری از مسائل خوشه‌بندی کاربرد داره و می‌شه ازش در کاربردهای مختلف استفاده کرد.

🔵 معایب K-means

🔵تعیین K: یکی از چالش‌های اصلی الگوریتم K-means تعیین تعداد خوشه‌ها (K) است که معمولاً به‌صورت تجربی انجام می‌شه.
🔵حساسیت به مقادیر اولیه: انتخاب مراکز اولیه تصادفی می‌تونه روی نتایج الگوریتم تأثیرگذار باشه و در بعضی موارد به خوشه‌بندی‌های نامناسب منجر شه.
🔵حساسیت به نویز و داده‌های پرت: الگوریتم K-means نسبت به داده‌های نویزی و پرت حساسه و این داده‌ها می‌تونن نتایج خوشه‌بندی رو مختل کنن.

🔵 کاربردهای K-means

🔵تحلیل بازار: در تحلیل بازار، الگوریتم K-means می‌تونه برای خوشه‌بندی مشتریان بر اساس رفتار خرید، ترجیحات و ویژگی‌های دیگه استفاده شه.

🔵تشخیص الگو: در مسائل تشخیص الگو، مثل تشخیص چهره، دست‌خط و اشیاء، الگوریتم K-means به‌عنوان یک روش پیش‌پردازش برای استخراج ویژگی‌ها و خوشه‌بندی داده‌ها کاربرد داره.

🔵کاهش ابعاد: در مسائل کاهش ابعاد، الگوریتم K-means برای خلاصه‌سازی داده‌ها و کاهش پیچیدگی‌های محاسباتی استفاده می‌شه.

#Clustering

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
🧑‍🎓 معرفی الگوریتم K-means

در حوزه یادگیری بدون نظارت (Unsupervised Learning)، الگوریتم K-means به عنوان یک تکنیک اساسی برای خوشه‌بندی داده‌ها استفاده میشه و در زمینه تقسیم‌بندی مشتری، تشخیص تصویر یا تشخیص ناهنجاری کاربرد داره. در این مطلب، نحوه کارکرد الگوریتم K-means، کاربردهاش و بهترین شیوه‌ها برای پیاده‌سازیش بررسی شدن.

🟢برای مطالعه کلیک کنین:

👉📎 ctdrs.ir/ds0188

#Clustering

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👨‍🎓 خوشه‌بندی سلسله‌مراتبی یا Hierarchical Clustering

خوشه‌بندی سلسله‌مراتبی روشی در یادگیری بدون ناظره که داده‌ها رو به صورت سلسله‌مراتبی و تودرتو گروه‌بندی می‌کنه، به طوری که در هر مرحله خوشه‌ها باهم ادغام یا تجزیه می‌شن تا به یک ساختار درختی برسن. این روش به دو نوع تجمیعی و تجزیه‌ای تقسیم می‌شه که در اولی خوشه‌ها از پایین به بالا ادغام و در دومی از بالا به پایین تقسیم می‌شن.

🔵 خوشه‌بندی تجمیعی (Agglomerative Clustering)

در خوشه‌بندی تجمیعی، هر داده اول به عنوان یک خوشه مستقل در نظر گرفته می‌شه و بعد دو خوشه‌ای که بیشترین شباهت رو دارن، باهم ادغام می‌شن و فرایند تا زمانی که همه داده‌ها در یک خوشه بزرگ قرار بگیرن، تکرار می‌شه.

🔵 خوشه‌بندی تجزیه‌ای (Divisive Clustering)

در خوشه‌بندی تجزیه‌ای، اول تمام داده‌ها در یک خوشه بزرگ قرار دارن و بعد خوشه بزرگ به دو یا چند خوشه کوچکتر تقسیم می‌شه و فرایند تا زمانی که هر داده یک خوشه مستقل تشکیل بده، تکرار می‌شه.

🔵 متریک‌های فاصله در خوشه‌بندی سلسله‌مراتبی

انتخاب متریک مناسب برای اندازه‌گیری فاصله بین داده‌ها نقش مهمی در کیفیت خوشه‌بندی داره:

🔵فاصله اقلیدسی (Euclidean Distance): فاصله استاندارد که بر مبنای فاصله خط مستقیم بین دو نقطه محاسبه می‌شه.
🔵فاصله منهتن (Manhattan Distance): مجموع قدر مطلق تفاوت‌های مختصات دو نقطه.
🔵فاصله کسینوسی (Cosine Distance): معیاری برای اندازه‌گیری شباهت بین دو بردار با توجه به زاویه بین‌شون.

🔵 روش‌های ادغام در خوشه‌بندی تجمیعی

در خوشه‌بندی تجمیعی، روش‌های مختلفی برای ادغام خوشه‌ها وجود داره. بعضی از روش‌های مهم عبارتند از:

🔵روش تک‌پیوستگی (Single Linkage): فاصله بین دو خوشه، فاصله کوتاه‌ترین جفت نقاط بین دو خوشه است.
🔵روش کامل‌پیوستگی (Complete Linkage): فاصله بین دو خوشه، فاصله بلندترین جفت نقاط بین دو خوشه است.
🔵روش میانگین (Average Linkage): فاصله بین دو خوشه، میانگین فاصله بین تمام نقاط در دو خوشه است.
🔵روش مرکزی (Centroid Linkage): فاصله بین دو خوشه، فاصله بین مرکز دو خوشه است.

🔵 دندروگرام (Dendrogram)

دندروگرام یک نمودار درختیه که مراحل خوشه‌بندی سلسله‌مراتبی رو به صورت مصور نشون می‌ده. در این نمودار:

🔵هر برگ (Leaf) نشون‌دهنده یک نقطه داده است.
🔵هر شاخه (Branch) نشون‌دهنده ادغام یا تقسیم خوشه‌هاست.
🔵ارتفاع شاخه‌ها نشون‌دهنده میزان فاصله یا عدم شباهت بین خوشه‌ها در هر مرحله از خوشه‌بندیه.

🔵 کاربردهای خوشه‌بندی سلسله‌مراتبی

🔵زیست‌شناسی: شناسایی گونه‌های مختلف و بررسی شباهت‌های ژنتیکی بین‌شون.
🔵بازاریابی: تقسیم‌بندی بازار و شناسایی گروه‌های مختلف مشتریان با رفتارهای مشابه.
🔵شناسایی الگو: گروه‌بندی داده‌های تصویری، صوتی یا متنی برای شناسایی الگوهای مشابه.

🔵 مزایا خوشه‌بندی سلسله‌مراتبی

🔵توانایی ایجاد ساختار سلسله‌مراتبی از داده‌ها که به تحلیل دقیق‌تر کمک می‌کنه.
🔵عدم نیاز به تعیین تعداد خوشه‌ها قبل از انجام خوشه‌بندی.
🔵کاربرد در داده‌های کوچک تا متوسط.

🔵 معایب خوشه‌بندی سلسله‌مراتبی

🔵محاسبات سنگین و نیاز به زمان زیاد برای داده‌های بزرگ.
🔵حساسیت به نویز و داده‌های پرت.
🔵مشکل در تعیین نقطه قطع برای انتخاب تعداد خوشه‌های مناسب.

#Clustering

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👨‍🎓 مقایسه الگوریتم‌های خوشه‌بندی K-means و خوشه‌بندی سلسله‌مراتبی

🔵 تفاوت‌های کلیدی

🔵نوع خوشه‌بندی: K-Means بهترین کارایی رو برای بخش‌بندی داره، در حالی که خوشه‌بندی سلسله‌مراتبی برای استراتژی‌های تجمیعی یا تجزیه‌ای مناسبه.

🔵تعداد خوشه‌ها: K-Means معمولاً نیاز به تعیین پیش‌فرض تعداد خوشه‌ها (K) داره، در حالی که خوشه‌بندی سلسله‌مراتبی انعطاف‌پذیرتره و میشه تعداد خوشه‌ها رو بر اساس نمودار دندروگرام یا روش‌های آماری انتخاب کرد.

🔵وابستگی به داده‌ها: K-Means به نمونه‌برداری وابسته است و عملکردش تحت تأثیر انتخاب مراکز اولیه قرار می‌گیره. در مقابل، خوشه‌بندی سلسله‌مراتبی مستقل از نمونه‌برداریه.

🔵پیچیدگی حافظه و زمان: K-Means از نظر محاسباتی کارآمدتره و دارای پیچیدگی زمانی O(n⋅k) هست که اون رو برای مجموعه‌ داده‌های بزرگ مناسب می‌کنه. در مقایسه، خوشه‌بندی سلسله‌مراتبی دارای پیچیدگی زمانی O(n^2 log n) هست و منابع بیشتری رو مصرف می‌کنه.

🔵تفسیر بصری: خوشه‌بندی سلسله‌مراتبی، به‌ویژه با دندروگرام‌ها، نمایشی بصری و شهودی‌تری ارائه می‌ده که برای تحلیل داده‌ها مفیدتره.

🔵 جزئیات K-Means

از مراحل تکراری برای تخصیص خوشه‌ها، به‌روزرسانی مراکز و بررسی همگرایی از طریق به حداقل رسوندن مجموع مربعات درون خوشه‌ها (WCSS) استفاده می‌کنه. همچنین با ویژگی‌هایی که واریانس‌های مشابهی دارن بهترین کارایی رو داره و نمای بصری برای شناسایی خوشه‌های بهینه ارائه نمی‌ده.

🔵 جزئیات سلسله‌مراتبی

از یک ماتریس فاصله برای تمام نقاط داده استفاده می‌کنه و با مراحل تکراری ادغام/تقسیم هدایت‌شده توسط معیارهای پیوند عمل می‌کنه. معیار توقف و انتخاب روش پیوند ساختار نهایی خوشه‌ها رو تحت تأثیر قرار می‌ده.

#Clustering

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
🔵 الگوریتم DBSCAN

الگوریتم DBSCAN (Density-Based Spatial Clustering of Applications with Noise) یکی از روش‌های خوشه‌بندیه که به دلیل قابلیت شناسایی خوشه‌ها با شکل‌های نامنظم و توانایی مدیریت نویز به یکی از پرکاربردترین الگوریتم‌های خوشه‌بندی تبدیل شده.

🔵 الگوریتم DBSCAN بر اساس دو مفهوم اصلی استواره: نقاط مرکزی متراکم و نقاط مرزی.

🔵نقاط مرکزی متراکم (Core Points): یک نقطه اگه تعداد کافی از نقاط دیگه در همسایگی‌اش وجود داشته باشن، به عنوان یک مرکز تراکم شناخته می‌شه.
- eps (ε): شعاع همسایگی.
- minPts: حداقل تعداد نقاط مورد نیاز در همسایگی.

🔵نقاط مرزی (Border Points): نقاط مرزی در همسایگی یک نقطه مرکز تراکم قرار دارن اما خودشون پرتراکم نیستن. این نقاط بخشی از یک خوشه هستن ولی به اندازه نقاط پرتراکم مؤثر نیستن.

🔵نقاط نویزی (Noise Points): نقاطی که نه پرتراکم هستن و نه نقاط مرزی، به عنوان نقاط نویزی شناخته می‌شن. این نقاط معمولاً به هیچ خوشه‌ای تعلق ندارن.

🔵 مراحل الگوریتم DBSCAN

۱. شروع: یک نقطه تصادفی انتخاب می‌شه.
۲. بررسی همسایگی: همسایگان این نقطه با استفاده از پارامتر eps تعیین می‌شن.
۳. تشخیص نقطه کامل پرتراکم: اگه تعداد نقاط همسایه بیشتر یا برابر با minPts باشه، این نقطه به عنوان یک نقطه کامل پرتراکم در نظر گرفته می‌شه و یک خوشه جدید شروع می‌شه. در غیر این صورت، نقطه به عنوان نویز علامت‌گذاری می‌شه.
۴. توسعه خوشه: تمامی نقاط همسایه که خودشون نقاط پرتراکم هستن به خوشه اضافه می‌شن و این فرآیند به صورت تکراری برای نقاط جدید ادامه داره.
۵. تکرار: مراحل ۱ تا ۴ تا زمانی که تمامی نقاط بررسی نشدن، ادامه داره.

🔵 مزایا DBSCAN

🔵شناسایی خوشه‌ها با اشکال نامنظم: برخلاف الگوریتم‌هایی مثل k-means که فقط خوشه‌های کروی رو شناسایی می‌کنن، DBSCAN می‌تونه خوشه‌های با شکل‌های نامنظم رو تشخیص بده.
🔵مدیریت نویز: DBSCAN می‌تونه نویز رو شناسایی و از خوشه‌ها جدا کنه.
🔵عدم نیاز به تعیین تعداد خوشه‌ها: برخلاف بسیاری از الگوریتم‌های خوشه‌بندی، DBSCAN نیازی به تعیین تعداد خوشه‌ها نداره.

🔵 معایب DBSCAN

🔵حساسیت به پارامترها: انتخاب مناسب پارامترهای eps و minPts برای عملکرد درست الگوریتم بسیار مهمه.
🔵مقیاس‌پذیری: برای داده‌های بسیار بزرگ و پیچیده، الگوریتم ممکنه زمان‌بر باشه.

🔵 کاربردها

🔵تحلیل داده‌های جغرافیایی: برای شناسایی مناطق پرتراکم و مکان‌های جغرافیایی مهم.
🔵تشخیص الگوها در داده‌های بیولوژیکی: برای شناسایی الگوهای ژنتیکی و داده‌های بیولوژیکی.
🔵تشخیص ناهنجاری‌ها: در امنیت سایبری برای شناسایی فعالیت‌های غیرعادی.

#Clustering

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
🧑‍🎓 با الگوریتم DBSCAN آشنا شیم!

الگوریتم DBSCAN، یک الگوریتم بدون ناظر خوشه‌بندی مبتنی بر تراکمه که برای پیدا کردن خوشه‌ها در داده‌ها، با توجه به میزان تراکم‌شون طراحی شده. این الگوریتم می‌تونه خوشه‌ها با اشکال متفاوت رو تشخیص بده و نسبت به نویز و نقاط پرت مقاومه.

🟢برای مطالعه بیشتر کلیک کنین:
👉📎 ctdrs.ir/ds0229

#Clustering

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👨‍🎓 استفاده از شبکه‌های عصبی برای خوشه‌بندی

🔵 شبکه‌های عصبی خودسازمان‌ده (Self-Organizing Maps - SOM)

یکی از انواع مهم شبکه‌های عصبی برای خوشه‌بندی، شبکه‌های عصبی خودسازمان‌ده یا SOM است. SOM نوعی شبکه عصبی بدون ناظره که برای کاهش ابعاد و خوشه‌بندی داده‌ها استفاده می‌شه.

🔵اصول کار شبکه‌های عصبی خودسازمان‌ده: SOM از یک لایه ورودی و یک لایه خروجی یا نقشه تشکیل شده. هر نرون در لایه خروجی به ورودی‌های متعدد متصله و هدفش یادگیری الگوی داده‌ها و نگاشت اونها به فضای خروجیه. فرآیند آموزش SOM شامل مراحل زیره:

۱. مقداردهی اولیه: وزن‌های به صورت تصادفی مقداردهی می‌شن.
۲. انتخاب بردار ورودی: یک بردار ورودی از داده‌ها انتخاب می‌شه.
۳. محاسبه بردار برنده: نزدیک‌ترین نرون به بردار ورودی (نرون برنده) تعیین می‌شه.
۴. به‌روزرسانی وزن‌ها: وزن‌های نرون برنده و نرون‌های مجاورش به روز می‌شن تا به ورودی نزدیک‌تر شن.
۵. تکرار: مراحل ۲ تا ۴ برای تمامی بردارهای ورودی و در چند دوره تکرار می‌شن تا شبکه به همگرایی برسه.

🔵 شبکه‌های عصبی رقابتی (Competitive Neural Networks)

شبکه‌های عصبی رقابتی نوع دیگه‌ای از شبکه‌های عصبی برای خوشه‌بندی هستن. در این شبکه‌ها نرون‌ها با هم رقابت می‌کنن تا بهترین تطابق با ورودی رو داشته باشن. نرون برنده وزن‌هاش رو تنظیم می‌کنه تا به ورودی نزدیک‌تر شه. مراحل آموزش شبکه‌های عصبی رقابتی:

۱. مقداردهی اولیه: وزن‌ها به صورت تصادفی مقداردهی می‌شن.
۲. محاسبه فاصله: فاصله هر نرون با ورودی محاسبه می‌شه.
۳. انتخاب نرون برنده: نرونی که کمترین فاصله رو داره به عنوان نرون برنده انتخاب می‌شه.
۴. به‌روزرسانی وزن‌ها: وزن‌های نرون برنده به سمت ورودی تغییر می‌کنن.
۵. تکرار: مراحل ۲ تا ۴ برای تمامی بردارهای ورودی تکرار می‌شن تا شبکه آموزش ببینه.

🔵 کاربردهای شبکه‌های عصبی در خوشه‌بندی

🔵تحلیل بازار: خوشه‌بندی مشتریان بر اساس رفتار خرید برای تعیین استراتژی‌های بازاریابی مناسب.
🔵بیوانفورماتیک: خوشه‌بندی داده‌های ژنتیکی برای شناسایی گروه‌های مختلف ژنی.
🔵بینایی ماشین: خوشه‌بندی تصاویر برای دسته‌بندی و جستجوی تصاویر مشابه.
🔵پردازش زبان طبیعی: خوشه‌بندی متن برای استخراج موضوعات و تحلیل محتوا.

#Clustering

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👨‍🎓 معیارهای خوشه‌بندی

برای ارزیابی کیفیت خوشه‌های ایجاد شده در خوشه‌بندی، از معیارهای مختلفی استفاده می‌شه که مهم‌ترین اونها رو بررسی می‌کنیم:

🔵 شاخص دیویس-بولدین (Davies-Bouldin Index)

شاخص دیویس-بولدین معیاری برای ارزیابی کیفیت خوشه‌بندیه که بر اساس میزان پراکندگی خوشه‌ها و فاصله بین اونها محاسبه می‌شه. این شاخص به صورت میانگین نسبت فاصله داخلی به فاصله بین خوشه‌ها تعریف می‌شه. هرچه مقدار این شاخص کمتر باشه، خوشه‌بندی بهتره.

🔵 شاخص سیلوئت (Silhouette Coefficient)

شاخص سیلوئت برای ارزیابی کیفیت خوشه‌بندی با بررسی میزان یکنواختی و جداسازی داده‌ها استفاده می‌شه. مقدار این شاخص بین -1 تا 1 قرار داره و هرچه به 1 نزدیک‌تر باشه، خوشه‌بندی بهتره. این شاخص نشون می‌ده که چقدر هر نقطه به خوشه خود تعلق داره و چقدر از خوشه‌های دیگه جداست.

🔵 شاخص چسبندگی (Cohesion) و جداسازی (Separation)

این دو شاخص برای ارزیابی کیفیت داخلی خوشه‌ها و فاصله بین خوشه‌ها استفاده می‌شن. شاخص چسبندگی میانگین فاصله بین نقاط داخل هر خوشه رو اندازه‌گیری می‌کنه و شاخص جداسازی میانگین فاصله بین خوشه‌ها رو محاسبه می‌کنه. هرچه مقدار چسبندگی کمتر و جداسازی بیشتر باشه، خوشه‌بندی بهتره.

🔵 شاخص NMI یا Normalized Mutual Information

شاخص NMI معیاری برای مقایسه دو خوشه‌بندی مختلف (معمولاً خوشه‌بندی واقعی و خوشه‌بندی پیش‌بینی‌شده) استفاده می‌شه. این شاخص نشون‌دهنده میزان اطلاعات مشترک بین دو خوشه‌بندیه. مقدار این شاخص بین 0 و 1 قرار داره و هرچه به 1 نزدیک‌تر باشه، دو خوشه‌بندی بیشتر به هم شباهت دارن.

🔵 شاخص CH (Calinski-Harabasz Index)

شاخص CH معیاری برای ارزیابی کیفیت خوشه‌بندی بر اساس نسبت پراکندگی بین خوشه‌ها به پراکندگی داخل خوشه‌هاست. هر چقدر این شاخص بیشتر باشه، خوشه‌بندی بهتره.

🔵 شاخص Purity

شاخص Purity معیاری برای ارزیابی کیفیت خوشه‌بندی بر اساس مقایسه هر خوشه با کلاس‌های واقعی داده‌هاست. هرچه مقدار این شاخص بیشتر باشه، خوشه‌بندی بهتره.

🔵 شاخص دان (Dunn Index)

شاخص دان یکی دیگه از معیارهای ارزیابی کیفیت خوشه‌بندیه که به دنبال پیدا کردن خوشه‌هایی با کمترین همپوشانی و بیشترین فاصله از همدیگه است. این شاخص به صورت نسبت کوچکترین فاصله بین خوشه‌ها به بزرگترین قطر خوشه‌ها تعریف می‌شه. هرچه مقدار شاخص دان بیشتر باشه، کیفیت خوشه‌بندی بهتره.

🔵 شاخص Rand Index

شاخص Rand برای ارزیابی شباهت بین دو خوشه‌بندی مختلف (معمولاً خوشه‌بندی واقعی و پیش‌بینی‌شده) استفاده می‌شه. این شاخص بر اساس تعداد جفت نقاطی که به درستی در یک خوشه قرار گرفتن یا در خوشه‌های مختلف قرار گرفتن، محاسبه می‌شه. مقدار شاخص Rand بین 0 و 1 قرار داره و هرچه به 1 نزدیک‌تر باشه، دو خوشه‌بندی بیشتر به هم شبیه‌ان.

🔵 شاخص Adjusted Rand Index (ARI)

شاخص Adjusted Rand Index نسخه بهبود یافته شاخص Rand است که برای تصحیح اثر شانس طراحی شده. این شاخص برای ارزیابی کیفیت خوشه‌بندی با در نظر گرفتن خوشه‌های واقعی و پیش‌بینی شده استفاده می‌شه. مقدار ARI بین -1 و 1 قرار داره و مقدار نزدیک به 1 نشون‌دهنده کیفیت بهتر خوشه‌بندی است.

🔵 شاخص Fowlkes-Mallows

شاخص Fowlkes-Mallows برای ارزیابی کیفیت خوشه‌بندی بر اساس مقایسه خوشه‌بندی پیش‌بینی شده با خوشه‌بندی واقعی استفاده می‌شه. این شاخص ترکیبی از دقت و بازیابی (precision and recall) است و مقدار آن بین 0 و 1 قرار داره. هرچه مقدار این شاخص بیشتر باشه، کیفیت خوشه‌بندی بهتره.

🔵 شاخص Entropy

شاخص Entropy معیاری برای ارزیابی یکنواختی خوشه‌ها است. این شاخص مقدار عدم قطعیت درون خوشه‌ها رو اندازه‌گیری می‌کنه و هرچه مقدار این شاخص کمتر باشه، خوشه‌بندی یکنواخت‌تر و بهتره.

🔵 شاخص Homogeneity, Completeness و V-measure

این شاخص‌ها برای ارزیابی کیفیت خوشه‌بندی بر اساس یکپارچگی و کامل بودن خوشه‌ها استفاده می‌شن. شاخص Homogeneity نشون می‌ده که تمام اعضای یک خوشه به یک کلاس تعلق دارند، شاخص Completeness نشون می‌ده که تمام اعضای یک کلاس در یک خوشه قرار دارند، و V-measure میانگینی هماهنگ از این دو شاخص است.

#Clustering

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
📝 جمع‌بندی معیارهای ارزیابی خوشه‌بندی

🔵 در این جدول، داخلی و خارجی به نوع معیارهای ارزیابی خوشه‌بندی اشاره دارن.

🔵داخلی (Internal): معیارهای داخلی از اطلاعات درون داده‌ها و خوشه‌ها استفاده می‌کنن تا کیفیت خوشه‌بندی رو ارزیابی کنن. این معیارها تنها به داده‌های خودشان متکی هستن و نیازی به اطلاعات برچسب‌های خارجی ندارن.

🔵خارجی (External): معیارهای خارجی از اطلاعات اضافی مثل برچسب‌های حقیقی داده‌ها استفاده می‌کنن تا عملکرد خوشه‌بندی رو ارزیابی کنن. این معیارها برای ارزیابی نیاز به دونستن برچسب‌های درست یا یک مبنای خارجی دارن.

🔵 تنظیم شده برای شانس به این اشاره داره که آیا معیار ارزیابی به نحوی طراحی شده که اثرات شانس و تصادفی بودن رو کاهش بده یا نه. این تنظیم به منظور اطمینان از اینکه ارزیابی عملکرد خوشه‌بندی به طور دقیق‌تر انجام شه و نتایج تحت تأثیر تصادفی بودن نباشن.

🔵بله: این معیارها اثرات احتمالی شانس رو کاهش می‌دن و اطمینان حاصل می‌کنه که نتایج به دست اومده واقعی‌تر و معتبرترن.

🔵خیر: در این معیارها نتایج ممکنه تحت تأثیر شانس قرار بگیرن و به طور کامل تنظیم نشدن تا اثرات تصادفی رو حذف کنن.

🔵 فرضیات روی خوشه‌ها به پیش‌فرض‌هایی که هر معیار ارزیابی درباره شکل، اندازه، و ساختار خوشه‌ها داره، اشاره می‌کنه. این فرضیات بر اساس ویژگی‌های ذاتی داده‌ها و خوشه‌ها و همچنین نحوه محاسبه هر معیار ارزیابی، می‌تونن متفاوت باشن.

🔵کروی: خوشه‌ها به صورت کروی در نظر گرفته می‌شن.

🔵اندازه مشابه: اندازه خوشه‌ها تقریباً مشابه هم دیگه است. معیارهایی که این فرض رو در نظر می‌گیرن، معمولاً در داده‌هایی با خوشه‌های نابرابر به خوبی عمل نمی‌کنن.

🔵هیچ: معیار هیچ فرض خاصی در مورد شکل یا اندازه خوشه‌ها نداره و می‌تونه برای انواع مختلف ساختارهای خوشه‌ها به کار بره.

#Clustering

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
پست‌های هفته‌ای که گذشت رو این‌جا پیدا کنین!

🔺 آموزشی

🔵تعریف خوشه‌بندی (Clustering)
📎 https://t.me/data_ml/609

🔵الگوریتم K-means
📎 https://t.me/data_ml/611

🔵خوشه‌بندی سلسله‌مراتبی یا Hierarchical Clustering
📎 https://t.me/data_ml/614

🔵الگوریتم DBSCAN
📎 https://t.me/data_ml/617

🔵استفاده از شبکه‌های عصبی برای خوشه‌بندی
📎 https://t.me/data_ml/621

🔵معیارهای ارزیابی خوشه‌بندی
📎 https://t.me/data_ml/624

🔺 کوئیز

🔵کوییز شماره ۱۶۸: کاهش تاثیر داده‌های پرت در نتایج K-means
📎 https://t.me/data_ml/612

🔵کوییز شماره ۱۶۹: کاربرد روش UPGMA در خوشه‌بندی سلسله‌مراتبی
📎 https://t.me/data_ml/615

🔵کوییز شماره ۱۷۰: تشخیص نقاط پرت توسط DBSCAN
📎 https://t.me/data_ml/619

🔵کوییز شماره ۱۷۱: وجه تمایز SOM از بقیه روش‌های خوشه‌بندی
📎 https://t.me/data_ml/622

🔵کوییز شماره ۱۷۲: ارزیابی شباهت بین دو خوشه‌بندی با استفاده از احتمال شرطی
📎 https://t.me/data_ml/625

🔺 نکته

🔵 معرفی جامع تکنیک‌های خوشه‌بندی در یادگیری ماشین
📎 https://t.me/data_ml/610

🔵بلاگ معرفی الگوریتم K-means
📎 https://t.me/data_ml/613

🔵مقایسه K-means و خوشه‌بندی سلسله‌مراتبی
📎 https://t.me/data_ml/616

🔵بلاگ الگوریتم DBSCAN
📎 https://t.me/data_ml/620

🔵جمع‌بندی معیارهای ارزیابی خوشه‌بندی
📎 https://t.me/data_ml/626

#Weekend
#Clustering

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM