الگوریتم K-means یک روش بدون ناظر برای خوشهبندی دادههاست که سعی داره دادهها رو به K خوشه تقسیم کنه. این الگوریتم از K مرکز اولیه (centroid) شروع میکنه و بهصورت تکراری مراکز خوشهها رو بهروزرسانی میکنه تا زمانی که خوشهها تغییر نکنن.
الگوریتم K-means شامل چند مرحله مهمه:
۱. تعیین تعداد خوشهها (K): در اولین مرحله، باید تعداد خوشههایی که قصد داریم دادهها رو به اونها تقسیم کنیم، مشخص کنیم. این تعداد رو با K نشون میدیم.
۲. انتخاب مراکز اولیه: در این مرحله، K نقطه بهعنوان مراکز اولیه خوشهها بهطور تصادفی از بین دادهها انتخاب میشن. این نقاط میتونن به روشهای مختلفی انتخاب شن، اما معمولاً از روشهای تصادفی استفاده میشه.
۳. تخصیص دادهها به نزدیکترین مرکز: در این مرحله، هر داده به نزدیکترین مرکز (centroid) تخصیص داده میشه. برای تعیین نزدیکی، معمولاً از فاصله اقلیدسی استفاده میشه.
۴. بهروزرسانی مراکز: بعد از تخصیص دادهها به خوشهها، مراکز خوشهها بهروزرسانی میشن. برای هر خوشه، مرکز جدید محاسبه میشه که میانگین نقاط اون خوشه است.
۵. تکرار مراحل ۳ و ۴: مراحل تخصیص دادهها و بهروزرسانی مراکز تا زمانی که مراکز خوشهها تغییر نکنن یا تغییرات بسیار کوچک باشن، تکرار میشن. در این حالت، الگوریتم به همگرایی رسیده و خوشهبندی نهایی انجام شده.
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
در حوزه یادگیری بدون نظارت (Unsupervised Learning)، الگوریتم K-means به عنوان یک تکنیک اساسی برای خوشهبندی دادهها استفاده میشه و در زمینه تقسیمبندی مشتری، تشخیص تصویر یا تشخیص ناهنجاری کاربرد داره. در این مطلب، نحوه کارکرد الگوریتم K-means، کاربردهاش و بهترین شیوهها برای پیادهسازیش بررسی شدن.
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
خوشهبندی سلسلهمراتبی روشی در یادگیری بدون ناظره که دادهها رو به صورت سلسلهمراتبی و تودرتو گروهبندی میکنه، به طوری که در هر مرحله خوشهها باهم ادغام یا تجزیه میشن تا به یک ساختار درختی برسن. این روش به دو نوع تجمیعی و تجزیهای تقسیم میشه که در اولی خوشهها از پایین به بالا ادغام و در دومی از بالا به پایین تقسیم میشن.
در خوشهبندی تجمیعی، هر داده اول به عنوان یک خوشه مستقل در نظر گرفته میشه و بعد دو خوشهای که بیشترین شباهت رو دارن، باهم ادغام میشن و فرایند تا زمانی که همه دادهها در یک خوشه بزرگ قرار بگیرن، تکرار میشه.
در خوشهبندی تجزیهای، اول تمام دادهها در یک خوشه بزرگ قرار دارن و بعد خوشه بزرگ به دو یا چند خوشه کوچکتر تقسیم میشه و فرایند تا زمانی که هر داده یک خوشه مستقل تشکیل بده، تکرار میشه.
انتخاب متریک مناسب برای اندازهگیری فاصله بین دادهها نقش مهمی در کیفیت خوشهبندی داره:
در خوشهبندی تجمیعی، روشهای مختلفی برای ادغام خوشهها وجود داره. بعضی از روشهای مهم عبارتند از:
دندروگرام یک نمودار درختیه که مراحل خوشهبندی سلسلهمراتبی رو به صورت مصور نشون میده. در این نمودار:
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
از مراحل تکراری برای تخصیص خوشهها، بهروزرسانی مراکز و بررسی همگرایی از طریق به حداقل رسوندن مجموع مربعات درون خوشهها (WCSS) استفاده میکنه. همچنین با ویژگیهایی که واریانسهای مشابهی دارن بهترین کارایی رو داره و نمای بصری برای شناسایی خوشههای بهینه ارائه نمیده.
از یک ماتریس فاصله برای تمام نقاط داده استفاده میکنه و با مراحل تکراری ادغام/تقسیم هدایتشده توسط معیارهای پیوند عمل میکنه. معیار توقف و انتخاب روش پیوند ساختار نهایی خوشهها رو تحت تأثیر قرار میده.
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
الگوریتم DBSCAN (Density-Based Spatial Clustering of Applications with Noise) یکی از روشهای خوشهبندیه که به دلیل قابلیت شناسایی خوشهها با شکلهای نامنظم و توانایی مدیریت نویز به یکی از پرکاربردترین الگوریتمهای خوشهبندی تبدیل شده.
- eps (ε): شعاع همسایگی.
- minPts: حداقل تعداد نقاط مورد نیاز در همسایگی.
۱. شروع: یک نقطه تصادفی انتخاب میشه.
۲. بررسی همسایگی: همسایگان این نقطه با استفاده از پارامتر eps تعیین میشن.
۳. تشخیص نقطه کامل پرتراکم: اگه تعداد نقاط همسایه بیشتر یا برابر با minPts باشه، این نقطه به عنوان یک نقطه کامل پرتراکم در نظر گرفته میشه و یک خوشه جدید شروع میشه. در غیر این صورت، نقطه به عنوان نویز علامتگذاری میشه.
۴. توسعه خوشه: تمامی نقاط همسایه که خودشون نقاط پرتراکم هستن به خوشه اضافه میشن و این فرآیند به صورت تکراری برای نقاط جدید ادامه داره.
۵. تکرار: مراحل ۱ تا ۴ تا زمانی که تمامی نقاط بررسی نشدن، ادامه داره.
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
الگوریتم DBSCAN، یک الگوریتم بدون ناظر خوشهبندی مبتنی بر تراکمه که برای پیدا کردن خوشهها در دادهها، با توجه به میزان تراکمشون طراحی شده. این الگوریتم میتونه خوشهها با اشکال متفاوت رو تشخیص بده و نسبت به نویز و نقاط پرت مقاومه.
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
یکی از انواع مهم شبکههای عصبی برای خوشهبندی، شبکههای عصبی خودسازمانده یا SOM است. SOM نوعی شبکه عصبی بدون ناظره که برای کاهش ابعاد و خوشهبندی دادهها استفاده میشه.
۱. مقداردهی اولیه: وزنهای به صورت تصادفی مقداردهی میشن.
۲. انتخاب بردار ورودی: یک بردار ورودی از دادهها انتخاب میشه.
۳. محاسبه بردار برنده: نزدیکترین نرون به بردار ورودی (نرون برنده) تعیین میشه.
۴. بهروزرسانی وزنها: وزنهای نرون برنده و نرونهای مجاورش به روز میشن تا به ورودی نزدیکتر شن.
۵. تکرار: مراحل ۲ تا ۴ برای تمامی بردارهای ورودی و در چند دوره تکرار میشن تا شبکه به همگرایی برسه.
شبکههای عصبی رقابتی نوع دیگهای از شبکههای عصبی برای خوشهبندی هستن. در این شبکهها نرونها با هم رقابت میکنن تا بهترین تطابق با ورودی رو داشته باشن. نرون برنده وزنهاش رو تنظیم میکنه تا به ورودی نزدیکتر شه. مراحل آموزش شبکههای عصبی رقابتی:
۱. مقداردهی اولیه: وزنها به صورت تصادفی مقداردهی میشن.
۲. محاسبه فاصله: فاصله هر نرون با ورودی محاسبه میشه.
۳. انتخاب نرون برنده: نرونی که کمترین فاصله رو داره به عنوان نرون برنده انتخاب میشه.
۴. بهروزرسانی وزنها: وزنهای نرون برنده به سمت ورودی تغییر میکنن.
۵. تکرار: مراحل ۲ تا ۴ برای تمامی بردارهای ورودی تکرار میشن تا شبکه آموزش ببینه.
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
برای ارزیابی کیفیت خوشههای ایجاد شده در خوشهبندی، از معیارهای مختلفی استفاده میشه که مهمترین اونها رو بررسی میکنیم:
شاخص دیویس-بولدین معیاری برای ارزیابی کیفیت خوشهبندیه که بر اساس میزان پراکندگی خوشهها و فاصله بین اونها محاسبه میشه. این شاخص به صورت میانگین نسبت فاصله داخلی به فاصله بین خوشهها تعریف میشه. هرچه مقدار این شاخص کمتر باشه، خوشهبندی بهتره.
شاخص سیلوئت برای ارزیابی کیفیت خوشهبندی با بررسی میزان یکنواختی و جداسازی دادهها استفاده میشه. مقدار این شاخص بین -1 تا 1 قرار داره و هرچه به 1 نزدیکتر باشه، خوشهبندی بهتره. این شاخص نشون میده که چقدر هر نقطه به خوشه خود تعلق داره و چقدر از خوشههای دیگه جداست.
این دو شاخص برای ارزیابی کیفیت داخلی خوشهها و فاصله بین خوشهها استفاده میشن. شاخص چسبندگی میانگین فاصله بین نقاط داخل هر خوشه رو اندازهگیری میکنه و شاخص جداسازی میانگین فاصله بین خوشهها رو محاسبه میکنه. هرچه مقدار چسبندگی کمتر و جداسازی بیشتر باشه، خوشهبندی بهتره.
شاخص NMI معیاری برای مقایسه دو خوشهبندی مختلف (معمولاً خوشهبندی واقعی و خوشهبندی پیشبینیشده) استفاده میشه. این شاخص نشوندهنده میزان اطلاعات مشترک بین دو خوشهبندیه. مقدار این شاخص بین 0 و 1 قرار داره و هرچه به 1 نزدیکتر باشه، دو خوشهبندی بیشتر به هم شباهت دارن.
شاخص CH معیاری برای ارزیابی کیفیت خوشهبندی بر اساس نسبت پراکندگی بین خوشهها به پراکندگی داخل خوشههاست. هر چقدر این شاخص بیشتر باشه، خوشهبندی بهتره.
شاخص Purity معیاری برای ارزیابی کیفیت خوشهبندی بر اساس مقایسه هر خوشه با کلاسهای واقعی دادههاست. هرچه مقدار این شاخص بیشتر باشه، خوشهبندی بهتره.
شاخص دان یکی دیگه از معیارهای ارزیابی کیفیت خوشهبندیه که به دنبال پیدا کردن خوشههایی با کمترین همپوشانی و بیشترین فاصله از همدیگه است. این شاخص به صورت نسبت کوچکترین فاصله بین خوشهها به بزرگترین قطر خوشهها تعریف میشه. هرچه مقدار شاخص دان بیشتر باشه، کیفیت خوشهبندی بهتره.
شاخص Rand برای ارزیابی شباهت بین دو خوشهبندی مختلف (معمولاً خوشهبندی واقعی و پیشبینیشده) استفاده میشه. این شاخص بر اساس تعداد جفت نقاطی که به درستی در یک خوشه قرار گرفتن یا در خوشههای مختلف قرار گرفتن، محاسبه میشه. مقدار شاخص Rand بین 0 و 1 قرار داره و هرچه به 1 نزدیکتر باشه، دو خوشهبندی بیشتر به هم شبیهان.
شاخص Adjusted Rand Index نسخه بهبود یافته شاخص Rand است که برای تصحیح اثر شانس طراحی شده. این شاخص برای ارزیابی کیفیت خوشهبندی با در نظر گرفتن خوشههای واقعی و پیشبینی شده استفاده میشه. مقدار ARI بین -1 و 1 قرار داره و مقدار نزدیک به 1 نشوندهنده کیفیت بهتر خوشهبندی است.
شاخص Fowlkes-Mallows برای ارزیابی کیفیت خوشهبندی بر اساس مقایسه خوشهبندی پیشبینی شده با خوشهبندی واقعی استفاده میشه. این شاخص ترکیبی از دقت و بازیابی (precision and recall) است و مقدار آن بین 0 و 1 قرار داره. هرچه مقدار این شاخص بیشتر باشه، کیفیت خوشهبندی بهتره.
شاخص Entropy معیاری برای ارزیابی یکنواختی خوشهها است. این شاخص مقدار عدم قطعیت درون خوشهها رو اندازهگیری میکنه و هرچه مقدار این شاخص کمتر باشه، خوشهبندی یکنواختتر و بهتره.
این شاخصها برای ارزیابی کیفیت خوشهبندی بر اساس یکپارچگی و کامل بودن خوشهها استفاده میشن. شاخص Homogeneity نشون میده که تمام اعضای یک خوشه به یک کلاس تعلق دارند، شاخص Completeness نشون میده که تمام اعضای یک کلاس در یک خوشه قرار دارند، و V-measure میانگینی هماهنگ از این دو شاخص است.
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
#Weekend
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM