❓کوییز شماره ۱۶۸: چطور میشه تاثیر دادههای پرت رو در نتایج الگوریتم K-means کاهش داد؟
Anonymous Quiz
41%
استفاده از نرمالسازی دادهها
17%
استفاده از الگوریتمهای مقاوم مثل K-medoids
22%
افزایش تعداد تکرارهای الگوریتم
20%
استفاده از الگوریتم K-means++
👍3🤔3❤1😎1
در حوزه یادگیری بدون نظارت (Unsupervised Learning)، الگوریتم K-means به عنوان یک تکنیک اساسی برای خوشهبندی دادهها استفاده میشه و در زمینه تقسیمبندی مشتری، تشخیص تصویر یا تشخیص ناهنجاری کاربرد داره. در این مطلب، نحوه کارکرد الگوریتم K-means، کاربردهاش و بهترین شیوهها برای پیادهسازیش بررسی شدن.
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍4🔥2👏1
خوشهبندی سلسلهمراتبی روشی در یادگیری بدون ناظره که دادهها رو به صورت سلسلهمراتبی و تودرتو گروهبندی میکنه، به طوری که در هر مرحله خوشهها باهم ادغام یا تجزیه میشن تا به یک ساختار درختی برسن. این روش به دو نوع تجمیعی و تجزیهای تقسیم میشه که در اولی خوشهها از پایین به بالا ادغام و در دومی از بالا به پایین تقسیم میشن.
در خوشهبندی تجمیعی، هر داده اول به عنوان یک خوشه مستقل در نظر گرفته میشه و بعد دو خوشهای که بیشترین شباهت رو دارن، باهم ادغام میشن و فرایند تا زمانی که همه دادهها در یک خوشه بزرگ قرار بگیرن، تکرار میشه.
در خوشهبندی تجزیهای، اول تمام دادهها در یک خوشه بزرگ قرار دارن و بعد خوشه بزرگ به دو یا چند خوشه کوچکتر تقسیم میشه و فرایند تا زمانی که هر داده یک خوشه مستقل تشکیل بده، تکرار میشه.
انتخاب متریک مناسب برای اندازهگیری فاصله بین دادهها نقش مهمی در کیفیت خوشهبندی داره:
در خوشهبندی تجمیعی، روشهای مختلفی برای ادغام خوشهها وجود داره. بعضی از روشهای مهم عبارتند از:
دندروگرام یک نمودار درختیه که مراحل خوشهبندی سلسلهمراتبی رو به صورت مصور نشون میده. در این نمودار:
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3👏2👌1
❓کوییز شماره ۱۶۹: در خوشهبندی سلسلهمراتبی، روش UPGMA برای چه کاربردی داره؟
Anonymous Quiz
35%
ادغام خوشهها با میانگین حسابی وزندارادغام
35%
خوشهها با فاصله کمترین
18%
ادغام خوشهها با فاصله بیشترین
12%
ادغام خوشهها به صورت تصادفی
😎4👍2❤1🤔1
از مراحل تکراری برای تخصیص خوشهها، بهروزرسانی مراکز و بررسی همگرایی از طریق به حداقل رسوندن مجموع مربعات درون خوشهها (WCSS) استفاده میکنه. همچنین با ویژگیهایی که واریانسهای مشابهی دارن بهترین کارایی رو داره و نمای بصری برای شناسایی خوشههای بهینه ارائه نمیده.
از یک ماتریس فاصله برای تمام نقاط داده استفاده میکنه و با مراحل تکراری ادغام/تقسیم هدایتشده توسط معیارهای پیوند عمل میکنه. معیار توقف و انتخاب روش پیوند ساختار نهایی خوشهها رو تحت تأثیر قرار میده.
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3❤2👏1👌1
الگوریتم DBSCAN (Density-Based Spatial Clustering of Applications with Noise) یکی از روشهای خوشهبندیه که به دلیل قابلیت شناسایی خوشهها با شکلهای نامنظم و توانایی مدیریت نویز به یکی از پرکاربردترین الگوریتمهای خوشهبندی تبدیل شده.
- eps (ε): شعاع همسایگی.
- minPts: حداقل تعداد نقاط مورد نیاز در همسایگی.
۱. شروع: یک نقطه تصادفی انتخاب میشه.
۲. بررسی همسایگی: همسایگان این نقطه با استفاده از پارامتر eps تعیین میشن.
۳. تشخیص نقطه کامل پرتراکم: اگه تعداد نقاط همسایه بیشتر یا برابر با minPts باشه، این نقطه به عنوان یک نقطه کامل پرتراکم در نظر گرفته میشه و یک خوشه جدید شروع میشه. در غیر این صورت، نقطه به عنوان نویز علامتگذاری میشه.
۴. توسعه خوشه: تمامی نقاط همسایه که خودشون نقاط پرتراکم هستن به خوشه اضافه میشن و این فرآیند به صورت تکراری برای نقاط جدید ادامه داره.
۵. تکرار: مراحل ۱ تا ۴ تا زمانی که تمامی نقاط بررسی نشدن، ادامه داره.
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2👌2🔥1
❓کوییز شماره ۱۷۰: الگوریتم DBSCAN چطور نقاط پرت رو تشخیص میده؟
Anonymous Quiz
16%
با توجه به میانگین فاصلهها بین نقاط
8%
با محاسبه تعداد خوشهها
76%
با محاسبه چگالی نقاط در یک شعاع مشخص (Eps)
👍4❤2😁2👌1
الگوریتم DBSCAN، یک الگوریتم بدون ناظر خوشهبندی مبتنی بر تراکمه که برای پیدا کردن خوشهها در دادهها، با توجه به میزان تراکمشون طراحی شده. این الگوریتم میتونه خوشهها با اشکال متفاوت رو تشخیص بده و نسبت به نویز و نقاط پرت مقاومه.
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍1🔥1👏1
یکی از انواع مهم شبکههای عصبی برای خوشهبندی، شبکههای عصبی خودسازمانده یا SOM است. SOM نوعی شبکه عصبی بدون ناظره که برای کاهش ابعاد و خوشهبندی دادهها استفاده میشه.
۱. مقداردهی اولیه: وزنهای به صورت تصادفی مقداردهی میشن.
۲. انتخاب بردار ورودی: یک بردار ورودی از دادهها انتخاب میشه.
۳. محاسبه بردار برنده: نزدیکترین نرون به بردار ورودی (نرون برنده) تعیین میشه.
۴. بهروزرسانی وزنها: وزنهای نرون برنده و نرونهای مجاورش به روز میشن تا به ورودی نزدیکتر شن.
۵. تکرار: مراحل ۲ تا ۴ برای تمامی بردارهای ورودی و در چند دوره تکرار میشن تا شبکه به همگرایی برسه.
شبکههای عصبی رقابتی نوع دیگهای از شبکههای عصبی برای خوشهبندی هستن. در این شبکهها نرونها با هم رقابت میکنن تا بهترین تطابق با ورودی رو داشته باشن. نرون برنده وزنهاش رو تنظیم میکنه تا به ورودی نزدیکتر شه. مراحل آموزش شبکههای عصبی رقابتی:
۱. مقداردهی اولیه: وزنها به صورت تصادفی مقداردهی میشن.
۲. محاسبه فاصله: فاصله هر نرون با ورودی محاسبه میشه.
۳. انتخاب نرون برنده: نرونی که کمترین فاصله رو داره به عنوان نرون برنده انتخاب میشه.
۴. بهروزرسانی وزنها: وزنهای نرون برنده به سمت ورودی تغییر میکنن.
۵. تکرار: مراحل ۲ تا ۴ برای تمامی بردارهای ورودی تکرار میشن تا شبکه آموزش ببینه.
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍5👌3
❓کوییز شماره ۱۷۱: یکی از ویژگیهای بارز شبکههای عصبی خودسازمانده (Self-Organizing Maps - SOM) چیه که اونها رو از بقیه روشهای خوشهبندی متمایز میکنه؟
Anonymous Quiz
25%
استفاده از الگوریتم گرادیان کاهشی برای بهروزرسانی وزنها
20%
استفاده از لایههای متعدد برای یادگیری ویژگی
15%
استفاده از تابع هزینه برای کاهش خطای پیشبینی
40%
استفاده از شبکهای دو بعدی برای نگاشت دادهها
❤2👍2🤔1👌1😎1
راهنمای جامع تحلیل داده و تحلیلگر داده برای ارائه اطلاعات کامل و کاربردی در زمینه تحلیل دادهها و نقش تحلیلگران داده طراحی شده.
این مطلب، بهعنوان یک منبع معتبر و جامع، به کسانی که میخوان دانششون رو در حوزه تحلیل داده و علم داده افزایش بدن و برای مصاحبههای شغلی در این زمینه آماده شن، کمک میکنه.
#Data_Analysis
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍2🔥1👏1
برای ارزیابی کیفیت خوشههای ایجاد شده در خوشهبندی، از معیارهای مختلفی استفاده میشه که مهمترین اونها رو بررسی میکنیم:
شاخص دیویس-بولدین معیاری برای ارزیابی کیفیت خوشهبندیه که بر اساس میزان پراکندگی خوشهها و فاصله بین اونها محاسبه میشه. این شاخص به صورت میانگین نسبت فاصله داخلی به فاصله بین خوشهها تعریف میشه. هرچه مقدار این شاخص کمتر باشه، خوشهبندی بهتره.
شاخص سیلوئت برای ارزیابی کیفیت خوشهبندی با بررسی میزان یکنواختی و جداسازی دادهها استفاده میشه. مقدار این شاخص بین -1 تا 1 قرار داره و هرچه به 1 نزدیکتر باشه، خوشهبندی بهتره. این شاخص نشون میده که چقدر هر نقطه به خوشه خود تعلق داره و چقدر از خوشههای دیگه جداست.
این دو شاخص برای ارزیابی کیفیت داخلی خوشهها و فاصله بین خوشهها استفاده میشن. شاخص چسبندگی میانگین فاصله بین نقاط داخل هر خوشه رو اندازهگیری میکنه و شاخص جداسازی میانگین فاصله بین خوشهها رو محاسبه میکنه. هرچه مقدار چسبندگی کمتر و جداسازی بیشتر باشه، خوشهبندی بهتره.
شاخص NMI معیاری برای مقایسه دو خوشهبندی مختلف (معمولاً خوشهبندی واقعی و خوشهبندی پیشبینیشده) استفاده میشه. این شاخص نشوندهنده میزان اطلاعات مشترک بین دو خوشهبندیه. مقدار این شاخص بین 0 و 1 قرار داره و هرچه به 1 نزدیکتر باشه، دو خوشهبندی بیشتر به هم شباهت دارن.
شاخص CH معیاری برای ارزیابی کیفیت خوشهبندی بر اساس نسبت پراکندگی بین خوشهها به پراکندگی داخل خوشههاست. هر چقدر این شاخص بیشتر باشه، خوشهبندی بهتره.
شاخص Purity معیاری برای ارزیابی کیفیت خوشهبندی بر اساس مقایسه هر خوشه با کلاسهای واقعی دادههاست. هرچه مقدار این شاخص بیشتر باشه، خوشهبندی بهتره.
شاخص دان یکی دیگه از معیارهای ارزیابی کیفیت خوشهبندیه که به دنبال پیدا کردن خوشههایی با کمترین همپوشانی و بیشترین فاصله از همدیگه است. این شاخص به صورت نسبت کوچکترین فاصله بین خوشهها به بزرگترین قطر خوشهها تعریف میشه. هرچه مقدار شاخص دان بیشتر باشه، کیفیت خوشهبندی بهتره.
شاخص Rand برای ارزیابی شباهت بین دو خوشهبندی مختلف (معمولاً خوشهبندی واقعی و پیشبینیشده) استفاده میشه. این شاخص بر اساس تعداد جفت نقاطی که به درستی در یک خوشه قرار گرفتن یا در خوشههای مختلف قرار گرفتن، محاسبه میشه. مقدار شاخص Rand بین 0 و 1 قرار داره و هرچه به 1 نزدیکتر باشه، دو خوشهبندی بیشتر به هم شبیهان.
شاخص Adjusted Rand Index نسخه بهبود یافته شاخص Rand است که برای تصحیح اثر شانس طراحی شده. این شاخص برای ارزیابی کیفیت خوشهبندی با در نظر گرفتن خوشههای واقعی و پیشبینی شده استفاده میشه. مقدار ARI بین -1 و 1 قرار داره و مقدار نزدیک به 1 نشوندهنده کیفیت بهتر خوشهبندی است.
شاخص Fowlkes-Mallows برای ارزیابی کیفیت خوشهبندی بر اساس مقایسه خوشهبندی پیشبینی شده با خوشهبندی واقعی استفاده میشه. این شاخص ترکیبی از دقت و بازیابی (precision and recall) است و مقدار آن بین 0 و 1 قرار داره. هرچه مقدار این شاخص بیشتر باشه، کیفیت خوشهبندی بهتره.
شاخص Entropy معیاری برای ارزیابی یکنواختی خوشهها است. این شاخص مقدار عدم قطعیت درون خوشهها رو اندازهگیری میکنه و هرچه مقدار این شاخص کمتر باشه، خوشهبندی یکنواختتر و بهتره.
این شاخصها برای ارزیابی کیفیت خوشهبندی بر اساس یکپارچگی و کامل بودن خوشهها استفاده میشن. شاخص Homogeneity نشون میده که تمام اعضای یک خوشه به یک کلاس تعلق دارند، شاخص Completeness نشون میده که تمام اعضای یک کلاس در یک خوشه قرار دارند، و V-measure میانگینی هماهنگ از این دو شاخص است.
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3👏2👌1
❓کوییز شماره ۱۷۲: کدوم یک از شاخصهای زیر برای ارزیابی شباهت بین دو خوشهبندی با استفاده از مقیاس احتمال شرطی طراحی شده؟
Anonymous Quiz
9%
Davies-Bouldin Index
27%
Calinski-Harabasz Index (CH )
32%
Normalized Mutual Information (NMI)
32%
Silhouette Coefficient Index
❤4😎3🤔2👌1
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍2🔥2👌1
#Weekend
#Clustering
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥2👌2👍1
Forwarded from رضا شکرزاد - علمداده و هوش مصنوعی
برای مطالعه سرفصلها و دریافت جزئیات بیشتر، به لینک زیر سر بزنین.
@DSLanders | دیاسلندرز
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4👍2👏1👌1
عملیات CRUD یک مخفف برای چهار عملیات اساسی در پایگاههای داده است که عبارتاند از: ایجاد (Create)، خواندن (Read)، بهروزرسانی (Update) و حذف (Delete). این چهار عملیات، اصول اولیهای هستن که هر سیستم پایگاه داده باید پشتیبانی کنه.
INSERT INTO users (name, email, age) VALUES ('Ali', 'ali@example.com', 30);
SELECT name, email FROM users WHERE age > 20;
UPDATE Users SET Age = 31 WHERE Name = 'Ali';
DELETE FROM Users WHERE Name = 'Ali';
BEGIN TRANSACTION;
UPDATE Bank_Account SET Balance = Balance - 100 WHERE User_id = 1;
UPDATE Bank_Account SET Balance = Balance + 100 WHERE User_id = 2;
COMMIT;
AS
BEGIN
RETURN @درآمد * 0.1;
END;
این موارد اضافی به شما کمک میکنند تا درک جامعتری از مدیریت و کار با پایگاههای داده داشته باشید و عملیاتهای مختلف را با کارایی و دقت بیشتری انجام دهید.
#Database
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍8❤3🔥2👏1
❓کوییز شماره ۱۷۳: کدوم گزینه یکی از مزایای استفاده از رویههای ذخیره شده (Stored Procedures) نیست؟
Anonymous Quiz
20%
کاهش بار شبکه بین برنامه کاربردی و پایگاه داده
31%
افزایش امنیت دادهها
29%
افزایش انعطافپذیری در تغییرات دادهها
20%
بهبود عملکرد پرسوجوها
🤔4😎2❤1👌1
اگه در صنعتی کار میکنین که با دادههای زیاد سروکار داره، قطعاً با پایگاههای داده آشنا هستین. یکی از رایجترین روشهای دسترسی به دادههای ذخیرهشده در یک پایگاه داده استفاده از زبان SQL هست. در این مطلب با زبان SQL و دستورهای متداولش برای دیتا ساینس آشنا میشیم.
#Database
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍3👏1👌1👨💻1