آموزش دیتاساینس و ماشین‌لرنینگ

Forwarded from کافه تدریس | Cafetadris.com

🍎

پوشش کامل رویداد WWDC 2024 اپل

کنفرانس جهانی توسعه‌دهندگان اپل (WWDC 2024) امشب ساعت ۲۰:۳۰ به‌وقت ایران برگزار می‌شه و بخش چشمگیریش مبتنی بر هوش مصنوعیه.
🔹 دوست داری بدونی چه اتفاقی می‌افته؟
🔹 می‌خوای بدونی که فناوری پشت ویژگی‌های iOS18 چطوری کار می‌کنه؟
🔹 می‌خوای از ترند اول تکنولوژی دنیا عقب نمونی؟

✅

دی‌اس‌لندرز رویداد اپل رو کامل پوشش می‌ده، اما پیش از اون، می‌تونین در وبلاگ کافه‌تدریس پیش‌بینی‌ها و انتظارات از کنفرانس رو در کمتر از ۴ دقیقه مطالعه کنین:

👉

📎

ctdrs.ir/ds0273

🔵 پیش‌بینی‌ها و انتظارت‌تون از این کنفرانس رو در قسمت دیدگاه‌های این مطلب بنویسن و به‌قید قرعه، کد تخفیف ویژه دوره‌های علم‌داده کافه‌تدریس رو دریافت کنین.

برای پوشش اخبار رویداد اپل، کانال دی‌اس‌لندرز رو دنبال کنین:

👉

📎

https://t.me/+4I0VVAe-UtE1NDRk

@cafetadris | کافه‌تدریس

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4🔥3👏1👌1

500 views16:50

آموزش دیتاساینس و ماشین‌لرنینگ

🎞

بهینه کردن زمان اجرا و حافظه دیتافریم‌

برای مدیریت زمان اجرای مدل‌های ماشین لرنینگ یا آنالیز داده و برای بهینه‌سازی حافظه مورد استفاده هر مدل، تکنیک‌های ساده ای وجود داره که کمک می‌کنه دیتاست یا دیتافریم‌مون رو بهینه ذخیره کنیم.

تو این ویدئو این کار رو که عموما Type Casting هست با پکیج Pandas انجام دادیم. به این ترتیب نشون دادیم که چطور حافظ و زمان رو با تغییرات ساده می‌تونیم مهندسی کنیم. این کار کمک بزرگی به مدیریت منابع میکنه.

👉

📎

https://youtu.be/T5NHXA9m6UE

#YouTube
#Data_Analysis
#Data_Preprocessing

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

YouTube

پانداز - بهینه کردن زمان اجرا و حافظه دیتافریم‌

برای مدیریت زمان اجرای مدلهای ماشین لرنینگی یا آنالیز داده و برای بهینه مموری مورد استفاده هر مدل تکنیکهای ساده ای وجود داره که میتونیم داده ست یا دیتافریم مون رو بهینه ذخیره کنیم. تو این ویدیو این کار رو که عموما تایپ کستینگ هست با پکیج پانداز انجام دادیم.…

❤4🔥2👌1

531 views18:01

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

پیش پردازش داده: مدیریت داده‌های پرت

داده‌های پرت یا Outlier به نقاط داده‌ای گفته می‌شه که به طور قابل توجهی از بقیه نقاط داده دور هستن. داده‌های پرت ممکنه به دلایل مختلفی مثل خطاهای اندازه‌گیری، وارد کردن نادرست داده‌ها یا حتی تغییرات واقعی در داده‌ها به وجود بیاین.

🔵

چرا مدیریت داده‌های پرت مهمه؟

مدیریت داده‌های پرت اهمیت زیادی در پیش‌پردازش داده‌ها داره چون این داده‌ها می‌تونن تاثیر زیادی روی نتایج تحلیل‌ها و مدل‌های یادگیری ماشین داشته باشن.

وجود داده‌های پرت منجر به تولید نتایج نادرست و گمراه‌کننده میشه، چون مدل‌های یادگیری ماشین ممکنه به جای یادگیری الگوی کلی داده‌ها، به داده‌های پرت واکنش نشون بدن. بنابراین، شناسایی و مدیریت صحیح این داده‌ها اهمیت زیادی داره.

🔵

روش‌های شناسایی داده‌های پرت

🔵

روش‌های آماری: یکی از رایج‌ترین روش‌ها برای شناسایی داده‌های پرت، استفاده از روش‌های آماریه. در این روش‌ها، فرض می‌شه که داده‌ها از توزیعی خاص پیروی می‌کنن و نقاطی که از این توزیع فاصله زیادی دارن به عنوان داده‌های پرت شناخته می‌شن.

🔵میانه و دامنه بین چارکی (IQR): در این روش، داده‌های پرت با استفاده از دامنه بین چارکی (IQR) شناسایی می‌شن. اگه داده‌ای خارج از بازه [Q1−1.5×IQR,Q3+1.5×IQR] قرار بگیره، به عنوان داده پرت شناخته می‌شه. Q1 و Q3 به ترتیب چارک اول و سوم هستن.

🔵

روش‌های گرافیکی: روش‌های گرافیکی از ابزارهای بصری مثل Box Plot و Scatter Plot برای شناسایی داده‌های پرت استفاده می‌کنن. این روش‌ها به تحلیل‌گر اجازه می‌دن تا به راحتی نقاط پرت رو مشاهده کنن.

🔵

روش‌های مبتنی بر یادگیری ماشین: روش‌های پیچیده‌تر شامل استفاده از الگوریتم‌های یادگیری ماشین، مثل Isolation Forest، برای شناسایی داده‌های پرت هستن.

🔵

روش‌های مدیریت داده‌های پرت

🔵

حذف داده‌های پرت: ساده‌ترین روش برای مدیریت داده‌های پرت حذف اونهاست. این روش زمانی مفیده که تعداد داده‌های پرت کم باشه و حذف‌شون تاثیری روی نتایج تحلیل‌ها نگذاره.

🔵

جایگزینی داده‌های پرت: اگر حذف داده‌های پرت ممکن نباشه، میشه از روش‌های جایگزینی استفاده کرد. در این روش، داده‌های پرت با مقادیر مناسب دیگه مثل میانه یا میانگین جایگزین می‌شن.

🔵

تغییر مقیاس داده‌ها: در بعضی موارد، داده‌های پرت ممکنه نتیجه مقیاس‌های متفاوت باشن. استفاده از روش‌های Normalization و Standardization به کاهش تاثیر داده‌های پرت کمک می‌کنه.

🔵

الگوریتم‌های دسته‌بندی

🔵الگوریتم نزدیک‌ترین همسایه (KNN): این الگوریتم با محاسبه فاصله بین نقاط داده، داده‌های پرت رو با میانگین مقادیر نزدیک‌ترین همسایگان جایگزین می‌کنه.

🔵الگوریتم‌های خوشه‌بندی (Clustering Algorithms): الگوریتم‌هایی مثل K-Means و DBSCAN داده‌ها رو به گروه‌هایی تقسیم می‌کنن و نقاطی که به هیچ گروهی تعلق ندارن، به عنوان داده‌های پرت شناسایی می‌شن.

🔵

روش‌های مبتنی بر یادگیری عمیق

🔵شبکه‌های عصبی: به طور خاص، شبکه‌های عصبی خودرمزگذار (Autoencoder) برای یادگیری الگوی داده‌ها و شناسایی انحرافات استفاده می‌شن. داده‌هایی که با الگوهای یادگرفته شده مطابقت ندارن به عنوان داده‌های پرت شناسایی می‌شن.

🔵

شبکه‌های مولد تخاصمی (GAN‌s): در GAN‌ها، یک شبکه مولد داده‌های جدید تولید می‌کنه و یک شبکه تمایزدهنده سعی می‌کنه بین داده‌های واقعی و داده‌های تولید شده تمایز قائل شه. داده‌هایی که توسط شبکه تمایزدهنده به عنوان نادرست شناسایی می‌شن می‌تونن به عنوان داده‌های پرت شناخته شن.

🔵

چالش‌ها و راهکارها

🔵

چالش‌های داده‌های چندبعدی: در داده‌های چندبعدی (High-dimensional Data)، شناسایی داده‌های پرت سخته چون داده‌ها در فضای ویژگی‌های بیشتری پخش می‌شن و داده‌های پرت در تمامی ابعاد مشهود نیستن.

برای مدیریت این چالش، میشه از روش‌های کاهش ابعاد مثل تحلیل مؤلفه‌های اصلی (PCA) استفاده کرد تا داده‌ها به فضای کوچکتری نگاشت شن و داده‌های پرت بهتر شناسایی شن.

🔵

چالش‌های داده‌های سری زمانی: در داده‌های سری زمانی، داده‌های پرت ممکنه به دلیل تغییرات ناگهانی در زمان باشن. برای مدیریت داده‌های پرت در سری زمانی، از مدل‌های پیش‌بینی سری زمانی مثل مدل‌های ARIMA و مدل‌های پیش‌بینی عصبی استفاده میشه تا نقاط ناهنجاری شناسایی شن.

#Data_Analysis
#Data_Preprocessing

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤3👌2

649 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۱۵۹: کدوم یک از روش‌های زیر، با استفاده از تبدیل‌های ریاضی نقاط پرت رو کاهش می‌ده؟

Anonymous Quiz

33%

Logarithmic Transformation

14%

Direct Removal

29%

Min-Max Transformation

24%

Regression Method

😎5👍2❤1🤔1

51 voters523 views17:00

آموزش دیتاساینس و ماشین‌لرنینگ

💡 مثال عملی شناسایی و مدیریت داده‌های پرت در پایتون

برای شناسایی و مدیریت داده‌های پرت در پایتون، میشه از کتابخانه‌هایی مثل Pandas، NumPy و Scikit-learn استفاده کرد. در زیر یک مثال ساده برای شناسایی داده‌های پرت با استفاده از IQR آورده شده:

import pandas as pd

# نمونه داده‌
data = {'value': [10, 12, 12, 13, 12, 15, 12, 12, 100, 12, 12, 13]}
df = pd.DataFrame(data)

# محاسبه چارک‌ها
Q1 = df['value'].quantile(0.25)
Q3 = df['value'].quantile(0.75)
IQR = Q3 - Q1

# شناسایی داده‌های پرت
outliers = df[(df['value'] < Q1 - 1.5 * IQR) | (df['value'] > Q3 + 1.5 * IQR)]
print("داده‌های پرت:")
print(outliers)

# حذف داده‌های پرت
df_cleaned = df[~((df['value'] < Q1 - 1.5 * IQR) | (df['value'] > Q3 + 1.5 * IQR))]
print("داده‌های صحیح:")
print(df_cleaned)

👇خروجی

داده‌های پرت:
value
0 10
5 15
8 100
داده‌های صحیح:
value
1 12
2 12
3 13
4 12
6 12
7 12
9 12
10 12
11 13

#Data_Analysis
#Data_Preprocessing

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍5👏2

554 views17:58

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

پیش پردازش داده: انتخاب ویژگی

انتخاب ویژگی به فرآیندی گفته می‌شه که در اون تعداد ویژگی‌های وارد شده به مدل کاهش پیدا می‌کنه. این کار با هدف بهبود عملکرد مدل و کاهش پیچیدگی انجام می‌شه. ویژگی‌های اضافی یا نامربوط می‌تونن باعث ایجاد نویز در داده‌ها و کاهش کارایی مدل بشن.

🔵

چرا انتخاب ویژگی مهم است؟

🔵کاهش ابعاد: کاهش تعداد ویژگی‌ها باعث کاهش پیچیدگی محاسباتی و زمان آموزش مدل می‌شن.

🔵بهبود عملکرد مدل: با حذف ویژگی‌های نامربوط یا کم‌اثر، مدل می‌تونه به شکل موثرتری الگوهای موجود در داده‌ها رو یاد بگیره.

🔵افزایش تفسیرپذیری: مدلی با تعداد کمتر ویژگی قابل تفسیرتره و می‌شه بهتر درک کرد که کدوم ویژگی‌ها بیشترین تاثیر رو دارن.

🔵جلوگیری از بیش‌برازش: ویژگی‌های اضافی باعث بیش‌برازش مدل می‌شن که در اون مدل به خوبی روی داده‌های آموزشی عمل می‌کنه ولی در تعمیم به داده‌های جدید دچار مشکل می‌شه.

🔵

روش‌های انتخاب ویژگی

🔵

روش‌های فیلتری به بررسی ویژگی‌ها به صورت جداگانه و بر اساس معیارهای آماری می‌پردازن. این روش‌ها سریع و مقیاس‌پذیرن، ولی معمولاً تعاملات بین ویژگی‌ها رو نادیده می‌گیرن. بعضی از روش‌های فیلتر رایج عبارتند از:

- آزمون کای دو (Chi-Square Test): این آزمون برای ویژگی‌های Categorical استفاده می‌شه و وابستگی بین ویژگی‌ها و برچسب هدف رو اندازه‌گیری می‌کنه.
- اطلاعات متقابل (Mutual Information): این معیار میزان اطلاعات مشترک بین دو متغیر را اندازه‌گیری می‌کنه و می‌تونه برای انتخاب ویژگی‌های مرتبط با برچسب هدف مفید باشه.
- ضریب همبستگی (Correlation Coefficient): این معیار برای ویژگی‌های عددی استفاده می‌شه و نشون‌دهنده میزان ارتباط خطی بین ویژگی‌ها و برچسب هدفه.

🔵روش‌های Wrapper از مدل‌های یادگیری ماشین برای ارزیابی مجموعه‌ای از ویژگی‌ها استفاده می‌کنن. این روش‌ها دقیق‌تر از روش‌های فیلتری هستن، اما محاسباتی‌تر و زمان‌برترن. بعضی از این روش‌ها عبارتند از:

- انتخاب ویژگی به روش رو به عقب (Backward Elimination): این روش با همه ویژگی‌ها شروع می‌کنه و در هر مرحله یک ویژگی رو حذف می‌کنه که کمترین تاثیر رو بر عملکرد مدل داره.
- انتخاب ویژگی به روش پیشرو (Forward Selection): این روش با هیچ ویژگی شروع و در هر مرحله یک ویژگی رو اضافه می‌کنه که بیشترین بهبود رو در عملکرد مدل ایجاد کنه.
- انتخاب ویژگی مرحله‌ای (Stepwise Selection): این روش ترکیبی از دو روش‌ قبله که در هر مرحله می‌تونه ویژگی‌ها رو اضافه یا حذف کنه.

🔵روش‌های تعبیه‌سازی (Embedded Methods) ترکیبی از روش‌های فیلتر و پوششی هستن و در حین آموزش مدل ویژگی‌ها رو انتخاب می‌کنن. این روش‌ها تعادل خوبی بین دقت و زمان محاسباتی دارن. بعضی از روش‌های تعبیه‌سازی رایج عبارتند از:

- ریج رگرسیون (Ridge Regression): این روش از جریمه‌های L2 برای کاهش مقدار ضرایب ویژگی‌های کم‌اثر استفاده می‌کنه.
- لاسو رگرسیون (Lasso Regression): این روش از جریمه‌های L1 برای حذف کامل ویژگی‌های کم‌اثر استفاده می‌کنه.
- درخت تصمیم (Decision Tree): درخت‌های تصمیم و الگوریتم‌های مبتنی بر اونها مثل جنگل تصادفی (Random Forest) و Gradient Boosting می‌تونن به طور خودکار ویژگی‌های مهم رو انتخاب کنن.

#Data_Analysis
#Data_Preprocessing

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👌6👍2🔥2

545 views14:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۱۶۰: در روش انتخاب ویژگی‌های تعبیه‌شده (Embedded), چطور الگوریتم‌های مبتنی بر درخت تصمیم‌گیری (Decision Tree-Based Algorithms) مثل جنگل تصادفی (Random Forest) اهمیت ویژگی‌ها رو محاسبه می‌کنن؟

Anonymous Quiz

17%

از طریق کاهش نرخ خطا

45%

بر اساس تعداد باری که یک ویژگی به عنوان گره تصمیم‌گیری انتخاب می‌شه

14%

با استفاده از گرادیان نزولی (Gradient Descent)

24%

بر اساس همبستگی بین ویژگی‌ها

❤6😎3👍1

29 voters471 views17:20

آموزش دیتاساینس و ماشین‌لرنینگ

❓تفاوت بین انتخاب ویژگی (Feature Selection) و استخراج ویژگی (Feature Extraction) چیه؟

انتخاب ویژگی و استخراج ویژگی مراحل مهمی در کاهش ابعاد هستن. این مراحل با ساده‌سازی مجموعه ویژگی‌های ورودی، راه رو برای مدل‌های یادگیری ماشین هموار می‌کنن.

🔵

انتخاب ویژگی

در انتخاب ویژگی، شما یک زیرمجموعه از مهم‌ترین ویژگی‌ها را از فضای ویژگی‌های اصلی شناسایی می‌کنین. این کار با استفاده از روش‌های مختلفی انجام میشه مثل:

🔵روش‌های Filter: ارزیابی مستقیم ویژگی‌ها بر اساس معیارهای آماری.
🔵روش‌های Wrapper: استفاده از مدل‌های خاص برای انتخاب بهترین زیرمجموعه ویژگی‌ها.
🔵روش‌های Embedded: انتخاب ویژگی‌ها به عنوان بخشی از فرآیند آموزش مدل.

بعد از کاهش مجموعه ویژگی‌ها، می‌توانید از ویژگی‌های انتخاب شده در وظایف مدل‌سازی استفاده کنید.

🔵

استخراج ویژگی

استخراج ویژگی شامل تبدیل فضای ویژگی‌های اصلی به یک فضای کاهش‌یافته ابعادیه که معمولاً با استفاده از تکنیک‌های خطی مثل تحلیل مؤلفه‌های اصلی (PCA) یا تحلیل عاملی انجام می‌شه. این کار با ایجاد مجموعه‌ای جدید از ویژگی‌ها که ترکیبات خطی از ویژگی‌های اصلی هستن، انجام می‌شه.

🔵

روش‌های ترکیبی

ترکیبی از انتخاب ویژگی و استخراج ویژگی بهترین نتایج رو به همراه داره. این روش ترکیبی معمولاً با استخراج ویژگی برای کاهش ابعاد شروع می‌شه و بعد با انتخاب ویژگی برای انتخاب مهم‌ترین ویژگی‌ها در فضای کاهش‌یافته پیدا می‌کنه.

#Data_Analysis
#Data_Preprocessing

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍3👌1

571 views18:01

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓 پیش پردازش داده: افزایش داده

افزایش داده یکی از تکنیک‌های پیش‌پردازشه که با استفاده از روش‌های مختلف، داده‌های جدیدی رو از داده‌های اصلی تولید می‌کنه. این تکنیک به ویژه در مسائل پردازش تصویر و متن بسیار کاربرد داره، چون با افزایش داده‌ها می‌شه به مدل‌ها کمک کرد تا عملکرد بهتری داشته باشن و از بیش‌برازش جلوگیری کنن.

🔵

چرا افزایش داده مهمه؟

🔵کاهش بیش‌برازش (Overfitting): مدل‌های یادگیری ماشین و به خصوص شبکه‌های عصبی، اگه با داده‌های محدود آموزش ببینن، ممکنه عملکرد خوبی روی داده‌های آموزشی داشته باشن ولی روی داده‌های جدید عملکرد ضعیف باشه. افزایش داده با تولید نمونه‌های جدید، از این مشکل جلوگیری می‌کنه.

🔵افزایش تنوع داده‌ها: افزایش داده باعث می‌شه که مدل با تنوع بیشتری از داده‌ها روبرو شه در نتیجه پایداری و انعطاف مدل بیشتر می‌شه.

🔵افزایش دقت مدل: با افزایش تعداد داده‌های آموزشی، مدل‌های یادگیری ماشین توانایی یادگیری بهتر الگوها و ویژگی‌های مهم رو پیدا می‌کنن در نتیجه دقت افزایش پیدا می‌کنه.

🔵

تکنیک‌های افزایش داده

🔵

چرخش و ترجمه (Rotation and Translation): چرخش و ترجمه از ساده‌ترین روش‌های افزایش داده هستن. در این روش، تصاویر با زوایای مختلف چرخانده و یا در محورهای مختلف جابجا می‌شن.

🔵

تغییر مقیاس (Scaling): تغییر مقیاس شامل بزرگ کردن یا کوچک کردن تصاویره.

🔵

تغییر شدت نور (Brightness Adjustment): در این تکنیک، شدت نور تصاویر تغییر داده می‌شه تا نمونه‌های جدیدی با روشنایی‌های متفاوت ایجاد شن.

🔵

افکت‌های نویز (Noise Addition): اضافه کردن نویز به داده‌ها یکی دیگه از روش‌های افزایش داده است. این کار باعث می‌شه مدل با داده‌های نویزی مواجه شه و بتونه در شرایط نامناسب و پر نویز عملکرد خوبی داشته باشه.

🔵

برش و چسباندن (Cutout): در این روش، بخش‌هایی از تصویر بریده شده و با پیکسل‌های تصادفی پر می‌شن. این کار باعث می‌شه مدل به ویژگی‌های خاصی از تصویر وابسته نشه و بتونه در مواجهه با تصاویر ناقص یا خراب، عملکرد خوبی داشته باشه.

🔵

استفاده از GANs

🔵تولید داده‌های جدید: GANs یکی از پیشرفته‌ترین تکنیک‌ها برای افزایش داده است. این شبکه‌ از دو شبکه عصبی (تولیدکننده و تمیزدهنده) تشکیل شده‌ که به صورت رقابتی کار می‌کنن تا داده‌های جدیدی رو تولید کنن که بسیار شبیه به داده‌های واقعی هستن.

🔵

بهبود کیفیت داده‌ها: علاوه بر تولید داده‌های جدید، GANs با حذف نویز برای بهبود کیفیت داده‌های موجود هم استفاده می‌شه.

🔵

افزایش داده در داده‌های زمانی (Time Series Data Augmentation)

🔵

جابجایی زمانی (Time Shifting): جابجایی زمانی شامل جابجا کردن سیگنال‌های زمانی به جلو یا عقب در طول زمانه. این کار به مدل کمک می‌کنه تا با داده‌های زمانی مختلف بهتر برخورد کنه.

🔵 افزایش داده در پردازش زبان طبیعی (NLP)

🔵

جابجایی کلمات (Word Shuffling): در این روش، ترتیب کلمات در جملات به صورت تصادفی جابجا می‌شه. در نتیجه مدل با تنوع بیشتری از جملات و ساختارهای گرامری مواجه می‌شه.

🔵

جایگزینی کلمات با مترادف‌ها (Synonym Replacement): جایگزینی کلمات با مترادف‌ها یکی از روش‌های معمول در افزایش داده‌های متنیه. این کار به مدل کمک می‌کنه تا با واژگان متنوع‌تری آشنا شه.

🔵

حذف کلمات (Word Deletion): در این روش، بعضی از کلمات در جملات به صورت تصادفی حذف می‌شن تا اهمیت کلمات مختلف بهتر درک شه و در مواجهه با جملات ناقص یا دارای خطاهای تایپی عملکرد بهتری به وجود بیاد.

🔵 افزایش داده در داده‌های طبقه‌بندی (Categorical Data Augmentation)

🔵

جایگزینی مقادیر (Category Swapping): در این روش، مقادیر دسته‌بندی در ستون‌های مختلف داده به صورت تصادفی جایگزین می‌شن. این کار به مدل کمک می‌کنه تا با تنوع بیشتری از مقادیر دسته‌بندی مواجه شه.

🔵

ادغام دسته‌ها (Category Merging): ادغام دسته‌ها شامل ترکیب دسته‌های نادر یا کمتر شایع با دسته‌های مشابه هست تا تعداد نمونه‌های هر دسته افزایش پیدا کنه.

🔵

ایجاد داده‌های مصنوعی (Synthetic Data Generation): در این روش، داده‌های مصنوعی با استفاده از مدل‌های تولیدی یا تکنیک‌های شبیه‌سازی ایجاد می‌شن.

#Data_Analysis
#Data_Preprocessing

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👌2👍1

606 views08:31

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۱۶۱: کدوم یک از تکنیک‌های افزایش داده در تشخیص اشیاء، در تصاویر به کاهش وابستگی مدل به محل قرارگیری اشیاء کمک می‌کنه؟

Anonymous Quiz

27%

Horizontal Flip

27%

Brightness Adjustment

😎3👍2❤1🤔1

30 voters502 views14:48

آموزش دیتاساینس و ماشین‌لرنینگ

🧑‍🎓

کاربرد تقویت داده در یادگیری عمیق و بهبود عملکرد چطوره؟

تقویت داده یا Data Augmentation که در زمینه‌هایی مثل پردازش تصویر، صوت و متن کاربرد داره به مدل‌های یادگیری عمیق کمک می‌کنه تا دقت بیشتر و مقاومت زیادی دربرابر مشکلاتی مثل بیش برازش داشته باشن.

🟢

برای مطالعه بیشتر کلیک کنین:

👉

📎

http://ctdrs.ir/ds0255

#Data_Analysis
#Data_Preprocessing

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤3👌1

515 views16:55

آموزش دیتاساینس و ماشین‌لرنینگ

⏰

پست‌های هفته‌ای که گذشت رو این‌جا پیدا کنین!

🔺

آموزشی

🔵پیش پردازش داده: Data Cleaning و Data Cleansing

📎

https://t.me/data_ml/566

🔵پیش پردازش داده: نرمال‌سازی داده

📎

https://t.me/data_ml/569

🔵پیش پردازش داده: مدیریت حافظه

📎

https://t.me/data_ml/571

🔵پیش پردازش داده: مدیریت داده‌های پرت

📎

https://t.me/data_ml/575

🔵پیش پردازش داده: انتخاب ویژگی

📎

https://t.me/data_ml/578

🔵پیش پردازش داده: افزایش داده

📎

https://t.me/data_ml/581

🔺

کوئیز

🔵کوییز شماره ۱۵۷: استانداردسازی داده‌های متنی در پاکسازی داده‌ها

📎

https://t.me/data_ml/567

🔵کوییز شماره ۱۵۸: تکنیک Memory Pooling در پردازش موازی داده‌ها

📎

https://t.me/data_ml/572

🔵کوییز شماره ۱۵۹: کاهش نقاط پرت با استفاده از تبدیل‌های ریاضی

📎

https://t.me/data_ml/576

🔵کوییز شماره ۱۶۰: محاسبه اهمیت ویژگی‌ها در روش انتخاب ویژگی‌ تعبیه‌شده

📎

https://t.me/data_ml/579

🔵کوییز شماره ۱۶۱: افزایش داده و کاهش وابستگی مدل به محل قرارگیری اشیاء

📎

https://t.me/data_ml/582

🔺

نکته

🔵 بررسی پیش پردازش داده یا Data Preprocessing

📎

https://t.me/data_ml/568

🔵بهینه کردن زمان اجرا و حافظه دیتافریم‌

📎

https://t.me/data_ml/574

🔵مثال عملی شناسایی و مدیریت داده‌های پرت در پایتون

📎

https://t.me/data_ml/577

🔵تفاوت بین انتخاب ویژگی و استخراج ویژگی

📎

https://t.me/data_ml/580

🔵کاربرد تقویت داده در یادگیری عمیق و بهبود عملکرد چطوره؟

📎

https://t.me/data_ml/583

#Weekend
#Data_Analysis

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1👏1👌1

536 views08:35

آموزش دیتاساینس و ماشین‌لرنینگ

👩‍🎓

برنامه آموزشی هفته: معیارهای ارزیابی

🟠شنبه: SSE / MSE / SAE

🔵یک‌شنبه: R2 score

🟢دوشنبه: Confusion Matrix

🔴سه‌شنبه: ROC / AUC

🟠چهارشنبه: ارزیابی خوشه‌بندی - روش‌های باناظر

🔵پنج‌شنبه: ارزیابی خوشه‌بندی - روش‌های بدون ناظر

🟢جمعه: جمع بندی

#Evaluation_Metrics

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2👏2

1.43K viewsedited 12:46

آموزش دیتاساینس و ماشین‌لرنینگ

🟡 دوره‌های مقدماتی و پیشرفته علم داده

دنیای داده‌ها جذابه و دونستن #علم_داده، توانایی تحلیل داده‌، یا بازاریابی مبتنی بر داده، می‌تونه شما رو برای فرصت‌های شغلی زیادی مناسب کنه.

فارغ از رشته‌ و پیش زمینه‌تون، می‌تونین با استفاده از دوره‌های رضا شکرزاد این مسیر رو شروع کنین و از سطح مقدماتی تا پیشرفته پیش برین.

🟢 دوره جامع #دیتا_ساینس و #ماشین_لرنینگ:

👉

📎

https://ctdrs.ir/cr14924

❗️دانشجویان دوره علم داده ۱ می‌تونن با پرداخت اختلاف هزینه، دوره جامع رو تهیه کنن.

🔵

#هوش_تجاری و تحلیل داده با #Tableau و #PowerBI:

👉

📎

http://ctdrs.ir/cr14230

🟠مارکتینگ داده‌محور:

👉

📎

https://ctdrs.ir/cr13581

#Courses

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5🔥2👍1👏1

532 views17:01

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

بررسی معیارهای ارزیابی SSE ،MSE و SAE

در مدل‌سازی اندازه‌گیری خطاها تعیین‌کننده است چون خطاها نشون‌دهنده تفاوت بین مقادیر واقعی و مقادیر پیش‌بینی شده توسط مدل هستن. سه معیار پرکاربرد برای اندازه‌گیری خطاها شامل SSE (مجموع مربعات خطاها)، MSE (میانگین مربعات خطاها) و SAE (مجموع خطاهای مطلق) می‌شن.

🔵 معیار SSE مخفف عبارت Sum of Squared Errors هست که به معنی مجموع مربعات خطاهاست. این معیار نشون‌دهنده مجموع مربعات تفاوت‌های بین مقادیر واقعی و مقادیر پیش‌بینی شده است.

🔵حساسیت به خطاهای بزرگ: به دلیل مربع بودن خطاها، SSE به خطاهای بزرگ حساس‌تره و وزن بیشتری به اونها می‌ده.

🔵کاربرد: SSE بیشتر در شرایطی استفاده می‌شه که بخوایم تاثیر خطاهای بزرگ رو بیشتر مورد توجه قرار بدیم، مثل مدل‌های رگرسیون.

🔵 معیار MSE مخفف عبارت Mean Squared Error هست که به معنی میانگین مربعات خطاهاست. این معیار نشون‌دهنده میانگین مجموع مربعات تفاوت‌های بین مقادیر واقعی و مقادیر پیش‌بینی شده است.

🔵نرمال‌سازی شده: MSE به دلیل تقسیم بر تعداد نمونه‌ها، به نوعی نرمال‌سازی شده است و با مقیاس داده‌ها همخوانی بیشتری داره.

🔵حساسیت به خطاهای بزرگ: مثل SSE، معیار MSE هم به خطاهای بزرگ حساسه.

🔵کاربرد: MSE در مدل‌های پیش‌بینی و رگرسیون بسیار استفاده می‌شه و یکی از معیارهای اصلی برای ارزیابی عملکرد مدل‌هاست.

🔵 معیار SAE مخفف عبارت Sum of Absolute Errors هست که به معنی مجموع خطاهای مطلقه. این معیار نشون‌دهنده مجموع مقادیر مطلق تفاوت‌های بین مقادیر واقعی و مقادیر پیش‌بینی شده است.

🔵غیر حساس به خطاهای بزرگ: SAE به دلیل استفاده از مقدار مطلق، به خطاهای بزرگ مثل خطاهای کوچک نگاه می‌کنه و حساسیت کمتری به خطاهای بزرگ داره.

🔵کاربرد: SAE بیشتر در شرایطی استفاده می‌شه که بخوایم تاثیر خطاهای کوچک و بزرگ به صورت مساوی در نظر گرفته شن، مثل بعضی از کاربردهای پیش‌بینی.

🔵

مقایسه SSE ،MSE و SAE

🔵معیارهای SSE و MSE به دلیل استفاده از مربعات خطاها، به خطاهای بزرگ حساس‌ترن و تاثیر بیشتری از خطاهای بزرگ می‌پذیرن.

🔵معیار SAE به دلیل استفاده از مقادیر مطلق، به خطاهای بزرگ و کوچک به یک میزان توجه می‌کنه و به نوعی متوسط خطاها رو نشون می‌ده.

🔵معیار MSE به دلیل میانگین‌گیری، معیاری نرمال‌سازی شده ارائه می‌ده که برای مقایسه مدل‌های مختلف بسیار مفیده.

#Evaluation_Metrics

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6👌3❤2🔥2

511 views08:29

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۱۶۲: برای یک مسئله پیش‌بینی با تعداد زیادی نمونه و مقادیر متغیرهای ورودی بزرگ، کدوم معیار محاسبه خطا مناسب‌تره و چرا؟

Anonymous Quiz

معیار SSE، چون حساسیت بیشتری به خطاهای بزرگ داره و تاثیر بیشتری از داده‌های پرت می‌پذیره.

59%

معیار MSE، چون به دلیل میانگین‌گیری، نرمال‌سازی شده و با مقیاس داده‌ها همخوانی بیشتری داره.

21%

معیار SAE، چون خطاهای مثبت و منفی رو به صورت برابر ارزیابی می‌کنه و به داده‌های پرت حساس نیست.

14%

هیچ‌کدوم از این معیارها مناسب نیستن و باید از معیار دیگه‌ای استفاده شه.

👌4❤2👍1😎1

29 voters474 views14:48

آموزش دیتاساینس و ماشین‌لرنینگ

💡 معیارهای بررسی خطا در مدل‌های یادگیری ماشین

🔵 رگرسیون

🔵خطای میانگین مربعات (Mean Squared Error - MSE)
🔵خطای میانگین مطلق (Mean Absolute Error - MAE)
🔵ریشه میانگین مربعات خطا (Root Mean Squared Error - RMSE)
🔵خطای میانگین بایاس (Mean Bias Error - MBE)
🔵خطای هابر (Huber Loss - HL)

🔵 طبقه‌بندی باینری

🔵خطای لایکلی‌هود (Likelihood Loss - LHL)
🔵باینری کراس انتروپی (Binary Cross Entropy - BCE)
🔵خطای هیج و خطای هیج مربعی (Hinge Loss and Squared Hinge Loss - HL and SHL)

🔵 طبقه‌بندی چندگانه

🔵کراس انتروپی دسته‌ای (Categorical Cross Entropy - CCE)
🔵واگرایی کولبک-لیبلر (Kullback-Leibler Divergence - KLD)

#Evaluation_Metrics

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤3👍3👌2👏1

561 views17:59

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

ضریب تعیین یا R² Score

امتیاز R² یا ضریب تعیین، یک شاخص برای ارزیابی مدل‌های رگرسیونه که مشخص می‌کنه چه مقدار از تغییرات متغیر وابسته توسط متغیرهای مستقل در مدل توضیح داده می‌شه. این امتیاز بین 0 تا 1 قرار داره؛ عدد 1 نشون‌دهنده‌ی مدل بسیار دقیق و عدد 0 نشون‌دهنده‌ی مدلیه که نمی‌تونه تغییرات داده‌ها رو بیان کنه. به عبارت دیگه، R² نشون می‌ده که مدل تا چه حد خوب تونسته روابط خطی بین متغیرهای مستقل و وابسته رو توضیح بده.

🔵

فرمول نمره R²

🔵صورت کسر مجموع مربعات خطاهای رگرسیونی (Sum Squared Regression Error)، که به اختلاف بین مقادیر پیش‌بینی شده توسط مدل و مقادیر واقعی داده‌ها اشاره داره. این مقدار نشون دهنده میزان خطاییه که مدل در توضیح تغییرات متغیر وابسته ایجاد می‌کنه.

🔵مخرج کسر مجموع مربعات خطاهای کل (Sum Squared Total Error)، که به اختلاف بین مقادیر واقعی داده‌ها و میانگین مقادیر واقعی اشاره داره. این مقدار بیانگر کل واریانس داده‌هاست.

🔵

تفسیر خروجی R²

نمره R² بین 0 و 1 قرار می‌گیره:

🔵اگه R² نزدیک به 1 باشه، مدل بسیار خوب عمل کرده و بیشتر تغییرات در داده‌ها رو بیان می‌کنه. البته می‌تونه نشون دهنده بیش برازش هم باشه و به این نکته هم باید توجه کرد.

🔵اگه R² نزدیک به 0 باشه، مدل عملکرد ضعیفی داشته و واریانس داده‌ها رو به خوبی توضیح نمی‌ده.

برای مثال، اگر R² برابر 0.85 باشه، می‌تونیم بگیم که 85 درصد از تغییرات متغیر وابسته توسط مدل توضیح بیان شده.

🔵

محدودیت‌های نمره R²

🔵حساسیت به تعداد متغیرها: نمره R² با اضافه کردن متغیرهای بیشتر به مدل افزایش پیدا می‌کنه، حتی اگه اون متغیرها توضیح زیادی برای واریانس داده‌ها نداشته باشن. برای رفع این مشکل، از R² تعدیل‌شده (Adjusted R²) استفاده می‌شه که تعداد متغیرها رو هم در نظر می‌گیره.

🔵فقط برای روابط خطی: نمره R² تنها برای مدل‌های خطی مناسبه و نمی‌تونه به درستی عملکرد مدل‌های غیرخطی رو ارزیابی کنه.

🔵بی‌توجهی به برازش داده‌ها: نمره R² تنها واریانس توضیح داده شده رو اندازه‌گیری می‌کنه و توجهی به پراکندگی و الگوهای باقی‌مونده نداره. بنابراین، ممکنه مدل با نمره R² بالا هنوز داده‌ها رو به درستی پیش‌بینی نکنه.

#Evaluation_Metrics

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2👏2👌1

605 views09:02

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۱۶۳: در کدوم یک از شرایط زیر استفاده از ضریب تعیین (R²) مناسب نیست؟

Anonymous Quiz

24%

وقتی مدل دارای تعداد زیادی متغیر مستقله.

وقتی مدل داده‌هایی با نویز کم داره.

30%

وقتی مدل از رگرسیون خطی استفاده می‌کنه.

43%

وقتی مدل رابطه غیرخطی بین متغیرهای مستقل و وابسته داره.

😎4❤2🤔2👍1

37 voters518 views16:31

آموزش دیتاساینس و ماشین‌لرنینگ

Forwarded from رضا شکرزاد - علم‌داده و هوش مصنوعی

🎞

برنامه‌ریزی برای یادگیری ماشین لرنینگ | معرفی پیش‌نیازها

توی این ویدئو با مرور استراتژی‌های یادگیری سریع و اصولی ماشین لرنینگ، پیش‌نیازهای ورود به این حوزه و برنامه‌ریزی لازم برای پیش بردن کار رو بیان کردیم.

🔺

پیش‌نیازهای یادگیری ماشین لرنینگ:

۱. ریاضی|جبر خطی (ماتریس، مشتق و گرادیان)
۲. آمار و احتمال (اصول شمارش،‌ احتمال و احتمال شرطی، متغیرهای تصادفی گسسته و پیوسته و توام، قضیه حد مرکزی و قانون اعداد بزرگ، آمار توصیفی، توزیع‌های نمونه‌ای، آزمون فرض، آنالیز واریانس، رگرسیون و انواع تست‌های آماری)
۳. برنامه نویسی (پایتون، SQL و R)
۴. دانش تخصصی بیزینس (مثلا مالی یا بایوشیمی یا هر رشته تخصصی که وارد هستید)
۵. ورژن کنترل‌ها (مثل گیت)
۶. تئوری‌های پایه ماشین لرنینگ
۷. پکیج‌های ضروری ماشین لرنینگ (Pandas ،Numpy)
۸. مفاهیم اساسی Cloud Computing و MLOps

👈

📎