Forwarded from کافه تدریس | Cafetadris.com
کنفرانس جهانی توسعهدهندگان اپل (WWDC 2024) امشب ساعت ۲۰:۳۰ بهوقت ایران برگزار میشه و بخش چشمگیریش مبتنی بر هوش مصنوعیه.
برای پوشش اخبار رویداد اپل، کانال دیاسلندرز رو دنبال کنین:
@cafetadris | کافهتدریس
Please open Telegram to view this post
VIEW IN TELEGRAM
❤4🔥3👏1👌1
برای مدیریت زمان اجرای مدلهای ماشین لرنینگ یا آنالیز داده و برای بهینهسازی حافظه مورد استفاده هر مدل، تکنیکهای ساده ای وجود داره که کمک میکنه دیتاست یا دیتافریممون رو بهینه ذخیره کنیم.
تو این ویدئو این کار رو که عموما Type Casting هست با پکیج Pandas انجام دادیم. به این ترتیب نشون دادیم که چطور حافظ و زمان رو با تغییرات ساده میتونیم مهندسی کنیم. این کار کمک بزرگی به مدیریت منابع میکنه.
#YouTube
#Data_Analysis
#Data_Preprocessing
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
پانداز - بهینه کردن زمان اجرا و حافظه دیتافریم
برای مدیریت زمان اجرای مدلهای ماشین لرنینگی یا آنالیز داده و برای بهینه مموری مورد استفاده هر مدل تکنیکهای ساده ای وجود داره که میتونیم داده ست یا دیتافریم مون رو بهینه ذخیره کنیم. تو این ویدیو این کار رو که عموما تایپ کستینگ هست با پکیج پانداز انجام دادیم.…
❤4🔥2👌1
دادههای پرت یا Outlier به نقاط دادهای گفته میشه که به طور قابل توجهی از بقیه نقاط داده دور هستن. دادههای پرت ممکنه به دلایل مختلفی مثل خطاهای اندازهگیری، وارد کردن نادرست دادهها یا حتی تغییرات واقعی در دادهها به وجود بیاین.
مدیریت دادههای پرت اهمیت زیادی در پیشپردازش دادهها داره چون این دادهها میتونن تاثیر زیادی روی نتایج تحلیلها و مدلهای یادگیری ماشین داشته باشن.
وجود دادههای پرت منجر به تولید نتایج نادرست و گمراهکننده میشه، چون مدلهای یادگیری ماشین ممکنه به جای یادگیری الگوی کلی دادهها، به دادههای پرت واکنش نشون بدن. بنابراین، شناسایی و مدیریت صحیح این دادهها اهمیت زیادی داره.
برای مدیریت این چالش، میشه از روشهای کاهش ابعاد مثل تحلیل مؤلفههای اصلی (PCA) استفاده کرد تا دادهها به فضای کوچکتری نگاشت شن و دادههای پرت بهتر شناسایی شن.
#Data_Analysis
#Data_Preprocessing
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤3👌2
❓کوییز شماره ۱۵۹: کدوم یک از روشهای زیر، با استفاده از تبدیلهای ریاضی نقاط پرت رو کاهش میده؟
Anonymous Quiz
33%
Logarithmic Transformation
14%
Direct Removal
29%
Min-Max Transformation
24%
Regression Method
😎5👍2❤1🤔1
💡 مثال عملی شناسایی و مدیریت دادههای پرت در پایتون
برای شناسایی و مدیریت دادههای پرت در پایتون، میشه از کتابخانههایی مثل Pandas، NumPy و Scikit-learn استفاده کرد. در زیر یک مثال ساده برای شناسایی دادههای پرت با استفاده از IQR آورده شده:
👇 خروجی
دادههای پرت:
value
0 10
5 15
8 100
دادههای صحیح:
value
1 12
2 12
3 13
4 12
6 12
7 12
9 12
10 12
11 13
#Data_Analysis
#Data_Preprocessing
@Data_ML | دیتاساینس و ماشین لرنینگ
برای شناسایی و مدیریت دادههای پرت در پایتون، میشه از کتابخانههایی مثل Pandas، NumPy و Scikit-learn استفاده کرد. در زیر یک مثال ساده برای شناسایی دادههای پرت با استفاده از IQR آورده شده:
import pandas as pd
# نمونه داده
data = {'value': [10, 12, 12, 13, 12, 15, 12, 12, 100, 12, 12, 13]}
df = pd.DataFrame(data)
# محاسبه چارکها
Q1 = df['value'].quantile(0.25)
Q3 = df['value'].quantile(0.75)
IQR = Q3 - Q1
# شناسایی دادههای پرت
outliers = df[(df['value'] < Q1 - 1.5 * IQR) | (df['value'] > Q3 + 1.5 * IQR)]
print("دادههای پرت:")
print(outliers)
# حذف دادههای پرت
df_cleaned = df[~((df['value'] < Q1 - 1.5 * IQR) | (df['value'] > Q3 + 1.5 * IQR))]
print("دادههای صحیح:")
print(df_cleaned)
دادههای پرت:
value
0 10
5 15
8 100
دادههای صحیح:
value
1 12
2 12
3 13
4 12
6 12
7 12
9 12
10 12
11 13
#Data_Analysis
#Data_Preprocessing
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👍5👏2
انتخاب ویژگی به فرآیندی گفته میشه که در اون تعداد ویژگیهای وارد شده به مدل کاهش پیدا میکنه. این کار با هدف بهبود عملکرد مدل و کاهش پیچیدگی انجام میشه. ویژگیهای اضافی یا نامربوط میتونن باعث ایجاد نویز در دادهها و کاهش کارایی مدل بشن.
- آزمون کای دو (Chi-Square Test): این آزمون برای ویژگیهای Categorical استفاده میشه و وابستگی بین ویژگیها و برچسب هدف رو اندازهگیری میکنه.
- اطلاعات متقابل (Mutual Information): این معیار میزان اطلاعات مشترک بین دو متغیر را اندازهگیری میکنه و میتونه برای انتخاب ویژگیهای مرتبط با برچسب هدف مفید باشه.
- ضریب همبستگی (Correlation Coefficient): این معیار برای ویژگیهای عددی استفاده میشه و نشوندهنده میزان ارتباط خطی بین ویژگیها و برچسب هدفه.
- انتخاب ویژگی به روش رو به عقب (Backward Elimination): این روش با همه ویژگیها شروع میکنه و در هر مرحله یک ویژگی رو حذف میکنه که کمترین تاثیر رو بر عملکرد مدل داره.
- انتخاب ویژگی به روش پیشرو (Forward Selection): این روش با هیچ ویژگی شروع و در هر مرحله یک ویژگی رو اضافه میکنه که بیشترین بهبود رو در عملکرد مدل ایجاد کنه.
- انتخاب ویژگی مرحلهای (Stepwise Selection): این روش ترکیبی از دو روش قبله که در هر مرحله میتونه ویژگیها رو اضافه یا حذف کنه.
- ریج رگرسیون (Ridge Regression): این روش از جریمههای L2 برای کاهش مقدار ضرایب ویژگیهای کماثر استفاده میکنه.
- لاسو رگرسیون (Lasso Regression): این روش از جریمههای L1 برای حذف کامل ویژگیهای کماثر استفاده میکنه.
- درخت تصمیم (Decision Tree): درختهای تصمیم و الگوریتمهای مبتنی بر اونها مثل جنگل تصادفی (Random Forest) و Gradient Boosting میتونن به طور خودکار ویژگیهای مهم رو انتخاب کنن.
#Data_Analysis
#Data_Preprocessing
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👌6👍2🔥2
❓کوییز شماره ۱۶۰: در روش انتخاب ویژگیهای تعبیهشده (Embedded), چطور الگوریتمهای مبتنی بر درخت تصمیمگیری (Decision Tree-Based Algorithms) مثل جنگل تصادفی (Random Forest) اهمیت ویژگیها رو محاسبه میکنن؟
Anonymous Quiz
17%
از طریق کاهش نرخ خطا
45%
بر اساس تعداد باری که یک ویژگی به عنوان گره تصمیمگیری انتخاب میشه
14%
با استفاده از گرادیان نزولی (Gradient Descent)
24%
بر اساس همبستگی بین ویژگیها
❤6😎3👍1
انتخاب ویژگی و استخراج ویژگی مراحل مهمی در کاهش ابعاد هستن. این مراحل با سادهسازی مجموعه ویژگیهای ورودی، راه رو برای مدلهای یادگیری ماشین هموار میکنن.
در انتخاب ویژگی، شما یک زیرمجموعه از مهمترین ویژگیها را از فضای ویژگیهای اصلی شناسایی میکنین. این کار با استفاده از روشهای مختلفی انجام میشه مثل:
بعد از کاهش مجموعه ویژگیها، میتوانید از ویژگیهای انتخاب شده در وظایف مدلسازی استفاده کنید.
استخراج ویژگی شامل تبدیل فضای ویژگیهای اصلی به یک فضای کاهشیافته ابعادیه که معمولاً با استفاده از تکنیکهای خطی مثل تحلیل مؤلفههای اصلی (PCA) یا تحلیل عاملی انجام میشه. این کار با ایجاد مجموعهای جدید از ویژگیها که ترکیبات خطی از ویژگیهای اصلی هستن، انجام میشه.
ترکیبی از انتخاب ویژگی و استخراج ویژگی بهترین نتایج رو به همراه داره. این روش ترکیبی معمولاً با استخراج ویژگی برای کاهش ابعاد شروع میشه و بعد با انتخاب ویژگی برای انتخاب مهمترین ویژگیها در فضای کاهشیافته پیدا میکنه.
#Data_Analysis
#Data_Preprocessing
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤6👍3👌1
افزایش داده یکی از تکنیکهای پیشپردازشه که با استفاده از روشهای مختلف، دادههای جدیدی رو از دادههای اصلی تولید میکنه. این تکنیک به ویژه در مسائل پردازش تصویر و متن بسیار کاربرد داره، چون با افزایش دادهها میشه به مدلها کمک کرد تا عملکرد بهتری داشته باشن و از بیشبرازش جلوگیری کنن.
#Data_Analysis
#Data_Preprocessing
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5👌2👍1
❓کوییز شماره ۱۶۱: کدوم یک از تکنیکهای افزایش داده در تشخیص اشیاء، در تصاویر به کاهش وابستگی مدل به محل قرارگیری اشیاء کمک میکنه؟
Anonymous Quiz
27%
Horizontal Flip
27%
Brightness Adjustment
30%
Scaling
17%
Noise Addition
😎3👍2❤1🤔1
تقویت داده یا Data Augmentation که در زمینههایی مثل پردازش تصویر، صوت و متن کاربرد داره به مدلهای یادگیری عمیق کمک میکنه تا دقت بیشتر و مقاومت زیادی دربرابر مشکلاتی مثل بیش برازش داشته باشن.
#Data_Analysis
#Data_Preprocessing
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4❤3👌1
#Weekend
#Data_Analysis
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5❤1👏1👌1
#Evaluation_Metrics
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6❤2👏2
دنیای دادهها جذابه و دونستن #علم_داده، توانایی تحلیل داده، یا بازاریابی مبتنی بر داده، میتونه شما رو برای فرصتهای شغلی زیادی مناسب کنه.
فارغ از رشته و پیش زمینهتون، میتونین با استفاده از دورههای رضا شکرزاد این مسیر رو شروع کنین و از سطح مقدماتی تا پیشرفته پیش برین.
❗️دانشجویان دوره علم داده ۱ میتونن با پرداخت اختلاف هزینه، دوره جامع رو تهیه کنن.
#Courses
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤5🔥2👍1👏1
در مدلسازی اندازهگیری خطاها تعیینکننده است چون خطاها نشوندهنده تفاوت بین مقادیر واقعی و مقادیر پیشبینی شده توسط مدل هستن. سه معیار پرکاربرد برای اندازهگیری خطاها شامل SSE (مجموع مربعات خطاها)، MSE (میانگین مربعات خطاها) و SAE (مجموع خطاهای مطلق) میشن.
#Evaluation_Metrics
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍6👌3❤2🔥2
❓کوییز شماره ۱۶۲: برای یک مسئله پیشبینی با تعداد زیادی نمونه و مقادیر متغیرهای ورودی بزرگ، کدوم معیار محاسبه خطا مناسبتره و چرا؟
Anonymous Quiz
7%
معیار SSE، چون حساسیت بیشتری به خطاهای بزرگ داره و تاثیر بیشتری از دادههای پرت میپذیره.
59%
معیار MSE، چون به دلیل میانگینگیری، نرمالسازی شده و با مقیاس دادهها همخوانی بیشتری داره.
21%
معیار SAE، چون خطاهای مثبت و منفی رو به صورت برابر ارزیابی میکنه و به دادههای پرت حساس نیست.
14%
هیچکدوم از این معیارها مناسب نیستن و باید از معیار دیگهای استفاده شه.
👌4❤2👍1😎1
💡 معیارهای بررسی خطا در مدلهای یادگیری ماشین
🔵 رگرسیون
🔵 خطای میانگین مربعات (Mean Squared Error - MSE)
🔵 خطای میانگین مطلق (Mean Absolute Error - MAE)
🔵 ریشه میانگین مربعات خطا (Root Mean Squared Error - RMSE)
🔵 خطای میانگین بایاس (Mean Bias Error - MBE)
🔵 خطای هابر (Huber Loss - HL)
🔵 طبقهبندی باینری
🔵 خطای لایکلیهود (Likelihood Loss - LHL)
🔵 باینری کراس انتروپی (Binary Cross Entropy - BCE)
🔵 خطای هیج و خطای هیج مربعی (Hinge Loss and Squared Hinge Loss - HL and SHL)
🔵 طبقهبندی چندگانه
🔵 کراس انتروپی دستهای (Categorical Cross Entropy - CCE)
🔵 واگرایی کولبک-لیبلر (Kullback-Leibler Divergence - KLD)
#Evaluation_Metrics
@Data_ML | دیتاساینس و ماشین لرنینگ
#Evaluation_Metrics
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❤3👍3👌2👏1
امتیاز R² یا ضریب تعیین، یک شاخص برای ارزیابی مدلهای رگرسیونه که مشخص میکنه چه مقدار از تغییرات متغیر وابسته توسط متغیرهای مستقل در مدل توضیح داده میشه. این امتیاز بین 0 تا 1 قرار داره؛ عدد 1 نشوندهندهی مدل بسیار دقیق و عدد 0 نشوندهندهی مدلیه که نمیتونه تغییرات دادهها رو بیان کنه. به عبارت دیگه، R² نشون میده که مدل تا چه حد خوب تونسته روابط خطی بین متغیرهای مستقل و وابسته رو توضیح بده.
نمره R² بین 0 و 1 قرار میگیره:
برای مثال، اگر R² برابر 0.85 باشه، میتونیم بگیم که 85 درصد از تغییرات متغیر وابسته توسط مدل توضیح بیان شده.
#Evaluation_Metrics
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
❤7👍2👏2👌1
❓کوییز شماره ۱۶۳: در کدوم یک از شرایط زیر استفاده از ضریب تعیین (R²) مناسب نیست؟
Anonymous Quiz
24%
وقتی مدل دارای تعداد زیادی متغیر مستقله.
3%
وقتی مدل دادههایی با نویز کم داره.
30%
وقتی مدل از رگرسیون خطی استفاده میکنه.
43%
وقتی مدل رابطه غیرخطی بین متغیرهای مستقل و وابسته داره.
😎4❤2🤔2👍1
Forwarded from رضا شکرزاد - علمداده و هوش مصنوعی
توی این ویدئو با مرور استراتژیهای یادگیری سریع و اصولی ماشین لرنینگ، پیشنیازهای ورود به این حوزه و برنامهریزی لازم برای پیش بردن کار رو بیان کردیم.
۱. ریاضی|جبر خطی (ماتریس، مشتق و گرادیان)
۲. آمار و احتمال (اصول شمارش، احتمال و احتمال شرطی، متغیرهای تصادفی گسسته و پیوسته و توام، قضیه حد مرکزی و قانون اعداد بزرگ، آمار توصیفی، توزیعهای نمونهای، آزمون فرض، آنالیز واریانس، رگرسیون و انواع تستهای آماری)
۳. برنامه نویسی (پایتون، SQL و R)
۴. دانش تخصصی بیزینس (مثلا مالی یا بایوشیمی یا هر رشته تخصصی که وارد هستید)
۵. ورژن کنترلها (مثل گیت)
۶. تئوریهای پایه ماشین لرنینگ
۷. پکیجهای ضروری ماشین لرنینگ (Pandas ،Numpy)
۸. مفاهیم اساسی Cloud Computing و MLOps
#YouTube
@DSLanders | دیاسلندرز
Please open Telegram to view this post
VIEW IN TELEGRAM
YouTube
برنامهریزی برای یادگیری ماشین لرنینگ | معرفی پیشنیازها
تو این ویدئو به مرور استراتژیهای یادگیری سریع و اصولی ماشین لرنینگ پرداختیم. پیشنیازهای ورود به ماشین لرنینگ و هوش مصنوعی رو گفتیم و برای هر کدوم برنامه لازم رو بیان کردیم.
لیست پیشنیازهای یادگیری ماشین لرنینگ:
۱. ریاضی | جبر خطی (ماتریس، مشتق و گرادیان)…
لیست پیشنیازهای یادگیری ماشین لرنینگ:
۱. ریاضی | جبر خطی (ماتریس، مشتق و گرادیان)…
👍4❤3🔥1👌1