آموزش دیتاساینس و ماشین‌لرنینگ
1.91K subscribers
161 photos
9 videos
134 links
🔴 آموزش مباحث حوزه دیتا شامل علم داده، یادگیری ماشین و تحلیل داده (رضا شکرزاد)

🌀 کانال اخبار و منابع هوش مصنوعی:
@DSLanders

🌀 مشاوره و ارتباط مستقیم:
https://t.me/dslanders_admin

یوتیوب:
Youtube.com/@RezaShokrzad

دوره‌ها:
cafetadris.com/datascience
Download Telegram
💡 ۷ نکته برای طراحی داشبورد

🔵الهام‌گیری: از ایده‌های دیگران برای بهبود طراحی داشبوردهاتون استفاده کنین.

🔵پرهیز از شلوغی: تنها عناصر ضروری رو در داشبورد قرار بدین تا کاربران بتونن اطلاعات مهم رو به وضوح ببینن.

🔵استفاده از چیدمان شبکه‌ای یا grid: از یک چیدمان شبکه‌ای برای قرار دادن عناصر مختلف روی داشبورد استفاده کنین تا کاربران بتونن اطلاعات رو به ترتیب منطقی مشاهده کنن.

🔵استفاده صحیح از فونت‌ها: یک سلسله مراتب واضح برای فونت‌ها تعیین کنین تا کاربران بتونن به راحتی اطلاعات مهم رو تشخیص بدن.

🔵ساده‌سازی استفاده از رنگ: از رنگ‌های زیاد استفاده نکنین و هر رنگ باید دلیل مشخصی داشته باشه.

🔵استفاده از عدد بزرگ (BAN): اطلاعات کلیدی رو به صورت اعداد بزرگ و واضح نشون بدین.

🔵همکاری و تکرار: داشبوردها رو با همکاری دیگران و بازبینی‌های متعدد بهبود بدین.

#Data_Analysis
#Data_Visualization_Tools

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍42👌1👨‍💻1
👨‍🎓 آشنایی با نرم افزار Power BI

نرم افزار Power BI به سازمان‌ها این امکان رو می‌ده که داده‌های خام رو از سیستم‌های مبتنی بر ابر (SaaS) مختلف دریافت کرده و با استفاده از یک رابط کاربری قدرتمند، تعاملی و آسان، به داده‌های قابل استفاده تبدیل کنن. علاوه بر این، این پلتفرم اطلاعات مهم رو جدا کرده و بینش‌های ارزشمندی از متریک‌های مورد نیاز کاربران ارائه می‌ده.

🔵 ویژگی‌های Power BI

🔵اتصال مستقیم به اکسل و امکان ادغام با بقیه محصولات مایکروسافت
🔵توانایی فشرده‌سازی داده‌ها و استخراج بینش از مجموعه داده‌های بزرگ ( تا 100 میلیون سطر در مقابل کمی بیش از 1 میلیون سطر در اکسل)
🔵قابلیت شخصی‌سازی با استفاده از R و Python
🔵امکان ساخت نقشه‌های تعاملی توسط کاربران
🔵استفاده از Power Query برای وارد کردن، فیلتر کردن و ترجمه داده‌ها
🔵دسترسی به اپلیکیشن موبایل در تمام نسخه‌ها

🔵 نقاط قوت Power BI

🔵مجموعه‌ای از بصری‌سازی‌ها: بصری‌سازی‌های Power BI تعاملی، شهودی و زیبا هستن و حتی کاربران تازه‌کار هم می‌تونن ظاهر گزارش‌ها رو تغییر بدن، فیلتر اعمال و با برنامه تعامل کنن. همچنین مدیران می‌تونن بصری‌سازی‌های سفارشی رو از مایکروسافت خریداری و دانلود کنن.

🔵همکاری قدرتمند: امکان همکاری همزمان چند نفر از طریق Power BI Service فراهمه.

🔵اتصال: به منابع داده متعددی مثل اکسل، پایگاه‌های داده SQL Server، گوگل آنالیتیکس، تحلیل‌های شبکه‌های اجتماعی، منابع Azure و منابع ابری متصل می‌شه. همچنین می‌تونه به منابع بزرگ داده دسترسی داشته باشه.

🔵ادغام یکپارچه با داده‌های محلی: با استفاده از Personal Gateway، کاربران می‌تونن گزارش‌ها و داشبوردها رو با آخرین داده‌های منابع محلی بدون نیاز به انتقال داده‌ها به ابر به‌روز نگه دارن.

🔵به‌روزرسانی‌های هوشمند و خودکار: به‌طور خودکار و بر اساس تجربیات واقعی کاربران به‌روزرسانی می‌شه.

🔵ادغام در برنامه‌ها و وب‌سایت‌ها: Power BI Embedded به توسعه‌دهندگان امکان می‌ده گزارش‌های Power BI رو در برنامه‌ها و وب‌سایت‌ها اضافه کنن.

🔵ایده‌آل برای گزارش‌دهی: به دلیل قدرت در بصری‌سازی و ادغام داده‌ها، برای شاخص‌های کلیدی عملکرد و داشبوردها ایده‌آله.

🔵مقرون‌به‌صرفه: به‌طور کلی برای کسب‌وکارهای کوچک تا متوسط ارزان‌تر از تبلو هست.

🔵قابلیت‌های قوی هوش تجاری و انبار داده: در آماده‌سازی داده‌ها و قابلیت‌های هوش تجاری برتری داره.

🔵 نقاط ضعف Power BI

🔵عدم پشتیبانی از جداول پیچیده: Power BI در مدیریت ارتباطات متعدد بین جداول مشکل داره. کاربران باید اطمینان حاصل کنن که مدل‌های داده دارای فیلدهای منحصر به فرد هستن تا از اشتباهات جلوگیری شه.

🔵رابط کاربری شلوغ: رابط کاربری Power BI پر از آیکون‌ و گزینه‌ است که گاهی اوقات دید داشبوردها و گزارش‌ها رو مسدود می‌کنه.

🔵چالش در یادگیری DAX: زبان DAX در Power BI می‌تونه چالش‌برانگیز باشه، به ویژه ترکیب بیش از دو عنصر که نیازمند تو در تو کردن عباراته.

🔵منبع بسته: مثل همه محصولات مایکروسافت، منبع بسته است.

🔵محدود به ویندوز: این ابزار به‌صورت بومی از macOS پشتیبانی نمی‌کنه، که می‌تونه برای کاربران مک محدودیت ایجاد کنه.

🔵انعطاف‌پذیری کمتر در تحلیل پیشرفته: در انجام وظایف تحلیلی پیچیده به اندازه تبلو قوی نیست.

#Data_Analysis
#Data_Visualization_Tools

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍1👌1👨‍💻1
Media is too big
VIEW IN TELEGRAM
🔠 توضیحات دوره هوش تجاری و تحلیل داده با Tableau و Power BI

رضا شکرزاد توی این ویدئو به طور کامل سرفصل‌ها و محتوای دوره هوش تجاری و تحلیل داده رو توضیح داده، که برای کسانی که به تازگی می‌خوان این دوره رو شروع کنن یه راهنمای مفیده.

همچنین شما با سرچ #BI توی کانال، می‌تونین گزارش روند پیشرفت کلاس رو مطالعه کنین.

🟢ثبت‌نام دوره:
👉📎 http://ctdrs.ir/cr14230

#Data_Analysis
#Data_Visualization_Tools

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52🔥1👨‍💻1
👨‍🎓 آشنایی با DAX و M: دو زبان مهم در Power BI برای تحلیل و تبدیل داده‌ها

در Power BI، در مرحله اول از Power Query برای وارد کردن داده‌ها از منابع مختلف و انجام تغییرات لازم استفاده می‌شه. بعد از آماده‌سازی داده‌ها، میشه اونها رو در Power BI مدل‌سازی و روابط بین جداول مختلف رو تعریف کرد. در نهایت، داده‌های مدل‌سازی شده در Power BI، برای ایجاد گزارش‌ها و داشبوردهای تعاملی استفاده می‌شه.

به طور خلاصه، Power Query ابزار اصلی برای آماده‌سازی و تمیز کردن داده‌هاست، در حالی که Power BI از این داده‌های آماده شده برای مدل‌سازی، تحلیل و مصورسازی استفاده می‌کنه. ترکیب این دو ابزار به کاربران امکان می‌ده تا از داده‌های خام به اطلاعات ارزشمند و قابل تحلیل برسن.

🔵 زبان DAX

زبان DAX مخفف Data Analysis Expressions هست که یک زبان فرمول‌نویسیه و برای تحلیل داده‌ها و محاسبات در Power BI، Power Pivot و Analysis Services استفاده می‌شه. این زبان بر پایه توابع و عبارات مشابه اکسل ساخته شده اما قابلیت‌های بیشتری برای تحلیل داده‌ها در مدل‌های داده‌های بزرگ داره.

🔵 اجزا و ویژگی‌های زبان DAX

🔵توابع ریاضی و آماری: شامل توابع پایه‌ای مثل SUM، AVERAGE، MIN، MAX و توابع پیشرفته‌تر مثل SUMX، AVERAGEX و غیره.

🔵فیلترها و ستون‌های محاسباتی: امکان تعریف فیلترهای پیچیده و ستون‌های محاسباتی جدید بر اساس داده‌های موجود.

🔵توابع زمانی: برای تحلیل داده‌های زمانی، دارای توابعی مانند DATEADD، DATESBETWEEN، SAMEPERIODLASTYEAR و غیره است.

🔵ارتباطات جداول: امکان ایجاد روابط پیچیده بین جداول مختلف و انجام محاسبات بر اساس این روابط.

🔵استفاده آسان: شبیه به فرمول‌های اکسل و قابل یادگیری برای کاربران اکسل.

🔵 مثال‌هایی از DAX

🔵محاسبه مجموع فروش:
  TotalSales = SUM(Sales[SalesAmount])

🔵محاسبه فروش سال گذشته:
  SalesLastYear = CALCULATE(SUM(Sales[SalesAmount]), SAMEPERIODLASTYEAR(Calendar[Date]))


🔵 زبان M

زبان M یک زبان فرمول‌نویسیه (Power Query Formula Language) که برای انتقال و تبدیل داده‌ها در Power Query در Power BI و Excel استفاده می‌شه. این زبان به کاربران اجازه می‌ده تا داده‌ها رو از منابع مختلف جمع‌آوری، تمیز، تغییر و بارگذاری کنن.

🔵قدرت بالا در ETL (استخراج، تبدیل، بارگذاری): مناسب برای تبدیل و تمیز کردن داده‌ها قبل از وارد کردن به مدل داده.

🔵توابع گسترده: شامل توابع متنوع برای تغییر داده‌ها مثل Table.TransformColumns، Text.Replace، Date.AddDays و غیره.

🔵اسکریپت نویسی: امکان نوشتن اسکریپت‌های پیچیده برای انجام کارهای تکراری و خودکارسازی فرآیندهای ETL.

🔵انعطاف‌پذیری بالا: قابلیت کار با داده‌های ساختار یافته و نیمه‌ساختار یافته از منابع مختلف مثل فایل‌های CSV، دیتابیس‌ها، وب‌سرویس‌ها و غیره.

🔵 مثال‌هایی از M

🔵تبدیل تاریخ به فرمت دلخواه:
  Date.ToText(DateTime.LocalNow(), "yyyy-MM-dd")

🔵فیلتر کردن رکوردها:
  Table.SelectRows(Source, each [Sales] > 1000)


زبان‌ DAX بیشتر برای محاسبات و تحلیل‌های داخل مدل داده‌ها استفاده می‌شه، در حالی که M برای استخراج، تغییر و بارگذاری داده‌ها از منابع مختلف و تمیز کردن اونها به کار می‌ره. یادگیری این دو زبان به کاربران Power BI این امکان رو می‌ده تا تحلیل‌های پیچیده‌تری انجام بدن و داده‌ها رو به شکلی بهینه‌تر مدیریت کنن.

#Data_Analysis
#Data_Visualization_Tools

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍74👌2👨‍💻1
کوییز شماره ۱۵۶: کدوم یک از موارد زیر بهترین استفاده از توابع تو در تو در DAX است؟
Anonymous Quiz
71%
ترکیب توابع CALCULATE و FILTER برای ایجاد معیارهای پیچیده
13%
استفاده از تابع SUM به تنهایی
17%
استفاده از تابع IF برای محاسبات ساده
👍52🤔2😎1
🔵 استفاده از ترکیب توابع CALCULATE و USERELATIONSHIP در DAX برای ایجاد روابط موقتی بین جداوله. این تکنیک به شما اجازه می‌ده تا محاسبات پیچیده‌ رو بر اساس روابطی که در حالت عادی وجود ندارن، انجام بدین.

🔵مثال:
SalesAmount = CALCULATE(
SUM(Sales[Amount]),
USERELATIONSHIP(Sales[Date], Dates[Date])
)

در این مثال، تابع USERELATIONSHIP یک رابطه موقتی بین ستون‌های Date از جدول Sales و Dates ایجاد می‌کنه که به شما امکان می‌ده مجموع فروش‌ها رو بر اساس تاریخ‌های خاص محاسبه کنین.

🔵 در زبان M، استفاده از تابع List.Generate برای ایجاد لیست‌های پویا و پیچیده یکی از ترفندهای پیشرفته است. این تابع به شما امکان می‌ده تا با استفاده از قوانین و شرایط خاص، لیست‌های سفارشی ایجاد کنین.

🔵مثال:
List.Generate(
() => [Counter = 1, Result = 1],
each [Counter] <= 10,
each [Counter = [Counter] + 1, Result = [Result] * 2],
each [Result]
)

در این مثال، تابع List.Generate یک لیست از اعداد ایجاد می‌کنه که هر عدد دو برابر عدد قبلیه، و این عملیات تا زمانی که شمارنده به 10 برسد ادامه داره.

#Data_Analysis
#Data_Visualization_Tools

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍52👌1👨‍💻1
پست‌های هفته‌ای که گذشت رو این‌جا پیدا کنین!

🔺 آموزشی

🔵قسمت اول: مفاهیم پایه‌ای تبلو
📎 https://t.me/data_ml/549

🔵بخش دوم مفاهیم تبلو
📎 https://t.me/data_ml/552

🔵بخش سوم مفاهیم تبلو
📎 https://t.me/data_ml/554

🔵آشنایی با نرم افزار Power BI
📎 https://t.me/data_ml/557

🔵آشنایی با DAX و M: دو زبان مهم در Power BI
📎 https://t.me/data_ml/560

🔺 کوئیز

🔵کوییز شماره ۱۵۲: Marks در تبلو
📎 https://t.me/data_ml/550

🔵کوییز شماره ۱۵۳: هدف از استفاده از پارامترها در تبلو
📎 https://t.me/data_ml/553

🔵کوییز شماره ۱۵۴: هدف از استفاده از ویژگی Show Me در تبلو
📎 https://t.me/data_ml/555

🔵کوییز شماره ۱۵۵: اشتراک‎‌گذاری گزارش‌ها و داشبوردهای Power BI با دیگران
📎 https://t.me/data_ml/558

🔵کوییز شماره ۱۵۶: توابع تو در تو در DAX
📎 https://t.me/data_ml/561

🔺 نکته

🔵 پیاده سازی یک داشبورد فروش با کمک Tableau
📎 https://t.me/data_ml/551

🔵 ۷ نکته برای طراحی داشبورد
📎 https://t.me/data_ml/556

🔵چند مثال برای زبان‌های M و DAX
📎 https://t.me/data_ml/562

#Weekend
#Data_Analysis

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53👏1
👩‍🎓 برنامه آموزشی هفته: مراحل پیش پردازش داده

🟠شنبه: پاکسازی داده

🔵یک‌شنبه: نرمال‌سازی داده

🟢دوشنبه: مدیریت حافظه

🔴سه‌شنبه: مدیریت داده‌های پرت

🟠چهارشنبه: انتخاب ویژگی

🔵پنج‌شنبه: افزایش داده

🟢جمعه: جمع بندی

#Data_Analysis
#Data_Preprocessing

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍83👌2👏1👨‍💻1
Media is too big
VIEW IN TELEGRAM
چه سطحی در ریاضی و برنامه نویسی‌ برای ورود به حوزه دیتا ساینس لازمه؟

اگه برای ورود به حوزه دیتا ساینس برنامه دارین، دیدن این ویدئو و ثبت‌نام در وبینار زیر رو بهتون پیشنهاد می‌کنم.

🟡 وبینار رایگان نقشه راه ورود به دیتاساینس و ماشین لرنینگ

در آخرین وبینار بهار ۱۴۰۳، درمورد نقشه راه ورود به دیتاساینس و ماشین لرنینگ صحبت می‌کنیم. این وبینار به شما امکان می‌ده تا با مبانی، ابزارها و مهارت‌های لازم برای شروع در این حوزه‌ آشنا شین.

🗓 دوشنبه، ۲۱ خرداد
ساعت ۲۰:۳۰

▶️ این وبینار ضبط نمیشه و فقط به صورت لایو در دسترس خواهند بود.

برای مطالعه سرفصل‌ها و دریافت جزئیات بیشتر، روی لینک زیر کلیک کنین.

🟢 رایگان ثبت‌نام کنین:‌

👉📎 https://ctdrs.ir/cr15594

@DSLanders | دی‌اس‌لندرز
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53🔥1👏1
👨‍🎓 پیش پردازش داده: Data Cleaning و Data Cleansing

قبل از وارد کردن دیتا به مدل، باید خطاها، نویز، مقادیر گمشده، تکراری یا نادرست مدیریت شن تا خروجی مدل بهینه شه. پاکسازی داده‌ها مرحله‌ایه که در اون داده‌ها از نظر کیفیت بررسی و اصلاح می‌شن و این کار نتایج تحلیل‌ها رو تحت تأثیر قرار می‌ده. بنابراین، پاکسازی داده‌ به دلایل زیر اهمیت دارد:

🔵افزایش دقت مدل‌: مدل‌های یادگیری ماشین و تحلیل‌های آماری به داده‌های تمیز و دقیق نیاز دارن تا نتایج قابل اعتمادی ارائه بدن.

🔵کاهش خطا: حذف داده‌های نادرست یا گمشده خطاهای احتمالی رو کاهش می‌ده.

🔵بهبود کیفیت داده: داده‌های تمیز به تحلیلگران و دانشمندان داده این امکان رو می‌ده تا با اطمینان بیشتری به تحلیل و استخراج اطلاعات بپردازن.

🔵 فرآیند Data Cleansing معمولاً به شناسایی و اصلاح (یا حذف) داده‌های نامعتبر و اشتباه از یک مجموعه داده اشاره داره. این شامل شناسایی داده‌های نادرست، ناقص، ناهماهنگ، یا تکراری و بعد اصلاح‌شونه.

🔵مراحل:
- شناسایی و حذف رکوردهای تکراری
- اصلاح خطاهای ورودی (مثلاً غلط املایی‌ها)
- تکمیل داده‌های ناقص (مثلاً پر کردن فیلدهای خالی)
- استانداردسازی داده‌ها (مثلاً یکنواخت کردن فرمت تاریخ‌ها)
- تأیید اعتبار داده‌ها (مثلاً بررسی کدهای پستی)

🔵هدف: بهبود کیفیت داده‌ها به نحوی که برای تحلیل و استفاده‌های بعدی دقیق و قابل اعتماد باشن.

🔵 فرآیند Data Cleaning به صورت گسترده‌تر به آماده‌سازی داده‌ها برای استفاده، که شامل Data Cleansing هم می‌شه، اشاره داره. این فرآیند ممکنه شامل عملیات‌های بیشتری مثل تبدیل داده‌ها، یکپارچه‌سازی منابع مختلف داده و حتی حذف داده‌های غیر ضروری باشه.

🔵مراحل:
- همه مراحل Data Cleansing
- تبدیل داده‌ها به فرمت‌های مورد نیاز
- یکپارچه‌سازی منابع مختلف داده
- حذف داده‌های غیرضروری یا بی‌ربط

🔵هدف: فراهم کردن داده‌های تمیز و آماده برای تحلیل، مدل‌سازی و سایر استفاده‌ها.

در کل Data Cleansing بیشتر به اصلاح و حذف خطاهای موجود در داده‌ها تمرکز داره و Data Cleaning به آماده‌ و یکپارچه‌سازی کلی داده‌ها برای استفاده.

#Data_Analysis
#Data_Preprocessing

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍5👌2👨‍💻1
کوییز شماره ۱۵۷: کدوم یک از روش‌های زیر به عنوان تکنیکی برای تصحیح خطاهای تایپی و استانداردسازی داده‌های متنی در فرآیند پاکسازی داده‌ها به کار می‌ره؟
Anonymous Quiz
24%
Laplace Transform
33%
Hidden Markov Model
29%
Fuzzy Matching Algorithms
14%
Fourier Transform
2👌2😎2🤔1
🧑‍🎓 بررسی پیش پردازش داده یا Data Preprocessing

پیش پردازش داده یا Data Preprocessing به‌عنوان پاکسازی داده‌ یا data wrangling هم شناخته می‌شه که نقشی مهمی در تبدیل داده‌های خام به قالبی تمیز و ساختاریافته داره، مناسب برای تجزیه‌وتحلیل داره.

🟢برای مطالعه بیشتر کلیک کنین:

👉📎 http://ctdrs.ir/ds0198

#Data_Analysis
#Data_Preprocessing

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
5👍3👌2👨‍💻1
👨‍🎓 پیش پردازش داده: نرمال‌سازی داده

نرمال‌سازی نوعی مقیاس‌بندی ویژگی‌هاست که داده‌ها رو به یک مقیاس استاندارد تبدیل می‌کنه. این تکنیک‌ها برای داده‌های با مقیاس‌های مختلف و مدل‌های مختلف کاربرد دارن. نرمال‌سازی بیشتر برای داده‌های عددی استفاده می‌شه، اما می‌تونه در داده‌های متنی هم کاربرد داشته باشه.

🔵 چرا نرمال‌سازی؟

🔵بهبود عملکرد مدل: نرمال‌سازی دقت مدل‌ رو افزایش داده و به الگوریتم‌های وابسته به متریک‌های فاصله کمک می‌کنه.
🔵ارتقای ثبات: فرآیند بهینه‌سازی و همگرایی سریع‌تر و بدون مشکل انجام می‌شه.
🔵قابلیت تفسیر: داده‌های نرمال‌شده آسون‌تر تفسیر و مقایسه می‌شن.

🔵 مثال اهمیت نرمال‌سازی

برای پیش‌بینی قیمت مسکن با ویژگی‌هایی مثل متراژ، تعداد اتاق‌ها و فاصله تا سوپرمارکت، نرمال‌سازی اهمیت داره. بدون نرمال‌سازی، الگوریتم به ویژگی‌هایی با مقیاس بزرگتر وزن بیشتری می‌ده، که ممکنه به عملکرد ضعیف مدل منجر شه. نرمال‌سازی اطمینان می‌ده که هر ویژگی به طور متناسب در فرآیند یادگیری مشارکت داره.

🔵 تکنیک‌های نرمال‌سازی

🔵مقیاس‌بندی Min-Max: ویژگی‌ها رو به بازه 0 تا 1 تبدیل می‌کنه.
🔵نرمال‌سازی Z-score (استانداردسازی): داده‌ها رو به گونه‌ای تغییر می‌ده که میانگین 0 و انحراف معیار 1 داشته باشن.
🔵نرمال‌سازی مقیاس اعشاری (Decimal scaling): مقادیر ویژگی‌ها رو با توان 10 مقیاس‌بندی می‌کنه.
🔵نرمال‌سازی مقیاس لگاریتمی (Log scaling): داده‌ها رو به مقیاس لگاریتمی تبدیل می‌کنه.
🔵نرمال‌سازی مقیاس مقاوم (Robust scaling): برای داده‌های دارای مقادیر ناهنجار از میانه و بازه بین چارکی (IQR) استفاده می‌کنه.

🔵 در تصویر مقایسه دو روش Normalization و Standardization آورده شده.

#Data_Analysis
#Data_Preprocessing

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍43👌1
📱 پیش‌بینی‌ها و انتظارات از رویداد WWDC 2024 اپل

تقریباً دو سال بعد از آغاز موج #هوش_مصنوعی_مولد، حالا اپل آماده‌ست تا در کنفرانس جهانی توسعه‌دهندگان اپل (WWDC 2024) از ویژگی‌های جدید محصولاتش که بر پایه #هوش_مصنوعی هستن رونمایی کنه. این کنفرانس فردا ساعت ۲۰:۳۰ به‌وقت ایران برگزار می‌شه و ما اون رو کامل پوشش می‌دیم، اما پیش از اون، می‌تونین در وبلاگ کافه‌تدریس پیش‌بینی‌ها و انتظارات از این کنفرانس رو مطالعه کنین.

🟢مطالعه این مطلب فقط ۴ دقیقه از شما وقت می‌گیره:

👉📎 ctdrs.ir/ds0273

🔵 پیش‌بینی‌ها و انتظارت‌تون از این کنفرانس رو در قسمت دیدگاه‌های این مطلب بنویسن و به‌قید قرعه، کد تخفیف ویژه دوره‌های علم‌داده کافه‌تدریس رو دریافت کنین.

#WWDC2024
#AppleEvent

@DSLanders | دی‌اس‌لندرز
Please open Telegram to view this post
VIEW IN TELEGRAM
👍4👌1👨‍💻1
👨‍🎓 پیش پردازش داده: مدیریت حافظه

🔵 استفاده از نمونه‌گیری (Sampling)

یکی از چالش‌های مهم در پیش‌پردازش داده‌ها، مدیریت حافظه است و ساده و مؤثرترین روش برای کاهش استفاده از حافظه، استفاده از نمونه‌گیری از داده‌هاست. به جای استفاده از تمام داده‌ها، میشه نمونه‌ای کوچک‌تر اما نماینده از کل داده‌ها رو انتخاب کرد. این کار باعث کاهش حجم داده‌ها و در نتیجه کاهش مصرف حافظه می‌شه.

🔵نمونه‌گیری تصادفی (Random Sampling): انتخاب تصادفی نمونه‌ها از کل داده‌ها.
🔵نمونه‌گیری لایه‌ای (Stratified Sampling): انتخاب نمونه‌ها به گونه‌ای که توزیع ویژگی‌های مختلف در نمونه‌ها مشابه با توزیع کل داده‌ها باشه.

🔵 استفاده از نوع داده‌های مناسب

نوع داده‌ها تأثیر زیادی روی میزان حافظه مورد نیاز داره. برای مثال، استفاده از نوع داده‌های عدد صحیح (Integer) به جای نوع داده‌های اعشاری (Float) باعث کاهش مصرف حافظه میشه. همچنین، استفاده از نوع داده‌های کوچک‌تر (مثلاً int32 به جای int64) هم می‌تونه مفید باشه.

🔵تبدیل نوع داده‌ها (Type Conversion): تبدیل داده‌ها به نوع‌های مناسب‌تر با استفاده از کتابخانه‌هایی مثل NumPy و Pandas.
🔵استفاده از نوع‌های داده کارآمد (Efficient Data Types): استفاده از نوع‌های داده‌ای که فضای کمتری رو اشغال می‌کنن.

🔵 پردازش داده‌ها به صورت دسته‌ای (Batch Processing)

به جای بارگذاری و پردازش تمام داده‌ها به صورت یکجا، میشه داده‌ها رو به دسته‌های کوچک‌تر تقسیم کرد و هر دسته رو جداگانه پردازش کرد. این کار باعث کاهش بار حافظه و افزایش کارایی سیستم می‌شه.

🔵استفاده از کتابخانه‌های پردازش دسته‌ای: استفاده از ابزارها و کتابخانه‌هایی مثل Dask و Vaex که به طور خاص برای پردازش داده‌های بزرگ طراحی شدن.
🔵ایجاد حلقه‌های پردازش دسته‌ای: نوشتن حلقه‌هایی که داده‌ها رو به صورت دسته‌ای بارگذاری و پردازش می‌کنن.
🔵فشرده‌سازی با اتلاف (Lossy Compression): استفاده از الگوریتم‌هایی که با حذف برخی از جزئیات، حجم داده‌ها رو کاهش می‌دن (مثلاً در فشرده‌سازی تصاویر).

🔵 استفاده از ابزارهای مدیریت حافظه

ابزارها و کتابخانه‌های مختلفی برای مدیریت حافظه در فرآیند پیش‌پردازش داده‌ها وجود دارن که به بهبود کارایی و کاهش مصرف حافظه کمک می‌کنن.

🔵یکی از پرکاربردترین کتابخانه‌ها برای پردازش داده‌ها در پایتون Pandas هست که ابزارهای بسیاری برای بهینه‌سازی مصرف حافظه داره.
🔵کتابخانه قدرتمند Dask برای پردازش داده‌های بزرگ امکان پردازش موازی و دسته‌ای رو فراهم می‌کنه.
🔵کتابخانه Vaex برای پردازش و تجزیه و تحلیل داده‌های بزرگ به حافظه کمی نیاز داره.

🔵 استفاده از فایل‌های حافظه‌ مجازی (Memory-Mapped Files)

فایل‌های حافظه‌ مجازی روشی برای دسترسی به داده‌های بزرگ هستن، بدون اینکه تمام داده‌ها در حافظه RAM بارگذاری شن. این تکنیک به خصوص برای داده‌های بسیار بزرگ مفیده.

🔵استفاده از mmap در Python: استفاده از ماژول mmap در Python برای ایجاد فایل‌های حافظه‌ مجازی و دسترسی به داده‌ها بدون بارگذاری کامل‌شون در حافظه.
🔵استفاده از HDF5: یک فرمت فایل برای ذخیره داده‌های بزرگ که امکان دسترسی به بخش‌های خاصی از داده‌ها رو فراهم می‌کنه.

🔵 استفاده از پردازش توزیع شده (Distributed Processing)

پردازش توزیع شده امکان استفاده از چند ماشین یا هسته پردازشی برای پردازش داده‌ها رو فراهم می‌کنه. این تکنیک به خصوص برای مجموعه داده‌های بزرگ که نمی‌تونن به طور کامل در حافظه یک ماشین قرار بگیرن، بسیار مفیده.

🔵آپاچی اسپارک: یک پلتفرم پردازش توزیع شده که به طور خاص برای تحلیل داده‌های بزرگ طراحی شده. Spark امکان پردازش موازی و توزیع شده داده‌ها رو فراهم می‌کنه.
🔵هادوپ: یک چارچوب دیگه برای پردازش توزیع شده که از مدل MapReduce استفاده می‌کنه. Hadoop هم امکان پردازش و ذخیره‌سازی داده‌های بزرگ رو به صورت توزیع شده فراهم می‌کنه.

🔵 بهینه‌سازی کد

بهینه‌سازی کد شامل استفاده از الگوریتم‌ها و روش‌های کارآمدتر برای پردازش داده‌هاست.

🔵پروفایلینگ کد (Code Profiling): استفاده از ابزارهای Profiling مثل cProfile در Python برای شناسایی بخش‌های کند و پرمصرف کد و بهینه‌سازی اونها.

🔵 استفاده از ذخیره‌سازی موقت (Caching)

ذخیره‌سازی موقت داده‌ها به کاهش مصرف حافظه و افزایش سرعت پردازش کمک می‌کنه. این تکنیک به خصوص زمانی مفیده که داده‌ها چند بار قراره استفاده شن.

🔵استفاده از Cache در Pandas: استفاده از ابزارهایی مثل joblib برای ذخیره‌سازی موقت نتایج محاسباتی.
🔵استفاده از Redis: استفاده از Redis به عنوان یک پایگاه داده در حافظه برای ذخیره‌سازی موقت داده‌ها و نتایج محاسباتی.

#Data_Analysis
#Data_Preprocessing

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍5👌2👨‍💻21
🍎 پوشش کامل رویداد WWDC 2024 اپل

کنفرانس جهانی توسعه‌دهندگان اپل (WWDC 2024) امشب ساعت ۲۰:۳۰ به‌وقت ایران برگزار می‌شه و بخش چشمگیریش مبتنی بر هوش مصنوعیه.
🔹 دوست داری بدونی چه اتفاقی می‌افته؟
🔹 می‌خوای بدونی که فناوری پشت ویژگی‌های iOS18 چطوری کار می‌کنه؟
🔹 می‌خوای از ترند اول تکنولوژی دنیا عقب نمونی؟

دی‌اس‌لندرز رویداد اپل رو کامل پوشش می‌ده، اما پیش از اون، می‌تونین در وبلاگ کافه‌تدریس پیش‌بینی‌ها و انتظارات از کنفرانس رو در کمتر از ۴ دقیقه مطالعه کنین:

👉📎 ctdrs.ir/ds0273

🔵 پیش‌بینی‌ها و انتظارت‌تون از این کنفرانس رو در قسمت دیدگاه‌های این مطلب بنویسن و به‌قید قرعه، کد تخفیف ویژه دوره‌های علم‌داده کافه‌تدریس رو دریافت کنین.

برای پوشش اخبار رویداد اپل، کانال دی‌اس‌لندرز رو دنبال کنین:
👉📎 https://t.me/+4I0VVAe-UtE1NDRk

@cafetadris | کافه‌تدریس
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥3👏1👌1
🎞 بهینه کردن زمان اجرا و حافظه دیتافریم‌

برای مدیریت زمان اجرای مدل‌های ماشین لرنینگ یا آنالیز داده و برای بهینه‌سازی حافظه مورد استفاده هر مدل، تکنیک‌های ساده ای وجود داره که کمک می‌کنه دیتاست یا دیتافریم‌مون رو بهینه ذخیره کنیم.

تو این ویدئو این کار رو که عموما Type Casting هست با پکیج Pandas انجام دادیم. به این ترتیب نشون دادیم که چطور حافظ و زمان رو با تغییرات ساده می‌تونیم مهندسی کنیم. این کار کمک بزرگی به مدیریت منابع میکنه.

👉📎 https://youtu.be/T5NHXA9m6UE

#YouTube
#Data_Analysis
#Data_Preprocessing

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
4🔥2👌1
👨‍🎓 پیش پردازش داده: مدیریت داده‌های پرت

داده‌های پرت یا Outlier به نقاط داده‌ای گفته می‌شه که به طور قابل توجهی از بقیه نقاط داده دور هستن. داده‌های پرت ممکنه به دلایل مختلفی مثل خطاهای اندازه‌گیری، وارد کردن نادرست داده‌ها یا حتی تغییرات واقعی در داده‌ها به وجود بیاین.

🔵 چرا مدیریت داده‌های پرت مهمه؟

مدیریت داده‌های پرت اهمیت زیادی در پیش‌پردازش داده‌ها داره چون این داده‌ها می‌تونن تاثیر زیادی روی نتایج تحلیل‌ها و مدل‌های یادگیری ماشین داشته باشن.

وجود داده‌های پرت منجر به تولید نتایج نادرست و گمراه‌کننده میشه، چون مدل‌های یادگیری ماشین ممکنه به جای یادگیری الگوی کلی داده‌ها، به داده‌های پرت واکنش نشون بدن. بنابراین، شناسایی و مدیریت صحیح این داده‌ها اهمیت زیادی داره.

🔵 روش‌های شناسایی داده‌های پرت

🔵روش‌های آماری: یکی از رایج‌ترین روش‌ها برای شناسایی داده‌های پرت، استفاده از روش‌های آماریه. در این روش‌ها، فرض می‌شه که داده‌ها از توزیعی خاص پیروی می‌کنن و نقاطی که از این توزیع فاصله زیادی دارن به عنوان داده‌های پرت شناخته می‌شن.

🔵میانه و دامنه بین چارکی (IQR): در این روش، داده‌های پرت با استفاده از دامنه بین چارکی (IQR) شناسایی می‌شن. اگه داده‌ای خارج از بازه [Q1−1.5×IQR,Q3+1.5×IQR] قرار بگیره، به عنوان داده پرت شناخته می‌شه. Q1 و Q3 به ترتیب چارک اول و سوم هستن.

🔵روش‌های گرافیکی: روش‌های گرافیکی از ابزارهای بصری مثل Box Plot و Scatter Plot برای شناسایی داده‌های پرت استفاده می‌کنن. این روش‌ها به تحلیل‌گر اجازه می‌دن تا به راحتی نقاط پرت رو مشاهده کنن.

🔵روش‌های مبتنی بر یادگیری ماشین: روش‌های پیچیده‌تر شامل استفاده از الگوریتم‌های یادگیری ماشین، مثل Isolation Forest، برای شناسایی داده‌های پرت هستن.

🔵 روش‌های مدیریت داده‌های پرت

🔵حذف داده‌های پرت: ساده‌ترین روش برای مدیریت داده‌های پرت حذف اونهاست. این روش زمانی مفیده که تعداد داده‌های پرت کم باشه و حذف‌شون تاثیری روی نتایج تحلیل‌ها نگذاره.

🔵جایگزینی داده‌های پرت: اگر حذف داده‌های پرت ممکن نباشه، میشه از روش‌های جایگزینی استفاده کرد. در این روش، داده‌های پرت با مقادیر مناسب دیگه مثل میانه یا میانگین جایگزین می‌شن.

🔵تغییر مقیاس داده‌ها: در بعضی موارد، داده‌های پرت ممکنه نتیجه مقیاس‌های متفاوت باشن. استفاده از روش‌های Normalization و Standardization به کاهش تاثیر داده‌های پرت کمک می‌کنه.

🔵 الگوریتم‌های دسته‌بندی

🔵الگوریتم نزدیک‌ترین همسایه (KNN): این الگوریتم با محاسبه فاصله بین نقاط داده، داده‌های پرت رو با میانگین مقادیر نزدیک‌ترین همسایگان جایگزین می‌کنه.

🔵الگوریتم‌های خوشه‌بندی (Clustering Algorithms): الگوریتم‌هایی مثل K-Means و DBSCAN داده‌ها رو به گروه‌هایی تقسیم می‌کنن و نقاطی که به هیچ گروهی تعلق ندارن، به عنوان داده‌های پرت شناسایی می‌شن.

🔵 روش‌های مبتنی بر یادگیری عمیق

🔵شبکه‌های عصبی: به طور خاص، شبکه‌های عصبی خودرمزگذار (Autoencoder) برای یادگیری الگوی داده‌ها و شناسایی انحرافات استفاده می‌شن. داده‌هایی که با الگوهای یادگرفته شده مطابقت ندارن به عنوان داده‌های پرت شناسایی می‌شن.

🔵شبکه‌های مولد تخاصمی (GAN‌s): در GAN‌ها، یک شبکه مولد داده‌های جدید تولید می‌کنه و یک شبکه تمایزدهنده سعی می‌کنه بین داده‌های واقعی و داده‌های تولید شده تمایز قائل شه. داده‌هایی که توسط شبکه تمایزدهنده به عنوان نادرست شناسایی می‌شن می‌تونن به عنوان داده‌های پرت شناخته شن.

🔵 چالش‌ها و راهکارها

🔵چالش‌های داده‌های چندبعدی: در داده‌های چندبعدی (High-dimensional Data)، شناسایی داده‌های پرت سخته چون داده‌ها در فضای ویژگی‌های بیشتری پخش می‌شن و داده‌های پرت در تمامی ابعاد مشهود نیستن.

برای مدیریت این چالش، میشه از روش‌های کاهش ابعاد مثل تحلیل مؤلفه‌های اصلی (PCA) استفاده کرد تا داده‌ها به فضای کوچکتری نگاشت شن و داده‌های پرت بهتر شناسایی شن.

🔵چالش‌های داده‌های سری زمانی: در داده‌های سری زمانی، داده‌های پرت ممکنه به دلیل تغییرات ناگهانی در زمان باشن. برای مدیریت داده‌های پرت در سری زمانی، از مدل‌های پیش‌بینی سری زمانی مثل مدل‌های ARIMA و مدل‌های پیش‌بینی عصبی استفاده میشه تا نقاط ناهنجاری شناسایی شن.

#Data_Analysis
#Data_Preprocessing

@Data_ML | دیتاساینس و ماشین‌ لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
👍53👌2
کوییز شماره ۱۵۹: کدوم یک از روش‌های زیر، با استفاده از تبدیل‌های ریاضی نقاط پرت رو کاهش می‌ده؟
Anonymous Quiz
33%
Logarithmic Transformation
14%
Direct Removal
29%
Min-Max Transformation
24%
Regression Method
😎5👍21🤔1