فینپای | FinPy
2.43K subscribers
498 photos
62 videos
13 files
259 links
گروه پرسش و پاسخ:
@FinPyGroup

حضور در گروه نیازمند کامل بودن نام، نام خانوادگی و آیدی تلگرامی شما قبل از ارسال درخواست عضویت است.
Download Telegram
#EDA
#Missing_Value

▫️بر اساس نظرسنجی The State of Data Science 2020، مدیریت داده، تحلیل اکتشافی داده ها (EDA)، انتخاب ویژگی و مهندسی ویژگی بیش از 66٪ از زمان یک تحلیلگر داده را به خود اختصاص می دهد.

▫️قبلا در این پست در خصوص EDA و چگونگی آن توضیحاتی داده بودیم و کتابخانه ای برای آن معرفی کرده بودیم. یکی از دیگر از مهم ترین مراحل در بررسی داده نحوه برخورد با دیتای Missing است.

▫️شناسایی و مدیریت missing values یکی از چالش‌های اساسی در تحلیل داده‌هاست، به خصوص در حوزه‌هایی مانند مالی که دقت و صحت اطلاعات از اهمیت بالایی برخوردار است. اگر این مقادیر به‌طور صحیح مدیریت نشوند، ممکن است تحلیل‌ها و نتایج حاصله تحت تأثیر قرار گیرند و تصمیم‌گیری‌های نادرست اتخاذ شود.

▫️در داده‌های مالی، missing values می‌توانند ناشی از موارد مختلفی باشند. این شامل اشتباهات در گزارش‌دهی مالی، نقص‌های سیستمی، یا حتی نواقص در جمع‌آوری و ثبت داده‌ها توسط شرکت‌ها می‌شود. اطلاعاتی مانند درآمد، سود، بدهی‌ها و سایر مؤلفه‌های مالی شرکت‌ها اطلاعات حیاتی برای سرمایه‌گذاران و تحلیل‌گران هستند.

@FinPy
👍13
#Missing_Value

انواع_داده_Missing


داده از دست رفته تصادفی (MAR - Missing at Random):
▫️فرض کنید در حال تجزیه و تحلیل داده‌های مربوط به بازده سهام شرکت‌های مختلف هستید. برخی از شرکت‌ها ممکن است داده‌های مربوط به سال‌های خاص را گزارش ندهند. اگر این موضوع به طور تصادفی و مستقل از عملکرد مالی شرکت‌ها باشد، می‌توان گفت که داده‌های گمشده MAR هستند.

داده‌های گم‌شده به صورت کاملاً تصادفی (MCAR - Missing Completely at Random):
▫️در این حالت، احتمال از دست رفتن داده‌ها کاملاً مستقل از ویژگی‌های دیگر است. مثلاً، اگر اطلاعات مالی یک شرکت به صورت کاملاً تصادفی از دست برود، این می‌تواند به دلیل عوامل مانند خطای سیستم یا اشتباهات انسانی در وارد کردن داده‌ها باشد.

داده‌های گم شده غیر تصادفی (MNAR -
Missing Not at Random):
▫️این حالت نشان می‌دهد که احتمال از دست رفتن داده‌ها به ویژگی‌های دیگر وابسته است. برای مثال، اگر شرکت‌هایی با درآمد بالاتر، اطلاعات مالی خود را بیشتر اعلام کنند و در عین حال، احتمال از دست رفتن اطلاعات آنها کمتر باشد، این به دلیل وابستگی میان مقادیر داده‌های گم‌شده و ویژگی‌های دیگر است.

@FinPy
👍22
#Missing_Value

▫️چندین روش برای برخورد با مقادیر missing وجود دارد که در ادامه به توضیح برخی از آن‌ها می‌پردازیم:
⭕️ حذف مشاهدات یا متغیرها با مقدارهای خالی با محاسبات و تحلیل‌های آماری
این روش معمولاً در صورتی کاربرد دارد که تعداد مقادیر گم‌شده کم است و حذف آنها برای تحلیل اطلاعات موجود تأثیر زیادی ندارد.

⭕️ جایگزنی داده‌های خالی با مقدار جایگزین
📊 داده های غیر سری زمانی:
پر کردن داده‌های خالی با مقدار ثابت: در این روش، مقادیر گم‌شده با یک مقدار ثابت مانند میانگین، مد، یا حتی یک مقدار دسته‌ای پر می‌شوند
📊 داده های سری زمانی:
۱. ffill:
در این روش، مقادیر خالی با مقادیر غیرخالی قبلی در سری زمانی پر می‌شوند

۲. bfill
در این روش، مقادیر خالی با مقادیر غیرخالی بعدی در سری زمانی پر می‌شوند

۳. Interpolation :
در این روش، مقادیر خالی با استفاده از مقادیر غیرخالی قبلی و بعدی تخمین زده می‌شوند. این روش برای پر کردن مقادیر در میان دو نقطه موجود در سری‌زمانی استفاده می‌شود

۴.استفاده از روش های یادگیری ماشین و...

این راهکارها متنوع هستند و بسته به موقعیت و نوع داده‌ها، ممکن است یکی از آنها مناسب‌تر باشد

@FinPy
👍17