#EDA
#Missing_Value
▫️بر اساس نظرسنجی The State of Data Science 2020، مدیریت داده، تحلیل اکتشافی داده ها (EDA)، انتخاب ویژگی و مهندسی ویژگی بیش از 66٪ از زمان یک تحلیلگر داده را به خود اختصاص می دهد.
▫️قبلا در این پست در خصوص EDA و چگونگی آن توضیحاتی داده بودیم و کتابخانه ای برای آن معرفی کرده بودیم. یکی از دیگر از مهم ترین مراحل در بررسی داده نحوه برخورد با دیتای Missing است.
▫️شناسایی و مدیریت missing values یکی از چالشهای اساسی در تحلیل دادههاست، به خصوص در حوزههایی مانند مالی که دقت و صحت اطلاعات از اهمیت بالایی برخوردار است. اگر این مقادیر بهطور صحیح مدیریت نشوند، ممکن است تحلیلها و نتایج حاصله تحت تأثیر قرار گیرند و تصمیمگیریهای نادرست اتخاذ شود.
▫️در دادههای مالی، missing values میتوانند ناشی از موارد مختلفی باشند. این شامل اشتباهات در گزارشدهی مالی، نقصهای سیستمی، یا حتی نواقص در جمعآوری و ثبت دادهها توسط شرکتها میشود. اطلاعاتی مانند درآمد، سود، بدهیها و سایر مؤلفههای مالی شرکتها اطلاعات حیاتی برای سرمایهگذاران و تحلیلگران هستند.
@FinPy
#Missing_Value
▫️بر اساس نظرسنجی The State of Data Science 2020، مدیریت داده، تحلیل اکتشافی داده ها (EDA)، انتخاب ویژگی و مهندسی ویژگی بیش از 66٪ از زمان یک تحلیلگر داده را به خود اختصاص می دهد.
▫️قبلا در این پست در خصوص EDA و چگونگی آن توضیحاتی داده بودیم و کتابخانه ای برای آن معرفی کرده بودیم. یکی از دیگر از مهم ترین مراحل در بررسی داده نحوه برخورد با دیتای Missing است.
▫️شناسایی و مدیریت missing values یکی از چالشهای اساسی در تحلیل دادههاست، به خصوص در حوزههایی مانند مالی که دقت و صحت اطلاعات از اهمیت بالایی برخوردار است. اگر این مقادیر بهطور صحیح مدیریت نشوند، ممکن است تحلیلها و نتایج حاصله تحت تأثیر قرار گیرند و تصمیمگیریهای نادرست اتخاذ شود.
▫️در دادههای مالی، missing values میتوانند ناشی از موارد مختلفی باشند. این شامل اشتباهات در گزارشدهی مالی، نقصهای سیستمی، یا حتی نواقص در جمعآوری و ثبت دادهها توسط شرکتها میشود. اطلاعاتی مانند درآمد، سود، بدهیها و سایر مؤلفههای مالی شرکتها اطلاعات حیاتی برای سرمایهگذاران و تحلیلگران هستند.
@FinPy
👍13
#Missing_Value
انواع_داده_Missing
داده از دست رفته تصادفی (MAR - Missing at Random):
▫️فرض کنید در حال تجزیه و تحلیل دادههای مربوط به بازده سهام شرکتهای مختلف هستید. برخی از شرکتها ممکن است دادههای مربوط به سالهای خاص را گزارش ندهند. اگر این موضوع به طور تصادفی و مستقل از عملکرد مالی شرکتها باشد، میتوان گفت که دادههای گمشده MAR هستند.
دادههای گمشده به صورت کاملاً تصادفی (MCAR - Missing Completely at Random):
▫️در این حالت، احتمال از دست رفتن دادهها کاملاً مستقل از ویژگیهای دیگر است. مثلاً، اگر اطلاعات مالی یک شرکت به صورت کاملاً تصادفی از دست برود، این میتواند به دلیل عوامل مانند خطای سیستم یا اشتباهات انسانی در وارد کردن دادهها باشد.
دادههای گم شده غیر تصادفی (MNAR - Missing Not at Random):
▫️این حالت نشان میدهد که احتمال از دست رفتن دادهها به ویژگیهای دیگر وابسته است. برای مثال، اگر شرکتهایی با درآمد بالاتر، اطلاعات مالی خود را بیشتر اعلام کنند و در عین حال، احتمال از دست رفتن اطلاعات آنها کمتر باشد، این به دلیل وابستگی میان مقادیر دادههای گمشده و ویژگیهای دیگر است.
@FinPy
انواع_داده_Missing
داده از دست رفته تصادفی (MAR - Missing at Random):
▫️فرض کنید در حال تجزیه و تحلیل دادههای مربوط به بازده سهام شرکتهای مختلف هستید. برخی از شرکتها ممکن است دادههای مربوط به سالهای خاص را گزارش ندهند. اگر این موضوع به طور تصادفی و مستقل از عملکرد مالی شرکتها باشد، میتوان گفت که دادههای گمشده MAR هستند.
دادههای گمشده به صورت کاملاً تصادفی (MCAR - Missing Completely at Random):
▫️در این حالت، احتمال از دست رفتن دادهها کاملاً مستقل از ویژگیهای دیگر است. مثلاً، اگر اطلاعات مالی یک شرکت به صورت کاملاً تصادفی از دست برود، این میتواند به دلیل عوامل مانند خطای سیستم یا اشتباهات انسانی در وارد کردن دادهها باشد.
دادههای گم شده غیر تصادفی (MNAR - Missing Not at Random):
▫️این حالت نشان میدهد که احتمال از دست رفتن دادهها به ویژگیهای دیگر وابسته است. برای مثال، اگر شرکتهایی با درآمد بالاتر، اطلاعات مالی خود را بیشتر اعلام کنند و در عین حال، احتمال از دست رفتن اطلاعات آنها کمتر باشد، این به دلیل وابستگی میان مقادیر دادههای گمشده و ویژگیهای دیگر است.
@FinPy
👍22
#Missing_Value
▫️چندین روش برای برخورد با مقادیر missing وجود دارد که در ادامه به توضیح برخی از آنها میپردازیم:
⭕️ حذف مشاهدات یا متغیرها با مقدارهای خالی با محاسبات و تحلیلهای آماری
این روش معمولاً در صورتی کاربرد دارد که تعداد مقادیر گمشده کم است و حذف آنها برای تحلیل اطلاعات موجود تأثیر زیادی ندارد.
⭕️ جایگزنی دادههای خالی با مقدار جایگزین
📊 داده های غیر سری زمانی:
پر کردن دادههای خالی با مقدار ثابت: در این روش، مقادیر گمشده با یک مقدار ثابت مانند میانگین، مد، یا حتی یک مقدار دستهای پر میشوند
📊 داده های سری زمانی:
۱. ffill:
در این روش، مقادیر خالی با مقادیر غیرخالی قبلی در سری زمانی پر میشوند
۲. bfill
در این روش، مقادیر خالی با مقادیر غیرخالی بعدی در سری زمانی پر میشوند
۳. Interpolation :
در این روش، مقادیر خالی با استفاده از مقادیر غیرخالی قبلی و بعدی تخمین زده میشوند. این روش برای پر کردن مقادیر در میان دو نقطه موجود در سریزمانی استفاده میشود
۴.استفاده از روش های یادگیری ماشین و...
این راهکارها متنوع هستند و بسته به موقعیت و نوع دادهها، ممکن است یکی از آنها مناسبتر باشد
@FinPy
▫️چندین روش برای برخورد با مقادیر missing وجود دارد که در ادامه به توضیح برخی از آنها میپردازیم:
⭕️ حذف مشاهدات یا متغیرها با مقدارهای خالی با محاسبات و تحلیلهای آماری
این روش معمولاً در صورتی کاربرد دارد که تعداد مقادیر گمشده کم است و حذف آنها برای تحلیل اطلاعات موجود تأثیر زیادی ندارد.
⭕️ جایگزنی دادههای خالی با مقدار جایگزین
📊 داده های غیر سری زمانی:
پر کردن دادههای خالی با مقدار ثابت: در این روش، مقادیر گمشده با یک مقدار ثابت مانند میانگین، مد، یا حتی یک مقدار دستهای پر میشوند
📊 داده های سری زمانی:
۱. ffill:
در این روش، مقادیر خالی با مقادیر غیرخالی قبلی در سری زمانی پر میشوند
۲. bfill
در این روش، مقادیر خالی با مقادیر غیرخالی بعدی در سری زمانی پر میشوند
۳. Interpolation :
در این روش، مقادیر خالی با استفاده از مقادیر غیرخالی قبلی و بعدی تخمین زده میشوند. این روش برای پر کردن مقادیر در میان دو نقطه موجود در سریزمانی استفاده میشود
۴.استفاده از روش های یادگیری ماشین و...
این راهکارها متنوع هستند و بسته به موقعیت و نوع دادهها، ممکن است یکی از آنها مناسبتر باشد
@FinPy
👍17