انتخاب داده، نمونه گیری و بازنمونه گیری در یادگیری ماشین
انتخاب داده ها، نمونه گیری (Sampling) و بازنمونه گیری (Resampling) داده ها از مباحث بسیار ضروری در یاگیری ماشین است. در این ویدئو مثل همیشه با نگاهی کاربردی (و نه آماری تخصصی) به موارد زیر خواهیم پرداخت:
🖊شیوه صحیح انتخاب داده های Train و Test
🖊شیوه نمونه گیری (Sampling)
🖊روش های نمونه گیری مجدد (Resampling)
🖊جایگشت (Permutation)
🖊اعتبار سنجی متقابل Cross-validation (CV)
🖊جک نایف (Jackknife)
🖊بوت استرپ (Bootstrap)
➖ برای مشاهده ویدئو اینجا کیک کنید
#پایتون_مالی
#انتخاب_داده
#نمونه_گیری
#یادگیری_ماشین
#ویدئو
#Algorithmic_Trading
#Sampling
#Reampling
#Machine_Learning
پایتون برای مالی در تلگرام
🆔 t.me/python4finance
🆔 ble.ir/python4finance
انتخاب داده ها، نمونه گیری (Sampling) و بازنمونه گیری (Resampling) داده ها از مباحث بسیار ضروری در یاگیری ماشین است. در این ویدئو مثل همیشه با نگاهی کاربردی (و نه آماری تخصصی) به موارد زیر خواهیم پرداخت:
🖊شیوه صحیح انتخاب داده های Train و Test
🖊شیوه نمونه گیری (Sampling)
🖊روش های نمونه گیری مجدد (Resampling)
🖊جایگشت (Permutation)
🖊اعتبار سنجی متقابل Cross-validation (CV)
🖊جک نایف (Jackknife)
🖊بوت استرپ (Bootstrap)
➖ برای مشاهده ویدئو اینجا کیک کنید
#پایتون_مالی
#انتخاب_داده
#نمونه_گیری
#یادگیری_ماشین
#ویدئو
#Algorithmic_Trading
#Sampling
#Reampling
#Machine_Learning
پایتون برای مالی در تلگرام
🆔 t.me/python4finance
🆔 ble.ir/python4finance
❤21
نمونه گیری در داده های سری زمانی
عموما در بازارهای مالی با داده های سری زمانی سر و کار داریم. قبلا در این پست (لینک) در خصوص انتخاب داده، نمونه گیری و بازنمونه گیری در یادگیری ماشین صحبت شد. در نمونه گیری های متقاطع رایج، نمونه ها به صورت تصادفی از هر بخش جامعه انتخاب می شدند. اما در داده های سری های زمانی، روشهای اعتبارسنجی متقاطع (cross-validation) مناسب نیستند، چرا که منجر به آموزش روی دادههای آینده و ارزیابی روی دادههای گذشته میشوند. برای اطمینان از قابلمقایسهبودن معیارها در بین بخشها (folds)، نمونهها باید با فواصل زمانی مساوی انتخاب شوند. وقتی این شرط برقرار باشد، هر مجموعه آزمون بازهی زمانی یکسانی را پوشش میدهد و اندازه مجموعه آموزش با انباشت دادهها از تقسیمات قبلی افزایش مییابد.
این نوع اعتبارسنجی متقاطع، نوعی تغییر یافته از KFold است. در تقسیم kام، k بخش اول را بهعنوان مجموعه آموزش و بخش (k+1)ام را بهعنوان مجموعه آزمون برمیگرداند.
#پایتون_مالی
#انتخاب_داده
#نمونه_گیری
#سری_زمانی
#Time_series
#Sampling
پایتون برای مالی
🆔 t.me/python4finance
🆔 ble.ir/python4finance
عموما در بازارهای مالی با داده های سری زمانی سر و کار داریم. قبلا در این پست (لینک) در خصوص انتخاب داده، نمونه گیری و بازنمونه گیری در یادگیری ماشین صحبت شد. در نمونه گیری های متقاطع رایج، نمونه ها به صورت تصادفی از هر بخش جامعه انتخاب می شدند. اما در داده های سری های زمانی، روشهای اعتبارسنجی متقاطع (cross-validation) مناسب نیستند، چرا که منجر به آموزش روی دادههای آینده و ارزیابی روی دادههای گذشته میشوند. برای اطمینان از قابلمقایسهبودن معیارها در بین بخشها (folds)، نمونهها باید با فواصل زمانی مساوی انتخاب شوند. وقتی این شرط برقرار باشد، هر مجموعه آزمون بازهی زمانی یکسانی را پوشش میدهد و اندازه مجموعه آموزش با انباشت دادهها از تقسیمات قبلی افزایش مییابد.
این نوع اعتبارسنجی متقاطع، نوعی تغییر یافته از KFold است. در تقسیم kام، k بخش اول را بهعنوان مجموعه آموزش و بخش (k+1)ام را بهعنوان مجموعه آزمون برمیگرداند.
#پایتون_مالی
#انتخاب_داده
#نمونه_گیری
#سری_زمانی
#Time_series
#Sampling
پایتون برای مالی
🆔 t.me/python4finance
🆔 ble.ir/python4finance
❤22
نمونهگیری در داده های سری زمانی- بخش دوم
برای نمونه گیری از سری های زمانی در ماژول scikit-learn از تابع TimeSeriesSplit در کلاس model_selection استفاده می کنیم.
در مثال این پست، نمونه های مختلفی از جامعه برای آموزش و آزمون انتخاب می شود.
#پایتون_مالی
#انتخاب_داده
#نمونه_گیری
#سری_زمانی
#Time_series
#Sampling
پایتون برای مالی
🆔 t.me/python4finance
🆔 ble.ir/python4finance
برای نمونه گیری از سری های زمانی در ماژول scikit-learn از تابع TimeSeriesSplit در کلاس model_selection استفاده می کنیم.
در مثال این پست، نمونه های مختلفی از جامعه برای آموزش و آزمون انتخاب می شود.
#code by @python4finance
import numpy as np
from sklearn.model_selection import TimeSeriesSplit
X = np.array([[1, 2], [3, 4], [1, 2], [3, 4], [1, 2], [3, 4]])
y = np.array([1, 2, 3, 4, 5, 6])
tscv = TimeSeriesSplit()
for i, (train_index, test_index) in enumerate(tscv.split(X)):
print(f"Fold {i}:")
print(f" Train: index={train_index}")
print(f" Test: index={test_index}")
#پایتون_مالی
#انتخاب_داده
#نمونه_گیری
#سری_زمانی
#Time_series
#Sampling
پایتون برای مالی
🆔 t.me/python4finance
🆔 ble.ir/python4finance
❤15