کارگروه علم داده
428 subscribers
458 photos
14 videos
119 files
431 links
ارتباط با ادمین:
@Smn_statistics
Download Telegram
🔶مدل های رگرسیونی معروف، کاربرد و تابع زیان آنها

منبع

🆔@dsfum
👍2
👨🏻‍💻 کتاب مقدمه‌ای بر یادگیری آماری، حتی با گذشت 10 سال هنوز هم کتاب شماره یک! برای یادگیری آمار در علوم داده هست! من این کتاب رو سال گذشته خوندم و از خوندنش لذت بردم. این کتاب به زبان ساده نوشته شده تا حتی برای افرادی که با مفاهیم آماری آشنایی کمی دارن، قابل فهم باشه.

به تازگی متوجه شدم نسخه جدید و رایگان این کتاب به جای استفاده از زبان R، از زبان محبوب پایتون استفاده می‌کنه که به دلیل سادگی و تطبیق پذیری پایتون اون رو برای مخاطبان بیشتری کاربردی می‌کنه.

حالا در دسترس بودن این کتاب به هر دو زبان R و Python، (دو زبان برنامه نویسی پیشرو در علم داده) باعث میشه که علاقه مندان علوم داده، مفاهیم رو به شیوه‌ای عملی و صرف نظر از ترجیح زبان برنامه نویسی یاد بگیرند.

✍️ همچنین هر فصل دارای مثال‌ها و کاربردهای عملی زبان R و پایتون در پروژه‌های علوم داده هست تا نه تنها مباحث تئوری رو درک کنین بلکه کاربرد مفاهیم رو در عمل هم تجربه کنین.👇🏼


An Introduction to Statistical Learning
📄 ISL with R (PDF)
📄 ISL with Python (PDF)


🌐 #علم_داده #DataScience

📊 دانشمند داده شوید :
📊 @DataScience_ir
Please open Telegram to view this post
VIEW IN TELEGRAM
🔶فرایند تحلیل داده:

1⃣ طرح مسئله
2⃣ جمع آوری داده ها
3⃣ بررسی داده ها
4⃣ پاک سازی و آماده سازی داده ها
5⃣ مدلسازی
6⃣ ارزیابی مدل
7⃣ گزارش دهی

🆔@dsfum
🔶 نسبت زمانی که در پروژه های علم داده برای کارهای مختلف صرف می شود

۲۲ درصد آماده سازی داده ها
۱۶ درصد پاکسازی داده ها
۱۶ درصد گزارش دهی و ارائه
۱۳ درصد مصورسازی
۹ درصد انتخاب مدل
۹ درصد مدلسازی
۹ درصد عملیاتی کردن مدل ها
۷ درصد سایر

🆔@dsfum
برنامه روز جهانی سواد آماری
لینک برای شرکت بصورت آنلاین
https://shorturl.at/abdnt
یوتیوب سرفصل Statistical Literacy
https://www.youtube.com/channel/UCTOuxIhJxcxNOntTpamJeAA
Logit, Probit, and Multinomial Logit.pdf
853.1 KB
🔶آموزش رگرسیون های لجستیک، چندسطحی و ترتیبی در R

منبع
🆔@dsfum
🔶مزایا استفاده از تحلیل داده ها در زنجیره تامین :

1⃣پیش بینی نیاز بازار
2⃣بهینه سازی مدیریت انبارها
3⃣مدیریت ارتباط تامین کنندگان
4⃣بهبود تجربه مشتری
5⃣امنیت اطلاعات

🆔@dsfum
👍2
Ordinal Regression (1).pdf
233.7 KB
🔶رگرسیون ترتیبی

منبع

🆔@dsfum
Data Analyst Job Market 2024.pdf
2.6 MB
🔶وضعیت بازار کار تحلیل داده در سال ۲۰۲۴
👨‍💻مهارت های مورد استفاده توسط متخصصین
💵میزان درآمد

منبع: 365data science

🆔@dsfum
👍1
🔶مثال هایی از کاربردهای الگوریتم های یادگیری ماشین

🆔@dsfum
Git Cheat sheet.pdf
1.4 MB
🔶فایل راهنمای گیت هاب

نرم افزار و سایت github ابزاری مدیریت نسخه های مختلفی هست که برای کد خود ایجاد می کنید.

فرض کنید حین برنامه نویسی قصد دارید روش های مختلفی برای حل یک مسئله را امتحان کنید. می خواهید هر کدام در یک فایل جدا قرار داشته باشد. ابزار گیت هاب به شما کمک خواهد کرد.

یا تصور کنید در یک تیم روی یک پروژه همکاری می کنید. می توانید بخش های مختلف پروژه را بین اعضای تیم تقسیم کنید و هر کدام روی بخش خود کار کنید، یا کدهای سایر اعضای تیم را بررسی کنید و با آنها مشورت کنید.

یادگیری گیت هاب می تواند مسیر برنامه نویسی را برای شما و تیم‌تان ساده کند.

🆔@dsfum
🔶در مدل سازی گاها پیش می آید که توزیع داده ها به صورت متوازن نیست و داده ها در برخی نقاط دچار تمرکز هستن.

مثلا فرض کنید هدف شما انجام رگرسیون است. ولی شکل توزیع داده ها طوری است که به صورت دو گروه جدا از هم نیز دیده می شود.

اینجا برای اینکه پیش بینی دقیق تری داشته باشیم، می توانیم از روش های یادگیری گروهی(ensemble learning) استفاده کنیم.

در یادگیری گروهی، ترکیبی از چند الگوریتم به عنوان مدل در پیش بینی استفاده می شود.

مثلا در مثالی که در تصویر می بینید، داده ها در نقطه صفر دچار تورم است. این موضوع باعث شده که مدل رگرسیونی یادگیری ضعیفی داشته باشد.
در حالی که مدل ensemble که از ترکیب درخت تصمیم و مدل رگرسیونی ساخته شده یادگیری نسبتا دقیقی داشته است.
مثال ذکر شده ترکیب یک الگوریتم رگرسیونی و یک الگوریتم طبقه بندی است.

🆔@dsfum
👍1
Assumptions of linear regression.pdf
2.6 MB
🔶فرض های زیر بنایی رگرسیون خطی

منبع: maven analytics
🆔@dsfum
🔶مهارت های فنی و نرم مورد نیاز در تحلیل داده

🆔@dsfum
🔶مقایسه SQL و NoSQL

🆔@dsfum
👍2
🔶اهمیت مصورسازی

داده های خام، داده هایی پیچیده و نامفهوم برای مخاطب است.

برای اینکه بتوان از داده ها در تصمیم گیری استفاده کرد، لازم است که ابتدا پاک سازی شده و سپس به شکلی که در ذهن مخاطب قابل درک تر باشد گزارش داد.

مصورسازی، ابزاری است که کار انتقال نتایج به دست آمده از تحلیل ها یا گزارشی از اطلاعات موجود در داده ها به شکل قابل تفسیر و فهم منتقل می کند.

🆔@dsfum
👍2
Basic Data Cleaning.pdf
2.1 MB
🔶راهنمای پاکسازی داده ها

🆔@dsfum
👍2
🔶نقشه راه یادگیری ماشین با پایتون

منبع: quera

🆔@dsfum
👍1
K - Nearest Neigbor and it’s Hyperparameter.pdf
530.9 KB
🔶آشنایی با الگوریتم knn

منبع:analytics vidhya

🆔@dsfum
👍2
A Guide to Random Forest.pdf
369.5 KB
🔶آشنایی با الگوریتم جنگل تصادفی

منبع: analytics vidhya

🆔@dsfum
معرفی بهترین منابع برای یافتن دیتاست
برای پروژه‌های علوم داده خود


0️⃣کگل:
◀️لینک:
kaggle


⚡️ دیتاست دانشگاه‌ها

1️⃣ ریپازیتوری UCI
◀️ لینک دیتاست:
UCL Datasets

2️⃣ دیتاورس Harvard
◀️ لینک دیتاورس:
Harvard Datavers


🛣 دیتاست شرکت‌های بزرگ

1️⃣ دیتاست AWS

◀️ لینک: Registry of Open Data on AWS

2️⃣ دیتاست تحقیقات مایکروسافت
◀️ لینک:
Microsoft Research Datasets

3️⃣ دیتاست جستجوی گوگل
◀️ لینک:
Google Dataset Search


🟢 پلتفرم‌های اُپن سورس

1️⃣ دیتاست پلتفرم Huggingface
◀️ لینک:
Huggingface Datasets

2️⃣ دیتاست پلتفرم OpenML
◀️ لینک:
OpenML Datasets

منبع:
@DataScience_ir

——————————————————————
🆔@dsfum