آموزش علم داده
832 subscribers
278 photos
19 videos
36 files
228 links
کانال رسمی «گروه علم داده، دکتر محمد فزونی»
برای کسب اطلاعات بیشتر به صفحات ذیل مراجعه نمائید.

📍کورس رایگان
https://www.m-fozouni.ir/data-science-free-course/
📍اینستاگرام
https://www.instagram.com/elmedade
📍یوتیوب
https://youtube.com/c/ElmeDade
Download Telegram
آموزش علم داده
Photo

🟢 در وهله‌ی اول باید گفت که هیچ لزومی در یادگیری داکر برای دیتاساینتیست‌ها نیست. اما ...

🟢 چون در فاز بکارگیری مدل در خیلی از موارد ما نیاز داریم که یک وب اپلیکیشن رو پیاده کنیم، اگر داکر بلد باشیم، از این بخش پروژه خط نخواهیم خورد. عمومن بچه‌های تیم تحلیل داده، مدل رو آماده می‌کنند ولی خیلی کم پیش میاد که خودشون هم اونرو پیاده کنند.

🟢 پس دونستن داکر یکجورایی تضمین می‌کنه که تا آخرین روزهای زندگی مدل، در کنارش باشیم.

🟢 البته داکر خیلی چیز باحالیه. میشه گفت تیم توسعه‌دهنده رو از وابستگی به یک سیستم عامل بی‌نیاز می‌کنه. اما چرا؟

🛑 فرض کنید یک اپی در سیستم عامل ویندوز نوشته شده. این اپ برای بررسی به تیم دیگری که با لینوکس یا مک کار می‌کنند، ارسال می‌شود. چون محیط‌ها و سیستم عامل‌ها یکی نیست، تیم دوم نمی‌توانند اپ رو اجرا کنند و تغییرات لازم رو بدهند.

🛑 در این مواقع داکر میاد وسط بازی، اپ رو بررسی می‌کنه. تمام وابستگی‌ها برای اجرا رو یادداشت می‌کنه و بنوعی یک طرز تهیه برای خودش می‌نویسه. به این کار اصطلاحن می‌گن داکرایز کردن. حالا اپی که داکرایز شده، دیگه مهم نیست که با چه سیستم عاملی بخواهیم اون رو اجرا کنیم. همه جا اجرا خواهد شد و این خاصیت داکر فوق‌العاده است.
@elmedadeir
آموزش علم داده
@elmedadeir

🟢 کار با داده‌های رسته‌ای (categorical) یکی از بخش‌های خیلی مهم در بخش یادگیری ماشینی کار با داده است. برای این مهم شش روش عمده‌ی فوق در اکثر موارد بکارگرفته می‌شوند

1⃣- One-hot/dummy encoding

2️⃣- Label / Ordinal encoding

3️⃣- Target encoding

4️⃣- Frequency / count encoding

5️⃣- Binary encoding

6️⃣- Feature Hashing

🛑 هر کدام از روش‌های فوق مزایا و معایبی دارند. اما...

عمومن از وان-هات انکودینگ برای کار با داده‌های رسته‌ای استفاده می‌کنند چون هم ساده هست و هم تفسیرپذیری راحتی دارد.
اما اگر تعداد ویژگی‌های دیتاست زیاد باشه از باینری انکودینگ استفاده می‌کنند چون ستون‌های کمتری رو تولید می‌کنه. همچنین از اوردینال انکودینگ وقتی استفاده می‌کنیم که بین مقادیر مختلف یک ستون یک مرتبه موجود باشه. مثلن در پیش‌بینی قیمت خانه اگر سه سطح کوچک، متوسط و بزرگ داشته باشیم، اینها با همین ترتیب تبدیل خواهند شد، چون ترتیب آنها در قیمت خانه مهم هست.

🛑 شما از کدوم روش تابحال استفاده کردید؟ به غیر از اینها موردی هست که باید اضافه بشه؟
Reference: https://towardsdatascience.com/6-ways-to-encode-features-for-machine-learning-algorithms-21593f6238b0

@elmedadeir
.
#categorical_data #one_hot_encoding #binary_encoding
🟢 از
F-SCORE
وقتی استفاده می‌کنیم که داده‌های ما ...
.
@elmedadeir
🛑 سوال: برای شروع کار با دیتا، پایتون کد بزنیم یا آر؟

🟢 پاسخ: جفت این زبان‌ها برای کار با داده، عالی هستند، هر چند من بشخصه پایتون رو ترجیح می‌دهم. اما برای محیط کار باید هر دو رو بلد باشیم. در برخی از موارد کدهایی رو تحویل می‌دهند که کارفرما خودش هم دقیق نمی‌دونه پایتون هست یا آر.

🟢 توصیه: کلیت کار رو یاد بگیرید. یکی از این دو زبان رو انتخاب کنید و تا حد متوسط پیش برید. بعد بروید سراغ دومی و با اون هم آشنا بشید، تا حدی که بتونید الگوریتم‌های مختلف رو داخلش آموزش بدهید. این بهترین گزینه هست.
.
#python
#R
.
@elmedadeir
👇👇👇
https://www.m-fozouni.ir/data-science-real-estate/
☝️☝️☝️
.
.
🛑 حتمن که نباید از دیتاساینس تو گوگل یا فیسبوک استفاده کنیم. تو هر حوزه‌ای به فراخور نیازهاشون و استفاده از ساده‌ترین الگوریتم‌ها می‌تونیم نتایج بسیار شگفت‌انگیزی رو ببینیم، منتها کمی وقت باید براش بزاریم
.

.
@elmedadeir
این دو کتاب برای یادگیری عمیق و اصولی ریاضی عالی هستند. متاسفانه در این دوران تمام ذهن ما روی کنکور، تست و جزوات معلمین بود. برای همین هم از بهترین منبع برای یادگیری غافل شدیم. این دو اثر، با ساده‌ترین بیان و کاربردی‌ترین متد، مفاهیم رو آموزش می‌دهند.

🟢 حسابان رو افرادی شروع کنند به مطالعه که خیلی فاصله‌ی تحصیلی دارند و ضعیف هستند در ریاضی

🟢 حساب دیفرانسیل و انتگرال رو افرادی دست بگیرند که یک مرحله نسبت به افراد دسته‌ی قبل جلوتر هستند (گپ تحصیلی ندارند و تا حدودی ریاضی رو می‌فهمند)

#ریاضی
#علمداده
#حسابان
#حساب_دیفرانسیل_و_انتگرال
.
@elmedadeir
🟢 تا جای ممکن، پسوند xlsx رو برای آنالیز داده نخونید و از csv استفاده کنید.
فایل‌های اکسل یونی‌کدهایی رو وارد محیط و الگوریتم می‌کنند که باعث بروز خطای محاسبات و مدل میشه در حالی که csv چنین خاصیتی رو نداره.

می‌تونیم قبل از فراخوانی، کتابخانه‌های یونی‌کد رو وارد کنیم، اما باز هم مواردی پیش میاد که در محاسبات دچار خطا خواهیم شد.
.
#اکسل
@elmedadeir
یکی از عزیزان سوال پرسیده بودند که برای بچه‌های آمار، دیتاساینس خوبه یا یادگیری ماشین؟

🟢 من گمان می‌کنم یادگیری ماشین برای این افراد بهتر باشه. چون آماری‌ها تو فاز تحلیل قوی هستند و در بخش پیاده‌سازی و کارهای عملی ضعف دارند که اگر بروند سمت مهندسی ML می‌تونند این نقص رو بخوبی جبران کنند و تبدیل بشوند به یک فرد بسیار کارا.
.
#آمار
#یادگیری_ماشین
.
@elmedadeir
با اختلاف، یکی از کتاب‌های فوق‌العاده برای یادگیری جبر خطی که مخصوص متخصصین داده باشد، این کتاب هست 👇👇👇. تمامی کدها در پایتون شرح داده شده است.

🟢 کتاب به هیچ وجه موارد اضافی را پوشش نمی‌دهد و تمام تمرکز و توجه‌اش به مفاهیمی از جبر خطی است که برای کار با دیتا مورد نیاز است.
#linear_algebra
#python
#ml
.
@elmedadeir
نمودارهای اساسی برای آنالیز داده

🟩🟩🟩IRAN🟥🟥🟥
.
@elmedadeir
🟩 بزودی ثبت‌نام دومین دوره‌ی علم داده آغاز می‌گردد. در این دوره تمامی مطالب مدرسه تابستانی علم داده موجود است، اما سرفصل‌های جدیدی از جمله موارد زیر به آموزش اضافه خواهد شد.

🟥 R + PowerBi + SQL + Mathematics for Data Science
.
🟩🟩🟩IRAN🟥🟥🟥
.
@elmedadeir