تفاوت بین مهندس داده، تحلیلگر داده و دانشمند داده؟
در کنفرانس زنان میدان سیلیکون لندن، دکتر ربکا پوپ، نورو ساینتیست و سرپرست تیم دیتا ساینس KPMG، بیان میکند که شما جهت کار کردن در حوزه بیگ دیتا نیازی نیست که یک ریاضیدان یا آماردان فوق العاده و یا یک برنامه نویس باشید. فقط کافیست به آمار علاقه داشته باشید و همچنین تلاش کافی برای یادگیری کدنویسی داشته باشید و همچنین بتوانید برخی عملیاتهای ریاضی سطح بالا را انجام دهید.
پوپ خودش هیچگاه آمار خالص را مطالعه نکرده و همچنین برنامه نویسی را بعد از فارغ التحصیلی یاد گرفته! همچنین میگوید: من زبان R را یادگرفتم ولی اگر میخواهید شغلی در دیتا ساینس داشته باشید، باید در پایتون متخصص شوید. پایتون را زبان اول خود کنید.
یک آماردان مدلی ارائه میدهد که رابطه ای بین یک متغیر و یک خروجی میسازد. اما یک دیتا ساینتیست، کار بیشتری نسبت به آن انجام میدهد: پیشبینی! دیتاساینتیست ها مدلهایی روی دیتا اموزش میدهند که بتواند دیتاهای آینده را با حداکثر دقت پیشبینی کند.
#part1
#machinelearning #data #science #engineer #bigdata #science
@pythonicAI
در کنفرانس زنان میدان سیلیکون لندن، دکتر ربکا پوپ، نورو ساینتیست و سرپرست تیم دیتا ساینس KPMG، بیان میکند که شما جهت کار کردن در حوزه بیگ دیتا نیازی نیست که یک ریاضیدان یا آماردان فوق العاده و یا یک برنامه نویس باشید. فقط کافیست به آمار علاقه داشته باشید و همچنین تلاش کافی برای یادگیری کدنویسی داشته باشید و همچنین بتوانید برخی عملیاتهای ریاضی سطح بالا را انجام دهید.
پوپ خودش هیچگاه آمار خالص را مطالعه نکرده و همچنین برنامه نویسی را بعد از فارغ التحصیلی یاد گرفته! همچنین میگوید: من زبان R را یادگرفتم ولی اگر میخواهید شغلی در دیتا ساینس داشته باشید، باید در پایتون متخصص شوید. پایتون را زبان اول خود کنید.
یک آماردان مدلی ارائه میدهد که رابطه ای بین یک متغیر و یک خروجی میسازد. اما یک دیتا ساینتیست، کار بیشتری نسبت به آن انجام میدهد: پیشبینی! دیتاساینتیست ها مدلهایی روی دیتا اموزش میدهند که بتواند دیتاهای آینده را با حداکثر دقت پیشبینی کند.
#part1
#machinelearning #data #science #engineer #bigdata #science
@pythonicAI
کار مهندس داده
با توجه به نمودار بالا، میبینیم که بیشتر کار مهندس داده، مهندسی نرم افزار و آماده سازی داده است.
پوپ میگوید کار مهندس داده، ارائه و تغییر دیتا به گونه ای که قابل استفاده شود، میباشد. باید دیتای خام را بگیرد، تمیز کند، وارد دیتابیس کند، تگ بزند و انرا برای مراحل بعدی اماده کند.
مهارتهای لازم:
Apache Spark, Scala, Docker, Java, Hadoop, and Kubernetes NiFI
#part2
#machinelearning #data #science #engineer #bigdata #science
@pythonicAI
با توجه به نمودار بالا، میبینیم که بیشتر کار مهندس داده، مهندسی نرم افزار و آماده سازی داده است.
پوپ میگوید کار مهندس داده، ارائه و تغییر دیتا به گونه ای که قابل استفاده شود، میباشد. باید دیتای خام را بگیرد، تمیز کند، وارد دیتابیس کند، تگ بزند و انرا برای مراحل بعدی اماده کند.
مهارتهای لازم:
Apache Spark, Scala, Docker, Java, Hadoop, and Kubernetes NiFI
#part2
#machinelearning #data #science #engineer #bigdata #science
@pythonicAI
کار تحلیلگر داده
کار وی، مواجهه با کسب و کار است تا نیاز کسب و کار به دیتا را مشخص کند و همچنین visualization هایی آماده کند که به کسب و کار در درک دیتا کمک کند.
پوپ میگوید: کار تحلیلگر داده، تفسیر اطلاعات برای استفاده آن در کسب و کار است. این شغل کمتر با ماشین لرنینگ در ارتباط است.
مهارتهای لازم:
RapidMiner, PostgreSQL
#part3
#machinelearning #data #science #engineer #bigdata #science
@pythonicAI
کار وی، مواجهه با کسب و کار است تا نیاز کسب و کار به دیتا را مشخص کند و همچنین visualization هایی آماده کند که به کسب و کار در درک دیتا کمک کند.
پوپ میگوید: کار تحلیلگر داده، تفسیر اطلاعات برای استفاده آن در کسب و کار است. این شغل کمتر با ماشین لرنینگ در ارتباط است.
مهارتهای لازم:
RapidMiner, PostgreSQL
#part3
#machinelearning #data #science #engineer #bigdata #science
@pythonicAI
کار دیتاساینتیست
دیتاساینتیست ها به شدت با کسب و کار درگیر هستند و با مهندسان داده کار میکنند. آنها مدلهای یادگیری ماشین را روی داده های اماده شده اموزش میدهند.
پوپ میگوید: نقش دیتاساینتیست، ساختن مدلها برای استخراج اطلاعات از دیتا و ارائه توصیه هایی مرتبط با کسب و کار است. دیتاساینتیست ها باید آمار را بفهمند اما بیشتر الگوریتم های ماشین لرنینگ براساس ریاضیات چندمتغیره و جبرخطی و غیرخطی بنا شده. تنها در همین حد ریاضیات لازم است.
#part4
#machinelearning #data #science #engineer #bigdata #science
@pythonicAI
دیتاساینتیست ها به شدت با کسب و کار درگیر هستند و با مهندسان داده کار میکنند. آنها مدلهای یادگیری ماشین را روی داده های اماده شده اموزش میدهند.
پوپ میگوید: نقش دیتاساینتیست، ساختن مدلها برای استخراج اطلاعات از دیتا و ارائه توصیه هایی مرتبط با کسب و کار است. دیتاساینتیست ها باید آمار را بفهمند اما بیشتر الگوریتم های ماشین لرنینگ براساس ریاضیات چندمتغیره و جبرخطی و غیرخطی بنا شده. تنها در همین حد ریاضیات لازم است.
#part4
#machinelearning #data #science #engineer #bigdata #science
@pythonicAI
Pythonic AI
کار مهندس داده با توجه به نمودار بالا، میبینیم که بیشتر کار مهندس داده، مهندسی نرم افزار و آماده سازی داده است. پوپ میگوید کار مهندس داده، ارائه و تغییر دیتا به گونه ای که قابل استفاده شود، میباشد. باید دیتای خام را بگیرد، تمیز کند، وارد دیتابیس کند، تگ…
مهندسین داده، درواقع زیر ساخت های اطلاعاتی ای را میسازند که پروژه های دیتاساینس به آنها وابسته است. این افراد مسئول طراحی و مدیریت جریان داده هایی هستند که از منابع مختلف جمع آوری شده و در یک مخزن، مانند data warehouse یکپارچه میشوند تا بعدا توسط دیتاساینتیست ها تحلیل شوند. بطور کلی، مهندسین داده براساس مدل ETL کار میکنند.
ETL: Extract, Transform, Load
نقش های مختلف مهندسی داده:
- آرشیتکت داده
پایه و اساس سیستم های مدیریت داده جهت وارد کردن، یکپارچه سازی و نگهداری منابع داده را فراهم میکند.
- ادمین دیتابیس
همانطور که از اسمش پیداست باید اطلاعات عمیقی از دیتابیس ها داشته باشد.
- مهندس داده
باید اطلاعاتی از دیتابیس ها، زبانهایی مانند پایتون و جاوا و سیستم های توزیع شده (مانند هدوپ) و... داشته باشد. درواثع ترکیبی از تمام نقش ها در یک نقش است.
ابزارهای موردنیاز مهندس داده:
Apache Hadoop
فریم ورکی جهت مرتب سازی و پردازش حجم زیادی از اطلاعات بصورت توزیع شده
Apache Spark
پلتفرم پردازش داده جهت پردازش جریان real-time و همچنین پردازش بصورت batch. این پلتفرم api هایی برای زبانهای پایتون، R، جاوا و اسکالا دارد.
Apache Kafka
ابزاری قدرتمند جهت جمع آوری و وارد کردن سریع جریان داده ها به سیستمی مانند هدوپ
SQL & NoSQL
دیتابیس های رابطه ای و غیر رابطه ای
زبانهای برنامه نویسی موردنیاز مهندس داده:
پایتون، جاوا، اسکالا scala، جولیا julia
#data #engineer #machinelearning #hadoop #kafka #scala #python #julia
@pythonicAI
ETL: Extract, Transform, Load
نقش های مختلف مهندسی داده:
- آرشیتکت داده
پایه و اساس سیستم های مدیریت داده جهت وارد کردن، یکپارچه سازی و نگهداری منابع داده را فراهم میکند.
- ادمین دیتابیس
همانطور که از اسمش پیداست باید اطلاعات عمیقی از دیتابیس ها داشته باشد.
- مهندس داده
باید اطلاعاتی از دیتابیس ها، زبانهایی مانند پایتون و جاوا و سیستم های توزیع شده (مانند هدوپ) و... داشته باشد. درواثع ترکیبی از تمام نقش ها در یک نقش است.
ابزارهای موردنیاز مهندس داده:
Apache Hadoop
فریم ورکی جهت مرتب سازی و پردازش حجم زیادی از اطلاعات بصورت توزیع شده
Apache Spark
پلتفرم پردازش داده جهت پردازش جریان real-time و همچنین پردازش بصورت batch. این پلتفرم api هایی برای زبانهای پایتون، R، جاوا و اسکالا دارد.
Apache Kafka
ابزاری قدرتمند جهت جمع آوری و وارد کردن سریع جریان داده ها به سیستمی مانند هدوپ
SQL & NoSQL
دیتابیس های رابطه ای و غیر رابطه ای
زبانهای برنامه نویسی موردنیاز مهندس داده:
پایتون، جاوا، اسکالا scala، جولیا julia
#data #engineer #machinelearning #hadoop #kafka #scala #python #julia
@pythonicAI
Pythonic AI
مهندسین داده، درواقع زیر ساخت های اطلاعاتی ای را میسازند که پروژه های دیتاساینس به آنها وابسته است. این افراد مسئول طراحی و مدیریت جریان داده هایی هستند که از منابع مختلف جمع آوری شده و در یک مخزن، مانند data warehouse یکپارچه میشوند تا بعدا توسط دیتاساینتیست…
برخی منابع مفید یادگیری مهندسی داده:
📙 مهندسی داده:
لینک۱
لینک۲
لینک۳
📕 پایتون
لینک۱
لینک۲
لینک۳
📗 سیستم عامل
لینک۱
لینک۲
📘 دیتابیس
لینک۱
لینک۲
لینک۳
لینک۴
لینک۵
لینک۶
لینک۷
لینک۸
لینک۹
لینک۱۰
📙 data warehouse / big data
لینک۱
لینک۲
لینک۳
لینک۴
لینک۵
لینک۶
لینک۷
لینک۸
لینک۹
لینک۱۰
لینک۱۱
لینک۱۲
📕 یادگیری ماشین
لینک۱
لینک۲
لینک۳
#hadoop #spark #python #machinelearning #data #engineer #resource
@pythonicAI
📙 مهندسی داده:
لینک۱
لینک۲
لینک۳
📕 پایتون
لینک۱
لینک۲
لینک۳
📗 سیستم عامل
لینک۱
لینک۲
📘 دیتابیس
لینک۱
لینک۲
لینک۳
لینک۴
لینک۵
لینک۶
لینک۷
لینک۸
لینک۹
لینک۱۰
📙 data warehouse / big data
لینک۱
لینک۲
لینک۳
لینک۴
لینک۵
لینک۶
لینک۷
لینک۸
لینک۹
لینک۱۰
لینک۱۱
لینک۱۲
📕 یادگیری ماشین
لینک۱
لینک۲
لینک۳
#hadoop #spark #python #machinelearning #data #engineer #resource
@pythonicAI
Medium
A Beginner’s Guide to Data Engineering — Part I
Data Engineering: The Close Cousin of Data Science