Pythonic AI
کار مهندس داده با توجه به نمودار بالا، میبینیم که بیشتر کار مهندس داده، مهندسی نرم افزار و آماده سازی داده است. پوپ میگوید کار مهندس داده، ارائه و تغییر دیتا به گونه ای که قابل استفاده شود، میباشد. باید دیتای خام را بگیرد، تمیز کند، وارد دیتابیس کند، تگ…
مهندسین داده، درواقع زیر ساخت های اطلاعاتی ای را میسازند که پروژه های دیتاساینس به آنها وابسته است. این افراد مسئول طراحی و مدیریت جریان داده هایی هستند که از منابع مختلف جمع آوری شده و در یک مخزن، مانند data warehouse یکپارچه میشوند تا بعدا توسط دیتاساینتیست ها تحلیل شوند. بطور کلی، مهندسین داده براساس مدل ETL کار میکنند.
ETL: Extract, Transform, Load
نقش های مختلف مهندسی داده:
- آرشیتکت داده
پایه و اساس سیستم های مدیریت داده جهت وارد کردن، یکپارچه سازی و نگهداری منابع داده را فراهم میکند.
- ادمین دیتابیس
همانطور که از اسمش پیداست باید اطلاعات عمیقی از دیتابیس ها داشته باشد.
- مهندس داده
باید اطلاعاتی از دیتابیس ها، زبانهایی مانند پایتون و جاوا و سیستم های توزیع شده (مانند هدوپ) و... داشته باشد. درواثع ترکیبی از تمام نقش ها در یک نقش است.
ابزارهای موردنیاز مهندس داده:
Apache Hadoop
فریم ورکی جهت مرتب سازی و پردازش حجم زیادی از اطلاعات بصورت توزیع شده
Apache Spark
پلتفرم پردازش داده جهت پردازش جریان real-time و همچنین پردازش بصورت batch. این پلتفرم api هایی برای زبانهای پایتون، R، جاوا و اسکالا دارد.
Apache Kafka
ابزاری قدرتمند جهت جمع آوری و وارد کردن سریع جریان داده ها به سیستمی مانند هدوپ
SQL & NoSQL
دیتابیس های رابطه ای و غیر رابطه ای
زبانهای برنامه نویسی موردنیاز مهندس داده:
پایتون، جاوا، اسکالا scala، جولیا julia
#data #engineer #machinelearning #hadoop #kafka #scala #python #julia
@pythonicAI
ETL: Extract, Transform, Load
نقش های مختلف مهندسی داده:
- آرشیتکت داده
پایه و اساس سیستم های مدیریت داده جهت وارد کردن، یکپارچه سازی و نگهداری منابع داده را فراهم میکند.
- ادمین دیتابیس
همانطور که از اسمش پیداست باید اطلاعات عمیقی از دیتابیس ها داشته باشد.
- مهندس داده
باید اطلاعاتی از دیتابیس ها، زبانهایی مانند پایتون و جاوا و سیستم های توزیع شده (مانند هدوپ) و... داشته باشد. درواثع ترکیبی از تمام نقش ها در یک نقش است.
ابزارهای موردنیاز مهندس داده:
Apache Hadoop
فریم ورکی جهت مرتب سازی و پردازش حجم زیادی از اطلاعات بصورت توزیع شده
Apache Spark
پلتفرم پردازش داده جهت پردازش جریان real-time و همچنین پردازش بصورت batch. این پلتفرم api هایی برای زبانهای پایتون، R، جاوا و اسکالا دارد.
Apache Kafka
ابزاری قدرتمند جهت جمع آوری و وارد کردن سریع جریان داده ها به سیستمی مانند هدوپ
SQL & NoSQL
دیتابیس های رابطه ای و غیر رابطه ای
زبانهای برنامه نویسی موردنیاز مهندس داده:
پایتون، جاوا، اسکالا scala، جولیا julia
#data #engineer #machinelearning #hadoop #kafka #scala #python #julia
@pythonicAI
Pythonic AI
مهندسین داده، درواقع زیر ساخت های اطلاعاتی ای را میسازند که پروژه های دیتاساینس به آنها وابسته است. این افراد مسئول طراحی و مدیریت جریان داده هایی هستند که از منابع مختلف جمع آوری شده و در یک مخزن، مانند data warehouse یکپارچه میشوند تا بعدا توسط دیتاساینتیست…
برخی منابع مفید یادگیری مهندسی داده:
📙 مهندسی داده:
لینک۱
لینک۲
لینک۳
📕 پایتون
لینک۱
لینک۲
لینک۳
📗 سیستم عامل
لینک۱
لینک۲
📘 دیتابیس
لینک۱
لینک۲
لینک۳
لینک۴
لینک۵
لینک۶
لینک۷
لینک۸
لینک۹
لینک۱۰
📙 data warehouse / big data
لینک۱
لینک۲
لینک۳
لینک۴
لینک۵
لینک۶
لینک۷
لینک۸
لینک۹
لینک۱۰
لینک۱۱
لینک۱۲
📕 یادگیری ماشین
لینک۱
لینک۲
لینک۳
#hadoop #spark #python #machinelearning #data #engineer #resource
@pythonicAI
📙 مهندسی داده:
لینک۱
لینک۲
لینک۳
📕 پایتون
لینک۱
لینک۲
لینک۳
📗 سیستم عامل
لینک۱
لینک۲
📘 دیتابیس
لینک۱
لینک۲
لینک۳
لینک۴
لینک۵
لینک۶
لینک۷
لینک۸
لینک۹
لینک۱۰
📙 data warehouse / big data
لینک۱
لینک۲
لینک۳
لینک۴
لینک۵
لینک۶
لینک۷
لینک۸
لینک۹
لینک۱۰
لینک۱۱
لینک۱۲
📕 یادگیری ماشین
لینک۱
لینک۲
لینک۳
#hadoop #spark #python #machinelearning #data #engineer #resource
@pythonicAI
Medium
A Beginner’s Guide to Data Engineering — Part I
Data Engineering: The Close Cousin of Data Science