𝐈𝐧𝐟𝐢𝐧𝐢𝐭𝐲 𝐂𝐒

Article 8: NumPy සහ Pandas – Data Manipulation Tools 🛠📊

කලින් ලිපි වලින් අපි Machine Learning වලට ඕන කරන Maths සහ Python මූලික කරුණු ඉගෙන ගත්තා. දැන් අපි බලමු ඒ ඉගෙන ගත්තු දේවල් ඇත්තම Data එක්ක පාවිච්චි කරන්නේ කොහොමද කියලා. ML Engineer කෙනෙක් තමන්ගේ කාලයෙන් ලොකු කොටසක් වැය කරන්නේ දත්ත පිරිසිදු කරන්න සහ සකස් කරන්න. ඒ වැඩේ ලේසි කරගන්න පාවිච්චි කරන ප්‍රධානම libraries දෙකක් තමයි මේ.

1. NumPy (Numerical Python) 🔢⚡️

අපි Article 3 එකේදී ඉගෙන ගත්තා මතකද Linear Algebra (Matrices සහ Vectors) ගැන? අන්න ඒ Matrix calculations කරන්න Python වලදි පාවිච්චි කරන්නේ NumPy. ඒත් ඇයි අපි NumPy පාවිච්චි කරන්නේ?

● Speed - සාමාන්‍ය Python Lists වලට වඩා NumPy Arrays සිය ගුණයක් වේගවත්. මොකද මේක run වෙන්නෙ C language එක බේස් කරගෙන.

● Vectorization - ලොකු Data set එකකට එකපාර ගණිතමය ක්‍රියාවන් (එකතු කිරීම්, ගුණ කිරීම් වගේ) කරන්න පුළුවන්.

NumPy වල ප්‍රධාන සංකල්පය වෙන්නේ N-dimensional Array (ndarray). NumPy වල හැමදේම ගබඩා වෙන්නේ Array එකක් විදිහට. මේක තනි පේළියක් (1D), වගුවක් (2D) හෝ ඊට වඩා වැඩි මානයක් (ND) වෙන්න පුළුවන්. 🧊

2. Pandas (Python Data Analysis) 🐼📊

NumPy වලින් mathematical part එක කළාට, දත්ත Excel sheet එකක් වගේ වගුවකට දාලා handle කරන්න පාවිච්චි කරන්නේ Pandas. Pandas වල තියෙන ප්‍රධානම දේවල් දෙක වෙන්නේ Series (මේක හරියට වගුවක තියෙන එක Column එකක් වගේ.) සහ DataFrame (මේක තමයි සම්පූර්ණ වගුව. ML වලදී අපි අපේ මුළු Dataset එකම දකින්නේ DataFrame එකක් විදිහට)

Pandas වලින් කරන්න පුළුවන් දේවල්,

● Data Loading 📥 - CSV, Excel, SQL වැනි ඕනෑම තැනක තියෙන දත්ත කියවන්න පුළුවන්.
● Data Cleaning 🧼 - දත්ත වල තියෙන Null values පිරවීම හෝ අයින් කිරීම.
● Data Filtering 🔍 - අපිට අවශ්‍ය දත්ත විතරක් වෙන් කරලා ගන්න.

මේවා Machine Learning වලට වැදගත් වෙන්නේ ඇයි? 🤔💡

ඔයා ඉස්සරහට ඉගෙන ගන්න Scikit-learn, TensorFlow වගෙ libraries වලට Data input කරන්නේ මේ NumPy Array හෝ Pandas DataFrame විදිහට. ඒ නිසා මේ දෙකේ මූලික කරුණු දැනගන්න එක හරියට අකුරු ඉගෙන ගන්නවා වගේ වැඩක්. 📚

ඊළඟ ආටිකල් එකෙන් (Article 9) අපි කතා කරන්නේ data visualise කරන Matplotlib සහ Seaborn ගැන. 📉🎨 🙊😁

✍️ @TheInfinityAI

❤3

1.38K views02:11