مدیریت دادهها در MLOps به چند دلیل کلیدی اهمیت داره:
#MLOps
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❓کوییز شماره ۱۹۲: کدوم تکنیک برای مدیریت کیفیت داده در MLOps مناسبترین و بهینهترین هست؟
Anonymous Quiz
22%
پیادهسازی سیستم هشدار برای تشخیص ناهنجاریهای داده
28%
اجرای تستهای آماری روی مجموعه دادهها
11%
بررسی دستی نمونههای تصادفی از دادهها
39%
استفاده از Great Expectations
تصور کنین روی یک پروژه تا آخر کار کردین و به بهترین راهحل رسیدین، اما زمانی که کد رو به تیم دیگه ارسال میکنین، کدی که روی سیستم شما کار میکرد، روی سرورها و سیستمهای دیگه کار نمیکنه.
راهحل چیه؟ اینجاست که داکر وارد میشه. با استفاده از داکر میشه محیطی دقیق و یکسان برای پروژه تعریف کرد و اطمینان حاصل کرد که کد بدون مشکل، بدون توجه به محیط و تنظیمات قبلی اجرا خواهد شد.
#MLOps
#Data_Science
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
#MLOps
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❓کوییز شماره ۱۹۳: کدوم تکنیک زیر برای بهبود شفافیت و قابلیت توضیح مدلهای یادگیری ماشین در MLOps استفاده نمیشه؟
Anonymous Quiz
25%
Grad-CAM (Gradient-weighted Class Activation Mapping)
21%
SHAP (SHapley Additive exPlanations)
21%
LIME (Local Interpretable Model-agnostic Explanations)
32%
K-means Clustering
یکی از عوامل موفقیت در MLOps طراحی و پیادهسازی زیرساخت مقیاسپذیره که بتونه پیچیدگیها و تقاضاهای بارهای کاری یادگیری ماشین رو مدیریت کنه.
#MLOps
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❓کوییز شماره ۱۹۴: در زمینه مقیاسپذیری MLOps، مفهوم Elastic Inference چه مزیتی رو فراهم میکنه؟
Anonymous Quiz
46%
تخصیص پویای منابع GPU برای استنتاج
21%
کاهش زمان آموزش مدل
21%
بهینهسازی خودکار هایپرپارامترها
13%
افزایش دقت مدل در مقیاس بزرگ
#Weekend
#MLOps
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
Forwarded from رضا شکرزاد - علمداده و هوش مصنوعی
#Webinars
@DSLanders | دیاسلندرز
Please open Telegram to view this post
VIEW IN TELEGRAM
فایلهای CSV (Comma-Separated Values) از نظر ساختاری بسیار ساده هستند. هر سطر در فایل CSV به معنی یک رکورد یا ردیف از دادههاست و هر رکورد شامل تعدادی فیلد یا ستونه که با کاراکتر جداکننده (معمولاً کاما) از هم جدا میشن.
اگر چه کاما (,) معمولترین کاراکتر جداکننده در فایلهای CSV هست، اما در بعضی مواقع از کاراکترهای دیگهای مثل نقطه تب (\t) هم به عنوان جداکننده استفاده میشه.
csv
یکی از سادهترین و پرکاربردترین این کتابخانههاست که امکان خوندن و نوشتن فایلهای CSV رو به سادگی فراهم میکنه.import csv
# Read a CSV file
with open('example.csv', 'r') as file:
reader = csv.reader(file)
for row in reader:
print(row)
# Write to a CSV file
with open('example.csv', 'w', newline='') as file:
writer = csv.writer(file)
writer.writerow(["Name", "Age", "City"])
writer.writerow(["Ali", "25", "Tehran"])
read.csv
و write.csv
برای خوندن و نوشتن فایلهای CSV وجود داره که به تحلیلگران داده امکان مدیریت دادهها رو میده.# Read a CSV file
data <- read.csv("example.csv")
# Write to a CSV file
write.csv(data, "output.csv")
فرمت CSV به دلیل سادگی، قابلیت استفاده در پلتفرمهای مختلف و حجم پایین، به یکی از محبوبترین فرمتهای ذخیرهسازی و تبادل داده تبدیل شده. این فرمت، با وجود محدودیتهایی که داره، همچنان به عنوان یک ابزار قدرتمند در مدیریت و تحلیل دادهها به کار گرفته میشه. توانایی خوندن و نوشتن فایلهای CSV یکی از مهارتهای پایهای برای هر کسی هست که با دادهها سر و کار داره.
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❓کوییز شماره ۱۹۵: در مورد مفهوم CSV on the Web (CSVW) کدوم گزینه صحیحه؟
Anonymous Quiz
29%
یک فرمت جدید برای جایگزینی کامل CSV در محیط وب.
18%
یک پروتکل برای انتقال امن فایلهای CSV در اینترنت.
26%
یک استاندارد W3C برای اضافه کردن متاداده به فایلهای CSV.
26%
یک روش برای نمایش فایلهای CSV در مرورگرهای وب.
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
فرمت JSON (JavaScript Object Notation) به دلیل سادگی و خوانایی بالا، بهطور گسترده در سیستمهای مختلف نرمافزاری، از جمله برنامههای وب و موبایل، APIها و پایگاههای داده استفاده میشه. این ساختار از دو نوع داده اصلی تشکیل شده: اشیاء (Objects) و آرایهها (Arrays).
{
"id": 12345,
"name": "Sara Jamshidi",
"email": "sara.jamshidi@example.com",
"age": 28,
"is_active": true,
"preferences": {
"language": "fa",
"notifications": {
"email": true,
"sms": false
}
},
"hobbies": ["reading", "traveling", "photography"]
}
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❓کوییز شماره ۱۹۶: کدوم یک از موارد زیر در مورد استفاده از JSON در فرمت فایل BSON درسته؟
Anonymous Quiz
58%
الف) BSON یک نسخه باینری از JSON هست که توسط MongoDB استفاده میشه.
13%
ب) BSON فقط برای ذخیرهسازی اعداد صحیح استفاده میشه.
13%
ج) BSON نمیتونه دادههای تاریخ رو ذخیره کنه.
16%
د) BSON فقط برای انتقال دادهها در شبکه استفاده میشه، نه ذخیرهسازی.
{"id": 1, "name": "Ali", "email": "ali@example.com"}
{"id": 2, "name": "Sara", "email": "sara@example.com"}
{"id": 3, "name": "Reza", "email": "reza@example.com"}
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
فرمت پارکت (Parquet) یک فرمت فایل ستونیه که برای ذخیرهسازی دادههای بزرگ و تحلیل اونها بهینه شده. این فرمت توسط Apache به عنوان بخشی از پروژه Hadoop توسعه داده شد.
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
❓کوییز شماره ۱۹۷: کدوم یک از گزینههای زیر در مورد قابلیت Page Index در Parquet صحیحه؟
Anonymous Quiz
8%
فقط در نسخههای اولیه Parquet موجود بود و حالا منسوخ شده.
62%
امکان پرش از صفحات غیر مرتبط رو در زمان خوندن دادهها فراهم میکنه.
23%
فقط برای ستونهای عددی قابل استفاده است.
8%
تنها برای فایلهای Parquet با حجم بیشتر از 1 ترابایت قابل استفاده است.
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
فرمت Pickle در پایتون برای سریالسازی (serializing) و دیسریالسازی (deserializing) اشیاء به کار میره. به عبارت سادهتر، Pickle این امکان رو میده که اشیاء پایتون رو به یک فرمت بایت تبدیل، در یک فایل ذخیره و بعد دوباره به صورت اشیاء پایتون بازیابی کنین.
pickle.dump()
استفاده میشه. این تابع اشیاء رو به فرمت بایت تبدیل و در یک فایل ذخیره میکنه. در این مثال، دیکشنری data
به فایل data.pkl
سریالسازی شده و ذخیره میشه.import pickle
data = {'name': 'Ali', 'age': 30, 'is_student': False}
with open('data.pkl', 'wb') as file:
pickle.dump(data, file)
()pickle.load
استفاده میشه. این تابع دادههای ذخیره شده رو از فایل خونده و اونها رو به اشیاء پایتون تبدیل میکنه. در اینجا، دادههای ذخیره شده در data.pkl
به دیکشنری data
تبدیل شده و چاپ میشن.import pickle
with open('data.pkl', 'rb') as file:
data = pickle.load(file)
print(data)
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM