#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
فایلهای CSV (Comma-Separated Values) از نظر ساختاری بسیار ساده هستند. هر سطر در فایل CSV به معنی یک رکورد یا ردیف از دادههاست و هر رکورد شامل تعدادی فیلد یا ستونه که با کاراکتر جداکننده (معمولاً کاما) از هم جدا میشن.
اگر چه کاما (,) معمولترین کاراکتر جداکننده در فایلهای CSV هست، اما در بعضی مواقع از کاراکترهای دیگهای مثل نقطه تب (\t) هم به عنوان جداکننده استفاده میشه.
csv
یکی از سادهترین و پرکاربردترین این کتابخانههاست که امکان خوندن و نوشتن فایلهای CSV رو به سادگی فراهم میکنه.import csv
# Read a CSV file
with open('example.csv', 'r') as file:
reader = csv.reader(file)
for row in reader:
print(row)
# Write to a CSV file
with open('example.csv', 'w', newline='') as file:
writer = csv.writer(file)
writer.writerow(["Name", "Age", "City"])
writer.writerow(["Ali", "25", "Tehran"])
read.csv
و write.csv
برای خوندن و نوشتن فایلهای CSV وجود داره که به تحلیلگران داده امکان مدیریت دادهها رو میده.# Read a CSV file
data <- read.csv("example.csv")
# Write to a CSV file
write.csv(data, "output.csv")
فرمت CSV به دلیل سادگی، قابلیت استفاده در پلتفرمهای مختلف و حجم پایین، به یکی از محبوبترین فرمتهای ذخیرهسازی و تبادل داده تبدیل شده. این فرمت، با وجود محدودیتهایی که داره، همچنان به عنوان یک ابزار قدرتمند در مدیریت و تحلیل دادهها به کار گرفته میشه. توانایی خوندن و نوشتن فایلهای CSV یکی از مهارتهای پایهای برای هر کسی هست که با دادهها سر و کار داره.
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
فرمت JSON (JavaScript Object Notation) به دلیل سادگی و خوانایی بالا، بهطور گسترده در سیستمهای مختلف نرمافزاری، از جمله برنامههای وب و موبایل، APIها و پایگاههای داده استفاده میشه. این ساختار از دو نوع داده اصلی تشکیل شده: اشیاء (Objects) و آرایهها (Arrays).
{
"id": 12345,
"name": "Sara Jamshidi",
"email": "sara.jamshidi@example.com",
"age": 28,
"is_active": true,
"preferences": {
"language": "fa",
"notifications": {
"email": true,
"sms": false
}
},
"hobbies": ["reading", "traveling", "photography"]
}
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
{"id": 1, "name": "Ali", "email": "ali@example.com"}
{"id": 2, "name": "Sara", "email": "sara@example.com"}
{"id": 3, "name": "Reza", "email": "reza@example.com"}
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
فرمت پارکت (Parquet) یک فرمت فایل ستونیه که برای ذخیرهسازی دادههای بزرگ و تحلیل اونها بهینه شده. این فرمت توسط Apache به عنوان بخشی از پروژه Hadoop توسعه داده شد.
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
فرمت Pickle در پایتون برای سریالسازی (serializing) و دیسریالسازی (deserializing) اشیاء به کار میره. به عبارت سادهتر، Pickle این امکان رو میده که اشیاء پایتون رو به یک فرمت بایت تبدیل، در یک فایل ذخیره و بعد دوباره به صورت اشیاء پایتون بازیابی کنین.
pickle.dump()
استفاده میشه. این تابع اشیاء رو به فرمت بایت تبدیل و در یک فایل ذخیره میکنه. در این مثال، دیکشنری data
به فایل data.pkl
سریالسازی شده و ذخیره میشه.import pickle
data = {'name': 'Ali', 'age': 30, 'is_student': False}
with open('data.pkl', 'wb') as file:
pickle.dump(data, file)
()pickle.load
استفاده میشه. این تابع دادههای ذخیره شده رو از فایل خونده و اونها رو به اشیاء پایتون تبدیل میکنه. در اینجا، دادههای ذخیره شده در data.pkl
به دیکشنری data
تبدیل شده و چاپ میشن.import pickle
with open('data.pkl', 'rb') as file:
data = pickle.load(file)
print(data)
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
pickle
شیای را سریالسازی میکنه، به جای ذخیرهسازی کامل هر شیء، از مکانیزم memo
برای ذخیرهسازی مرجعها استفاده میکنه. این کار به کاهش حجم دادههای سریالشده کمک میکنه.pickle
سریالسازی میشه، اون شیء به memo
اضافه میشه. اگه شیء دیگهای ارجاع به این شیء داشته باشه، به جای ذخیرهسازی دوباره، فقط برای ارجاع به اون از memo
استفاده میشه.pickle
از memo
برای بازیابی و بازسازی اشیاء استفاده میکنه. در نتیحه اشیاء تکراری به درستی به همون شیء اصلی اشاره میکنن و با همون هویت اصلی بازیابی میشن.به عبارت سادهتر، مکانیزم
memo
به pickle
کمک میکنه تا با ذخیرهسازی مجدد اشیاء تکراری و استفاده از ارجاعها، کارایی و حجم دادههای سریالشده رو بهینه کنه.#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
زبان نشانهگذاری توسعهپذیر یا XML (eXtensible Markup Language)، یک زبان نشانهگذاریه که برای توصیف و انتقال دادهها استفاده میشه. XML یک استاندارد جهانیه که توسط سازمان W3C (کنسرسیوم شبکه جهانی وب) تعریف شده و یکی از مهمترین ابزارهای انتقال داده بین سیستمها و برنامههای مختلف به حساب میاد.
در واقع، XML یک قالب (syntax) برای ایجاد فرمتهای سفارشیه که برای ذخیره و انتقال اطلاعات استفاده میشه. برای مثال، فرمتهایی مثل RSS (برای اخبار و محتوای وبلاگی)، SOAP (برای خدمات وب) و SVG (برای گرافیک برداری) همگی بر اساس XML ساخته شدن.
<bookstore>
<book>
<title>XML در عمل</title>
<author>محمد احمدی</author>
<year>2024</year>
<price>200000</price>
</book>
<book>
<title>راهنمای جامع XML</title>
<author>زهرا موسوی</author>
<year>2023</year>
<price>250000</price>
</book>
</bookstore>
در مثال بالا، عنصر ریشه (Root Element)
bookstore
نام داره که دو عنصر فرزند (Child Elements) book
رو در خودش جا داده. هر book
شامل چهار عنصر فرزند دیگه است که عنوان، نویسنده، سال و قیمت کتاب رو مشخص میکنن.<Title>
با <title>
متفاوته.genre
یک صفته.<book genre="science fiction">
<title>تخیلات علمی</title>
<author>علی رضایی</author>
</book>
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM
#Weekend
#File_Formats
@Data_ML | دیتاساینس و ماشین لرنینگ
Please open Telegram to view this post
VIEW IN TELEGRAM