Code Module | کد ماژول
1.92K subscribers
357 photos
42 videos
6 files
356 links
Hello World 🌎

<> Earth is programmable if you code it </>

Group 👇🏻
@CodeModuleGap

Contact Us 👇🏻
@MrShahiin
@neoMahan
Download Telegram
Data Lakes چیه و چه کاربردی داره؟😄

دیتا لیک (دریاچه داده) یک مخزن متمرکز هست برای ذخیره انواع داده ها به شکل خام و پردازش نشده. بر خلاف دیتابیس های سنتی، که نیاز به تمیز کردن و سازمان‌دهی داده‌ها قبل از ذخیره‌سازی دارن، دیتا لیک ها میتونن داده‌ها رو همونطور که هستن ذخیره کنن و به انعطاف‌پذیری و مقیاس‌پذیری بیشتری اجازه بدن. این باعث میشه که دیتا لیک برای ذخیره حجم زیادی از داده های متنوع از چندین منبع ایده آل باشن.

انواع داده های ذخیره شده در دیتا لیک ها🦦

- داده های ساختاریافته: داده هایی که در ردیف ها و ستون ها سازماندهی میشن، معمولاً در دیتابیس های رابطه ای (مثل دیتابیس های SQL) یافت میشن. به عنوان مثال میشه به سوابق مشتری، گزارش تراکنش ها و... اشاره کرد.
- داده های نیمه ساختاریافته: داده هایی که با یک طرح دقیق مطابقت ندارن اما دارای برخی ویژگی های سازمانی هستند. به عنوان مثال میشه به فایل های CSV، لاگ فایل ها، XML و JSON اشاره کرد.
- داده های بدون ساختار: داده هایی که فاقد قالب یا ساختار از پیش تعریف شده هستند. به عنوان مثال میشه به ایمیل ها، دایکومنت های Word، فایل های PDF اشاره کرد.
- داده های باینری: داده هایی که در فرمت باینری ذخیره میشن مانند تصاویر، فایل های صوتی و ویدئو.

برای درک بهترش به مثال زیر توجه کنید:

یک شرکت بزرگ مثل آمازون رو تصور کنید. آمازون هر روز حجم عظیمی از داده ها رو از منابع مختلف جمع آوری و تولید میکنه، از جمله:

1⃣داده های مشتری: داده های ساختاریافته از پروفایل های مشتری، تاریخچه خرید و اطلاعات پرداخت ذخیره شده در دیتابیس (فرض بر اینکه از دیتابیس های SQL استفاده میکنه)

2⃣گزارش های وب: داده های نیمه ساختار یافته از گزارش های سرور که رفتار کاربر در وب سایت رو ردیابی میکنه، مانند صفحات بازدید شده، زمان صرف شده در هر صفحه، و عبارت های جستجو.

3⃣کامنت در مورد محصول: داده های بدون ساختار از نظرات مشتریان و بازخورد ارسال شده در صفحات محصول، که ممکنه شامل متن، تصاویر و ویدئو باشه.

4⃣داده های حسگر: داده های دستگاه های IoT(اینترنت اشیا) که در انبارها برای ردیابی سطوح موجودی و حرکت استفاده میشه، و ممکنه در قالب JSON باشن.

5⃣فایل های چند رسانه ای: داده های باینری از جمله تصاویر محصول، فیلم های تبلیغاتی، و ضبط های صوتی برای تماس های خدمات مشتری.

به طور خلاصه دیتالیک راه‌حلی انعطاف‌پذیر و مقیاس‌پذیر برای ذخیره‌سازی و تجزیه و تحلیل حجم زیادی از داده‌های متنوع ارائه میکنن، که اون ها رو به ابزاری ارزشمند برای سازمان‌های مبتنی بر داده‌های مدرن تبدیل میکنه. برای کسب اطلاعات بیشتر، پیشنهاد میکنم مطالب زیر رو بخونید:

- Data Swamp
- Data Lakehouse
- Data warehouse

#data_lake
@CodeModule
Please open Telegram to view this post
VIEW IN TELEGRAM
8🔥3
داده چیه؟ 💀

ما به عنوان برنامه نویس و یک انسان که در دنیای مدرن زندگی میکنیم، همیشه با هر نوع داده ای سروکار داریم. پس باید قبل از اینکه بدونیم نوع اون داده چیه، باید بدونیم اصلا خود داده یعنی چی.

اصطلاح "داده" از کلمه لاتین *datum* به معنای "چیزی داده شده" گرفته شده. با گذشت زمان، این کلمه بسته به زمینه ای که در اون استفاده میشه، به تعاریف مختلفی تبدیل شده و منابع مختلف این واژه رو به روش های مختلف تعریف میکنن که چند تاشون رو بررسی میکنیم:

🔺 بر اساس فرهنگ لغت بین‌المللی جدید وبستر(Webster)، داده عبارت است از «چیزی داده شده یا پذیرفته شده؛ حقایق یا اصول ارائه شده یا ارائه شده؛ آن چیزی که یک استنتاج یا استدلال بر اون استوار هست، یا از اون یک سیستم ایده‌آل از هر نوع ساخته شده هست». این تعریف بر ماهیت بنیادی داده ها تأکید میکنه، به این معنی که داده ها نقطه شروع هر فرآیند منطقی، چه در علم، چه در فلسفه و چه در استدلال روزمره هستن.
به طور مشابه، فرهنگ لغت انگلیسی دایره‌المعارف آکسفورد، داده‌ها رو به عنوان «حقایق یا چیزهایی شناخته شده که به عنوان مبنایی برای استنتاج یا محاسبه استفاده می‌شوند» تعریف میکنه. این امر بر استفاده از داده ها به عنوان ورودی برای قضاوت، محاسبات یا نتیجه گیری تاکید میکنه.
اگرچه "داده" شکل جمع "datum" هست. اما معمولاً در زبان مدرن به عنوان یک اسم مفرد در نظر گرفته میشه. در حالی که شکل جمع از نظر فنی صحیح هست، استفاده مفرد به طور گسترده پذیرفته شده هست.

- سازمان آموزشی، علمی و فرهنگی ملل متحد (یونسکو) داده ها رو به عنوان «حقایق، مفاهیم یا دستورالعمل ها به شیوه ای رسمی مناسب برای ارتباط، تفسیر یا پردازش به وسیله انسان یا خودکار» تعریف میکنه. این نشان میده که داده‌ها باید ساختاریافته یا سازمان‌دهی بشن تا مفید باشن، به‌ویژه در زمینه سیستم‌های رایانه‌ای که در اون داده‌ها پردازش و منتقل میشن.

‏- *Dictionary of Modern Economics* داده ها رو به عنوان "مشاهدات در مورد بزرگی عددی پدیده های اقتصادی مانند درآمد ملی، بیکاری، یا قیمت خرده فروشی" توصیف میکنه. در اقتصاد، داده ها معمولاً به اندازه گیری ها یا مشاهدات قابل اندازه گیری اشاره دارن که برای تجزیه و تحلیل روندهای اقتصادی و تصمیم گیری آگاهانه استفاده میشن.

- در علوم، داده ها اغلب به عنوان مجموعه ای از «مقادیر عددی یا کیفی حاصل از آزمایش های علمی» توصیف میشن. بر اساس *دایره المعارف علم و فناوری مک گراو هیل*، این داده ها نتیجه مشاهده و آزمایش هست و اساس دانش علمی رو تشکیل میدن.

🔻 به صورت کلی داده ها، در شکل خام خود، تا زمانی که پردازش و تفسیر نشن، فاقد معنا هستن. در علم اطلاعات، اصطلاح «symbolization of knowledge» به این اشاره داره که چگونه داده‌ها باید در چارچوبی خاص برای به دست آوردن ارتباط و انسجام، زمینه‌سازی و درک بشن. این به ویژه در زمینه هایی که از داده ها برای نتیجه گیری یا پیش بینی استفاده میشن، صادقه. در عصر دیجیتال مدرن، داده‌ها به دلیل پیشرفت‌های فناوری، از جمله گسترش استفاده از اینترنت، هوش مصنوعی و تجزیه و تحلیل داده‌های بزرگ، با سرعت بی‌سابقه‌ای در حال گسترش هستن. در نتیجه، داده ها به منبعی ارزشمند برای تصمیم گیری، نوآوری و توسعه اقتصادی تبدیل شدن. اما به نظر شما ما به عنوان یک برنامه نویس با چه نوع "داده" ای سروکار داریم؟

برای اطلاعات بیشتر، این PDF ارزشمند رو مطالعه کنید.
#data
@CodeModule
🔥142