Data Lakes چیه و چه کاربردی داره؟😄
دیتا لیک (دریاچه داده) یک مخزن متمرکز هست برای ذخیره انواع داده ها به شکل خام و پردازش نشده. بر خلاف دیتابیس های سنتی، که نیاز به تمیز کردن و سازماندهی دادهها قبل از ذخیرهسازی دارن، دیتا لیک ها میتونن دادهها رو همونطور که هستن ذخیره کنن و به انعطافپذیری و مقیاسپذیری بیشتری اجازه بدن. این باعث میشه که دیتا لیک برای ذخیره حجم زیادی از داده های متنوع از چندین منبع ایده آل باشن.
انواع داده های ذخیره شده در دیتا لیک ها🦦
- داده های ساختاریافته: داده هایی که در ردیف ها و ستون ها سازماندهی میشن، معمولاً در دیتابیس های رابطه ای (مثل دیتابیس های SQL) یافت میشن. به عنوان مثال میشه به سوابق مشتری، گزارش تراکنش ها و... اشاره کرد.
- داده های نیمه ساختاریافته: داده هایی که با یک طرح دقیق مطابقت ندارن اما دارای برخی ویژگی های سازمانی هستند. به عنوان مثال میشه به فایل های CSV، لاگ فایل ها، XML و JSON اشاره کرد.
- داده های بدون ساختار: داده هایی که فاقد قالب یا ساختار از پیش تعریف شده هستند. به عنوان مثال میشه به ایمیل ها، دایکومنت های Word، فایل های PDF اشاره کرد.
- داده های باینری: داده هایی که در فرمت باینری ذخیره میشن مانند تصاویر، فایل های صوتی و ویدئو.
برای درک بهترش به مثال زیر توجه کنید:
یک شرکت بزرگ مثل آمازون رو تصور کنید. آمازون هر روز حجم عظیمی از داده ها رو از منابع مختلف جمع آوری و تولید میکنه، از جمله:
1⃣ داده های مشتری: داده های ساختاریافته از پروفایل های مشتری، تاریخچه خرید و اطلاعات پرداخت ذخیره شده در دیتابیس (فرض بر اینکه از دیتابیس های SQL استفاده میکنه)
2⃣ گزارش های وب: داده های نیمه ساختار یافته از گزارش های سرور که رفتار کاربر در وب سایت رو ردیابی میکنه، مانند صفحات بازدید شده، زمان صرف شده در هر صفحه، و عبارت های جستجو.
3⃣ کامنت در مورد محصول: داده های بدون ساختار از نظرات مشتریان و بازخورد ارسال شده در صفحات محصول، که ممکنه شامل متن، تصاویر و ویدئو باشه.
4⃣ داده های حسگر: داده های دستگاه های IoT(اینترنت اشیا) که در انبارها برای ردیابی سطوح موجودی و حرکت استفاده میشه، و ممکنه در قالب JSON باشن.
5⃣ فایل های چند رسانه ای: داده های باینری از جمله تصاویر محصول، فیلم های تبلیغاتی، و ضبط های صوتی برای تماس های خدمات مشتری.
به طور خلاصه دیتالیک راهحلی انعطافپذیر و مقیاسپذیر برای ذخیرهسازی و تجزیه و تحلیل حجم زیادی از دادههای متنوع ارائه میکنن، که اون ها رو به ابزاری ارزشمند برای سازمانهای مبتنی بر دادههای مدرن تبدیل میکنه. برای کسب اطلاعات بیشتر، پیشنهاد میکنم مطالب زیر رو بخونید:
- Data Swamp
- Data Lakehouse
- Data warehouse
#data_lake
@CodeModule
دیتا لیک (دریاچه داده) یک مخزن متمرکز هست برای ذخیره انواع داده ها به شکل خام و پردازش نشده. بر خلاف دیتابیس های سنتی، که نیاز به تمیز کردن و سازماندهی دادهها قبل از ذخیرهسازی دارن، دیتا لیک ها میتونن دادهها رو همونطور که هستن ذخیره کنن و به انعطافپذیری و مقیاسپذیری بیشتری اجازه بدن. این باعث میشه که دیتا لیک برای ذخیره حجم زیادی از داده های متنوع از چندین منبع ایده آل باشن.
انواع داده های ذخیره شده در دیتا لیک ها
- داده های ساختاریافته: داده هایی که در ردیف ها و ستون ها سازماندهی میشن، معمولاً در دیتابیس های رابطه ای (مثل دیتابیس های SQL) یافت میشن. به عنوان مثال میشه به سوابق مشتری، گزارش تراکنش ها و... اشاره کرد.
- داده های نیمه ساختاریافته: داده هایی که با یک طرح دقیق مطابقت ندارن اما دارای برخی ویژگی های سازمانی هستند. به عنوان مثال میشه به فایل های CSV، لاگ فایل ها، XML و JSON اشاره کرد.
- داده های بدون ساختار: داده هایی که فاقد قالب یا ساختار از پیش تعریف شده هستند. به عنوان مثال میشه به ایمیل ها، دایکومنت های Word، فایل های PDF اشاره کرد.
- داده های باینری: داده هایی که در فرمت باینری ذخیره میشن مانند تصاویر، فایل های صوتی و ویدئو.
برای درک بهترش به مثال زیر توجه کنید:
یک شرکت بزرگ مثل آمازون رو تصور کنید. آمازون هر روز حجم عظیمی از داده ها رو از منابع مختلف جمع آوری و تولید میکنه، از جمله:
به طور خلاصه دیتالیک راهحلی انعطافپذیر و مقیاسپذیر برای ذخیرهسازی و تجزیه و تحلیل حجم زیادی از دادههای متنوع ارائه میکنن، که اون ها رو به ابزاری ارزشمند برای سازمانهای مبتنی بر دادههای مدرن تبدیل میکنه. برای کسب اطلاعات بیشتر، پیشنهاد میکنم مطالب زیر رو بخونید:
- Data Swamp
- Data Lakehouse
- Data warehouse
#data_lake
@CodeModule
Please open Telegram to view this post
VIEW IN TELEGRAM
⚡8🔥3
داده چیه؟ 💀
ما به عنوان برنامه نویس و یک انسان که در دنیای مدرن زندگی میکنیم، همیشه با هر نوع داده ای سروکار داریم. پس باید قبل از اینکه بدونیم نوع اون داده چیه، باید بدونیم اصلا خود داده یعنی چی.
اصطلاح "داده" از کلمه لاتین *datum* به معنای "چیزی داده شده" گرفته شده. با گذشت زمان، این کلمه بسته به زمینه ای که در اون استفاده میشه، به تعاریف مختلفی تبدیل شده و منابع مختلف این واژه رو به روش های مختلف تعریف میکنن که چند تاشون رو بررسی میکنیم:
🔺 بر اساس فرهنگ لغت بینالمللی جدید وبستر(Webster)، داده عبارت است از «چیزی داده شده یا پذیرفته شده؛ حقایق یا اصول ارائه شده یا ارائه شده؛ آن چیزی که یک استنتاج یا استدلال بر اون استوار هست، یا از اون یک سیستم ایدهآل از هر نوع ساخته شده هست». این تعریف بر ماهیت بنیادی داده ها تأکید میکنه، به این معنی که داده ها نقطه شروع هر فرآیند منطقی، چه در علم، چه در فلسفه و چه در استدلال روزمره هستن.
به طور مشابه، فرهنگ لغت انگلیسی دایرهالمعارف آکسفورد، دادهها رو به عنوان «حقایق یا چیزهایی شناخته شده که به عنوان مبنایی برای استنتاج یا محاسبه استفاده میشوند» تعریف میکنه. این امر بر استفاده از داده ها به عنوان ورودی برای قضاوت، محاسبات یا نتیجه گیری تاکید میکنه.
اگرچه "داده" شکل جمع "datum" هست. اما معمولاً در زبان مدرن به عنوان یک اسم مفرد در نظر گرفته میشه. در حالی که شکل جمع از نظر فنی صحیح هست، استفاده مفرد به طور گسترده پذیرفته شده هست.
- سازمان آموزشی، علمی و فرهنگی ملل متحد (یونسکو) داده ها رو به عنوان «حقایق، مفاهیم یا دستورالعمل ها به شیوه ای رسمی مناسب برای ارتباط، تفسیر یا پردازش به وسیله انسان یا خودکار» تعریف میکنه. این نشان میده که دادهها باید ساختاریافته یا سازماندهی بشن تا مفید باشن، بهویژه در زمینه سیستمهای رایانهای که در اون دادهها پردازش و منتقل میشن.
- *Dictionary of Modern Economics* داده ها رو به عنوان "مشاهدات در مورد بزرگی عددی پدیده های اقتصادی مانند درآمد ملی، بیکاری، یا قیمت خرده فروشی" توصیف میکنه. در اقتصاد، داده ها معمولاً به اندازه گیری ها یا مشاهدات قابل اندازه گیری اشاره دارن که برای تجزیه و تحلیل روندهای اقتصادی و تصمیم گیری آگاهانه استفاده میشن.
- در علوم، داده ها اغلب به عنوان مجموعه ای از «مقادیر عددی یا کیفی حاصل از آزمایش های علمی» توصیف میشن. بر اساس *دایره المعارف علم و فناوری مک گراو هیل*، این داده ها نتیجه مشاهده و آزمایش هست و اساس دانش علمی رو تشکیل میدن.
🔻 به صورت کلی داده ها، در شکل خام خود، تا زمانی که پردازش و تفسیر نشن، فاقد معنا هستن. در علم اطلاعات، اصطلاح «symbolization of knowledge» به این اشاره داره که چگونه دادهها باید در چارچوبی خاص برای به دست آوردن ارتباط و انسجام، زمینهسازی و درک بشن. این به ویژه در زمینه هایی که از داده ها برای نتیجه گیری یا پیش بینی استفاده میشن، صادقه. در عصر دیجیتال مدرن، دادهها به دلیل پیشرفتهای فناوری، از جمله گسترش استفاده از اینترنت، هوش مصنوعی و تجزیه و تحلیل دادههای بزرگ، با سرعت بیسابقهای در حال گسترش هستن. در نتیجه، داده ها به منبعی ارزشمند برای تصمیم گیری، نوآوری و توسعه اقتصادی تبدیل شدن. اما به نظر شما ما به عنوان یک برنامه نویس با چه نوع "داده" ای سروکار داریم؟
برای اطلاعات بیشتر، این PDF ارزشمند رو مطالعه کنید.
#data
@CodeModule
ما به عنوان برنامه نویس و یک انسان که در دنیای مدرن زندگی میکنیم، همیشه با هر نوع داده ای سروکار داریم. پس باید قبل از اینکه بدونیم نوع اون داده چیه، باید بدونیم اصلا خود داده یعنی چی.
اصطلاح "داده" از کلمه لاتین *datum* به معنای "چیزی داده شده" گرفته شده. با گذشت زمان، این کلمه بسته به زمینه ای که در اون استفاده میشه، به تعاریف مختلفی تبدیل شده و منابع مختلف این واژه رو به روش های مختلف تعریف میکنن که چند تاشون رو بررسی میکنیم:
🔺 بر اساس فرهنگ لغت بینالمللی جدید وبستر(Webster)، داده عبارت است از «چیزی داده شده یا پذیرفته شده؛ حقایق یا اصول ارائه شده یا ارائه شده؛ آن چیزی که یک استنتاج یا استدلال بر اون استوار هست، یا از اون یک سیستم ایدهآل از هر نوع ساخته شده هست». این تعریف بر ماهیت بنیادی داده ها تأکید میکنه، به این معنی که داده ها نقطه شروع هر فرآیند منطقی، چه در علم، چه در فلسفه و چه در استدلال روزمره هستن.
به طور مشابه، فرهنگ لغت انگلیسی دایرهالمعارف آکسفورد، دادهها رو به عنوان «حقایق یا چیزهایی شناخته شده که به عنوان مبنایی برای استنتاج یا محاسبه استفاده میشوند» تعریف میکنه. این امر بر استفاده از داده ها به عنوان ورودی برای قضاوت، محاسبات یا نتیجه گیری تاکید میکنه.
اگرچه "داده" شکل جمع "datum" هست. اما معمولاً در زبان مدرن به عنوان یک اسم مفرد در نظر گرفته میشه. در حالی که شکل جمع از نظر فنی صحیح هست، استفاده مفرد به طور گسترده پذیرفته شده هست.
- سازمان آموزشی، علمی و فرهنگی ملل متحد (یونسکو) داده ها رو به عنوان «حقایق، مفاهیم یا دستورالعمل ها به شیوه ای رسمی مناسب برای ارتباط، تفسیر یا پردازش به وسیله انسان یا خودکار» تعریف میکنه. این نشان میده که دادهها باید ساختاریافته یا سازماندهی بشن تا مفید باشن، بهویژه در زمینه سیستمهای رایانهای که در اون دادهها پردازش و منتقل میشن.
- *Dictionary of Modern Economics* داده ها رو به عنوان "مشاهدات در مورد بزرگی عددی پدیده های اقتصادی مانند درآمد ملی، بیکاری، یا قیمت خرده فروشی" توصیف میکنه. در اقتصاد، داده ها معمولاً به اندازه گیری ها یا مشاهدات قابل اندازه گیری اشاره دارن که برای تجزیه و تحلیل روندهای اقتصادی و تصمیم گیری آگاهانه استفاده میشن.
- در علوم، داده ها اغلب به عنوان مجموعه ای از «مقادیر عددی یا کیفی حاصل از آزمایش های علمی» توصیف میشن. بر اساس *دایره المعارف علم و فناوری مک گراو هیل*، این داده ها نتیجه مشاهده و آزمایش هست و اساس دانش علمی رو تشکیل میدن.
🔻 به صورت کلی داده ها، در شکل خام خود، تا زمانی که پردازش و تفسیر نشن، فاقد معنا هستن. در علم اطلاعات، اصطلاح «symbolization of knowledge» به این اشاره داره که چگونه دادهها باید در چارچوبی خاص برای به دست آوردن ارتباط و انسجام، زمینهسازی و درک بشن. این به ویژه در زمینه هایی که از داده ها برای نتیجه گیری یا پیش بینی استفاده میشن، صادقه. در عصر دیجیتال مدرن، دادهها به دلیل پیشرفتهای فناوری، از جمله گسترش استفاده از اینترنت، هوش مصنوعی و تجزیه و تحلیل دادههای بزرگ، با سرعت بیسابقهای در حال گسترش هستن. در نتیجه، داده ها به منبعی ارزشمند برای تصمیم گیری، نوآوری و توسعه اقتصادی تبدیل شدن. اما به نظر شما ما به عنوان یک برنامه نویس با چه نوع "داده" ای سروکار داریم؟
برای اطلاعات بیشتر، این PDF ارزشمند رو مطالعه کنید.
#data
@CodeModule
🔥14⚡2