Academy and Foundation unixmens | Your skills, Your future
2.28K subscribers
6.65K photos
1.36K videos
1.23K files
5.97K links
@unixmens_support
@yashar_esm
unixmens@gmail.com
یک کانال علمی تکنولوژی
فلسفه متن باز-گنو/لینوکس-امنیت - اقتصاد
دیجیتال
Technology-driven -بیزینس های مبتنی بر تکنولوژی
Enterprise open source
ارایه دهنده راهکارهای ارتقای سازمانی - فردی - تیمی
Download Telegram
استخدام مهندس داده
شرکت مهندسی صنایع یاس ارغوانی عضو هلدینگ بانک ملت در راستای تکمیل تیم داده ای خود از افراد واجد شرایط زیر دعوت به همکاری می نماید:
1. تسلط کافی بر طراحی و توسعه فرآیند های ELT و ETL
2. تسلط کافی بر ابزارهای مدیریت و تجمیع داده در Big Data شامل Sqoop و Hive و Impala
3. تسلط کافی بر سرویس زمانبندی کارها Oozie و طراحی workflow های ETL
4. آشنایی با Shell Script نویسی در لینوکس
5. آشنایی با مفاهیم پایگاه داده و SQL
6. تجربه کار با سرویس های Flume و Kafka مزیت محسوب میشود.
متقاضیان محترم می توانند رزومه خود را به آدرس bigdata@yaasie.com ارسال نمایند.
#jobs #linux #data_engineer #bigdata @unixmens
دعوت به همکاری مهندس داده
ارسال رزومه به job@dataak.com
#jobs #bigdata @unixmens
بانک سامان استخدام میکند :
#jobs #oracle #bigdata #security @unixmens
استخدام
شرکت مهندسی صنایع یاس ارغوانی در راستای تکمیل تیم داده ای خود از افراد واجد شرایط زیر دعوت به همکاری می نماید:
1. آشنایی با لینوکس
2. آشنایی با نوشتن کوئری های SQL

آشنایی با مفاهیم و سرویس های Big Data مزیت محسوب میشود.
متقاضیان محترم می توانند رزومه خود را به آدرس
bigdata@yaasie.com
ارسال نمایند.

#jobs #bigdata #db #linux @unixmens
دوستانی که توانایی کار با اسپارک و هدوپ را دارند و علاقمند به فعالیت تمام وقت در پروژه می توانند رزومه خود را به ایمیل زیر ارسال کنند. آشنا به مفاهیم بانکی مزیت محسوب می شود.
mn.nasiri@gmail.com

#jobs #bigdata @unixmens
استخدام
شرکت مهندسی صنایع یاس ارغوانی در راستای تکمیل تیم زیر ساخت خود از افراد واجد شرایط زیر دعوت به همکاری می نماید:
1. آشنایی با لینوکس
2. آشنایی با نوشتن کوئری های SQL

آشنایی با مفاهیم و سرویس های Big Data مزیت محسوب میشود.
متقاضیان محترم می توانند رزومه خود را به آدرس
Karimi@yaasie.com
ارسال نمایند.

#jobs #linux #bigdata @unixmens
دیتاسنتر یا مرکز داده‌، ساختمانی است که برق، فضا و سرمایش لازم برای نگهداری از سرورهای یک کسب‌وکار را فراهم می‌کند. تداوم عملیات یک کسب‌وکارها به میزان پایداری مرکز داده‌ای که سرورها در آن نگهداری می‌شود‌ بستگی دارد، کسب‌وکارها باید اطمینان حاصل کنند که فعالیت‌های روزمره آن‌ها به دلیل قطعی سرورها مختل نخواهد شد. درنتیجه، امنیت و پایداری مراکز داده برای هر کسب‌وکار یکی از اولویت‌های اصلی است.

با این ضرورت در این نوشته سعی کردیم انواع مراکز داده را تشریح کنیم تا کسب‌وکارها بتوانند از بین گزینه‌های موجود بهترین سرویس را انتخاب نمایند.



نوع اول- Hyperscale Data Center

کلمه‌ی Hyperscale به ترکیب کاملی از سخت‌افزار و تسهیلاتی اشاره دارد که می‌توانند در یک محیط توزیع شوند و امکانات لازم برای تگهداری تا هزاران سرور را شامل شود. مانند دیتاسنتر شرکت‌هایی مانند، مایکروسافت، گوگل و اپل. برای مثال مرکز داده‌ی شیکاگوی مایکروسافت یکی از بزرگ‌ترین Data Center های دنیا محسوب می‌شود که ۶۵ هزار مترمربع مساحت دارد و میزبان حدود یک میلیون سرور است که در واحدهای ۱۵۰۰ تا ۲۵۰۰ تایی دسته‌بندی‌شده‌اند.

ا Hyperscale Data Center پایداری و مقیاس‌پذیری را به افراد و یا کسب‌وکارها ارائه می‌دهد و تفاوت این مرکز داده با دیگر مراکز داده اتصال به یک شبکه پرسرعت و پهنای باند بالا است.



نوع دوم- Colocation Data Center

کولوکیشن سرویسی است که ارائه‌دهنده سرویس، فضا، برق و امکانات سرمایشی را برای کسب‌وکارهای متعدد در یک مکان خاص فراهم می‌کند. سرویس کولوکیشن این امکان را برای شرکت‌ها فراهم می‌کند تا تجارت خود را با کم‌ترین پیچیدگی و هزینه توسعه دهند. مزیت اصلی انتخاب این سرویس برای میزبانی از سرورها این است که تجهیزات نگهداری از سرورها داری بالاترین حد استاندارها و با ویژگی‌های عالی هستند تا زیرساخت‌های میزبانی را ایمن و قابل‌اعتماد نگه‌دارند. همچنین وظیفه‌ی نگهداری از سرورها بر عهده‌ی ارائه‌دهنده این سرویس است و کسب‌وکار هیچ‌گونه مسئولیتی در برابر قطعی‌های احتمالی ندارد.



نوع سوم- Wholesale Colocation Data Center

این سرویس بیشتر مختص شرکت‌های بزرگ است. به‌طوری‌که فضایی مانند یک اتاق با تمام امکانات به سازمان اجاره داده می‌شود. (در سرویس کولوکیشن یک رک به کسب‌وکار اجاره داده می‌شود). مشتریان این سرویس به‌صورت کامل در هر زمانی به سرورهای خود دسترسی دارند و می‌توانند زیرساخت خود را مدیریت نمایند و در فضای اختصاصی خود استقلال کامل داشته باشند.



نوع چهارم- Enterprise Data Center

یک کسب‌وکار می‌تواند یک مرکز داده خصوصی که تنها برای استفاده خود سازمان است را راه‌اندازی نماید. این نوع مرکز داده به این صورت است که هر کسب‌وکار برای نیاز خود به‌صورت اختصاصی در محل شرکت فضایی را برای نگهداری از سرورهای خود اختصاص می‌دهد. این نوع مرکز داده نیازمند سرمایه‌گذاری قابل‌توجه‌ای است و علاوه بر این، کسب‌وکار حتماً باید نیروی انسانی با دانش کافی جهت پشتیبانی ۲۴ ساعته در محل داشته باشند.



نوع پنجم- دیتاسنتر مجازی یا ابری

در دیتاسنتر ابری سرورهای مورد نياز بصورت مجازى وجود دارند به همین دلیل بدون نياز به صرف هزينه و زمان و در لحظه آماده و قابل بهره‌برداری هستند به این ترتیب در سرويس‌هاى ابری نیاز به هزينه سنگین برای خرید تجهیزات IT نیست. در این سرویس، کسب‌وکار می‌تواند دیتاسنتر ابری خود را مانند یک دیتاسنتر فیزیکی، طراحی کند، تعداد سرور موردنیاز و شبکه را تعریف و از طریق پنل مدیریت از دیتاسنتر خود محافظت و نگهداری کند.
#datacenter #type #sddc #server #bigdata
https://t.me/unixmens
فرصت شغلی در حوزه تحقیق و توسعه راهکار های نرم افزاری

در این فرصت شغلی افراد نیاز به داشتن روحیه تحقیق و توسعه در سیستم های نرم افزاری را خواهد داشت. بصورت جزئی تر یعنی بتواند در ابتدا با تحلیل مشکلات و مسائل موجود، راهکار های الگوریتمی برای این مشکلات ارائه کند و بتواند این راهکار ها را با استفاده از ابزار های موجود و در صورت عدم وجود ابزار مناسب با توسعه آن، راهکار های خود را به صحنه عمل برساند. برای رسیدن به این موضوع حداقل مهارت های زیر لازم است:
• اصول مهندسی نرم افزار
• تسلط بر یک زبان برنامه نویسی
• تسلط بر سیستم عامل لینوکس
• مبانی شبکه و پایگاه داده
• آشنایی با سیستم های توزیع شده
• آشنایی با فرایند های امنیتی
• انجام فرایند های مستند سازی

محدوده شرکت: #تهران، #امیرآباد
حوزه فعالیت شرکت: فناوری های محاسباتی پیشرفته، #رایانش_ابری #بیگ_دیتا #بلاکچین #امنیت

ارسال رزومه به m.amir.ir@gmail.com


#DistributedSystems #CloudComputing #Security
#bigdata #blockchain




🌐 @unixmens
با سلام و عرض ادب و احترام،

همراه اول(MCI) به منظور تکمیل کادر پرسنلی خود، تعدادی کارشناس در زمینه Big data junior& senior expert را به همکاری دعوت می نماید.

در صورت تمایل رزومه خود را به سرکار خانم مهندس قلی پور
و با موضوع Interested for bigdata و به آدرس
پستی s.gholipour@mci.ir ارسال فرمائید
.

#jobs #bigdata





🌐 @unixmens
Forwarded from Academy and Foundation unixmens | Your skills, Your future (yashar esmaildokht 🐧)
دیتاسنتر یا مرکز داده‌، ساختمانی است که برق، فضا و سرمایش لازم برای نگهداری از سرورهای یک کسب‌وکار را فراهم می‌کند. تداوم عملیات یک کسب‌وکارها به میزان پایداری مرکز داده‌ای که سرورها در آن نگهداری می‌شود‌ بستگی دارد، کسب‌وکارها باید اطمینان حاصل کنند که فعالیت‌های روزمره آن‌ها به دلیل قطعی سرورها مختل نخواهد شد. درنتیجه، امنیت و پایداری مراکز داده برای هر کسب‌وکار یکی از اولویت‌های اصلی است.

با این ضرورت در این نوشته سعی کردیم انواع مراکز داده را تشریح کنیم تا کسب‌وکارها بتوانند از بین گزینه‌های موجود بهترین سرویس را انتخاب نمایند.



نوع اول- Hyperscale Data Center

کلمه‌ی Hyperscale به ترکیب کاملی از سخت‌افزار و تسهیلاتی اشاره دارد که می‌توانند در یک محیط توزیع شوند و امکانات لازم برای تگهداری تا هزاران سرور را شامل شود. مانند دیتاسنتر شرکت‌هایی مانند، مایکروسافت، گوگل و اپل. برای مثال مرکز داده‌ی شیکاگوی مایکروسافت یکی از بزرگ‌ترین Data Center های دنیا محسوب می‌شود که ۶۵ هزار مترمربع مساحت دارد و میزبان حدود یک میلیون سرور است که در واحدهای ۱۵۰۰ تا ۲۵۰۰ تایی دسته‌بندی‌شده‌اند.

ا Hyperscale Data Center پایداری و مقیاس‌پذیری را به افراد و یا کسب‌وکارها ارائه می‌دهد و تفاوت این مرکز داده با دیگر مراکز داده اتصال به یک شبکه پرسرعت و پهنای باند بالا است.



نوع دوم- Colocation Data Center

کولوکیشن سرویسی است که ارائه‌دهنده سرویس، فضا، برق و امکانات سرمایشی را برای کسب‌وکارهای متعدد در یک مکان خاص فراهم می‌کند. سرویس کولوکیشن این امکان را برای شرکت‌ها فراهم می‌کند تا تجارت خود را با کم‌ترین پیچیدگی و هزینه توسعه دهند. مزیت اصلی انتخاب این سرویس برای میزبانی از سرورها این است که تجهیزات نگهداری از سرورها داری بالاترین حد استاندارها و با ویژگی‌های عالی هستند تا زیرساخت‌های میزبانی را ایمن و قابل‌اعتماد نگه‌دارند. همچنین وظیفه‌ی نگهداری از سرورها بر عهده‌ی ارائه‌دهنده این سرویس است و کسب‌وکار هیچ‌گونه مسئولیتی در برابر قطعی‌های احتمالی ندارد.



نوع سوم- Wholesale Colocation Data Center

این سرویس بیشتر مختص شرکت‌های بزرگ است. به‌طوری‌که فضایی مانند یک اتاق با تمام امکانات به سازمان اجاره داده می‌شود. (در سرویس کولوکیشن یک رک به کسب‌وکار اجاره داده می‌شود). مشتریان این سرویس به‌صورت کامل در هر زمانی به سرورهای خود دسترسی دارند و می‌توانند زیرساخت خود را مدیریت نمایند و در فضای اختصاصی خود استقلال کامل داشته باشند.



نوع چهارم- Enterprise Data Center

یک کسب‌وکار می‌تواند یک مرکز داده خصوصی که تنها برای استفاده خود سازمان است را راه‌اندازی نماید. این نوع مرکز داده به این صورت است که هر کسب‌وکار برای نیاز خود به‌صورت اختصاصی در محل شرکت فضایی را برای نگهداری از سرورهای خود اختصاص می‌دهد. این نوع مرکز داده نیازمند سرمایه‌گذاری قابل‌توجه‌ای است و علاوه بر این، کسب‌وکار حتماً باید نیروی انسانی با دانش کافی جهت پشتیبانی ۲۴ ساعته در محل داشته باشند.



نوع پنجم- دیتاسنتر مجازی یا ابری

در دیتاسنتر ابری سرورهای مورد نياز بصورت مجازى وجود دارند به همین دلیل بدون نياز به صرف هزينه و زمان و در لحظه آماده و قابل بهره‌برداری هستند به این ترتیب در سرويس‌هاى ابری نیاز به هزينه سنگین برای خرید تجهیزات IT نیست. در این سرویس، کسب‌وکار می‌تواند دیتاسنتر ابری خود را مانند یک دیتاسنتر فیزیکی، طراحی کند، تعداد سرور موردنیاز و شبکه را تعریف و از طریق پنل مدیریت از دیتاسنتر خود محافظت و نگهداری کند.
#datacenter #type #sddc #server #bigdata
https://t.me/unixmens
مدل‌های یادگیری عمیق اغلب داده‌ها را به بردارهایی با تعداد ابعاد بالا تبدیل می‌کنند. پایگاه‌های داده برداری به صورت کارآمد این بردارها را مدیریت می‌کنند.
تسریع در عملیات inference: هنگام استفاده از مدل‌های هوش مصنوعی، به جای پردازش مجدد داده‌ها برای هر درخواست، می‌توان بردارهای آماده را ذخیره و جستجو کرد که سرعت عملیات inference (استنتاج) را افزایش می‌دهد.

این امکان به توسعه‌دهندگان کمک می‌کند تا بتوانند به سادگی سیستم‌های توصیه‌گر، تحلیل‌های معنایی و سایر کاربردهای هوش مصنوعی را روی داده‌های بزرگ مقیاس پیاده‌سازی کنند.


بهینه‌سازی ذخیره‌سازی و پردازش

پایگاه‌های داده برداری معمولاً از تکنیک‌های خاصی برای بهینه‌سازی فضای ذخیره‌سازی و زمان پردازش استفاده می‌کنند:

ا HNSW (Hierarchical Navigable Small World graphs): این الگوریتم یکی از الگوریتم‌های محبوب برای جستجوی سریع مشابهت برداری در فضاهای چند بعدی است. MariaDB Vector ممکن است از این یا سایر تکنیک‌های مشابه برای تسریع جستجوها استفاده کند.
کاهش ابعاد: برای کار با بردارهایی که دارای ابعاد بسیار زیادی هستند، تکنیک‌هایی مانند Principal Component Analysis (PCA) یا t-SNE برای کاهش ابعاد بردارها و افزایش کارایی مورد استفاده قرار می‌گیرند.

امنیت و مدیریت داده‌ها

یکی از مزایای MariaDB Vector این است که با امکانات مدیریت داده‌های ساختاریافته در MariaDB یکپارچه شده است. این به معنای آن است که شما می‌توانید از امکانات امنیتی، مدیریت دسترسی، نسخه‌برداری و ریکاوری در MariaDB استفاده کنید و در عین حال داده‌های برداری را نیز مدیریت کنید.

این امکان برای کسب‌وکارهایی که نیاز به محافظت از داده‌های حساس دارند یا نیازمند رعایت استانداردهای امنیتی هستند، بسیار ارزشمند است.

موارد استفاده از پایگاه‌های داده برداری و محصولاتی مانند MariaDB Vector در صنعت بسیار گسترده است:

موتورهای جستجوی تخصصی: برای جستجوی سریع داده‌های غیرساختاریافته مانند اسناد متنی طولانی، تصاویر، و ویدئوها.
توسعه برنامه‌های مبتنی بر هوش مصنوعی: مانند شناسایی چهره، تحلیل احساسات، پردازش زبان طبیعی، و سیستم‌های توصیه‌گر.
تجزیه و تحلیل داده‌های IoT: دستگاه‌های IoT معمولاً داده‌های غیرساختاریافته تولید می‌کنند که نیاز به تحلیل سریع و موثر دارند. پایگاه‌های داده برداری می‌توانند این تحلیل را تسهیل کنند.

در مجموع، MariaDB Vector راه‌حلی برای نیازهای مدرن به جستجوی داده‌های غیرساختاریافته و پشتیبانی از برنامه‌های هوش مصنوعی است.

در حقیقت MariaDB Vector در پاسخ به نیاز به یکپارچگی و کارایی بالاتر در مدیریت داده‌های غیرساختاریافته و پشتیبانی از هوش مصنوعی بوجود آمد. در گذشته، پایگاه‌های داده سنتی مانند MySQL یا MariaDB عمدتاً برای داده‌های ساختاریافته طراحی شده بودند، و امکان مدیریت و جستجوی داده‌های برداری به صورت بومی نداشتند. اما با رشد نیاز به پردازش داده‌های پیچیده در حوزه‌هایی مانند یادگیری ماشین، هوش مصنوعی، و تحلیل داده‌های بزرگ، نیاز به محصولاتی مانند MariaDB Vector حس شد که توانایی ذخیره، جستجو و پردازش داده‌های برداری را به همراه داشته باشند.

#database #db #vector #bigdata #mariadb #ai #linux

https://t.me/unixmens
👍2
مدل‌های یادگیری عمیق اغلب داده‌ها را به بردارهایی با تعداد ابعاد بالا تبدیل می‌کنند. پایگاه‌های داده برداری به صورت کارآمد این بردارها را مدیریت می‌کنند.
تسریع در عملیات inference: هنگام استفاده از مدل‌های هوش مصنوعی، به جای پردازش مجدد داده‌ها برای هر درخواست، می‌توان بردارهای آماده را ذخیره و جستجو کرد که سرعت عملیات inference (استنتاج) را افزایش می‌دهد.

این امکان به توسعه‌دهندگان کمک می‌کند تا بتوانند به سادگی سیستم‌های توصیه‌گر، تحلیل‌های معنایی و سایر کاربردهای هوش مصنوعی را روی داده‌های بزرگ مقیاس پیاده‌سازی کنند.


بهینه‌سازی ذخیره‌سازی و پردازش

پایگاه‌های داده برداری معمولاً از تکنیک‌های خاصی برای بهینه‌سازی فضای ذخیره‌سازی و زمان پردازش استفاده می‌کنند:

ا HNSW (Hierarchical Navigable Small World graphs): این الگوریتم یکی از الگوریتم‌های محبوب برای جستجوی سریع مشابهت برداری در فضاهای چند بعدی است. MariaDB Vector ممکن است از این یا سایر تکنیک‌های مشابه برای تسریع جستجوها استفاده کند.
کاهش ابعاد: برای کار با بردارهایی که دارای ابعاد بسیار زیادی هستند، تکنیک‌هایی مانند Principal Component Analysis (PCA) یا t-SNE برای کاهش ابعاد بردارها و افزایش کارایی مورد استفاده قرار می‌گیرند.

امنیت و مدیریت داده‌ها

یکی از مزایای MariaDB Vector این است که با امکانات مدیریت داده‌های ساختاریافته در MariaDB یکپارچه شده است. این به معنای آن است که شما می‌توانید از امکانات امنیتی، مدیریت دسترسی، نسخه‌برداری و ریکاوری در MariaDB استفاده کنید و در عین حال داده‌های برداری را نیز مدیریت کنید.

این امکان برای کسب‌وکارهایی که نیاز به محافظت از داده‌های حساس دارند یا نیازمند رعایت استانداردهای امنیتی هستند، بسیار ارزشمند است.

موارد استفاده از پایگاه‌های داده برداری و محصولاتی مانند MariaDB Vector در صنعت بسیار گسترده است:

موتورهای جستجوی تخصصی: برای جستجوی سریع داده‌های غیرساختاریافته مانند اسناد متنی طولانی، تصاویر، و ویدئوها.
توسعه برنامه‌های مبتنی بر هوش مصنوعی: مانند شناسایی چهره، تحلیل احساسات، پردازش زبان طبیعی، و سیستم‌های توصیه‌گر.
تجزیه و تحلیل داده‌های IoT: دستگاه‌های IoT معمولاً داده‌های غیرساختاریافته تولید می‌کنند که نیاز به تحلیل سریع و موثر دارند. پایگاه‌های داده برداری می‌توانند این تحلیل را تسهیل کنند.

در مجموع، MariaDB Vector راه‌حلی برای نیازهای مدرن به جستجوی داده‌های غیرساختاریافته و پشتیبانی از برنامه‌های هوش مصنوعی است.

در حقیقت MariaDB Vector در پاسخ به نیاز به یکپارچگی و کارایی بالاتر در مدیریت داده‌های غیرساختاریافته و پشتیبانی از هوش مصنوعی بوجود آمد. در گذشته، پایگاه‌های داده سنتی مانند MySQL یا MariaDB عمدتاً برای داده‌های ساختاریافته طراحی شده بودند، و امکان مدیریت و جستجوی داده‌های برداری به صورت بومی نداشتند. اما با رشد نیاز به پردازش داده‌های پیچیده در حوزه‌هایی مانند یادگیری ماشین، هوش مصنوعی، و تحلیل داده‌های بزرگ، نیاز به محصولاتی مانند MariaDB Vector حس شد که توانایی ذخیره، جستجو و پردازش داده‌های برداری را به همراه داشته باشند.

#database #db #vector #bigdata #mariadb #ai #linux

https://t.me/unixmens
مفهوم Time Series چیه؟

داده‌های سری زمانی، داده‌هایی هستن که به ترتیب زمان ثبت می‌شن؛ مثلاً داده‌های سنسورها، لاگ سیستم‌ها، یا حتی قیمت ارز توی بازار. نکته‌ی کلیدی اینه که زمان، محور اصلی تحلیله.
چالش‌های این نوع داده‌ها:

نرخ بالای ورود داده (High Ingestion Rate)

تحلیل لحظه‌ای (Real-time Analytics)

کاردینالیتی بالا؛ یعنی میلیون‌ها سنسور یا دستگاه یکتا

نیاز به توابع خاص مثل average، sampling، downsampling، backfill و غیره

تکنولوژی‌هایی که مطرحن:
۱. InfluxDB

یکی از معروف‌ترین‌ها، خیلی راحت راه می‌افته ولی تو کاردینالیتی بالا و ورودی خیلی زیاد کم میاره.
۲. TimescaleDB

بر پایه PostgreSQL، اگه تیم‌ آشنا با SQL باشه عالیه. اما مقیاس‌پذیری افقی محدوده.
۳. QuestDB

سریع و جمع‌وجوره، برای پروژه‌های سبک تا متوسط خیلی خوبه.
۴. ClickHouse

اگه تحلیل پیچیده و سریع real-time بخوایم، این عالیه. بیشتر به درد data analytics می‌خوره.
۵. HoraeDB

جدید و خیلی پیشرفته‌ست، برای داده‌های سری زمانی با کاردینالیتی بالا طراحی شده. با Rust نوشته شده، cloud-native و zero-disk هم هست، یعنی بخش ذخیره‌سازی و محاسبات جداست. هنوز نوپاست ولی آینده‌داره.
۶. ScyllaDB / Cassandra

برای write-heavy عالی‌ان. اگر مدل داده رو خوب طراحی کنیم، می‌تونه حجم بسیار بالای داده رو سریع ذخیره کنه.

مثال در DevOps Metrics :

۱. average (میانگین)
کاربرد:

محاسبه‌ی میانگین زمان پاسخ (Average Response Time)

محاسبه‌ی میانگین زمان استقرار (Average Deployment Time)

تحلیل Load average روی سرورها

مثال:

فرض کن Prometheus از endpoint اپلیکیشن، latency را برمی‌دارد:

avg_over_time(http_request_duration_seconds[5m])

میانگین زمان پاسخ‌گویی در ۵ دقیقه‌ی گذشته را محاسبه می‌کند.
📉 ۲. sampling (نمونه‌برداری)
کاربرد:

کاهش داده‌های ذخیره‌شده در زمان طولانی

بررسی نمای کلی بدون بار زیاد روی سیستم

ایجاد alertها بدون چک کردن ۱۰۰٪ داده‌ها

مثال:

در ابزارهای مانیتورینگ مثل Datadog یا NewRelic، به‌جای بررسی تمام ترافیک، تنها 10٪ نمونه‌برداری می‌شود:

Sampling rate = 0.1 (10% of total traffic)

⬇️ ۳. downsampling (کاهش نرخ داده‌های زمانی)
کاربرد:

نمایش داشبوردهای گرافانا با سرعت بالا

نگهداری long-term metrics (مثلاً ۱ سال اخیر، فقط داده ساعتی)

کاهش بار حافظه/دیسک برای داده‌های time-series

مثال با Prometheus:

avg_over_time(cpu_usage[1h])

داده‌های دقیقه‌ای CPU را به داده‌های ساعتی تبدیل می‌کند (میانگین هر ساعت).

در Grafana هم می‌تونیم تنظیم کنیم که هر بار فقط 1 نقطه در هر 5 دقیقه نمایش داده بشه، نه همه‌ی 1000 داده‌ی خام.

🧩 ۴. backfill (پر کردن داده‌ی گمشده با مقادیر آینده)
کاربرد:

وقتی سرویس مانیتورینگ قطع شده و بعداً reconnect می‌شود

بازیابی گراف‌ها برای تحلیل گذشته (retroactive metrics)

مثال:

فرض کن alertها با داده‌های ناقص کار نمی‌کنن. پس از reconnect شدن agent مانیتورینگ، سیستم مقدار بعدی رو backward propagate می‌کنه:

If data at 10:00 is missing,
use 10:01 value to fill 10:00 slot (backfill)

در ابزارهایی مثل VictoriaMetrics، InfluxDB و TimescaleDB، backfill یکی از ابزارهای مهم در pre-processing داده‌هاست.
ترکیب کاربردها در سناریوی واقعی

🔧 فرض: داری latency یک microservice رو در Grafana نشون می‌دی و باید alert بذاری که وقتی latency بیش از ۵۰۰ms شد، هشدار بده.

برای اینکه سیستم نترکه از انبوه داده، چه می‌کنی؟

با sampling فقط 10٪ داده رو بررسی می‌کنی

با downsampling گراف رو روی میانگین 1 دقیقه‌ای می‌ذاری

با average داده‌های noisy رو صاف می‌کنی

اگر داده‌ای نبود، backfill یا forward fill می‌کنی که alertها skip نشن


#database #time #series #bigdata #InfluxDB #ScyllaDB #Cassandra #ClickHouse #QuestDB #TimescaleDB #HoraeDB
https://t.me/unixmens