آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

ساب‌کوئری‌ در کوئری‌های دیتابیس

زیرپرس‌وجو یا Subquery، یک کوئری تودرتو (nested query) هست که داخل کوئری دیگه قرار می‌گیره. به عبارت دیگه، ساب‌کوئری یک پرس‌وجوی SQL هست که به عنوان بخشی از یک کوئری دیگه اجرا می‌شه. ساب‌کوئری می‌تونه در بخش‌های مختلف یک کوئری اصلی مثل SELECT، FROM، WHERE، HAVING و حتی در دستورهای UPDATE و DELETE استفاده شه.

🔵

انواع Subquery

🔵

ساب‌کوئری‌های تک‌ارزش (Scalar Subqueries): یک مقدار منفرد رو برمی‌گردونن. این ساب‌کوئری‌ها معمولا در عبارات WHERE یا SELECT استفاده می‌شن. در مثال زیر، ساب‌کوئری میانگین حقوق رو محاسبه کرده و اون رو به کوئری اصلی برمی‌گردونه تا کارمندانی که حقوقشون بالاتر از میانگینه رو انتخاب کنه.

SELECT name
FROM employees
WHERE salary > (SELECT AVG(salary) FROM employees);

🔵

ساب‌کوئری‌های چندارزش (Multi-Value Subqueries): یک مجموعه‌ای از مقادیر رو برمی‌گردونن و معمولاً با عملگرهایی مثل IN استفاده می‌شن. در این مثال، ساب‌کوئری لیست شناسه‌های دپارتمان‌های واقع در نیویورک رو برمی‌گردونه و کوئری اصلی کارمندانی رو انتخاب می‌کنه که در این دپارتمان‌ها مشغول به کار هستن.

SELECT name
FROM employees
WHERE department_id IN (SELECT department_id FROM departments WHERE location = 'New York');

🔵

ساب‌کوئری‌های وابسته (Correlated Subqueries): به کوئری اصلی وابسته هستن و برای هر ردیف از کوئری اصلی یک بار اجرا می‌شن. در این مثال، ساب‌کوئری برای هر ردیف از کوئری اصلی اجرا می‌شه و میانگین حقوق رو برای دپارتمان خاص اون ردیف محاسبه می‌کنه.

SELECT name
FROM employees e1
WHERE salary > (SELECT AVG(salary) FROM employees e2 WHERE e1.department_id = e2.department_id);

🔵

استفاده از ساب‌کوئری‌ها در بخش‌های مختلف کوئری

🔵

ساب‌کوئری در عبارت SELECT: ساب‌کوئری‌ها می‌تونن به عنوان یک ستون در عبارت SELECT استفاده شن. در مثال زیر، تعداد پروژه‌هایی که هر کارمند مدیریت می‌کنه به عنوان یک ستون اضافی در نتایج کوئری اصلی نشون داده می‌شه.

SELECT name, (SELECT COUNT(*) FROM projects WHERE manager_id = e.employee_id) AS project_count
FROM employees e;

🔵

ساب‌کوئری در عبارت FROM: ساب‌کوئری‌ها می‌تونن به عنوان یک جدول موقت در عبارت FROM استفاده شن. در مثال زیر، ساب‌کوئری میانگین حقوق هر دپارتمان رو محاسبه می‌کنه و به عنوان یک جدول موقت (sub) استفاده می‌شه تا دپارتمان‌هایی که میانگین حقوقشون بالاتر از ۵۰۰۰۰ هست انتخاب شن.

SELECT sub.department_id, sub.avg_salary
FROM (SELECT department_id, AVG(salary) AS avg_salary FROM employees GROUP BY department_id) sub
WHERE sub.avg_salary > 50000;

🔵

مزایا ساب‌کوئری‌: انعطاف‌پذیری بالایی دارن و امکان ایجاد کوئری‌های پیچیده و پویا رو فراهم می‌کنن. همچنین، استفاده ازشون خوانایی کوئری رو بهبود می‌بخشه و به جداسازی منطق پیچیده از کوئری اصلی کمک می‌کنن.

🔵

معایب ساب‌کوئری‌: اجرای ساب‌کوئری‌ها، به خصوص ساب‌کوئری‌های وابسته، ممکنه باعث کاهش کارایی کوئری شه چون برای هر ردیف کوئری اصلی اجرا می‌شه. درک و نگهداری کوئری‌هایی که از ساب‌کوئری‌های زیاد و پیچیده استفاده می‌کنن هم سخته.

🔵

بهینه‌سازی ساب‌کوئری‌ها: ایجاد ایندکس‌ روی ستون‌هایی که در ساب‌کوئری‌ها استفاده می‌کنن سرعت اجرای کوئری رو افزایش می‌ده. در بعضی موارد می‌شه ساب‌کوئری‌ رو با JOIN جایگزین کرد تا کارایی بهتری داشته باشن؛ تقسیم کوئری‌های پیچیده به کوئری‌های کوچک‌تر و ساده‌تر به بهبود کارایی و خوانایی کمک می‌کنه.

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4👏2👌2👨‍💻2❤1

505 views11:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۱۷۷: کدوم یک از موارد زیر در مورد عملگر EXISTS در Subquery صحیح نیست؟

Anonymous Quiz

22%

تمام ردیف‌های Subquery رو قبل از ارزیابی نتیجه پردازش می‌کنه.

13%

زمانی که حداقل یک ردیف برگردانده شه، TRUE می‌شه.

35%

معمولاً با یک زیرپرس‌وجوی وابسته استفاده می‌شه.

30%

همیشه یک مقدار Boolean (درست یا نادرست) برمی‌گردونه.

👍6😁2😎1

23 voters481 views15:49

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓 بررسی مفهوم ساب‌کوئری با یک مثال

دو جدول مشتری با ستون‌های customer_name و customer_id و سفارشات با ستون‌های order_date، customer_id و order_id داریم. برای پیدا کردن نام مشتریانی که تعداد سفارش‌هاشون بیشتر از میانگین تعداد سفارش‌های همه مشتریانه، از یک Subquery استفاده می‌کنیم.

🥇اول، تعداد سفارش‌ها برای هر مشتری رو محاسبه می‌کنیم:

SELECT customer_id, COUNT(order_id) AS order_count
FROM Orders
GROUP BY customer_id

🥈بعد میانگین تعداد سفارش‌ها رو از این نتایج محاسبه می‌کنیم:

SELECT AVG(order_count)
FROM (
    SELECT customer_id, COUNT(order_id) AS order_count
    FROM Orders
    GROUP BY customer_id
) AS subquery

🥉در نهایت، مشتریانی که تعداد سفارش‌هاشون بیشتر از این میانگینه رو انتخاب می‌کنیم:

SELECT customer_name
FROM Customers
WHERE customer_id IN (
    SELECT customer_id
    FROM Orders
    GROUP BY customer_id
    HAVING COUNT(order_id) > (
        SELECT AVG(order_count)
        FROM (
            SELECT customer_id, COUNT(order_id) AS order_count
            FROM Orders
            GROUP BY customer_id
        ) AS subquery
    )
);

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5👏2👌1

480 views17:30

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

ابزارها و نرم‌افزارهای پایگاه داده

دو نوع اصلی پایگاه داده‌ها SQL و NoSQL هستن که هر کدوم از این دو نوع پایگاه داده ابزارها و نرم‌افزارهای خاص خودشون رو دارن.

🔵

پایگاه داده‌های SQL

🔵یکی از محبوب‌ترین پایگاه داده‌های متن‌باز MySQL هست که توسط شرکت Oracle توسعه و پشتیبانی می‌شه. این پایگاه داده به دلیل سرعت بالا، کارایی مناسب و امنیت قابل قبول در بین توسعه‌دهندگان بسیار محبوبه. MySQL به طور گسترده در وب‌سایت‌ها، برنامه‌های وب و سیستم‌های مدیریت محتوا مثل وردپرس استفاده می‌شه.

🔵پایگاه داده‌ی رابطه‌ای متن‌باز دیگه PostgreSQL به دلیل پشتیبانی از ویژگی‌های پیشرفته و سازگاری با استانداردهای SQL، شناخته شده. این پایگاه داده قابلیت‌های متنوعی مثل پشتیبانی از داده‌های JSON، نسخه‌سازی داده‌ها و پشتیبانی از تراکنش‌های ACID رو داراست که اون رو برای برنامه‌های پیچیده مناسب می‌کنه.

🔵پایگاه داده‌ی Microsoft SQL Server توسط شرکت مایکروسافت توسعه پیدا کرده. این پایگاه داده به دلیل یکپارچگی با محصولات مایکروسافت مثل ویژوال استودیو و Azure، امنیت بالا و امکانات پیشرفته‌ی مدیریت داده‌ها، در بین شرکت‌ها و سازمان‌های بزرگ محبوبیت داره.

🔵پایگاه داده‌های رابطه‌ای Oracle Database توسط شرکت اوراکل توسعه پیدا کرده و به دلیل پشتیبانی از پردازش موازی، مدیریت حجم‌های بزرگ داده و امنیت بالا معروفه و به همین دلیل در برنامه‌های حیاتی و سیستم‌های بزرگ مالی و بانکی استفاده می‌شه.

🔵

پایگاه داده‌های NoSQL

🔵پایگاه داده‌ی MongoDB داده‌ها رو به صورت JSON-like ذخیره می‌کنه و به دلیل انعطاف‌پذیری در ساختار داده‌ها، مقیاس‌پذیری بالا و پشتیبانی از ویژگی‌هایی مثل جستجوی کامل متن و تجمع داده‌ها، بسیار محبوبه. MongoDB در برنامه‌های وب، برنامه‌های موبایل و تحلیل داده‌ها به طور گسترده استفاده می‌شه.

🔵یک پایگاه داده‌ی ستونی توزیع‌شده Cassandra هست که توسط Apache Software Foundation توسعه پیدا کرده. این پایگاه داده به دلیل مقیاس‌پذیری بالا، تحمل خطای زیاد و کارایی مناسب در مدیریت حجم‌های بزرگ داده، در بین شرکت‌های نت‌فلیکس و توییتر استفاده می‌شه.

🔵یک پایگاه داده‌ی کلید-مقدار در حافظه Redis هست که برای ذخیره و مدیریت داده‌های موقتی و دایمی استفاده می‌شه. Redis به دلیل سرعت بسیار بالا، پشتیبانی از ساختارهای داده‌ی پیچیده و قابلیت اجرای عملیات ACID، در برنامه‌های وب، کش‌های توزیع‌شده و پیام‌رسانی بلادرنگ استفاده می‌شه.

🔵

ابزارهای مدیریت و توسعه پایگاه داده

علاوه بر نرم‌افزارهای اصلی پایگاه داده، ابزارهای متعددی برای مدیریت و توسعه پایگاه داده‌ها وجود دارن. بعضی از این ابزارها عبارتند از:

🔵ابزار تحت وب phpMyAdmin برای مدیریت پایگاه داده‌های MySQL و MariaDB هست. phpMyAdmin به دلیل رابط کاربری ساده و قابلیت‌های گسترده، بسیار محبوبه.

🔵ابزار pgAdmin برای مدیریت پایگاه داده‌های PostgreSQL هست. این ابزار امکان مدیریت و توسعه پایگاه داده‌های PostgreSQL را از طریق یک رابط کاربری گرافیکی فراهم می‌کنه.

🔵ابزار MongoDB Compass برای مدیریت پایگاه داده‌های MongoDB هست. این ابزار به کاربران امکان می‌ده تا داده‌ها رو به صورت بصری مشاهده و ویرایش کنن، کوئری‌های پیچیده رو اجرا کنن و شاخص‌ها رو مدیریت کنن.

🔵یک ابزار جامع و چند‌منظوره برای مدیریت پایگاه داده‌ها DBeaver هست که از انواع مختلف پایگاه داده‌ها، SQL و NoSQL، پشتیبانی می‌کنه.

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2🔥1👨‍💻1

503 views08:42

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۱۷۸: کدوم یک از ابزارهای زیر یک راه‌حل مجازی‌سازی داده است که می‌تونه داده‌های ناهمگن از منابع مختلف رو یکپارچه کنه و به عنوان یک لایه انتزاعی بین برنامه‌های کاربردی و منابع داده عمل کنه؟

Anonymous Quiz

Informatica PowerCenter

👍3❤1🤔1👌1😎1

25 voters486 views14:30

آموزش دیتاساینس و ماشین‌لرنینگ

🔖

بهترین ابزارهای نرم‌افزاری علم داده

🔠

پایگاه داده: PostgreSQL، DuckDB

🔠

استخراج داده‌های وب: Beautiful Soup، Zyte

🔠

تحلیل داده: Python، R، Tableau

🔠

یادگیری ماشین: FastAI، TensorFlow

🔠

گزارش‌دهی: Jupyter Notebook

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1👏1👌1

566 views17:31

آموزش دیتاساینس و ماشین‌لرنینگ

⏰

پست‌های هفته‌ای که گذشت رو این‌جا پیدا کنین!

🔺

آموزشی

🔵عملیات CRUD در پایگاه‌های داده

📎

https://t.me/data_ml/630

🔵پرس‌وجو یا Query در پایگاه داده

📎

https://t.me/data_ml/633

🔵به‌کارگیری شرط (WHERE) در پرس‌وجوها

📎

https://t.me/data_ml/636

🔵مفاهیم Group By و Order By در پایگاه‌ داده‌ها

📎

https://t.me/data_ml/639

🔵آشنایی با Subquery یا زیرپرس‌وجو

📎

https://t.me/data_ml/642

🔵ابزارها و نرم‌افزارهای پایگاه داده

📎

https://t.me/data_ml/646

🔺

کوئیز

🔵کوییز شماره ۱۷۳: مزایای استفاده از Stored Procedures

📎

https://t.me/data_ml/631

🔵کوییز شماره ۱۷۴: عبارت MERGE در SQL

📎

https://t.me/data_ml/634

🔵کوییز شماره ۱۷۵: بررسی یک کوئری

📎

https://t.me/data_ml/637

🔵کوییز شماره ۱۷۶: از GROUP BY با ROLLUP

📎

https://t.me/data_ml/640

🔵کوییز شماره ۱۷۷: عملگر EXISTS در Subquery

📎

https://t.me/data_ml/644

🔵کوییز شماره ۱۷۸: یک ابزار برای یکپارچه سازی داده

📎

https://t.me/data_ml/647

🔺

نکته

🔵 بلاگ زبان SQL و دستورهای آن برای دیتا ساینس

📎

https://t.me/data_ml/632

🔵تفاوت پایگاه‌های داده SQL و NoSQL

📎

https://t.me/data_ml/635

🔵متداول‌ترین سوالات مصاحبه SQL

📎

https://t.me/data_ml/638

🔵بررسی کامل یک کوئری

📎

https://t.me/data_ml/641

🔵بررسی مفهوم ساب‌کوئری با یک مثال

📎

https://t.me/data_ml/645

🔵بهترین ابزارهای نرم‌افزاری علم داده

📎

https://t.me/data_ml/648

#Weekend
#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥6👍2👏2

527 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

👩‍🎓

برنامه آموزشی هفته: پایگاه داده‌ها - بخش دوم

🟠شنبه: نرمال‌سازی

🔵یک‌شنبه: ایندکس‌گذاری

🟢دوشنبه: انواع جوین

🔴سه‌شنبه: انبار داده یا Warehousing

🟠چهارشنبه: پایگاه‌های داده NoSQL

🔵پنج‌شنبه: پشتیبان‌گیری و بازیابی

🟢جمعه: جمع‌بندی

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍3❤1👏1👌1

508 views12:31

آموزش دیتاساینس و ماشین‌لرنینگ

Audio

🟡

توضیحات وبینار رایگان بازارکار علم داده و تحلیل داده

🔵 سرفصل‌ها:
🔵موقعیت‌های شغلی جهانی مرتبط با داده
🔵نحوه جستجو کردن شغل در #لینکدین و ست کردن جاب آلارم
🔵آشنایی با ساختار شرح شغل‌ها و نحوه بهبود صفحه شخصی براساس نیاز شرکت‌ها
🔵بررسی راه‌های شبکه‌سازی در لینکدین
🔵راهکارهای افزایش احتمال موفقیت در تماس اولیه از طرف شرکت‌ها
🔵بررسی ترفندهای جستجو شغل
🔵 ۵ نکته کلیدی در فرآیند جستجو شغل
🔵پنل پرسش و پاسخ

🗓 فردا، ۱۶ تیر
⏰ ساعت ۲۰

🟢

برای دریافت جزئیات بیشتر و ثبت‌نام رایگان، به لینک زیر سر بزنین:

👉

📎

http://ctdrs.ir/cr15841

#Webinars

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍4❤2🔥2👏1

489 views16:50

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

نرمال‌سازی و نرمال‌زدایی در پایگاه‌های داده

در پایگاه‌های داده، مدیریت بهینه داده‌ها اهمیت خاصی داره. دو تکنیک اساسی که برای بهبود عملکرد و یکپارچگی داده‌ها به کار می‌رن، نرمال‌سازی و نرمال‌زدایی (Normalization and Denormalization) هستن. انتخاب بین این دو روش باید بر اساس نیازها و الزامات سیستم انجام شه تا بهترین عملکرد و کارایی به دست بیاد.

🔵

نرمال‌سازی: نرمال‌سازی فرآیندیه که طی اون ساختار پایگاه داده به نحوی طراحی می‌شه که داده‌های اضافه و تکراری حذف شن و داده‌ها به صورت منطقی و با یکپارچگی بالا سازماندهی شن. هدف اصلی نرمال‌سازی، کاهش افزونگی و جلوگیری از ناسازگاری داده‌هاست.

🔵

مزایای نرمال‌سازی: کاهش افزونگی داده‌ها با حذف داده‌های تکراری و بهینه‌تر شدن مصرف فضای ذخیره‌سازی، بهبود یکپارچگی داده‌ها از طریق جلوگیری از تناقضات و ناسازگاری‌ها که منجر به دقیق‌تر و منسجم‌تر شدن داده‌ها می‌شه، ساده‌ و سریع‌تر کردن به‌روزرسانی داده‌ها، افزایش امنیت با تفکیک داده‌ها و آسان‌تر شدن کنترل دسترسی به داده‌های حساسه.

🔵

مراحل یا تکنیک‌های نرمال‌سازی: نرمال‌سازی به مراحل مختلفی تقسیم می‌شه که به هر کدوم از این مراحل، فرم نرمال می‌گن. بعضی از مهم‌ترین فرم‌های نرمال عبارتند از:

-فرم نرمال اول (1NF): در این فرم، همه ستون‌های جدول باید atomic باشن، یعنی هر ستون باید تنها یک مقدار منحصر به فرد داشته باشه و جداول باید بدون تکرار و چندتایی باشن.

-فرم نرمال دوم (2NF): برای رسیدن به فرم نرمال دوم، اول باید جدول به فرم نرمال اول رسیده باشه. بعد همه ستون‌های غیر کلیدی باید به کلید اصلی به‌طور کامل وابسته باشن، یعنی نباید هیچ‌گونه وابستگی جزئی وجود داشته باشه.

-فرم نرمال سوم (3NF): برای رسیدن به فرم نرمال سوم، اول باید جدول به فرم نرمال دوم رسیده باشه. بعد هیچ‌ کدوم از ستون‌های غیر کلیدی نباید به ستون‌های غیر کلیدی دیگه وابستگی Transitive داشته باشن.

وابستگی ترانزیتی (Transitive Dependency) در پایگاه‌های داده به وضعیتی گفته می‌شه که یک ستون غیر کلیدی به یک ستون غیر کلیدی دیگه وابسته باشه، نه به کلید اصلی.

-فرم نرمال بویس-کاد (Boyce-Codd Normal Form - BCNF): این فرم تکمیل‌کننده فرم نرمال سومه و اطمینان حاصل می‌کنه که هر وابستگی تابعی در جدول، باید تنها و تنها به کلید اصلی وابسته است.

-فرم نرمال چهارم (4NF): این فرم از چند مقدار بودن جداول جلوگیری می‌کنه تا هیچ ترکیب چند مقداری از داده‌ها در یک جدول وجود نداشته باشه.

-فرم نرمال پنجم (5NF): این فرم اطمینان می‌ده که هیچ وابستگی پیوستی در جدول وجود نداره و جداول باید به نحوی باشن که بدون از دست دادن اطلاعات بشه اونها رو به بخش‌های کوچک‌تر تقسیم کرد.

وابستگی پیوستی (Join Dependency) زمانی اتفاق می‌افته که یک جدول نمی‌تونه بدون از دست دادن اطلاعات به جداول کوچکتر تقسیم شه. به عبارت دیگه، اگه جدول به جداول کوچکتر تقسیم شه، برای بازسازی اطلاعات اصلی نیاز به پیوندهای پیچیده (Join) خواهد بود.

🔵

نرمال‌زدایی: نرمال‌زدایی فرآیندیه که طی اون جداول نرمال‌سازی شده به منظور بهبود عملکرد سیستم و کاهش تعداد جستجوها (joins) به شکل اولیه‌شون بازگردانده می‌شن. در واقع، نرمال‌زدایی به معنی اضافه کردن افزونگی کنترل شده به پایگاه داده است.

🔵

مزایای نرمال‌زدایی: افزایش سرعت دسترسی به داده‌ها، به دلیل کاهش تعداد جستجوها و بهبود زمان دسترسی، کاهش پیچیدگی جستجوها و ساده‌تر شدن اونها، بهبود عملکرد کلی سیستم به دلیل بهینه‌سازی دسترسی به داده‌ها و کاهش تعداد جستجوها.

🔵

معایب نرمال‌زدایی: افزایش فضای ذخیره‌سازی به دلیل اضافه شدن افزونگی، افزایش احتمال تناقضات با اضافه شدن داده‌های اضافی، و پیچیدگی بیشتر در به‌روزرسانی داده‌ها که فرایندها رو زمان‌بر تر می‌کنه.

🔵

کاربردهای نرمال‌زدایی: نرمال‌زدایی بیشتر در سیستم‌هایی که نیاز به خوندن سریع داده‌ها دارن و عملیات نوشتن و به‌روزرسانی کمتر انجام می‌شه، به کار می‌ره. مثال‌هایی از این سیستم‌ها شامل پایگاه‌های داده‌ی تحلیلی و انبارهای داده (Data Warehouses) هستن.

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍3👏2👌1

587 views08:30

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۱۷۹: در چه شرایطی استفاده از نماهای پیش‌محاسبه‌شده (Materialized Views) در نرمال‌زدایی توصیه می‌شه؟

Anonymous Quiz

47%

زمانی که نیاز به حفظ سازگاری داده‌هاست.

13%

زمانی که پرس‌وجوها نیاز به پردازش پیچیده‌ای ندارن.

27%

زمانی که پرس‌وجوها بیشتر روی داده‌های تاریخی انجام می‌شن.

13%

زمانی که داده‌ها به ندرت به‌روزرسانی می‌شن.

👌5❤2🤔2😎1

15 voters527 views14:30

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓 مروری بر تکنیک‌های نرمال‌زدایی

✔️

معرفی ستون‌های افزونه (Redundant Columns): اطلاعات اضافی که به‌صورت مکرر در چند جدول استفاده می‌شن، در یک جدول نگهداری می‌شن. این روش باعث کاهش تعداد Join در پرس‌وجوها و بهبود عملکرد می‌شه.

مثال: اضافه کردن نام مشتری به جدول سفارشات تا نیاز به پیوند جدول مشتریان و سفارشات کاهش پیدا کنه.

✔️

تقسیم جدول به صورت عمودی (Vertical Table Splitting): تقسیم جدول بر اساس ستون‌ها و کلید اصلی برای هر بخش استفاده می‌شه. این روش زمانی مفیده که بعضی از ستون‌ها بیشتر از بقیه استفاده شن.

مثال: تقسیم جدول بیماران به دو جدول Patient_Details و Patient_Medical_History برای جدا کردن اطلاعات عمومی بیماران از سوابق پزشکی‌شون.

✔️

تقسیم جدول به صورت افقی (Horizontal Table Splitting): تقسیم سطرهای جدول به جداول کوچک‌تره. هر جدول دارای ستون‌های یکسانیه و این روش برای مدیریت داده‌های جداگانه بر اساس منطقه یا دسته‌بندی خاص مفیده.

مثال: تقسیم جدول اطلاعات دانشجویان به جداول جداگانه بر اساس دانشکده‌های مختلف.

✔️

افزودن ستون‌های مشتق‌شده (Derived Columns): اضافه شدن ستون‌های جدیدی که دارای مقادیر محاسبه‌شده یا مشتق‌شده از ستون‌های دیگه هستن. در نتیجه نیاز به محاسبات مکرر در پرس‌وجوها کاهش پیدا می‌کنه.

مثال: اضافه کردن ستون مجموع نمرات به جدول دانشجویان برای جلوگیری از محاسبه مجدد مجموع نمرات در هر پرس‌وجو.

✔️

استفاده از جداول آینه‌ای (Mirrored Tables): ایجاد یک نسخه کامل یا جزئی از یک جدول موجود که به صورت جداگانه نگهداری می‌شه و برای بهبود عملکرد پرس‌وجوهای خواندنی بهینه‌سازی شده. این جداول معمولاً برای بار کاری سنگین Read only استفاده می‌شن.

مثال: ایجاد نسخه‌ای از جدول سفارشات که فقط شامل سفارشات فعاله و برای پرس‌وجوهای مکرر مربوط به سفارشات فعال بهینه‌سازی شده.

✔️

نماهای ذخیره‌شده (Materialized Views): نماهای ذخیره‌شده نتایج پرس‌وجوهای پیش‌محاسبه‌شده هستن که به‌صورت جداگانه در یک جدول ذخیره می‌شن. این تکنیک برای پرس‌وجوهای پیچیده و سنگین که نتایج مکرراً استفاده می‌شن، مناسبه.

مثال: ایجاد یک Materialized Views برای نمایش مجموع فروش ماهانه که نیاز به پیوند جداول فروش و محصولات رو کاهش می‌ده.

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤4👍1🔥1👏1

538 views17:51

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

مفهوم ایندکس‌گذاری در پایگاه‌های داده

ایندکس در پایگاه‌های داده، دسترسی سریع به داده‌ها رو ممکن می‌کنه. ایندکس‌ها مثل فهرست یک کتاب عمل می‌کنن؛ به این معنی که برای پیدا کردن سریع یک رکورد خاص در جدول داده‌ها، از ایندکس استفاده می‌شه. بدون وجود ایندکس، جستجو در پایگاه داده نیازمند اسکن کامل جدوله که می‌تونه بسیار زمان‌بر باشه.

🔵

انواع ایندکس‌ها

🔵

ایندکس‌گذاری اولیه (Primary Index): ایندکس‌گذاری اولیه معمولاً روی کلید اولیه (Primary Key) یک جدول ایجاد می‌شه. کلید اولیه هر رکورد رو به صورت یکتا شناسایی می‌کنه و بنابراین ایندکس اولیه هم باید منحصر به فرد باشه. این ایندکس به پایگاه داده کمک می‌کنه تا سریعاً رکوردها رو بر اساس کلید اولیه پیدا کنه.

🔵

ایندکس‌گذاری ثانویه (Secondary Index): ایندکس‌های ثانویه برای افزایش سرعت جستجو بر اساس ستون‌های دیگه که کلید اولیه نیستن، ایجاد می‌شن. این ایندکس‌ها می‌تونن غیر یکتا باشن و معمولاً برای بهبود کارایی جستجوهای مکرر روی یک یا چند ستون خاص استفاده می‌شن.

🔵

روش‌های ایجاد ایندکس

🔵

ایجاد ایندکس با استفاده از SQL: برای ایجاد ایندکس در پایگاه داده می‌شه از دستورات SQL استفاده کرد. دستور CREATE INDEX به همراه مشخص کردن نام ایندکس، نام جدول و ستون یا ستون‌هایی که باید ایندکس شن، به کار می‌رن. برای مثال:

CREATE INDEX idx_name ON table_name(column_name);

🔵

ایندکس‌گذاری اتوماتیک: بعضی از سیستم‌های مدیریت پایگاه داده (DBMS) به صورت خودکار ایندکس‌هایی رو بر اساس تحلیل استفاده و جستجوهای مکرر ایجاد می‌کنن. این ویژگی به بهبود کارایی بدون نیاز به دخالت مستقیم مدیریت پایگاه داده کمک می‌کنه.

🔵

به‌روزرسانی و حذف ایندکس‌ها: ایندکس‌ها هم مثل داده‌ها نیاز به مدیریت دارن. به‌روزرسانی ایندکس‌ها زمانی که داده‌های اصلی تغییر می‌کنن، انجام می‌شه. همچنین، در صورتی که به وجود یک ایندکس دیگه نیاز نباشه می‌شه حذفش کرد.

🔵 پیاده‌سازی ایندکس‌ها

🔵

ایندکس‌های B-tree: یکی از رایج‌ترین ساختارهای داده‌ای B-tree است که برای پیاده‌سازی ایندکس‌ها در پایگاه‌های داده استفاده می‌شه. B-tree یک درخت خود-متعادل (Self-balancing) است که هر گره‌اش می‌تونه تعداد زیادی فرزند داشته باشه. این ویژگی باعث می‌شه که ارتفاع درخت نسبتاً کم باشه و دسترسی به داده‌ها سریع انجام شه.

- مزایا: به دلیل ساختار درختی، زمان دسترسی به داده‌ها رو به شکل لگاریتمی کاهش می‌ده که باعث کارایی بالا در جستجو و مرتب‌سازی می‌شه. B-tree برای جستجوهای محدوده‌ای کارآمده چون می‌تونه به سرعت داده‌هایی رو که در یک محدوده خاص قرار دارن، پیدا کنه. در نهایت، این ساختار از انعطاف‌پذیری بالایی برخورداره و برای ایندکس‌های اولیه، ثانویه و ترکیبی مناسبه.

- معایب: نیاز به فضای ذخیره‌سازی زیاده داره چون باید اطلاعات ساختاری درخت رو ذخیره کنه. همچنین، مدیریت و نگهداری یک B-tree می‌تونه پیچیده باشه، به ویژه در پایگاه‌های داده با حجم زیاد تغییرات و اطلاعات.

🔵

ایندکس‌های هش (Hash Index): بر اساس جداول هش (Hash Tables) ساخته می‌شن. در این نوع ایندکس، هر مقدار کلید از طریق یک تابع هش به یک مکان خاص در جدول هش نگاشت می‌شه و این مکان خاص به داده مربوطه اشاره می‌کنه.

- مزایا: سرعت بسیار بالا در جستجوهای دقیق (Exact Match) و ایندکس‌های هش نسبت به B-tree ساده‌تر پیاده‌سازی و مدیریت می‌شن، که در نتیجه باعث کاهش پیچیدگی در فرآیندهای نگهداری و به‌روزرسانی ایندکس‌ها می‌شه.

- معایب: عدم پشتیبانی از جستجوهای محدوده‌ای؛ یعنی ایندکس‌های هش برای جستجوهایی که نیاز به بررسی یک محدوده از داده‌ها دارن، مناسب نیستن. همچنین، در صورتی که تابع هش دو کلید مختلف رو به یک مکان نگاشت کنه، Collision به وجود میاد که نیاز به مدیریتش داریم و این موضوع پیچیدگی رو افزایش می‌ده.

🔵

ایندکس‌های ترکیبی (Composite Index): ایندکس ترکیبی یک ایندکسه که روی بیشتر از یک ستون ایجاد می‌شه و برای جستجوهایی که نیاز به ترکیب چند ستون دارن، بهینه شده‌.

- مزایا: افزایش کارایی جستجوهای ترکیبی؛ به این معنی که ایندکس‌های ترکیبی می‌تونن سرعت جستجوهایی که بر اساس چند ستون انجام می‌شن رو بهبود بدن.

- معایب: مدیریت ایندکس‌های ترکیبی ممکنه پیچیده باشه، به خصوص اگه تعداد ستون‌های ایندکس شده زیاد باشن و هر بار که داده‌ها در ستون‌های ایندکس شده تغییر می‌کنن، ایندکس ترکیبی هم باید به‌روز شه که هزینه‌بره.

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥5❤3👍2👏1

572 viewsedited 09:31

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۱۸۰: کدوم یک از گزینه‌های زیر، توصیفی از ایندکس خوشه‌بندی شده (Clustered Index) در پایگاه‌داده‌هاست؟

Anonymous Quiz

19%

فقط در پایگاه‌داده‌های NoSQL استفاده می‌شه

15%

هیچ تأثیری روی ترتیب فیزیکی داده‌ها نداره

44%

باعث مرتب‌سازی فیزیکی داده‌ها بر اساس کلید ایندکس می‌شه

22%

در پایگاه‌داده‌های توزیع‌شده استفاده نمی‌شه

❤5👍2😎2🔥1

27 voters483 views14:33

آموزش دیتاساینس و ماشین‌لرنینگ

💡

مقایسه انبار داده و پایگاه داده

انبار داده (Data Warehouse):
- تحلیل داده‌ها
- ذخیره داده‌های خلاصه‌شده
- استفاده از OLAP (پردازش تحلیلی آنلاین) که بر اساس مدل داده چندبعدیه
- انجام عملیات پیچیده روی داده‌ها برای تحلیل
- نیاز به به‌روزرسانی داده‌ها برای دریافت اطلاعات جدید
- معمولاً برای استفاده چند برنامه کاربردی و بخش‌های مختلف سازمان طراحی می‌شه
- معمولاً برای پشتیبانی از تصمیم‌گیری و تحلیل‌های کلان استفاده می‌شه

پایگاه داده (Database):
- ثبت داده‌ها و تراکنش‌ها
- ذخیره داده‌های جزئی و دقیق
- استفاده از OLTP (پردازش تراکنش آنلاین) که اجرای لحظه‌ای تعداد زیادی از تراکنش‌های پایگاه داده رو ممکن می‌کنه
- انجام عملیات اساسی روی داده‌ها
- دسترسی لحظه‌ای به داده‌ها رو فراهم می‌کنه
- استفاده از داده‌ها از چند برنامه کاربردی
- معمولاً برای پشتیبانی از عملیات روزمره و تراکنش‌های جاری استفاده می‌شه

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤4👌2👨‍💻1

495 views17:31

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

انواع JOIN در پایگاه داده‌ها

جوین‌ها در SQL به ما امکان می‌دن داده‌ها رو از چند جدول با هم ترکیب کنیم. درک صحیح از انواع مختلف JOIN و نحوه استفاده از اونها، برای هر برنامه‌نویس پایگاه داده ضروریه.

🔵

پیوند چپ یا LEFT JOIN تمام رکوردهای جدول سمت چپ (A) رو به همراه رکوردهای مطابقت‌یافته از جدول سمت راست (B) برمی‌گردونه. اگه هیچ رکوردی در جدول سمت راست مطابقت نداشته باشه، مقدار NULL برای ستون‌های جدول سمت راست برمی‌گردونه.

🔵فرض کنید دو جدول employees و departments داریم. می‌خوایم تمام کارمندان رو همراه با نام دپارتمان‌هاشون نشون بدیم، حتی اگه کارمندی دپارتمان نداشته باشه.

SELECT employees.name, departments.department_name
FROM employees
LEFT JOIN departments ON employees.department_id = departments.id;

🔵

پیوند راست یا RIGHT JOIN تمام رکوردهای جدول سمت راست (B) رو به همراه رکوردهای مطابقت‌یافته از جدول سمت چپ (A) برمی‌گردونه. اگه هیچ رکوردی در جدول سمت چپ مطابقت نداشته باشه، مقدار NULL برای ستون‌های جدول سمت چپ برمی‌گردونه.

🔵فرض کنید دو جدول products و orders داریم. می‌خوایم تمام سفارش‌ها رو همراه با جزئیات محصولاتشون نشون بدیم، حتی اگه محصولی در سفارش‌ها نباشه.

SELECT orders.order_id, products.product_name
FROM orders
RIGHT JOIN products ON orders.product_id = products.id;

🔵

پیوند خارجی کامل یا FULL OUTER JOIN تمام رکوردهای هر دو جدول (A و B) رو برمی‌گردوند. اگه مطابقتی بین رکوردها نباشه، مقدار NULL برای ستون‌های جدول دیگه برمی‌گردوند.

🔵فرض کنید دو جدول students و courses داریم. می‌خوایم تمام دانشجویان و تمام دوره‌ها رو نشون بدیم، حتی اگه دانشجویی در دوره‌ای ثبت‌نام نکرده باشه یا دوره‌ای دانشجو نداشته باشه.

SELECT students.name, courses.course_name
FROM students
FULL OUTER JOIN courses ON students.course_id = courses.id;

🔵

پیوند داخلی یا INNER JOIN فقط رکوردهایی رو برمی‌گردونه که در هر دو جدول (A و B) مطابقت دارن.

🔵فرض کنید دو جدول authors و books داریم. می‌خوایم تمام کتاب‌ها رو همراه با نویسندگان نشون بدیم، فقط اگه کتابی نویسنده‌ای داشته باشه.

SELECT authors.name, books.title
FROM authors
INNER JOIN books ON authors.id = books.author_id;

🔵

پیوند چپ بدون پیوند داخلی یا LEFT JOIN EXCLUDING INNER JOIN رکوردهایی رو از جدول چپ (A) برمی‌گردونه که در جدول راست (B) مطابقت ندارن. این عملیات با ترکیب LEFT JOIN و WHERE IS NULL انجام می‌شه.

SELECT A.*
FROM A
LEFT JOIN B ON A.id = B.id
WHERE B.id IS NULL;

🔵

پیوند راست بدون پیوند داخلی یا RIGHT JOIN EXCLUDING INNER JOIN رکوردهایی رو از جدول راست (B) برمی‌گردونه که در جدول چپ (A) مطابقت ندارن. این عملیات با ترکیب RIGHT JOIN و WHERE IS NULL انجام می‌شه.

SELECT B.*
FROM A
RIGHT JOIN B ON A.id = B.id
WHERE A.id IS NULL;

🔵

پیوند خارجی کامل بدون پیوند داخلی یا FULL OUTER JOIN EXCLUDING INNER JOIN رکوردهایی رو از هر دو جدول (A و B) برمی‌گردونه که در جدول دیگه مطابقت ندارن. این عملیات با ترکیب FULL OUTER JOIN و WHERE IS NULL انجام می‌شه.

SELECT A.*, B.*
FROM A
FULL OUTER JOIN B ON A.id = B.id
WHERE A.id IS NULL OR B.id IS NULL;

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍3🔥2👌1

578 views09:31

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۱۸۱: در مورد پیوند HASH JOIN، کدوم گزینه صحیح نیست؟

Anonymous Quiz

22%

همیشه سریع‌تر از NESTED LOOP JOIN هست

28%

معمولاً برای جوین جداول بزرگ استفاده می‌شه

39%

از یک تابع هش برای ایجاد جدول هش استفاده می‌کنه

11%

می‌تونه در حافظه یا روی دیسک اجرا شه

❤6🤔2👌2😎1

18 voters486 views14:30

آموزش دیتاساینس و ماشین‌لرنینگ

💡

مقایسه انبار داده و دریاچه داده

انبار داده (Data Warehouse):
- قابلیت ذخیره‌سازی داده‌های ساختاریافته و پردازش‌شده
- دارای حجم کمتری از داده‌ها در حدود ترابایت
- شامل داده‌های تاریخی و رابطه‌ای
- بیشتر توسط تحلیل‌گران کسب‌وکار استفاده می‌شه
- کاربرد در پردازش دسته‌ای و گزارش‌دهی هوش تجاری
- دارای امنیت بالا و کامل
- ساختار انبار داده از قبل تعریف شده و برای پرس‌وجوهای خاص بهینه شده

دریاچه داده (Data Lake):
- قابلیت ذخیره‌سازی مقادیر زیادی از داده‌های ساختاریافته، نیمه‌ساختاریافته، غیرساختاریافته و خام
- دارای حجم بسیار زیادی از داده‌ها در حدود پتابایت
- داده‌ها می‌تونن برای انواع مختلفی از کاربردها مثل یادگیری ماشین، تحلیل‌ جریان داده و هوش مصنوعی استفاده شن
- بیشتر توسط دانشمندان داده و تحلیل‌گران داده استفاده می‌شه
- امنیت‌اش می‌تونه متغیر باشه و نیاز به مدیریت دقیق داره
- انعطاف‌پذیری بیشتری در ذخیره‌سازی و پردازش داده‌ها داره

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍2🔥2👌1

505 views18:00

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

انبار داده یا Data Warehousing

انبار داده یک سیستم مرکزیه که داده‌های سازمان رو از منابع مختلف جمع‌آوری، ذخیره و مدیریت می‌کنه تا برای تحلیل و گزارش‌دهی آماده باشن. این سیستم به منظور پشتیبانی از فرآیند تصمیم‌گیری و تحلیل‌های پیچیده طراحی شده.

🔵

مزایای انبار داده

🔵

تجمیع داده‌ها: انبار داده اطلاعات رو از منابع مختلف جمع‌آوری و در یک مکان واحد ذخیره می‌کنه. این کار باعث می‌شه که کاربران بتونن به داده‌های یکپارچه دسترسی داشته باشن و تحلیل‌های جامع‌تری انجام بدن.

🔵

بهبود کیفیت داده: در فرآیند ورود داده‌ها به انبار داده، عملیات تصحیح و پاک‌سازی داده‌ها انجام می‌شه. در نتیجه کیفیت داده‌ها افزایش پیدا می‌کنه و اطلاعات نادرست یا ناقص حذف می‌شن.

🔵افزایش کارایی تحلیل‌ها: با استفاده از انبار داده، کاربران می‌تونن به سرعت به داده‌های مورد نیازشون دسترسی پیدا کنن و تحلیل‌های پیچیده‌تری انجام بدن و فرآیند تصمیم‌گیری در سازمان‌ها بهبود پیدا کنه.

🔵

معماری انبار داده

🔵

لایه استخراج، تبدیل و بارگذاری (ETL): این لایه شامل فرآیندهای استخراج داده از منابع مختلف، تبدیل داده‌ها به فرمتی مناسب و بارگذاری اونها در انبار داده است. این مرحله مهم‌ترین بخش از فرآیند انبار داده است که به بهبود کیفیت و یکپارچگی داده‌ها کمک می‌کنه.

🔵

لایه ذخیره‌سازی: در این لایه، داده‌ها در ساختاری منظم و بهینه ذخیره می‌شه تا به راحتی قابل بازیابی و تحلیل باشن. معمولاً از پایگاه‌های داده رابطه‌ای (Relational Databases) برای این منظور استفاده می‌شه.

🔵

لایه دسترسی و تحلیل: این لایه شامل ابزارها و رابط‌هایی هست که به کاربران اجازه می‌ده به داده‌ها دسترسی پیدا کنن و تحلیل‌های مورد نیازشون رو انجام بدن. ابزارهایی مثل ابزارهای هوش تجاری (Business Intelligence) و داشبوردهای تحلیلی در این لایه قرار دارن.

🔵

ابزارها و فناوری‌های مرتبط با انبار داده

🔵

ابزارهای ETL: ابزارهای ETL مثل Informatica، Talend و Apache Nifi به استخراج، تبدیل و بارگذاری داده‌ها کمک می‌کنن. این ابزارها قابلیت‌های متنوعی برای پاک‌سازی، تبدیل و یکپارچه‌سازی داده‌ها ارائه می‌دن.

🔵

ابزارهای هوش تجاری: ابزارهای هوش تجاری مثل Tableau، Power BI و QlikView به تحلیل و بصری‌سازی داده‌ها کمک می‌کنن. این ابزارها قابلیت‌های گسترده‌ای برای ایجاد گزارش‌ها و داشبوردهای تعاملی ارائه می‌دن.

🔵

چالش‌های انبار داده

🔵

حجم بالای داده‌ها: یکی از چالش‌های اصلی انبار داده، مدیریت حجم بالای داده‌هاست. با افزایش حجم داده‌ها، نیاز به زیرساخت‌های قوی‌تر و بهینه‌سازی‌های پیچیده‌تر افزایش پیدا می‌کنه.

🔵

هماهنگی داده‌ها: هماهنگی داده‌ها از منابع مختلف و اطمینان از یکپارچگی و صحت اونها یک چالش بزرگ در انبار داده است. فرآیندهای ETL باید به دقت و با استفاده از تکنیک‌های پیشرفته انجام شن تا این چالش‌ها برطرف شن.

🔵

امنیت داده‌ها: حفظ امنیت و محرمانگی داده‌ها در انبار داده بسیار مهمه. دسترسی به داده‌ها باید به صورت محدود و کنترل‌شده باشه تا از افشای اطلاعات حساس جلوگیری شه.

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3🔥1👌1

623 views09:43

About

Blog

Apps

Platform