آموزش دیتاساینس و ماشین‌لرنینگ

💡

مقایسه انبار داده و پایگاه داده

انبار داده (Data Warehouse):
- تحلیل داده‌ها
- ذخیره داده‌های خلاصه‌شده
- استفاده از OLAP (پردازش تحلیلی آنلاین) که بر اساس مدل داده چندبعدیه
- انجام عملیات پیچیده روی داده‌ها برای تحلیل
- نیاز به به‌روزرسانی داده‌ها برای دریافت اطلاعات جدید
- معمولاً برای استفاده چند برنامه کاربردی و بخش‌های مختلف سازمان طراحی می‌شه
- معمولاً برای پشتیبانی از تصمیم‌گیری و تحلیل‌های کلان استفاده می‌شه

پایگاه داده (Database):
- ثبت داده‌ها و تراکنش‌ها
- ذخیره داده‌های جزئی و دقیق
- استفاده از OLTP (پردازش تراکنش آنلاین) که اجرای لحظه‌ای تعداد زیادی از تراکنش‌های پایگاه داده رو ممکن می‌کنه
- انجام عملیات اساسی روی داده‌ها
- دسترسی لحظه‌ای به داده‌ها رو فراهم می‌کنه
- استفاده از داده‌ها از چند برنامه کاربردی
- معمولاً برای پشتیبانی از عملیات روزمره و تراکنش‌های جاری استفاده می‌شه

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤4👌2👨‍💻1

495 views17:31

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

انواع JOIN در پایگاه داده‌ها

جوین‌ها در SQL به ما امکان می‌دن داده‌ها رو از چند جدول با هم ترکیب کنیم. درک صحیح از انواع مختلف JOIN و نحوه استفاده از اونها، برای هر برنامه‌نویس پایگاه داده ضروریه.

🔵

پیوند چپ یا LEFT JOIN تمام رکوردهای جدول سمت چپ (A) رو به همراه رکوردهای مطابقت‌یافته از جدول سمت راست (B) برمی‌گردونه. اگه هیچ رکوردی در جدول سمت راست مطابقت نداشته باشه، مقدار NULL برای ستون‌های جدول سمت راست برمی‌گردونه.

🔵فرض کنید دو جدول employees و departments داریم. می‌خوایم تمام کارمندان رو همراه با نام دپارتمان‌هاشون نشون بدیم، حتی اگه کارمندی دپارتمان نداشته باشه.

SELECT employees.name, departments.department_name
FROM employees
LEFT JOIN departments ON employees.department_id = departments.id;

🔵

پیوند راست یا RIGHT JOIN تمام رکوردهای جدول سمت راست (B) رو به همراه رکوردهای مطابقت‌یافته از جدول سمت چپ (A) برمی‌گردونه. اگه هیچ رکوردی در جدول سمت چپ مطابقت نداشته باشه، مقدار NULL برای ستون‌های جدول سمت چپ برمی‌گردونه.

🔵فرض کنید دو جدول products و orders داریم. می‌خوایم تمام سفارش‌ها رو همراه با جزئیات محصولاتشون نشون بدیم، حتی اگه محصولی در سفارش‌ها نباشه.

SELECT orders.order_id, products.product_name
FROM orders
RIGHT JOIN products ON orders.product_id = products.id;

🔵

پیوند خارجی کامل یا FULL OUTER JOIN تمام رکوردهای هر دو جدول (A و B) رو برمی‌گردوند. اگه مطابقتی بین رکوردها نباشه، مقدار NULL برای ستون‌های جدول دیگه برمی‌گردوند.

🔵فرض کنید دو جدول students و courses داریم. می‌خوایم تمام دانشجویان و تمام دوره‌ها رو نشون بدیم، حتی اگه دانشجویی در دوره‌ای ثبت‌نام نکرده باشه یا دوره‌ای دانشجو نداشته باشه.

SELECT students.name, courses.course_name
FROM students
FULL OUTER JOIN courses ON students.course_id = courses.id;

🔵

پیوند داخلی یا INNER JOIN فقط رکوردهایی رو برمی‌گردونه که در هر دو جدول (A و B) مطابقت دارن.

🔵فرض کنید دو جدول authors و books داریم. می‌خوایم تمام کتاب‌ها رو همراه با نویسندگان نشون بدیم، فقط اگه کتابی نویسنده‌ای داشته باشه.

SELECT authors.name, books.title
FROM authors
INNER JOIN books ON authors.id = books.author_id;

🔵

پیوند چپ بدون پیوند داخلی یا LEFT JOIN EXCLUDING INNER JOIN رکوردهایی رو از جدول چپ (A) برمی‌گردونه که در جدول راست (B) مطابقت ندارن. این عملیات با ترکیب LEFT JOIN و WHERE IS NULL انجام می‌شه.

SELECT A.*
FROM A
LEFT JOIN B ON A.id = B.id
WHERE B.id IS NULL;

🔵

پیوند راست بدون پیوند داخلی یا RIGHT JOIN EXCLUDING INNER JOIN رکوردهایی رو از جدول راست (B) برمی‌گردونه که در جدول چپ (A) مطابقت ندارن. این عملیات با ترکیب RIGHT JOIN و WHERE IS NULL انجام می‌شه.

SELECT B.*
FROM A
RIGHT JOIN B ON A.id = B.id
WHERE A.id IS NULL;

🔵

پیوند خارجی کامل بدون پیوند داخلی یا FULL OUTER JOIN EXCLUDING INNER JOIN رکوردهایی رو از هر دو جدول (A و B) برمی‌گردونه که در جدول دیگه مطابقت ندارن. این عملیات با ترکیب FULL OUTER JOIN و WHERE IS NULL انجام می‌شه.

SELECT A.*, B.*
FROM A
FULL OUTER JOIN B ON A.id = B.id
WHERE A.id IS NULL OR B.id IS NULL;

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍3🔥2👌1

578 views09:31

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۱۸۱: در مورد پیوند HASH JOIN، کدوم گزینه صحیح نیست؟

Anonymous Quiz

22%

همیشه سریع‌تر از NESTED LOOP JOIN هست

28%

معمولاً برای جوین جداول بزرگ استفاده می‌شه

39%

از یک تابع هش برای ایجاد جدول هش استفاده می‌کنه

11%

می‌تونه در حافظه یا روی دیسک اجرا شه

❤6🤔2👌2😎1

18 voters486 views14:30

آموزش دیتاساینس و ماشین‌لرنینگ

💡

مقایسه انبار داده و دریاچه داده

انبار داده (Data Warehouse):
- قابلیت ذخیره‌سازی داده‌های ساختاریافته و پردازش‌شده
- دارای حجم کمتری از داده‌ها در حدود ترابایت
- شامل داده‌های تاریخی و رابطه‌ای
- بیشتر توسط تحلیل‌گران کسب‌وکار استفاده می‌شه
- کاربرد در پردازش دسته‌ای و گزارش‌دهی هوش تجاری
- دارای امنیت بالا و کامل
- ساختار انبار داده از قبل تعریف شده و برای پرس‌وجوهای خاص بهینه شده

دریاچه داده (Data Lake):
- قابلیت ذخیره‌سازی مقادیر زیادی از داده‌های ساختاریافته، نیمه‌ساختاریافته، غیرساختاریافته و خام
- دارای حجم بسیار زیادی از داده‌ها در حدود پتابایت
- داده‌ها می‌تونن برای انواع مختلفی از کاربردها مثل یادگیری ماشین، تحلیل‌ جریان داده و هوش مصنوعی استفاده شن
- بیشتر توسط دانشمندان داده و تحلیل‌گران داده استفاده می‌شه
- امنیت‌اش می‌تونه متغیر باشه و نیاز به مدیریت دقیق داره
- انعطاف‌پذیری بیشتری در ذخیره‌سازی و پردازش داده‌ها داره

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤9👍2🔥2👌1

505 views18:00

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

انبار داده یا Data Warehousing

انبار داده یک سیستم مرکزیه که داده‌های سازمان رو از منابع مختلف جمع‌آوری، ذخیره و مدیریت می‌کنه تا برای تحلیل و گزارش‌دهی آماده باشن. این سیستم به منظور پشتیبانی از فرآیند تصمیم‌گیری و تحلیل‌های پیچیده طراحی شده.

🔵

مزایای انبار داده

🔵

تجمیع داده‌ها: انبار داده اطلاعات رو از منابع مختلف جمع‌آوری و در یک مکان واحد ذخیره می‌کنه. این کار باعث می‌شه که کاربران بتونن به داده‌های یکپارچه دسترسی داشته باشن و تحلیل‌های جامع‌تری انجام بدن.

🔵

بهبود کیفیت داده: در فرآیند ورود داده‌ها به انبار داده، عملیات تصحیح و پاک‌سازی داده‌ها انجام می‌شه. در نتیجه کیفیت داده‌ها افزایش پیدا می‌کنه و اطلاعات نادرست یا ناقص حذف می‌شن.

🔵افزایش کارایی تحلیل‌ها: با استفاده از انبار داده، کاربران می‌تونن به سرعت به داده‌های مورد نیازشون دسترسی پیدا کنن و تحلیل‌های پیچیده‌تری انجام بدن و فرآیند تصمیم‌گیری در سازمان‌ها بهبود پیدا کنه.

🔵

معماری انبار داده

🔵

لایه استخراج، تبدیل و بارگذاری (ETL): این لایه شامل فرآیندهای استخراج داده از منابع مختلف، تبدیل داده‌ها به فرمتی مناسب و بارگذاری اونها در انبار داده است. این مرحله مهم‌ترین بخش از فرآیند انبار داده است که به بهبود کیفیت و یکپارچگی داده‌ها کمک می‌کنه.

🔵

لایه ذخیره‌سازی: در این لایه، داده‌ها در ساختاری منظم و بهینه ذخیره می‌شه تا به راحتی قابل بازیابی و تحلیل باشن. معمولاً از پایگاه‌های داده رابطه‌ای (Relational Databases) برای این منظور استفاده می‌شه.

🔵

لایه دسترسی و تحلیل: این لایه شامل ابزارها و رابط‌هایی هست که به کاربران اجازه می‌ده به داده‌ها دسترسی پیدا کنن و تحلیل‌های مورد نیازشون رو انجام بدن. ابزارهایی مثل ابزارهای هوش تجاری (Business Intelligence) و داشبوردهای تحلیلی در این لایه قرار دارن.

🔵

ابزارها و فناوری‌های مرتبط با انبار داده

🔵

ابزارهای ETL: ابزارهای ETL مثل Informatica، Talend و Apache Nifi به استخراج، تبدیل و بارگذاری داده‌ها کمک می‌کنن. این ابزارها قابلیت‌های متنوعی برای پاک‌سازی، تبدیل و یکپارچه‌سازی داده‌ها ارائه می‌دن.

🔵

ابزارهای هوش تجاری: ابزارهای هوش تجاری مثل Tableau، Power BI و QlikView به تحلیل و بصری‌سازی داده‌ها کمک می‌کنن. این ابزارها قابلیت‌های گسترده‌ای برای ایجاد گزارش‌ها و داشبوردهای تعاملی ارائه می‌دن.

🔵

چالش‌های انبار داده

🔵

حجم بالای داده‌ها: یکی از چالش‌های اصلی انبار داده، مدیریت حجم بالای داده‌هاست. با افزایش حجم داده‌ها، نیاز به زیرساخت‌های قوی‌تر و بهینه‌سازی‌های پیچیده‌تر افزایش پیدا می‌کنه.

🔵

هماهنگی داده‌ها: هماهنگی داده‌ها از منابع مختلف و اطمینان از یکپارچگی و صحت اونها یک چالش بزرگ در انبار داده است. فرآیندهای ETL باید به دقت و با استفاده از تکنیک‌های پیشرفته انجام شن تا این چالش‌ها برطرف شن.

🔵

امنیت داده‌ها: حفظ امنیت و محرمانگی داده‌ها در انبار داده بسیار مهمه. دسترسی به داده‌ها باید به صورت محدود و کنترل‌شده باشه تا از افشای اطلاعات حساس جلوگیری شه.

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤3🔥1👌1

623 views09:43

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۱۸۲: کدوم ویژگی Data Vault 2.0 امکان بارگذاری موازی و مقیاس‌پذیری بالا رو فراهم می‌کنه؟

Anonymous Quiz

13%

استفاده از کلیدهای مصنوعی

26%

پشتیبانی از تغییرات تدریجی

35%

استفاده از الگوی Hub-Link-Satellite

26%

جداسازی کلیدها و توصیف‌گرها

👍6❤2🤔1😎1

23 voters515 views14:31

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

آشنایی با معماری Data Vault 2.0

معماری Data Vault 2.0 یک روش پیشرفته برای طراحی انبار داده‌هاست که هدفش فراهم کردن قابلیت توسعه‌پذیری، انعطاف‌پذیری و استحکام در مدیریت داده‌های بزرگ و پیچیده است. Data Vault 2.0 به عنوان یک توسعه از مدل اصلی Data Vault طراحی شده.

🔵

ویژگی‌های کلیدی Data Vault 2.0
🔵قابلیت توسعه‌پذیری: به دلیل استفاده از معماری ماژولار، به راحتی قابل گسترشه و به سازمان‌ها اجازه می‌ده که به تدریج داده‌های جدید رو اضافه کنن؛ بدون اینکه ساختار کلی تغییر کنه.

🔵

انعطاف‌پذیری: به دلیل استفاده از جداول مختلف برای ذخیره‌سازی داده‌ها، انعطاف‌پذیره و توانایی سازگاری سریع با تغییرات رو داره.

🔵

یکپارچگی تاریخی: تضمین می‌کنه که تاریخچه تمامی تغییرات داده‌ها به صورت کامل و دقیق نگهداری می‌شن.

🔵

اجزای اصلی Data Vault 2.0
🔵جداول Hub Tables اطلاعات مهم موجودیت‌ها رو ذخیره و به عنوان نقطه اصلی اتصال داده‌ها عمل می‌کنن.

🔵جداول Link Tables روابط بین موجودیت‌ها رو نشون می‌دن و ارتباطات بین Hub Tables رو تعریف می‌کنن.

🔵جداول Satellite Tables اطلاعات توصیفی و تغییرات زمانی داده‌ها رو ذخیره می‌کنن و به Hub و Link Tables متصل هستن.

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍1🔥1👨‍💻1

562 views17:31

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

پایگاه داده‌های NoSQL

پایگاه داده‌های NoSQL یک دسته‌بندی از سیستم‌های مدیریت پایگاه داده (DBMS) است که برای کار با داده‌های غیرسازمانی و حجم‌های بزرگ داده طراحی شدن. برخلاف پایگاه داده‌های رابطه‌ای (SQL) که از جداول و روابط ساختار یافته استفاده می‌کنن، پایگاه داده‌های NoSQL انعطاف‌پذیری بیشتری در مدل‌سازی داده‌ها ارائه می‌دن.

🔵

دلایل استفاده از پایگاه داده‌های NoSQL

🔵

مقیاس‌پذیری: یکی از مزایای اصلی پایگاه داده‌های NoSQL، مقیاس‌پذیری افقیه. در حالی که پایگاه داده‌های سنتی SQL معمولاً برای افزایش ظرفیت نیاز به ارتقای سخت‌افزاری دارن، پایگاه داده‌های NoSQL می‌تونن با اضافه کردن سرورهای بیشتری به خوشه، مقیاس‌پذیری داشته باشن.

🔵

انعطاف‌پذیری در مدل‌سازی داده‌ها: پایگاه داده‌های NoSQL از مدل‌های داده متنوعی مانند سندی (Document-Based)، ستونی (Column-Based)، گراف (Graph-Based) و کلید-مقدار (Key Value) پشتیبانی و امکان ذخیره و مدیریت داده‌های پیچیده و غیرسازمانی رو فراهم می‌کنن.

🔵

عملکرد بالا: پایگاه داده‌های NoSQL برای دسترسی سریع به داده‌ها و عملیات نوشتن بهینه‌سازی شدن، که این ویژگی‌ها اونها رو برای برنامه‌هایی با حجم داده بالا و نیاز به سرعت بالا مناسب می‌سازه.

🔵

انواع پایگاه داده‌های NoSQL

🔵

پایگاه داده‌های سندی (Document Databases): این نوع پایگاه داده‌ها از ساختار داده‌ای مشابه JSON یا BSON استفاده می‌کنن. هر سند می‌تونه حاوی مقادیر متنوعی از داده‌ها باشه و بدون نیاز به تغییر ساختار کلی پایگاه داده، گسترش پیدا کنه. MongoDB و CouchDB مثال‌هایی از این نوع هستن.

🔵

پایگاه داده‌های کلید-مقدار (Key-Value Stores): در این مدل، داده‌ها به صورت جفت‌های کلید-مقدار ذخیره می‌شن. این مدل برای ذخیره‌سازی ساده و سریع داده‌ها که نیاز به جستجوی پیچیده ندارن، مناسبه. Redis و DynamoDB مثال‌هایی از این نوع هستن.

🔵

پایگاه داده‌های ستونی (Column-Family Stores): این نوع پایگاه داده‌ها داده‌ها رو در ستون‌ها سازماندهی می‌کنن و برای پرس و جوهای تحلیلی بزرگ بهینه‌سازی شدن. Apache Cassandra و HBase مثال‌هایی از این نوع هستن.

🔵

پایگاه داده‌های گراف (Graph Databases): پایگاه داده‌های گراف برای مدیریت و ذخیره داده‌هایی که ارتباطات پیچیده‌ای دارن، مثل شبکه‌های اجتماعی یا سیتم‌های توصیه‌گر، مناسبن. Neo4j و OrientDB مثال‌هایی از این نوع هستن.

🔵

مزایا

🔵

مقیاس‌پذیری بالا: امکان اضافه کردن سرورها به جای ارتقای سخت‌افزار.

🔵

انعطاف‌پذیری در مدل‌سازی داده‌ها: پشتیبانی از انواع مختلف داده‌ها.

🔵

عملکرد بالا: سرعت بالا در دسترسی به داده‌ها و عملیات درج، به‌روزرسانی و حذف آنها.

🔵

معایب

🔵

عدم سازگاری با SQL: برای کسانی که با SQL آشنایی دارن، یادگیری ممکنه زمان‌بر باشه.

🔵

پیچیدگی مدیریت: مدیریت داده‌ها و یکپارچگی در برخی موارد می‌تونه پیچیده‌تر باشه.

🔵

نبود استانداردهای واحد: نبود استانداردهای واحد ممکنه باعث ناسازگاری و پیچیدگی بیشتر شه.

🔵

موارد استفاده

🔵

برنامه‌های وب و موبایل: بسیاری از برنامه‌های وب و موبایل که نیاز به عملکرد بالا و مقیاس‌پذیری دارن، از پایگاه داده‌های NoSQL استفاده می‌کنن.

🔵

کلان داده (Big Data): در تحلیل داده‌های بزرگ و پیچیده، پایگاه داده‌های NoSQL با قابلیت پردازش سریع و انعطاف‌پذیری مدل داده‌ها، نقش مهمی دارن.

🔵

اینترنت اشیا (IoT): پایگاه داده‌های NoSQL برای مدیریت حجم بالای داده‌های تولید شده توسط دستگاه‌های IoT بسیار مناسب هستن.

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍2🔥2👌2

579 views08:31

آموزش دیتاساینس و ماشین‌لرنینگ

🧑‍🎓

تفاوت پایگاه‌های داده SQL و NoSQL چیه و هر کدوم چه کاربردهایی دارن؟

پایگاه‌های داده SQL به مدل‌های ساختاریافته و رابطه‌ای تأکید می‌کنن، درحالی‌که پایگاه‌های داده NoSQL با رویکردی برای مدیریت داده‌های متنوع و پویا با تأکید بیشتر بر مقیاس‌پذیری و سرعت دارن. این مطلب تفاوت‌های بین این دو سیستم پایگاه داده رو بررسی می‌کنه.

🟢

برای مطالعه بیشتر کلیک کنین:

👉

📎

http://ctdrs.ir/ds0282

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2👏2👌1

542 views17:30

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

پشتیبان‌گیری و بازیابی در پایگاه‌های داده

🔵

پشتیبان‌گیری (Backup): پشتیبان‌گیری به فرآیند ذخیره‌سازی نسخه‌ای از داده‌ها در یک محل امن گفته می‌شه تا در صورت بروز مشکل در سیستم اصلی، امکان استفاده از این نسخه وجود داشته باشه. انواع مختلفی از پشتیبان‌گیری وجود داره که هر کدوم مزایا و معایب خاص خودشون رو دارن.

🔵

پشتیبان‌گیری کامل (Full Backup): در این روش، تمام داده‌های موجود در پایگاه داده در یک فایل پشتیبان ذخیره می‌شن. این روش زمان‌بره و فضای زیادی اشغال می‌کنه، اما بازیابی داده‌ها در این روش سریع و آسونه. مثال این نوع پشتیبان‌گیری در SQL Server:

     BACKUP DATABASE MyDatabase TO DISK = 'C:\Backups\MyDatabaseFull.bak';

🔵

پشتیبان‌گیری تفاضلی (Differential Backup): در این روش، فقط تغییرات ایجاد شده از زمان آخرین پشتیبان‌گیری کامل ذخیره می‌شه. سریع‌تر از پشتیبان‌گیری کامله و فضای کمتری نیاز داره. مثال این نوع پشتیبان‌گیری در SQL Server:

     BACKUP DATABASE MyDatabase TO DISK = 'C:\Backups\MyDatabaseDiff.bak' WITH DIFFERENTIAL;

🔵

پشتیبان‌گیری افزایشی (Incremental Backup): در این روش، تنها تغییرات ایجاد شده از آخرین پشتیبان‌گیری، چه کامل و چه افزایشی، ذخیره می‌شه. این روش کمترین فضای ذخیره‌سازی رو نیاز داره، اما بازیابی‌اش پیچیده‌تره. مثال این نوع پشتیبان‌گیری در Oracle RMAN:

     RMAN> BACKUP INCREMENTAL LEVEL 1 DATABASE;

🔵

مزایای پشتیبان‌گیری

🔵

امنیت داده‌ها: حفاظت از داده‌ها در برابر از دست رفتن به دلیل خرابی سخت‌افزاری، حملات سایبری، یا اشتباهات انسانی.

🔵

استمرار کسب و کار: اطمینان از اینکه در صورت بروز مشکل، کسب و کار می‌تونن به سرعت به حالت عادی برگردن.

🔵

قابلیت بازیابی نسخه‌های قدیمی‌تر: امکان دسترسی به نسخه‌های قبلی داده‌ها در صورت نیاز.

🔵

نکات فنی در پشتیبان‌گیری

🔵

فشرده‌سازی: استفاده از الگوریتم‌های فشرده‌سازی برای کاهش فضای مورد نیاز.

🔵

رمزنگاری: رمزنگاری فایل‌های پشتیبان برای افزایش امنیت.

🔵

ذخیره‌سازی خارجی: ذخیره نسخه‌های پشتیبان در محل‌های مختلف، مثل فضای ابری.

🔵

بازیابی (Restore): بازیابی به فرآیندی گفته می‌شه که طی اون داده‌ها از نسخه پشتیبان به سیستم اصلی برگردونده می‌شن.

🔵

مراحل بازیابی
🔵اول باید دلیل از دست رفتن داده‌ها با بررسی لاگ‌ها و گزارش‌های خطا مشخص شه.
🔵بعد مناسب‌ترین انتخاب نسخه پشتیبان برای بازیابی انتخاب شه.
🔵در ادامه باید داده‌ها از نسخه پشتیبان به سیستم اصلی بازگردانی شن. این مرحله می‌تونه شامل برگردوندن فایل‌های پشتیبان، اعمال تغییرات تفاضلی و افزایشی و تطبیق داده‌ها با وضعیت فعلی سیستم باشه.
🔵درنهایت باید از صحت داده‌های بازیابی شده و عملکرد صحیح سیستم بعد از بازیابی اطمینان حاصل شه.

🔵 انواع بازیابی
🔵بازیابی کامل (Full Restore): برگردوندن کامل پایگاه داده به وضعیت آخرین پشتیبان کامل. مثال این نوع پشتیبان‌گیری در SQL Server:

     RESTORE DATABASE MyDatabase FROM DISK = 'C:\Backups\MyDatabaseFull.bak';

🔵بازیابی تفاضلی (Differential Restore): برگردوندن پایگاه داده به وضعیت آخرین پشتیبان تفاضلی به همراه پشتیبان کامل. مثال این نوع پشتیبان‌گیری در SQL Server:

     RESTORE DATABASE MyDatabase FROM DISK = 'C:\Backups\MyDatabaseFull.bak' WITH NORECOVERY;
     RESTORE DATABASE MyDatabase FROM DISK = 'C:\Backups\MyDatabaseDiff.bak' WITH RECOVERY;

🔵

بازیابی نقطه‌ای (Point-in-Time Restore): برگردوندن پایگاه داده به یک نقطه زمانی خاص با استفاده از پشتیبان‌های لاگ تراکنش. مثال این نوع پشتیبان‌گیری در SQL Server:

     RESTORE DATABASE MyDatabase FROM DISK = 'C:\Backups\MyDatabaseFull.bak' WITH NORECOVERY;
     RESTORE LOG MyDatabase FROM DISK = 'C:\Backups\MyDatabaseLog.bak' WITH STOPAT = '2024-07-11T14:30:00', RECOVERY;

🔵

ابزارها و تکنولوژی‌ها

🔵

SQL Server Management Studio (SSMS)
ابزار گرافیکی برای مدیریت پشتیبان‌گیری و بازیابی در SQL Server

🔵

Oracle Recovery Manager (RMAN)
ابزار پشتیبان‌گیری و بازیابی در Oracle Database

🔵

MySQL Enterprise Backup
ابزاری برای پشتیبان‌گیری و بازیابی پایگاه‌های داده MySQL

🔵

pg_dump و pg_restore
ابزارهای خط فرمانی برای پشتیبان‌گیری و بازیابی در PostgreSQL

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2👏2👌2

598 views09:21

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۱۸۳: در مورد تکنیک Log Shipping در SQL Server، کدوم گزینه نادرسته؟

Anonymous Quiz

25%

می‌تونه با تأخیر زمانی تنظیم شه تا از اعمال تغییرات اشتباه جلوگیری کنه.

20%

نیازی به پشتیبان‌گیری کامل اولیه نداره.

30%

می‌تونه برای ایجاد یک پایگاه داده آینه‌ای (Mirror) استفاده شه.

25%

امکان بازیابی تا آخرین تراکنش رو فراهم می‌کنه.

👌6❤2👨‍💻2😎1

20 voters515 views16:25

آموزش دیتاساینس و ماشین‌لرنینگ

💡 مروری بر انواع وابستگی در پایگاه داده‌ها

در پایگاه داده‌ها، وابستگی به این معناست که مقادیر یک ستون یا مجموعه‌ای از ستون‌ها می‌تونن تعیین‌کننده مقادیر ستون‌های دیگه باشن. این وابستگی‌ها به طراحان کمک می‌کنن تا جداول بهینه‌تر و بدون تکرار و ناسازگاری داده‌ها ایجاد کنن.

🔵

وابستگی تابعی (Functional Dependency)
این وابستگی یعنی اگه در یک جدول، یک ستون خاص باشه که با دونستن مقدارش، بتونیم به طور قطعی مقدار یک ستون دیگه رو بگیم. مثلاً اگه شماره ملی یک نفر رو بدونیم، می‌تونیم نام و نام خانوادگی‌اش رو هم بفهمیم. بنابراین، شماره ملی تعیین‌کننده نام و نام خانوادگیه.

🔵

وابستگی چندمقداری (Multivalued Dependency)
این نوع وابستگی زمانی رخ می‌ده که یک ستون می‌تونه به چند مقدار مستقل از یک ستون دیگه مربوط باشه. مثلاً اگه یک دانشجو چند شماره تماس و همچنین چند آدرس ایمیل داشته باشه، شماره تماس‌ها و آدرس‌های ایمیل به طور مستقل از هم هستن، اما هر دو به یک دانشجو مربوط می‌شن.

🔵

وابستگی ترانزیتیو (Transitive Dependency)
این وابستگی زمانی رخ می‌ده که یک ستون به طور غیرمستقیم به ستون دیگه وابسته باشه. مثلاً اگر بدونیم درس یک دانشجو چیه و بر اساسش استاد درس رو بدونیم، بعد اگه از روی استاد بتونیم دانشکده رو بفهمیم، اون وقت بین درس و دانشکده هم یک وابستگی غیرمستقیم (Transitive) وجود داره.

🔵

وابستگی پیوست (Join Dependency)
این وابستگی زمانی مطرح می‌شه که یک جدول بتونه به چند زیرجدول تقسیم شه و با ترکیب مجدد این زیرجدول‌ها، جدول اصلی دوباره ساخته شه. یعنی اطلاعات به شکلی تقسیم شده که بشه با اتصال اونها دوباره به داده‌های اولیه رسید.

🔵

وابستگی بیرونی (Domain-Key Normal Form - DKNF)
این وابستگی زمانی مطرح می‌شه که تمام محدودیت‌ها در جدول تنها به وسیله دامنه مجاز مقادیر ستون‌ها و کلیدهای اصلی تعیین شه. در این صورت، جدول در بالاترین سطح نرمال‌سازی قرار داره.

🔵

وابستگی تطابق (Inclusion Dependency)
این وابستگی بیان می‌کنه که مقدار یک ستون یا مجموعه‌ای از ستون‌ها در یک جدول باید با مقدار یک ستون یا مجموعه‌ای از ستون‌ها در جدول دیگه مطابقت داشته باشه. مثلاً شماره دانشجویی در جدول نمرات باید با شماره دانشجویی در جدول اطلاعات دانشجو تطابق داشته باشه.

🔵

وابستگی حلقوی (Cyclic Dependency)
این نوع وابستگی زمانی رخ می‌ده که مجموعه‌ای از وابستگی‌ها یک حلقه تشکیل بدن. مثلاً اگه ستون A به ستون B وابسته باشه، ستون B به ستون C و ستون C دوباره به ستون A وابسته باش، این یک حلقه است.

🔵

وابستگی انتزاعی (Partial Dependency)
این وابستگی زمانی رخ می‌ده که یک ستون غیرکلیدی به بخشی از کلید ترکیبی وابسته باشه. مثلاً اگه یک کلید ترکیبی شامل دو ستون کد درس و شماره کلاس باشه و ستون نام استاد فقط به کد درس وابسته باشه، این وابستگی انتزاعیه.

#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤5👍1🔥1👏1

565 views18:02

آموزش دیتاساینس و ماشین‌لرنینگ

⏰

پست‌های هفته‌ای که گذشت رو این‌جا پیدا کنین!

🔺

آموزشی

🔵نرمال‌سازی و نرمال‌زدایی در پایگاه‌های داده

📎

https://t.me/data_ml/652

🔵مفهوم ایندکس‌گذاری در پایگاه‌های داده

📎

https://t.me/data_ml/656

🔵انواع JOIN در پایگاه داده‌ها

📎

https://t.me/data_ml/660

🔵انبار داده یا Data Warehousing

📎

https://t.me/data_ml/663

🔵پایگاه داده‌های NoSQL

📎

https://t.me/data_ml/667

🔵پشتیبان‌گیری و بازیابی در پایگاه‌های داده

📎

https://t.me/data_ml/669

🔺

کوئیز

🔵کوییز شماره ۱۷۹: شرایطی استفاده از Materialized Views در نرمال‌زدایی

📎

https://t.me/data_ml/654

🔵کوییز شماره ۱۸۰: توصیفی از ایندکس خوشه‌بندی شده در پایگاه‌داده‌ها

📎

https://t.me/data_ml/658

🔵کوییز شماره ۱۸۱: HASH JOIN در پایگاه داده

📎

https://t.me/data_ml/661

🔵کوییز شماره ۱۸۲: امکان بارگذاری موازی و مقیاس‌پذیری بالا در Data Vault 2.0

📎

https://t.me/data_ml/665

🔵کوییز شماره ۱۸۳: تکنیک Log Shipping در SQL Server

📎

https://t.me/data_ml/670

🔺

نکته

🔵 مروری بر تکنیک‌های نرمال‌زدایی
https://t.me/data_ml/655

🔵مقایسه انبار داده و پایگاه داده

📎

https://t.me/data_ml/659

🔵مقایسه انبار داده و دریاچه داده

📎

https://t.me/data_ml/662

🔵آشنایی با معماری Data Vault 2.0

📎

https://t.me/data_ml/666

🔵تفاوت پایگاه‌های داده SQL و NoSQL

📎

https://t.me/data_ml/668

🔵مروری بر انواع وابستگی در پایگاه داده‌ها

📎

https://t.me/data_ml/671

#Weekend
#Database

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍5❤1🔥1👏1

644 views08:31

آموزش دیتاساینس و ماشین‌لرنینگ

👩‍🎓

برنامه آموزشی هفته: سیستم‌های توصیه‌گر یا Recommender Systems

🟠شنبه: انواع سیستم‌های توصیه‌گر

🔵یک‌شنبه: تکنیک‌های فیلترینگ مشارکتی

🟢دوشنبه: تکنیک‌های فاکتورگیری ماتریسی

🔴سه‌شنبه: معیارهای ارزیابی برای سیستم‌های توصیه‌گر

🟠چهارشنبه: یادگیری عمیق در سیستم‌های توصیه‌گر

🔵پنج‌شنبه: چالش‌های سیستم‌های توصیه‌گر

🟢جمعه: جمع‌بندی

#Recommender_Systems

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤7👍2🔥2👏1

3.01K views12:30

آموزش دیتاساینس و ماشین‌لرنینگ

Forwarded from رضا شکرزاد - علم‌داده و هوش مصنوعی

🟡 ورکشاپ‌های آنلاین مقدماتی و پیشرفته علم داده

دنیای داده‌ها جذابه و دونستن #علم_داده، توانایی تحلیل داده‌، یا بازاریابی مبتنی بر داده، می‌تونه شما رو برای فرصت‌های شغلی زیادی مناسب کنه. فارغ از رشته‌ و پیش زمینه‌تون، می‌تونین با استفاده از کارگاه‌های رضا شکرزاد این مسیر رو شروع کنین و از سطح مقدماتی تا پیشرفته پیش برین.

➕

برای مشاهده جزئیات بیشتر روی نام هر کارگاه کلیک کنید:

🟡

کارگاه آنلاین کار با داده

🟡

کارگاه آنلاین مصورسازی داده و مهندسی فیچر

🟡

کارگاه آنلاین هوش تجاری و بیزینس

🟡

کارگاه آنلاین ماشین لرنینگ و یادگیری با نظارت

🟡

کارگاه آنلاین یادگیری بدون نظارت

🟡

کارگاه آنلاین شبکه‌های عصبی و دیپ لرنینگ

🟡

کارگاه آنلاین پردازش زبان طبیعی

🟡

کارگاه آنلاین پردازش تصویر و بینایی ماشین

🟡

کارگاه آنلاین پردازش صوت و سیگنال

🟡

کارگاه آنلاین پیاده‌سازی و محصول‌سازی

💥

پکیج ۴ کارگاه آنلاین علم داده و ماشین لرنینگ

💥

پکیج ۱۰ کارگاه آنلاین علم داده و ماشین لرنینگ

🛍 کد تخفیف‌ ویژه دانشجویان دوره‌های دپارتمان علم داده:

۶۰٪ تخفیف برای پکیج ۱۰ کارگاه: Data60
۳۰٪ تخفیف برای هر کارگاه: Data30

➕ برای مشاهده تمام دوره‌ها کلیک کنید:

🔗

https://cafetadris.com/datascience

#Courses

@DSLanders | دی‌اس‌لندرز

Please open Telegram to view this post

VIEW IN TELEGRAM

Please open Telegram to view this post

VIEW IN TELEGRAM

👍6❤2🔥2

620 views16:50

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

انواع سیستم‌های توصیه‌گر

سیستم‌های توصیه‌گر (Recommender Systems) به کاربران کمک می‌کنن تا محتوا، محصولات یا خدماتی رو که به اونها علاقه‌مندن، پیدا کنن. این سیستم‌ها با تحلیل رفتار و ترجیحات کاربران، پیشنهاداتی مناسب ارائه می‌دن.

🔵

سیستم‌های توصیه‌گر مبتنی بر محتوا

سیستم‌های توصیه‌گر مبتنی بر محتوا (Content-Based Recommender Systems) بر اساس ویژگی‌های آیتم‌ها و ترجیحات گذشته کاربر بهش پیشنهاداتی می‌دن. در این سیستم‌ها، هر آیتم دارای مجموعه‌ای از ویژگی‌ها (attributes) هست و پیشنهادها بر اساس تطابق این ویژگی‌ها با ترجیحات کاربر صورت می‌گیره.

🔵

مزایا
- این سیستم‌ها می‌تونن پیشنهادهایی کاملاً منطبق با سلیقه‌ی کاربر ارائه بدن.
- چون این سیستم‌ها فقط بر اساس اطلاعات کاربر فعلی و ویژگی‌های آیتم‌ها عمل می‌کنن، نیازی به داده‌های گسترده‌ی کاربران دیگه ندارن.
- پیشنهادات این سیستم‌ها به دلیل مبتنی بودن بر ویژگی‌های آیتم‌ها، به راحتی قابل توضیح هستن.

🔵

معایب
- این سیستم‌ها ممکنه پیشنهادات بسیار محدود و مشابه ارائه بدن، چون فقط به ویژگی‌های آیتم‌های مشابه توجه می‌کنن.
- تغییر در ترجیحات کاربر به سرعت در پیشنهادات سیستم بازتاب پیدا نمی‌کنه.

🔵

مثال‌: با تحلیل ویژگی‌هایی مثل ژانر، کارگردان و بازیگران فیلم‌ها، فیلم‌های مشابه رو پیشنهاد می‌دن.

🔵

سیستم‌های فیلترسازی مشارکتی

سیستم‌های فیلترسازی مشارکتی (Collaborative Filtering Recommender Systems) بر اساس تحلیل رفتار و ترجیحات جمعی کاربران به پیشنهاد دادن می‌پردازن. در این سیستم‌ها، فرض بر اینکه اگه دو کاربر در گذشته آیتم‌های مشابهی رو دوست داشتن، احتمالاً در آینده هم از آیتم‌های مشابهی لذت خواهند برد.

🔵

انواع فیلترسازی مشارکتی
- فیلترسازی مشارکتی مبتنی بر کاربر (User-Based Collaborative Filtering): در این روش، کاربران مشابه با کاربر فعلی شناسایی می‌شن و آیتم‌هایی که این کاربران مشابه دوست داشتن به کاربر فعلی پیشنهاد می‌شه.
- فیلترسازی مشارکتی مبتنی بر آیتم (Item-Based Collaborative Filtering): در این روش، آیتم‌هایی که در گذشته توسط کاربران مشابه پسندیده شدن شناسایی و بر اساس شباهت بین آیتم‌ها به کاربر فعلی پیشنهاد می‌شن.

🔵

مزایا
- کشف موارد جدید: این سیستم‌ها می‌تونن آیتم‌هایی رو پیشنهاد بدن که کاربر هرگز با اونها مواجه نشده.
- انعطاف‌پذیری بالا: به دلیل استفاده از داده‌های جمعی، این سیستم‌ها می‌تونن ترجیحات کاربر رو با تغییر رفتار کاربران دیگه تطبیق بدن.

🔵

معایب
- نیاز به داده‌های گسترده: برای عملکرد بهتر، این سیستم‌ها به داده‌های زیادی از کاربران مختلف نیاز دارن.
- مشکل شروع سرد (Cold Start): برای کاربران جدید یا آیتم‌های جدید که داده‌ای در مورد اونها وجود نداره، این سیستم‌ها نمی‌تونن پیشنهادات مناسبی ارائه بدن.
- مسائل مقیاس‌پذیری: با افزایش تعداد کاربران و آیتم‌ها، محاسبات لازم برای پیشنهادات پیچیده‌تر و زمان‌برتر می‌شه.

🔵

مثال‌ها: سایت‌های خرید آنلاین مثل دیجی کالا با تحلیل رفتار خرید کاربران مشابه، محصولات پیشنهادی ارائه می‌دن.

🔵

سیستم‌های هیبریدی

سیستم‌های هیبریدی (Hybrid Recommender Systems) تلاش می‌کنن با ترکیب مزایای سیستم‌های مبتنی بر محتوا و فیلترسازی مشارکتی، عملکرد بهتری ارائه بدن. این سیستم‌ها از ترکیب روش‌های مختلف استفاده می‌کنن تا نقاط ضعف هر یک از روش‌ها رو پوشش بدن.

🔵

روش‌های ترکیب
- ترکیب سری (Sequential Hybrid): در این روش، اول یکی از سیستم‌ها پیشنهاداتی ارائه می‌دد و بعد سیستم دیگه این پیشنهادات رو اصلاح یا تکمیل می‌کنه.
- ترکیب موازی (Parallel Hybrid): در این روش، هر دو سیستم به طور مستقل پیشنهادات خودشون رو ارائه می‌دن و بعد نتایج با هم ترکیب می‌شن.
- مدل ترکیبی (Mixed Hybrid): در این روش، ویژگی‌ها و داده‌های هر دو سیستم به طور همزمان در یک مدل واحد استفاده می‌شن تا پیشنهادات نهایی تولید شن.

🔵

مزایا
- عملکرد بهتر: با ترکیب روش‌ها، این سیستم‌ها پیشنهادات دقیق‌تری ارائه می‌دن.
- پوشش نقاط ضعف: با استفاده از دو یا چند روش، نقاط ضعف هر روش به طور موثرتری پوشش داده می‌شه.
- انعطاف‌پذیری بیشتر: این سیستم‌ها می‌تونن به راحتی با تغییرات در داده‌ها و ترجیحات کاربران تطبیق پیدا کنن.

🔵

معایب
- پیچیدگی بیشتر: طراحی و پیاده‌سازی این سیستم‌ها به دلیل ترکیب چند روش پیچیده‌تره.
- نیاز به منابع بیشتر: به دلیل استفاده از چند روش، این سیستم‌ها به داده‌ها و منابع محاسباتی بیشتری نیاز دارن.

#Recommender_Systems

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6🔥2👏2👌1

648 views11:45

آموزش دیتاساینس و ماشین‌لرنینگ

❓کوییز شماره ۱۸۴: کدوم یک از موارد زیر در مورد سیستم‌های توصیه‌گر مبتنی بر گراف (Graph-based Recommender Systems) صحیح نیست؟

Anonymous Quiz

می‌تونن روابط پیچیده بین کاربران، آیتم‌ها و ویژگی‌ها رو مدل کنن.

17%

توانایی کشف روابط پنهان و غیرمستقیم بین عناصر رو دارن.

57%

عملکردشون همیشه بهتر از سیستم‌های توصیه‌گر مبتنی بر فیلترینگ مشارکتیه.

20%

از الگوریتم‌هایی مثل PageRank برای رتبه‌بندی اهمیت گره‌ها استفاده می‌کنن.

❤6👌2😎2👍1

35 voters609 views14:30

آموزش دیتاساینس و ماشین‌لرنینگ

💡

مشکلات شروع سرد چگونه بر سیستم‌های توصیه‌گر تأثیر می‌گذارند و چگونه می‌توان آنها را کاهش داد؟

مشکلات شروع سرد (Cold Start Problem) به وضعیت‌هایی اشاره دارن که در اونها سیستم‌های توصیه‌گر با داده‌های ناکافی برای ارائه پیشنهادات مناسب مواجه هستن. این مشکلات معمولاً در سه حوزه اصلی بروز پیدا می‌کنن:

🔵

کاربران جدید: وقتی کاربر جدیدی وارد سیستم می‌شه و هنوز تعاملات کافی با سیستم نداشته، سیستم نمی‌تونه پروفایل دقیقی از علایق و سلایق‌اش بسازه.

🔵

آیتم‌های جدید: وقتی آیتم جدیدی (مثلاً یک کتاب یا فیلم جدید) به سیستم اضافه می‌شه، سیستم نمی‌تونه بر اساس داده‌های کاربران دیگه توصیه‌های مناسبی ارائه بده.

🔵

سیستم جدید: در ابتدای راه‌اندازی یک سیستم توصیه‌گر جدید، داده‌های کمی برای ایجاد پیشنهادات دقیق وجود دارن.

🔵

روش‌های کاهش مشکلات شروع سرد
🔵استفاده از داده‌های جانبی (Side Information): با استفاده از اطلاعات جانبی مثل داده‌های دموگرافیک کاربران، توصیفات آیتم‌ها، و داده‌های شبکه‌های اجتماعی می‌شه پروفایل‌های اولیه‌ای برای کاربران و آیتم‌ها ایجاد کرد. این اطلاعات می‌تونن شامل سن، جنسیت، محل زندگی، ژانر فیلم‌ها و کتاب‌ها، و غیره باشن.

🔵

پرسشنامه‌های اولیه: با طرح یک پرسشنامه کوتاه از کاربران جدید، علایق و ترجیحات اولیه اونها رو به دست آورد و بر اون اساس توصیه‌ها ارائه داد.

🔵

تکنیک‌های مبتنی بر محتوا (Content-Based Techniques): این تکنیک‌ها بر اساس ویژگی‌های آیتم‌ها و کاربران، پیشنهاداتی ارائه می‌دن. برای مثال، اگه کاربر جدیدی فیلم‌های علمی-تخیلی دوست داره، سیستم می‌تواند فیلم‌های مشابه رو بهش پیشنهاد بده.

🔵

مدل‌های ترکیبی (Hybrid Models): این مدل‌ها از ترکیب تکنیک‌های مختلف مثل فیلترینگ مبتنی بر محتوا و فیلترینگ مشارکتی استفاده می‌کنن تا دقت توصیه‌ها رو افزایش بدن. مثلاً اگه داده‌های کافی برای فیلترینگ مشارکتی وجود نداره، سیستم می‌تونه از فیلترینگ مبتنی بر محتوا استفاده کنه.

🔵

تکنیک‌های انتقال دانش (Transfer Learning): با استفاده از مدل‌های یادگیری عمیق و انتقال دانش از سیستم‌های مشابه یا دامنه‌های مرتبط، می‌شه به سیستم‌های توصیه‌گر کمک کرد تا با داده‌های اولیه کم هم عملکرد خوبی داشته باشن.

🔵

تکنیک‌های بازنشانی (Bootstrap Techniques): این تکنیک‌ها با استفاده از داده‌های اولیه تولید شده توسط کاربران دیگه یا داده‌های مصنوعی، سیستم رو در ابتدای کار بهبود می‌دن.

#Recommender_Systems

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

❤6👍1🔥1👌1

659 views17:31

آموزش دیتاساینس و ماشین‌لرنینگ

👨‍🎓

روش‌های فیلترسازی مشارکتی در سیستم‌های توصیه‌گر

سیستم‌های توصیه‌گر به سه دسته اصلی مبتنی بر محتوا (Content-Based), فیلترسازی مشارکتی (Collaborative Filtering), و سیستم‌های هیبریدی (Hybrid Systems) تقسیم می‌شن. در این متن، به‌طور ویژه به روش‌های فیلترسازی مشارکتی می‌پردازیم.

🔵

فیلترسازی مشارکتی (Collaborative Filtering)

فیلترسازی مشارکتی یکی از محبوب‌ترین و موثرترین روش‌های توصیه‌ است که بر اساس تحلیل رفتارها و ترجیحات کاربران عمل می‌کنه. در این روش، سیستم به جای تحلیل ویژگی‌های اقلام، بر اساس تعاملات کاربران با اقلام، توصیه‌هایی رو ارائه می‌ده. فیلترسازی مشارکتی به دو دسته اصلی مبتنی بر کاربر (User-Based) و مبتنی بر آیتم (Item-Based) تقسیم می‌شه.

🔵

فیلترسازی مشارکتی مبتنی بر کاربر (User-Based Collaborative Filtering)

در روش فیلترسازی مشارکتی مبتنی بر کاربر، هدف اصلی پیدا کردن کاربران مشابه است. سیستم به دنبال کاربرانی می‌گرده که الگوهای رفتاری مشابهی با کاربر فعلی داشته باشن و بر اساس علاقه‌مندی‌های کاربران مشابه، اقلام جدیدی رو به کاربر فعلی توصیه می‌کنه. برای مثال، اگه دو کاربر اغلب فیلم‌های مشابهی رو تماشا کنن، فیلم‌هایی که یکی از اونها تماشا کرده ولی دیگری ندیده، می‌تونه به عنوان توصیه‌ای مناسب برای او در نظر گرفته شه.

🔵

فیلترسازی مشارکتی مبتنی بر آیتم (Item-Based Collaborative Filtering)

در روش فیلترسازی مشارکتی مبتنی بر آیتم، تمرکز روی شباهت بین اقلام هست. سیستم به دنبال آیتم‌هایی می‌گرده که الگوهای رفتاری مشابهی توسط کاربران داشته باشن و بر اساس علاقه‌مندی‌های کاربر فعلی به آیتم‌های دیگه، اقلام مشابه رو بهش توصیه می‌کنه.

🔵

مراحل اصلی این روش‌ها عبارتند از:
۱. محاسبه شباهت کاربران: برای تعیین میزان شباهت بین دو کاربر، معمولاً از معیارهایی مثل ضریب همبستگی پیرسون یا شباهت کسینوسی استفاده می‌شه.
۲. ایجاد لیست کاربران مشابه: با توجه به معیار شباهت، لیستی از کاربرانی که بیشترین شباهت رو با کاربر فعلی دارن تهیه می‌شه.
۳. توصیه اقلام: اقلامی که توسط کاربران مشابه پسندیده شدن ولی توسط کاربر فعلی هنوز دیده نشدن، بهش توصیه می‌شن.

🔵

چالش‌های فیلترسازی مشارکتی

🔵

مشکل شروع سرد (Cold Start Problem): این مشکل زمانی رخ می‌ده که یک کاربر یا آیتم جدید به سیستم اضافه می‌شه و هنوز داده کافی برای ارائه توصیه‌های دقیق وجود نداره.

🔵

تراکم پایین ماتریس: در بسیاری از موارد، تعداد تعاملات کاربران با اقلام کمه و ماتریس تعاملات پراکنده می‌شه که می‌تونه دقت توصیه‌ها رو کاهش بده.

🔵

مسائل مقیاس‌پذیری: با افزایش تعداد کاربران و آیتم‌ها، محاسبات مورد نیاز برای تعیین شباهت‌ها پیچیده و زمان‌بر می‌شه.

#Recommender_Systems

@Data_ML | دیتاساینس و ماشین‌ لرنینگ

Please open Telegram to view this post

VIEW IN TELEGRAM

👍7🔥3❤2👌1

722 views11:01

About

Blog

Apps

Platform