تحلیلگری عظیم‌داده و کسب‌وکار
906 subscribers
44 photos
42 videos
56 files
468 links
📌تحلیلگری عظیم داده و کسب و کار؛

🔎Big Data and Business Analytics

آموزش، پژوهش، اطلاع‌رسانی، ترویج و خدمات مشاوره حوزه تحلیلگری عظیم‌داده

سرپرست کانال: دکتر سعید روحانی، عضو هیأت علمی دانشگاه تهران

وبسایت
www.bdbanalytics.ir

ادمین کانال
@BDBA_UT
Download Telegram
📌معرفی مقالات حوزه عظیم داده‌ها
❇️ نام مقاله:
A Survey on Evaluation of Large Language Models

✍️ نویسندگان:
YUPENG CHAN, XU WANG, JINDONG WANG, YUAN WU, LINYI YANG, KAIJIE ZHU, HAI CHEN, XUAOYUAN YI, CUNXIANG WANG, YIDONG WANG, WEI YE, YUE ZHANG, YI CHANG, PHILIP S.YU, QIANG YANG, XING XIE

🗓سال انتشار: ۲۰۲۴
📔ژورنال:
ACM Transactions on Intelligent Systems and Technology

🔸مدل‌های زبان بزرگ (LLM) به دلیل عملکرد بی‌سابقه‌شان در کاربردهای مختلف، محبوبیت فزاینده‌ای در محیط‌های آکادمیک و صنعت پیدا کرده‌اند.

🔸از آنجایی که LLM ها به ایفای نقش حیاتی هم در تحقیقات و هم در استفاده روزانه ادامه می‌دهند، ارزیابی آنها برای درک بهتر خطرات بالقوه به طور فزاینده‌ای حیاتی می‌شود.

🔸 در طول سال‌های گذشته، تلاش‌های قابل توجهی برای بررسی LLM ها از دیدگاه‌های مختلف صورت گرفته‌است.

🔸این مقاله مروری جامع از این روش‌های ارزیابی (که در فاصله زمانی سال‌های 2020 و 2023 مورد بررسی قرار گرفته‌اند) برای LLM ارائه می‌کند که متمرکز بر سه بعد کلیدی است که عبارتند از: چه چیزی را ارزیابی کنیم، کجا ارزیابی کنیم، و چگونه ارزیابی کنیم.

🔸در مرحله اول، این پژوهش یک نمای کلی از منظر وظایف ارزیابی ارائه می‌دهد که شامل وظایف پردازش زبان طبیعی عمومی، استدلال، استفاده پزشکی، اخلاق، آموزش، علوم طبیعی و اجتماعی، کاربردهای عامل و سایر زمینه‌ها می‌شود. ثانیاً، به سؤالات «کجا» و «چگونه» با غوطه‌ور شدن در روش‌های ارزیابی و معیارها پاسخ می‌دهد، که به عنوان مؤلفه‌های حیاتی در ارزیابی عملکرد LLM عمل می‌کنند. سپس موارد موفقیت و شکست LLM ها را در وظایف مختلف خلاصه بررسی می‌کند.

🔸 نتایج نشان می‌دهد  LLM ها در ایجاد متن واضح، درک زبان، حل مسائل ریاضی، استدلال منطقی و عملکرد خوب در کارهایی مانند ترجمه زبان، تولید متن و پاسخ به سؤالات مهارت دارند.

🔸اما چالش‌های اصلی از این قرار است که LLM ها با درک اختلافات انسانی دست و پنجه نرم می‌کنند و در تشخیص شباهت‌های بین رویدادها مشکل دارند که منجر به خطا در موقعیت های پیچیده و استدلال انتزاعی می‌شود. آنها با زبان‌های غیر لاتین عملکرد نسبتا ضعیفی دارند. همچنین این مدل‌ها ممکن است سوگیری‌های اجتماعی را نشان دهند و در نتیجه خروجی‌های مغرضانه ایجاد کنند. آنها همچنین مشکلاتی در خصوص اعتبارسنجی دارند و گاهی اوقات اطلاعات نادرست تولید می کنند. در نهایت  LLMها نمی‌توانند به راحتی با اطلاعات جدید یا بلادرنگ تطبیق پیدا کنند، و این باعث می‌شود آنها برای کارهایی که نیاز به دانش فعلی دارند، کارایی کمتری داشته باشند. آنها همچنین به دستورات خاصی حساس هستند که می‌تواند بر عملکرد آنها تأثیر بگذارد. .

🔸درپایان، پژوهش چندین چالش آینده را که در ارزیابی LLM در پیش است، روشن می‌نماید. هدف این پژوهش ارائه بینش های ارزشمند به محققان در حوزه ارزیابی LLM است و از این طریق به توسعه LLM های قوی‌تر کمک می‌کند.

👈در صورت تمایل، می‌توانید فایل مقاله را در لینک زیر دریافت فرمایید.

🔗 https://bdbanalytics.ir/i4r6

#معرفی_مقاله
#تحلیل_عظیم_داده
#صبا_بزرگی

www.bdbanalytics.ir
@BigData_BusinessAnalytics
Media is too big
VIEW IN TELEGRAM
📌📌 نقشه راه کامل تحلیلگر داده

در مدت 8 تا 16 ماه یک تحلیل گر داده شوید. در این ویدئو نقشه راه مراحل کسب مهارت های ضروری جهت تبدیل شدن به یک تحلیلگر داده در سال 2024 را می‌آموزید.

همچنین می‌توانید این ویدئو را در لینک زیر مشاهده فرمایید.

🔗 https://bdbanalytics.ir/ak4q

#ويدئوکوتاه
#عظیم_داده
#تحلیلگرداده
#آرش_قاضی_سعیدی

@BigData_BusinessAnalytics
www.bdbanalytics.ir
👍1
🌻 تابستان‌نامه

فایل بیست و چهارمین شماره فصلنامه گروه تحلیلگری عظیم‌داده و کسب‌وکار (تابستان 1403) در پست بعد قابل دریافت می‌باشد.

#فصلنامه_الکترونیک
#تابستان‌نامه

www.bdbanalytics.ir
@BigData_BusinessAnalytics
tabestane 1403.pdf
3.2 MB
📣 بیست و چهارمین شماره فصلنامه گروه تحلیلگری عظیم‌داده و کسب‌وکار

#فصلنامه_الکترونیک
#تابستان‌نامه

www.bdbanalytics.ir
@BigData_BusinessAnalytics
📖 کتاب بخوانیم؛

📌 "Artificial Intelligence For Business Analytics: Algorithms, Platforms, and Applications Scenarios"


کتاب: هوش مصنوعی برای تحلیل کسب و کار: الگوریتم‌ها­، پلتفرم‌ها و سناریوهای کاربردی

📌فصل سوم: هوش مصنوعی و پلتفرم‌های تحلیلگری کسب و کار- بخش دوم


در خلاصه بخش اول فصل سوم به مفاهیم اصلی هوش مصنوعی مرتبط با تحلیگری کسب و کار همچون انباره داده، دریاچه داده، جریان داده و پایگاه های مدیریت داده پرداختیم. یکی دیگر از مباحث مهم هوش مصنوعی در پلتفرم های تحلیلگری کسب و کار، چارچوب های هوش مصنوعی می باشند.

در گذشته برای پیاده سازی مفاهیم و الگوریتم های هوش مصنوعی نیاز بود تا منطق و فرمول های ریاضیاتی از ابتدا و با جزئیات نوشته شوند که کار نسبتا سخت و پیچیده‌ای بود. اما در حال حاضر با توجه به با توجه به پیشرفت زیرساخت ها و نرم افزارهای متن باز این امکان برای متخصصان هوش مصنوعی وجود دارد که با فراخوانی چارچوب‌های قدرتمند هوش مصنوعی الگوریتم‌های مورد نیاز خود را از صفر بازنویسی کنند. به عبارتی دیگر این چارچوب ها با دریافت پارامترهای ریاضی مختلف و فیت شدن روی دیتاست های مختلف می توانند خروجی های مورد نظر برای تحلیلگران را فراهم کنند تا در وقت و انرژی صرفه جویی قابل توجهی داشته باشند. از میان تمامی چارچوب های هوش مصنوعی 5 چارچوب محبوبیت و کاربردهای زیادی دارند که در ادامه به بررسی آن ها می پردازیم:

📍چارچوب اول: Tensorflow

تنسور فلو ابتدا توسط گوگل برای استفاده داخلی توسعه داده شد و در سال ۲۰۱۵ تحت مجوز اپن سورس آپاچی 2 منتشر شد. گوگل همچنان از این کتابخانه برای خدمات مختلفی مانند تشخیص گفتار، جستجوی تصاویر و پاسخ‌های خودکار در جیمیل استفاده می‌کند.

📍چارچوب دوم: Theano

یک کتابخانه محاسبات علمی سطح پایین مبتنی بر پایتون است که برای وظایف یادگیری عمیق مرتبط با تعریف، بهینه‌سازی و ارزیابی عبارات ریاضی استفاده می‌شود. با اینکه این کتابخانه قدرت محاسباتی چشمگیری دارد، کاربران از رابط کاربری غیرقابل دسترسی و پیام‌های خطای غیر مفید آن رضایت بالایی ندارند.

📍چارچوب سوم: Torch

این چارچوب اغلب به عنوان ساده‌ترین ابزار یادگیری عمیق برای مبتدیان شناخته می‌شود. این ابزار از یک زبان اسکریپت‌نویسی ساده به نام Lua استفاده می‌کند و جامعه‌ای فعال دارد که مجموعه‌ای چشمگیر از آموزش‌ها و بسته‌ها را برای تقریباً هر هدف یادگیری عمیق ارائه می‌دهد.

📍چارچوب چهارم: Scikit-Learn

یک چارچوب طراحی شده برای الگوریتم‌های یادگیری ماشینی تحت نظارت و بدون نظارت است. به عنوان یکی از اجزای اکوسیستم علمی پایتون، این چارچوب بر اساس کتابخانه‌های NumPy و SciPy ساخته شده است که هرکدام وظیفه انجام وظایف علمی داده در سطح پایین را برعهده دارند


📍چارچوب پنجم: Jupyter Notebook

چارچوب آخری که قصد معرفی آن را داریم یک برنامه وب منبع‌باز است که به شما امکان می‌دهد اسنادی حاوی کد زنده، معادلات، تجسم‌ها و متن ایجاد و به اشتراک بگذارید. این چارچوب که توسط تیم پروژه Jupyter پشتیبانی می‌شود یک پروژه جانبی از پروژه IPython است که قبلاً خود پروژه IPython Notebook را داشت

برای مطالعه خلاصه فصل سوم (بخش دوم) به لینک زیر مراجعه بفرمایید.

🔗 https://bdbanalytics.ir/fb1c

#کتاب_بخوانیم
#هوش_مصنوعی_برای_تحلیل_کسب‌_و_کار
#فصل_سوم
#علی_محمدی


www.bdbanalytics.ir
@BigData_BusinessAnalytics
🔎 معرفی کسب و کار داده محور

📌شرکت Salesforce، یکی از پیشروترین شرکت‌ها در زمینه نرم‌افزارهای مدیریت ارتباط با مشتری (CRM)، به عنوان یکی از کسب‌وکارهای داده‌محور شناخته می‌شود. این شرکت با استفاده از داده‌ها، ابزارهایی ارائه می‌دهد که به کسب‌وکارها کمک می‌کنند تعاملات با مشتریان، فروش، خدمات پس از فروش و سایر فرآیندهای تجاری خود را بهبود بخشند. Salesforce به‌عنوان یک پلتفرم ابری، امکان جمع‌آوری، تحلیل و استفاده از داده‌های مشتریان را فراهم می‌کند تا شرکت‌ها بتوانند تصمیمات هوشمندانه‌تری بگیرند، تعاملات شخصی‌سازی‌شده‌ای ایجاد کنند و در نهایت کسب‌وکار خود را بهینه‌سازی کنند. در ادامه، به بررسی این میپردازیم که چگونه Salesforce از داده‌ها استفاده می‌کند و چه نقشی در بهبود فرآیندهای مختلف تجاری دارد.

1️⃣ مدیریت ارتباط با مشتری (CRM) و داده‌ها
شرکت Salesforce یکی از محبوب‌ترین پلتفرم‌های CRM در جهان است. CRM به معنای مدیریت ارتباطات با مشتری است، و Salesforce از داده‌ها به عنوان پایه‌ای برای ایجاد، بهبود و حفظ این ارتباطات استفاده می‌کند. این پلتفرم اطلاعات مختلفی از جمله تاریخچه تعاملات با مشتری، خریدها، ترجیحات، نیازها و رفتارهای آنها را جمع‌آوری می‌کند و این اطلاعات را در یک نمای کلی در اختیار کسب‌وکارها قرار می‌دهد. این داده‌ها به شرکت‌ها کمک می‌کنند تا مشتریان خود را بهتر بشناسند و تعاملات خود را بر اساس نیازها و ترجیحات فردی هر مشتری تنظیم کنند.

2️⃣ شخصی‌سازی تعاملات با مشتریان
یکی از مهم‌ترین استفاده‌های Salesforce از داده‌ها، ایجاد تعاملات شخصی‌سازی‌شده است. در دنیای امروز، مشتریان انتظار دارند که کسب‌وکارها آنها را به صورت فردی بشناسند و ارتباطات خود را متناسب با نیازها و خواسته‌های خاص آنها تنظیم کنند.

3️⃣ تحلیل پیش‌بینی‌کننده (Predictive Analytics)
یکی از ابزارهای پیشرفته‌ای که Salesforce در اختیار شرکت‌ها قرار می‌دهد، تحلیل پیش‌بینی‌کننده است. با استفاده از داده‌های تاریخی و الگوهای رفتاری مشتریان، Salesforce می‌تواند به کسب‌وکارها کمک کند تا پیش‌بینی کنند که مشتریان در آینده چگونه رفتار خواهند کرد.

4️⃣ اتصال و یکپارچه‌سازی داده‌ها از منابع مختلف
یکی از قابلیت‌های مهم Salesforce، توانایی یکپارچه‌سازی داده‌ها از منابع مختلف است. این پلتفرم می‌تواند داده‌ها را از سیستم‌های مختلف جمع‌آوری کند و آنها را به یک پلتفرم یکپارچه تبدیل کند.

5️⃣ اتوماسیون فرآیندهای تجاری
شرکت Salesforce از داده‌ها برای خودکارسازی بسیاری از فرآیندهای تجاری استفاده می‌کند. با استفاده از ابزارهای اتوماسیون، کسب‌وکارها می‌توانند کارهای روزمره و تکراری خود را به صورت خودکار انجام دهند و این امر باعث می‌شود که تیم‌ها زمان بیشتری برای تمرکز بر روی کارهای مهم‌تر داشته باشند.

6️⃣ استفاده از هوش مصنوعی (AI) و یادگیری ماشینی (ML)
یکی از ویژگی‌های برجسته Salesforce استفاده از هوش مصنوعی و یادگیری ماشینی برای بهبود تحلیل داده‌ها و ارائه پیشنهادات دقیق‌تر است. **Einstein AI**، یک قابلیت هوش مصنوعی که در پلتفرم Salesforce تعبیه شده است، به شرکت‌ها کمک می‌کند تا از داده‌های خود به صورت هوشمندانه‌تری استفاده کنند.

7️⃣ پلتفرم بازاریابی هوشمند (Marketing Cloud)
شرکت Salesforce از داده‌ها برای بهینه‌سازی بازاریابی دیجیتال استفاده می‌کند. Salesforce Marketing Cloud، یک ابزار جامع بازاریابی است که به شرکت‌ها امکان می‌دهد تا کمپین‌های بازاریابی خود را با استفاده از داده‌های مشتریان بهینه کنند.

8️⃣ بهبود خدمات مشتریان با داده‌ها
استفاده از داده‌ها در بهبود خدمات مشتریان نیز یکی از مزایای اصلی Salesforce است. Salesforce Service Cloud به شرکت‌ها کمک می‌کند تا خدمات پس از فروش خود را بهبود بخشند و مشکلات مشتریان را سریع‌تر و کارآمدتر حل کنند.

9️⃣ پشتیبانی از تصمیم‌گیری استراتژیک
شرکت Salesforce به شرکت‌ها کمک می‌کند تا با تحلیل داده‌های خود، تصمیمات استراتژیک بهتری بگیرند. شرکت‌ها می‌توانند از گزارش‌ها و داشبوردهای متنوع Salesforce استفاده کنند تا روندهای مهم کسب‌وکار را مشاهده کنند و بر اساس این داده‌ها تصمیمات مهم‌تری بگیرند.

📌 شرکت Salesforce یک پلتفرم جامع داده‌محور است که از داده‌ها برای بهبود فرآیندهای فروش، بازاریابی، خدمات مشتریان و سایر حوزه‌های کسب‌وکار استفاده می‌کند. از طریق یکپارچه‌سازی داده‌ها، تحلیل‌های پیشرفته و ابزارهای هوش مصنوعی، این پلتفرم به شرکت‌ها امکان می‌دهد تا تعاملات خود را با مشتریان بهبود دهند.

جهت مطالعه این مطلب به لینک زیر مراجعه فرمایید.

🔗 https://bdbanalytics.ir/z8ni


#معرفی_کسب_و_کار_داده_محور
#Salesforce
#محمدرضا_مرادی


www.bdbanalytics.ir
@BigData_BusinessAnalytics
📚معرفی کتاب

📌سیستم‌های توصیه‌گر عظیم‌داده: الگوریتم‌ها، معماری‌ها، عظیم‌داده، امنیت و اعتماد

"Big Data Recommender Systems Volume 1: Algorithms, Architectures, Big Data, Security and Trust"

📌نویسندگان:
Osman Khalid, Samee U. Khan and Albert Y. Zomaya

📌این کتاب در سال 2019 توسط The Institution of Engineering and Technology انتشار یافته است.


📍 کتاب سیستم‌های توصیه‌گر عظیم‌داده، یک مجموعه جامع دو جلدی است که به چالش‌ها و فرصت‌های بزرگی که با رشد سریع عظیم‌داده و افزایش وابستگی به سیستم‌های توصیه‌گر در بخش‌های مختلف به وجود آمده‌اند، می‌پردازد. با گسترش شبکه‌های اجتماعی، تجارت الکترونیک، موتورهای جستجو و شبکه‌های حسگر، سیستم‌های توصیه‌گر به یکی از تکنولوژی‌های اصلی برای ارائه محتوای شخصی‌سازی شده، فیلتر کردن حجم وسیعی از داده‌ها و بهبود تجربه کاربری تبدیل شده‌اند. این کتاب با تکیه بر پیشرفت‌های اخیر در الگوریتم‌ها، تحلیل داده، محاسبات با کارایی بالا و اینترنت اشیا (IoT)، به بررسی جامع هر دو جنبه بنیان‌های نظری و کاربردهای عملی سیستم‌های توصیه‌گر می‌پردازد.

📍جلد ۱: الگوریتم‌ها، معماری‌ها، امنیت و اعتماد
جلد اول بر چارچوب‌های نظری، الگوریتم‌ها و معماری‌ها تمرکز دارد که برای ساخت سیستم‌های توصیه‌گر کارا و مقیاس‌پذیر در زمینه عظیم‌داده ضروری هستند. این جلد موضوعات پایه‌ای متنوعی از جمله ارزیابی الگوریتم‌های توصیه‌گر با استفاده از ابزارهایی مانند Hadoop و Apache Spark و همچنین روش‌های ترکیبی که چندین تکنیک را برای بهبود کیفیت توصیه‌ها ترکیب می‌کنند را پوشش می‌دهد. تکنیک‌های مبتنی بر یادگیری عمیق به طور ویژه‌ای مورد توجه قرار گرفته‌اند، که نشان از اهمیت روزافزون آن‌ها در توسعه سیستم‌های توصیه‌گر دارد. فصل‌های این جلد همچنین به توصیه‌گری برای عظیم‌داده‌های غیرساخت‌یافته، از جمله روش‌هایی برای مدیریت داده‌های متنی، صوتی و تصویری می‌پردازند.
امنیت و حریم خصوصی در دنیای عظیم‌داده بسیار حیاتی هستند و جلد ۱ چندین فصل را به این موضوعات اختصاص داده است. در این بخش، استراتژی‌های نوین برای تشخیص و کاهش حملات سایبری به سیستم‌های توصیه‌گر، محافظت در برابر آسیب‌پذیری‌ها و حفظ حریم خصوصی داده‌های کاربران بررسی می‌شوند. این جلد طیف وسیعی از تکنیک‌های حفظ حریم خصوصی و روش‌های دفاعی را معرفی می‌کند که آن را به مرجعی ضروری برای محققان و حرفه‌ای‌هایی که به دنبال ساخت سیستم‌های توصیه‌گر ایمن و پایدار هستند تبدیل می‌کند.

📍جلد ۲: پارادایم‌های کاربردی
جلد ۲ به دامنه‌های کاربردی سیستم‌های توصیه‌گر می‌پردازد و دیدگاه عملیاتی درباره چگونگی پیاده‌سازی این سیستم‌ها در صنایع و حوزه‌های مختلف ارائه می‌دهد. فصل‌های این جلد به کاربردهای متنوعی همچون مدل‌های توصیه‌گر سلامت‌محور، توصیه‌گرهای ویدئویی، پیشنهاد مسیرهای سفر و توصیه‌گرهای مبتنی بر مکان‌های مورد علاقه می‌پردازد. علاوه بر این، جلد دوم بر استفاده از شبکه‌های عصبی عمیق و پردازش موازی با تکنولوژی‌هایی همچون Hadoop و Spark تمرکز دارد که مقیاس‌پذیری و کارایی الگوریتم‌های توصیه‌گر را بهبود بخشیده‌اند. این تکنولوژی‌ها به ویژه برای پردازش مجموعه داده‌های بزرگ که در کاربردهای واقعی معمول هستند، بسیار مهم‌اند. همچنین به توصیه‌های حساس به حالت روحی، پردازش جریانی و مدل‌های توصیه‌گر شبکه هوشمند اشاره شده است که نشان می‌دهد سیستم‌های توصیه‌گر چقدر در حل مسائل پیچیده در زمینه‌های مختلف تطبیق‌پذیر و چندمنظوره هستند.

📍مخاطبان و کاربران
این مجموعه دو جلدی با همکاری محققان برجسته و متخصصان حوزه به نگارش درآمده است و آن را به منبعی ارزشمند برای مخاطبان گسترده‌ای تبدیل کرده است. این کتاب برای پژوهشگران، متخصصان و دانشجویان تحصیلات تکمیلی در رشته‌هایی مانند مهندسی، علوم کامپیوتر، داده‌کاوی، مهندسی دانش و سیستم‌های اطلاعاتی طراحی شده است. فصل‌های کتاب شامل تحلیل‌های عمیق، مطالعات موردی و راه‌حل‌های عملی هستند که کتاب را نه تنها برای مقاصد علمی بلکه برای حرفه‌ای‌های صنعت که در مرزهای دانش عظیم‌داده و تکنولوژی‌های توصیه‌گر فعالیت می‌کنند، به‌کاربردی تبدیل می‌کند. با پرداختن به هر دو جنبه نظری و عملی، این کتاب به عنوان یک مرجع ضروری برای درک تکامل این سیستم‌ها در دنیای داده‌محور امروز عمل می‌کند. این کتاب نگاهی جامع و به‌روز از روندهای نوظهور، نیازهای صنعت و جهت‌گیری‌های آینده تحقیقاتی ارائه می‌دهد و برای هر کسی که در توسعه یا مطالعه سیستم‌های توصیه‌گر در دوران عظیم‌داده دخیل است، ضروری خواهد بود.




این کتاب را می‌توانید در لینک زیر دریافت فرمایید.

🔗 https://bdbanalytics.ir/yb7v


#معرفی_کتاب
#عظیم_داده
#سیستم_توصیه‌گر
#زهرا_رفیعی‌پور


@BigData_BusinessAnalytics
http://www.bdbanalytics.ir
🛠معرفی ابزار Delta Lake

یکی از ابزارهایی که اخیرا در حوزه Big Data مورد توجه قرار گرفته، Delta Lake است. این ابزار توسط Databricks توسعه داده شده و به کاربران اجازه می‌دهد تا داده‌های حجیم و جریانی را به شکلی بهینه مدیریت و پردازش کنند. Delta Lake روی Apache Spark اجرا می‌شود و قابلیت‌های بسیار قوی‌ای برای ذخیره‌سازی، یکپارچگی و بهبود کیفیت داده‌ها ارائه می‌دهد.

ویژگی‌ها و قابلیت‌های Delta Lake

📌تراکنش‌های ACID
این ابزار از تراکنش‌های ACID (Atomicity، Consistency، Isolation، Durability) پشتیبانی می‌کند. این یعنی هر عملیات خواندن و نوشتن به گونه‌ای صورت می‌گیرد که یکپارچگی داده‌ها تضمین شود و خطاهایی نظیر نقص داده‌ها یا تضادهای داده‌ای پیش نیاید. این قابلیت برای پروژه‌هایی که نیاز به قابلیت اعتماد و ثبات داده دارند بسیار مهم است.

📌مدیریت نسخه :
-دلتا لیک با قابلیت نسخه‌بندی و Time Travel امکان بازیابی نسخه‌های قبلی داده‌ها را فراهم می‌کند. این ویژگی به ویژه در مواقعی مفید است که نیاز به بازیابی داده‌های گذشته، بازبینی تغییرات یا انجام تحلیل‌های تاریخی داشته باشید.

📌پردازش Batch و Stream به صورت همزمان:
- یکی از مهم‌ترین مزایای Delta Lake، امکان پردازش Batch و Stream به صورت یکپارچه است. این یعنی با همان مجموعه داده‌ها می‌توانید هم تحلیل‌های بلادرنگ (Real-Time) و هم تحلیل‌های دسته‌ای را اجرا کنید، که بسیار مفید است برای مواقعی که نیاز به پردازش داده‌های ورودی لحظه‌ای و همچنین پردازش‌های بزرگ‌تر و دوره‌ای دارید.

📌قابلیت تغییر، به‌روزرسانی و حذف داده‌ها:
- دستورات MERGE، DELETE و UPDATE در Delta Lake پشتیبانی می‌شود، که این امکان را به شما می‌دهد تا به راحتی داده‌های خود را به‌روز کنید. این ویژگی برای تحلیل‌های تجاری و مدیریت داده‌ها در سیستم‌های تراکنشی بسیار حیاتی است، چرا که می‌توانید داده‌های قدیمی را جایگزین کرده یا حذف کنید.

📌سازگاری با اکوسیستم عظیم داده ها:
- این ابزار به راحتی با Apache Spark و دیگر ابزارهای تحلیل داده نظیر MLflow و Power BI سازگار است، و می‌تواند در محیط‌های موجود داده ادغام شود. همچنین از ذخیره‌سازی‌های ابری مثل Amazon S3 و Azure Data Lake** نیز پشتیبانی می‌کند.

📌دسته‌بندی و سازمان‌دهی بهینه داده‌ها:
- از یک معماری داده‌ی فایل محور در Delta Lake استفاده می‌شود که داده‌ها را به بلوک‌های کوچک‌تر تقسیم کرده و ذخیره می‌کند. این ساختار باعث می‌شود داده‌ها به شکل موثری دسته‌بندی شوند و دسترسی به آن‌ها سریع‌تر و بهینه‌تر باشد.

معماری Delta Lake
در Delta Lake از یک معماری درختی یا چندلایه برای ذخیره و پردازش داده‌ها استفاده می‌شود. در این معماری:
📌 داده‌های خام در پایین‌ترین سطح (Bronze) ذخیره می‌شوند.
📌داده‌های پاکسازی شده یا ساختاریافته در سطح میانی (Silver) قرار می‌گیرند.
📌 داده‌های آماده برای تحلیل و گزارش‌گیری نهایی در سطح بالا (Gold) ذخیره می‌شوند.

این لایه‌ها باعث می‌شوند که بتوانید روند پاکسازی، تجمیع و آماده‌سازی داده‌ها را به ترتیب و به صورت بهینه انجام دهید.

کاربردهای Delta Lake
📍سیستم‌های مالی و بانکی: برای اطمینان از دقت و یکپارچگی تراکنش‌ها و تحلیل بلادرنگ داده‌های مالی.
📍بازاریابی و تحلیل رفتار مشتریان: برای تحلیل‌های لحظه‌ای و تجمیع داده‌های کاربران جهت هدف‌گذاری دقیق‌تر.
📍مدیریت داده‌های IoT: برای ذخیره و پردازش داده‌های لحظه‌ای دستگاه‌ها و حسگرها.
📍تحلیل‌های جامع در پروژه‌های کلان داده: برای تجزیه و تحلیل داده‌ها با مقیاس بالا و قابلیت حفظ نسخه‌های مختلف داده‌ها جهت ردیابی تغییرات.

به طور کلی، Delta Lake به شما امکان می‌دهد تا با داده‌ها به شکل موثرتر و ایمن‌تر کار کنید و از مزایای ترکیبی سیستم‌های تحلیلی و دریاچه‌های داده در یک بستر واحد بهره‌مند شوید.

می‌توانید این مطلب را در لینک زیر مطالعه فرمایید.

🔗 https://bdbanalytics.ir/2j7n

#معرفی_ابزار
#داده‌های_عظیم
#فاطمه_مصلحی
#Delta_Lake
#BigData_BusinessAnalytics
www.bdbanalytics.ir
📌معرفی مقالات حوزه عظیم داده‌ها


❇️ نام مقاله:
Comprehensive analytics of COVID-19 vaccine research: From topic
modeling to topic classification

✍️ نویسندگان:
دکتر سعید روحانی، فاطمه مظفری

🗓سال انتشار: ۲۰۲۴
📔ژورنال:
Artificial Intelligence in Medicine (AIIM)


♦️ مقالات پژوهشی در حوزه پزشکی همواره بخش عظیمی از دانش این حوزه را تشکیل داده است. به دنبال همه‌گیری کووید-19 در اواخر سال 2019، تحقیقات واکسن کووید-19 نقش حیاتی در کنترل موفق این بیماری ایفا نمود و مقالات بسیاری در فاصله سال‌های 2020 تا 2022 منتشر گردید. این تلاش‌ها لزوم انجام یک تحلیل ساختاریافته به عنوان تحقیق ثانویه برای استخراج بینش‌های مفید از این داده‌ها را ایجاد نموده است. در این راستا می‌توان از تکنیک‌های متن کاوی نظیر مدل‌سازی موضوعی، تحلیل احساسات و دسته‌بندی موضوعی متن، جهت استخراج دانش از حجم بالای مقالات بهره برد.

📍در این مقاله چکیده‌های مقالات نمایه شده در Scopus و Pubmed شامل 4803 چکیده مورد تحلیل‌های متن‌کاوی قرار گرفته است.

1️⃣ در گام اول، با استفاده از روش LDA (Latent Dirichlet Allocation) مدلسازی موضوعی مقالات انجام شده است که منجر به شناسایی 25 موضوع و 8 حوزه تحقیقاتی در این زمینه گردیده است. موضوعات شامل گزارش ایمنی پس از تزریق، پاسخ ایمنی واکسن، واکنش آلرژیک (Anaphylactic)، گزارش موردی، اضطراب مرتبط با کووید-19 در رسانه‌های اجتماعی، ایمنی و اثربخشی در خانم‌های باردار، مقاومت در برابر واکسیناسیون، گروه بندی سنی، توصیه ACIP، نتایج افراد دارای سرطان، پذیرش واکسن در بیماران دارای نقص ایمنی، واریانت‌ها و ... می‌باشد که در 8 حوزه تحقیقاتی «گزارش‌دهی»، «پذیرش»، «واکنش»، «نظرسنجی‌های انجام شده»، «بارداری»، «واریانت‌ها»، «نظرسنجی‌های طبقه‌بندی شده» و «رویکردهای بین‌المللی» قرار گرفته‌اند.

2️⃣ در گام دوم، تحلیل احساسات و تغییرات مربوط به آن برای هر موضوع در طول زمان (از سال 2020 تا 2022) بررسی شده است. برای تحلیل احساسات روش lexicon-based و استفاده از VADER به کار رفته است. نتایج این تحلیل نشان می‌دهد که هر چند اغلب موضوعات مرتبط با واکسن در 2020 دارای احساسات مثبت یا خنثی بوده‌اند که نشان دهنده امیدواری بسیار در مجامع علمی نسبت به این واکسن در جهت حفاظت در مقابل بیماری بوده است، با این حال، در سال‌های 2021 و 2022 برخی از موضوعات دارای احساسات منفی بوده‌اند که ناشی از برخی از عوارض جانبی، گزارش‌های موردی و نگرانی‌هایی در خصوص اثربخشی آن برای واریانت‌‌های جدید می‌باشد.

3️⃣ در گام سوم، دسته‌بندی موضوعی مقالات جدید با استفاده از الگوریتم‌های یادگیری ماشین CNN-LSTM انجام شده است. با استفاده از این مدل برای هر مقاله جدید در این حوزه، می‌توان یکی از موضوعات از پیش تعیین شده را به عنوان موضوع غالب در آن مقاله با دقت 75% شناسایی نمود.

❇️ استفاده از این رویکرد که شامل ترکیبی از تکنیک‌های مختلف متن کاوی است، ضمن فراهم نمودن درک سریعی از ساختار تحقیقات در مورد واکسن کووید-19، می‌تواند به عنوان رویکردی در انجام نوع جدیدی از مرور سیستماتیک ادبیات در مطالعات پزشکی و واکسن به همراه دانش تخصصی در این حوزه‌ها مورد استفاده قرار گیرد.


👈در صورت تمایل، می‌توانید فایل مقاله را در لینک زیر دریافت فرمایید.

🔗 https://bdbanalytics.ir/u1jn

#معرفی_مقاله
#متن_کاوی
#هوش_مصنوعی
#مدلسازی_موضوعی
#تحلیل_احساسات
#دکتر_سعید_روحانی
#فاطمه_مظفری

www.bdbanalytics.ir
@BigData_BusinessAnalytics
👍1
Media is too big
VIEW IN TELEGRAM
📊🧠 آینده معماری عظیم داده

📈 برای پیاده‌سازی موارد کاربرد عظیم داده، مانند تحلیل داده، یادگیری ماشین و هوش مصنوعی مولد (GenAI)، داشتن یک معماری داده مناسب از اهمیت بالایی برخوردار است.
☁️ معماری‌های داده از نخستین انبارهای داده تا پلتفرم‌های پیشرفته محاسبات ابری مدرن مسیری طولانی را طی کرده‌اند.

در این ارائه، به بررسی تاریخچه، وضعیت کنونی و آینده معماری‌های عظیم داده می‌پردازیم. نگاهی خواهیم داشت به الگوهای مختلف معماری داده مانند Data Mesh، Data Lakehouse، Data Fabric و Data Vault. این الگوها چه تفاوت‌هایی با یکدیگر دارند و چالش‌های اصلی پیاده‌سازی آن‌ها در یک سازمان چیست؟ 🤔

🚀 همچنین، به آینده معماری‌های داده‌های عظیم و تحولاتی که در پیش رو دارند، خواهیم پرداخت.

این ویدیو به‌طور ویژه بخش آینده معماری عظیم داده (BDA) را پوشش می‌دهد. برای مشاهده کامل ویدیو، به لینک زیر مراجعه کنید:
🔗 لینک ویدیو


#ویدئو_کوتاه
#عظیم_داده
#هوش_مصنوعی
#حمید_جمالی

@BigData_BusinessAnalytics
www.bdbanalytics.ir
📚معرفی کتاب

🔍 هوش تجاری مبتنی بر هوش مصنوعی؛ بهبود پیش‌بینی و تصمیم‌گیری با استفاده از یادگیری ماشین

“AI-powered Business Intelligence; Improving forecasts and decision making with machine learning ”


🖋 نویسنده: Tobias Zwingmann

📌این کتاب در سال ۲۰۲۲ و توسط O’REILLY انتشار یافته است.


📍در طی سال‌های اخیر فاصله قابل توجهی میان تیم‌هایی از سازمان مانند تیم‌های هوش تجاری (BI) و علم‌ داده (Data Science) که با داده و راه‌حل‌های داده‌ محور برای حل مسائل و تصمیم‌گیری سروکار دارند ایجاد شده. از طرفی با پیشرفت‌های حاصل شده در حوزه هوش مصنوعی و یکپارچگی روزافزون آن با فرایندها و فعالیت‌های مختلف سازمان‌ها، نمی‌توان تاثیر آن بر حوزه هوش تجاری و علم داده را نادیده گرفت. در نهایتِ تمام مباحث حول محور تاثیرات هوش مصنوعی بر آینده‌ی کار، برای آینده‌ی حداقل میان‌مدت می‌توان به این نتیجه رضایت داد که افرادی که توانایی به‌ کارگیری ابزار هوش مصنوعی در فعالیت‌ها را دارند در اولویت بالاتری برای جذب و بقا در سازمان‌ها قرار خواهند گرفت.

📍کتاب مورد بررسی با تمرکز بر افراد و تیم‌های با تخصص هوش تجاری، از هوش‌مصنوعی به عنوان سرویس (AIaaS) با استفاده از زیرساخت ابری آژور شرکت مایکروسافت (Microsoft Azure) و همچنین سیستم هوش تجاری مایکروسافت (Power BI)، در راستای کم کردن فاصله‌ی ذکر شده تلاش می‌کند. هرچند ممکن است سازمان‌های مختلف از سرویس‌های متفاوتی استفاده کنند، ولی مفاهیم ذکر شده در این کتاب قابل تعمیم به ابزارهای دیگر نیز هستند و به منظور یادگیری راحت‌تر و یکپارچگی موجود و همچنین محبوبیت ابزار شرکت مایکروسافت از آن‌ها استفاده شده. لازم به ذکر است که به منظور یادگیری، ظرفیت عضویت رایگان سرویس ابری آژور کافی است که از آن می‌توان برای پیاده‌سازی راه‌حل‌های مسائل موجود در کتاب بهره گرفت. همچنین سعی شده در پیاده‌سازی راه‌حل‌ها، از راه‌حل‌های خودکار و بدون کد یادگیری ماشین (Machine Learning) استفاده شود.

📍در فصل‌های ابتدایی کتاب به بررسی تاثیرات هوش‌ مصنوعی و هوش تجاری و پایه‌های اساسی آن حوزه‌ها همانند الگوریتم‌های یادگیری ماشین و نمونه‌سازی (prototyping) پرداخته‌ شده است. پس از آن در بخش‌های متفاوتی راه‌حل‌هایی برای تحلیل‌های توصیفی (Descriptive)، تشخیصی (Diagnostic)، پیش‌بینی‌ کننده (Predictive)، و تجویزی (Prescriptive) به صورت مجزا ارائه شده و با تمرکز بر مسائل به‌روزی که بسیاری از شرکت‌ها با آن‌ها درگیر هستند، راه‌حلی داده‌محور با استفاده از ابزار تحلیلی و گزارش‌‌دهی مبتنی بر هوش‌مصنوعی ارائه داده و آن راه‌حل را به صورت کاربردی و مرحله به مرحله نیز توضیح داده است. در نهایت، طی مثالی پیچیده‌تر راه‌حل‌های متفاوت ذکر شده را به صورت یکجا به کار گرفته تا تصویری از مسائل پیچیده‌تر دنیای واقعی را نیز به خوانندگان ارائه دهد.

📍اهداف آموزشی این کتاب را می‌توان شامل موارد زیر دانست:

🔹 چگونگی تاثیر هوش مصنوعی بر فرایندها و فعالیت‌های هوش تجاری
🔹چگونگی استفاده از هوش مصنوعی و ساختن نمونه‌های اولیه
🔹ساختن راه‌حل‌هایی با استفاده از سرویس‌های هوش مصنوعی در زمینه هوش تجاری
🔹استفاده از هوش مصنوعی خودکار (AutoML) برای دسته‌بندی (Classification) خودکار و بهبود پیش‌بینی‌ها
🔹 ایجاد سیستم‌های پیشنهاد دهنده برای پشتیبانی از تصمیم‌گیری‌ها
🔹استخراج بینش از داده‌های ساختارنیافته همانند متن و تصاویر با استفاده از تکنیک‌های پردازش زبان طبیعی (NLP) و پردازش تصویر (Image processing)
🔹 ایجاد داشبورد‌های تعاملی با استفاده از هوش مصنوعی

📍تمامی داده‌ها، راه‌حل‌ها و داشبورد‌های ارائه شده در کتاب به همراه ابزاری که قابلیت گفتگو با کتاب را فراهم می‌کند نیز در وبسایتی که در کتاب معرفی شده به صورت رایگان در دسترس هستند.

این کتاب را می‌توانید در لینک زیر دریافت فرمایید.

🔗 https://bdbanalytics.ir/jyry


#معرفی_کتاب
#عظیم_داده
#احسان_نگهدار


@BigData_BusinessAnalytics
http://www.bdbanalytics.ir
📌معرفی مقالات حوزه عظیم داده‌ها

❇️ نام مقاله:
Text analytics and new service development: a hybrid thematic analysis with systematic literature review approach
 
✍️نویسندگان:
Saeed Rouhani , Saba Alsadat Bozorgi , Hannan Amoozad Mahdiraji, Demetris Vrontis
📔ژورنال :
EuroMed Journal of Business

🗓سال انتشار: 2024

🔸طی دهه‌ها، مقررات‌زدایی و جهانی‌شدن بازارها، همراه با گسترش بین‌المللی شرکت های خدماتی، رقابت را بین ارائه‌دهندگان خدمات به طور قابل توجهی تشدید کرده است. این پیشرفت‌ها نقش حیاتی نوآوری خدمات را در ارتقای موقعیت رقابتی شرکت‌ها، با توجه به ضرورت تعدیل مداوم در یک محیط بازار ناپایدار که مستلزم جریان ثابتی از پیشنهادات جدید است، برجسته می‌کند.

🔸مجموعه ادبیات توسعه خدمات جدید (NSD) در سال‌های اخیر افزایش یافته است و بر ماهیت انتزاعی خدمات و ضرورت مشارکت مشتری تمرکز دارد. این موضوع بر این باور استوار است که NSD نقش مهمی در رقابت و موفقیت شرکت‌ها در صنایع مختلف خدماتی ایفا می‌کند .

🔸می‌توان بیان کرد که توسعه یک سرویس جدید فرآیندی از وظایف، فعالیت‌ها و ارزیابی‌های مرتبط با یکدیگر است که با معرفی یک سرویس جدید به اوج خود می‌رسد . در نتیجه، مطالعات قبلی به دنبال عوامل تعیین‌کننده توسعه خدمات موفق و عملکرد تجاری بوده‌اند و بسیاری از ویژگی‌های خدمات و عناصر سازمانی را که بر اثربخشی NSD تأثیر می‌گذارند، برجسته کرده‌اند. با این حال، NSD یکی از حوزه هایی است که کمترین توجه و درک را در مدیریت خدمات (SMA) به خود جلب کرده است. همچنین دانش موجود در خصوص منابع و فعالیت‌های لازم برای ایجاد خدمات جدید موثر، ناکافی تلقی می‌شود.

🔸 از سوی دیگر، بررسی‌های آنلاین تولید شده توسط کاربر دارای ارزش بسیار زیادی است ، زیرا بینش‌های ارزشمندی را در مورد رضایت مصرف‌کننده و کیفیت خدمات درک شده ارائه می‌کنند. در واقع این بررسی‌ها  به یک منبع اطلاعاتی مهم تبدیل شده‌اند که مشتریان هنگام تصمیم گیری برای خرید محصولات و خدمات آنلاین و آفلاین به آنها تکیه می‌کنند . از دیدگاه مصرف کنندگان، این بررسی‌ها و نظرات منتشر شده در رسانه‌های اجتماعی بر تصمیمات آنها برای خرید یا خرید مجدد خدمات، با توجه به اعتمادی که به منابع محتوایی در شبکه‌های اجتماعی خود دارند، تأثیر می‌گذارد . در نتیجه می‌توان گفت، بررسی‌های آنلاین در شکل‌دهی به فرآیندهای تصمیم‌گیری مشتریان برای خرید محصول و خدمات آنلاین یا آفلاین بسیار مهم هستند . بنابراین، توسعه روش‌های تحلیلی برای استخراج بینش‌های ارزشمند از این داده‌های متنی بسیار مهم است. چنین اطلاعاتی به ارائه‌دهندگان محصول و خدمات در درک نیازها و نظرات مردم کمک می‌کند.

🔸با توجه به نکات ذکر شده و اهمیت تحلیل‌گری متن در طراحی سرویس‌های نوین، از آنجایی که پیش از این هیچ مطالعه ادبیات سیستماتیکی وجود نداشت که تحقیقات انجام شده در برنامه‌های کاربردی تجزیه و تحلیل متن در حوزه خدمات را به مدت 11 سال (2012 الی 2023) در بر گیرد، پژوهش پیش‌رو با بررسی 124 مقاله تحقیقاتی به پر کردن شکاف در ادبیات کمک می‌کند. همچنین، این پژوهش با ارائه ترکیبی از بررسی سیستماتیک ادبیات و تحلیل موضوعی (SLR-TA) عمیقاً تأثیر رویکردهای تحلیل متن در حوزه خدمات را تحلیل می‌کند. با تجزیه و تحلیل موضوعی، این مطالعه روندهای اصلی در به کارگیری تجزیه و تحلیل متن در بخش خدمات را آشکار کرده است.

🔸همانطور که ذکر شد این پژوهش با استفاده از رویکرد SLR-TA، هشت موضوع را در مطالعات قبلی شناسایی می‌کند و دریافته است که «کیفیت خدمات» بیشترین علاقه تحقیقاتی را داشته است، که 42 درصد از مطالعات را شامل می‌شود، در حالی که تأکید کمتری بر طراحی خدمات جدید شده است. این مطالعه تحقیقات را به چهار نوع موردی، مفهومی، ابزار و پیاده‌سازی دسته‌بندی می‌کند که مطالعات موردی 68 درصد از کل پژوهش­ ها را شامل می‌شود.

🔸همچنین این مطالعه مزایا و چالش‌های اجرای رویکردهای استخراج شده را بررسی می‌کند و فرصت‌های پژوهشی بالقوه را برای توسعه خدمات آینده شناسایی می‌کند.

🔸نکته مهم این است که این مطالعه بینش‌هایی را برای کمک به ارائه‌دهندگان خدمات ارائه می‌دهد تا تصمیمات مبتنی بر داده را برای توسعه خدمات جدید و بهینه‌سازی خدمات موجود اتخاذ کنند. بنابراین، نتایج این مطالعه دانش ثانویه مفید و دیدگاه‌های تازه‌ای را در اختیار محققان بخش خدمات قرار می‌دهد.
علاوه بر این، یافته‌های مطالعه حاضر به دانشگاهیان کمک می‌کند تا درک روشنی از حوزه‌های خدماتی داشته باشند که نیاز به مطالعات بیشتری دارند.

👈در صورت تمایل، می‌توانید فایل مقاله را در لینک دریافت فرمایید.

🔗 https://bdbanalytics.ir/hiqu

#معرفی_مقاله
#تحلیل_عظیم_داده
#دکتر_سعید_روحانی
#صبا_بزرگی
www.bdbanalytics.ir
@BigData_BusinessAnalytics
🔍 مطالعه موردی کاربردهای تحلیل عظیم‌داده


📊 گوگل: پیشگام در دنیای داده‌های عظیم

گوگل یکی از شرکت‌هایی است که تأثیر عمیقی بر نحوه استفاده و بهره‌برداری از داده‌های عظیم در زندگی روزمره گذاشته است. این شرکت نه تنها ابزارهایی مانند MapReduce و BigQuery را معرفی کرده است، بلکه استفاده از داده‌های عظیم را به بخشی جدایی‌ناپذیر از خدمات خود تبدیل کرده است. گوگل روزانه حدود 3.5 میلیارد درخواست جستجو را پردازش می‌کند و اطلاعات این جستجوها به دیتابیسی شامل 20 میلیارد صفحه وب متصل می‌شود.

📌 نوآوری‌های گوگل در پردازش داده‌های عظیم

1️⃣ الگوریتم انقلابی جستجو (PageRank)
در سال‌های اولیه، گوگل با معرفی الگوریتم PageRank توانست یک روش جدید برای اندازه‌گیری اهمیت صفحات وب ارائه دهد. این الگوریتم با تحلیل لینک‌هایی که به یک صفحه داده شده‌اند، رتبه آن را تعیین می‌کند. برخلاف سایر موتورهای جستجو که تنها به کلمات کلیدی تکیه داشتند، گوگل با ترکیب داده‌های ساختاری و معنایی توانست تجربه کاربری را بهبود ببخشد.

2️⃣ از جستجوی کلیدواژه‌ای تا جستجوی معنایی
گوگل به‌طور مداوم الگوریتم‌های خود را بهبود بخشیده و از جستجوی مبتنی بر کلمات کلیدی به جستجوی معنایی (Semantic Search) تغییر مسیر داده است. این نوع جستجو به جای تکیه بر کلمات جداگانه، بر معنا و ارتباط بین آن‌ها تمرکز دارد و از داده‌های تاریخی، موقعیت جغرافیایی، و رفتار کاربر برای نمایش نتایج دقیق‌تر استفاده می‌کند.

3️⃣ ویژگی‌های Universal Search و Knowledge Graph
گوگل در سال 2007 ویژگی Universal Search را معرفی کرد که اطلاعات را از منابع مختلف مانند پایگاه‌های داده زبان‌شناسی، پیش‌بینی‌های آب‌وهوا، داده‌های مالی و حتی معادلات ریاضی جمع‌آوری کرده و به نتایج جستجو اضافه می‌کند. در سال 2012 این رویکرد به سطح جدیدی رسید و Knowledge Graph معرفی شد که اطلاعات مرتبط با جستجو را مستقیماً در نتایج نشان می‌دهد.

📌 پروژه‌های داده‌محور گوگل

🚗 خودروهای خودران
یکی از پیشرفته‌ترین پروژه‌های گوگل، خودروهای خودران است. این خودروها با استفاده از داده‌های عظیمی که از حسگرها، دوربین‌ها، دستگاه‌های ردیابی و اطلاعات نقشه‌های گوگل مانند Street View به دست می‌آید، می‌توانند بدون نیاز به راننده انسان در جاده‌ها حرکت کنند.

🦠 پیش‌بینی اپیدمی‌ها
در سال 2008، گوگل مقاله‌ای منتشر کرد که نشان می‌داد فناوری‌های این شرکت می‌توانند شیوع آنفلوانزا را با دقت بیشتری نسبت به روش‌های پزشکی سنتی پیش‌بینی کنند. اگرچه این نتایج با بحث‌های فراوانی همراه بود، اما نشان‌دهنده قدرت تحلیل داده‌های عظیم برای پیش‌بینی روندهای اجتماعی و بهداشتی است.

📌 مدیریت و بهره‌برداری از داده‌های کاربران

🔐 جمع‌آوری و تحلیل داده‌ها
گوگل از اطلاعات کاربران برای بهبود خدمات خود و همچنین نمایش تبلیغات هدفمند استفاده می‌کند. الگوریتم Adsense یکی از ابزارهای کلیدی گوگل است که با تحلیل رفتار کاربران، تبلیغات مرتبط را نمایش داده و شرکت‌ها را به مشتریان بالقوه متصل می‌کند.

🖥 سرویس ابری داده‌های عظیم (BigQuery)
سرویس BigQuery، یک سرویس تجاری برای ذخیره‌سازی و تحلیل داده‌های عظیم است. این سرویس به کسب‌وکارها اجازه می‌دهد داده‌های خود را روی زیرساخت ابری گوگل ذخیره کنند و از قدرت پردازشی بالای آن برای انجام تحلیل‌های پیچیده بهره‌مند شوند.

📌 چشم‌انداز آینده گوگل در داده‌های عظیم
گوگل در تلاش است سیستمی بسازد که توانایی فهم و پاسخ به زبان طبیعی انسان را داشته باشد. هدف نهایی، ساخت دستگاهی است که مشابه رایانه‌های علمی‌تخیلی عمل کرده و به دقیق‌ترین شکل ممکن به سؤالات کاربران پاسخ دهد.

تعدادی از کاربردها و تأثیرات گوگل در تحلیل داده‌های عظیم

📍 بهینه‌سازی جستجو: ارائه نتایج دقیق‌تر و مرتبط‌تر با نیاز کاربران.
📍 پیشرفت در حمل‌ونقل: استفاده از داده‌ها در پروژه خودروهای خودران.
📍 سلامت و پیش‌بینی بیماری‌ها: تحلیل داده‌های جمعیتی برای پیش‌بینی روندهای بهداشتی.
📍 تبلیغات هدفمند: افزایش بهره‌وری تبلیغات از طریق تحلیل رفتار کاربران.

گوگل به‌عنوان یکی از بزرگ‌ترین و موفق‌ترین شرکت‌های دنیا، همچنان در زمینه تحلیل داده‌های عظیم پیشتاز است و پروژه‌های آن نشان‌دهنده اهمیت و پتانسیل این فناوری برای آینده است.

👈 همچنین می‌توانید این مطلب را در لینک زیر مطالعه فرمایید.

🔗 https://bdbanalytics.ir/ud9n

#مطالعه_موردی
#تحلیل_داده
#گوگل
#داده‌های_عظیم
#امین_صالح‌نژاد

#BigData_BusinessAnalytics
www.bdbanalytics.ir
👍1
Media is too big
VIEW IN TELEGRAM
🔍 هوش مصنوعی و تحلیل داده؛ آینده تصمیم‌گیری کسب‌وکارها

🚀 در این ویدئو می بینیم که چگونه هوش مصنوعی و تحلیلگری عظیم داده در حال متحول نمودن صنایع مختلف هستند:

پیش‌بینی بیماری‌ها و بهینه‌سازی درمان در حوزه سلامت 🏥
پیشنهادهای شخصی‌سازی‌شده برای افزایش فروش و رضایت مشتریان 📊
افزایش درآمد برای کسب‌وکارهایی که از هوش مصنوعی استفاده می‌کنند.

💡 مزیت رقابتی برای آینده:
پذیرش هوش مصنوعی به شما این امکان را می‌دهد که تصمیم‌گیری‌های داده‌محور انجام دهید و کسب‌وکار خود را به جلو ببرید.

همچنین می‌توانید این ویدئو را در لینک زیر مشاهده فرمایید.

🔗 https://bdbanalytics.ir/fidf


#هوش_مصنوعی
#تحلیل_داده
#ويدئوکوتاه
#عظیم_داده
#تحلیلگری
#آرش_قاضی_سعیدی

@BigData_BusinessAnalytics
www.bdbanalytics.ir
👍1
🍁 پاییزنامه

فایل بیست و پنجمین شماره فصلنامه گروه تحلیلگری عظیم‌داده و کسب‌وکار (پاییز 1403) در پست بعد قابل دریافت می‌باشد.

#فصلنامه_الکترونیک
#پاییزنامه

www.bdbanalytics.ir
@BigData_BusinessAnalytics
پاییزنامه 1403.pdf
3.9 MB
📣 بیست و پنجمین شماره فصلنامه گروه تحلیلگری عظیم‌داده و کسب‌وکار

#فصلنامه_الکترونیک
#پاییزنامه

www.bdbanalytics.ir
@BigData_BusinessAnalytics
🙏1
📖 کتاب بخوانیم؛

📌 "Artificial Intelligence For Business Analytics: Algorithms, Platforms, and Applications Scenarios"


کتاب: هوش مصنوعی برای تحلیل کسب و کار: الگوریتم‌ها­، پلتفرم‌ها و سناریوهای کاربردی

📌فصل سوم: هوش مصنوعی و پلتفرم‌های تحلیلگری کسب و کار- بخش سوم

در خلاصه بخش دوم فصل سوم به چارچوب های معروف هوش مصنوعی پرداخته شد. در ادامه این فصل به مفهوم یادگیری ماشین به عنوان یک سرویس پرداخته می شود و در انتها چارچوب های ابری معروف در این راستا معرفی می شوند.
یکی از چالش های اصلی پیاده سازی الگوریتم های یادگیری ماشین ایجاد زیرساخت های لازم و سرمایه گذاری برای یادگیری این متدها می باشد. استفاده از سرویس های ابری برای یادگیری ماشین این چالش را تا حدی برطرف می‌کند.
مفهوم یادگیری ماشین به عنوان سرویس تمام ابعاد یادگیری ماشین همچون زیرساخت ها، پردازش داده، مدل‌های یادگیری و ارزیابی را در بر می گیرد. پلتفرم‌های ابری متنوعی همچون سرویس Amazon, Azure, IBM, Google در این راستا وجود دارند که در ادامه به اختصار توضیح داده می‌شود. علاوه بر موضوع یادگیری ماشین، مفهوم ذخیره و نگه داری داده در این سرویس ها نیز حائز اهمیت می باشد چرا که پایه اولیه برای تمامی الگوریتم‌های یادگیری ماشین وجود بستر و یک زیرساخت مناسب برای ذخیره و نگه داری حجم انبوهی از داده می‌باشد.


برای مطالعه خلاصه فصل سوم (بخش سوم) به لینک زیر مراجعه فرمایید.

🔗 https://bdbanalytics.ir/qjd7

#کتاب_بخوانیم
#هوش_مصنوعی_برای_تحلیل_کسب‌_و_کار
#فصل_سوم
#علی_محمدی


www.bdbanalytics.ir
@BigData_BusinessAnalytics
🔎 معرفی کسب و کار داده محور

📌بایدو (Baidu)، یکی از بزرگ‌ترین شرکت‌های فناوری در جهان و غول موتور جستجوی چین، نقشی برجسته در شکل‌دهی به دنیای دیجیتال دارد. موفقیت این شرکت تا حد زیادی به توانایی آن در استفاده از داده‌ها برای بهبود خدمات، نوآوری و رقابت در بازارهای مختلف برمی‌گردد. در این متن، نقش داده‌محوری در استراتژی‌ها، محصولات و خدمات بایدو را مورد بررسی قرار می‌دهیم.

❇️ بایدو: پیشگام در داده‌محوری
بایدو به عنوان «گوگل چین» شناخته می‌شود، اما این شرکت فراتر از یک موتور جستجوی ساده عمل کرده و از داده‌ها برای گسترش دامنه فعالیت‌های خود در حوزه‌های مختلف مانند هوش مصنوعی (AI)، خودروهای خودران، تبلیغات دیجیتال و اینترنت اشیاء (IoT) استفاده می‌کند. داده‌ها به بایدو کمک کرده‌اند تا نوآوری‌هایی را توسعه دهد که نه تنها کاربران را جذب کنند، بلکه ارزش بیشتری برای مشتریان و سرمایه‌گذاران فراهم کنند.

❇️ استفاده از داده‌ها در خدمات اصلی بایدو
1️⃣ موتور جستجو: قلب داده‌محور بایدو
موتور جستجوی بایدو یکی از محبوب‌ترین موتورهای جستجو در چین است و اصلی‌ترین منبع داده‌های این شرکت به شمار می‌رود. بایدو از الگوریتم‌های پیشرفته و تکنیک‌های یادگیری ماشینی برای بهبود تجربه کاربران استفاده می‌کند.
2️⃣ تبلیغات دیجیتال
بایدو از داده‌های کاربران برای طراحی و اجرای تبلیغات هدفمند استفاده می‌کند. سیستم تبلیغات این شرکت با تحلیل رفتار کاربران، تبلیغات مرتبط را نمایش می‌دهد و به کسب‌وکارها کمک می‌کند تا مشتریان بالقوه را به طور مؤثری جذب کنند. این سیستم از الگوریتم‌های پیچیده‌ای برای ارزیابی داده‌های عظیم (Big Data) بهره می‌گیرد و یکی از اصلی‌ترین منابع درآمد بایدو محسوب می‌شود.

❇️ هوش مصنوعی و یادگیری عمیق: کلید موفقیت داده‌محور بایدو
بایدو یکی از پیشگامان در حوزه هوش مصنوعی است و داده‌ها نقش محوری در توسعه فناوری‌های این شرکت ایفا می‌کنند. در این بخش به چند نمونه از کاربردهای داده در حوزه هوش مصنوعی بایدو اشاره می‌کنیم:
1️⃣ پلتفرم هوش مصنوعی بایدو (Baidu AI Cloud)
بایدو با ارائه پلتفرم‌های ابری مبتنی بر هوش مصنوعی، امکان تحلیل داده‌های عظیم و استفاده از الگوریتم‌های یادگیری عمیق را فراهم می‌کند. این پلتفرم‌ها به کسب‌وکارها کمک می‌کنند تا با استفاده از داده‌ها، فرآیندهای خود را بهینه کنند.
2️⃣ سیستم‌های تشخیص تصویر و صدا
بایدو در زمینه توسعه سیستم‌های تشخیص تصویر و صدا از داده‌های کاربران بهره می‌برد. این فناوری‌ها در محصولات مختلفی مانند دستیارهای هوشمند و ابزارهای پردازش زبان طبیعی (NLP) مورد استفاده قرار می‌گیرند.
3️⃣ خودروهای خودران
یکی از هیجان‌انگیزترین پروژه‌های بایدو در زمینه خودروهای خودران است. این شرکت با استفاده از داده‌های جغرافیایی، اطلاعات ترافیکی و رفتار رانندگان، سیستم‌های خودران پیشرفته‌ای طراحی کرده است. این داده‌ها به خودروها کمک می‌کنند تا تصمیمات سریع و ایمن‌تری در شرایط مختلف اتخاذ کنند.

❇️ داده‌محوری در توسعه اینترنت اشیاء (IoT)
بایدو از داده‌ها برای گسترش خدمات خود در حوزه اینترنت اشیاء استفاده می‌کند. دستگاه‌های متصل به اینترنت تولید داده‌های بی‌شماری می‌کنند و بایدو این داده‌ها را برای ارائه خدمات بهتر تحلیل می‌کند.

❇️ نقش داده‌ها در مدیریت و پیش‌بینی بازار
بایدو از داده‌ها برای تحلیل روندهای بازار و پیش‌بینی تغییرات استفاده می‌کند. این شرکت با تحلیل داده‌های کاربران و الگوهای مصرف، می‌تواند تغییرات در رفتار مشتریان را شناسایی کرده و خدمات خود را بر اساس این تغییرات تنظیم کند. .

❇️ چالش‌های داده‌محوری در بایدو
هرچند داده‌ها منبع قدرت بایدو هستند، اما مدیریت و استفاده از داده‌ها با چالش‌هایی نیز همراه است:
1️⃣ حریم خصوصی کاربران
یکی از بزرگ‌ترین چالش‌ها برای بایدو، اطمینان از حفظ حریم خصوصی کاربران است. استفاده گسترده از داده‌ها می‌تواند نگرانی‌هایی را در مورد امنیت و شفافیت ایجاد کند.
2️⃣ حجم عظیم داده‌ها
بایدو باید با حجم بی‌سابقه‌ای از داده‌ها سروکار داشته باشد و تحلیل این داده‌ها نیازمند زیرساخت‌های پیشرفته و هزینه‌بر است.
3️⃣ رقابت شدید
با وجود شرکت‌های رقیب مانند علی‌بابا و تنسنت، بایدو باید دائماً نوآوری کند تا بتواند جایگاه خود را حفظ کند.

📌نتیجه‌گیری
بایدو نمونه‌ای برجسته از یک شرکت داده‌محور است که توانسته با بهره‌گیری از داده‌ها، به یکی از غول‌های فناوری در جهان تبدیل شود. از موتور جستجو گرفته تا هوش مصنوعی و اینترنت اشیاء، داده‌ها در قلب تمامی فعالیت‌های بایدو قرار دارند.

#معرفی_کسب_و_کار_داده_محور
#Baidu
#محمدرضا_مرادی


www.bdbanalytics.ir
@BigData_BusinessAnalytics
📚معرفی کتاب

📌عظیم‌داده و هوش مصنوعی برای کاربردهای بهداشتی و درمانی

"Big Data and Artificial Intelligence for Healthcare Applications"

📌نویسندگان:
Sandhya Makkar, K. Martin Sagayam, and Rohail Hassan

📌این کتاب در سال 2021 توسط CRC Presss Taylor & Francis Group انتشار یافته است.


📍 کتاب «عظیم‌داده و هوش مصنوعی برای کاربردهای بهداشتی و درمانی» به بررسی پتانسیل تحول‌آفرین عظیم‌داده، هوش مصنوعی (AI) و یادگیری ماشین (ML) در زمینه صنعت ۴.۰ می‌پردازد. این عصر که با اتصال بین‌المللی، خودکارسازی و تبادل داده‌های بلادرنگ شناخته می‌شود، با هدف بهبود بهره‌وری در تولید و خدمات، فناوری‌های پیشرفته را در ماشین‌ها و فرآیندها ادغام می‌کند. این فناوری‌ها با استفاده از الگوریتم‌های یادگیری ماشین و سایر روش‌های محاسباتی، انتقال داده‌های بلادرنگ و عملیات خودکار را ممکن می‌سازند.

📍 این کتاب، عظیم‌دادها را به‌عنوان مفهومی معرفی می‌کند که به مجموعه‌داده‌های وسیع و پیچیده‌ای اشاره دارد که فراتر از توانایی‌های پردازش سنتی هستند. با رشد انفجاری داده‌هایی که روزانه از پلتفرم‌هایی مانند نتفلیکس، گوگل، سیستم‌های بهداشتی و سوابق دولتی تولید می‌شوند، اهمیت پردازش، تحلیل و استفاده از عظیم‌داده بیش از پیش آشکار می‌شود. تحلیل داده‌های عظیم از روش‌های اکتشافی سنتی به فرآیندهای پیش‌بینی‌کننده و مبتنی بر داده تحول یافته است که امکان تشخیص ناهنجاری‌ها به‌صورت بلادرنگ و پیش‌بینی نتایج آینده را فراهم می‌کند. این کتاب بر ضرورت فیلتر کردن و تحلیل داده‌ها برای استخراج بینش‌های معنادار تأکید کرده و نقش اساسی مدل‌های آماری و احتمالاتی در مدیریت عظیم‌داده را برجسته می‌سازد.

📍 یکی از موضوعات اصلی مورد بحث، چارچوب «5Vs» در عظیم‌داده است: حجم (Volume)، سرعت (Velocity)، تنوع (Variety)، صحت (Veracity) و ارزش (Value). حجم به مقادیر عظیم داده‌های تولید شده اشاره دارد، به‌ویژه در بخش‌هایی مانند مراقبت‌های بهداشتی که مدیریت سوابق فردی اهمیت زیادی دارد. سرعت بر جمع‌آوری و پردازش سریع داده‌ها برای تضمین بینش‌های به‌موقع و ارزشمند تأکید می‌کند. تنوع به فرمت‌های متنوع داده، از ساختاریافته تا غیرساختاریافته اشاره دارد. صحت به قابلیت اطمینان و اعتبار داده‌ها پرداخته و اطمینان می‌دهد که این داده‌ها برای ایجاد روابط معنادار مفید هستند. در نهایت، ارزش به استخراج بینش‌های عملی از عظیم‌داده برای بهبود فرآیندهای تصمیم‌گیری می‌پردازد.

📍 این کتاب به ادغام هوش مصنوعی و یادگیری ماشین در حوزه بهداشت و درمان نیز می‌پردازد، بخشی که به دلیل این فناوری‌ها دستخوش تحولات چشمگیری شده است. هوش مصنوعی و یادگیری ماشین برای بهبود تشخیص‌ها و پزشکی دقیق و ساده‌سازی فرآیندهای اداری به‌کار گرفته شده‌اند و به این ترتیب، مسائل حیاتی مانند کمبود منابع و افزایش تقاضاهای عملیاتی را حل می‌کنند. عظیم‌داده در حوزه بهداشت و درمان شامل ادغام مجموعه‌داده‌های پیچیده‌ای از جمله داده‌های اُمیکس، سوابق الکترونیکی سلامت و داده‌های زیست‌پزشکی است که امکان کاربردهایی نظیر تصویربرداری پزشکی، کشف دارو و پلتفرم‌های دیجیتال برای مدیریت بیماری‌های مزمن را فراهم می‌کند. این پیشرفت‌ها نویدبخش رفع شکاف‌های موجود در ارائه مراقبت‌های بهداشتی جهانی، به‌ویژه در مناطق روستایی کم‌برخوردار هستند.

📍 ملاحظات اخلاقی پیرامون کاربردهای هوش مصنوعی و عظیم‌داده در حوزه بهداشت و درمان نیز در این کتاب مورد توجه قرار گرفته است. این کتاب خواستار ایجاد ساختارهای حکمرانی جهانی و دستورالعمل‌های اخلاقی برای اطمینان از اعتمادپذیری و کاهش سوءاستفاده احتمالی است. این متن چندرشته‌ای، مرور جامعی از اصول، کاربردها و چالش‌های هوش مصنوعی، یادگیری ماشین و عظیم‌داده ارائه می‌دهد و بینش‌های ارزشمندی را برای پژوهشگران، متخصصان و سیاست‌گذاران فراهم می‌سازد. این کتاب به‌عنوان منبعی بنیادی برای درک چگونگی تغییر شکل این فناوری‌ها در صنایع و حل چالش‌های پیچیده اجتماعی عمل می‌کند.


این کتاب را می‌توانید در پست بعد دریافت فرمایید.


#معرفی_کتاب
#عظیم_داده
#زهرا_رفیعی‌پور


@BigData_BusinessAnalytics
http://www.bdbanalytics.ir