تحلیلگری عظیم‌داده و کسب‌وکار
907 subscribers
44 photos
42 videos
56 files
468 links
📌تحلیلگری عظیم داده و کسب و کار؛

🔎Big Data and Business Analytics

آموزش، پژوهش، اطلاع‌رسانی، ترویج و خدمات مشاوره حوزه تحلیلگری عظیم‌داده

سرپرست کانال: دکتر سعید روحانی، عضو هیأت علمی دانشگاه تهران

وبسایت
www.bdbanalytics.ir

ادمین کانال
@BDBA_UT
Download Telegram
📖 کتاب بخوانیم؛

"تحلیل عظیم‌داده، سیستم‌ها، الگوریتم‌ها و کاربردها"
"Big Data Analytics: Systems, Algorithms, Applications"


📌 بخش چهاردهم: تحلیل عظیم داده و سیستم‌های توصیه گر

🔸یکی دیگر از کاربردهای تحلیل عظیم داده طراحی سیستم‌های توصیه گر با هدف تسهیل فرآیند انتخاب کاربران و ارائه پیشنهادات مرتبط می‌باشد. رویکردهای مختلفی در طراحی این سیستم‌ها بر پایه‌ی الگوریتم‌های یادگیری ماشین وجود دارد که هر کدام با توجه به نوع داده‌ها می‌توانند به صورتی مجزا و یا ترکیبی به کار گرفته شوند. در این بخش ضمن تعاریف اولیه در حوزه سیستم‌های توصیه‌گر به بررسی رویکردهای مختلف طراحی این سیستم‌ها پرداخته شده است.


برای خواندن این مطلب می‌توانید به لینک زیر مراجعه فرمایید:

🔗 https://b2n.ir/z23705

#کتاب_بخوانیم
#فصل_چهاردم
#علی_محمدی
#تحلیل_عظیم‌داده_سیستم‌ها_الگوریتم‌ها_و_کاربردها

www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌📌 معرفی ابزار : Apache Druid

🖌ابزار Apache Druid یک پایگاه داده تحلیلی بلادرنگ است که برای پردازش تحلیلی آنلاین (OLAP) در مجموعه داده‌های بزرگ طراحی شده است. اغلب Druid در مواردی استفاده می‌شود که در آن ورود داده بلادرنگ، عملکرد سریع کوئری و زمان مهم است.
🔸معماری اصلی Druid ایده‌هایی از انبارهای داده، پایگاه‌های داده سری زمانی و سیستم‌های جستجوی لاگ را ترکیب می‌کند.
🔹برخی از ویژگی های کلیدی Druid عبارتند از: قالب ذخیره سازی ستونی، سیستم توزیع شده مقیاس پذیر، پردازش موازی، پردازش به صورت بلادرنگ یا دسته‌ای، معماری ابری و مقاوم در برابر خطا، ایندکس‌هایی برای فیلتر کردن سریع، پارتیشن‌بندی مبتنی بر زمان، الگوریتم‌های تقریبی و خلاصه‌سازی خودکار.
🔸این پایگاه داده برای مواردی که نرخ درج داده‌ها بالا اما بروزرسانی کمتر است، اکثر کوئری‌ها عبارتند از کوئری‌های تجمیع و گزارش، تأخیرهای کوئری از 100 میلی ثانیه تا چند ثانیه مورد نظر است، داده‌ها دارای یک جزء زمان است و load داده‌ها از Kafka، HDFS، فایل‌های فلت، یا ذخیره‌سازی آبجکت مانند Amazon S3 انجام می‌گیرد، کاملاً مناسب است.

متن کامل یادداشت را در لینک زیر بخوانید:

🔗 https://b2n.ir/g89758


#معرفی_ابزار

#Apache_Druid
#فاطمه_مظفری

@BigData_BusinessAnalytics
www.bdbanalytics.ir
📚معرفی کتاب

“Data Analytics with Spark Using Python"

✍️ نویسنده: جفری آون
✍️ سال انتشار: 2018
✍️انتشارات: ادیسون وسلی

🔳 تحلیل داده با اسپارک و پایتون

🔸 اسپارک قلب انقلاب امروز عظیم داده است که به متخصصان داده در انجام پردازش داده و کارهای تحلیلی از نظر کارآمدی و عملکردی مزیت خارق العاده ای میدهد. در این کتاب، متخصص عظیم داده، جفری آون، تمام آنچه که برای استفاده از اسپارک و ویژگی های آن در پروژه ها و اکوسیستم عظیم داده ورد نیاز است را پوشش میدهد.
🔸آون یک معرفی از مفاهیم اساسی اسپارک را با مثال های برنامه نویسی که از محیط توسعه مشهور و رایج PySpark استفاده میکند در هم آمیخته و بر زبان پایتون که در بین متخصصان و تحلیلگران و توسعه دهندگان داده بسیار مورد اقبال است تمرکز می کند. او گستره وسیعی از اسپارک مقدماتی تا پیشرفته را ارائه میکند و شما خواهید آموخت که چگونه به صورت کارآمد، همه فرمت های داده از قبیل داده جریانی، ساختارمند و نیمه ساختار و بدون ساختار را با استفاده از اسپارک مدیریت نمایید. علاوه بر این، مرورهای موضوعی سریع باعث میشود تا سرعت یادگیری شما در حل تمرین ها و آماده شدن برای حل مسائل واقعی افزایش یابد.

🔹 مطالب کتاب شامل موارد زیر می شود:
- اهمیت و نقش توسعه ای اسپارک در عظیم داده و اکوسیستم هدوپ
- ایجاد خوشه های اسپارک با استفاده از حالت های توسعه مختلف
- کنترل و بهینه سازی فعالیت ها در خوشه ها و اپلیکیشن های اسپارک
- توسعه، شتاب و بهینه سازی روتین های اسپارک با استفاده از API ها
- یکپارچه سازی اسپارک با دیتا استورهای SQL و غیر SQL
- انجام پردازش جریانی و مسیجینگ با استفاده از اسپارک و کافکا
- پیاده سازی مدلسازی پیشبینانه با استفاده از SparkR و MLib

🔻برای دریافت کتاب به لینک زیر مراجعه فرمایید:

🔗 https://b2n.ir/w06081

#معرفی_کتاب
#اسپارک
#میثم_عسگری

www.bdbanalytics.ir
@BigData_BusinessAnalytics
📚 معرفی کتاب
تحلیل‌گری داده: رویکردها و کاربردها

✍️نویسنده: دکتر سعید روحانی، هادی صداقت

✍️سال انتشار: 1400

✍️انتشارات: دانشگاه تهران

🔳ساليان ‌متمادي ‌شناخت،‌ برنامه‌ريزي ‌و ‌مديريت‌ سازمان‌ها ‌و ‌كسب‌وكارها، ‌در‌گرو ‌صرف‌ زمان ‌بسيار و تجربه وقایع مختلف در محیط کاری و اجرایی بود. همین موضوع سرعت و چابکی مورد نیاز تغییر و تحول به منزله نیاز حیاتی بقا در شرایط پیچیده بازار و فناوری را تحت‌تاثیر قرار می‌داد.

🔸پس از انقلاب اتوماسیون و ایجاد سیستم‌های اطلاعاتی و نرم‌افزارهای کاربردی که با هدف اولیه مکانیزه کردن فرآیندها شکل گرفته بودند، فرصتی شگرف از ذخیره‌سازی داده‌ها و اطلاعات مهیا و آرمانی جدید پدیدار شد. داده‌هایی که به دلیل جبر مکانیزاسیون و الکترونیکی و اینترنتی کردن فرآیندها و رویه‌های کاری در منابع سازمانی گردآوری شده بودند، حال به مسیری بنیادی برای شناخت و مدیریت داده‌محور کسب‌وکارها و سازمان‌ها بدل شده‌اند.

🔹تحلیل‌گری داده عنوانی است که معرف این رویکرد نوین شناخت، برنامه‌ریزی و مدیریت مبتنی بر تحلیل داده‌هاست و طیف وسیعی از مدل‌ها، روش‌ها، ابزارها و الگوریتم‌ها را شامل می‌شود. هدف کتاب حاضر مرور مبانی نظری و حرفه‌ای تحلیل‌گری داده، شناخت نوع داده‌ها و راهبردهای داده‌محور، معرفی مدل‌های کسب‌وکار داده‌محور و کاربردهای تحلیل‌گری داده در مدیریت کسب‌وکار و در نهایت تشریح نمونه‌های کاربردی و موردکاوی‌های این حوزه است. این کتاب به گونه‌ای طراحی و تالیف شده است که رویکردها، روش‌ها، کاربردهای عملی و مصادیق عینی تحلیل‌گری داده در کسب‌وکار را تصویرگری می‌کند و به آنها تاکید دارد. سعی شده است در طراحی و تالیف این کتاب هم مبانی علمی حوزه مدیریت داده و فناوری‌های مربتط مرور شود و هم گزارش‌های سازمانی و حرفه‌ای پوشش داده شوند.

🔸ساختار این کتاب در پنج فصل سازماندهی شده است:

در فصل یک به مفاهیم پایه، انواع داده‌ها، داده‌های عظیم، تولید داده و مرور انواع تحلیل‌گری پرداخته شده است.
فصل دوم به اینترنت اشیا و داده‌های حاصل از این فناوری می‌پردازد و تحلیل داده‌های اینترنت اشیا را بررسی می‌کند.
فصل سوم مدل‌های کسب‌وکار داده‌محور، کسب‌وکارها نوپای این حوزه و راهبردهای داده‌محور کسب‌وکارها را بررسی می‌کند.
فصل چهارم در خصوص کاربردهای مختلف تحلیل‌گری داده در صنایع مختلف و نتایج و مزایای آن در حوزه‌های کاری متفاوت و گوناگون بحث می‌کند.
فصل پنجم نمونه‌های کاربردی و موردکاوی‌های الگو در حوزه‌های نوین تحلیل داده را ارائه می‌دهد.

🔻این کتاب را می‌توانید از لینک زیر سفارش دهید:

https://press.ut.ac.ir/book_3648.html

#دکترسعیدروحانی
#هادی_صداقت
#تحلیل_داده
@BigData_BusinessAnalytics
www.bdbanalytics.ir
This media is not supported in your browser
VIEW IN TELEGRAM
📌📌 عظیم داده به چه معناست؟
🔹 عظیم داده از کجا آمده است؟
پیش از 2012، ایالات متحده بزرگترین مشارکت‌کننده در داده‌های جهانی بود. امروزه بازارهای نوظهور، بیشترین افزایش را در رشد داده‌ها نشان می‌دهند.
در این ویدئو علاوه بر پرداختن به موضوعات فوق، مقایسه‌ای از میزان داده‌ها موجود از سال 2012 به بعد قابل مشاهده بوده و همچنین در مورد فواید این داده‌ها بحث شده است.

🔸 همچنین شما می‌توانید این ویدئو را از لینک زیر تماشا نمایید.

🔗 https://b2n.ir/g50395

#ويدئو
#عظیم_داده
#آرش_قاضی_سعیدی

@BigData_BusinessAnalytics
www.bdbanalytics.ir
❄️ زمستان‌نامه

ماحصل هجدهمین فصل از فعالیت‌های گروه تحلیلگری عظیم‌داده و کسب‌وکار، (زمستان 1400) در پست بعد قابل دریافت می‌باشد.

#فصلنامه_الکترونیک
#زمستان‌نامه

www.bdbanalytics.ir
@BigData_BusinessAnalytics
📖 کتاب بخوانیم؛

"تحلیل عظیم‌داده، سیستم‌ها، الگوریتم‌ها و کاربردها"
"Big Data Analytics: Systems, Algorithms, Applications"


📌 بخش پانزدهم: امنیت در عظیم داده‌ها

🔸در فصل‌های قبلی، دیدیم که چگونه تکنیک‌های تجزیه و تحلیل عظیم داده‌ را می‌توان در حوزه‌های کاربردی مختلف مانند وب معنایی اجتماعی، IOT، خدمات مالی و بانکداری، بازار سرمایه و بیمه اعمال کرد. در تمام این موارد، موفقیت چنین کاربرد تکنیک‌های تجزیه و تحلیل عظیم داده‌ به شدت به امنیت بستگی دارد. در این فصل، چگونگی و میزان توان تضمین امنیت در عظیم داده‌ بررسی خواهد شد.

🔹مجمع جهانی اقتصاد اخیراً داده‌ها را «نفت جدید» نامیده است. عصر طلایی جدیدی بوجود آمده که در آن شرکت‌هایی مانند IBM، Oracle، SAS، Microsoft، SAP، EMC، HP و Dell برای به حداکثر رساندن سود خود سازمان‌دهی می‌کنند. از آنجایی که با ارزش ترین منبع در حال حاضر داده است و کسانی که بیشترین مقدار داده را در اختیار دارند، قدرت و نفوذ زیادی خواهند داشت، بنابراین، شرکت‌هایی مانند فیس‌بوک، گوگل و اکسیون در حال ایجاد بزرگترین مجموعه داده‌ها در مورد رفتار انسان هستند که تا به حال در تاریخ ایجاد شده‌اند و می‌توانند از این اطلاعات برای اهداف خود برای سود، نظارت یا تحقیقات پزشکی استفاده کنند.

🔸مانند سایر منابع ارزشمند، این با ارزش‌ترین منبع جدید، «داده‌ها» باید به اندازه کافی با مقررات امنیتی مناسب محافظت و حراست شود. در حال حاضر مکانیسم‌های امنیتی کافی برای محافظت از این منبع نداریم. پایگاه داده‌ای که چنین داده‌هایی را ذخیره می‌کند آسیب پذیر هستند و توسط عناصر غیرقانونی یا مجرمانه قابل دسترسی و هک است. همچنین در مورد داده های زیاد ذخیره شده در شرکت هایی مانند فیس بوک و گوگل نیز در مقابل دسترسی، هک، سوء استفاده آسیب پذیر است. در این فصل، آسیب‌پذیری‌ها و تهدیدات امنیتی در عظیم‌داده‌ها شناسایی شده و همچنین تکنیک‌های ممکن به عنوان اقدامات اصلاحی خلاصه شده است.


برای خواندن این مطلب می‌توانید به لینک زیر مراجعه فرمایید:

🔗 https://b2n.ir/z30973

#کتاب_بخوانیم
#فصل_پانزدهم
#ساینا_رتبه‌ای
#تحلیل_عظیم‌داده_سیستم‌ها_الگوریتم‌ها_و_کاربردها

www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌 معرفی مقالات داغ حوزه عظیم‌داده
Understanding the impact of big data on firm performance: The necessity of conceptually differentiating among big data characteristics

🖋نویسنده:

DeGroote School of Business, McMaster University, Hamilton, Ontario, Canada

🔸در این مطالعه، برای بررسی تاثیر ویژگی‌های اصلی عظیم داده‌ها، یعنی حجم، سرعت و تنوع داده‌ها بر روی عملکرد شرکت و نقش‌های واسطه‌ای ارزش داده‌ها و صحت داده‌ها بر این روابط، از یک دیدگاه مبتنی بر منبع استفاده شده است. برای ارزیابی مدل تحقیق، از 143 مدیر سطح بالا و میانی در ایالات متحده، داده جمع‌آوری شده است. یافته‌ها نشان می‌دهد که تنوع داده‌ها منجر به بهبود تولید ارزش داده‌ها می‌شود؛ در حالیکه حجم و سرعت داده‌ها بر این مورد تاثیری ندارد. علاوه بر این، در حالیکه حجم داده‌ها بر روی صحت داده‌ها تاثیر منفی دارد، سرعت و تنوع داده‌ها بر روی صحت داده‌ها، اثر مثبت دارند. این مطالعه برای محققان و مدیرانی که مشتاق درک بهتر نقش ویژگی‌های عظیم داده‌ها بر عملکرد شرکت هستند، بینش مفیدی را فراهم می‌آورد.

🔹برای دریافت مقاله به لینک زیر مراجعه فرمایید:

🔗 https://b2n.ir/q68101

#معرفی_مقاله
#دکترسعیدروحانی
#یگانه_صیدی
#عظیم_داده


www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌📌 معرفی ابزار : پایگاه داده Neo4j

🖌پایگاه داده Neo4j یک پایگاه داده گراف منبع باز NoSQL است که یک Backend تراکنشی سازگار با ACID را برای برنامه‌های شما فراهم می‌کند که از سال 2007 به صورت عمومی در دسترس بوده است.

🔸در Neo4j، تلاش شده است گزینه‌هایی برای حل بسیاری از نیازهای تجاری و فنی ارائه داده شود. هدف این است که محصولات ارائه شده ساده و متناسب با نیازهای کسب و کار باشد، هر چه که باشد. خواه برای تراکنش‌ها، تحلیل بازار، بهینه‌سازی عملیات یا هر چیز دیگری که می‌توان از نمودارها استفاده کرد.

🔹قابلیت‌های پلتفرم گراف Neo4j شامل کمک به توسعه‌دهندگان برای وارد کردن داده‌ها به نمودار، تحلیل‌گران تجاری برای کاوش آسان داده‌ها و دانشمندان داده برای تصمیم‌گیری بر اساس نتایج تحلیل است. هدف این است با به کارگیری قدرت نمودار و Neo4j ارزش کسب و کار به حداکثر رسیده و به نیازهای فنی پاسخ داده شود.

🔸پایگاه داده Neo4j امروزه توسط هزاران استارت آپ، مؤسسه آموزشی و شرکت‌های بزرگ در همه بخش‌ها از جمله خدمات مالی، دولتی، انرژی، فناوری، خرده فروشی و تولید استفاده می‌شود. از فناوری جدید نوآورانه گرفته تا کسب‌وکارهای محرک، کاربران در حال ایجاد بینش با نمودار، ایجاد درآمد جدید و بهبود کارایی کلی خود هستند.

متن کامل یادداشت را در لینک زیر بخوانید:

🔗 https://b2n.ir/j89645


#معرفی_ابزار
#پایگاه_داده_Neo4j
#فاطمه_مصلحی

@BigData_BusinessAnalytics
www.bdbanalytics.ir
📖 کتاب بخوانیم؛

"تحلیل عظیم‌داده، سیستم‌ها، الگوریتم‌ها و کاربردها"
"Big Data Analytics: Systems, Algorithms, Applications"


📌 بخش شانزدهم: حریم شخصی در عظیم داده‌

🔸اگر چه اطلاعات کاربران در عصر دیجیتال یکی از منابع داده‌ای ارزشمند برای هر سازمانی محسوب می‌شود؛ اما تدوین سیاست‌هایی جهت حفظ حریم شخصی افراد، یکی از چالش‌های مهم عظیم داده می‌باشد. پیاده‌سازی این سیاست‌ها از طریق ایجاد ساز و کار حکمرانی داده امکان پذیر می‌باشد که در این فصل به توضیح اجمالی و بررسی اهم نکات پرداخته شده است.

برای خواندن این مطلب می‌توانید به لینک زیر مراجعه فرمایید:

🔗 https://b2n.ir/m34254

#کتاب_بخوانیم
#فصل_شانزدهم
#علی_محمدی
#تحلیل_عظیم‌داده_سیستم‌ها_الگوریتم‌ها_و_کاربردها

www.bdbanalytics.ir
@BigData_BusinessAnalytics
🔎 استفاده از هوش مصنوعی در تحقیقات علمی و بهبود تصمیمات پزشکی

🔻 مورد مطالعه: Elsevier

🔸 الزویر یک انتشارات چندرسانه‌ای جهانی است که بیش از 20000 محصول آموزشی و حرفه‌ای را برای جوامع علمی و حوزه‌های پزشکی، از جمله نشریات تحقیقاتی برجسته مانند The Lancet و Cell ارائه می‌دهد. مرحله اول از تحول دیجیتال مستمر شرکت شامل دیجیتالی کردن حجم عظیمی از داده‌های منتشر شده در گزارش‌ها و مجلات در طول تاریخ 140 ساله شرکت بوده است و اکنون در حال ساخت ابزارهای هوش مصنوعی (AI) است که بینش‌های جدیدی را از این داده‌ها و همچنین ترکیب آن با سایر منابع داده‌های عظیم مانند داده‌های ناشناس شده بیماران و بیمه‌ها استخراج می‌کند.

🔹 پلتفرم الزویر از داده‌های ناشناس شده بیماران، از جمله سوابق پزشکی، سوابق درمان و نتایج استفاده می‌کند. همچنین از پایگاه داده دارای 5 میلیون رکورد مرتبط با بیمه درمانی استفاده می‌کند. علاوه بر این، تمام مقالات و تحقیقات منتشر شده در مجلات الزویر در طول 140 سال گذشته نیز از جمله منابع مورد استفاده است. الزویر برای انجام تجزیه و تحلیل بر روی این داده‌ها، ابزارهای تحلیلی اختصاصی خود را ساخته است که از پردازش زبان طبیعی برای درک محتویات ادبیات پزشکی در پایگاه داده خود و همچنین سوابق بیمار استفاده می‌کنند. این شرکت، داده‌های عظیم تجاری و راه‌حل‌های هوش مصنوعی همچون راهکارهای پیشنهاد شده توسط مایکروسافت و آمازون را برای مرحله بعدی هوش مصنوعی خود در نظر دارد.

🔸 با در نظر گرفتن این موضوع که الزویر 25 درصد از تولیدات تحقیقات علمی و پزشکی منتشر شده ایالات متحده را در اختیار دارد، بهره‌گیری از هوش مصنوعی موجب شده است تا بتواند روش‌های جدیدی برای استخراج ارزش از این اطلاعات ایجاد کند. همچنین استفاده از ماشین برای تعیین مسیرهای درمانی بهینه بسته به جزئیات بیماری و بیمار، سابقه پزشکی و علائم ظاهر شده می‌تواند منجر به استانداردسازی درمان‌ها گردد. اگر درمان‌های استاندارد شده با استفاده از داده‌ها بهینه شوند، منجر به نتایج بهتری برای بیمار می‌شوند و به ارائه‌دهندگان مراقبت‌های بهداشتی نیز کمک می‌کند تا هزینه‌های کلی را کاهش دهند.

🔹الزویر علاوه بر پلت‌فرم پشتیبانی تصمیم‌گیری بالینی پیشرفته خود، از هوش مصنوعی برای راه‌حل‌های تحقیقاتی خارج از حوزه مراقبت‌های بهداشتی، مانند ابزار ScienceDirect خود استفاده می‌کند. این ابزار همچنین با استفاده از مجموعه مقالات علمی منتشر شده پژوهشگران را به سمت مقالات مرتبط با کار تحقیقاتی‌شان که با استفاده از پیش‌بینی هوش مصنوعی مشخص می‌شوند، هدایت کرده و به این ترتیب از پژوهشگران حمایت می‌کند.



🔺 برای خواندن این مطلب می‌توانید به لینک زیر مراجعه فرمایید:

🔗 https://b2n.ir/r19056

#نمونه_موردی
#عظیم_داده
#هوش_مصنوعی
#پزشکی
#فاطمه_مظفری

www.bdbanalytics.ir
@BigData_BusinessAnalytics
Media is too big
VIEW IN TELEGRAM
📌📌 اهمیت عظیم داده و تحلیل‌گری در بازاریابی
🔹 عظیم داده نقش کلیدی در بازاریابی دیجیتال ایفا می کند زیرا به بازاریابان و کسب و کار کمک می‌کند تا بینشی صحیح به کسب و کار خود داشته باشند.

در این ویدئو با انواع داده‌ها در دیجیتال مارکتینگ آشنا می‌شویم و نقش عظیم داده و تحلیل‌گری در این حوزه بررسی شده است.

🔸 همچنین شما می‌توانید این ویدئو را از لینک زیر تماشا نمایید.

🔗 https://b2n.ir/w37832

#ويدئو
#عظیم_داده
#مارکتینگ
#بازاریابی
#تحلیلگری_داده
#آرش_قاضی_سعیدی

@BigData_BusinessAnalytics
www.bdbanalytics.ir
📚 معرفی کتاب

“یادگیری اسپارک: تحلیل عظیم داده با سرعت نور (چاپ دوم)"
“Learning Spark: Lightning-Fast Big Data Analysis 2nd Edition”

📍 اولین نسخه این کتاب توسط توسعه دهندگان اسپارک در سال 2015 و نسخه دوم آن که اسکالا و پایتون را شامل می‌شود در سال 2020 و توسط انتشارات O'Reilly منتشر شده است.

📍 داده‌ها بزرگ‌تر، سریع‌تر و متنوع تر شده‌اند و نیاز به پردازش مقیاس‌پذیر برای تحلیل و یادگیری ماشین دارند. اما چگونه چنین حجم داده‌ای را به صورت کارآمد پردازش کنیم؟ وارد آپاچی اسپارک شوید.
📍 با به‌روزرسانی اسپارک 3.0، نسخه دوم این کتاب برای مهندسین داده و دانشمندان داده نشان می‌دهد که چگونه ساختار و یکپارچه‌سازی در اسپارک اهمیت میابد. به ویژه، این کتاب توضیح می‌دهد که چگونه تحلیل‌های داده‌های ساده و پیچیده را انجام دهیم و الگوریتم‌های یادگیری ماشین را به کار ببریم.

📍از طریق آموزش گام به گام و با استفاده از کد اسنیپت‌ها و یادداشت‌های این کتاب شما قادر خواهید بود:
- رابط‌های اپلیکیشنی (API) های سطح بالای پایتون، اسکیوال ، اسکالا و جاوا را بیاموزید
- اپریشن‌های اسپارک و موتور اسکیوال را فرا بگیرید
- اپریشن‌های اسپارک را با استفاده از تنظیمات اسپارک و رابط گرافیکی اسپارک، تیون و بهینه‌سازی کنید
- به منابع داده متصل شوید: JSON و پارکت و CSV و Avro و ORC و هایو و S3 و یا کافکا
- روی داده‌های انباشته و یا جریانی تحلیل انجام دهید
- از طریق Delta lake و اسپارک که متن باز هستند دیتاپایپ‌لاین‌های قابل اتکا و استیبل بسازید
- از طریق MLib و Mflow پایپ‌لاین‌های یادگیری ماشین را توسعه داده و مدل‌های عملیاتی بسازید


این کتاب را می‌توانید از لینک زیر دریافت نمایید:

https://b2n.ir/m33558


#معرفی_کتاب
#تحلیل‌_عظیم‌داده_و_کسب‌وکار
#میثم_عسگری


@BigData_BusinessAnalytics
www.bdbanalytics.ir
🌱 بهارنامه

ماحصل نوزدهمین فصل از فعالیت‌های گروه تحلیلگری عظیم‌داده و کسب‌وکار، (بهار 1401) در پست بعد قابل دریافت می‌باشد.

#فصلنامه_الکترونیک
#بهارنامه

www.bdbanalytics.ir
@BigData_BusinessAnalytics
بهارنامه 1401.pdf
1.5 MB
فایل نوزدهمین شماره فصلنامه گروه "تحلیلگری عظیم‌داده و کسب‌وکار"

#فصلنامه_الکترونیک
#بهارنامه

www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌 معرفی مقالات داغ حوزه عظیم‌داده
Sentiment analysis researches story narrated by topic modeling approach

🖋نویسندگان: دکتر سعید روحانی، فاطمه مظفری
🖋 سال انتشار: 2022


🔸رشد فزاینده محتوای تولید شده توسط کاربران همچون وب‌سایت‌ها، رسانه‌های اجتماعی و اپلیکیشن‌های موبایل، افراد را به سمت ایجاد انبوهی از نظرات و بررسی‌ها در مورد محصولات، خدمات و رویدادهای روزانه سوق می‌دهد. تحلیل احساسات (sentiment analysis) ابزاری قدرتمند برای کسب و کارها و محققان جهت بررسی و مطالعه نگرش‌ها، تفسیرها و کسب بینش از پیامدهای آنها برای پشتیبانی از تصمیم گیری است.

🔹بر این اساس، این مقاله یک مطالعه جامع در مورد موضوعات اصلی پژوهشی، روندهای پژوهش و مقایسه موضوعات پژوهشی در زمینه "تحلیل احساسات" از طریق "رسانه‌های اجتماعی" با استفاده از تاپیک مدلینگ و به طور خاص مدل LDA Latent Dirichlet Allocation که یک مدل احتمالی برای کشف تاپیک‌های پنهان در حجم زیادی از داده‌ها است ارائه می‌دهد.

🔸یافته‌های این مقاله نشان می‌هد که روش‌های «یادگیری ماشین» از مهم‌ترین موضوعاتی است که در سال‌های اخیر روی آن‌ها کار شده است. همچنین پلتفرم‌های مختلف رسانه‌های اجتماعی مانند «توئیتر، فیس‌بوک، یوتیوب و بلاگ» زیرساخت‌های تحلیل احساسات هستند.

🔹در میان کاربردها، حوزه حمل و نقل، تشخیص اسپم و تصمیم‌گیری از نقطه نظر فراوانی نرمال شده دارای اهمیت شناخته شده‌اند. همچنین یافته‌ها تأیید می‌کنند که مفهوم «بهبود خدمات از طریق تحلیل احساسات» موضوع مهمی است که بهبود کیفیت خدمات شرکت را از طریق تمرکز بر تحلیل نظرات مشتریان میسر می‌سازد و به پژوهشگران و متخصصان و همچنین مدیران اجازه می‌دهد دیدگاه‌های بهتری در مورد دوران داغ «تحلیل احساسات» داشته باشند.

🔹برای دریافت مقاله به لینک زیر مراجعه فرمایید:

🔗 https://b2n.ir/h34363

#معرفی_مقاله
#دکتر_سعید_روحانی
#فاطمه_مظفری
#تحلیل_احساسات
#شبکه‌های_اجتماعی
#تاپیک_مدلینگ


www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌📌 معرفی ابزار BigML: یادگیری ماشینی به عنوان یک سرویس برای تحلیلگران کسب و کار

🖌با توسعه یادگیری ماشین در طول سال‌ها، هیچ محیط و ابزار بدون نیاز به کد و ابزاری به طور فزاینده‌ای در بین جامعه یادگیری ماشین رایج نشده است. اگرچه بسیاری از این ابزارها قابلیت‌هایی مانند تجسم داده‌ها، پیش پردازش داده‌ها و توسعه مدل را ارائه می‌دهند، ابزارهای کمی وجود دارند که قابلیت ساخت مدل‌های یادگیری عمیق بدون کد را فراهم می‌کنند. یکی از این ابزارها BigML است. BigML یادگیری ماشینی را به عنوان یک سرویس برای تحلیلگران کسب و کار ارائه می‌کند.

🔸ابزار BigML، یکی از ابزارهای پرکاربرد علم داده است که یک محیط رابط کاربری گرافیکی کاملاً تعاملی و مبتنی بر ابر را فراهم می‌کند و می‌توانید از آن برای پردازش الگوریتم‌های یادگیری ماشین استفاده کنید. BigML نرم افزار استاندارد شده‌ای را با استفاده از محاسبات ابری برای نیازهای صنعت ارائه می‌دهد.

🔹ابزار BigML در مدل‌سازی پیش‌بینی تخصص دارد. از طیف گسترده‌ای از الگوریتم‌های یادگیری ماشین مانند خوشه‌بندی، طبقه‌بندی، پیش‌بینی سری‌های زمانی و غیره استفاده می‌کند.

🔸 ابزار BigML با استفاده از Rest API یک رابط وب آسان برای استفاده فراهم می‌کند و می‌توانید یک حساب رایگان یا یک حساب پریمیوم بر اساس نیازهای داده خود ایجاد کنید. این امکان تجسم تعاملی داده‌ها را فراهم می‌کند و به شما امکان می‌دهد نمودارهای بصری را در تلفن همراه یا دستگاه‌های IOT خود صادر کنید.

متن کامل یادداشت را در لینک زیر بخوانید:

🔗 https://b2n.ir/u00862


#معرفی_ابزار
#یادگیری_ماشینی_به_عنوان_سرویس
#فاطمه_مصلحی
#BigML

@BigData_BusinessAnalytics
www.bdbanalytics.ir
🔍🎧🎼 چگونه Spotify از عظیم داده­‌ها برای بهبود تجربه کاربران استفاده می‌کند؟

🖋پلتفرم نام آشنای Spotify در حوزه پخش موسیقی، پلتفرمی‌ست که روزانه توسط میلیون­ها کاربر مورد استفاده قرار می­‌گیرد. این برنامه که در سال 2008 در سوئد بنیان گذاشته شد، بیش از 30 میلیون آهنگ و بیش از 2 میلیارد لیست پخش آنلاین موسیقی را در اختیار کاربران خود قرار می­‌دهد.

✳️اسپاتیفای ماموریت اصلی خود را اینگونه اعلام کرده که قصد دارد به افراد اجازه دهد تا به تمام موزیک­‌های مورد علاقه خود در هر زمان و بصورت کاملا قانونی دسترسی داشته باشند. Spotify درحال حاضر دارایی بیش از 25 میلیون دلار را برای خود رقم زده و یکی از موفق‌ترین پلتفرم­‌های پخش موسیقی محسوب می­‌شود.

👈در ادامه این مطلب با هم خواهیم دید این موفقیت شگرف چگونه با کمک عظیم داده­‌ها کسب شده و اساسا" این پلتفرم از چه طریق تجربه کاربران خود را بهبود می‌بخشد.

اجازه دهید با یک مثال این بحث را آغاز کنیم. فرض کنید شما در حال گوش دادن به یکی از آهنگ­‌های جاز مورد علاقه خود هستید و پس از اتمام آن، آهنگ بعدی هم از همین سبک برایتان اجرا می­‌شود. شما خیلی پیش از این، آهنگ­‌های مورد علاقه خود را دانلود کرده‌اید اما Spotify با بهره‌گیری از عظیم داده ‌ها سعی دارد تا یک تجربه ناب و شخصی‌سازی شده برای شما ایجاد کند. حال ببینیم این امر چگونه رخ می­‌دهد.

✴️اسپاتیفای بدلیل ارائه لیست پخش­‌های بی­‌شمار پیشنهادات هفتگی آن، بسیار مورد توجه علاقه‌مندان به گوش دادن موسیقی قرار گرفته به صورتی که روزانه بیش از 600 گیگابایت داده تولید می­‌کند و از الگوریتم­‌های خود برای بدست آوردن بینش­‌های مبتنی بر داده و ارتقاء تجربیات مشتریان استفاده می­‌کند.

اما داستان جمع­‌آوری داده­‌ها توسط Spotify و استفاده از آنها به اینجا ختم نمی­‌شود. این پلتفرم بطور مداوم وبلاگ­‌ها و قطعات متن و موسیقی را نیز مورد پیمایش قرار می‌دهد تا بتواند داده‌های مناسبی را کشف نماید.

✴️یکی از مزیت­‌های رقابتی اصلی Spotify، موتور پیشنهادی قدرتمند آن است. این پلتفرم با استفاده از الگوریتم­‌های یادگیری ماشین (ML)، پردازش زبان طبیعی (NLP) و شبکه‌های عصبی کانولوشنال (CNN)، می­‌تواند داده‌های موسیقیایی تاریخی را به لیست پخش شخصی و توصیه‌های موسیقی تبدیل کند. در ادامه به نحوه استفاده از این داده­‌ها خواهیم پرداخت.

💠در واقع Spotify از ML برای تحلیل رفتار کاربران و گروه‌بندی افراد بر اساس ترجیحات موسیقی آنها استفاده می­‌کند. با استفاده از این اطلاعات می­‌تواند آهنگ­‌هایی را بر اساس آنچه کاربران "مشابه" نیز به آن گوش می­‌دهند، به شنوندگان توصیه کند. یکی از تکنیک­های استفاده شده در این بخش Collaborative filtering است که توسط سیستم­‌ها برای ایجاد پیش­‌بینی در مورد ترجیحات کاربر بر اساس ترجیحات سایرِ کاربران بکار می­‌رود.

💠همانطور که گفته شد، Spotify از NLP درجهت مرور متادیتاهای ایجاد شده برای آهنگ­‌ها، پست­های وبلاگ­‌ها، مقالات، آخرین اخبار هنرمندان و آهنگ­های موجود در اینترنت و مواردی از این دست برای تحلیل زبان مورد استفاده برای توصیف هنرمندان و آهنگ­‌ها استفاده می­‌کند. با استفاده از این بینش­‌ها، می­‌تواند موسیقی را بر اساس کلمات و عباراتی که برای توصیف آن استفاده می‌شود (مانند موسیقی جاز، پاپ، راک کلاسیک و ...) گروه‌بندی کند که این امر به Spotify کمک می­‌کند هنرمندان مشابه را راحت­‌تر شناسایی کند و لیست پخش شخصی شده‌ای را پیرامون آنها بسازد.

💠درنهایت با استفاده از CNN داده‌های خام صوتی مانند BPM آهنگ، کلید موسیقی، بلندی صدا و غیره را مورد تحلیل قرار می­‌دهد. با استفاده از این اطلاعات، می­‌تواند آهنگ­‌ها را بر اساس نوع موسیقی آنها طبقه‌بندی کرده و موتور توصیه‌گر خود را بهینه‌تر نماید.

آیا کار تحلیل‌گری عظیم داده‌ها در Spotify در اینجا ختم شده است؟ باید گفت خیر، دنیای تحلیل‌گری عظیم داده‌ها در این پلتفرم و استفاده از آن برای بهبود تجربه کاربران فراترست.

🔺اگر علاقه‌مند به مطالعه ادامه مطلب و آشنایی با جزئیات بیشتر این پلتفرم داده‌محور هستید، روی لینک زیر کلیک فرمایید:

🔗 https://b2n.ir/k86743


#نمونه_موردی
#اسپاتیفای
#موسیقی
#عظیم_داده
#صبا_بزرگی
www.bdbanalytics.ir
@BigData_BusinessAnalytics