تحلیلگری عظیم‌داده و کسب‌وکار
907 subscribers
44 photos
42 videos
56 files
468 links
📌تحلیلگری عظیم داده و کسب و کار؛

🔎Big Data and Business Analytics

آموزش، پژوهش، اطلاع‌رسانی، ترویج و خدمات مشاوره حوزه تحلیلگری عظیم‌داده

سرپرست کانال: دکتر سعید روحانی، عضو هیأت علمی دانشگاه تهران

وبسایت
www.bdbanalytics.ir

ادمین کانال
@BDBA_UT
Download Telegram
📖 کتاب بخوانیم؛

📌 "Big Data for Big Decisions: Building a Data-Driven Organization"

✳️ فصل چهارم کتاب "داده‌های عظیم برای تصمیمات بزرگ: ایجاد یک سازمان داده محور" به ارائه نقشه راه برای تحلیل‌گری در راستای ایجاد یک سازمان داده محور می‌پردازد.

📍بر این اساس هشت موضوع در این فصل مورد بررسی قرار می‌گیرد:
1️⃣ چالش کسب ارزش از تحلیل‌گری: هر چند ضرورت سرمایه گذاری بر روی تحلیل‌گری پیشرفته به عنوان یک ضرورت مطرح است، اما طبق گزارش گارتنر فقط بین 30 تا 40 درصد از ابتکارات تحلیل‌گری نوعی ارزش کسب و کاری را حاصل می‌نماید.
2️⃣ تحلیل‌گری تصمیم‌گرا: اهمیت شروع از تصمیم و کار کردن با داده‌های پشت تصمیمات
3️⃣ اهمیت شروع از پایان: مشکل شروع از داده. چه تضمینی وجود دارد که پس از پردازش داده‌های خام، بینش‌های ارزشمندی وجود داشته باشد؟
4️⃣ رمزگشایی از داده‌های پشت تصمیمات: بر خلاف رویکرد سنتی، این فرآیند به شناسایی شکاف‌های داده‌ای پشت تصمیم کمک کرده و استراتژی منبع یابی داده را برای داده‌های گمشده ایجاد می‌نماید.
5️⃣ با مدیر موقت ملاقات کنید: در حالی که مدیران موقت پیشرفت می‌کنند، آن عده معدودی که به دنبال راه‌حل‌های دائمی و جامع هستند ضرر می‌کنند، زیرا برداشت عمومی از «جستجوی راه‌حل دائمی سازمانی» عالی به نظر نمی‌رسد.
6️⃣ راه حل‌های محلی در مقابل عمومی: یک استدلال قانع کننده برای اینکه چرا سازمان‌ها باید اجرای یک تمرین تحولی داده-به-تصمیم در سطح سازمان را در نظر بگیرند.
7️⃣ طرز تفکر مشکل در مقابل فرصت: مفهوم حل نقطه ای راه‌حلی برای "مشکل خاص" بر اساس این پیش‌فرض است که سیستم با حل مشکل در اوج بهره‌وری خود است و از این رو نیازی نیست که به دنبال فرصت‌های بیشتری برای بهینه سازی هزینه و زمان چرخه، یا دستیابی به مشتریان بیشتر باشید.
8️⃣ نقشه راه برای سازمان داده محور: تصمیمات بزرگ کدامند؟ تصمیماتی که توسط CxO ها گرفته می‌شوند؟ تصمیمات راهبردی؟ تصمیمات مربوط به سرمایه‌های کلان؟
❇️ بنابراین با بررسی هر یک از موضوعات مذکور، اگر سازمانی بخواهد خارج از چارچوب فکر کند و بتواند تمام فرصت‌های "بزرگ" را که در آن تحلیل‌گری می‌تواند تفاوت ملموسی در کیفیت تصمیم‌ها ایجاد کند کشف نماید، نکات زیر می‌تواند راهگشا باشد:
تصمیمات بزرگ را شناسایی کنید - 10٪ از تصمیماتی که 90٪ از نتایج کسب و کار را تحت تأثیر قرار می‌دهند.

یک نقشه راه اولویت برای تحلیل‌گری پیشرفته، بر اساس حیاتی بودن تصمیمات کسب و کاری و اندازه ارزش مادی حاصل از آن ایجاد کنید.

یک نقشه راه تحول آفرین و یک مورد کسب و کاری برای تحلیل‌گری ایجاد کنید.

داده‌های پشت تصمیمات را برای هر یک از تصمیمات شناسایی شده درک نمایید.

شکاف داده‌ها را شناسایی کنید. به عنوان مثال داده‌هایی که برای پشتیبانی از تصمیم نیاز دارید، اما در حال حاضر ندارید.

کیفیت داده‌ها را بهبود بخشید.

نهادینه کردن حاکمیت داده‌ها. استانداردهای داده و تعاریف داده و سایر موارد را معرفی کنید.

پیاده سازی تحلیل‌گری مطابق با نقشه راه تحول.

یک ممیزی ارزش به صورت دوره ای انجام دهید.


#کتاب_بخوانیم
#فصل_چهارم
#فاطمه_مظفری
#تصمیم_گیری
#سازمان_داده_محور
#Big_Data_for_Big_Decisions_Building_a_Data_Driven_Organization

www.bdbanalytics.ir
@BigData_BusinessAnalytics
This media is not supported in your browser
VIEW IN TELEGRAM
📌📌 اهمیت تحلیل‌گری عظیم داده‌

🔹 در این ویدئو کوتاه، پنج ویژگی اهم تحلیل‌گری عظیم داده مرور می‌شود.

#ويدئوکوتاه
#عظیم_داده
#تحلیلگری
#آرش_قاضی_سعیدی

@BigData_BusinessAnalytics
www.bdbanalytics.ir
📌📌 معرفی ابزار: InfluxDB

🖌 پایگاه داده InfluxDB یک پایگاه داده سری زمانی متن باز (TSDB) است که توسط شرکت InfluxData توسعه یافته است. این پایگاه داده با استفاده از زبان برنامه نویسی Go برای ذخیره و بازیابی داده‌های سری زمانی با کاربردهایی مانند پایش عملیات، داده‌های حسگرهای اینترنت اشیا و تحلیل‌گری بلادرنگ نوشته شده است.

✳️ به طور کلی پایگاه داده‌های سری زمانی شامل اندازه‌گیری‌ها یا رویدادهایی است که تحت پایش، ردیابی و پالایش داده‌ها شامل نمونه‌برداری و جمع‌آوری در طول زمان قرار می‌گیرند و بنابراین می‌توانند شامل داده‌های نظارت بر اپلیکیشن‌ها، داده‌های مربوط به حسگرها، داده‌های معاملات بازار و بورس اوراق بهادار باشند. پایگاه داده سری زمانی قادر به دریافت میلیون‌ها نقطه داده در ثانیه است که بر این اساس عملکرد سطح بالایی را ارائه می‌دهد.

♦️ بنابراین با استفاده از InfluxDB، اپلیکیشن‌های بلادرنگ برای تحلیل‌گری، اینترنت اشیا و سرویس‌های ابری بومی (cloud-native) در زمان کمتر و با کد کمتر قابل دستیابی است. همچنین InfluxDB دارای یک زبان پرس و جو (کوئری) از نوع SQL است که به طور خاص برای داده‌های سری زمانی ایجاد شده است.

📍مفاهیم پایه در InfluxDB عبارتند از:

1️⃣ اندازه‌گیری (measurement): اندازه‌گیری تقریباً معادل مفهوم جدول در پایگاه‌های داده رابطه‌ای است. بنابراین داده‌ها در آن ذخیره می‌شود و پایگاه داده می‌تواند چندین اندازه‌گیری داشته باشد. یک اندازه گیری از 3 نوع ستون Time، Tags و Fields تشکیل شده است.

2️⃣ زمان: یکی دیگر از اجزای این پایگاه داده زمان است که به صورت timestamp جهت ردیابی ستون برای انجام عملیات سری زمانی به روشی بهتر مورد استفاده قرار می‌گیرد. به طور پیش‌فرض زمان مورد استفاده، زمان Influxdb است که بر حسب نانوثانیه می‌باشد، اما می‌توان آن را با زمان رویداد جایگزین کرد.

3️⃣ برچسب‌ها: یک برچسب شبیه به یک ستون ایندکس شده در یک پایگاه داده رابطه‌ای است. نکته مهمی که در این خصوص وجود دارد این است که عملیات رابطه‌ای مانند WHERE، GROUP BY و غیره را می‌توان بر روی یک ستون تنها در صورتی انجام داد که به عنوان یک برچسب مشخص شده باشد.

4️⃣ فیلدها: فیلدها ستون‌هایی هستند که عملیات ریاضی مانند مجموع، میانگین و غیره را می‌توان بر روی آنها انجام داد. با این حال، در نسخه های اخیر، مقادیر به صورت رشته را نیز می‌توان به عنوان یک فیلد ذخیره کرد.

5️⃣ سری‌ها: سری‌ها مهم‌ترین مفهوم Influxdb هستند. یک سری ترکیبی از برچسب‌ها، اندازه‌گیری و سیاست نگهداشت است. عملکرد پایگاه داده Influxdb به شدت به تعداد سری‌های منحصر به فرد آن بستگی دارد.

📍با توجه به اینکه Spark از متداول‌ترین ابزارهای متن باز در زمینه پردازش داده‌های عظیم است، پایگاه داده InfluxDB می‌تواند به همراه جریان با ساختار اسپارک برای پردازش، ذخیره و مصورسازی داده‌ها به صورت بلادرنگ مورد استفاده گیرد. در حال حاضر دو پیاده‌سازی متن باز از InfluxDb sink برای نوشتن داده‌ها از طریق جریان ساختاریافته، chronicler و reactive-influx وجود دارد. همچنین با ذخیره داده می‌توان از ابزارهای مختلفی مانند Grafana و Chronograph و غیره برای مصورسازی آن استفاده نمود.

❇️ برای دانلود می‌توانید به سایت زیر مراجعه فرمایید:
🔗 https://www.influxdata.com


#معرفی_ابزار
#InfluxDB
#سری_زمانی
#داده‌های_عظیم
#فاطمه_مظفری


@BigData_BusinessAnalytics
www.bdbanalytics.ir
📖 کتاب بخوانیم؛

📌 "Big Data for Big Decisions: Building a Data-Driven Organization"


🔹 فصل پنجم کتاب "داده‌های عظیم برای تصمیمات بزرگ: ایجاد یک سازمان داده محور" به شناسایی تصمیمات مهم و تاثیرگذار در سازمان می‌پردازد. در فصل‌های گذشته، متوجه شدیم که ساختن یک سازمان مبتنی بر داده نیازمند شناسایی و اولویت‌بندی تصمیمات "عظیم" برای بینش‌های عملی مبتنی بر داده است. سوال بعدی این است: چگونه به دقت می‌توان تصمیمات "عظیم" را شناسایی کرد؟ چگونه می‌توان تصمیمات عظیم را از هزاران تصمیم روزانه دیگری که هر مدیر در سازمان می‌گیرد، تفکیک کرد؟
📍گام اول برای شناسایی این تصمیمات، لیست کردن و طبقه‌بندی تمام تصمیمات کلیدی در سازمان است. در مرحله بعد نیاز است تا ارزش تجاری مرتبط با هر یک از این تصمیمات تخمین زده شود.

🔸سرمایه فعلی سازمان در تحلیل‌گری داده
پیش از آنکه سازمان شروع به پیاده‌سازی ابزارهای تحلیلی عظیم داده کند، نیاز است تا سرمایه‌های فعلی خود در این راستا را شناسایی کند. در همین راستا در این بخش از کتاب توصیه می‌شود که انجام یک ارزیابی دقیق برای بررسی گزارش‌های هوش سازمانی و دارایی‌های تجزیه و تحلیل موجود در سازمان ضروری می‌باشد. هدف اصلی این مرحله دستیابی به شناختی جامع از چشم‌انداز تجزیه و تحلیل موجود و فرایند تصمیم‌گیری بر اساس داده‌ها می‌باشد.
در ابتدا ممکن است این فرضیه مطرح شود که پروژه‌های تجزیه و تحلیل معمولاً بر اساس تصمیمات خاصی که توسط مدیران گرفته می‌شوند، برنامه‌ریزی و طراحی می‌شوند. با این حال، ارزیابی دقیق بیشتر پروژه‌ها براساس نیازهای مشتریان داخلی و نه نیازهای صریح در تصمیم‌گیری آغاز می‌شوند. علاوه بر این، جمع‌آوری داده‌ها نقش محوری در پروژه‌های تحلیلگری عظیم داده داشته و شامل مرتب‌سازی، نرمال‌سازی و تجزیه و تحلیل حجم زیادی از داده‌ها با استفاده از الگوریتم‌های خوشه‌بندی و طبقه‌بندی می‌باشد.

🔹 هنر گمشده تصمیم گیری

این بخش از کتاب به طور خاص بر لیست کردن و مستند سازی تصمیم‌های سازمان‌ها را تاکید ویژه‌ای دارد. نویسنده کتاب به این نکته اشاره می‌کند که در حالی که استثناهایی برای تصمیمات مرتبط با هزینه‌های سرمایه بزرگ وجود دارد، به طور کلی، کمبودی در مستندسازی و طبقه‌بندی تصمیمات در سازمان‌ها وجود دارد. محققان دانشگاهی معمولاً مسئولیت طبقه‌بندی تصمیمات را بر عهده می‌گیرند و عواملی مانند تصمیمات برنامه‌ریزی شده در مقابل تصمیمات غیر برنامه‌ریزی شده، تصمیمات عمده در مقابل تصمیمات کوچک، تصمیمات عملیاتی در مقابل تصمیمات استراتژیکی و تصمیمات فردی در مقابل تصمیمات گروهی را مد نظر قرار می‌دهند. نویسنده کتاب در این بخش مطالعه موردی مورد بررسی قرار داده است اما ازآنجاییکه هیچ لیست مستندسازی شده از تصمیمات درون شرکت وجود ندارد؛ اطلاعات از طریق مصاحبه با مدیران جمع‌آوری شده است. در گفتگوهای اولیه با مدیران ارشد، موضوعات مشترک مشخص شدند:
1️⃣ مدیران باور داشتند که تعداد زیادی تصمیم می‌گیرند، اما در به یاد آوردن تصمیمات خاص سختی وجود داشت.
2️⃣ آنها اذعان کردند که کیفیت تصمیمات بر تاثیرات کسب و کار تأثیر می‌گذارد.
3️⃣ به طور غریزی، آنها تشخیص دادند که برخی تصمیمات اهمیت بیشتری دارند، اما زمانی برای شناسایی و لیست کردن آنها نگذاشته بودند.
4️⃣ هنگامی که از آنها خواسته شد تا یک تصمیم مهم از سال گذشته را شناسایی کنند، مدیران بیشتر به تصمیمات سرمایه‌گذاری مرتبط با هزینه‌های سرمایه بزرگ اشاره کردند.
🔸 اولویت‌بندی تصمیم گیری‌ها

بعد از مشخص شدن تصمیمات کلیدی برای یک سازمان نیاز است تا یک روش‌شناسی هدفمند برای امتیازدهی و اولویت‌بندی تصمیمات بر اساس تأثیر آنها بر نتایج تجاری ارائه شود. نویسنده کتاب مدعی است که در طی تحقیقات، با کمبود روش‌های اثبات‌شده برای اولویت‌بندی تصمیمات مواجه شد. بر همین اساس به اصل معروف آیزنهاور ارجاع می‌دهد که بر اساس ضرورت و اهمیت وظایف اولویت‌بندی می‌شود. این اصل، که به وسیله جعبه آیزنهاور نمایش داده می‌شود، به عنوان ابزاری مفید برای افزایش بهره‌وری شخصی عمل می‌کند. با این حال، برای اولویت‌بندی تصمیمات در سازمان به‌طور کلی، باید ارزیابی جامعی از تصمیمات به علاوه تأثیر آنها بر نتایج تجاری صورت بگیرد. به رغم تحقیقات گسترده، نویسنده فقط تعداد محدودی مقاله را پیدا کرد که بر اهمیت دسته‌بندی و اولویت‌بندی تصمیمات تأکید داشتند. این شامل مقالاتی است که تصمیمات استراتژیک را متمایز از تصمیمات روزمره شناسایی کرده و تصمیمات را بر اساس تعهد و دامنه شرکت ارزیابی می‌کنند. یکی دیگر از مدل هایی که در این فصل به آن اشاره شده است مدل باین می باشد. این مدل در درجه اول بر ارزش در خطر و توجه مدیریت مورد نیاز به عنوان عواملی برای اولویت‌بندی تصمیم‌ها تمرکز می‌کند.
یکی از چالش‌های اصلی در اولویت بندی تصمیمات این می باشد که کمی کردن توجه مدیریت چالش برانگیز است، زیرا می‌تواند در بین افراد و سطوح تصمیم گیری متفاوت باشد. علاوه بر این، تصمیماتی که نیاز به توجه نقش‌های مختلف مدیریتی دارند یا شامل تصمیم‌گیری جمعی هستند، نباید دارای وزن یکسانی باشند. تصمیمات مبتنی بر قانون تنها در صورتی می‌توانند خودکار شوند که داده‌های لازم جمع‌آوری شده باشد و زیرساخت اتوماسیون وجود داشته باشد. بدون پشتیبان داده‌ها، همه تصمیمات به صلاحدید مدیریتی نیاز دارند.




#کتاب_بخوانیم
#فصل_پنجم
#علی_محمدی
#تصمیم_گیری
#سازمان_داده_محور

www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌معرفی مقالات داغ حوزه عظیم داده‌ها

❇️نام مقاله:
 How can organizations leverage big data to innovate their business models? A systematic literature review

🖋نویسندگان:
 Chiara Acciarini , Francesco Cappa , Paolo Boccardelli , Raffaele Oriani

🗓سال انتشار: 2023

📔ژورنال:
 Technovation

🔸حجم جهانی داده­‌ها به سرعت در حال گسترش است و شرکت‌ها به دنبال درک چگونگی ایجاد، جذب و ارائه ارزش از این منبع ارزشمند هستند.
🔸در سال 2017، اکونومیست بیان کرد که "با ارزش ترین منبع جهان دیگر نفت نیست، بلکه داده است". در حال حاضر، بازار داده­‌های عظیم بیش از 55 میلیارد دلار درآمد دارد و انتظار می­‌رود تا سال 2027 به 103 میلیارد دلار افزایش یابد. در واقع، در سال‌های اخیر، شاهد افزایش انفجاری در میزان اطلاعات در دسترس بوده‌ایم و مدیران و سیاست‌گذاران به طور فزاینده‌ای به مزایای حاصل از داده­‌های عظیم پی‌برده‌اند. با این حال، معایب مرتبط با آنها، مانند مسائل مربوط به حریم خصوصی و امنیتی، نیز در حال ظهور هستند.

🔸مطالعات موجود عمدتاً به مزایایی می‌پردازد که داده­‌های عظیم می‌توانند فراهم کنند، که برای مثال شامل عملیات پایدارتر و مدیریت زنجیره تأمین، بودجه‌بندی بهتر و تصمیم‌گیری و نوآوری بهبودیافته است. با این حال، هنوز تعداد کمی از نویسندگان جنبه تاریک داده‌های عظیم را بررسی کرده‌اند.

🔸بنابراین، برای اطمینان از اینکه مزایا نسبت به  چالش­‌های داده­‌های عظیم بیشتر است، و برای باز کردن پتانسیل کامل داده­‌های عظیم از نظر نوآوری در مدل کسب‌وکار، نویسندگان این مقاله استدلال می‌کنند که شرکت‌ها باید نقشه واضحی از تمام کاربردهای احتمالی آن داشته باشند.

🔸در این مطالعه که به روش مروری سیستماتیک ادبیات انجام شده است و نهایتا 311 مقاله مورد بررسی قرار گرفته­­‌اند،  یک نمای کلی جامع از موارد زیر ارائه می‌شود:

 الف) اثرات تولید شده توسط داده­‌های عظیم، از جمله مزایا و همچنین معایب 
ب) حوزه‌های کسب و کاری که در آنها داده‌های عظیم استفاده می‌شوند
 ج) روش­‌های تحقیقاتی که تاکنون توسط مطالعات قبلی اتخاذ شده است (کمی، کیفی، مفهومی و میکس)
د)نوع شرکتی که تاکنون در نظر گرفته شده است و بین کسب و کارهای خصوصی و عمومی(دولتی) تمایز قائل شده است.

🔸در نهایت نتایج این مطالعه به افزایش درک علمی از پدیده داده­‌های عظیم کمک کرده و توصیه‌های نظری و عملی در مورد استفاده‌های احتمالی از آنها ارائه می­‌کند که ممکن است به شرکت‌ها اجازه دهد مدل‌های کسب و کار خود را مورد بازبینی و نوآوری قرار دهند.

👈در صورت تمایل، می‌توانید فایل مقاله را در ادامه دانلود فرمایید👇

#معرفی_مقاله
#تحلیل_عظیم_داده
#صبا_بزرگی
www.bdbanalytics.ir
@BigData_BusinessAnalytics
🔎 معرفی کسب و کار داده محور

🔹 اوبر یک شرکت حمل و نقل اشتراکی است که در سال 2009 توسط تراویس کالانیک و گرت کمپ در سانفرانسیسکو تأسیس شد. این شرکت یک پلتفرم آنلاین ارائه می‌دهد که کاربران را به رانندگان خصوصی متصل می‌کند. اوبر در بیش از 1000 شهر در 70 کشور جهان فعالیت دارد. هدف اصلی اوبر، ایجاد یک پلتفرم جهانی برای ارتباط بین مسافران و رانندگان خصوصی بوده است. با استفاده از اپلیکیشن تلفن همراه اوبر، مسافران می‌توانند درخواست سفر خود را ثبت کرده و رانندگانی که در نزدیکی آنها هستند را پیدا کنند.
🔸اوبر یک شرکت بسیار موفق بوده است و ارزش بازار آن بیش از 80 میلیارد دلار است. این شرکت با انتقادات زیادی از جمله اتهاماتی مبنی بر تخلف از قوانین کار، ایمنی و مالیات مواجه بوده است. با این حال، اوبر همچنان در حال رشد و گسترش است و تأثیر قابل توجهی بر صنعت حمل و نقل داشته است. این شرکت به طور گسترده ای به تغییر نحوه سفر مردم در سراسر جهان شناخته شده است. علاوه بر خدمات حمل و نقل معمولی، اوبر خدمات متنوعی را نیز ارائه می‌دهد. به عنوان مثال، "اوبر ایکس" که یک خدمت تاکسی لوکس است، "اوبر پول" که امکان سفر با اتومبیل مجهز به صندوق نقد را فراهم می‌کند و "اوبر اکسپرس پول" که یک خدمت تاکسی سریع‌تر است. همچنین، اوبر در برخی شهرها خدمت "اوبر ایت" را ارائه می‌دهد که با استفاده از اسب بخار، دوچرخه و موتورسیکلت، امکان حمل و نقل در شهر را فراهم می‌کند.

❇️ اوبر یک شرکت داده محور است و از داده‌ها برای بهبود تجربه کاربر، افزایش بهره وری و گسترش به بازارهای جدید استفاده می‌کند. این شرکت از داده‌ها برای پیش بینی تقاضا برای سفرها، شناسایی مناطقی که می‌توانند خدمات خود را بهبود بخشند و توسعه ویژگی‌های جدید استفاده می‌کند.

🔹اوبر در زمینه داده محوری انواع فعالیت‌ها و کارها را انجام می‌دهد. به عنوان مثال:

1️⃣ تحلیل داده‌ها: اوبر داده‌های زیادی را جمع‌آوری می‌کند و از طریق تحلیل این داده‌ها الگوها، روندها و رفتارهای مختلف را در سفرها و رانندگان تشخیص می‌دهد. این تحلیل‌ها می‌توانند بهبود عملکرد سیستم، بهینه‌سازی مسیرها، افزایش ایمنی و کارایی و بهبود تجربه کاربران منجر شوند.
2️⃣ پیش‌بینی و تحلیل تقاضا: اوبر از طریق تحلیل داده‌های سفرهای قبلی، الگوهای تقاضای مسافران را شناسایی می‌کند. این شناسایی به شرکت امکان می‌دهد تا برنامه‌ریزی بهتری را برای تأمین خدمات ارائه دهد و در نتیجه زمان انتظار را کاهش دهد و تجربه کاربری را بهبود بخشد.
3️⃣ بهینه‌سازی مسیر: با استفاده از داده‌های جمع‌آوری شده، اوبر می‌تواند بهینه‌سازی مسیرهای رانندگی را انجام دهد. این بهینه‌سازی می‌تواند به رانندگان کمک کند تا به سرعت و بهینه‌تر به مقصد برسند و در نتیجه زمان و هزینه را کاهش دهند.
4️⃣ تحلیل ایمنی: اوبر به داده‌های مربوط به سفرها، رانندگان و خودروها دسترسی دارد و می‌تواند به تحلیل ایمنی پرداخته و مشکلات ایمنی را شناسایی کند. این اطلاعات می‌توانند در بهبود ایمنی سفرها و پیشگیری از تصادفات مفید باشند.
5️⃣ تحلیل رفتار مشتریان: با تجزیه و تحلیل داده‌های مشتریان، اوبر می‌تواند الگوها و رفتارهای مشتریان را درک کند. این اطلاعات می‌توانند به شرکت در ارائه خدمات و تجربه بهتر برای مشتریان کمک کنند.

🔸اوبر به طور مداوم در حال یافتن راه‌های جدید برای استفاده از داده‌ها برای بهبود تجربه کاربر است. داده‌ها نقش کلیدی در موفقیت اوبر دارند و به آنها کمک می‌کنند تا به یک شرکت پیشرو در صنعت حمل و نقل اشتراکی تبدیل شوند. به طور کلی، اوبر از داده‌ها برای بهبود فرآیندها، بهینه‌سازی سرویس‌ها، افزایش ایمنی و بهبود تجربه کاربری استفاده می‌کند.


#محمدرضا_مرادی
#اوبر
#Uber
#کسب_و_کار_داده_محور



@BigData_BusinessAnalytics
www.bdbanalytics.ir
📚معرفی کتاب

📌کتابچه راهنمای پژوهشگر در تجزیه و تحلیل عظیم­‌داده

"Research Practitioner's Handbook on Big Data Analytics"


📌نویسندگان: S. Sasikala, Renuka Devi D
📌این کتاب در سال 2023 و توسط Apple Academic Press انتشار یافته است.


📍 این کتاب با معرفی مفهوم عظیم­‌داده بر مفاهیم اصلی تجزیه و تحلیل داده‌های عظیم، ابزارها، تکنیک‌ها و روش‌شناسی از دیدگاه‌های پژوهشی تمرکز دارد و می­‌تواند راهنمایی جامع با ترکیبی از بینش‌های نظری و رویکردهای عملی را ارائه ‌دهد که طیف وسیعی از خوانندگان را پوشش می­‌دهد. این کتاب همچنین توضیح می‌دهد که چگونه می‌توان از تجزیه و تحلیل عظیم­­‌داده‌ها برای استخراج بینش‌های ارزشمند از مجموعه داده‌های بزرگ و تصمیم­‌گیری آگاهانه استفاده کرد.

📍نویسندگان جنبه‌های مختلف تجزیه و تحلیل عظیم­‌داده، از جمله؛ جمع‌آوری، پیش‌پردازش، ذخیره‌سازی، تکنیک‌های تجزیه و تحلیل‌ و نیز تصویرسازی‌داده‌ها را پوشش می‌دهند. آن‌ها درباره ابزارها و فناوری‌های رایج مورد استفاده در تجزیه و تحلیل داده‌های عظیم مانند Hadoop ،Apache Spark و الگوریتم‌های یادگیری ماشین بحث می‌کنند. یکی از تاکیدهای اصلی کتاب بر روی روش تحقیق در تجزیه و تحلیل داده‌های عظیم است. این کتاب همچنین، راهنمایی در مورد فرمول‌بندی سؤالات پژوهش، طراحی آزمایش‌ها، انتخاب تکنیک‌های مناسب تجزیه و تحلیل داده‌ها و تفسیر نتایج ارائه می‌کند. در ادامه نویسندگان بر اهمیت اخلاق و ملاحظات حریم خصوصی در پژوهش­‌های عظیم­‌داده تاکید می‌کنند.

📍در این کتاب، مطالعات موردی و نمونه‌هایی در دنیای واقعی برای نشان دادن مفاهیم و تکنیک‌های مورد بحث ارائه شده‌اند. این مطالعات موردی نشان می‌دهد که چگونه تجزیه و تحلیل عظیم­‌داده‌ها با موفقیت در حوزه‌های مختلف مانند مراقبت‌های بهداشتی، کسب و کار، اجتماعی و آموزشی به کار گرفته شده است. علاوه بر این، کتاب حاضر به چالش‌ها و محدودیت‌های مرتبط با تجزیه و تحلیل عظیم­‌داده‌ها، مانند مسائل مربوط به کیفیت داده، نگرانی‌های مقیاس پذیری، و پیامدهای اخلاقی می‌پردازد. برای غلبه بر این چالش‌ها و نیز به حداکثر رساندن ارزش عظیم­‌داده، استراتژی‌ها و به روش‌هایی را ارائه می‌دهد.

📍به طور کلی، این کتاب به عنوان یک راهنمای عملی برای پژوهشگران و متخصصانی عمل می­‌کند که می‌خواهند از قدرت تجزیه و تحلیل داده‌های عظیم استفاده کنند و آن‌ها را با دانش و مهارت‌های لازم برای انجام پژوهش­‌های مؤثر و استفاده از این نوع داده­‌ها برای بینش و تصمیم­‌گیری معنادار مجهز می‌کند.


این کتاب را می‌توانید در پست بعد دریافت نمایید.


#معرفی_کتاب
#عظیم_داده
#زهرا_رفیعی‌پور


@BigData_BusinessAnalytics
http://www.bdbanalytics.ir
📌📌معرفی ابزار Apache Sqoop

🖌 ابزار Apache Sqoop ابزاری است که برای انتقال کارآمد داده های انبوه بین Apache Hadoop و داده‌های ساختار یافته، مانند پایگاه‌های داده رابطه ای طراحی شده است. این یک رابط خط فرمان را فراهم می‌کند که به کاربران اجازه می‌دهد داده‌های مورد نظر را برای انتقال و مکان مورد نظر برای داده‌ها مشخص کنند.

🖌ابزار Sqoop می‌تواند با تولید کد Java MapReduce که می‌تواند روی خوشه Hadoop اجرا شود، داده‌ها را از یک پایگاه داده به Hadoop وارد کند. برعکس، همچنین می‌تواند داده‌ها را از Hadoop به یک پایگاه داده بازگرداند. این برنامه از وارد کردن داده‌ها و استخراج داده‌ها به سیستم‌های پایگاه داده مختلف، از جمله MySQL، Oracle، PostgreSQL و Microsoft SQL Server پشتیبانی می‌کند.

🖌 یکی از ویژگی‌های کلیدی Sqoop این است که از ورود افزایشی پشتیبانی می‌کند و به کاربران اجازه می‌دهد فقط داده‌های جدیدتر را از یک پایگاه داده از زمان آخرین ورود داده وارد کنند. این به به روز نگه داشتن خوشه Hadoop با تغییراتی که در پایگاه داده رخ می‌دهد کمک می‌کند.

🖌همچنین Sqoop از موازی سازی و تحمل خطا پشتیبانی می‌کند و امکان انتقال سریع و مطمئن داده‌ها را فراهم می‌کند. از قابلیت‌های پردازش توزیع شده Hadoop برای اجرای عملیات واردات و ارسال به صورت موازی در چندین ماشین در خوشه استفاده می‌کند.

🖌 برخی از ویژگی‌های کلیدی Sqoop عبارتند از:

📍یکپارچه سازی داده‌ها: Sqoop امکان یکپارچه سازی و انتقال یکپارچه داده‌ها را بین Hadoop و پایگاه‌های داده رابطه ای مختلف، انبارهای داده و سایر منابع داده ساختاریافته فراهم می‌کند.

📍واردات و صادرات: Sqoop قابلیت‌هایی را برای وارد کردن داده‌ها از منابع داده‌های ساخت یافته به Hadoop و همچنین استخراج داده‌ها از Hadoop به فروشگاه‌های داده ساخت یافته را فراهم می‌کند.

📍انتقال موازی: Sqoop داده‌ها را به صورت موازی انتقال می‌دهد، به این معنی که می‌تواند به طور موثر مجموعه داده‌های بزرگ را انتقال دهد و عملکرد کلی را با استفاده از چندین نقشه نگار در Hadoop بهبود بخشد.

📍واردات افزایشی: Sqoop از واردات افزایشی پشتیبانی می‌کند و استخراج و انتقال تنها ردیف‌های تغییر یافته یا جدید در پایگاه داده منبع را از زمان آخرین واردات امکان‌پذیر می‌سازد. این ویژگی به به روز رسانی موثر داده‌ها در Hadoop کمک می‌کند.

📍تبدیل داده: Sqoop از تبدیل‌های اساسی در حین انتقال داده پشتیبانی می‌کند و به کاربران اجازه می‌دهد ستون‌های خاص، ردیف‌های فیلتر، داده‌ها را جمع‌آوری کنند و سایر تبدیل‌ها را در طول فرآیند ورود یا استخراج انجام دهند.

📍ادغام با اکوسیستم Hadoop : به طور یکپارچه با سایر ابزارهای اکوسیستم Hadoop مانند Hive، که به کاربران اجازه می‌دهد داده‌ها را مستقیماً به جداول Hive وارد کنند و Apache Flume، امکان انتقال داده‌ها از منابع مختلف به Hadoop را با استفاده از Sqoop فراهم می‌کند.

📍احراز هویت و امنیت: Sqoop از روش‌های مختلف احراز هویت، از جمله احراز هویت مبتنی بر رمز عبور، Kerberos و LDAP پشتیبانی می کند. همچنین برای حفظ امنیت داده‌ها رمزگذاری داده‌ها را در حین انتقال ارائه می‌دهد.

📍توسعه پذیری: Sqoop توسعه پذیری را از طریق معماری پلاگین خود فراهم می‌کند و به کاربران امکان می‌دهد اتصالات سفارشی را برای پایگاه‌های داده یا منابع داده خاص ایجاد و ادغام کنند.


🖌به طور کلی، Apache Sqoop فرآیند یکپارچه سازی داده‌ها بین Hadoop و پایگاه داده‌های رابطه ای را ساده می‌کند و استفاده از قدرت Hadoop را برای تجزیه و تحلیل و پردازش مجموعه داده‌های عظیم برای کاربران آسان‌تر می‌کند، و آن را به ابزاری ضروری برای مهندسان داده و تحلیلگرانی تبدیل می‌کند که با مجموعه داده‌های بزرگ کار می‌کنند.

#معرفی_ابزار
#عظیم_داده
#فاطمه_مصلحی
#Apache_Sqoop

@BigData_BusinessAnalytics
http://www.bdbanalytics.ir
📖 کتاب بخوانیم؛

📌 "Big Data for Big Decisions: Building a Data-Driven Organization"


🔹 فصل ششم کتاب "داده‌های عظیم برای تصمیمات بزرگ: ایجاد یک سازمان داده محور،" عوامل موثر و شرایط بالقوه‌ای که منجر به شکست پروژه‌های تحلیل‌گری می‌شود را مورد بررسی قرار می‌دهد.

📍در سال 2019، گارتنر پیش‌بینی کرد که بیش از 80 درصد از پروژه‌های تحلیل‌گری احتمالاً با شکست مواجه خواهند شد و تا سال 2022 نتایج تجاری مورد نظر را به دست نمی‌آورند. بنابراین قبل از ایجاد یک نقشه راه برای یک سازمان داده محور، درک محدودیت‌های حل نشده و شرایط بالقوه منجر به شکست حائز اهمیت است.

📍در واقع هدف ما موفقیت یک یا دو پروژه تحلیل‌گری جداگانه نیست، بلکه در واقع ایجاد یک سازمان داده‌محور است که نیازمند آن است که تمام تصمیمات کلیدی (اگر نگوییم تمام تصمیمات) بر مبنای داده‌ها اتخاذ شود، و در جایی که ممکن است در ادامه مورد حسابرسی قرار گیرد.

🔹نقشه راه تحلیل‌گری اساساً مجموعه‌ای از پروژه‌ها است که به ترتیب نزولی بر اساس ارزش نسبی خالص برنامه‌ریزی‌ برای آنها صورت می‌گیرد. به این معنی که پروژه ای که بالاترین ارزش نسبی را در برخواهد داشت اولویت بالاتری را به خود اختصاص می‌دهد و پس از آن به همین ترتیب سایر پروژه‌ها اولویت بندی می‌شوند. ارزش نسبی مورد بحث در اینجا به ارزش دلاری نتایج تجاری اشاره دارد که بهبود کیفیت تصمیم‌گیری منجر به آن می‌شود. از آنجایی که ما فقط پروژه‌هایی را انتخاب می‌کنیم که بالاترین پتانسیل را برای تحویل ارزش دارند، انتظار می‌رود ریسک شکست پروژه‌ها حداقل باشد.

اما آیا این برای تضمین موفقیت پروژه‌های تحلیل‌گری کافی است؟ چه عوامل دیگری اولویت نسبی تصمیمات «بزرگ» را در شرکت تعیین می‌کند؟ چه زمانی می‌توانیم بگوییم یک پروژه تحلیل‌گری را به انجام رسانده‌ایم که در واقع ارزشی را ارائه می‌دهد؟ دقیقا چه چیزی باعث موفقیت پروژه‌های تحلیل‌گری می‌شود؟ مهم‌تر از آن چه چیزی می‌تواند به طور بالقوه مانع از ارائه ارزش مورد نظر پروژه‌های تحلیل‌گری شود؟ برای شناسایی تصمیمات «بزرگ» و ایجاد یک نقشه راه اولویت‌بندی، چه نوع بررسی لازم است؟ ارزش در معرض خطر را چگونه برآورد می‌کنید؟ چگونه می‌توان یک مورد تجاری برای تحلیل‌گری ایجاد کرد؟

📍جهت پاسخگویی به سوالات مطرح شده موضوعاتی که در بخش ششم کتاب به آن پرداخته شده است عبارتند از:

ایجاد نقشه راه برای تصمیمات بزرگ شامل شناسایی و اولویت بندی تصمیمات و همچنین نقشه راهی برای سازمان داده محور: یک چارچوب فرآیندی با جزئیات برای شناسایی و اولویت‌بندی تصمیمات بزرگ جهت ایجاد نقشه راه سازمان داده محور

رمزگشایی از داده‌هایی که در پشت تصمیمات قرار دارند، مدلسازی و تحلیل تصمیمات: نیاز به مدلسازی و تحلیل تصمیمات پیش از تلاش جهت تبدیل نقشه راه تصمیمات بزرگ به یک طرح پروژه تمام عیار، با رویدادهای «راه‌حل‌های تحلیلی» به عنوان نقاط عطف پروژه

ایجاد یک مورد کسب و کاری با تحلیل‌گری و منابع ارزش (پیشران‌های ارزش)، تخمین بازده و مقایسه شاخص‌های کلیدی عملکرد با معیارهای صنعت و برآورد سرمایه‌گذاری‌ها: از هر CDO (یا CIO) خواسته می‌شود که یک مورد کسب و کاری برای سرمایه‌گذاری‌های تحلیلی پیشرفته ایجاد نماید. ارزش افزایشی تولید شده از طریق تحلیل‌گری لزوماً باید بیش از سرمایه‌گذاری انجام شده باشد.

از داده تا تصمیم: خلاصه سازی گام‌های دخیل در ایجاد نقشه راه و مورد کسب و کاری برای یک سازمان داده محور

داده‌ها، اعتماد و تصمیم گیرنده: در اینجا موردی بررسی می‌شود که همه چیز به طور صحیح انجام شده است؛ تصمیم درست، مدل تحلیل‌گری صحیح، و داده‌های درست، با این حال مدیران در مقابل استفاده از تحلیل‌گری مقاومت می‌کنند. درک این موضوع که دقیقا چه چیزی بر روی چنین رفتاری تاثیر می‌گذارد حائز اهمیت است چرا که برای پاسخگویی به این سوال کمک می‌کند که چه چیز دیگری به طور بالقوه می‌تواند منجر به شکست پروژه‌های تحلیل‌گری و عدم تحویل ارزش‌های مورد نظر شود؟


#کتاب_بخوانیم
#فصل_ششم
#فاطمه_مظفری
#تصمیم_گیری
#سازمان_داده_محور

www.bdbanalytics.ir
@BigData_BusinessAnalytics
📌📌معرفی ابزار: Apache Accumulo

🖌ابزار Apache Accumulo یک ابزار ذخیره‌سازی کلید/مقدار توزیع شده و مرتب شده است که ذخیره‌سازی و بازیابی داده‌ها به صورت پایدار و مقیاس‌پذیر را فراهم می‌کند. با استفاده از این ابزار، کاربران می‌توانند مجموعه‌ داده‌های عظیم را در یک خوشه ذخیره و مدیریت کنند. Accumulo از HDFS آپاچی هدوپ برای ذخیره داده‌ها و از آپاچی زوکیپر برای هماهنگی استفاده می‌کند. بنابراین Accumulo به اجرای زوکیپر و HDFS نیاز دارد که باید قبل از پیکربندی Accumulo تنظیم شوند. در حالی که بسیاری از کاربران مستقیماً با Accumulo تعامل دارند، پروژه‌های منبع باز مختلفی از Accumulo به عنوان ابزار ذخیره‌سازی اصلی خود استفاده می‌کنند.
✳️ ویژگی‌های اصلی:
♦️برنامه‌نویسی سمت سرور: Accumulo دارای یک مکانیسم برنامه‌نویسی به نام Iterators است که می‌تواند زوج‌های کلید/مقدار را در نقاط مختلف فرآیند مدیریت داده تغییر دهد.
♦️ کنترل دسترسی مبتنی بر سلول: هر زوج کلید/مقدار دارای برچسب امنیتی خاص خود است که نتایج کوئری را بر اساس مجوزهای کاربر محدود می‌کند.
♦️برای مقیاس‌پذیری طراحی شده است: Accumulo روی یک خوشه با استفاده از یک یا چند نمونه HDFS اجرا می‌شود. گره‌ها را می‌توان با تغییر مقدار داده‌های ذخیره شده در Accumulo اضافه یا حذف کرد.
♦️ پایدار: دارای یک کلاینت API پایدار است. هر نسخه Accumulo تست‌های گسترده‌ای را پشت سر می‌گذارد.

✳️ طراحی Apache Accumulo از BigTable گوگل الهام گرفته شده است. Accumulo یک دیتامدل غنی‌تر از ذخیره‌سازی ساده کلید/مقدار ارائه می‌کند، اما یک پایگاه داده کاملاً رابطه‌ای نیست. داده‌ها به صورت زوج کلید/مقدار نمایش داده می‌شوند که در آن کلید و مقدار از عناصر مختلفی تشکیل می‌شوند. همه عناصر کلید و مقدار، به جز Timestamp که به صورت long است، به‌عنوان آرایه‌های بایتی نشان داده می‌شوند.
📍یک نمونه از Accumulo شامل تعداد زیادی TabletServer، یک فرآیند زباله‌روبی، یک سرور مدیر و تعداد زیادی کلاینت است.
♦️ تبلت سرور: زیرمجموعه‌ای از تمام تبلت‌ها (پارتیشن‌هایی از جداول) را مدیریت می‌کند.
♦️زباله روب (garbage collector): فرآیندهای Accumulo فایل‌های ذخیره شده در HDFS را به اشتراک خواهند گذاشت. در فرآیند زباله‌روبی، به صورت دوره‌ای، فایل‌هایی که دیگر توسط هیچ فرآیندی مورد نیاز نمی‌باشند، شناسایی و حذف می‌شوند.
♦️سرور مدیر: مدیریت Accumulo مسئول تشخیص و پاسخگویی در صورت خرابی تبلت سرور است. با اختصاص دقیق تبلت‌ها و دستور دادن به تبلت سرورها برای کاهش بار تبلت‌ها در صورت لزوم، این سرور سعی می‌کند بار را در سراسر تبلت سرور متعادل کند.
♦️ردیاب: فرآیند Accumulo Tracer از API توزیع شده ارائه شده توسط Accumulo پشتیبانی می‌کند. به طور مثال اطلاعات زمان‌بندی را در جدول Accumulo مشخص برای ارجاعات بعدی می‌نویسد.
♦️پایش: پایش در Accumulo یک برنامه تحت وب است که اطلاعات زیادی در مورد وضعیت یک نمونه ارائه می‌دهد. این برنامه نمودارها و جداولی را نشان می‌دهد که حاوی اطلاعاتی در مورد نرخ خواندن/نوشتن، نرخ عدم دسترسی به حافظه و غیره است.
♦️کلاینت: Accumulo دارای یک کتابخانه کلاینت است که می‌تواند برای نوشتن اپلیکیشن‌هایی که داده‌ها را در/از Accumulo می‌نویسند و می‌خوانند استفاده شود.

✳️از نقطه نظر مدیریت داده‌ها، Accumulo داده‌ها را در جداول ذخیره می‌کند که این جداول به تبلت‌ها تقسیم می‌شوند. تبلت‌ها بر روی مرزهای ردیف تقسیم‌بندی می‌شوند به طوری که تمام ستون‌ها و مقادیر یک ردیف خاص با هم در یک تبلت قرار می‌گیرند. سرور مدیر هر بار تبلت‌ها را به یک تبلت سرور اختصاص می‌دهد. این کار تراکنش‌های سطح ردیف را قادر می‌سازد بدون استفاده از قفل توزیع شده یا مکانیزم‌های سنکرون‌سازی پیچیده دیگر انجام شوند. هنگامی که کلاینت‌ها داده‌ها را وارد می‌کنند و کوئری می‌زنند و همچنین هنگامی که ماشین‌ها به خوشه اضافه و یا از آن حذف می‌شوند، این سرور، تبلت‌ها را انتقال می‌دهد تا از در دسترس بودن آن‌ها و تعادل بار در کل خوشه اطمینان حاصل شود.

📍این ابزار را می‌توانید از لینک زیر دانلود فرمایید:

🔗 https://accumulo.apache.org/downloads/

#معرفی_ابزار
#Apache_Accumulo
#داده‌های_عظیم
#فاطمه_مظفری


@BigData_BusinessAnalytics
www.bdbanalytics.ir
📌📌تحلیلگری داده در مقابل تحلیلگری کسب و کار
تحلیلگری داده (Data Analytics) و تحلیلگری کسب و کار (Business Analytics) دو فرآیند متفاوت هستند، اما هر دو اهمیت زیادی در جهان کسب و کار دارند. در زیر به تفاوت‌های اصلی بین تحلیل داده و تحلیل کسب و کار اشاره می‌شود:

۱- محتوا و موضوع
تحلیل داده: این فرآیند به تجزیه و تحلیل داده‌های عددی، متنی و آماری و تصاویر اختصاص دارد. معمولاً داده‌ها از منابع مختلفی مانند پایگاه‌های داده، سنسورها، فرم‌های آنلاین، شبکه های اجتماعی و غیره به دست می‌آیند.

تحلیل کسب و کار: این فرآیند به تجزیه و تحلیل عناصری مانند استراتژی‌ها، عملکرد مالی، مدل کسب و کار، مشتریان، رقبا، و محصولات و خدمات اختصاص دارد. این تحلیل برای ارتقاء تصمیم‌گیری‌های استراتژیک و مدیریت کسب و کار استفاده می‌شود.


۲- دامنه و هدف
تحلیل داده: هدف اصلی تحلیل داده به دست آوردن دانش، قواعد الگوها، روابط و اطلاعات مخفی در داده‌ها است. این فرآیند معمولاً برای پیش‌بینی، دسته بندی، خوشه بندی، کاوش داده‌ها، و به دست آوردن اطلاعات مفهومی استفاده می‌شود.

تحلیل کسب و کار: تحلیل کسب و کار به ارزیابی عملکرد کسب و کار، بهبود استراتژی‌ها و راهکارها، و افزایش بهره‌وری و سودآوری کسب و کار اختصاص دارد. هدف آن ارتقاء عملکرد و کارایی کسب و کار است.


۳- روش‌ها و ابزارها
تحلیل داده: ابزارهای تحلیل داده شامل زبان‌های برنامه‌نویسی مانند Python و R، نرم‌افزارهای مخصوص تحلیل داده مانند SAS، RapidMiner و ابزارهای مدرن یادگیری ماشین و داشبوردها مانند Power BI و Tableau می‌شوند.

تحلیل کسب و کار: ابزارهای تحلیل کسب و کار شامل ابزارهای حل مساله، شبیه سازی، مدل سازی عملیانی و پویا و مدل‌های مالی، نرم‌افزارهای جامع مانند ERP ها ، و ابزارهای گزارش‌دهی می‌شوند.


۴- مراحل و فرآیند
تحلیل داده: مراحل تحلیل داده شامل تجزیه و تحلیل داده‌ها، تجزیه و تحلیل آماری، تصمیم‌گیری بر اساس داده‌ها و پیش‌بینی می‌شود (مانند متدولوژی CRISP-DM).
تحلیل کسب و کار: مراحل تحلیل کسب و کار شامل تعیین اهداف کسب و کار، تجزیه و تحلیل محیط کسب و کار، تعیین استراتژی‌ها، ارزیابی عملکرد و بهینه‌سازی می‌شود.


۵- مخاطبان اصلی
تحلیل داده: محققان داده، دانشمندان داده، و تحلیل‌گران داده و تحلیل گران کسب و کار، و مشتریان
تحلیل کسب و کار: مدیران عالی، تصمیم‌گیران استراتژیک، تیم‌های مدیریت کسب و کار، و مشاوران مدیریت


در مجموع، تحلیلگری داده مرتبط با تجزیه و تحلیل داده ها (ساختیافته یا ساخت نیافته) است، در حالی که تحلیل کسب و کار به تجزیه و تحلیل کلانتر و استراتژیک موارد متنوعی مانند استراتژی‌های بازاریابی، عملکرد مالی، و منابع انسانی اختصاص دارد. هر دو ابزار مهمی برای بهبود کسب و کارها هستند و ممکن است در کنار یکدیگر مورد استفاده قرار گیرند تا تصمیم‌گیری‌های بهتری در سازمان ها و کسب و کار انجام شود.

سعید روحانی
دانشیار دانشگاه تهران
۱۱ مهرماه ۱۴۰۲


#دکتر_سعید_روحانی
#تحلیلگری_داده
#تحلیلگری_کسب_و_کار
@BigData_BusinessAnalytics
www.bdbanalytics.ir
📖 کتاب بخوانیم؛

📌 "Big Data for Big Decisions: Building a Data-Driven Organization"


🔹در فصل هفتم کتاب "داده‌های عظیم برای تصمیمات بزرگ: ایجاد یک سازمان داده محور" مختصر تاریخچه ای از داده و چگونگی رشد آن در یک سازمان ارائه می‌شود.

رشد اصلی داده‌ها در یک سازمان را می‌توان نتیجه رشد در پایگاه داده سازمان که در ابتدا در دپارتمان‌های مختلف توزیع شده بودند، دانست. بر اساس کارکردهای مختلف هر یک از بخش‌های سازمان و فرآیندهای از پیش تعریف شده و همچنین نیاز به ثبت و استفاده مجدد از داده‌ها، اهمیت وجود پایگاه داده های منسجم در یک سازمان پر رنگ تر شد. شکل‌گیری پایگاه داده‌ها در یک دسته‌بندی کلی می‌توان در شش طبقه قرار داد:

1. سیستم‌های مبتنی بر فلت فایل

2. سیستم‌های سلسله مراتبی

3. پایگاه داده‌های رابطه‌ای

4. پایگاه داده‌های مبتنی بر تراکنش برخط

5. پایگاه داده‌های مبتنی بر XML

6. پایگاه داده‌های غیر رابطه‌ای

در کنار رشد پایگاه داده ،ظهور و رشد سیستم‌های یکپارچه برنامه‌ریزی منابع سازمانی نیز تاثیر زیادی در رشد داده‌ها در یک سازمان داشتند. به دلیل یکپارچگی فرآیندهای دپارتمان‌های مختلف در پشت این سیستم، داده‌های بیشتری تولید شده و تحلیل این داده از منظر فرآیندی کمک شایانی به یک سازمان می‌کند. این یکپارچگی در سطح برنامه‌ها و فرآیندها در نقاط زیادی داده تولید خواهند کرد که در مقایسه با حالت سنتی برنامه‌های یک سازمان که به صورت جزیره‌ای شکل گرفتند منجر به تولید داده بیشتری خواهند شد.
علاوه بر این دو روند، رشد و توسعه اینترنت به عنوان یکی دیگر از عوامل مهم در رشد داده‌ها محسوب می‌شود. این رشد هم در بحث سرعت و حجم داده‌ها و همچنین در بحث داده‌های غیر ساختار یافته که از ویژگی‌های عظیم داده می‌باشند خود را نشان داده‌ است.
همچنین نیاز به ذکر است که رشد داده‌ها منجر به ایجاد وظایفی همچون حاکمیت و مدیریت داده در یک سازمان شده است که تا پیش از این وجود نداشتند. علاوه بر این، آنچه که در عصر کنونی به عنوان داده تلقی می‌شود تنها در مرزهای یک سازمان و درون آن تولید نمی‌شوند، بلکه در بیرون سازمان همچون شبکه‌های اجتماعی نیز وجود دارند که از این منظر تحلیل شبکه‌های اجتماعی در مقیاس عظیم داده به عنوان یکی دیگر از نتایج رشد داده محسوب می‌شوند.

#کتاب_بخوانیم
#فصل_هفتم
#علی_محمدی
#تصمیم_گیری
#سازمان_داده_محور

www.bdbanalytics.ir
@BigData_BusinessAnalytics
🔎 معرفی کسب و کار داده محور

🔹 شرکت اسپاتیفای (Spotify) یکی از بزرگترین و پرآوازه‌ترین شرکت‌ها در حوزه موسیقی آنلاین و پخش موسیقی است. این شرکت در سال 2006 توسط دو کارآفرین سوئدی، دانیل اک (Daniel Ek) و مارتین لورنتسون (Martin Lorentzon) تأسیس شد. اسپاتیفای به عنوان یکی از نخستین سرویس‌های پخش موسیقی آنلاین با مدل کسب‌وکار اشتراکی به موفقیت رسید.

🔸 استفاده از داده‌ها در شرکت‌های موسیقی نظیر اسپاتیفای (Spotify) یکی از مهمترین عناصر برای بهبود تجربه کاربری و توسعه کسب‌وکار است. اسپاتیفای به عنوان یکی از بزرگ‌ترین سرویس‌های پخش موزیک آنلاین در جهان، دارای مقدار عظیمی از داده‌ها است که در تمام جوانب عملکرد خود مورد استفاده قرار می‌دهد. در این مطلب، به بررسی نمونه واقعی کاربرد داده‌ها در اسپاتیفای خواهیم پرداخت.

🔹 یکی از کاربردهای اصلی داده در اسپاتیفای، تجزیه و تحلیل عادات گوش دادن کاربران و توصیه‌های شخصی‌سازی موسیقی به آنها است. این سرویس توانسته است با استفاده از داده‌های جمع‌آوری شده از عادات گوش دادن کاربران، سیستم‌های پیشنهادی قدرتمندی را ایجاد کند. به عبارت دیگر، اسپاتیفای از داده‌ها برای فهم بهتر موزیک مورد علاقه کاربران، سلیقه‌های آنها، و حتی میزان انرژی و احساساتی که از آهنگ‌ها دریافت می‌کنند، استفاده می‌کند. این اطلاعات به تولید لیست‌های پخش شخصی‌سازی شده برای هر کاربر کمک می‌کند. بنابراین، هر کاربر تجربه گوش دادن منحصر به فردی دارد و برخوردها با موزیک مطابق با سلیقه شخصی او انجام می‌شود.
در ادامه به بررسی چندین نمونه کاربرد داده در اسپاتیفای خواهیم پرداخت:

1️⃣ پیشنهاد موزیک: اسپاتیفای با استفاده از داده‌های تاریخچه گوش دادن و مورد علاقه‌های کاربران، می‌تواند موزیک‌های پیشنهادی را به هر کاربر ارائه دهد. این پیشنهادها ممکن است بر اساس ژانر، هنرمند، آلبوم‌های مشابه یا حتی فصل سال تنظیم شوند. این پیشنهادات به کاربران اجازه می‌دهند تا موسیقی جدید کشف کنند و تجربه موزیک آنلاین بهتری داشته باشند.

2️⃣ تحلیل موسیقی: اسپاتیفای دارای اطلاعات زیادی در مورد ویژگی‌های موسیقی مانند سرعت، انرژی، ریتم و آکورد‌های مورد استفاده در هر آهنگ است. این داده‌ها به تیم‌های موسیقی اسپاتیفای کمک می‌کنند تا موزیک‌ها را دسته‌بندی کنند و ارتباطات موسیقی را درک کنند. این اطلاعات می‌توانند به تولید پیشنهادات دقیق‌تر و تجربه بهتری برای کاربران منتجب شوند.

3️⃣ کاهش سوءاستفاده و پایش کیفیت: اسپاتیفای با تجزیه و تحلیل داده‌ها می‌تواند سعی در شناسایی هرگونه سوءاستفاده از سرویس را داشته باشد. این ممکن است شامل شناسایی حساب‌های تقلبی، دسترسی غیرمجاز و یا مشکلاتی در کیفیت پخش موزیک باشد. از این طریق، اسپاتیفای تضمین می‌کند که کاربران تجربه پخش بهتری داشته باشند و همچنین متداول‌ترین تخلفات را کنترل کند.

4️⃣ بهبود تبلیغات: اسپاتیفای از داده‌ها برای بهینه‌سازی تبلیغات نیز استفاده می‌کند. این شامل ارائه تبلیغات مرتبط با سلیقه موسیقی کاربران و تحلیل عملکرد تبلیغات بر اساس اطلاعات کلیک و تبدیلی است. این کاربرد داده‌ها به تأثیرگذاری تبلیغات و افزایش درآمد شرکت کمک می‌کند.

5️⃣ مدیریت حقوق نشر: اسپاتیفای نیاز به پیگیری و مدیریت حقوق نشر دارد. از داده‌ها برای ردیابی استفاده از آهنگ‌ها و پرداخت حقوق به هنرمندان و صاحبان موسیقی استفاده می‌شود. این مدیریت دقیق اطلاعات حقوق نشر باعث می‌شود که هنرمندان و صاحبان موسیقی اعتماد به سرویس اسپاتیفای داشته باشند و موسیقی خود را در این پلتفرم منتشر کنند.

🔸 در نهایت، داده‌ها یکی از باارزش‌ترین دارایی‌های شرکت‌های موسیقی مانند اسپاتیفای هستند. این داده‌ها به شرکت این امکان را می‌دهند تا بهبود‌های مستمر در تجربه کاربری ایجاد کنند، موسیقی‌های جدید را با کاربران به اشتراک بگذارند و به شکل موثرتری با هنرمندان و صاحبان موسیقی همکاری کنند. از این رو، اسپاتیفای به عنوان یکی از بزرگترین و موفق‌ترین شرکت‌های موسیقی آنلاین به بهره‌گیری حداکثری از داده‌ها برای بهبود کیفیت خدمات خود متعهد است.

#محمدرضا_مرادی
#اسپاتیفای
#Spotify
#کسب_و_کار_داده_محور



@BigData_BusinessAnalytics
www.bdbanalytics.ir
📚معرفی کتاب

📌محاسبات شناختی برای سیستم‌های عظیم‌داده از طریق اینترنت اشیا

"Cognitive Computing for Big Data Systems Over IoT"

📌نویسندگان:
Arun kumar Sangaiah, Arunkumar Thangavelu, Venkatesan Meenakshi Sundaram

📌این کتاب در سال 2018 توسط Springer انتشار یافته است.


📍 این کتاب جامع به عنوان یک منبع ارزشمند برای کسانی که به دنبال درک عمیق‌تری از تقاطع بین محاسبات شناختی، عظیم‌داده و اینترنت اشیا هستند، عمل می‌کند. همگرایی عظیم‌داده و اینترنت اشیا حجم زیادی از داده را تولید و مبادله کرده و استخراج اطلاعات معتبر را چالش برانگیز می‌سازد. در این کتاب، تکنیک‌های یادگیری ماشینی برای تجزیه و تحلیل حجم زیاد داده‌ها و بهبود فرایند تصمیم‌گیری پیشنهاد شده‌ است. محاسبات شناختی روشی است که رویکردهای فعلی علم داده را با بینش متخصصان و همچنین مفهوم هوش مصنوعی و استنتاج بر دانش ترکیب کرده و گسترش می‌دهد؛ همچنین در بسیاری از برنامه‌های کاربردی هوش مصنوعی از جمله سیستم‌های خبره، پردازش زبان طبیعی، شبکه‌های عصبی، روباتیک و واقعیت مجازی استفاده می‌شود.


📍نویسندگان در این کتاب دانش زمینه‌ای، استدلال علم داده و روش‌های شناختی را بر روی اینترنت اشیا بررسی کرده و تمرکز اصلی کتاب را بر طراحی بهترین فناوری‌های تعبیه‌شده شناختی برای پردازش و تجزیه و تحلیل عظیم‌داده‌ جمع‌آوری‌شده توسط اینترنت اشیا و همچنین بهبود فرآيند تصمیم‌گیری قرار داده‌اند.

📍این کتاب به طیف گسترده‌ای از پارادایم‌های محاسبات شناختی و تصمیم‌گیری در یک صنعت یا سازمان، در تمام سطوح چالش‌های علم داده می‌پردازد. این کتاب برای دانشمندان علم داده، متخصصان، محققان و دانشگاهیان در نظر گرفته شده که با چالش‌ها و پیشرفت‌های جدید در زمینه‌های خاص محاسبات شناختی و علم داده در زمینه اینترنت اشیا سر و کار دارند. در این کتاب همچنین، چارچوب‌ها و ابزارهای عملی طراحی و برای مقابله با چالش‌های پیچیده مرتبط با تجزیه و تحلیل عظیم‌داده در محیط اینترنت اشیا ارائه شده است.

📍هدف این کتاب ارائه چارچوب نظری و آخرین یافته‌های تحقیقات تجربی در این زمینه است. راه‌حل‌های عظیم‌داده در مورد مشکلات اینترنت اشیا از طریق طیف گسترده‌ای از چارچوب‌های محاسباتی الگوریتمی و شناختی مانند بهینه‌سازی، یادگیری ماشین و سیستم‌های پشتیبان تصمیم‌ به طور مؤثری مدیریت شده‌اند. نویسندگان فراتر از مرزهای نظری پیش رفته و برنامه‌های کاربردی دنیای واقعی را در حوزه‌های مختلف مانند مراقبت‌های بهداشتی، تولید و انرژی ارائه می‌دهند.


این کتاب را می‌توانید در پست بعد دریافت نمایید.


#معرفی_کتاب
#عظیم_داده
#زهرا_رفیعی‌پور


@BigData_BusinessAnalytics
http://www.bdbanalytics.ir
📌📌معرفی ابزار: Alluxio

🖌ابزار Alluxio یک پلتفرم هماهنگ‌سازی داده‌های منبع باز و توزیع شده است که نقش مهمی در بهینه‌سازی و تسریع دسترسی به داده‌ها برای داده‌های عظیم و حجم کاری تجزیه و تحلیل دارد. این ابزار به عنوان یک لایه ذخیره‌سازی توزیع شده مجازی عمل می‌کند و به سازمان‌ها کمک می‌کند شکاف بین منابع داده و چارچوب‌های محاسباتی را پر کنند. Alluxio برای رسیدگی به چالش‌های رایج مرتبط با پردازش داده‌های توزیع شده، مانند موقعیت مکانی داده، مدیریت داده‌ها و سرعت دسترسی به داده طراحی شده است.

✳️ویژگی‌ها و عملکردهای کلیدی:

📍انتزاع داده‌ها: Alluxio یک فضای نام یکپارچه فراهم می‌کند که داده‌ها را از چندین سیستم ذخیره‌سازی زیربنایی، مانند HDFS، ذخیره‌سازی اشیاء ابری، یا سیستم‌های فایل توزیع شده انتزاع می‌کند. این انتزاع دسترسی و مدیریت داده‌ها را برای کاربران و برنامه‌ها ساده می‌کند.

📍ذخیره داده‌ها: Alluxio داده‌ها را در حافظه پنهان می‌کند، دسترسی سریع‌تر به داده‌ها را امکان‌پذیر می‌کند و نیاز به واکشی مکرر داده‌ها از سیستم‌های ذخیره سازی راه دور را کاهش می‌دهد. این عملکرد پرس و جو و کار را بهبود می‌بخشد، به خصوص برای بارهای کاری که نیاز به خواندن مکرر داده دارند.

📍 اشتراک گذاری داده‌ها: Alluxio اجازه می‌دهد تا داده‌ها به طور موثر در چندین چارچوب محاسباتی به اشتراک گذاشته شوند و نیاز به تکرار داده‌ها را کاهش دهد. این به سازمان‌ها کمک می‌کند تا از سیلوهای داده‌ای که ممکن است در زمانی که ابزارها و چارچوب‌های مختلف نیاز به نسخه‌های خود از همان داده‌ها دارند، ایجاد شوند، اجتناب کنند.

📍 محل سکونت داده‌ها: Alluxio با حفظ آگاهی از محل ذخیره داده‌ها و محل انجام محاسبات، موقعیت داده‌ها را بهینه می‌کند. این می‌تواند به طور هوشمند داده‌ها را در نزدیکی منابع محاسباتی قرار دهد و زمان انتقال داده‌ها را کاهش دهد و عملکرد کلی سیستم را افزایش دهد.

📍 سازگاری داده‌ها: Alluxio تضمین‌های قوی برای سازگاری داده‌ها ارائه می‌دهد و اطمینان می‌دهد که داده‌های مورد دسترسی برنامه‌ها و چارچوب‌های مختلف دقیق و به روز هستند. این برای حفظ یکپارچگی داده‌ها در محیط‌های پیچیده و توزیع شده ضروری است.

📍 مقیاس پذیری: Alluxio بسیار مقیاس پذیر است و می‌تواند بر روی دسته‌هایی از ماشین‌ها مستقر شود. در صورت نیاز می‌تواند رشد کند تا حجم زیادی از داده‌ها و بارهای کاری بالا را در خود جای دهد.

📍سازگاری با API : Alluxio با سیستم‌های ذخیره سازی مختلف و چارچوب‌های تجزیه و تحلیل، مانند Apache Hadoop، Apache Spark و Apache Flink سازگار است. این سازگاری به سازمان‌ها اجازه می‌دهد تا Alluxio را به صورت یکپارچه در خطوط لوله پردازش داده‌های موجود خود ادغام کنند.

📍 تحمل خطا: Alluxio به گونه ای طراحی شده است که در مقابل خطا مقاوم باشد. می تواند از خرابی گره‌ها بازیابی شود و حتی در صورت وجود مشکلات سخت افزاری یا شبکه از در دسترس بودن داده‌ها اطمینان حاصل کند.

📍متن باز: Alluxio یک نرم افزار منبع باز است، به این معنی که به طور رایگان در دسترس سازمان‌ها است تا از آن استفاده کنند و مطابق با نیازهای خود تغییر دهند.

ابزار Alluxio اغلب در محیط‌های عظیم داده استفاده می‌شود که در آن داده‌ها در سیستم‌های فایل توزیع‌شده، ذخیره‌سازی اشیاء ابری یا سایر سیستم‌های ذخیره‌سازی راه دور ذخیره می‌شوند. با ارائه یک لایه دسترسی سریع و کارآمد به داده ها، به سازمان ها کمک می کند تا به عملکرد بهتر و تاخیر کمتری برای تجزیه و تحلیل داده ها و حجم کاری پردازشی خود دست یابند. در سناریوهایی که بهبود سرعت دسترسی به داده‌ها، مدیریت محلی بودن داده‌ها و دستیابی به ثبات داده‌ها از عوامل حیاتی در دستیابی به موفقیت با پروژه های عظیم داده هستند، محبوبیت پیدا کرده است.

#معرفی_ابزار
#داده‌های_عظیم
#فاطمه_مصلحی
#Alluxio

@BigData_BusinessAnalytics
www.bdbanalytics.ir