مهندسی داده و رایانش ابری
2.97K subscribers
604 photos
40 videos
96 files
502 links
دنیای مهندسی داده و رایانش ابری

🟢 Contact us
https://www.m-fozouni.ir/contact-me

🔵 Instagram:
https://www.instagram.com/elmedade

🔴 Youtube:
https://youtube.com/c/ElmeDade

🟤 مشاوره با دکتر فزونی
https://www.m-fozouni.ir/consult
Download Telegram
🔗 نقدی بر کتاب «همه دروغ می‌گویند» از سایت متمم

این نقدی هست که سایت متمم بر کتاب «همه دروغ می‌گویند» نوشته. کلاً ایراد گرفتن، همیشه کار بسیار ساده‌تری هست نسبت به ساختن و یا نوشتن یک متن متفاوت. ولی نظرات ایشون هم محترم هست. من نتونستم فایل pdf فارسی رو بگیرم و با نسخه‌ی انگلیسی مقایسه کنم تا ببینم آیا سانسور در متن فارسی وجود دارد و یا خیر، ولی گمان می‌کنم که اینطور هست. چون نویسنده در کتاب از برخی مسائل جنسی که نه تنها در ایران تابو هست، بلکه در کل دنیا اینطوریه،حرف می‌زنه و عمراً این مباحث اجازه‌ی چاپ بگیره در اینجا
#everybody_lies
Part_3

در فصل دوم کتاب «آیا حق با فروید بود؟» سِت (نویسنده‌ی کتاب) دو تا از تئوری‌های فروید رو با دیتاست‌هایی که داره، به چالش می‌کشه و اولی رو رد می‌کنه ولی دومی رو تائید می‌کند.

ست میگه با توجه به سوابق جستجو در گوگل و یکی از بزرگ‌ترین پلت‌فرم‌های پورنوگرافی، عده‌ی قابل توجهی از افراد بدنبال ویدیوهای incest (رابطه با محارم) هستند که تا حدودی نشان دهنده‌ی عقیده‌ی ادیپ در افراد هست.

دوستان متمم می‌گویند، ست اشتباه کرده. چون افراد در این سایت‌ها، هویت واقعی خودشون رو درست نمی‌نویسند، پس نتایج غلطه. ولی این نظر درست نیست، چون دیتاستی که نویسنده بر مبنای اون نتیجه‌گیری می‌کنه، هزارتا یا صدهزارتا رکورد نداره؛ رکوردها و مشاهدات بعضاً میلیاردی هست. ویدیوها و پروفایل‌هایی وجود دارند، که میلیاردی بازدید شده. پس نظر ست نسبت به عقیده‌ی متمم، سندیت بیشتری داره.

قدرت بیگ‌دیتا، اینه که بعضاً در اون سمپل‌های عالی پیدا میشه. چیزی که تا به امروز، به هیچ وجه بشر بهش دسترسی نداشته. وظیفه‌ی اصلی دیتاساینس اینه که جهان رو بهتر بما بشناساند و برای شناخت بهتر جهان، اول باید ذات بشر رو بهتر و عمیق‌تر موشکافی کنیم.
بعضی اوقات که کمپانی‌ها آگهی استخدام می‌دن، کلی رزومه براشون میاد. طبیعی‌ست که هندل کردن مثلاً هزار یا پنج‌هزار رزومه کار بسیار طاقت‌فرسایی برای بخش نیروی انسانی هست. در این مقاله، نویسنده با استفاده از NLP، خیلی راحت آموزش میده که چطور رزومه‌ها‌ی بسیار زیاد رو میشه طبقه‌بندی کرد و بنوعی بهترینها رو انتخاب کرد.

من یادم میاد سال ۲۰۱۵ برای یک پوزیشن پست‌داک در Caltech اپلای کردم. بعد از چند وقت از HR دانشگاه خیلی محترمانه ایمیل زدن که افراد زیادی برای این پوزیشن اپلای کردند. برام غیرقابل باور بود. ازم پرسید که می‌خوام انصراف بدم و دیگه رزومه‌ی من در فرایند بررسی نرود؟

https://www.analyticsvidhya.com/blog/2021/06/resume-screening-with-natural-language-processing-in-python/
ده مفهوم بنیادی از آمار برای دیتاساینس:

1. Population and sample

2. Normal distribution

3. Measures of central tendency

4. Variance and standard deviation

5. Covariance and correlation

6. Central limit theorem

7. P-value

8. Expected value of random variables

9. Conditional probability

10. Bayes’ theorem

#statistics

اینها رو که خوندین و تمرین کردین، بعد وارد مباحث پیشرفته‌تر خواهید شد.

🔗 منبع همراه با توضیحات مختصر
چرا مهندسی ویژگی‌، بخصوص در کار با کلان داده‌ها مهمه؟

«چون هر بار آموزش مدل، خیلی هزینه داره و اگر این کارو نکنیم، دهنمون صاف خواهد شد» 😉😁

Ref: https://pub.towardsai.net/complete-list-of-feature-engineering-methods-40-techniques-10-categories-fda920883fad
مهندسی داده و رایانش ابری pinned «https://t.me/books_audio642 فایل صوتی کتاب «همه دروغ می‌گویند». حتماً این کتاب رو گوش بدید، یا بخونید. اگر تونستید نسخه‌ی انگلیسی اونرو مطالعه کنید. عالیه.»
This media is not supported in your browser
VIEW IN TELEGRAM
داشتن روابط اجتماعی خوب، حتی طول عمرتون رو هم افزایش میده

#TED_talk
https://en.m.wikipedia.org/wiki/Huma_(company)

شرکت هیوما، داده‌های اشخاص رو از طریق یکسری اپ‌های موبایل می‌گیره و برای دکترها ارسال میکنه. اگر در داده‌ها، موردی باشه، شخص رو به بیمارستان احضار می‌کنند.

بنظرم یکجورایی نوید جایگزینی هوش مصنوعی با پزشک‌ها رو میده. البته خود دکترها نمی‌پذیرند، چون یکجورایی باعث از رونق افتادن کارشون خواهد شد، ولی سیلی که راه بیافته، هیچ‌کسی توان ایستادگی در برابرش رو نداره
Forwarded from پزشکان گیل
📌 جایزه نوبل پزشکی ۲۰۳۶ برای یک رایانه!

🟡 ترجمه و تلخیص: دکتر بابک عزیزافشاری، ۷ تیر ۱۴۰۰
🟢 azizafshari@yahoo.com

▫️این صحنه‌ای بود که کمیته نوبل دوست نداشت ببیند. درحالی‌که برندگان امسال جوایز نوبل در سالن کنسرت استکهلم روی صندلی‌های خود قرار می‌گرفتند، صدها معترض شامل چندین برنده این جوایز طی سال‌های پیش در خیابان‌های اطراف با پلیس درگیر شدند. هدف از این تجمع اعتراض به تصمیم بی‌سابقه کمیته نوبل مبنی بر اعطای جایزه نوبل زیست‌شناسی یا پزشکی به یک ابزار هوش مصنوعی بود.

این رایانه به نام یولیا متخصص تشخیص سرطان خون (لنفوم) بود که توانست با استفاده از توالی زوج‌های پادتن اختصاصی مکانیسمی برای غلبه بر باکتری‌های مقاوم کشف کند. یولیا با این کشف و درمان عفونت‌های مرگبار و فراهم ساختن امکان انجام جراحی‌هایی مانند سزارین که بدون آنتی‌بیوتیک خطرناک بودند، طی ۱۸ ماه جان ۴ میلیون انسان را نجات داد.

این پایان بزرگ‌ترین بحران سلامت عمومی در جهان پس از دنیاگیری ۲۰۲۲-۲۰۲۰ کروناویروس بود. فرقی نمی‌کرد، چه انسان و چه ماشین، چنین دستاوردی شایستگی دریافت جایزه نوبل را داشت. اما براساس مقررات بنیاد نوبل، فقط انسان‌ها می‌توانستند برنده این جایزه شوند. ابهام دیگری که وجود داشت فوت پنج نفر از اعضای کمیته نوبل طی یک سال اخیر در اثر ابتلا به عفونت باکتریایی و جایگزینی آنان با اعضای جوانی بود که در پژوهش دکترای خود از هوش مصنوعی کمک گرفته بودند.

سازندگان یولیا در ابتدا هدف متفاوتی داشتند: یافتن درمان‌های مؤثرتر برای سرطان. یولیا یکی از پیشرفته‌ترین شبکه‌های علیتی و متعلق به نسل جدید ابزارهای هوش مصنوعی است که علاوه بر مهارت‌های سنتی شناسایی الگو و روابط ساده، توان تشخیص روابط علت و معلولی را نیز دارد. یولیا با استفاده از مجموعه‌ای عظیم از داده‌های بیماران، متون پزشکی و سوابق شرکت‌های دارویی، بدترین عوارض درمان را شناسایی و بلافاصله تشخیص می‌دهد و طوری برنامه‌ریزی شده که اثربخشی درمان‌های مختلف یا ترکیبی از آن‌ها را نیز برای هر بیمار مشخص کند.

ارتقای نرم‌افزاری یولیا در سال ۲۰۳۴ باعث شد به‌طور تصادفی به همه مقالات جدید دسترسی پیدا کند و متوجه شد تعداد فزاینده‌ای از این مقالات مربوط به مقاومت باکتری‌ها در مقابل داروهای آنتی‌باکتریال است. درخواست آن برای دسترسی به داده‌های بیشتر و پیشنهادهایی که برای روش‌های جدید درمان عفونت ارائه می‌کرد، در ابتدا جدی گرفته نشد چون تصور می‌شد ناشی از نوعی خطای نرم‌افزاری است.

سپس کاربران و از جمله دکتر رای که یکی از سازندگان یولیا بود متوجه شدند یولیا از توانایی‌های استدلالی خود برای ارائه فرضیات قابل آزمون استفاده کرده است. این مقدمه چیزی بود که بعدها شکنندگی جانبی نام گرفت و داده‌هایی که برای تأیید فرضیه لازم بود و پژوهش‌هایی که باید انجام می‌شد را مشخص می‌کرد.

چنین کاری در شرایط عادی امکان‌پذیر نبود. بسیاری از نهادهای مالی اجازه چنین استدلال‌هایی را به هوش مصنوعی نمی‌دهند که علت آن اطمینان از عدم وقوع پیامدهای مرگبار است. اما نتایج امیدوارکننده بود و دکتر رای اصرار داشت که افتخار این کار به یولیا تعلق دارد. او حتی از حضور در مراسم نوبل امتناع کرد و گفت "جایزه مال من نیست."

هوش مصنوعی اغلب برای پیش‌بینی شروع بیماری‌هایی مانند آلزایمز، ارائه توصیه برای درمان‌های شخصی‌شده، و ارتقای توانایی‌های تشخیصی پزشکان به کار می‌رود. و استفاده از آن برای کشف دارو، و به ویژه کمک به شرکت‌های دارویی چیز تازه‌ای نیست. در سال ۲۰۲۰ در انستیتو فناوری ماساچوست (ام‌آی‌تی) یک الگوریتم خبرساز شد چون توانست یک آنتی‌بیوتیک جدید را شناسایی کند. این آنتی‌بیوتیک که به افتخار "هال" در فیلم "۲۰۰۱: اودیسه فضایی" هالیسین نام گرفت، علیه برخی باکتری‌های مقاوم مؤثر بود اما محدودیت‌هایی وجود داشت. شکنندگی جانبی باعث می‌شود چنین درمان‌های شبیه هومیوپاتی و دارونما به نظر برسند.

تصمیم کمیته نوبل باعث خشم افرادی شده که یولیا را چیزی بیش از یک ابزار هوشمند نمی‌دانند. آنان باور دارند هوش مصنوعی قادر به کشف دارو نیست. در یکی از پلاکاردهای معترضین در بیرون از سالن کنسرت، عبارت "انسان‌انگاری منحرفانه" به چشم می‌خورد.

درست یا غلط، بعید است یولیا آخرین ابزار هوش مصنوعی باشد که برنده جایزه نوبل می‌شود. به گفته برخی منابع آگاه در کمیته نوبل نامزدهای مشابهی برای دریافت جایزه فیزیک و شیمی معرفی شده‌اند و حتی با توجه به هرج‌ومرج‌های این هفته در استکهلم، احتمال این‌که هوش مصنوعی برنده جایزه صلح نوبل شود چندان دور از انتظار نیست.

🔗منبع: اکونومیست

Tel: @pezeshkangil
Site: pezeshkangil.com
Insta: instagram.com/pezeshkangil
#everybody_lies
Part_4

یک تیم از محققین خواستند که بدونند در اولین قرار یک زوج (دختر و پسر) اگر چه حرف‌هایی زده بشه، قرار ملاقات دوم هم برگزار خواهد شد.

یکسری دیتاهای سنتی رو بررسی کردند و متوجه شدند که زیاد اطلاعات نمی‌گیرن. اومدن تعداد قابل توجهی از اون قرارها رو ضبط کردند و از NLP استفاده کردند. به این نتیجه رسیدند که

در قرارهایی که در اولین جلسه، بیشتر راجع به خانم حرف زده بشه، احتمال برگزاری دومین قرار خیلی بیشتره. زیاد هم نباید سؤال رد و بدل بشه، چون باعث ابهامات میشه. مخصوصاً اگر خانم‌ها از واژه‌ی «من» در اولین قرار استفاده کنند، یعنی خیلی خوشبحال پسره شده، این یعنی به طرف داره اعتماد می‌کنه

خلاصه به آقایون عرض کنم که اگر خواستید قرارهای بعدی هم تنظیم بشه و بقول خودتون مخ بزنید 😁😂، بیشتر گوش بدین.
🖥️ اگر به آنالیز احساسات
(sentiment analysis)
در یک گروه واتس‌اپی که همکاران یا دوستانتون حضور دارند، علاقمند هستید، مقاله‌های زیر رو مطالعه کنید. منتها برای آنالیز متون فارسی باید کتابخانه‌ی «هضم» رو وارد کنید. کار بسیار جالبی هست. میتونید بفهمید که در گروه شما، افراد بیشتر چه کلماتی بکار می‌برند یا سیر فکری اونها چطور بوده، هست و خواهد شد

🔗 منبع اصلی به زبان انگلیسی

🔗 منبع کمکی برای کار با هضم و کلیات پردازش متن‌های فارسی

🔗 کتابخانه‌ی هضم
#everybody_lies
Part_5

یک مقاله در حوزه‌ی رشد GDP مخصوص به کشورهای درحال توسعه نوشته می‌شه که روش کار مولفین، بسیار جالب توجه هست.

این عزیزان، با استفاده از تصاویر یکی از ماهواره‌‌های نظامی آمریکا که روزانه ۱۴ بار دور زمین می‌چرخه، و آنالیز کردن عکس‌ها در طی چند سال به این نتیجه رسیدند که «در کشورهای در حال توسعه، در مواقعی که اقتصاد بسیار ضعیف هست، چراغ‌های کمتری در شب روشن می‌باشد. و در مناطقی که بنابدلایلی اقتصاد در حال شکوفایی است، شب اکثر چراغ‌ها روشن هست». این ملاک، چیز خیلی ساده‌ای هست، ولی اینا اولین نفرهایی بودن که بهش توجه کردن. این خیلی مهمه.

یک متخصص کامپیوتر وقتی این مقاله رو خوند و دید که میشه از عکس پول درآورد، اومد یه شرکت زد بنام Premise. کارشون چی بود؟ در کشورهای در حال توسعه یک تیم از افراد رو که فقط توان کار با موبایل‌های هوشمند داشتند، استخدام کردند و بهشون گفتند که از هر چیزی که فکر میکنید شاید آورده‌ی اقتصادی داشته باشه، مرتب عکس بگیرید. سپس این عکس‌ها به دفاتر مرکزی ارسال میشد و تیم دوم که آنالیزور‌های عکس بودند، زیر و بم این تصاویر رو درمی‌آورند. بعد این شرکت می‌رفت اطلاعاتی که از طریق همین عکسها بدست آورده بود رو به قیمت‌های گزاف به بانک‌ها و یا دولت‌ها می‌فروخت. اخیراً سرمایه‌گذارها ۵۰ میلیون دلار ناقابل وارد این شرکت کردند.
دوره آموزشی کلان داده
با مشارکت دانشگاه صنعتی اصفهان، دانشگاه شهرکرد و IPM اصفهان

پایان ثبت نام: 16 تیرماه
شروع ثبت نام: از 8 تیرماه
شروع دوره: 17تیرماه

https://vwork.sku.ac.ir/TD-552/
🛑 یادگیری ماشین در برابر یادگیری عمیق.

دومی تا حدودی بهتره، ولی گرون‌تر هست تقریباً، چون نیاز به GPU داره یکجورایی. کلا انتخاب بین این دو، به مسئله‌تون وابسته است.

اگر سیستم خوبی ندارید میتونید از
Google colab
استفاده کنید که رایگان هست.
اسلایدهای هفته‌ی بیست و پنجم:

Tap or click here to download the PDF file
یکی از دوستان می‌گفتند خروجی کدهایی که من در ویدیوها اجرا میکنم، با چیزی که ایشون خودشون بدست میارند، متفاوت هست.

یکی از دلایلش می‌تونه آپدیت نبودن ژوپیتر و برخی از کتابخانه‌هاتون باشه. برای مطمئن شدن، کدهاتون رو با گوگل کولب اجرا کنید. اگر با خروجی در کامپیوتر خودتون فرق داشت، یکی از دلایل همینی بود که اشاره کردم بهش.
درسته که ما نیاز نداریم حجم زیادی از روش‌ها رو بدونیم، فقط باید از کلیت روش‌ها و تکنیک‌ها و کدهاشون اطلاع داشته باشیم و در مواقع لزوم، اونها رو بکار بگیریم.
اما برخی از روش‌ها خیلی مهم هستند، یکجورایی مثل آچار فرانسه عمل می‌کنند. یکی از روش‌های خیلی باحال «آنالیز مولفه‌ی اصلی» یا همون
"Principal Component Analysis"
هست. در این مقاله، نویسنده، خیلی ساده در خصوص PCA صحبت می‌کنه. اگر زمان داشتین یه نگاهی بهش بندازین؛ حتی اگر این بحث رو کامل بلدید.
مقاله و کتاب خوندن، باعث میشه بتونید بهتر بنویسید. نوشتن هم گاهاً مثل صحبت کردن، خیلی بدردتون میخوره. اگر اجداد ما نوشتن رو یاد نگرفته بودند، امروز شاید ما مشکلاتمون چندین برابر می‌بود.

#PCA
#principal_component_analysis
لیستی از بهترین و پراستفاده‌ترین روش‌ها و الگوریتم‌های متخصصین علم داده. همه رو باید بلد باشین.

🔗 Reference: Click Here