220 subscribers
149 photos
14 videos
56 files
120 links
درباره کانال:
این کانال به منظور ایجاد مطالبی در حوزه آموزش یادگیری آماری، آموزش ابزارهای مورد نیاز در این حیطه و البته به اشتراک گذاری تجارب کار در این زمینه و کمی هم مطالب متفرقه ایجاد شده هست.

ارتباط با ادمین:
@stats9
Download Telegram
positron_stats9.pdf
71.7 KB
معرفی Positron: محیط توسعه یکپارچه علوم داده از Posit

حدود ۱۴ سال از انتشار اولین نسخه #Rstudio و ۲ سال از تغییر نام شرکت RStudio به #Posit می‌گذرد. Posit مدت‌ها پیش نسخه‌ای سفارشی‌شده از #IDE محبوب #vscode را با نام #Positron برای تحلیل‌گران داده معرفی کرد. این ابزار با پشتیبانی یکپارچه از زبان‌های #R و #Python، مجموعه‌ای متنوع از ابزارها را برای بهبود جریان کاری علوم داده ارائه می‌دهد.

ادیتور Positron که تا پیش از این در مرحله بتا بود، اکنون در کنفرانس اخیر Posit به‌صورت نسخه نهایی و رایگان برای عموم منتشر شده است. این IDE با ویژگی‌هایی مانند اجرای خط‌به‌خط کد، پنل‌های تخصصی برای تجسم داده و ادغام هوش مصنوعی، تجربه‌ای کارآمد و مدرن را برای کاربران فراهم می‌کند.

برای دانلود و تجربه Positron، از لینک زیر بازدید کنید:

https://positron.posit.co/
👏31
ChatGptUsers_stats9.pdf
534.3 KB
بر اساس نخستین گزارش رسمی OpenAI درباره‌ی الگوهای استفاده ازChatGPT

این فایل شامل چند نمودار آماری منتخب از مطالعه‌ای است که با همکاری تیم تحقیقاتی OpenAI و دانشگاه هاروارد انجام شده است. داده‌ها حاصل تحلیل بیش از ۲/۶ میلیارد پیام روزانه از ۷۰۰ میلیون کاربر فعال در بازه‌ی ژوئن ۲۰۲۴ تا ژوئن ۲۰۲۵ هستند. برخی یافته‌های قابل توجه عبارت‌اند از:

- ۷۲/۲ درصد از پیام‌ها ماهیت غیرکاری داشته‌اند، در حالی که این نسبت در سال قبل ۵۳ درصد بوده است.

- ۴۶ درصد از کاربران در بازه‌ی سنی ۱۸ تا ۲۵ سال قرار دارند.

- استفاده از ChatGPT برای کمک در نگارش، ۲۸ درصد از کل مکالمات را شامل می‌شود و در میان کاربران شاغل در حوزه‌ی مدیریت، این نسبت به ۵۲ درصد می‌رسد.

- سهم مکالمات مرتبط با جستجوی اطلاعات از ۱۴ درصد در ژوئن ۲۰۲۴ به ۲۴/۴ درصد در ژوئن ۲۰۲۵ افزایش یافته است.

- استفاده از مدل‌های GPT برای تصمیم‌گیری و حل مسئله در محیط‌های کاری، ۱۴/۹ درصد از مکالمات کاری را تشکیل داده است.
👍1🔥1
👌1
ULTRA
Photo
وقتی #مدل‌های_آمیخته، منطق #بالینی را با عدد روایت می‌کنند

در #مطالعات_بالینی با #اندازه‌گیری‌های_مکرر، مثل بررسی فشار داخلی چشم (IOP) در بیماران تحت جراحی، استفاده از مدل‌های آمیخته خطی (LMM)‌ به ما اجازه می‌ده نا هم تغییرات درون‌فردی رو لحاظ کنیم، هم‌ روند‌های بین‌گروهی رو با دقت آماری بررسی کنیم.

در قسمتی از یک تحلیل که جدول آن در بالا آمده است، داده‌های دو گروه (درمان و کنترل) از زمان قبل از جراحی (Pre-op) تا ماه بیست و چهارم بعد از جراحی، مدل‌سازی شدن. هدف این بود که ببینیم آیا نوع جراحی تأثیر متفاوتی در کاهش فشار چشمی داشته یا نه.

(Intercept):
اشاره به میانگین پیش‌بینی شده فشار چشمی بیماران در گروه مرجع (درمان) در زمان صفر (Pre-op) دارد. باید این نکته اشاره شود که این مقدار برازش داده شده مدل است، نه مقدار ثبت شده در داده‌ها! معناداری آن اشاره به این دارد که میانگین فشار چشمی در گروه مرجع، قبل از جراحی، با صفر به لحاظ آماری اختلاف معناداری دارد و البته با توجه به این‌که به لحاظ بالینی اصولا فشار چشمی صفر هم تعریف نمی‌شود، یک امر بدیهی است.

GROUP-CONTROL = -2.3:
گروه کنترل در زمان صفر حدود ۲/۳ واحد فشار کمتر از گروه درمانی داشته، این تفاوت پایه در تحلیل با توجه به این‌که pمقدار ثبت شده برای آن در حدود سه‌صدم است، می‌تواند در سطح پنج‌صدم، به لحاظ آماری معنادار باشد. یعنی قبل از جراحی گروه کنترل به طور متوسط فشار چشم کمتری از گروه درمان داشته است.

Time = -1.67:
فشار چشم به‌طور متوسط، در گروه درمان به ازای هر مرحله زمانی، حدود ۱/۶۷ واحد کاهش یافته، این روند کاهش بسیار معنی‌دار و به لحاظ بالینی قابل توجه است با توجه به pمقدار ثبت شده آن که در حدود صفر است.

GROUP-CONTROL:Time = +1.21
ولی نکته جذاب بالینی در این‌جا این ضریب است که به ما نشان‌ می‌دهد، نوع جراحی اعمال شده برای گروه مرجع، مؤثرتر بوده است در کاهش فشار داخلی چشم بیماران. این اثر تعاملی بین گروه و زمان که در این‌جا سطح مرجع گروه درمان است، نشان می‌دهد روند کاهش فشار در گروه کنترل حدود ۱/۲۱ واحد کمتر از گروه درمانی بوده. این یعنی نوع جراحی در گروه درمانی تأثیر بیشتری در کاهش فشار چشم داشته است.

مدل‌های آمیخته می‌توانند از روش‌های کلاسیک‌تر مثل Repeated Measure Anova، در باز‌نمایی بدیهیات بالینی، با ساختارهای آماری خیلی بهتر عمل کنند. مثل انتظار کاهش فشار چشم بعد از جراحی.

در این‌جا مدل نه‌تنها کاهش فشار رو در طول زمان تأیید کرده، بلکه تفاوت روند بین دو گروه را هم به صورت عددی و معنی‌دار نشان داده است.
👏2👍1
ULTRA
Photo
مدل APW: ترکیبی از یادگیری در سطح جزء و کل

اختصار APW که از عبارت کامل Aggregated Probability Weighted گرفته شده و به معنای «مدل تجمیع شده وزنی بر پایه احتمال» می‌باشد، یک مدل مرکب برای پیش‌بینی چه از نوع کیفی و چه از نوع کمی است.
در بسیاری از مسائل یادگیری ماشین، داده‌ها به‌صورت «کیسه‌ای از نمونه‌ها گردآوری می‌شوند.
برای مثال، ممکن است هر «بیمار» (به‌عنوان یک کیسه) شامل مجموعه‌ای از «اندازه‌گیری‌های سلولی» (به‌عنوان نمونه‌ها) باشد و پاسخ نهایی تنها در سطح بیمار مشخص باشد، نه برای هر سلول.
در چنین شرایطی، مدل‌های سنتی رگرسیونی قادر به تشخیص نقش هر نمونه در پاسخ کل نیستند.
مدل APW برای حل همین مسئله طراحی شده است.


ایدهٔ اصلی مدل


مدل APW دو گام کلیدی دارد:
۱-‌ در گام نخست، با استفاده از یک مدل رگرسیون لجستیک، احتمال «اهمیت» یا «مشارکت واقعی» هر نمونه در پاسخ نهایی برآورد می‌شود (البته اخیرا از روش‌های دیگه‌ای برای وزن‌دهی به نمونه‌ها در یادگیری‌های چند نمونه‌ای استفاده می‌شود، مانند مقاله یادگیری چند نمونه‌ای عمیق بر پایه توجه که از ایده APW برای پیاده‌‌سازی یک مدل یادگیری چند‌نمونه‌ای و البته استفاده از شبکه‌های عصبی برای وزن‌دهی به نمونه‌ها بهره برده‌ است)*.

۲-‌ سپس، ویژگی‌های هر کیسه با میانگین‌گیری وزنی (بر اساس همان احتمال‌ها) تجمیع شده و وارد یک مدل رگرسیونی در سطح کل (مثلاً یک مدل خطی ساده) می‌شود.

به این ترتیب، APW ارتباط بین ساختار درونی نمونه‌ها و پاسخ نهایی را به‌طور انعطاف‌پذیر مدل می‌کند.


* Ilse, Maximilian; Tomczak, Jakub M.; Welling, Max. Attention-based Deep Multiple Instance Learning. Proceedings of the 35th International Conference on Machine Learning (ICML 2018), PMLR 80: 2127–2136
👍2👏1
ULTRA
Photo
اطلاع‌رسانی رسمی ششمین همایش ملی ریاضی و آمار

دانشگاه گنبد کاووس در بهمن‌ماه ۱۴۰۴ میزبان ششمین دوره همایش ملی ریاضی و آمار خواهد بود. این رویداد با تأییدیه رسمی ISC و حمایت علمی گروه‌های تخصصی، فرصتی ارزشمند برای ارائه دستاوردهای پژوهشی در حوزه‌های ریاضی محض، ریاضی کاربردی، آمار کلاسیک و بیزی، آموزش ریاضی و تحلیل داده‌ها فراهم می‌کند.

ارسال مقاله به‌صورت کامل یا خلاصه یک‌صفحه‌ای امکان‌پذیر است. همچنین کمیته اجرایی امکان صدور گواهی علمی پیش از برگزاری همایش را برای شرکت‌کنندگان فراهم کرده است.

مقالات منتخب در Scopus چاپ می‌شود.

اطلاعات تکمیلی، محورهای همایش، و نحوه ثبت‌نام از طریق وب‌سایت رسمی همایش در دسترس است:
www.conf.gonbad.ac.ir/msc1404
👍1👏1
StatisticsDay_Stats9.pdf
1.6 MB
به مناسبت اول آبان و روز آمار!
5👏2
🔥2
پایان پشتیبانی آناکوندا از R

برای من آشنایی با پایتون حتی قبل از R اتفاق افتاد.
اوایل فقط از Pycharm استفاده می‌کردم.
در دانشگاه با R آشنا شدم.
به زعم خیلی‌ها R یک پلتفرم بیشتر دانشگاهی است تا صنعتی.
ولی به تجربه من کار با tidy data و پیاده‌سازی مدل‌های تخصصی آماری در R صرفا روان‌تر نیست، بلکه فرسنگ‌ها با پایتون فاصله دارد.

اولین بار که آناکوندا نصب کردم تونستم ژوپیتر رو داشته باشم و حتی فکر می‌کردم ژوپیتر یک ابزار انحصاری از آناکوندا است و البته اسپایدرِ جذاب که با اون لب‌تاپ قدیمی شاید چند دقیقه حتی طول می‌کشید که یک محیط آماده به کار در اختیارم بذاره. نصب آناکوندا و اضافه شدن این همه ابزار برام جذاب بود. ولی وقتی محدودیت داشته باشی مجبوری صرفه‌جویی کنی یا شاید به بیانی بهتر انتخاب کنی، به قول معلم دانش‌اجتماعی دبیرستانم که خدایش بیامرزد، اقتصاد علم انتخاب است. محدودیت سرعت من رو خیلی بیشتر به سمت R متمایل کرد. یک Gui ساده و البته کارراه‌ بنداز برای مدل‌سازی و انجام محاسبات.

ولی این ابزار خاص (R) داره بین برندهای مهم در تحلیل داده، هر روز از محبوبیتش کاسته میشه. شاید بعضی ندونن، کمپانی معظمی مثل مایکروسافت حتی قبل‌تر از این‌که بسمت پایتون بره و خالق این زبان رو به استخدام خودش در بیاره، یک ورژن اختصاصی از R رو منتشر می‌کرد و حتی یک مخزن اختصاصی هم براش داشت به اسم MRAN و بعد‌تر که کلا عطای این زبان رو به لقایش بخشید و حتی پایتون رو (با الهام از استاد بهبودیان در تعریف متغیر تصادفی که می‌گوید تابعی تصادفی که با اصطلاحی نارسا همه جا متغیر تصادفی شهرت یافته است) علی‌رغم اینکه R خیلی مناسب‌تر بود (به‌ باور من)، با اکسل ادغام کرد.

آناکوندا که از سال ۲۰۱۴ به صورت ویژه R رو وارد ادبیات خودش کرد، به تازگی اعلام کرده که از یک هفته پیش چهارم نوامبر پشتیبانی از این ابزار رو خاتمه میده. و Rstudio سابق یا Posit الان که به صورت اختصاصی برای R کار می‌کرد، داره هر روز ابزارهای بیشتری رو برای پایتون ارائه می‌ده و تا اونجا که اصولا تغییر نامش هم گامی در همین مسیر بود (به باور من).

برای من R صرفا یک ابزار نیست، یک نوستالژی هم حتی نیست. به منزله همراهی است در زمانی که دیگران به دلیل نقص‌هایت تنهایت گذاشته‌اند. همراه با اشاره به این واقعیت دردناک که این چند خط هم می‌تونه یک جور برخورد سانتی‌مانتال در مواجهه با واقعیت تکنولوژی (یا شاید واقعیت مدرنیسم) باشه.
👍3👏3
👍1
ULTRA
Photo
دومین کنفرانس بین‌المللی دوسالانه پیشرفت‌ها در هوش مصنوعی و علوم داده (IBCAIDS 2026) فرصتی ارزشمند برای پژوهشگران و صنعت‌گران این حوزه فراهم کرده است.
این کنفرانس مقالاتی را در محورهای متنوع دریافت می‌کند، از جمله:

• هوش مصنوعی نمادین و استدلال خودکار
• یادگیری ماشین و نوآوری‌های نظری
• هوش مصنوعی عصبی-نمادین و محاسبات نرم
• تحلیل کلان‌داده و داده‌کاوی
• ریاضیات و مبانی آماری در هوش مصنوعی
• پردازش سیگنال چندرسانه‌ای (تصویر، ویدئو، متن، گفتار)
• هوش مصنوعی قابل توضیح (XAI) و سامانه‌های قابل اعتماد
• کاربردهای هوش مصنوعی در پزشکی، شهرهای هوشمند، امنیت سایبری، صنایع نفت و گاز، آموزش، محیط‌زیست، مالی و کشاورزی

تاریخ‌های مهم:

• آخرین مهلت ارسال مقاله: ۳۰ آذر ۱۴۰۴
• اعلام نتایج داوری: ۱۰ دی ۱۴۰۴
• آخرین مهلت ثبت‌نام: ۱۵ دی ۱۴۰۴
• زمان برگزاری کنفرانس: ۷ و ۸ بهمن ۱۴۰۴

ویژگی مهم: مقالات برتر این کنفرانس در ژورنال معتبر JCSE منتشر خواهند شد و همچنین در پایگاه‌های استنادی بین‌المللی نمایه می‌شوند.

زبان‌های قابل پذیرش: فارسی و انگلیسی.
برای اطلاعات بیشتر و ثبت‌نام، به وب‌سایت رسمی کنفرانس مراجعه کنید:
https://ibcaids2026.pgu.ac.ir
🔥1👏1
مدل‌های زبانی چیزی را می‌بینند که انتظار دیدنش را دارند!

اخیرا پژوهشی در تیم تحلیل داده کمپانی Posit صورت گرفته که می‌تواند اهمیت زیادی داشته باشد.
وقتی یک نمودار را به یک LLM می‌دهید و انتظار دارین، مدل زبانی این نمودار را برای شما تحلیل کند؛ مدل زبانی چیزی را در نمودار می‌بینید که انتظار دارد ببیند. و این برای همه مدل‌های زبانی تقریبا صدق می‌‌کند از ChatGpt و کوپایلوت گرفته تا Gemini و کلاود که LLM کمپانی آنتروپیک است، برای مثال می‌توانید نموداری که در پایین ضمیمه شده است را به هر کدام از این LLMها بدهید که از دیتاست پایه و معروف در R گرفته شده است، یعنی داده‌های mtcars، محور عمودی mpg که اشاره دارد به مقدار مایل پیموده شده با یک گالن سوخت و محور افقی که اشاره دارد به میزان قدرت موتور بر‌حسب اسب بخار، که خروجی کد زیر است:

library(tidyverse)
ggplot(mtcars, aes(x = hp, y = mpg)) +
geom_point()

نمودار دارد رابطه عجیبی را نشان می‌دهد، چون انتظار بر این است که وقتی توان موتور افزایش پیدا می‌کند، میزان مصرف سوخت هم افزایش پیدا کند، ولی این نمودار دقیقا عکس این را می‌گوید، نمودار نشان میدهد میزان مسافت (به مایل) پیمایش شده توسط خودرو با افزایش توان، با مصرف یک گالن سوخت، نیز افزایش پیدا میکند، یا به بیانی ساده‌تر، با افزایش توان، میزان مصرف سوخت هم کاهش پیدا می‌کند.

تعجب نکنید، قبل از ترسیم نمودار یک تغییر در داده‌ها ایجاد شده است!

mtcars$hp <- max(mtcars$hp) - mtcars$hp

تغییری که باعث معکوس شدن این رابطه شده است. ولی LLM بر‌اساس انتظاری که از دیدن این متغیرها دارد، تفسیرش را ارائه می‌دهد، انتظارش این است که رابطه بین مسافت پیموده شده با یک گالن سوخت (mpg) و توان موتور، منفی و نمودار پراکنش یک روند نزولی را نشان دهد و دقیقا همین را هم در تفسیر این نمودار (اگر آن را برای تحلیل به LLM بدهید) می‌گوید. در حقیقت LLM چیزی را می‌بیند که انتظار دیدنش را دارد. پس در سپردن نمودارها برای تحلیل به LLMها باید خیلی مراقب بود!
👍2🔥1
1🔥1
ULTRA
Photo
در سه‌گانه‌ی ماتریس، به‌ویژه فیلم دوم، وقتی نئو به سراغ اوراکل می‌رود، اوراکل به او می‌گوید:
«تمام مسئله انتخاب است. تو قبل از آن‌که به این‌جا بیایی، انتخابت را کرده‌ای. من فقط کمک می‌کنم انتخابت را درک کنی.»
اوراکل در این فیلم نقش پیشگو را دارد، دقیقاً مطابق با معنای لغوی واژه‌ی (Oracle).

ریشه‌ی این واژه به اسطوره‌شناسی یونان باستان بازمی‌گردد. مردم به کاهن معبد آپولو در شهر دِلفی می‌گفتند (Oracle of Delphi) پیشگویی که برای راهنمایی و پیش‌بینی آینده به او مراجعه می‌کردند.

در آمار، نخستین بار در دهه‌ی ۱۹۶۰ روشی به نام «روش دِلفی» معرفی شد. این روش شامل ارسال پرسش‌نامه‌هایی به جمعی از کارشناسان درباره‌ی یک رویداد خاص بود، و سپس با تحلیل پاسخ‌ها و شاخص‌های آماری، نتیجه‌ای منطقی درباره‌ی احتمال وقوع آن رویداد ارائه می‌شد.

اما مفهوم «اوراکل» به‌طور خاص توسط آماردان روسی، ولادیمیر کولتشینسکی، وارد ادبیات آماری شد. او نامساوی اوراکل را تعریف کرد که بیان می‌کند اگر مجموعه‌ای از برآوردگرها داشته باشیم و یکی از آن‌ها حقیقت مدل را دقیقاً بیان کند (اما ما از آن بی‌اطلاع باشیم)، می‌توان با نامساوی زیر ارتباطی بین برآوردگر خودمان و برآوردگر اوراکل برقرار کرد:

Risk(f, R) = Risk(f*, R) + Penalty

در این‌جا f* همان برآوردگر اوراکل است، f برآوردگر ما، R ریسک خطای مدل است و Penalty تِرم جریمه‌ای که ما به مدل اضافه می‌کنیم. واضح است که از f* چیزی نمی‌ٔدانیم ولی می‌توانیم در مورد Penalty صحبت کنیم که بعد‌تر
تبدیل می‌شود به یک تابع تجمیعی از پیچیدگی مدل و خطا، با کمینه کردن Penalty می‌توانیم ادعا کنیم که
برآوردگر ما عملکردی نزدیک به برآوردگر اوراکل دارد. بعد‌ها ترور هستی و تیبشیرانی از همین ایده برای تبیین تِرم جریمه در مدل لاسو استفاده کرده‌اند.

برای درک نامساوی اوراکل شاید این لینک مناسب باشد:
https://stats.stackexchange.com/questions/340312/oracle-inequality-in-basic-terms


جالب است که بدانید زبان برنامه‌نویسی Delphi که یک محیط توسعه سریع برای برنامه‌های دسکتاپ (ویندوز) ایجاد کرد، با الهام از پیشگوی دِلفی نام‌گذاری شده است (Oracle of Delphi).
👏2👍1
NobelPrize_Stats9.pdf
448.4 KB
نقشه برداری علمی و فرهنگی جهان

نگاهی به ۱۲۴ سال جایزه نوبل
۱۹۰۱-۲۰۲۵
👏1👌1
ULTRA
Photo
اِسپایک اَند اِسلب (Spike-and-Slab Prior) چیست و چرا در انتخاب متغیر مهم است؟

در بسیاری از مسائل رگرسیونی، با تعداد زیادی متغیر توضیحی مواجه هستیم؛

اما واقعیت این است که فقط بخشی از آن‌ها واقعاً بر پاسخ اثر دارند.

اگر همه متغیرها را وارد مدل کنیم:

* تفسیر دشوار می‌شود
* خطر بیش‌برازش افزایش می‌یابد
* و نتیجه ناپایدار خواهد بود

روش‌های کلاسیک مانند آزمون فرض یا Lasso معمولاً یک تصمیم «سخت» می‌گیرند:
یا متغیر در مدل هست یا نیست. اما عدم‌قطعیت این تصمیم به‌صورت صریح گزارش نمی‌شود.

ایده‌ی اصلی Spike-and-Slab دقیقاً از همین‌جا شکل می‌گیرد.

در این رویکرد بیزی، «حضور یا عدم حضور یک متغیر» خود به‌عنوان یک متغیر تصادفی مدل‌سازی می‌شود.

به‌جای آنکه از قبل مشخص کنیم کدام متغیر مهم است، این تصمیم به داده‌ها واگذار می‌شود.

برای هر متغیر، یک سازوکار روشن/خاموش در نظر گرفته می‌شود:

* اگر روشن باشد، متغیر اجازه دارد اثر واقعی بر پاسخ داشته باشد

* اگر خاموش باشد، اثر آن به سمت صفر فشرده می‌شود

نام Spike-and-Slab از شکل پیشین ضرایب می‌آید:

* Spike: توزیعی بسیار متمرکز حول صفر که نماینده عدم اثر است

* Slab: توزیعی پهن با واریانس بزرگ که امکان اثرگذاری واقعی را فراهم می‌کند

مزیت کلیدی این رویکرد آن است که انتخاب متغیر به‌صورت احتمالاتی و تدریجی انجام می‌شود، نه به‌صورت یک تصمیم قطعی.

در نتیجه، به‌جای آنکه صرفاً گفته شود یک متغیر در مدل حضور دارد یا خیر، می‌توان احتمال حضور آن در مدل را گزارش کرد.

نتیجه چنین رویکردی، مدلی محافظه‌کارانه‌تر، تفسیرپذیرتر و پایدارتر است.

Spike-and-Slab تنها زمانی اثر یک متغیر را می‌پذیرد که شواهد داده‌ای واقعاً قوی باشد.

برای مخاطب آشنا به مفاهیم آماری احتمالا این سؤال شکل می‌گیرد، pvalue هم دقیقا همین‌‌کار را می‌کند، ولی در جواب باید گفت، اصولا pvalue بر‌اساس یک آزمون فرض شکل می‌گیرد که خود متکی به فرضیات زیادی است و عدم تحقق آن، به معنای کم اعتباری pvalue است. و البته مسائلی از جمله هم‌خطی متغیرها هم به شدت روی مقدار pvalue اثر گذار هستند.

مفهوم عدم قطعیت یک مفهوم اساسی برای تببین احتمال است. ترکیب اسپایک اند اسلب با مدل‌های بیزی به خوبی می‌تواند این مفهوم را به روشنی در فرایند انتخاب متغیر، گزارش کند.
👍2👏2