221 subscribers
149 photos
14 videos
56 files
120 links
درباره کانال:
این کانال به منظور ایجاد مطالبی در حوزه آموزش یادگیری آماری، آموزش ابزارهای مورد نیاز در این حیطه و البته به اشتراک گذاری تجارب کار در این زمینه و کمی هم مطالب متفرقه ایجاد شده هست.

ارتباط با ادمین:
@stats9
Download Telegram
ULTRA
Photo
اطلاع‌رسانی رسمی ششمین همایش ملی ریاضی و آمار

دانشگاه گنبد کاووس در بهمن‌ماه ۱۴۰۴ میزبان ششمین دوره همایش ملی ریاضی و آمار خواهد بود. این رویداد با تأییدیه رسمی ISC و حمایت علمی گروه‌های تخصصی، فرصتی ارزشمند برای ارائه دستاوردهای پژوهشی در حوزه‌های ریاضی محض، ریاضی کاربردی، آمار کلاسیک و بیزی، آموزش ریاضی و تحلیل داده‌ها فراهم می‌کند.

ارسال مقاله به‌صورت کامل یا خلاصه یک‌صفحه‌ای امکان‌پذیر است. همچنین کمیته اجرایی امکان صدور گواهی علمی پیش از برگزاری همایش را برای شرکت‌کنندگان فراهم کرده است.

مقالات منتخب در Scopus چاپ می‌شود.

اطلاعات تکمیلی، محورهای همایش، و نحوه ثبت‌نام از طریق وب‌سایت رسمی همایش در دسترس است:
www.conf.gonbad.ac.ir/msc1404
👍1👏1
StatisticsDay_Stats9.pdf
1.6 MB
به مناسبت اول آبان و روز آمار!
5👏2
🔥2
پایان پشتیبانی آناکوندا از R

برای من آشنایی با پایتون حتی قبل از R اتفاق افتاد.
اوایل فقط از Pycharm استفاده می‌کردم.
در دانشگاه با R آشنا شدم.
به زعم خیلی‌ها R یک پلتفرم بیشتر دانشگاهی است تا صنعتی.
ولی به تجربه من کار با tidy data و پیاده‌سازی مدل‌های تخصصی آماری در R صرفا روان‌تر نیست، بلکه فرسنگ‌ها با پایتون فاصله دارد.

اولین بار که آناکوندا نصب کردم تونستم ژوپیتر رو داشته باشم و حتی فکر می‌کردم ژوپیتر یک ابزار انحصاری از آناکوندا است و البته اسپایدرِ جذاب که با اون لب‌تاپ قدیمی شاید چند دقیقه حتی طول می‌کشید که یک محیط آماده به کار در اختیارم بذاره. نصب آناکوندا و اضافه شدن این همه ابزار برام جذاب بود. ولی وقتی محدودیت داشته باشی مجبوری صرفه‌جویی کنی یا شاید به بیانی بهتر انتخاب کنی، به قول معلم دانش‌اجتماعی دبیرستانم که خدایش بیامرزد، اقتصاد علم انتخاب است. محدودیت سرعت من رو خیلی بیشتر به سمت R متمایل کرد. یک Gui ساده و البته کارراه‌ بنداز برای مدل‌سازی و انجام محاسبات.

ولی این ابزار خاص (R) داره بین برندهای مهم در تحلیل داده، هر روز از محبوبیتش کاسته میشه. شاید بعضی ندونن، کمپانی معظمی مثل مایکروسافت حتی قبل‌تر از این‌که بسمت پایتون بره و خالق این زبان رو به استخدام خودش در بیاره، یک ورژن اختصاصی از R رو منتشر می‌کرد و حتی یک مخزن اختصاصی هم براش داشت به اسم MRAN و بعد‌تر که کلا عطای این زبان رو به لقایش بخشید و حتی پایتون رو (با الهام از استاد بهبودیان در تعریف متغیر تصادفی که می‌گوید تابعی تصادفی که با اصطلاحی نارسا همه جا متغیر تصادفی شهرت یافته است) علی‌رغم اینکه R خیلی مناسب‌تر بود (به‌ باور من)، با اکسل ادغام کرد.

آناکوندا که از سال ۲۰۱۴ به صورت ویژه R رو وارد ادبیات خودش کرد، به تازگی اعلام کرده که از یک هفته پیش چهارم نوامبر پشتیبانی از این ابزار رو خاتمه میده. و Rstudio سابق یا Posit الان که به صورت اختصاصی برای R کار می‌کرد، داره هر روز ابزارهای بیشتری رو برای پایتون ارائه می‌ده و تا اونجا که اصولا تغییر نامش هم گامی در همین مسیر بود (به باور من).

برای من R صرفا یک ابزار نیست، یک نوستالژی هم حتی نیست. به منزله همراهی است در زمانی که دیگران به دلیل نقص‌هایت تنهایت گذاشته‌اند. همراه با اشاره به این واقعیت دردناک که این چند خط هم می‌تونه یک جور برخورد سانتی‌مانتال در مواجهه با واقعیت تکنولوژی (یا شاید واقعیت مدرنیسم) باشه.
👍3👏3
👍1
ULTRA
Photo
دومین کنفرانس بین‌المللی دوسالانه پیشرفت‌ها در هوش مصنوعی و علوم داده (IBCAIDS 2026) فرصتی ارزشمند برای پژوهشگران و صنعت‌گران این حوزه فراهم کرده است.
این کنفرانس مقالاتی را در محورهای متنوع دریافت می‌کند، از جمله:

• هوش مصنوعی نمادین و استدلال خودکار
• یادگیری ماشین و نوآوری‌های نظری
• هوش مصنوعی عصبی-نمادین و محاسبات نرم
• تحلیل کلان‌داده و داده‌کاوی
• ریاضیات و مبانی آماری در هوش مصنوعی
• پردازش سیگنال چندرسانه‌ای (تصویر، ویدئو، متن، گفتار)
• هوش مصنوعی قابل توضیح (XAI) و سامانه‌های قابل اعتماد
• کاربردهای هوش مصنوعی در پزشکی، شهرهای هوشمند، امنیت سایبری، صنایع نفت و گاز، آموزش، محیط‌زیست، مالی و کشاورزی

تاریخ‌های مهم:

• آخرین مهلت ارسال مقاله: ۳۰ آذر ۱۴۰۴
• اعلام نتایج داوری: ۱۰ دی ۱۴۰۴
• آخرین مهلت ثبت‌نام: ۱۵ دی ۱۴۰۴
• زمان برگزاری کنفرانس: ۷ و ۸ بهمن ۱۴۰۴

ویژگی مهم: مقالات برتر این کنفرانس در ژورنال معتبر JCSE منتشر خواهند شد و همچنین در پایگاه‌های استنادی بین‌المللی نمایه می‌شوند.

زبان‌های قابل پذیرش: فارسی و انگلیسی.
برای اطلاعات بیشتر و ثبت‌نام، به وب‌سایت رسمی کنفرانس مراجعه کنید:
https://ibcaids2026.pgu.ac.ir
🔥1👏1
مدل‌های زبانی چیزی را می‌بینند که انتظار دیدنش را دارند!

اخیرا پژوهشی در تیم تحلیل داده کمپانی Posit صورت گرفته که می‌تواند اهمیت زیادی داشته باشد.
وقتی یک نمودار را به یک LLM می‌دهید و انتظار دارین، مدل زبانی این نمودار را برای شما تحلیل کند؛ مدل زبانی چیزی را در نمودار می‌بینید که انتظار دارد ببیند. و این برای همه مدل‌های زبانی تقریبا صدق می‌‌کند از ChatGpt و کوپایلوت گرفته تا Gemini و کلاود که LLM کمپانی آنتروپیک است، برای مثال می‌توانید نموداری که در پایین ضمیمه شده است را به هر کدام از این LLMها بدهید که از دیتاست پایه و معروف در R گرفته شده است، یعنی داده‌های mtcars، محور عمودی mpg که اشاره دارد به مقدار مایل پیموده شده با یک گالن سوخت و محور افقی که اشاره دارد به میزان قدرت موتور بر‌حسب اسب بخار، که خروجی کد زیر است:

library(tidyverse)
ggplot(mtcars, aes(x = hp, y = mpg)) +
geom_point()

نمودار دارد رابطه عجیبی را نشان می‌دهد، چون انتظار بر این است که وقتی توان موتور افزایش پیدا می‌کند، میزان مصرف سوخت هم افزایش پیدا کند، ولی این نمودار دقیقا عکس این را می‌گوید، نمودار نشان میدهد میزان مسافت (به مایل) پیمایش شده توسط خودرو با افزایش توان، با مصرف یک گالن سوخت، نیز افزایش پیدا میکند، یا به بیانی ساده‌تر، با افزایش توان، میزان مصرف سوخت هم کاهش پیدا می‌کند.

تعجب نکنید، قبل از ترسیم نمودار یک تغییر در داده‌ها ایجاد شده است!

mtcars$hp <- max(mtcars$hp) - mtcars$hp

تغییری که باعث معکوس شدن این رابطه شده است. ولی LLM بر‌اساس انتظاری که از دیدن این متغیرها دارد، تفسیرش را ارائه می‌دهد، انتظارش این است که رابطه بین مسافت پیموده شده با یک گالن سوخت (mpg) و توان موتور، منفی و نمودار پراکنش یک روند نزولی را نشان دهد و دقیقا همین را هم در تفسیر این نمودار (اگر آن را برای تحلیل به LLM بدهید) می‌گوید. در حقیقت LLM چیزی را می‌بیند که انتظار دیدنش را دارد. پس در سپردن نمودارها برای تحلیل به LLMها باید خیلی مراقب بود!
👍2🔥1
1🔥1
ULTRA
Photo
در سه‌گانه‌ی ماتریس، به‌ویژه فیلم دوم، وقتی نئو به سراغ اوراکل می‌رود، اوراکل به او می‌گوید:
«تمام مسئله انتخاب است. تو قبل از آن‌که به این‌جا بیایی، انتخابت را کرده‌ای. من فقط کمک می‌کنم انتخابت را درک کنی.»
اوراکل در این فیلم نقش پیشگو را دارد، دقیقاً مطابق با معنای لغوی واژه‌ی (Oracle).

ریشه‌ی این واژه به اسطوره‌شناسی یونان باستان بازمی‌گردد. مردم به کاهن معبد آپولو در شهر دِلفی می‌گفتند (Oracle of Delphi) پیشگویی که برای راهنمایی و پیش‌بینی آینده به او مراجعه می‌کردند.

در آمار، نخستین بار در دهه‌ی ۱۹۶۰ روشی به نام «روش دِلفی» معرفی شد. این روش شامل ارسال پرسش‌نامه‌هایی به جمعی از کارشناسان درباره‌ی یک رویداد خاص بود، و سپس با تحلیل پاسخ‌ها و شاخص‌های آماری، نتیجه‌ای منطقی درباره‌ی احتمال وقوع آن رویداد ارائه می‌شد.

اما مفهوم «اوراکل» به‌طور خاص توسط آماردان روسی، ولادیمیر کولتشینسکی، وارد ادبیات آماری شد. او نامساوی اوراکل را تعریف کرد که بیان می‌کند اگر مجموعه‌ای از برآوردگرها داشته باشیم و یکی از آن‌ها حقیقت مدل را دقیقاً بیان کند (اما ما از آن بی‌اطلاع باشیم)، می‌توان با نامساوی زیر ارتباطی بین برآوردگر خودمان و برآوردگر اوراکل برقرار کرد:

Risk(f, R) = Risk(f*, R) + Penalty

در این‌جا f* همان برآوردگر اوراکل است، f برآوردگر ما، R ریسک خطای مدل است و Penalty تِرم جریمه‌ای که ما به مدل اضافه می‌کنیم. واضح است که از f* چیزی نمی‌ٔدانیم ولی می‌توانیم در مورد Penalty صحبت کنیم که بعد‌تر
تبدیل می‌شود به یک تابع تجمیعی از پیچیدگی مدل و خطا، با کمینه کردن Penalty می‌توانیم ادعا کنیم که
برآوردگر ما عملکردی نزدیک به برآوردگر اوراکل دارد. بعد‌ها ترور هستی و تیبشیرانی از همین ایده برای تبیین تِرم جریمه در مدل لاسو استفاده کرده‌اند.

برای درک نامساوی اوراکل شاید این لینک مناسب باشد:
https://stats.stackexchange.com/questions/340312/oracle-inequality-in-basic-terms


جالب است که بدانید زبان برنامه‌نویسی Delphi که یک محیط توسعه سریع برای برنامه‌های دسکتاپ (ویندوز) ایجاد کرد، با الهام از پیشگوی دِلفی نام‌گذاری شده است (Oracle of Delphi).
👏2👍1
NobelPrize_Stats9.pdf
448.4 KB
نقشه برداری علمی و فرهنگی جهان

نگاهی به ۱۲۴ سال جایزه نوبل
۱۹۰۱-۲۰۲۵
👏1👌1
ULTRA
Photo
اِسپایک اَند اِسلب (Spike-and-Slab Prior) چیست و چرا در انتخاب متغیر مهم است؟

در بسیاری از مسائل رگرسیونی، با تعداد زیادی متغیر توضیحی مواجه هستیم؛

اما واقعیت این است که فقط بخشی از آن‌ها واقعاً بر پاسخ اثر دارند.

اگر همه متغیرها را وارد مدل کنیم:

* تفسیر دشوار می‌شود
* خطر بیش‌برازش افزایش می‌یابد
* و نتیجه ناپایدار خواهد بود

روش‌های کلاسیک مانند آزمون فرض یا Lasso معمولاً یک تصمیم «سخت» می‌گیرند:
یا متغیر در مدل هست یا نیست. اما عدم‌قطعیت این تصمیم به‌صورت صریح گزارش نمی‌شود.

ایده‌ی اصلی Spike-and-Slab دقیقاً از همین‌جا شکل می‌گیرد.

در این رویکرد بیزی، «حضور یا عدم حضور یک متغیر» خود به‌عنوان یک متغیر تصادفی مدل‌سازی می‌شود.

به‌جای آنکه از قبل مشخص کنیم کدام متغیر مهم است، این تصمیم به داده‌ها واگذار می‌شود.

برای هر متغیر، یک سازوکار روشن/خاموش در نظر گرفته می‌شود:

* اگر روشن باشد، متغیر اجازه دارد اثر واقعی بر پاسخ داشته باشد

* اگر خاموش باشد، اثر آن به سمت صفر فشرده می‌شود

نام Spike-and-Slab از شکل پیشین ضرایب می‌آید:

* Spike: توزیعی بسیار متمرکز حول صفر که نماینده عدم اثر است

* Slab: توزیعی پهن با واریانس بزرگ که امکان اثرگذاری واقعی را فراهم می‌کند

مزیت کلیدی این رویکرد آن است که انتخاب متغیر به‌صورت احتمالاتی و تدریجی انجام می‌شود، نه به‌صورت یک تصمیم قطعی.

در نتیجه، به‌جای آنکه صرفاً گفته شود یک متغیر در مدل حضور دارد یا خیر، می‌توان احتمال حضور آن در مدل را گزارش کرد.

نتیجه چنین رویکردی، مدلی محافظه‌کارانه‌تر، تفسیرپذیرتر و پایدارتر است.

Spike-and-Slab تنها زمانی اثر یک متغیر را می‌پذیرد که شواهد داده‌ای واقعاً قوی باشد.

برای مخاطب آشنا به مفاهیم آماری احتمالا این سؤال شکل می‌گیرد، pvalue هم دقیقا همین‌‌کار را می‌کند، ولی در جواب باید گفت، اصولا pvalue بر‌اساس یک آزمون فرض شکل می‌گیرد که خود متکی به فرضیات زیادی است و عدم تحقق آن، به معنای کم اعتباری pvalue است. و البته مسائلی از جمله هم‌خطی متغیرها هم به شدت روی مقدار pvalue اثر گذار هستند.

مفهوم عدم قطعیت یک مفهوم اساسی برای تببین احتمال است. ترکیب اسپایک اند اسلب با مدل‌های بیزی به خوبی می‌تواند این مفهوم را به روشنی در فرایند انتخاب متغیر، گزارش کند.
👍2👏2