221 subscribers
149 photos
14 videos
56 files
120 links
درباره کانال:
این کانال به منظور ایجاد مطالبی در حوزه آموزش یادگیری آماری، آموزش ابزارهای مورد نیاز در این حیطه و البته به اشتراک گذاری تجارب کار در این زمینه و کمی هم مطالب متفرقه ایجاد شده هست.

ارتباط با ادمین:
@stats9
Download Telegram
ULTRA
Photo
مدل LUNAR: گامی نو در پیش‌بینی بازگشت گلیوما با یادگیری عمیق چندمنبعی

در مقاله‌ای تازه منتشرشده در Nature Communications Medicine، پژوهشگران مدلی چندمنبعی با نام LUNAR معرفی کرده‌اند که با بهره‌گیری از داده‌های بالینی، جهش‌های ژنتیکی و بیان ژن‌ها، زمان بازگشت تومور مغزی گلیوما را با دقت بالا پیش‌بینی می‌کند.

دستاوردهای کلیدی:
- عملکرد قابل‌اتکا در دو پایگاه داده مستقل TCGA و GLASS با AUROC حدود 82 درصد
- تحلیل ویژگی‌های مؤثر با روش‌های قابل تفسیر
- طراحی معماری attention-based برای ترکیب داده‌های ناهمگون

روش‌های آماری و یادگیری ماشین به‌کاررفته:
- یادگیری عمیق با مکانیزم‌های توجه (Attention Mechanisms)
- تطبیق دامنه با تابع زیان CORAL Loss برای افزایش تعمیم‌پذیری
- انتخاب ویژگی با منظم‌سازی L1 Regularization
- تحلیل اهمیت ویژگی‌ها با SHAP و توجه مبتنی بر پرسش‌های یادگرفته‌شده (Learned Query Attention)
- مقایسه با مدل‌های کلاسیک مانند رگرسیون لجستیک، KNN، SVM و Xgboost.

[ مطالعه کامل مقاله ]

این پژوهش نمونه‌ای برجسته از تلفیق آمار زیستی، یادگیری ماشین و پزشکی شخصی در مسیر توسعه مدل‌های پیش‌بینی‌گر بالینی است.

واژه‌نامه:
- Attention Mechanisms: الگوریتم‌هایی که به مدل اجازه می‌دهند روی بخش‌های مهم داده تمرکز کند
- CORAL Loss: تابع زیان تطبیق هم‌پراکندگی؛ برای کاهش تفاوت آماری بین دو مجموعه داده
- L1 Regularization: روشی برای انتخاب ویژگی‌های مهم با صفر کردن ضرایب غیرضروری
- SHAP: روشی برای تحلیل سهم هر ویژگی در خروجی مدل
- Learned Query Attention: مکانیزمی برای تمرکز مدل روی اطلاعات کلیدی در داده‌های پیچیده

#معرفی_مقاله
👍1👏1
وقتی دولت با اعداد بازی می‌کند/ درآمد روزانه ۳۳۳ هزار تومان، یعنی دهک بالا و حذف یارانه!
[ لینک خبر ]

وقتی معیار حذف یارانه با آمار بازی می‌کند


وزارت رفاه اعلام کرده خانوارهایی که سرانه درآمد ماهانه بالای ۱۰ میلیون تومان بعد از کسر اجاره داشته باشند، جزو دهک‌های پردرآمد هستند و یارانه آن‌ها قطع می‌شود.

این معیار جدید با شرایطی که در سال ۱۴۰۳ از طریق منابع رسمی گزارش می‌شد، فرق دارد. طبق منابع در آن زمان، ملاک مجموع درآمد خانوار متناسب با تعداد اعضا بود. برای مثال برای یک خانوار چهار نفره، سقف درآمد حدود ۵۲ و نیم میلیون تومان تعیین شده بود.

تفاوت این دو روش باعث سردرگمی شده است. در روش جدید اگر خانواده‌ای در شهری با اجاره سنگین زندگی کند، با وجود درآمد بالا همچنان تحت فشار است اما یارانه‌اش حذف می‌شود. در حالی که خانواده‌ای با همان درآمد در شهری کوچک و بدون اجاره، شرایط بهتری دارد.

از نظر آماری، شاخص سرانه درآمد معیار دقیقی برای رفاه نیست. در سیاست‌گذاری درست باید به توزیع درآمد، نسبت هزینه مسکن به درآمد و خط فقر منطقه‌ای توجه شود.

جمع‌بندی این است که استفاده از معیارهای ساده و یک‌بعدی می‌تواند به حذف ناعادلانه یارانه منجر شود و اعتماد عمومی را کاهش دهد. سیاست‌های حمایتی نیازمند شفافیت و استفاده از شاخص‌های علمی و عادلانه هست.
👍1
امتیاز CiteScore یک شاخص مبتنی بر اسکوپوس برای سنجش تاثیر علمی مجلات است که به صورت سالانه منتشر می‌شود. این شاخص از تقسیم تعداد استنادهای دریافت‌شده به مدارک منتشرشده در یک بازه ۴ ساله به دست می‌آید. به طور مشخص:
- محاسبه: تعداد کل استنادهای دریافتی در سال‌های ۲۰۲۱ تا ۲۰۲۴ به مقالات، مرورها، مقالات کنفرانس، فصل‌های کتاب و مقالات داده‌ای منتشرشده در همان بازه (۲۰۲۱–۲۰۲۴) تقسیم بر تعداد کل این مدارک منتشرشده.
این شاخص به صورت سالانه به روز می‌شود و معیاری برای مقایسه مجلات در یک حوزه موضوعی فراهم می‌کند.
خلاصه‌ای از گزارش مجلات علوم پزشکی ایران در Scopus بر اساس CiteScore 2024
در این گزارش، ۲۰۶ مجله علوم پزشکی ایران نمایه‌شده در Scopus مورد بررسی قرار گرفته‌اند. امتیاز CiteScore، تغییرات نسبت به سال قبل، چارک مجله و درصد مقالات مورد استناد قرار گرفته از جمله معیارهای گزارش هستند.

ده مجله برتر بر اساس CiteScore 2024:

1. Asian Journal of Social Health and Behavior
ناشر: MedKnow
مقدار CiteScore در سال ۲۰۲۴: 9.7

2. Journal of Environmental Health Science and Engineering
ناشر: Springer
مقدار CiteScore در سال ۲۰۲۴: 8.2

3. International Journal of Health Policy and Management
ناشر: دانشگاه علوم پزشکی کرمان
مقدار CiteScore در سال ۲۰۲۴: 7.1
4. Advanced Pharmaceutical Bulletin
ناشر: دانشگاه علوم پزشکی تبریز
مقدار CiteScore در سال ۲۰۲۴: 6.4
5. Health Promotion Perspectives
ناشر: دانشگاه علوم پزشکی تبریز
مقدار CiteScore در سال ۲۰۲۴: 6.1
6. BioImpacts
ناشر: دانشگاه علوم پزشکی تبریز
مقدار CiteScore در سال ۲۰۲۴: 4.7
7. DARU: Journal of Pharmaceutical Sciences
ناشر: Springer –
مقدار CiteScore در سال ۲۰۲۴: 4.2
8. Iranian Journal of Basic Medical Sciences
ناشر: دانشگاه علوم پزشکی مشهد
مقدار CiteScore در سال ۲۰۲۴: 4.2
9. Avicenna Journal of Phytomedicine
ناشر: دانشگاه علوم پزشکی مشهد
مقدار CiteScore در سال ۲۰۲۴: 4.1
10. Research in Pharmaceutical Sciences
ناشر: دانشگاه علوم پزشکی اصفهان
مقدار CiteScore در سال ۲۰۲۴: 3.9

وضعیت مجلات انتشارات دانشگاه علوم پزشکی شیراز:
رتبه ۱۵: Journal of Advances in Medical Education and Professionalism
امتیاز CiteScore: 3.6
رتبه ۲۱: International Journal of Community Based Nursing and Midwifery
امتیاز CiteScore: 3.3
رتبه ۲۵: Journal of Biomedical Physics and Engineering
امتیاز CiteScore: 3
رتبه ۵۳:‌ Iranian Journal of Immunology
امتیاز CiteScore: 2.2
رتبه ۸۳: International Journal of School Health
امتیاز CiteScore: 1.4
رتبه ۸۵: International Journal of Nutrition Sciences
امتیاز CiteScore: 1.4
رتبه ۸۹: Journal of Dentistry, Shiraz University of Medical Science
امتیاز CiteScore: 1.4
رتبه ۱۲۲: Journal of Health Sciences and Surveillance System
امتیاز CiteScore: 0.9
رتبه ۱۵۰: International Journal of Organ Transplantation Medicine
امتیاز CiteScore: 0.7
رتبه ۱۶۲: Journal of Rehabilitation Sciences and Research
امتیاز CiteScore: 0.6
رتبه ۱۸۰: International Cardiovasculaire
امتیاز CiteScore: 0.4
رتبه ۲۰۵: Sadra Medical Sciences Journal
امتیاز CiteScore: 0.1
این مجلات در حوزه‌های مختلف پزشکی فعال هستند و نقش موثری در تولید علم کشور ایفا می‌کنند.
1👏1
RSF_Stats9.pdf
68.6 KB
جنگل تصادفی بقا (RSF)

مدل Random Survival Forest روشی قدرتمند و غیرپارامتری برای تحلیل داده‌های بقا با سانسور است که با گسترش ایده جنگل تصادفی، امکان پیش‌بینی زمان وقوع رویداد و شناسایی عوامل مهم را بدون نیاز به فرض‌های محدودکننده فراهم می‌کند.

در این سند، مراحل اصلی الگوریتم، مزایا، چالش‌ها و تفاوت پیاده‌سازی آن در R و Python مرور شده است.
اگر به تحلیل بقا، یادگیری ماشین و کاربردهای عملی آن در داده‌های واقعی علاقه‌مندید، این فایل می‌تواند نقطه شروعی دقیق و کاربردی برای شما باشد.

[ لینک پیاده‌سازی و کدها ]
1👍1
Suicide_Stats9.pdf
141.7 KB
چرا خودکشی به لحاظ آماری باید برای یک کشور اهمیت داشته باشد؟



در این سند مروری بر آخرین آمار ارائه شده خودکشی در ایران خواهیم داشت و اشاره‌ای کوتاه به این موضوع که اصولا چرا آمار خودکشی باید اهمیت داشته باشد، خواهیم کرد.
👍1👏1
positron_stats9.pdf
71.7 KB
معرفی Positron: محیط توسعه یکپارچه علوم داده از Posit

حدود ۱۴ سال از انتشار اولین نسخه #Rstudio و ۲ سال از تغییر نام شرکت RStudio به #Posit می‌گذرد. Posit مدت‌ها پیش نسخه‌ای سفارشی‌شده از #IDE محبوب #vscode را با نام #Positron برای تحلیل‌گران داده معرفی کرد. این ابزار با پشتیبانی یکپارچه از زبان‌های #R و #Python، مجموعه‌ای متنوع از ابزارها را برای بهبود جریان کاری علوم داده ارائه می‌دهد.

ادیتور Positron که تا پیش از این در مرحله بتا بود، اکنون در کنفرانس اخیر Posit به‌صورت نسخه نهایی و رایگان برای عموم منتشر شده است. این IDE با ویژگی‌هایی مانند اجرای خط‌به‌خط کد، پنل‌های تخصصی برای تجسم داده و ادغام هوش مصنوعی، تجربه‌ای کارآمد و مدرن را برای کاربران فراهم می‌کند.

برای دانلود و تجربه Positron، از لینک زیر بازدید کنید:

https://positron.posit.co/
👏31
ChatGptUsers_stats9.pdf
534.3 KB
بر اساس نخستین گزارش رسمی OpenAI درباره‌ی الگوهای استفاده ازChatGPT

این فایل شامل چند نمودار آماری منتخب از مطالعه‌ای است که با همکاری تیم تحقیقاتی OpenAI و دانشگاه هاروارد انجام شده است. داده‌ها حاصل تحلیل بیش از ۲/۶ میلیارد پیام روزانه از ۷۰۰ میلیون کاربر فعال در بازه‌ی ژوئن ۲۰۲۴ تا ژوئن ۲۰۲۵ هستند. برخی یافته‌های قابل توجه عبارت‌اند از:

- ۷۲/۲ درصد از پیام‌ها ماهیت غیرکاری داشته‌اند، در حالی که این نسبت در سال قبل ۵۳ درصد بوده است.

- ۴۶ درصد از کاربران در بازه‌ی سنی ۱۸ تا ۲۵ سال قرار دارند.

- استفاده از ChatGPT برای کمک در نگارش، ۲۸ درصد از کل مکالمات را شامل می‌شود و در میان کاربران شاغل در حوزه‌ی مدیریت، این نسبت به ۵۲ درصد می‌رسد.

- سهم مکالمات مرتبط با جستجوی اطلاعات از ۱۴ درصد در ژوئن ۲۰۲۴ به ۲۴/۴ درصد در ژوئن ۲۰۲۵ افزایش یافته است.

- استفاده از مدل‌های GPT برای تصمیم‌گیری و حل مسئله در محیط‌های کاری، ۱۴/۹ درصد از مکالمات کاری را تشکیل داده است.
👍1🔥1
👌1
ULTRA
Photo
وقتی #مدل‌های_آمیخته، منطق #بالینی را با عدد روایت می‌کنند

در #مطالعات_بالینی با #اندازه‌گیری‌های_مکرر، مثل بررسی فشار داخلی چشم (IOP) در بیماران تحت جراحی، استفاده از مدل‌های آمیخته خطی (LMM)‌ به ما اجازه می‌ده نا هم تغییرات درون‌فردی رو لحاظ کنیم، هم‌ روند‌های بین‌گروهی رو با دقت آماری بررسی کنیم.

در قسمتی از یک تحلیل که جدول آن در بالا آمده است، داده‌های دو گروه (درمان و کنترل) از زمان قبل از جراحی (Pre-op) تا ماه بیست و چهارم بعد از جراحی، مدل‌سازی شدن. هدف این بود که ببینیم آیا نوع جراحی تأثیر متفاوتی در کاهش فشار چشمی داشته یا نه.

(Intercept):
اشاره به میانگین پیش‌بینی شده فشار چشمی بیماران در گروه مرجع (درمان) در زمان صفر (Pre-op) دارد. باید این نکته اشاره شود که این مقدار برازش داده شده مدل است، نه مقدار ثبت شده در داده‌ها! معناداری آن اشاره به این دارد که میانگین فشار چشمی در گروه مرجع، قبل از جراحی، با صفر به لحاظ آماری اختلاف معناداری دارد و البته با توجه به این‌که به لحاظ بالینی اصولا فشار چشمی صفر هم تعریف نمی‌شود، یک امر بدیهی است.

GROUP-CONTROL = -2.3:
گروه کنترل در زمان صفر حدود ۲/۳ واحد فشار کمتر از گروه درمانی داشته، این تفاوت پایه در تحلیل با توجه به این‌که pمقدار ثبت شده برای آن در حدود سه‌صدم است، می‌تواند در سطح پنج‌صدم، به لحاظ آماری معنادار باشد. یعنی قبل از جراحی گروه کنترل به طور متوسط فشار چشم کمتری از گروه درمان داشته است.

Time = -1.67:
فشار چشم به‌طور متوسط، در گروه درمان به ازای هر مرحله زمانی، حدود ۱/۶۷ واحد کاهش یافته، این روند کاهش بسیار معنی‌دار و به لحاظ بالینی قابل توجه است با توجه به pمقدار ثبت شده آن که در حدود صفر است.

GROUP-CONTROL:Time = +1.21
ولی نکته جذاب بالینی در این‌جا این ضریب است که به ما نشان‌ می‌دهد، نوع جراحی اعمال شده برای گروه مرجع، مؤثرتر بوده است در کاهش فشار داخلی چشم بیماران. این اثر تعاملی بین گروه و زمان که در این‌جا سطح مرجع گروه درمان است، نشان می‌دهد روند کاهش فشار در گروه کنترل حدود ۱/۲۱ واحد کمتر از گروه درمانی بوده. این یعنی نوع جراحی در گروه درمانی تأثیر بیشتری در کاهش فشار چشم داشته است.

مدل‌های آمیخته می‌توانند از روش‌های کلاسیک‌تر مثل Repeated Measure Anova، در باز‌نمایی بدیهیات بالینی، با ساختارهای آماری خیلی بهتر عمل کنند. مثل انتظار کاهش فشار چشم بعد از جراحی.

در این‌جا مدل نه‌تنها کاهش فشار رو در طول زمان تأیید کرده، بلکه تفاوت روند بین دو گروه را هم به صورت عددی و معنی‌دار نشان داده است.
👏2👍1
ULTRA
Photo
مدل APW: ترکیبی از یادگیری در سطح جزء و کل

اختصار APW که از عبارت کامل Aggregated Probability Weighted گرفته شده و به معنای «مدل تجمیع شده وزنی بر پایه احتمال» می‌باشد، یک مدل مرکب برای پیش‌بینی چه از نوع کیفی و چه از نوع کمی است.
در بسیاری از مسائل یادگیری ماشین، داده‌ها به‌صورت «کیسه‌ای از نمونه‌ها گردآوری می‌شوند.
برای مثال، ممکن است هر «بیمار» (به‌عنوان یک کیسه) شامل مجموعه‌ای از «اندازه‌گیری‌های سلولی» (به‌عنوان نمونه‌ها) باشد و پاسخ نهایی تنها در سطح بیمار مشخص باشد، نه برای هر سلول.
در چنین شرایطی، مدل‌های سنتی رگرسیونی قادر به تشخیص نقش هر نمونه در پاسخ کل نیستند.
مدل APW برای حل همین مسئله طراحی شده است.


ایدهٔ اصلی مدل


مدل APW دو گام کلیدی دارد:
۱-‌ در گام نخست، با استفاده از یک مدل رگرسیون لجستیک، احتمال «اهمیت» یا «مشارکت واقعی» هر نمونه در پاسخ نهایی برآورد می‌شود (البته اخیرا از روش‌های دیگه‌ای برای وزن‌دهی به نمونه‌ها در یادگیری‌های چند نمونه‌ای استفاده می‌شود، مانند مقاله یادگیری چند نمونه‌ای عمیق بر پایه توجه که از ایده APW برای پیاده‌‌سازی یک مدل یادگیری چند‌نمونه‌ای و البته استفاده از شبکه‌های عصبی برای وزن‌دهی به نمونه‌ها بهره برده‌ است)*.

۲-‌ سپس، ویژگی‌های هر کیسه با میانگین‌گیری وزنی (بر اساس همان احتمال‌ها) تجمیع شده و وارد یک مدل رگرسیونی در سطح کل (مثلاً یک مدل خطی ساده) می‌شود.

به این ترتیب، APW ارتباط بین ساختار درونی نمونه‌ها و پاسخ نهایی را به‌طور انعطاف‌پذیر مدل می‌کند.


* Ilse, Maximilian; Tomczak, Jakub M.; Welling, Max. Attention-based Deep Multiple Instance Learning. Proceedings of the 35th International Conference on Machine Learning (ICML 2018), PMLR 80: 2127–2136
👍2👏1
ULTRA
Photo
اطلاع‌رسانی رسمی ششمین همایش ملی ریاضی و آمار

دانشگاه گنبد کاووس در بهمن‌ماه ۱۴۰۴ میزبان ششمین دوره همایش ملی ریاضی و آمار خواهد بود. این رویداد با تأییدیه رسمی ISC و حمایت علمی گروه‌های تخصصی، فرصتی ارزشمند برای ارائه دستاوردهای پژوهشی در حوزه‌های ریاضی محض، ریاضی کاربردی، آمار کلاسیک و بیزی، آموزش ریاضی و تحلیل داده‌ها فراهم می‌کند.

ارسال مقاله به‌صورت کامل یا خلاصه یک‌صفحه‌ای امکان‌پذیر است. همچنین کمیته اجرایی امکان صدور گواهی علمی پیش از برگزاری همایش را برای شرکت‌کنندگان فراهم کرده است.

مقالات منتخب در Scopus چاپ می‌شود.

اطلاعات تکمیلی، محورهای همایش، و نحوه ثبت‌نام از طریق وب‌سایت رسمی همایش در دسترس است:
www.conf.gonbad.ac.ir/msc1404
👍1👏1
StatisticsDay_Stats9.pdf
1.6 MB
به مناسبت اول آبان و روز آمار!
5👏2
🔥2
پایان پشتیبانی آناکوندا از R

برای من آشنایی با پایتون حتی قبل از R اتفاق افتاد.
اوایل فقط از Pycharm استفاده می‌کردم.
در دانشگاه با R آشنا شدم.
به زعم خیلی‌ها R یک پلتفرم بیشتر دانشگاهی است تا صنعتی.
ولی به تجربه من کار با tidy data و پیاده‌سازی مدل‌های تخصصی آماری در R صرفا روان‌تر نیست، بلکه فرسنگ‌ها با پایتون فاصله دارد.

اولین بار که آناکوندا نصب کردم تونستم ژوپیتر رو داشته باشم و حتی فکر می‌کردم ژوپیتر یک ابزار انحصاری از آناکوندا است و البته اسپایدرِ جذاب که با اون لب‌تاپ قدیمی شاید چند دقیقه حتی طول می‌کشید که یک محیط آماده به کار در اختیارم بذاره. نصب آناکوندا و اضافه شدن این همه ابزار برام جذاب بود. ولی وقتی محدودیت داشته باشی مجبوری صرفه‌جویی کنی یا شاید به بیانی بهتر انتخاب کنی، به قول معلم دانش‌اجتماعی دبیرستانم که خدایش بیامرزد، اقتصاد علم انتخاب است. محدودیت سرعت من رو خیلی بیشتر به سمت R متمایل کرد. یک Gui ساده و البته کارراه‌ بنداز برای مدل‌سازی و انجام محاسبات.

ولی این ابزار خاص (R) داره بین برندهای مهم در تحلیل داده، هر روز از محبوبیتش کاسته میشه. شاید بعضی ندونن، کمپانی معظمی مثل مایکروسافت حتی قبل‌تر از این‌که بسمت پایتون بره و خالق این زبان رو به استخدام خودش در بیاره، یک ورژن اختصاصی از R رو منتشر می‌کرد و حتی یک مخزن اختصاصی هم براش داشت به اسم MRAN و بعد‌تر که کلا عطای این زبان رو به لقایش بخشید و حتی پایتون رو (با الهام از استاد بهبودیان در تعریف متغیر تصادفی که می‌گوید تابعی تصادفی که با اصطلاحی نارسا همه جا متغیر تصادفی شهرت یافته است) علی‌رغم اینکه R خیلی مناسب‌تر بود (به‌ باور من)، با اکسل ادغام کرد.

آناکوندا که از سال ۲۰۱۴ به صورت ویژه R رو وارد ادبیات خودش کرد، به تازگی اعلام کرده که از یک هفته پیش چهارم نوامبر پشتیبانی از این ابزار رو خاتمه میده. و Rstudio سابق یا Posit الان که به صورت اختصاصی برای R کار می‌کرد، داره هر روز ابزارهای بیشتری رو برای پایتون ارائه می‌ده و تا اونجا که اصولا تغییر نامش هم گامی در همین مسیر بود (به باور من).

برای من R صرفا یک ابزار نیست، یک نوستالژی هم حتی نیست. به منزله همراهی است در زمانی که دیگران به دلیل نقص‌هایت تنهایت گذاشته‌اند. همراه با اشاره به این واقعیت دردناک که این چند خط هم می‌تونه یک جور برخورد سانتی‌مانتال در مواجهه با واقعیت تکنولوژی (یا شاید واقعیت مدرنیسم) باشه.
👍3👏3
👍1
ULTRA
Photo
دومین کنفرانس بین‌المللی دوسالانه پیشرفت‌ها در هوش مصنوعی و علوم داده (IBCAIDS 2026) فرصتی ارزشمند برای پژوهشگران و صنعت‌گران این حوزه فراهم کرده است.
این کنفرانس مقالاتی را در محورهای متنوع دریافت می‌کند، از جمله:

• هوش مصنوعی نمادین و استدلال خودکار
• یادگیری ماشین و نوآوری‌های نظری
• هوش مصنوعی عصبی-نمادین و محاسبات نرم
• تحلیل کلان‌داده و داده‌کاوی
• ریاضیات و مبانی آماری در هوش مصنوعی
• پردازش سیگنال چندرسانه‌ای (تصویر، ویدئو، متن، گفتار)
• هوش مصنوعی قابل توضیح (XAI) و سامانه‌های قابل اعتماد
• کاربردهای هوش مصنوعی در پزشکی، شهرهای هوشمند، امنیت سایبری، صنایع نفت و گاز، آموزش، محیط‌زیست، مالی و کشاورزی

تاریخ‌های مهم:

• آخرین مهلت ارسال مقاله: ۳۰ آذر ۱۴۰۴
• اعلام نتایج داوری: ۱۰ دی ۱۴۰۴
• آخرین مهلت ثبت‌نام: ۱۵ دی ۱۴۰۴
• زمان برگزاری کنفرانس: ۷ و ۸ بهمن ۱۴۰۴

ویژگی مهم: مقالات برتر این کنفرانس در ژورنال معتبر JCSE منتشر خواهند شد و همچنین در پایگاه‌های استنادی بین‌المللی نمایه می‌شوند.

زبان‌های قابل پذیرش: فارسی و انگلیسی.
برای اطلاعات بیشتر و ثبت‌نام، به وب‌سایت رسمی کنفرانس مراجعه کنید:
https://ibcaids2026.pgu.ac.ir
🔥1👏1
مدل‌های زبانی چیزی را می‌بینند که انتظار دیدنش را دارند!

اخیرا پژوهشی در تیم تحلیل داده کمپانی Posit صورت گرفته که می‌تواند اهمیت زیادی داشته باشد.
وقتی یک نمودار را به یک LLM می‌دهید و انتظار دارین، مدل زبانی این نمودار را برای شما تحلیل کند؛ مدل زبانی چیزی را در نمودار می‌بینید که انتظار دارد ببیند. و این برای همه مدل‌های زبانی تقریبا صدق می‌‌کند از ChatGpt و کوپایلوت گرفته تا Gemini و کلاود که LLM کمپانی آنتروپیک است، برای مثال می‌توانید نموداری که در پایین ضمیمه شده است را به هر کدام از این LLMها بدهید که از دیتاست پایه و معروف در R گرفته شده است، یعنی داده‌های mtcars، محور عمودی mpg که اشاره دارد به مقدار مایل پیموده شده با یک گالن سوخت و محور افقی که اشاره دارد به میزان قدرت موتور بر‌حسب اسب بخار، که خروجی کد زیر است:

library(tidyverse)
ggplot(mtcars, aes(x = hp, y = mpg)) +
geom_point()

نمودار دارد رابطه عجیبی را نشان می‌دهد، چون انتظار بر این است که وقتی توان موتور افزایش پیدا می‌کند، میزان مصرف سوخت هم افزایش پیدا کند، ولی این نمودار دقیقا عکس این را می‌گوید، نمودار نشان میدهد میزان مسافت (به مایل) پیمایش شده توسط خودرو با افزایش توان، با مصرف یک گالن سوخت، نیز افزایش پیدا میکند، یا به بیانی ساده‌تر، با افزایش توان، میزان مصرف سوخت هم کاهش پیدا می‌کند.

تعجب نکنید، قبل از ترسیم نمودار یک تغییر در داده‌ها ایجاد شده است!

mtcars$hp <- max(mtcars$hp) - mtcars$hp

تغییری که باعث معکوس شدن این رابطه شده است. ولی LLM بر‌اساس انتظاری که از دیدن این متغیرها دارد، تفسیرش را ارائه می‌دهد، انتظارش این است که رابطه بین مسافت پیموده شده با یک گالن سوخت (mpg) و توان موتور، منفی و نمودار پراکنش یک روند نزولی را نشان دهد و دقیقا همین را هم در تفسیر این نمودار (اگر آن را برای تحلیل به LLM بدهید) می‌گوید. در حقیقت LLM چیزی را می‌بیند که انتظار دیدنش را دارد. پس در سپردن نمودارها برای تحلیل به LLMها باید خیلی مراقب بود!
👍2🔥1