Tensorflow(@CVision)
13.9K subscribers
1.17K photos
239 videos
68 files
2.23K links
اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت دوره
http://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support
Download Telegram
Tensorflow(@CVision)
سوال اینجاست که چرا OpenAI به قسمت موتور های جستجو ورود کرده ؟ شاید بهتر باشه آخرین صورتهای مالی گوگل رو بررسی کنیم در تاریخ ۲۴ جولای، شرکت مادر گوگل یعنی آلفابت گزارش مالی سه ماهه دوم سال ۲۰۲۴ خود را منتشر کرد. بخش اعظم درآمد گوگل از موتور جستجو هست. در…
چند ماه پیش به صورت های مالی گوگل در سه ماهه سوم نگاه کردیم و به درآمد وسیع گوگل از محل موتور جستجو اشاره شد و چت جی پی تی که خودش رو برای ورود به این حوزه آماده می‌کنه، اما به نظرتون آیا مدل های زبانی هم راه موتور های جستجو در راستای ساختار منفعت طلبانه خودشون خواهند پیمود؟

موتورهای جستجو، به دلیل ساختارهای انگیزشی نادرست و منفعت‌ طلبانه، به جای حقیقت‌ جویی به سمت تبلیغات و منافع تجاری گرایش یافتن. به عبارت دیگه، حقیقت در این فضا ابزاری شده برای اهداف تجاری و نه الزاما برای دانایی و آگاهی.

پارادایم حاکم بر موتورهای جستجو هیچ وقت معرفت‌گرا (epistemic) نبودن، بلکه اقتصادی و سود محورن. عبور از این وضعیت نیاز به ساختار جدیدی داره که به جای نمایش داده‌های دستکاری‌شده، به‌طور مستقیم دسترسی به حقیقت رو امکان‌ پذیر کنه، چیزی که نیازمند تغییری بنیادین در نحوه مصرف و ارزش‌گذاری دانش در جامعه ست.

از منظر فلسفی ما با دوگانه کانتی «دانش به‌ مثابه هدف» و «دانش به‌ مثابه وسیله» روبرو هستیم که به نظر مدل های زبانی در قالب موتور های جستجو اون رو حل نخواهند کرد، نیاز به مدل هایی داریم که دانش رو فی‌ نفسه ارزشمند بدونن، نه ابزاری برای سود!
This media is not supported in your browser
VIEW IN TELEGRAM
یه پروژه جالب متن باز برای کاوش کردن در افکار درونی مدل های زبانی هنگام چت کردن

در حال حاضر این پروژه شامل دانلود و مدیریت مدل‌ های زبانی از Huggingface هست که می‌تونید باهاشون چت کنید یا متن تولید کنید. 

همچنین اطلاعاتی از کلمات جایگزینی که مدل زبانی می‌تونسته انتخاب کنه و احتمال هر کدوم رو هم نشون میده. 

یه اسلایدر هم داره که میتونه حداقل احتمال کلماتی که نمایش داده می‌شن رو تنظیم کنید و یه حالت نمایش Heatmap هم داره که میشه باهاش میزان اطمینان مدل زبانی نسبت به هر کلمه (تعداد کلمات جایگزین) رو ببینید، که اینطوری پیدا کردن مسیرهای جایگزین برای بررسی آسون تر می‌ شه.

 تمام مسیرهای بررسی‌ شده هم ذخیره شده، و میتونید  آزادانه بینشون جا به‌ جا شید.

https://github.com/TC-Zheng/ActuosusAI
هر چند مدل‌های زبانی در تولید متن عملکرد فوق‌ العاده‌ای دارن ولی ممکنه رفتارهای ناخواسته‌ای هم یاد بگیرن، چون داده‌های آموزشی اونها شامل محتواهای متنوع و بعضا حساسه، مثل مطالب دارای حق کپی‌ رایت یا اطلاعات شخصی. 

برای حل این مشکل روشی بنام یادگیری‌ زدایی ماشینی یا Machine unlearning معرفی شد، که یه حوزه جدید در هوش مصنوعیه که به چالش فراموش کردن یا کاهش دانسته‌ ها و رفتارهای نامطلوب در مدل‌های یادگیری ماشینی، به‌ویژه در مدل‌های زبانی می‌پردازه، بدون این‌که نیاز به آموزش مجدد (که بسیار پر هزینه و زمان‌بره) باشه. 

این روش سعی می‌ کنه تا بخش خاصی از اطلاعات یاد گرفته شده را از مدل حذف کنه ولی در عین حال عملکرد کلی مدل رو حفظ کنه.مثل این مقاله :

https://arxiv.org/abs/2405.15152

اما مسیله‌ای که به اون توجه زیادی نشده اینه که آیا واقعا این روش‌های یادگیری‌ زدایی میتونن باعث «فراموشی» کامل اطلاعات مشکل‌ ساز بشن، یا فقط اونها رو موقتا پنهان می‌کنن.

 آزمایش‌ هایی که تاکنون برای ارزیابی این روش‌ ها استفاده میشدن، این مسئله رو به خوبی تشخیص نمی دان.

 این مقاله نشون میده که وقتی از کوانتیزه‌ کردن (quantization)، یعنی فشرده‌سازی و کاهش دقت عددی مدل، روی مدل‌ های یادگیری‌ زدایی شده استفاده می‌کنیم، اطلاعاتی که باید فراموش میشدن دوباره ظاهر میشن.

برای بررسی دقیق‌تر این موضوع، نویسندگان مقاله چندین آزمایش با استفاده از روش‌های مختلف کوانتیزه‌ کردن و در سطوح دقت عددی مختلف انجام دادن.

 نتایج نشون میده که مدل‌ هایی که فرآیند یادگیری‌ زدایی روشون اعمال شده، با اعمال کوانتیزاسیون، تا ۸۳ درصد از اطلاعات فراموش شده رو بازیابی میکنه.

در واقع مقاله نشون میده که فرآیند های یادگیری‌ زدایی کنونی بیشتر به پنهان کردن اطلاعات می‌پردازن تا به فراموشی کامل اونها.

https://arxiv.org/abs/2410.16454
به نظرتون چه اتفاقی می افته اگه از یه مدل‌ زبانی  بخوام که یک فرد با مشخصاتی مثل نام، سن، شغل و یک روز فعالیت 24 ساعته رو 90 بار تصور کنه؟

این دقیقا کاریه که از چند تا مدل زبانی مختلف خواستم انجام بدن و بعد خروجی ها رو به Json تبدیل کنه و در نهایت توزیع فراوانی اسم ها، شغل ها و فعالیت ها رو به صورت نوار زمانی 24 ساعته در قالب کد HTML جهت بررسی بیشتر برام بسازه.

خروجی به این شکله که مدل های زبانی یا روی جنسیت تعصب دارند، یا توزیع سنی ( به عنوان مثال هیچ کدومشون فردی بالای 38 سال رو مثال نزدن)، یا روی شغل ها ( شغل های پر تکرار همیشه همینا بودن). این موارد نقص‌های موجود در داده‌های آموزشی رو نشون میدن.

 یک‌ سوم نیروی کار را به‌عنوان تحلیلگر داده تصور می‌ کنه یا مدل های دیگه بیشتر روی طرح گرافیک، مدیر پروژه تمرکز میکنن.

برای نام های پرتکرار هم قابل توجهه. یا با این تصور که همشون شغل فول تایمی دارند بازه زمانی کاری رو از 9 تا 17 میگیره.
Tensorflow(@CVision)
Photo
به عنوان مثال مشخصات تولید شده یکی از اشخاص که به فرمت بالاست

در مورد مدل های زبانی متن باز وضعیت اسفناک تره:


https://jhancock532.github.io/imaginary-people/
This media is not supported in your browser
VIEW IN TELEGRAM
💡 اگه به برنامه‌نویسی علاقه داری و میشه روی همت و پشت‌کارت حساب کرد،
در استعدادسنجی ما شرکت کن و استعدادت رو برای ورود به دنیای برنامه‌نویسی محک بزن!


 ✔️ توضیحات بیشتر = تماشای ویدئو 😎

☯️ شرکت در آزمون و دورۀ آماده‌سازی رایگان ➡️

و یا برای کسب اطلاعات بیشتر کافیه به آی‌دی ما پیام بدی! ‌‌‌‌

🆔 @MaktabSharif_Admin
▪️▫️▪️▫️▪️▫️▪️▫️▪️▫️
🌐 وبسایت | کانال تلگرام |📹 اینستاگرام

#استخدام_با_طعم_آموزش
Please open Telegram to view this post
VIEW IN TELEGRAM
به نظرتون آیا مدل های زبانی بزرگ یا LLMs ها میتونن منجر به تولید هوش مصنوعی عمومی یا AGI بشن؟

بیایم امشب در موردش بحث کنیم

برای رسیدن به AGI ما نیاز به مدلی داریم که بتونه به ‌طور پیوسته یاد بگیره، بهبود پیدا کنه و از زبان به‌ عنوان ابزاری برای استدلال استفاده کنه.

در یه عامل هوشمند مثل ما آدما یادگیری زبان فقط باعث تقویت استدلال میشه یعنی قبل از یادگیری زبان، قدرت استدلال و شناخت وجود داره اما در مدل های زبانی این یادگیری زبانه که منجر به ایجاد استدلال در مدل میشه.

اما چرا این می‌تونه به AGI نزدیک‌ تر باشه تا مدل های زبانی کنونی؟

بیاین دلیلش رو توی نقاط ضعف مدل‌های LLM جستجو کنیم.

مدل‌ های LLM در یادگیری واقعی ضعیفن، چون برای تسلط به یه مهارت یا موضوع خاص باید میلیون‌ها مثال از متن رو به عنوان ورودی دریافت کنن و براحتی از چند مثال یاد نمیگیرن.

این مشکل در معیارهایی مثل ARC-AGI کاملا مشخصه

https://arcprize.org/

ادامه دارد...
Tensorflow(@CVision)
به نظرتون آیا مدل های زبانی بزرگ یا LLMs ها میتونن منجر به تولید هوش مصنوعی عمومی یا AGI بشن؟ بیایم امشب در موردش بحث کنیم برای رسیدن به AGI ما نیاز به مدلی داریم که بتونه به ‌طور پیوسته یاد بگیره، بهبود پیدا کنه و از زبان به‌ عنوان ابزاری برای استدلال…
این مدل ها تو حل مشکلات جدید ضعیف هستن چون فرایند حل مسئله رو درک نمی‌کنن. 

این مدل ‌ها در واقع فاقد عادت‌های ذهنی و روتین ‌هایی هستن که ما برای حل مسائل استفاده میکنیم، منظورم روتین ‌هایی مثل شناخت مشکل، یادگیری از اشتباهات، و بهینه ‌سازی استراتژی ‌ها برای مواجهه با مشکلات جدید هست. 

در واقع مدل های زبانی فقط داده‌ها رو پردازش میکنن و فاقد درک واقعی از چگونگی حل مسائل به صورت پویا و بهینه هستن.

بیاین کمی به عقب برگردیم و دو تا مقاله مهمی که در باره فلسفه هوش مصنوعی نوشته شدن رو مرور کنیم، سال 1987 و سال 2007:

https://citeseerx.ist.psu.edu/document?repid=rep1&type=pdf&doi=cb53a49a1187650196cf10835a0193ae0201a75f

https://leidlmair.at/doc/WhyHeideggerianAIFailed.pdf

این دو تا مقاله تاکید داردن برای حل مسایل پیچیده AI باید توانایی درک مفاهیم پیچیده و محیطی مشابه انسان را داشته باشه. این مدل‌ ها نه تنها باید داده‌ ها رو پردازش کنن، بلکه باید به طور فعال و پویا با محیط خود تعامل داشته باشن و یاد بگیرن

ادامه دارد ...
Tensorflow(@CVision)
این مدل ها تو حل مشکلات جدید ضعیف هستن چون فرایند حل مسئله رو درک نمی‌کنن.  این مدل ‌ها در واقع فاقد عادت‌های ذهنی و روتین ‌هایی هستن که ما برای حل مسائل استفاده میکنیم، منظورم روتین ‌هایی مثل شناخت مشکل، یادگیری از اشتباهات، و بهینه ‌سازی استراتژی ‌ها برای…
این مقاله ها چند تا نکته اساسی دارن:

اول اینکه ماهیت جهان زمانی هست. جهان به ‌طور پیوسته تغییر میکنه و تعامل مداوم انسانها با اون برای عملکرد هوش انسانی ضروریه.

این تعاملات مداوم و زما‌ن مند به انسانها این امکان رو می‌ده که به طور موثری به محیط خود واکنش نشون بدن و یاد بگیرن.

دوم اینکه انسانها به طور مداوم از روتین‌های ذهنی برای انجام کارها و فعالیت‌ های روزمره خوشون استفاده میکنن.

این روتین ‌ها به اونها کمک میکنه تا توی انرژی محاسباتی خودشون صرفه‌ جویی کنن و به صورت خودکار بسیاری از فعالیت‌ها رو انجام بدن.

سوم اینکه وقتی انسانها به دنبال دستیابی به اهداف یا حل مشکلات هستن، از این روتین‌ها برای مدیریت و حل مسائل استفاده می‌کنن.

این فرآیند ها به اونها کمک میکنه تا به صورت موثری مشکلات پیچیده رو حل کنن و تصمیم‌ گیری کنن.

و در نهایت اینکه نمیتونیم هوش واقعی رو بدون اینکه مکانیزم‌ های تشکیل و استفاده از روتین‌ها وجود داشته باشه، مدل کنیم.

اگه سیستم هوش مصنوعی نتونه روتین ها رو به طور موثر بسازه و استفاده کنه، نمیتونه به طور واقعی مثل آدماعمل کنه و مشکلات پیچیده رو حل کنه.

ادامه دارد ...
Tensorflow(@CVision)
این مقاله ها چند تا نکته اساسی دارن: اول اینکه ماهیت جهان زمانی هست. جهان به ‌طور پیوسته تغییر میکنه و تعامل مداوم انسانها با اون برای عملکرد هوش انسانی ضروریه. این تعاملات مداوم و زما‌ن مند به انسانها این امکان رو می‌ده که به طور موثری به محیط خود واکنش…
توی حوزه‌ی علوم اعصاب نظریه ‌ای هست که میگه مغز انسان طبق «اصل انرژی آزاد» کار می ‌کنه.

اصل انرژی آزاد میگه که سیستم‌های زیستی، از جمله مغز، سعی می‌ کنن تفاوت بین مدل‌های درونی ‌شون و اطلاعات حسی که از محیط دریافت می ‌کنن رو کم کنن، یعنی سعی می ‌کنن کاری کنن که اتفاق های غیرمنتظره یا خطای پیش ‌بینی کمتر باشه.

برای این کار، موجودات زنده دو مکانیسم رو بکار میگیرن، یا مدل‌های درونی خودشون رو آپدیت می ‌کنن تا بهتر با واقعیت بیرونی هماهنگ بشه (ادراک)، یا با انجام یه سری کار، محیط اطرافشون رو تغییر میدن تا با پیش ‌بینی‌ هاشون جور دربیاد (که میشه عمل کردن).

تعریف سادش اینه که مغز یه جورایی شبیه ترموستات هست که هم دمای اتاق رو پیش ‌بینی می ‌کنه و هم سعی می‌ کنه دما رو توی یه محدوده‌ی مشخص نگه داره.

به صورت خلاصه این اصل میگه که همه‌ سیستم‌ های زیستی خود سازمان ‌ده به طور طبیعی تلاش می ‌کنن تا فاصله بین انتظارات و تجربیاتشون رو به حداقل برسونن.

ادامه دارد ...

https://en.wikipedia.org/wiki/Free_energy_principle
Tensorflow(@CVision)
توی حوزه‌ی علوم اعصاب نظریه ‌ای هست که میگه مغز انسان طبق «اصل انرژی آزاد» کار می ‌کنه. اصل انرژی آزاد میگه که سیستم‌های زیستی، از جمله مغز، سعی می‌ کنن تفاوت بین مدل‌های درونی ‌شون و اطلاعات حسی که از محیط دریافت می ‌کنن رو کم کنن، یعنی سعی می ‌کنن کاری…
اگه این نظریه صحیح باشه، احتمالش زیاده که بشه همچین سیستمی رو توی حوزه هوش مصنوعی پیاده کرد.

البته این کار توی الگوریتم یادگیری تقویتی به اسم SMiRL انجام شده و نسبتا موفقیت ‌آمیز بوده. 

عنوان مقاله یادگیری تقویتی مبتنی بر کمینه سازی شگفتی در محیط ‌های ناپایدار هست.

توی این روش، سیستم اول یاد می ‌گیره که چه اتفاقاتی توی محیط براش غیرمنتظره یا عجیب هستن، و بعد سعی می ‌کنه به سمت چیزهایی بره که بیشتر قابل پیش‌ بینی و پایدار باشن.

به این معنی که عامل هوش مصنوعی (مثلا یه ربات) به سمت شرایطی میره که کمتر احتمال داره در اونا غافلگیر بشه، مثلا از موانع و خطرات دور میمونه یا حالت پایداری رو پیدا می ‌کنه که منجر به حفظ تعادلش بشه.

به عبارت دیگه، این الگوریتم به جای دنبال کردن یه هدف مشخص، سعی می‌کنه با پیدا کردن موقعیت ‌های پایدارتر، از وقایع غیرمنتظره دوری کنه، که همین باعث می‌شه به شکل طبیعی به سمت کاوش و پیدا کردن شرایط بهتر بره، از طرفی برای یادگیری تقلیدی بسیار مناسبه.

ادامه دارد ...

https://arxiv.org/abs/1912.05510
­­­­­­­­­­­­­­­­
Tensorflow(@CVision)
اگه این نظریه صحیح باشه، احتمالش زیاده که بشه همچین سیستمی رو توی حوزه هوش مصنوعی پیاده کرد. البته این کار توی الگوریتم یادگیری تقویتی به اسم SMiRL انجام شده و نسبتا موفقیت ‌آمیز بوده.  عنوان مقاله یادگیری تقویتی مبتنی بر کمینه سازی شگفتی در محیط ‌های ناپایدار…
کار دیگه ای که شباهت هایی به مقاله قبلی داره کار آقای رامین حسنی از MIT هست.

عنوان مقاله Liquid Time Constant Networks  هست. این مدل در واقع نوعی شبکه عصبی پویا و انعطاف ‌پذیره که برای پردازش اطلاعات در زمان و تصمیم ‌گیری در شرایط پیچیده با الهام از ساختارهای عصبی موجودات زنده طراحی شده.

توی شبکه‌ های سنتی، اتصالات و زمان ‌بندی واحدهای عصبی ثابت هستن، اما در LTCNs زمان‌ بندی یا ثابت زمانی نورون‌ ها به صورت پویا تغییر میکنن و به همین دلیل به اون "liquid" گفته میشه.

ویژگی دینامیک LTCN به شبکه اجازه میده به محیط‌ های پویا و شرایط متغیر واکنش بهتری نشون بده.

این شبکه‌ ها با تنظیم پیوسته ثابت‌های زمانی نورون‌ ها، میتونن با داده‌های ورودی سازگار بشن و پاسخ ‌های انعطاف ‌پذیرتری رو ارایه بدن.

به صورت فنی تر بایستی عرض کنم که LTCN‌ها در واقع نوعی شبکه عصبی بازگشتی هستن که هر نورون از یه معادله‌ خاص پیروی میکنه.

این معادلات به شبکه اجازه میدن تا رفتار نورون ‌ها رو به عنوان یک تابع از ورودی‌ ها و شرایط محیطی تغییر بدن.

نورون ‌ها در LTCN‌ها دارای ثابت‌های زمانی متغیر هستن که بسته به شرایط، سرعت یا کندی تغییرات اونها رو تنظیم می‌کنه.

این تغییرات در «ثابت‌های زمانی» باعث میشه که شبکه در مواجهه با ورودی‌ های مختلف، پاسخ‌ های متنوعی داشته باشه.

البته توضیحات کامل رو خود آقای حسنی توی  ویدئوی زیر به صورت کامل شرح میدن:

ادامه دارد ...

https://youtu.be/IlliqYiRhMU?si=nstNmmU7Nwo06KSJ&t=1971
Tensorflow(@CVision)
کار دیگه ای که شباهت هایی به مقاله قبلی داره کار آقای رامین حسنی از MIT هست. عنوان مقاله Liquid Time Constant Networks  هست. این مدل در واقع نوعی شبکه عصبی پویا و انعطاف ‌پذیره که برای پردازش اطلاعات در زمان و تصمیم ‌گیری در شرایط پیچیده با الهام از ساختارهای…
توی ویدیو بالا توضیح میده که در مقایسه با مدل‌های دیگه، برای انجام وظیفه‌ ای مثل هدایت خودرو، مدل LTCN تنها به حدود ۱۹ نورون نیاز داره، در حالی که سایر مدل ‌ها برای همون کار به هزاران نورون نیاز دارن.

از نکات مهم ارایه شده در این کار میشه به موارد زیراشاره کرد :

مدل می ‌تونه همون نتایج شبکه‌های عصبی دیگه رو با ۱۰ تا ۲۰ برابر نورون کمتر به دست بیاره

این مدل روابط علی و معلولی دنیای واقعی رو یاد می‌گیره

 توانایی فوق ‌العاده‌ای در تعمیم خارج از محدوده‌ داده‌های آموزشی داره، یعنی میتونه همون وظیفه رو توی شرایط کاملا متفاوت انجام بده

 بدون نیاز به تعیین اهداف مشخص میتونه کار کنه

و در نهایت  توی یادگیری تقلیدی بسیار خوب عمل می ‌کنه

در واقع نوآوری کلیدی این مدل اینه که امکان تغییر سرعت هر نورون رو به صورت متغیر و لحظه‌ ای فراهم میکنه.

همین ویژگی ساده باعث شده که این شبکه‌ها به نتایج فوق‌العاده‌ای برسن. سخنرانی تد رو برای توضیحات بیشتر ببینید. نوشتن در موردش زمان زیادی می‌بره

ادامه دارد ...

https://www.ted.com/talks/ramin_hasani_liquid_neural_networks
Tensorflow(@CVision)
توی ویدیو بالا توضیح میده که در مقایسه با مدل‌های دیگه، برای انجام وظیفه‌ ای مثل هدایت خودرو، مدل LTCN تنها به حدود ۱۹ نورون نیاز داره، در حالی که سایر مدل ‌ها برای همون کار به هزاران نورون نیاز دارن. از نکات مهم ارایه شده در این کار میشه به موارد زیراشاره…
مشکلی که توی مقاله قبلی وجود داره، علی رغم نکات بسیار مهم و کاربردی اینه که این مدل  باbackpropagation  و به صورت آفلاین آموزش دیده، اما نسخه ‌ای از همین مدل شبکه وجود داره که میتونه به صورت آنلاین و در لحظه یاد بگیره، درست مثل مغز انسان!

در واقع این مقاله ترکیبی از کارهای قبلی به همراه شبکه های اسپایکی یا Spiking Neural Networksهست. 

در شبکه‌های عصبی اسپایکی علاوه بر متغیرهای حالت نورونی و سیناپسی، مفهوم زمان نیز در مدل در نظر گرفته میشه. توی شبکه‌های عصبی معمولی، خروجی هر نورون در هر تکرار محاسبه و به روز رسانی میشه، اما در شبکه‌های عصبی اسپایکی، هر نورون تنها زمانی اسپایک تولید میکنه که پتانسیل غشای اون از یک حد آستانه بیشتر شده باشه. 

شبکه‌عصبی اسپایکی در واقع نزدیک ترین بازسازی ساختار مغز انسانه.

ادامه دارد...

https://arxiv.org/abs/2112.11231
Tensorflow(@CVision)
مشکلی که توی مقاله قبلی وجود داره، علی رغم نکات بسیار مهم و کاربردی اینه که این مدل  باbackpropagation  و به صورت آفلاین آموزش دیده، اما نسخه ‌ای از همین مدل شبکه وجود داره که میتونه به صورت آنلاین و در لحظه یاد بگیره، درست مثل مغز انسان! در واقع این مقاله…
البته مقالات متنوعی در همین زمینه وجود داره و همه سعی کردن الگوریتم یادگیری رو طراحی کنن که شگفتی (یا عدم تطابق بین پیش ‌بینی و واقعیت) رو به حداقل برسونه و پیش‌ بینی ‌های دقیقی ارائه بده.

به عبارتی همگی به یه نتیجه واحد میرسن اونم اینه که کم کردن شگفتی، یه اصل اساسی و بنیادین برای همه اتفاقاتیه که در مغز داره رخ میده ، از تفکر کلی گرفته تا رفتار تک‌ تک نورون ‌ها!

 به طور خلاصه، ترکیب شبکه‌های LTCN با قانون یادگیری کاهش شگفتی می‌تونه به مدلی منجر بشه که نه تنها توانایی یادگیری طبیعی و کارآمدی داره، بلکه ساختارش به عملکرد واقعی مغز نزدیک ‌تره. 

اگر هر نورون بتونه شگفتی خودش در هر لحظه رو کاهش بده این رفتار در مقیاس بزرگ ‌تر به الگوهای پیچیده‌ ای از یادگیری و پیش ‌بینی منجر میشه.

https://www.researchgate.net/publication/373262499_Sequence_anticipation_and_spike-timing-dependent_plasticity_emerge_from_a_predictive_learning_rule

https://www.researchgate.net/publication/326690440_Beyond_STDP-towards_diverse_and_functionally_relevant_plasticity_rules
 
هوش مصنوعی عمومی زمانی ایجاد میشه که مدل در تعامل مداوم با محیط واقعی باشه. تعامل دائمی با محیط واقعی به ما انسانها این امکان را میده که نیاز به پیش ‌بینی در ۹۵٪ مواقع رو حذف کنیم.

به عبارت دیگه، این تعامل مداوم به ما این اجازه رو میده که از روتین‌ های ساده ‌تر استفاده کنیم که هنوز هم میتونن نتایج بسیار دقیقی به همراه داشته باشن.

از طرفی این موارد باعث میشه که در انرژی، محاسبات، و حافظه به طور قابل توجهی صرفه ‌جویی شه. در نتیجه، نیاز به ذخیره‌سازی ۹۵٪ از خاطرات و پیش‌ بینی‌ها نیز از بین میره.
Tensorflow(@CVision)
البته مقالات متنوعی در همین زمینه وجود داره و همه سعی کردن الگوریتم یادگیری رو طراحی کنن که شگفتی (یا عدم تطابق بین پیش ‌بینی و واقعیت) رو به حداقل برسونه و پیش‌ بینی ‌های دقیقی ارائه بده. به عبارتی همگی به یه نتیجه واحد میرسن اونم اینه که کم کردن شگفتی،…
با یک مثال بحث رو تمام کنیم، فرض کنید میخواین وارد استخر بشین، اما ممکنه آب استخر خیلی سرد باشه.

دو راه برای تصمیم ‌گیری وجود داره:

اول با توجه به اطلاعات قبلی ذهنی پیش ‌بینی میکنی که آب استخر سرد هست یا نه. بعد تصمیم میگیرین که وارد استخر بشی یا نه.

روش دوم اینه که فقط انگشتت رو توی آب بزنی. اگه سرد بود، دیگه وارد استخر نمیشین.

اما چرا روش دوم بهتره؟

در روش دوم، شما در حال تعامل واقعی و لحظه ‌ای با محیط هستی.

به جای اینکه به پیش‌ بینی‌ های پیچیده و حافظه‌ زیادی برای تصمیم ‌گیری تکیه کنی، تنها کافیه که از بازخورد آنی (لمس آب) استفاده کنی تا تصمیم بهینه رو بگیری.

این رویکرد ساده تر، انرژی کمتری مصرف میکنه و به شما این امکان رو میده که در بیشتر مواقع تصمیمات درستی بدون نیاز به ذخیره ‌سازی حجم زیادی از اطلاعات و پیش‌بینی ‌های پیچیده بگیرین.

برای هوش مصنوعی هم به همین صورته. اگه مدل‌های هوش مصنوعی به طور مداوم در حال تعامل با محیط خود باشن، میتونن بدون نیاز به پیش ‌بینی‌های پیچیده، تصمیمات بهینه ‌تری بگیرن و عملکرد بهتری داشته باشن.

به عبارت دیگه، هوش مصنوعی در مواجهه با تغییرات لحظه ‌ای محیط میتونه از روتین‌های ساده و بازخوردهای فوری برای یادگیری و تصمیم‌ گیری استفاده کنه، بدون اینکه نیاز به محاسبات سنگین یا حافظه‌های پیچیده داشته باشه. این ویژگی‌ها، به صرفه‌ جویی در منابع محاسباتی و یادگیری کارآمدتر کمک میکنه.

اینکه ۹۵٪ از وظایفی که ما ادما روزانه با اونها مواجه میشیم، به راحتی با روش دوم (استفاده از روتین‌های خودکار برای اصلاح خطا و خود اصلاحی) انجام میشه، به این دلیله که اگه انسان‌ها برای هر تصمیم یا اقدام کوچک، از تمام ظرفیت شناختی خود استفاده کنن، مغزشون کاملا تحت فشار قرار میگیره.

مغز انسان نمیتونه همزمان با بروز رسانی لحظه ‌ای و تصمیم ‌گیری پیچیده برای هر میکرو تصمیم به‌ طور مؤثر عمل کنه. به عبارت دیگه، اگر بخوایم برای هر عمل پیش ‌بینی، برنامه ‌ریزی، و تصمیم ‌گیری کنیم، این کار باعث میشه که از سرعت عمل ما کاسته شه و مغز به ‌طور مؤثر قادر به رسیدگی به حجم عظیمی از وظایف و تصمیمات فوری نباشه.
Tensorflow(@CVision)
با یک مثال بحث رو تمام کنیم، فرض کنید میخواین وارد استخر بشین، اما ممکنه آب استخر خیلی سرد باشه. دو راه برای تصمیم ‌گیری وجود داره: اول با توجه به اطلاعات قبلی ذهنی پیش ‌بینی میکنی که آب استخر سرد هست یا نه. بعد تصمیم میگیرین که وارد استخر بشی یا نه. روش…
چرا این مسئله برای مدل‌های زبانی مشکل ‌سازه؟

مدل‌های زبانی بزرگ از این قابلیت بهره نمیبرن. اونها از تعامل دائمی و آنی با محیط خود محروم هستن و به همین دلیله برای هر تصمیم کوچیک نیاز به برنامه‌ریزی، پیش‌بینی و رفتار هدف ‌محور دارن.

این موضوع باعث میشه که مدل‌ های زبانی برای انجام هر کار، حتی کارهای ساده، به استفاده از تمام ظرفیت شناختی خود نیاز داشته باشن.

برخلاف انسان‌ها که میتونن بسیاری از تصمیمات روزانه خود رو از طریق روتین‌ها و تعاملات ساده با محیط انجام بدن، مدل‌ های زبانی مجبورن که همیشه پیش ‌بینی، هدف ‌گذاری، و در نهایت تصمیم بگیرن.

مدل‌ هایی این چنینی که از تعامل با محیط بی ‌بهره هستن، نمیتونن روتین ‌های ساده ‌ای رو برای تصحیح مسیر خوشون و ساده‌ سازی فرایند تصمیم‌گیری ایجاد کنن.

به همین دلیل، مدل‌های زبانی باید برای هر تصمیم کوچک به برنامه‌ریزی و پیش ‌بینی متکی باشن، که در دنیای پیچیده و پویا نمیتونن کارآمد باشن.

ما آدما بسیاری از کارهای خودمون رو با استفاده از عادات و روتین‌های خودکار انجام میدیم.

به جای اینکه برای هر تصمیم نیاز به تحلیل و پیش‌بینی داشته باشیم، از بازخورد های محیطی و الگوهای ساده استفاده میکنیم تا به صورت خودکار و سریع تصمیم بگیریم.

این به ما اجازه میده که به راحتی و بدون فشار زیاد از پس ده‌ ها تصمیم کوچک بربیایم، در حالی که همچنان انرژی شناختی زیادی ذخیره داریم.

از اینکه طولانی شد عذر خواهی میکنم🙏
This media is not supported in your browser
VIEW IN TELEGRAM
ReCapture: Generative Video Camera Controls for User-Provided Videos using Masked Video Fine-Tuning

https://generative-video-camera-controls.github.io/
This media is not supported in your browser
VIEW IN TELEGRAM
مصطفی سلیمان، مدیرعامل بخش هوش مصنوعی ماکروسافت، در مصاحبه‌ای می‌گوید که در ۳ تا ۵ سال آینده و پیش از سال ۲۰۳۰ شاهد هوش مصنوعی خود بهبوددهنده خواهیم بود.