Tensorflow(@CVision)
14K subscribers
1.17K photos
240 videos
68 files
2.24K links
اخبار حوزه یادگیری عمیق و هوش مصنوعی
مقالات و یافته های جدید یادگیری عمیق
بینایی ماشین و پردازش تصویر

TensorFlow, Keras, Deep Learning, Computer Vision

سایت دوره
http://class.vision

👨‍💻👩‍💻پشتیبان دوره ها:
@classvision_support
Download Telegram
اگر شما هم تو خونه یه کامپیوتر خوب بستید که بهش ریموت بزنید مدل Train کنید، یا تو شرکت یه سرور برای Train گذاشتن دارید، لازم نیست همیشه سیستمتونو روشن بزارید، با یه پکت ساده میتونید سیستمتونو روشن کنید یا از حالت Sleep در بیاریدش
اگر قبلا با WoL کار نکردید و به کارتون میاد این پست را بخونید...
This media is not supported in your browser
VIEW IN TELEGRAM
گوگل Gemini: قابلیت تولید تصویر با مدل Imagen 3 الان برای همه‌ی کاربران Gemini در سراسر دنیا بصورت رایگان در دسترسه.
این مقاله بررسی می‌کنه که آیا مدل‌های زبانی بزرگ مثل Llama، Phi، Gemma، Mistral و GPT-4o و سری o1 از OpenAI واقعاً توانایی استدلال دارن یا فقط دارن الگوها رو به‌خوبی تشخیص می‌دن. نکته اینجاست که مدل‌های کوچکتر (مثلاً ۳ میلیارد پارامتری) الان عملکرد بهتری نسبت به مدل‌های بزرگتر قدیمی (مثل GPT-3) دارن و تا ۹۵٪ دقت توی تست‌های ریاضی مثل GSM8K دارن. اما سوال اینه: آیا واقعاً دارن استدلال می‌کنن یا فقط الگوها رو تشخیص می‌دن؟

نکات اصلی شامل ایناست:

نوسان در عملکرد: توی مشکلات مشابه، عملکرد مدل‌ها خیلی نوسان داره. مثلاً مدل‌های Llama 8B و Phi-3 توی نمراتشون تغییرات زیادی نشون می‌دن، که نشون می‌ده نمی‌شه به استدلالشون اعتماد کرد.

حساسیت به تغییرات: این مدل‌ها خیلی حساسن، مخصوصاً وقتی اسامی یا اعداد توی سوال تغییر کنه. این موضوع باعث می‌شه به درک واقعی مدل‌ها از مفاهیم شک کنیم، چون تغییر اسم نباید باعث افت نمره بشه، ولی می‌شه!

افزایش سختی سوالات: هرچی سوالات پیچیده‌تر می‌شه، عملکرد مدل‌ها ضعیف‌تر می‌شه و نوسان بیشتری نشون می‌ده، که این ضعفشون توی استدلال‌های چالش‌برانگیز رو نشون می‌ده.

آزمایش "No-Op": وقتی اطلاعات غیرضروری ولی به‌ظاهر مهم به سوال اضافه می‌شه، عملکرد مدل‌ها به‌شدت افت می‌کنه. این نشون می‌ده که شاید مدل‌ها ساختار یا منطق مسئله رو درست نفهمیدن.

محدودیت در مقیاس‌دهی: بزرگتر کردن داده‌ها، مدل‌ها یا قدرت محاسباتی لزوماً باعث استدلال بهتر نمی‌شه. بهبود در عملکرد بیشتر به تشخیص الگوها مربوطه، نه به درک واقعی و عمیق.

https://arxiv.org/abs/2410.05229
This media is not supported in your browser
VIEW IN TELEGRAM
 Flux 
بالاخره متن باز شد.

سایت Replicate نسخه بهینه شده  FluX رو عرضه کرد که سرعت بسیار بالایی داره، بطوریکه تصاویر در هنگام تایپ به صورت برخط تولید میشن.

متن وارد شده:در خان اول، رستم برای نجات ایران با شیر وحشی مبارزه میکنه و اون رو شکست میده


https://replicate.com/blog/flux-is-fast-and-open-source
This media is not supported in your browser
VIEW IN TELEGRAM
گروهی به نام PrimeIntellect در تلاشه تا یک مدل هوش مصنوعی بزرگ را با استفاده از توان پردازشی کامپیوترهای سراسر جهان آموزش بده. سیستمی به نام INTELLECT-1 طراحی کردن که به افراد این امکان رو میده تا با به اشتراک گذاشتن قدرت پردازش کامپیوتر خودشون، در آموزش یک مدل هوش مصنوعی ۱۰ میلیارد پارامتری مشارکت کنن. 

این ابتکار خاص و منحصر به فرده، چرا که معمولا تنها شرکت‌های بزرگ فناوری توانایی آموزش مدل‌های به این مقیاس رو دارن .

هدف PrimeIntellect اینه که هوش مصنوعی قدرتمندی ایجاد کنه که همه بتونن به اون دسترسی داشته باشن و نحوه کارکرد اون رو درک کنن، و این فناوری به جای اینکه در انحصار چند شرکت بزرگ باشه، برای همگان در دسترس باشه

https://github.com/PrimeIntellect-ai/prime
This media is not supported in your browser
VIEW IN TELEGRAM
ایلیا ساتسکیور تو سال ۲۰۱۸ گفت که یکی از راه‌های آموزش هوش مصنوعی عمومی (AGI)، اینه که بذاریم خودش با خودش بازی کنه و یاد بگیره. منظورش از این کار اینه که یه مدل هوش مصنوعی با تکرار و بازی کردن با خودش، کم‌ کم یاد می‌گیره چطور هوشمندانه‌ تر عمل کنه و استراتژی‌ های بهتری پیدا کنه. اینطوری، با تجربه و رفع اشتباهات، می‌تونه رفته‌ رفته به سطح بالایی از توانایی‌ ها برسه.

همچنین درباره سیستم‌ های چند عاملی صحبت کرد که اونا رو «جامعه عامل‌ها» نامیده. یعنی چندین مدل هوش مصنوعی که با هم کار می‌کنن یا حتی با هم رقابت می‌کنن تا یه هدف خاص رو به دست بیارن. حالا که شرکت‌ هایی مثل OpenAI و DeepMind تیم‌ های تحقیقاتی روی این موضوع راه انداختن، این ایده بیش از همیشه مطرح شده. هدفشون اینه که با این مدل‌ های چند عاملی، رفتارهای پیچیده‌ تر و هوشمندانه‌ تری رو در سیستم‌ ها ایجاد کنن.

https://community.openai.com/t/multi-agent-system-project/771689
Tensorflow(@CVision)
ایلیا ساتسکیور تو سال ۲۰۱۸ گفت که یکی از راه‌های آموزش هوش مصنوعی عمومی (AGI)، اینه که بذاریم خودش با خودش بازی کنه و یاد بگیره. منظورش از این کار اینه که یه مدل هوش مصنوعی با تکرار و بازی کردن با خودش، کم‌ کم یاد می‌گیره چطور هوشمندانه‌ تر عمل کنه و استراتژی‌…
بنظر اگه تا سال ۲۰۳۰‌به طور معجزه آسایی زنده بمونم دنیای بسیار متفاوتی از الان رو تجربه خواهیم کرد.

دیشب داریو آمودی، یکی از بنیان‌گذاران و مدیرعامل Anthropic توی مصاحبش گفت که عامل هوش مصنوعی عمومی (AGI) مانند یک ذهن جمعی عمل خواهد کرد، یعنی نه تنها ۱۰۰۰ محقق خواهیم داشت که در هر زمینه‌ای نابغه هستند، بلکه این ۱۰۰۰ محقق هر چیزی که کشف کنن رو با هم به اشتراک می‌گذارن و به این ترتیب دانش بقیه ۹۹۹ نفر تقریبا بلافاصله افزایش پیدا می‌کنه.

به همین دلیل، مقایسه هوش انسانی با AGI کار بیهوده‌ایه و در بهترین حالت، این مقایسه فقط در برابر هوش مصنوعی ابرهوشمند (ASI) قابل درکه، اما قطعا برابر نیستن، زیرا AGI محدودیت‌های بیولوژیکی نداره

ایده ذهن جمعی (Hive-Mind) در اینجا به این معنیه که اگه هزار عامل هوش مصنوعی وجود داشته باشه، این عامل‌ها می‌تونن دانش و اطلاعات خود رو به سرعت با هم به اشتراک بگذارن، بدون اینکه محدودیت‌های انسانی مانند زمان، خستگی یا محدودیت‌های حافظه رو داشته باشن. این توانایی برای به‌اشتراک‌ گذاری فوری دانش، قدرتی فراتر از توانایی‌های فردی هر کدام از این عامل‌ها رو فراهم می‌کنه.

کشوری از نوابغ در یک دیتا سنتر
Tensorflow(@CVision)
بنظر اگه تا سال ۲۰۳۰‌به طور معجزه آسایی زنده بمونم دنیای بسیار متفاوتی از الان رو تجربه خواهیم کرد. دیشب داریو آمودی، یکی از بنیان‌گذاران و مدیرعامل Anthropic توی مصاحبش گفت که عامل هوش مصنوعی عمومی (AGI) مانند یک ذهن جمعی عمل خواهد کرد، یعنی نه تنها ۱۰۰۰…
در مقابل، آدمها با محدودیت‌های بیولوژیکی مانند نیاز به خواب، محدودیت‌های ظرفیت حافظه و سرعت یادگیری مواجه هستن، در حالی که AGI می‌تونه بدون چنین محدودیت‌هایی عمل کنه.

به همین دلیل، مقایسه هوش انسانی و AGI نابرابر و حتی بی‌معنیه.

مفهوم «جهش سریع» به این اشاره داره که با به‌دست آوردن توانایی‌های پیشرفته توسط AGI، تغییرات در توانایی‌های هوش مصنوعی می‌تونه به‌صورت ناگهانی و با سرعت زیاد اتفاق بیفته، و پیامدهای غیرقابل‌پیش‌بینی برای جوامع بشری به همراه داشته باشه

https://www.businessinsider.com/how-anthropic-ceo-dario-amodei-defines-artificial-general-intelligence-2024-10
This media is not supported in your browser
VIEW IN TELEGRAM
پروژه متن باز Transformer Lab  
قابلیت مصورسازی توکن‌ ها رو فعال کرد

اگه با Transformer Lab کارنکردین بایستی خدمتتون عرض کنم که یه ابزار جالب برای کار با مدل‌های زبانی بزرگ هست. این برنامه در حقیقت یه محیط آزمایشگاهه که در اون می‌تونید مدل‌های مختلف هوش مصنوعی رو امتحان کنین، تنظیماتشون رو عوض کنید و حتی مدل‌های جدید آموزش یا فاین تیون کنید.

 Transformer Lab
 یه ابزار همه کاره برای کار با مدل‌های زبانیه که هم برای افراد مبتدی و هم برای متخصصین مفیده.

ویدیوی آموزشی نحوه عملکرد:

https://youtu.be/tY5TAvKviLo

https://transformerlab.ai/
This media is not supported in your browser
VIEW IN TELEGRAM
cellpose: a generalist algorithm for cellular segmentation with human-in-the-loop capabilities

روش Cellpose یه الگوریتمه که در ابتدا برای تقسیم‌بندی سلول‌ها ساخته شد و بدون نیاز به تنظیمات پیچیده می‌تونه انواع تصاویر سلولی رو به خوبی تحلیل کنه. نسخه جدیدش یعنی Cellpose 3 حتی اگه تصویر پر از نویز باشه یا کیفیتش پایین باشه، می‌تونه اون رو درست کنه و بعدش هم خیلی خوب تقسیم‌بندی کنه.


https://github.com/MouseLand/cellpose
مدل‌های زبانی بزرگ باعث می‌شن که اشتراک‌گذاری دانش عمومی توی پلتفرم‌ های پرسش و پاسخ آنلاین کمتر بشه


مدل‌های زبانی بزرگ (LLMs) می‌تونن جایگزین خوبی برای داده‌ها و اطلاعاتی باشن که آدم‌ها تولید می‌کنن. ولی این جایگزینی یه مشکل اساسی داره. اگه باعث بشه محتوایی که آدم‌ها تولید می‌کنن کمتر بشه، اون‌وقت داده‌های آموزشی که برای ساخت مدل‌های جدید لازم داریم، کم می‌شه. 

توی این تحقیق، کاهش فعالیت توی سایت Stack Overflow هم‌زمان با انتشار ChatGPT، رو بررسی کردن. 

برای اینکه ببینن این کاهش فعالیت واقعاً به ChatGPT ربط داره یا نه، از منابع مشابهی استفاده کردن که نباید اینقدر تحت تأثیر ChatGPT قرار گرفته باشن.

توی شش ماه بعد از انتشار ChatGPT، فعالیت توی Stack overflow نسبت به نسخه‌های روسی و چینی ، که دسترسی به ChatGPT اونجا محدودتره و انجمن‌های مشابه برای ریاضی، که ChatGPT توشون زیاد قوی نیست، ۲۵ درصد کاهش داشته

 این آمار رو به‌ عنوان حداقل تأثیر ChatGPT روی Stack overflow در نظر گرفتن. این کاهش بیشتر توی پست‌هایی دیده شد که مربوط به زبان‌های برنامه‌نویسی پرطرفدار بودن. 

تغییری توی کیفیت پست‌ها، با توجه به نظر کاربران دیگه، مشاهده نشده و هم کاربران با تجربه و هم تازه‌ کارها به‌طور مشابه فعالیتشون کم شده، پس مدل‌های زبانی بزرگ فقط محتواهای تکراری، کم‌کیفیت، یا مخصوص مبتدی‌ها رو حذف نکردن. 

نتیجه اینه که استفاده سریع از مدل‌های زبانی بزرگ باعث می‌شه داده‌های عمومی که برای آموزش اون‌ها نیاز داریم، کمتر تولید بشه و این می‌تونه پیامدهای مهمی داشته باشه.

https://academic.oup.com/pnasnexus/article/3/9/pgae400/7754871
This media is not supported in your browser
VIEW IN TELEGRAM
ایچیکو-لاما نسخه ۳.۱، هوش مصنوعی صوتی بلادرنگ

این پروژه تحقیقاتی و متن باز هست، دمویی که میبینید روی یک کارت گرافیک NVIDIA 3090 اجرا شده.

ایچیکو-لاما در واقع یک مدل چند وجهی  multimodalبا ادغام اولیه (early-fusion) برای صوت و متنه.

 early-fusion 
یعنی داده‌های صوتی و متنی قبل از اینکه مدل بخواد پردازش اصلی رو انجام بده، با هم ترکیب میشن، برخلاف ادغام ثانویه یا late-fusion که تو اون، داده‌ها اول جدا جدا پردازش می‌شن و بعد نتایج با هم  ترکیب میشن.

استفاده از ادغام اولیه باعث میشه که مدل بتونه تو همون مراحل اول، ارتباط بین صوت و متن رو بفهمه و از ترکیب این داده‌ها نتیجه بهتری بده.

https://homebrew.ltd/blog/llama-learns-to-talk
Tensorflow(@CVision)
کورس جدید دانشگاه برکلی CS294/194-196 Large Language Model Agents https://rdi.berkeley.edu/llm-agents/f24
اگه به مفاهیم پشت پرده o1 علاقه‌مندید گذراندن این کورس پیشنهاد میشه، مخصوصا مقالاتی که در خلال اسلاید ها معرفی میشه.

توی سالهای اخیر روشهای مختلفی برای بالا بردن قدرت استدلال مدل های زبانی بوجود اومده که عمدتا بر مبنای پرامپت بودن.

اگر این مفهوم رو به روشهای پرسشگری ترجمه کنیم، تولید مراحل میانی برای پاسخ دادن به سوالات توسط عامل انسانی از طریق پرسشگری در مراحل چندگانه عملکرد مدل های زبانی رو به صورت قابل توجهی بهبود می‌ بخشه.

اینکار مدل زبانی رو ملزم می‌کنه که از طریق ورودی استدلال گام به گام با بررسی و اصلاح پاسخ‌های خودش، به نتایج دقیق‌تری دست پیدا کنه.

این روشهای پرسشگری هر چند باعث بالارفتن استدلال مدل میشه اما استفاده از این روشهای پرسشگری ممکنه منجر به در نظر گرفتن زمینه‌های نامرتبط، خوداصلاحی بیش از حد و ترتیب نادرست بشه.
Tensorflow(@CVision)
اگه به مفاهیم پشت پرده o1 علاقه‌مندید گذراندن این کورس پیشنهاد میشه، مخصوصا مقالاتی که در خلال اسلاید ها معرفی میشه. توی سالهای اخیر روشهای مختلفی برای بالا بردن قدرت استدلال مدل های زبانی بوجود اومده که عمدتا بر مبنای پرامپت بودن. اگر این مفهوم رو به…
به عنوان نمونه این مورد رو در هر دو مدل زبانی chatgpt و Gemini تست میکنم.

در این مثال با وارد کردن زمینه نامرتبطی مثل «اجاره ماهیانه مری ۱۰ دلار است» مدل زبانی Gemini  پاسخ درستی رو نمیده اما chatgpt  پاسخ درست رو میده و در پایان توضیح میده که این قسمت مربوط به متن زمینه نیست 

اما دلیلش چیه ؟
Tensorflow(@CVision)
Photo
روش‌های پرسشگری، اگرچه موثرن، اغلب تعصبات خاص انسان رو رمزگذاری می‌کنه و در نتیجه ارزیابی توانایی‌های استدلال ذاتی یک مدل زبانی رو دشوار می‌کنه

در حالت ایده‌آل، یه مدل زبانی باید بتونه به طور مستقل استدلال کنه و پاسخ بهینه رو ارائه بده، بدون اینکه نیاز به انسان‌ها برای تنظیم پرسش‌ها یا اصلاح مکرر در صورت نامطلوب بودن پاسخ اولیه داشته باشه.


تنظیم مدل می‌تونه هزینه‌بر باشه و به مقدار قابل توجهی داده‌های نظارت شده نیاز داره. کاری که در مدل زبانی chatgpt از طریق یادگیری تقویتی انجام شده، بدون نیاز به پرسشگری اضافی نظارت شده

https://arxiv.org/abs/2402.10200
🎓 دانشکده مدیریت و اقتصاد دانشگاه صنعتی شریف

📚 «تحول اقتصاد دیجیتال: نقش پلتفرم، داده و AI»

🔸 اقتصاد امروز به سرعت درحال تغییر است و مدل‌های سنتی اغلب توان پاسخگویی به چالش‌های حاضر را ندارد. کسب‌وکارهایی که نتوانند همراه شوند؛ در خطر حذف قرار می‌گیرند. مدیران و کارآفرینان موفق برای بقا و توسعه سازمان، نیازمند درک عمیق تحولات دیجیتال و تطبیق با آن هستند.

این‌ دوره به بررسی موشکافانه کیس‌های موفق روز دنیا می‌پردازد. در این دوره روش بهره‌گیری استراتژیک از ابزارهای دیجیتال در کسب‌وکار و استفاده حداکثری از فرصت‌های نوظهور آموزش داده می‌شود.

📌 ویژه کارشناسان و مدیران ارشد کسب‌وکارها و سازمان‌ها

👤 استاد دوره: دکتر مهدی انصاری (عضو هیئت علمی دانشکده مدیریت و اقتصاد دانشگاه شریف)

👥 میهمانان صنعت:
مجید حسینی‌نژاد (بنیان‌گذار و رئیس هیئت مدیره هلدینگ علی‌بابا)

مهرداد ترابیان (عضو سابق هیئت مدیره شرکت ارتباطات زیرساخت)

📖
مطالعه بروشور دوره

📌 لینکپیش‌ثبت‌نام

📞 در صورت نیاز به اطلاعات بیشتر، فرم تماس و درخواست مشاوره را تکمیل نمایید.

@Sharif_Executive_Education
This media is not supported in your browser
VIEW IN TELEGRAM
مدل Sana-0.6B می‌تونه با مدل‌های بزرگتر و پیشرفته مثل Flux-12B رقابت کنه، در حالی که ۲۰ برابر کوچکتر و ۱۰۰ برابر سریع‌ تره. این مدل رو می‌ شه روی کارت گرافیک لپ‌ تاپ ۱۶ گیگا بایتی اجرا کرد و برای تولید یه عکس 1024 × 1024 کمتر از ۱ ثانیه زمان می‌ بره. سانا امکان تولید محتوا با هزینه پایین رو فراهم می‌ کنه.  

https://arxiv.org/pdf/2410.10629

معرفی یه اتواینکدر جدید که فشرده‌ سازی تصاویر رو به میزان 32 برابر انجام میده (در مقایسه با روش‌های قبلی با فشرده سازی 8 برابری) و باعث کاهش تعداد توکن‌های پنهان و در نتیجه افزایش سرعت و کارایی مدل در تولید تصاویر با وضوح بالا مثل 4K میشه

استفاده از توجه خطی(Linear DiT) که نسخه بهینه‌ شده‌ مکانیسم توجه استاندارده و برای بهبود کارایی در تولید تصاویر با وضوح بالا طراحی شده. مکانیسم توجه استاندارد به صورت معمولی پیچیدگی محاسباتی  O(N2) رو داره ، به این معنی که وقتی اندازه تصویر افزایش پیدا میکنه، مقدار محاسبات هم به صورت نمایی افزایش پیدا میکنه.

این موضوع به‌خصوص در پردازش تصاویر با وضوح بالا مشکل‌سازه. توجه خطی پیشنهاد شده پیچیدگی محاسبات رو از O(N2) به O(N) کاهش می‌ ده.
مقاله جدید انویدیا به موضوع نرمال‌سازی در معماری‌های شبکه عصبی پرداخته و تمرکز اصلی اون بر روی مدل ترانسفورمر نرمال‌سازی‌شده (nGPT) هست که از یادگیری نمایشی روی هایپراسفر استفاده میکنه.

هدف اصلی این مدل، حل مشکل نا مساعد بودن یا بد وضعی اعداد در embeddingهای ورودی مدل‌های ترانسفورمر سنتی هست.

یادآوری ماتریس های بد وضع(نامساعد):

به ماتریسی گفته میشه که دارای نسبت وضع (condition number) بالایی هست. این نسبت نشون دهنده حساسیت پاسخ‌ های یه سیستم خطی به تغییرات در ورودی ‌های اونه.

اگه ماتریسی بد وضع باشه، کوچک ‌ترین تغییر در ورودی میتونه باعث تغییرات بزرگی در خروجی بشه، که در نتیجه باعث ناپایداری و مشکلات محاسباتی میشه.

در محاسبات عددی، اگه از ماتریس‌های بد وضع استفاده شه، خطاهای گرد کردن میتونه باعث تغییرات بزرگ در نتایج بشه همچنین در یادگیری ماشین، بد وضعی میتونه باعث بشه که مدل به خوبی نتونه یاد بگیره و دقت آن کاهش پیدا کنه.

توضیحات بیشتر در مورد ماتریس های بد وضع:

 https://emtiyaz.github.io/pcml15/illconditioned.pdf

به عبارت ساده وقتی میگیم که یه ماتریس بد وضعه، یعنی اعداد بزرگ و کوچک بسیار زیادی در آن وجود داره که باعث میشه محاسبات ناپایدار و یادگیری دشوارتر شه.

در مدل‌های ترانسفورمر سنتی، ماتریس‌های مربوط به توجه (Attention) و MLP ممکنه دچار این مشکل بشن، بطوری که یادگیری مدل کارآمد نیست و دقت یادگیری کاهش پیدا میکنه.


مدل nGPT با استفاده از نرمال‌سازی هایپراسفر این مشکل رو کاهش میده. یعنی همه‌ ی بردارها از جمله embeddingها و ماتریس‌های توجه و ...  طوری تنظیم میشن که طولشان برابر با یک باشه و روی سطح یک کره چندبعدی (هایپراسفر) قرار بگیرن.

این نرمال‌سازی باعث میشه که اعداد در ماتریس‌ها بهتر توزیع بشن و مشکلات بد وضعی کاهش پیدا کنه.

مقاله ادعا میکنه که با این نرمال سازی پیشنهادی ، آموزش ترنسفورمرها به طور قابل توجهی بین ۴ تا ۲۰ برابر بسته به طول دنباله وردی کاهش پیدا کنه

https://arxiv.org/pdf/2410.01131