اگر شما هم تو خونه یه کامپیوتر خوب بستید که بهش ریموت بزنید مدل Train کنید، یا تو شرکت یه سرور برای Train گذاشتن دارید، لازم نیست همیشه سیستمتونو روشن بزارید، با یه پکت ساده میتونید سیستمتونو روشن کنید یا از حالت Sleep در بیاریدش
اگر قبلا با WoL کار نکردید و به کارتون میاد این پست را بخونید...
اگر قبلا با WoL کار نکردید و به کارتون میاد این پست را بخونید...
کلاسویژن
روشن کردن سرور با یک کلیک: همه چیز درباره Wake on LAN - کلاسویژن
اگر شما هم از اون دسته از افرادی هستید که در شرکت یا منزل یک سیستم حرفه ای برای آموزش مدلهای دیپلرنینگ دارید، احتمالاً این سناریو براتون آشناست: میخواید به
This media is not supported in your browser
VIEW IN TELEGRAM
گوگل Gemini: قابلیت تولید تصویر با مدل Imagen 3 الان برای همهی کاربران Gemini در سراسر دنیا بصورت رایگان در دسترسه.
این مقاله بررسی میکنه که آیا مدلهای زبانی بزرگ مثل Llama، Phi، Gemma، Mistral و GPT-4o و سری o1 از OpenAI واقعاً توانایی استدلال دارن یا فقط دارن الگوها رو بهخوبی تشخیص میدن. نکته اینجاست که مدلهای کوچکتر (مثلاً ۳ میلیارد پارامتری) الان عملکرد بهتری نسبت به مدلهای بزرگتر قدیمی (مثل GPT-3) دارن و تا ۹۵٪ دقت توی تستهای ریاضی مثل GSM8K دارن. اما سوال اینه: آیا واقعاً دارن استدلال میکنن یا فقط الگوها رو تشخیص میدن؟
نکات اصلی شامل ایناست:
نوسان در عملکرد: توی مشکلات مشابه، عملکرد مدلها خیلی نوسان داره. مثلاً مدلهای Llama 8B و Phi-3 توی نمراتشون تغییرات زیادی نشون میدن، که نشون میده نمیشه به استدلالشون اعتماد کرد.
حساسیت به تغییرات: این مدلها خیلی حساسن، مخصوصاً وقتی اسامی یا اعداد توی سوال تغییر کنه. این موضوع باعث میشه به درک واقعی مدلها از مفاهیم شک کنیم، چون تغییر اسم نباید باعث افت نمره بشه، ولی میشه!
افزایش سختی سوالات: هرچی سوالات پیچیدهتر میشه، عملکرد مدلها ضعیفتر میشه و نوسان بیشتری نشون میده، که این ضعفشون توی استدلالهای چالشبرانگیز رو نشون میده.
آزمایش "No-Op": وقتی اطلاعات غیرضروری ولی بهظاهر مهم به سوال اضافه میشه، عملکرد مدلها بهشدت افت میکنه. این نشون میده که شاید مدلها ساختار یا منطق مسئله رو درست نفهمیدن.
محدودیت در مقیاسدهی: بزرگتر کردن دادهها، مدلها یا قدرت محاسباتی لزوماً باعث استدلال بهتر نمیشه. بهبود در عملکرد بیشتر به تشخیص الگوها مربوطه، نه به درک واقعی و عمیق.
https://arxiv.org/abs/2410.05229
نکات اصلی شامل ایناست:
نوسان در عملکرد: توی مشکلات مشابه، عملکرد مدلها خیلی نوسان داره. مثلاً مدلهای Llama 8B و Phi-3 توی نمراتشون تغییرات زیادی نشون میدن، که نشون میده نمیشه به استدلالشون اعتماد کرد.
حساسیت به تغییرات: این مدلها خیلی حساسن، مخصوصاً وقتی اسامی یا اعداد توی سوال تغییر کنه. این موضوع باعث میشه به درک واقعی مدلها از مفاهیم شک کنیم، چون تغییر اسم نباید باعث افت نمره بشه، ولی میشه!
افزایش سختی سوالات: هرچی سوالات پیچیدهتر میشه، عملکرد مدلها ضعیفتر میشه و نوسان بیشتری نشون میده، که این ضعفشون توی استدلالهای چالشبرانگیز رو نشون میده.
آزمایش "No-Op": وقتی اطلاعات غیرضروری ولی بهظاهر مهم به سوال اضافه میشه، عملکرد مدلها بهشدت افت میکنه. این نشون میده که شاید مدلها ساختار یا منطق مسئله رو درست نفهمیدن.
محدودیت در مقیاسدهی: بزرگتر کردن دادهها، مدلها یا قدرت محاسباتی لزوماً باعث استدلال بهتر نمیشه. بهبود در عملکرد بیشتر به تشخیص الگوها مربوطه، نه به درک واقعی و عمیق.
https://arxiv.org/abs/2410.05229
arXiv.org
GSM-Symbolic: Understanding the Limitations of Mathematical...
Recent advancements in Large Language Models (LLMs) have sparked interest in their formal reasoning capabilities, particularly in mathematics. The GSM8K benchmark is widely used to assess the...
This media is not supported in your browser
VIEW IN TELEGRAM
Flux
بالاخره متن باز شد.
سایت Replicate نسخه بهینه شده FluX رو عرضه کرد که سرعت بسیار بالایی داره، بطوریکه تصاویر در هنگام تایپ به صورت برخط تولید میشن.
متن وارد شده:در خان اول، رستم برای نجات ایران با شیر وحشی مبارزه میکنه و اون رو شکست میده
https://replicate.com/blog/flux-is-fast-and-open-source
بالاخره متن باز شد.
سایت Replicate نسخه بهینه شده FluX رو عرضه کرد که سرعت بسیار بالایی داره، بطوریکه تصاویر در هنگام تایپ به صورت برخط تولید میشن.
متن وارد شده:در خان اول، رستم برای نجات ایران با شیر وحشی مبارزه میکنه و اون رو شکست میده
https://replicate.com/blog/flux-is-fast-and-open-source
This media is not supported in your browser
VIEW IN TELEGRAM
گروهی به نام PrimeIntellect در تلاشه تا یک مدل هوش مصنوعی بزرگ را با استفاده از توان پردازشی کامپیوترهای سراسر جهان آموزش بده. سیستمی به نام INTELLECT-1 طراحی کردن که به افراد این امکان رو میده تا با به اشتراک گذاشتن قدرت پردازش کامپیوتر خودشون، در آموزش یک مدل هوش مصنوعی ۱۰ میلیارد پارامتری مشارکت کنن.
این ابتکار خاص و منحصر به فرده، چرا که معمولا تنها شرکتهای بزرگ فناوری توانایی آموزش مدلهای به این مقیاس رو دارن .
هدف PrimeIntellect اینه که هوش مصنوعی قدرتمندی ایجاد کنه که همه بتونن به اون دسترسی داشته باشن و نحوه کارکرد اون رو درک کنن، و این فناوری به جای اینکه در انحصار چند شرکت بزرگ باشه، برای همگان در دسترس باشه
https://github.com/PrimeIntellect-ai/prime
این ابتکار خاص و منحصر به فرده، چرا که معمولا تنها شرکتهای بزرگ فناوری توانایی آموزش مدلهای به این مقیاس رو دارن .
هدف PrimeIntellect اینه که هوش مصنوعی قدرتمندی ایجاد کنه که همه بتونن به اون دسترسی داشته باشن و نحوه کارکرد اون رو درک کنن، و این فناوری به جای اینکه در انحصار چند شرکت بزرگ باشه، برای همگان در دسترس باشه
https://github.com/PrimeIntellect-ai/prime
This media is not supported in your browser
VIEW IN TELEGRAM
ایلیا ساتسکیور تو سال ۲۰۱۸ گفت که یکی از راههای آموزش هوش مصنوعی عمومی (AGI)، اینه که بذاریم خودش با خودش بازی کنه و یاد بگیره. منظورش از این کار اینه که یه مدل هوش مصنوعی با تکرار و بازی کردن با خودش، کم کم یاد میگیره چطور هوشمندانه تر عمل کنه و استراتژی های بهتری پیدا کنه. اینطوری، با تجربه و رفع اشتباهات، میتونه رفته رفته به سطح بالایی از توانایی ها برسه.
همچنین درباره سیستم های چند عاملی صحبت کرد که اونا رو «جامعه عاملها» نامیده. یعنی چندین مدل هوش مصنوعی که با هم کار میکنن یا حتی با هم رقابت میکنن تا یه هدف خاص رو به دست بیارن. حالا که شرکت هایی مثل OpenAI و DeepMind تیم های تحقیقاتی روی این موضوع راه انداختن، این ایده بیش از همیشه مطرح شده. هدفشون اینه که با این مدل های چند عاملی، رفتارهای پیچیده تر و هوشمندانه تری رو در سیستم ها ایجاد کنن.
https://community.openai.com/t/multi-agent-system-project/771689
همچنین درباره سیستم های چند عاملی صحبت کرد که اونا رو «جامعه عاملها» نامیده. یعنی چندین مدل هوش مصنوعی که با هم کار میکنن یا حتی با هم رقابت میکنن تا یه هدف خاص رو به دست بیارن. حالا که شرکت هایی مثل OpenAI و DeepMind تیم های تحقیقاتی روی این موضوع راه انداختن، این ایده بیش از همیشه مطرح شده. هدفشون اینه که با این مدل های چند عاملی، رفتارهای پیچیده تر و هوشمندانه تری رو در سیستم ها ایجاد کنن.
https://community.openai.com/t/multi-agent-system-project/771689
Tensorflow(@CVision)
ایلیا ساتسکیور تو سال ۲۰۱۸ گفت که یکی از راههای آموزش هوش مصنوعی عمومی (AGI)، اینه که بذاریم خودش با خودش بازی کنه و یاد بگیره. منظورش از این کار اینه که یه مدل هوش مصنوعی با تکرار و بازی کردن با خودش، کم کم یاد میگیره چطور هوشمندانه تر عمل کنه و استراتژی…
بنظر اگه تا سال ۲۰۳۰به طور معجزه آسایی زنده بمونم دنیای بسیار متفاوتی از الان رو تجربه خواهیم کرد.
دیشب داریو آمودی، یکی از بنیانگذاران و مدیرعامل Anthropic توی مصاحبش گفت که عامل هوش مصنوعی عمومی (AGI) مانند یک ذهن جمعی عمل خواهد کرد، یعنی نه تنها ۱۰۰۰ محقق خواهیم داشت که در هر زمینهای نابغه هستند، بلکه این ۱۰۰۰ محقق هر چیزی که کشف کنن رو با هم به اشتراک میگذارن و به این ترتیب دانش بقیه ۹۹۹ نفر تقریبا بلافاصله افزایش پیدا میکنه.
به همین دلیل، مقایسه هوش انسانی با AGI کار بیهودهایه و در بهترین حالت، این مقایسه فقط در برابر هوش مصنوعی ابرهوشمند (ASI) قابل درکه، اما قطعا برابر نیستن، زیرا AGI محدودیتهای بیولوژیکی نداره
ایده ذهن جمعی (Hive-Mind) در اینجا به این معنیه که اگه هزار عامل هوش مصنوعی وجود داشته باشه، این عاملها میتونن دانش و اطلاعات خود رو به سرعت با هم به اشتراک بگذارن، بدون اینکه محدودیتهای انسانی مانند زمان، خستگی یا محدودیتهای حافظه رو داشته باشن. این توانایی برای بهاشتراک گذاری فوری دانش، قدرتی فراتر از تواناییهای فردی هر کدام از این عاملها رو فراهم میکنه.
کشوری از نوابغ در یک دیتا سنتر
دیشب داریو آمودی، یکی از بنیانگذاران و مدیرعامل Anthropic توی مصاحبش گفت که عامل هوش مصنوعی عمومی (AGI) مانند یک ذهن جمعی عمل خواهد کرد، یعنی نه تنها ۱۰۰۰ محقق خواهیم داشت که در هر زمینهای نابغه هستند، بلکه این ۱۰۰۰ محقق هر چیزی که کشف کنن رو با هم به اشتراک میگذارن و به این ترتیب دانش بقیه ۹۹۹ نفر تقریبا بلافاصله افزایش پیدا میکنه.
به همین دلیل، مقایسه هوش انسانی با AGI کار بیهودهایه و در بهترین حالت، این مقایسه فقط در برابر هوش مصنوعی ابرهوشمند (ASI) قابل درکه، اما قطعا برابر نیستن، زیرا AGI محدودیتهای بیولوژیکی نداره
ایده ذهن جمعی (Hive-Mind) در اینجا به این معنیه که اگه هزار عامل هوش مصنوعی وجود داشته باشه، این عاملها میتونن دانش و اطلاعات خود رو به سرعت با هم به اشتراک بگذارن، بدون اینکه محدودیتهای انسانی مانند زمان، خستگی یا محدودیتهای حافظه رو داشته باشن. این توانایی برای بهاشتراک گذاری فوری دانش، قدرتی فراتر از تواناییهای فردی هر کدام از این عاملها رو فراهم میکنه.
کشوری از نوابغ در یک دیتا سنتر
Tensorflow(@CVision)
بنظر اگه تا سال ۲۰۳۰به طور معجزه آسایی زنده بمونم دنیای بسیار متفاوتی از الان رو تجربه خواهیم کرد. دیشب داریو آمودی، یکی از بنیانگذاران و مدیرعامل Anthropic توی مصاحبش گفت که عامل هوش مصنوعی عمومی (AGI) مانند یک ذهن جمعی عمل خواهد کرد، یعنی نه تنها ۱۰۰۰…
در مقابل، آدمها با محدودیتهای بیولوژیکی مانند نیاز به خواب، محدودیتهای ظرفیت حافظه و سرعت یادگیری مواجه هستن، در حالی که AGI میتونه بدون چنین محدودیتهایی عمل کنه.
به همین دلیل، مقایسه هوش انسانی و AGI نابرابر و حتی بیمعنیه.
مفهوم «جهش سریع» به این اشاره داره که با بهدست آوردن تواناییهای پیشرفته توسط AGI، تغییرات در تواناییهای هوش مصنوعی میتونه بهصورت ناگهانی و با سرعت زیاد اتفاق بیفته، و پیامدهای غیرقابلپیشبینی برای جوامع بشری به همراه داشته باشه
https://www.businessinsider.com/how-anthropic-ceo-dario-amodei-defines-artificial-general-intelligence-2024-10
به همین دلیل، مقایسه هوش انسانی و AGI نابرابر و حتی بیمعنیه.
مفهوم «جهش سریع» به این اشاره داره که با بهدست آوردن تواناییهای پیشرفته توسط AGI، تغییرات در تواناییهای هوش مصنوعی میتونه بهصورت ناگهانی و با سرعت زیاد اتفاق بیفته، و پیامدهای غیرقابلپیشبینی برای جوامع بشری به همراه داشته باشه
https://www.businessinsider.com/how-anthropic-ceo-dario-amodei-defines-artificial-general-intelligence-2024-10
Business Insider
Here's how Anthropic CEO Dario Amodei defines artificial general intelligence
For one, he doesn't like the term artificial general intelligence. He prefers "powerful AI."
This media is not supported in your browser
VIEW IN TELEGRAM
پروژه متن باز Transformer Lab
قابلیت مصورسازی توکن ها رو فعال کرد
اگه با Transformer Lab کارنکردین بایستی خدمتتون عرض کنم که یه ابزار جالب برای کار با مدلهای زبانی بزرگ هست. این برنامه در حقیقت یه محیط آزمایشگاهه که در اون میتونید مدلهای مختلف هوش مصنوعی رو امتحان کنین، تنظیماتشون رو عوض کنید و حتی مدلهای جدید آموزش یا فاین تیون کنید.
Transformer Lab
یه ابزار همه کاره برای کار با مدلهای زبانیه که هم برای افراد مبتدی و هم برای متخصصین مفیده.
ویدیوی آموزشی نحوه عملکرد:
https://youtu.be/tY5TAvKviLo
https://transformerlab.ai/
قابلیت مصورسازی توکن ها رو فعال کرد
اگه با Transformer Lab کارنکردین بایستی خدمتتون عرض کنم که یه ابزار جالب برای کار با مدلهای زبانی بزرگ هست. این برنامه در حقیقت یه محیط آزمایشگاهه که در اون میتونید مدلهای مختلف هوش مصنوعی رو امتحان کنین، تنظیماتشون رو عوض کنید و حتی مدلهای جدید آموزش یا فاین تیون کنید.
Transformer Lab
یه ابزار همه کاره برای کار با مدلهای زبانیه که هم برای افراد مبتدی و هم برای متخصصین مفیده.
ویدیوی آموزشی نحوه عملکرد:
https://youtu.be/tY5TAvKviLo
https://transformerlab.ai/
This media is not supported in your browser
VIEW IN TELEGRAM
cellpose: a generalist algorithm for cellular segmentation with human-in-the-loop capabilities
روش Cellpose یه الگوریتمه که در ابتدا برای تقسیمبندی سلولها ساخته شد و بدون نیاز به تنظیمات پیچیده میتونه انواع تصاویر سلولی رو به خوبی تحلیل کنه. نسخه جدیدش یعنی Cellpose 3 حتی اگه تصویر پر از نویز باشه یا کیفیتش پایین باشه، میتونه اون رو درست کنه و بعدش هم خیلی خوب تقسیمبندی کنه.
https://github.com/MouseLand/cellpose
روش Cellpose یه الگوریتمه که در ابتدا برای تقسیمبندی سلولها ساخته شد و بدون نیاز به تنظیمات پیچیده میتونه انواع تصاویر سلولی رو به خوبی تحلیل کنه. نسخه جدیدش یعنی Cellpose 3 حتی اگه تصویر پر از نویز باشه یا کیفیتش پایین باشه، میتونه اون رو درست کنه و بعدش هم خیلی خوب تقسیمبندی کنه.
https://github.com/MouseLand/cellpose
مدلهای زبانی بزرگ باعث میشن که اشتراکگذاری دانش عمومی توی پلتفرم های پرسش و پاسخ آنلاین کمتر بشه
مدلهای زبانی بزرگ (LLMs) میتونن جایگزین خوبی برای دادهها و اطلاعاتی باشن که آدمها تولید میکنن. ولی این جایگزینی یه مشکل اساسی داره. اگه باعث بشه محتوایی که آدمها تولید میکنن کمتر بشه، اونوقت دادههای آموزشی که برای ساخت مدلهای جدید لازم داریم، کم میشه.
توی این تحقیق، کاهش فعالیت توی سایت Stack Overflow همزمان با انتشار ChatGPT، رو بررسی کردن.
برای اینکه ببینن این کاهش فعالیت واقعاً به ChatGPT ربط داره یا نه، از منابع مشابهی استفاده کردن که نباید اینقدر تحت تأثیر ChatGPT قرار گرفته باشن.
توی شش ماه بعد از انتشار ChatGPT، فعالیت توی Stack overflow نسبت به نسخههای روسی و چینی ، که دسترسی به ChatGPT اونجا محدودتره و انجمنهای مشابه برای ریاضی، که ChatGPT توشون زیاد قوی نیست، ۲۵ درصد کاهش داشته
این آمار رو به عنوان حداقل تأثیر ChatGPT روی Stack overflow در نظر گرفتن. این کاهش بیشتر توی پستهایی دیده شد که مربوط به زبانهای برنامهنویسی پرطرفدار بودن.
تغییری توی کیفیت پستها، با توجه به نظر کاربران دیگه، مشاهده نشده و هم کاربران با تجربه و هم تازه کارها بهطور مشابه فعالیتشون کم شده، پس مدلهای زبانی بزرگ فقط محتواهای تکراری، کمکیفیت، یا مخصوص مبتدیها رو حذف نکردن.
نتیجه اینه که استفاده سریع از مدلهای زبانی بزرگ باعث میشه دادههای عمومی که برای آموزش اونها نیاز داریم، کمتر تولید بشه و این میتونه پیامدهای مهمی داشته باشه.
https://academic.oup.com/pnasnexus/article/3/9/pgae400/7754871
مدلهای زبانی بزرگ (LLMs) میتونن جایگزین خوبی برای دادهها و اطلاعاتی باشن که آدمها تولید میکنن. ولی این جایگزینی یه مشکل اساسی داره. اگه باعث بشه محتوایی که آدمها تولید میکنن کمتر بشه، اونوقت دادههای آموزشی که برای ساخت مدلهای جدید لازم داریم، کم میشه.
توی این تحقیق، کاهش فعالیت توی سایت Stack Overflow همزمان با انتشار ChatGPT، رو بررسی کردن.
برای اینکه ببینن این کاهش فعالیت واقعاً به ChatGPT ربط داره یا نه، از منابع مشابهی استفاده کردن که نباید اینقدر تحت تأثیر ChatGPT قرار گرفته باشن.
توی شش ماه بعد از انتشار ChatGPT، فعالیت توی Stack overflow نسبت به نسخههای روسی و چینی ، که دسترسی به ChatGPT اونجا محدودتره و انجمنهای مشابه برای ریاضی، که ChatGPT توشون زیاد قوی نیست، ۲۵ درصد کاهش داشته
این آمار رو به عنوان حداقل تأثیر ChatGPT روی Stack overflow در نظر گرفتن. این کاهش بیشتر توی پستهایی دیده شد که مربوط به زبانهای برنامهنویسی پرطرفدار بودن.
تغییری توی کیفیت پستها، با توجه به نظر کاربران دیگه، مشاهده نشده و هم کاربران با تجربه و هم تازه کارها بهطور مشابه فعالیتشون کم شده، پس مدلهای زبانی بزرگ فقط محتواهای تکراری، کمکیفیت، یا مخصوص مبتدیها رو حذف نکردن.
نتیجه اینه که استفاده سریع از مدلهای زبانی بزرگ باعث میشه دادههای عمومی که برای آموزش اونها نیاز داریم، کمتر تولید بشه و این میتونه پیامدهای مهمی داشته باشه.
https://academic.oup.com/pnasnexus/article/3/9/pgae400/7754871
OUP Academic
Large language models reduce public knowledge sharing on online Q&A platforms
Abstract. Large language models (LLMs) are a potential substitute for human-generated data and knowledge resources. This substitution, however, can present
This media is not supported in your browser
VIEW IN TELEGRAM
ایچیکو-لاما نسخه ۳.۱، هوش مصنوعی صوتی بلادرنگ
این پروژه تحقیقاتی و متن باز هست، دمویی که میبینید روی یک کارت گرافیک NVIDIA 3090 اجرا شده.
ایچیکو-لاما در واقع یک مدل چند وجهی multimodalبا ادغام اولیه (early-fusion) برای صوت و متنه.
early-fusion
یعنی دادههای صوتی و متنی قبل از اینکه مدل بخواد پردازش اصلی رو انجام بده، با هم ترکیب میشن، برخلاف ادغام ثانویه یا late-fusion که تو اون، دادهها اول جدا جدا پردازش میشن و بعد نتایج با هم ترکیب میشن.
استفاده از ادغام اولیه باعث میشه که مدل بتونه تو همون مراحل اول، ارتباط بین صوت و متن رو بفهمه و از ترکیب این دادهها نتیجه بهتری بده.
https://homebrew.ltd/blog/llama-learns-to-talk
این پروژه تحقیقاتی و متن باز هست، دمویی که میبینید روی یک کارت گرافیک NVIDIA 3090 اجرا شده.
ایچیکو-لاما در واقع یک مدل چند وجهی multimodalبا ادغام اولیه (early-fusion) برای صوت و متنه.
early-fusion
یعنی دادههای صوتی و متنی قبل از اینکه مدل بخواد پردازش اصلی رو انجام بده، با هم ترکیب میشن، برخلاف ادغام ثانویه یا late-fusion که تو اون، دادهها اول جدا جدا پردازش میشن و بعد نتایج با هم ترکیب میشن.
استفاده از ادغام اولیه باعث میشه که مدل بتونه تو همون مراحل اول، ارتباط بین صوت و متن رو بفهمه و از ترکیب این دادهها نتیجه بهتری بده.
https://homebrew.ltd/blog/llama-learns-to-talk
کورس جدید دانشگاه برکلی
CS294/194-196 Large Language Model Agents
https://rdi.berkeley.edu/llm-agents/f24
CS294/194-196 Large Language Model Agents
https://rdi.berkeley.edu/llm-agents/f24
CS 194/294-196 Large Language Model Agents
CS294/194-196 Large Language Model Agents
Fall 2024
Tensorflow(@CVision)
کورس جدید دانشگاه برکلی CS294/194-196 Large Language Model Agents https://rdi.berkeley.edu/llm-agents/f24
اگه به مفاهیم پشت پرده o1 علاقهمندید گذراندن این کورس پیشنهاد میشه، مخصوصا مقالاتی که در خلال اسلاید ها معرفی میشه.
توی سالهای اخیر روشهای مختلفی برای بالا بردن قدرت استدلال مدل های زبانی بوجود اومده که عمدتا بر مبنای پرامپت بودن.
اگر این مفهوم رو به روشهای پرسشگری ترجمه کنیم، تولید مراحل میانی برای پاسخ دادن به سوالات توسط عامل انسانی از طریق پرسشگری در مراحل چندگانه عملکرد مدل های زبانی رو به صورت قابل توجهی بهبود می بخشه.
اینکار مدل زبانی رو ملزم میکنه که از طریق ورودی استدلال گام به گام با بررسی و اصلاح پاسخهای خودش، به نتایج دقیقتری دست پیدا کنه.
این روشهای پرسشگری هر چند باعث بالارفتن استدلال مدل میشه اما استفاده از این روشهای پرسشگری ممکنه منجر به در نظر گرفتن زمینههای نامرتبط، خوداصلاحی بیش از حد و ترتیب نادرست بشه.
توی سالهای اخیر روشهای مختلفی برای بالا بردن قدرت استدلال مدل های زبانی بوجود اومده که عمدتا بر مبنای پرامپت بودن.
اگر این مفهوم رو به روشهای پرسشگری ترجمه کنیم، تولید مراحل میانی برای پاسخ دادن به سوالات توسط عامل انسانی از طریق پرسشگری در مراحل چندگانه عملکرد مدل های زبانی رو به صورت قابل توجهی بهبود می بخشه.
اینکار مدل زبانی رو ملزم میکنه که از طریق ورودی استدلال گام به گام با بررسی و اصلاح پاسخهای خودش، به نتایج دقیقتری دست پیدا کنه.
این روشهای پرسشگری هر چند باعث بالارفتن استدلال مدل میشه اما استفاده از این روشهای پرسشگری ممکنه منجر به در نظر گرفتن زمینههای نامرتبط، خوداصلاحی بیش از حد و ترتیب نادرست بشه.
Tensorflow(@CVision)
اگه به مفاهیم پشت پرده o1 علاقهمندید گذراندن این کورس پیشنهاد میشه، مخصوصا مقالاتی که در خلال اسلاید ها معرفی میشه. توی سالهای اخیر روشهای مختلفی برای بالا بردن قدرت استدلال مدل های زبانی بوجود اومده که عمدتا بر مبنای پرامپت بودن. اگر این مفهوم رو به…
به عنوان نمونه این مورد رو در هر دو مدل زبانی chatgpt و Gemini تست میکنم.
در این مثال با وارد کردن زمینه نامرتبطی مثل «اجاره ماهیانه مری ۱۰ دلار است» مدل زبانی Gemini پاسخ درستی رو نمیده اما chatgpt پاسخ درست رو میده و در پایان توضیح میده که این قسمت مربوط به متن زمینه نیست
اما دلیلش چیه ؟
در این مثال با وارد کردن زمینه نامرتبطی مثل «اجاره ماهیانه مری ۱۰ دلار است» مدل زبانی Gemini پاسخ درستی رو نمیده اما chatgpt پاسخ درست رو میده و در پایان توضیح میده که این قسمت مربوط به متن زمینه نیست
اما دلیلش چیه ؟
Tensorflow(@CVision)
Photo
روشهای پرسشگری، اگرچه موثرن، اغلب تعصبات خاص انسان رو رمزگذاری میکنه و در نتیجه ارزیابی تواناییهای استدلال ذاتی یک مدل زبانی رو دشوار میکنه
در حالت ایدهآل، یه مدل زبانی باید بتونه به طور مستقل استدلال کنه و پاسخ بهینه رو ارائه بده، بدون اینکه نیاز به انسانها برای تنظیم پرسشها یا اصلاح مکرر در صورت نامطلوب بودن پاسخ اولیه داشته باشه.
تنظیم مدل میتونه هزینهبر باشه و به مقدار قابل توجهی دادههای نظارت شده نیاز داره. کاری که در مدل زبانی chatgpt از طریق یادگیری تقویتی انجام شده، بدون نیاز به پرسشگری اضافی نظارت شده
https://arxiv.org/abs/2402.10200
در حالت ایدهآل، یه مدل زبانی باید بتونه به طور مستقل استدلال کنه و پاسخ بهینه رو ارائه بده، بدون اینکه نیاز به انسانها برای تنظیم پرسشها یا اصلاح مکرر در صورت نامطلوب بودن پاسخ اولیه داشته باشه.
تنظیم مدل میتونه هزینهبر باشه و به مقدار قابل توجهی دادههای نظارت شده نیاز داره. کاری که در مدل زبانی chatgpt از طریق یادگیری تقویتی انجام شده، بدون نیاز به پرسشگری اضافی نظارت شده
https://arxiv.org/abs/2402.10200
Forwarded from دورههای کوتاهمدت دانشکده مدیریت و اقتصاد شریف
🎓 دانشکده مدیریت و اقتصاد دانشگاه صنعتی شریف
📚 «تحول اقتصاد دیجیتال: نقش پلتفرم، داده و AI»
🔸 اقتصاد امروز به سرعت درحال تغییر است و مدلهای سنتی اغلب توان پاسخگویی به چالشهای حاضر را ندارد. کسبوکارهایی که نتوانند همراه شوند؛ در خطر حذف قرار میگیرند. مدیران و کارآفرینان موفق برای بقا و توسعه سازمان، نیازمند درک عمیق تحولات دیجیتال و تطبیق با آن هستند.
این دوره به بررسی موشکافانه کیسهای موفق روز دنیا میپردازد. در این دوره روش بهرهگیری استراتژیک از ابزارهای دیجیتال در کسبوکار و استفاده حداکثری از فرصتهای نوظهور آموزش داده میشود.
📌 ویژه کارشناسان و مدیران ارشد کسبوکارها و سازمانها
👤 استاد دوره: دکتر مهدی انصاری (عضو هیئت علمی دانشکده مدیریت و اقتصاد دانشگاه شریف)
👥 میهمانان صنعت:
مجید حسینینژاد (بنیانگذار و رئیس هیئت مدیره هلدینگ علیبابا)
مهرداد ترابیان (عضو سابق هیئت مدیره شرکت ارتباطات زیرساخت)
📖 مطالعه بروشور دوره
📌 لینک پیشثبتنام
📞 در صورت نیاز به اطلاعات بیشتر، فرم تماس و درخواست مشاوره را تکمیل نمایید.
@Sharif_Executive_Education
📚 «تحول اقتصاد دیجیتال: نقش پلتفرم، داده و AI»
🔸 اقتصاد امروز به سرعت درحال تغییر است و مدلهای سنتی اغلب توان پاسخگویی به چالشهای حاضر را ندارد. کسبوکارهایی که نتوانند همراه شوند؛ در خطر حذف قرار میگیرند. مدیران و کارآفرینان موفق برای بقا و توسعه سازمان، نیازمند درک عمیق تحولات دیجیتال و تطبیق با آن هستند.
این دوره به بررسی موشکافانه کیسهای موفق روز دنیا میپردازد. در این دوره روش بهرهگیری استراتژیک از ابزارهای دیجیتال در کسبوکار و استفاده حداکثری از فرصتهای نوظهور آموزش داده میشود.
📌 ویژه کارشناسان و مدیران ارشد کسبوکارها و سازمانها
👤 استاد دوره: دکتر مهدی انصاری (عضو هیئت علمی دانشکده مدیریت و اقتصاد دانشگاه شریف)
👥 میهمانان صنعت:
مجید حسینینژاد (بنیانگذار و رئیس هیئت مدیره هلدینگ علیبابا)
مهرداد ترابیان (عضو سابق هیئت مدیره شرکت ارتباطات زیرساخت)
📖 مطالعه بروشور دوره
📌 لینک پیشثبتنام
📞 در صورت نیاز به اطلاعات بیشتر، فرم تماس و درخواست مشاوره را تکمیل نمایید.
@Sharif_Executive_Education
This media is not supported in your browser
VIEW IN TELEGRAM
مدل Sana-0.6B میتونه با مدلهای بزرگتر و پیشرفته مثل Flux-12B رقابت کنه، در حالی که ۲۰ برابر کوچکتر و ۱۰۰ برابر سریع تره. این مدل رو می شه روی کارت گرافیک لپ تاپ ۱۶ گیگا بایتی اجرا کرد و برای تولید یه عکس 1024 × 1024 کمتر از ۱ ثانیه زمان می بره. سانا امکان تولید محتوا با هزینه پایین رو فراهم می کنه.
https://arxiv.org/pdf/2410.10629
معرفی یه اتواینکدر جدید که فشرده سازی تصاویر رو به میزان 32 برابر انجام میده (در مقایسه با روشهای قبلی با فشرده سازی 8 برابری) و باعث کاهش تعداد توکنهای پنهان و در نتیجه افزایش سرعت و کارایی مدل در تولید تصاویر با وضوح بالا مثل 4K میشه
استفاده از توجه خطی(Linear DiT) که نسخه بهینه شده مکانیسم توجه استاندارده و برای بهبود کارایی در تولید تصاویر با وضوح بالا طراحی شده. مکانیسم توجه استاندارد به صورت معمولی پیچیدگی محاسباتی O(N2) رو داره ، به این معنی که وقتی اندازه تصویر افزایش پیدا میکنه، مقدار محاسبات هم به صورت نمایی افزایش پیدا میکنه.
این موضوع بهخصوص در پردازش تصاویر با وضوح بالا مشکلسازه. توجه خطی پیشنهاد شده پیچیدگی محاسبات رو از O(N2) به O(N) کاهش می ده.
https://arxiv.org/pdf/2410.10629
معرفی یه اتواینکدر جدید که فشرده سازی تصاویر رو به میزان 32 برابر انجام میده (در مقایسه با روشهای قبلی با فشرده سازی 8 برابری) و باعث کاهش تعداد توکنهای پنهان و در نتیجه افزایش سرعت و کارایی مدل در تولید تصاویر با وضوح بالا مثل 4K میشه
استفاده از توجه خطی(Linear DiT) که نسخه بهینه شده مکانیسم توجه استاندارده و برای بهبود کارایی در تولید تصاویر با وضوح بالا طراحی شده. مکانیسم توجه استاندارد به صورت معمولی پیچیدگی محاسباتی O(N2) رو داره ، به این معنی که وقتی اندازه تصویر افزایش پیدا میکنه، مقدار محاسبات هم به صورت نمایی افزایش پیدا میکنه.
این موضوع بهخصوص در پردازش تصاویر با وضوح بالا مشکلسازه. توجه خطی پیشنهاد شده پیچیدگی محاسبات رو از O(N2) به O(N) کاهش می ده.
مقاله جدید انویدیا به موضوع نرمالسازی در معماریهای شبکه عصبی پرداخته و تمرکز اصلی اون بر روی مدل ترانسفورمر نرمالسازیشده (nGPT) هست که از یادگیری نمایشی روی هایپراسفر استفاده میکنه.
هدف اصلی این مدل، حل مشکل نا مساعد بودن یا بد وضعی اعداد در embeddingهای ورودی مدلهای ترانسفورمر سنتی هست.
یادآوری ماتریس های بد وضع(نامساعد):
به ماتریسی گفته میشه که دارای نسبت وضع (condition number) بالایی هست. این نسبت نشون دهنده حساسیت پاسخ های یه سیستم خطی به تغییرات در ورودی های اونه.
اگه ماتریسی بد وضع باشه، کوچک ترین تغییر در ورودی میتونه باعث تغییرات بزرگی در خروجی بشه، که در نتیجه باعث ناپایداری و مشکلات محاسباتی میشه.
در محاسبات عددی، اگه از ماتریسهای بد وضع استفاده شه، خطاهای گرد کردن میتونه باعث تغییرات بزرگ در نتایج بشه همچنین در یادگیری ماشین، بد وضعی میتونه باعث بشه که مدل به خوبی نتونه یاد بگیره و دقت آن کاهش پیدا کنه.
توضیحات بیشتر در مورد ماتریس های بد وضع:
https://emtiyaz.github.io/pcml15/illconditioned.pdf
به عبارت ساده وقتی میگیم که یه ماتریس بد وضعه، یعنی اعداد بزرگ و کوچک بسیار زیادی در آن وجود داره که باعث میشه محاسبات ناپایدار و یادگیری دشوارتر شه.
در مدلهای ترانسفورمر سنتی، ماتریسهای مربوط به توجه (Attention) و MLP ممکنه دچار این مشکل بشن، بطوری که یادگیری مدل کارآمد نیست و دقت یادگیری کاهش پیدا میکنه.
مدل nGPT با استفاده از نرمالسازی هایپراسفر این مشکل رو کاهش میده. یعنی همه ی بردارها از جمله embeddingها و ماتریسهای توجه و ... طوری تنظیم میشن که طولشان برابر با یک باشه و روی سطح یک کره چندبعدی (هایپراسفر) قرار بگیرن.
این نرمالسازی باعث میشه که اعداد در ماتریسها بهتر توزیع بشن و مشکلات بد وضعی کاهش پیدا کنه.
مقاله ادعا میکنه که با این نرمال سازی پیشنهادی ، آموزش ترنسفورمرها به طور قابل توجهی بین ۴ تا ۲۰ برابر بسته به طول دنباله وردی کاهش پیدا کنه
https://arxiv.org/pdf/2410.01131
هدف اصلی این مدل، حل مشکل نا مساعد بودن یا بد وضعی اعداد در embeddingهای ورودی مدلهای ترانسفورمر سنتی هست.
یادآوری ماتریس های بد وضع(نامساعد):
به ماتریسی گفته میشه که دارای نسبت وضع (condition number) بالایی هست. این نسبت نشون دهنده حساسیت پاسخ های یه سیستم خطی به تغییرات در ورودی های اونه.
اگه ماتریسی بد وضع باشه، کوچک ترین تغییر در ورودی میتونه باعث تغییرات بزرگی در خروجی بشه، که در نتیجه باعث ناپایداری و مشکلات محاسباتی میشه.
در محاسبات عددی، اگه از ماتریسهای بد وضع استفاده شه، خطاهای گرد کردن میتونه باعث تغییرات بزرگ در نتایج بشه همچنین در یادگیری ماشین، بد وضعی میتونه باعث بشه که مدل به خوبی نتونه یاد بگیره و دقت آن کاهش پیدا کنه.
توضیحات بیشتر در مورد ماتریس های بد وضع:
https://emtiyaz.github.io/pcml15/illconditioned.pdf
به عبارت ساده وقتی میگیم که یه ماتریس بد وضعه، یعنی اعداد بزرگ و کوچک بسیار زیادی در آن وجود داره که باعث میشه محاسبات ناپایدار و یادگیری دشوارتر شه.
در مدلهای ترانسفورمر سنتی، ماتریسهای مربوط به توجه (Attention) و MLP ممکنه دچار این مشکل بشن، بطوری که یادگیری مدل کارآمد نیست و دقت یادگیری کاهش پیدا میکنه.
مدل nGPT با استفاده از نرمالسازی هایپراسفر این مشکل رو کاهش میده. یعنی همه ی بردارها از جمله embeddingها و ماتریسهای توجه و ... طوری تنظیم میشن که طولشان برابر با یک باشه و روی سطح یک کره چندبعدی (هایپراسفر) قرار بگیرن.
این نرمالسازی باعث میشه که اعداد در ماتریسها بهتر توزیع بشن و مشکلات بد وضعی کاهش پیدا کنه.
مقاله ادعا میکنه که با این نرمال سازی پیشنهادی ، آموزش ترنسفورمرها به طور قابل توجهی بین ۴ تا ۲۰ برابر بسته به طول دنباله وردی کاهش پیدا کنه
https://arxiv.org/pdf/2410.01131