School of AI
9.1K subscribers
286 photos
89 videos
11 files
605 links
هدف ما در این اجتماع کوچک، آموزش و ترویج هوش مصنوعی و افزایش سطح آگاهی و تخصص نسبت به آن است.
باشد که دست در دست هم، آینده‌ی این صنعت را در میهن‌مان ایران بسازیم.

https://www.aparat.com/v/Pmrs8
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
بخیه‌زدن پوست دانه‌ی ذرت توسط جدیدترین روبات ریزجراح ساخت شرکت Sony
Forwarded from SUT Twitter
This media is not supported in your browser
VIEW IN TELEGRAM
هشدار بعد از دیدن این ویدئو سعی کنید خونسردی خودتون رو حفظ کنید
این فیچر جدید ChatGPT تقریبا یکی از عظیم ترین پیشرفت ها AI

*Gratomic AI Bot | هوش مصنوعی گراتومیک*

@sut_tw
This media is not supported in your browser
VIEW IN TELEGRAM
نسخه‌ی جدید (۱/۵) از خانواده‌ی مدل‌های Grounding DINO در دو سایز Pro و Edge منتشر شد.

مدل Grounding DINO یک مدل Open-Vocabulary Object Detection است که قادر به شناسایی اشیای موجود در تصویر، تنها بر اساس پرامپت متنی ارائه‌شده (به‌صورت Zero-Shot Learning) است.

این نسخه از Backbone جدید استفاده کرده که از نسخه‌ی قبلی سریع‌تر و دقیق‌تر‌ست.

نسخه‌ی Pro نسخه‌‌ای قدرت‌مند‌ست که در سناریو‌های پیچیده مثل Dense Object Detection (اشیا بسیار نزدیک به هم) و Long-tailed Object Detection (داده‌های آموزشی یک کلاس بسیار کم‌تر از کلاس‌های دیگر) نیز عمل‌کرد خوبی دارد.

نسخه‌ی Edge نسخه‌ی سبک، سریع و کم‌مصرف و مختص اجرا روی دستگاه‌های لبه مثل NVIDIA Jetson است. این نسخه برای TensorRT بهینه شده و قادرست تعداد ۷۵/۲ فریم را در هر ثانیه پردازش کند.

این نسخه تحت لایسنس Apache 2.0 منتشر شده یعنی به‌راحتی و رایگان می‌توان از آن در ساخت اپلیکیشن‌های تجاری استفاده کرد.

دمو:
https://deepdataspace.com/playground/grounding_dino
مقاله:
https://arxiv.org/pdf/2405.10300
گیت‌هاب:
https://github.com/IDEA-Research/Grounding-DINO-1.5-API
بررسی میدانی ما نشون می‌ده، هوش مصنوعی GPT-4o اون‌قدرها هم که OpenAI ادعا می‌کنه، شگفت‌انگیز نیست. حداقل در شمارش تعداد خروس‌های این تصویر که به گرد پای مدل اوپن‌سورس PaliGemma نمی‌رسه.
پژوهش‌گران گوگل در این پژوهش نشان داده‌اند که Fine-tune کردن LLM ها می‌تواند باعث افزایش میل به Hallucination شود.

https://arxiv.org/pdf/2405.05904
مطالعه‌ی این گزارش از Salesforce به علاقه‌مندان به RLHF پیش‌نهاد می‌شود.

https://arxiv.org/pdf/2405.07863v1
This media is not supported in your browser
VIEW IN TELEGRAM
مصطفی سلیمان، مدیراجرایی بخش هوش مصنوعی شرکت مایکروسافت، ویدئویی از محصول جدید مایکروسافت (Copilot + PCs) منتشر کرد که درواقع یک رایانه‌ی شخصی دارای شتاب‌دهنده‌ی هوش‌مصنوعی + سیستم‌عامل ویندوز + یک نسخه‌ی لوکال از Copilot است که به همه‌ی بخش‌های رایانه دست‌رسی دارد.

نسخه‌ی جدید Microsoft Copilot مبتنی بر GPT-4o بوده و قابلیت شنیدن، دیدن و صحبت‌کردن درلحظه را دارد،

نسل جدیدی از رایانه‌های شخصی (Personal Computers) موسوم به هوش شخصی (Personal Intelligence) در راه‌اند.
This media is not supported in your browser
VIEW IN TELEGRAM
پژوهش‌گران دانشگاه میشیگان، یک Diffusion Model معرفی کرده‌اند که با دریافت همزمان یک پرامپت متنی برای تصویر و یک پرامپت متنی برای صوت،‌ تصویری که همزمان صدا (Spectrogram) نیز هست تولید می‌کند.

اسپکتوگرام (فارسی: طیف‌نگاره، آوانما) نمایشی دوبعدی (مانند تصویر) از سیگنال‌هایی مثل صداست. تصویر تولیدشده توسط این مدل جدید، همزمان که تصویری قابل فهم برای سیستم بینایی‌ست، یک آوانمای معتبر نیز است.


مقاله:
arxiv.org/pdf/2405.12221
بلاگ‌پُست:
ificl.github.io/images-that-sound
گیت‌هاب:
github.com/IFICL/images-that-sound
شرکت OpenAI محبوب‌ترین صدای ChatGPT موسوم به Sky را که در دموهای چند روز پیش این شرکت وجود داشت، حذف کرد.

این صدا، الهام‌گرفته‌شده از صدای هوش مصنوعی سامانثا در فیلم Her بود که به علت شباهت زیاد به صدای اسکارلت جانسون (صداپیشه‌ی این فیلم) و نارضایتی وی، حذف شد.

https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/
همون‌طور که می‌دونید، به‌تازگی مدل‌های چندوجهی (Multimodal Models) و به‌طور خاص مدل‌های بینایی-زبان (Vision-Language Models) بسیار محبوب شده‌اند.

این مدل‌ها معمولا به‌طور همزمان یک تصویر و یک نوشتار را در ورودی دریافت می‌کنند. خروجی این مدل‌ها ممکن‌ست تنها نوشتار باشد، تنها تصویر باشد و یا ترکیبی از هر دو.

از مدل‌های تجاری مثل GPT-4o و Gemini 1.5 Pro که بگذریم، بسیاری از افراد مایل‌اند از مدل‌های اوپن-سورس و رایگان استفاده کنند.

به‌تازگی شاهد انتشار مدل PaliGemma توسط گوگل بودیم که در عین سادگی، عمل‌کرد فوق‌العاده‌ای دارد. با این حال، این مدل ۸ میلیارد پارامتر دارد و ممکن‌ست برای اجرا روی دستگاه‌های ضعیف مناسب نباشد.

گزینه‌ی دیگر Moondream2 است که با اینکه دقت PaliGemma را ندارد اما به‌نسبت سایز بسیار کوچک آن (۱/۸۶ میلیارد پارامتر) که مناسب اجرای بلادرنگ‌ست، دقت قابل قبولی داشته و حتی در آزمون VQAv2 از GPT-4o هم به‌تر عمل می‌کند.

لینک آموزشی زیر، این مدل را برای شمارش مبلغ پول فاین‌تیون می‌کند.
https://blog.roboflow.com/finetuning-moondream2/

دمو:
https://huggingface.co/spaces/vikhyatk/moondream2
یکی دیگه از VLM ها که به‌تازگی توسط HuggingFace معرفی شده، Idefics2 است.

این مدل نیز مانند PaliGemma هشت میلیارد پارامتر دارد.

قابلیت دریافت دنباله‌ای از تصاویر (مثلا تکه‌ای از یک ویدئو) را دارد.

تصاویر با رزولوشن و aspect ratio خودشان پردازش می‌شوند.

قابلیت OCR بسیار خوبی دارد.

تحت مجوز Apache 2.0 منتشر شده و استفاده از آن برای هر منظوری بلامانع‌ست.


بلاگ‌پست معرفی:
https://huggingface.co/blog/idefics2

مقاله:
https://arxiv.org/pdf/2405.02246

مستندات:
https://huggingface.co/docs/transformers/main/en/model_doc/idefics2

فاین‌تیون کردن برای استخراج اطلاعات از قبض:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb
شاید شنیده باشید که در هنگام آموزش شبکه‌های عصبی، وقتی اندازه‌ی batch ها را x برابر می‌کنید، به‌تر‌ست نرخ آموزش را نیز x برابر (اگر الگوریتم آموزش SGD است) و یا x√ برابر (اگر الگوریتم آموزش Adam است) کنید.

مثلا در LLM ها که بیش‌تر از الگوریتم آموزشی Adam استفاده می‌شود، اندازه‌ی batch ها را تا حدی که GPU شما خطای Out_Of_Memory نمی‌دهد (به صورت توانی از ۲) افزایش دهید. هر بار که اندازه batch را ۲ برابر می‌کنید، نرخ آموزش را ۱/۴ برابر کنید.

این مقاله‌ی جالب از دانشگاه پرینستون، به کمک معادلات دیفرانسیل تصادفی، الگوی کارایی برای تغییر هایپرپارامترها (مثل learning rate) با افزایش batch size ارائه می‌دهد.

https://www.cs.princeton.edu/~smalladi/blog/2024/01/22/SDEs-ScalingRules/

پی‌نوشت:
معمولا در عمل، نرخ آموزش هرچقدر هم که باشد، در طی epoch ها، ابتدا از 0.1 نرخ آموزش شروع کرده و در ده درصد ابتدایی مسیر آموزش، این نرخ را به‌صورت خطی زیاد کرده تا وقتی ده درصد epoch ها طی شد، به نرخ اصلی رسیده باشیم. از آن‌جا به بعد (۹۰ درصد باقی epoch ها) نرخ آموزش به‌صورت کسینوسی کم می‌شود.
مدل YOLOv10 توسط THU-MIG منتشر شد!

این مدل در ۶ سایز معرفی شده‌ست:
نانو (n): ۲/۳ میلیون پارامتر
کوچک (s): ۷/۲ میلیون پارامتر
متوسط (m): ۱۵/۴ میلیون پارامتر
بزرگ (b): ۱۹/۱ میلیون پارامتر
بزرگ (l): ۲۴/۴ میلیون پارامتر
خیلی بزرگ (x): ۲۹/۵ میلیون پارامتر

این مدل دقت (mAP) به‌تری روی مجموعه‌داده‌ی COCO داشته و به‌خاطر عدم استفاده از NMS به مراتب سریع‌ترست. طوری که کوچک‌ترین سایز، هر تصویر را در ۱ میلی‌ثانیه پردازش می‌کند (1000fps) و به راحتی می‌توان گفت به‌ترین مدل برای پردازش بلادرنگ ویدئو‌ها روی دستگاه‌های لبه (edge devices) است.

کد این مدل روی فریم‌ورک Ultralytics زده شده و بنابراین به کمک پکیج ultralytics به‌سادگی قابل استفاده است.

نکته‌ی قابل توجه این که، این مدل تحت مجوز GNU GPL v3.0 منتشر شده، یعنی فقط در پروژه‌های اوپن-سورس قابل استفاده‌ست و نمی‌توان از آن در محصولات close-source استفاده کرد.


مقاله
https://arxiv.org/pdf/2405.14458

گیت‌هاب
https://github.com/THU-MIG/yolov10/

فاین‌تیون کردن مدل
https://blog.roboflow.com/yolov10-how-to-train/

دمو
https://huggingface.co/spaces/kadirnar/Yolov10
واژه‌ی AI Agent (عامل هوش‌مصنوعی) واژه‌ای‌ست که علاقه‌مندان به AI این روزها زیاد باهاش روبه‌رو می‌شن. بنابراین در این پست به توضیح این مفهوم می‌پردازیم.

این مفهوم جدید نیست و پیش‌تر با عنوان Intelligent Agent در هوش مصنوعی بررسی می‌شد. اخیرا این مفهوم شکل و شمایل مدرن‌تری به خود گرفته و تحت نام AI Agent پوست‌اندازی کرده‌ست.

در تعریف قدیمی، Intelligent Agent سامانه‌ای (نرم‌افزاری یا سخت‌افزاری یا ترکیبی) است که محیط (Environment) پیرامون خود را از طریق حس‌گرها (Sensors) ها، مشاهده و درک کرده (Perception)، بر اساس یک هدفی که برای او تعریف شده (Agent Goal) و اجرای یک برنامه‌ی تصمیم‌گیری (Agent Function) عملی (Action) را از میان اعمال ممکن انتخاب کرده و توسط عمل‌گرهای خود (Actuators) آن عمل را در محیط انجام می‌دهد. انجام آن عمل در محیط، وضعیت (State) را تغییر داده و تمامی این مراحل در یک حلقه، تکرار می‌شوند تا درنهایت عامل به هدف خود برسد.

این مفهوم، از ابتدا یک ایده‌ی مناسب برای مدل‌کردن سامانه‌های هوشمند مثل انواع روبات‌ها، اتومبیل‌های خودران، برنامه‌های هوش مصنوعی و … بود.

با پیدایش مدل‌های بنیادین مثل LLM ها، دنیای نرم‌افزار هم دچار انقلاب شده و علاقه به توسعه‌ی نرم‌افزارها، سرویس‌ها و دستیارهای هوشمند و خودمختار افزایش یافته‌ست.

در توسعه‌ی نرم‌افزار کلاسیک، همه‌ی‌کار‌ها روی دوش توسعه‌دهنده است، توسعه‌دهنده، هدف برنامه رو مشخص می‌کند، این هدف رو به تعدادی task کوچک‌تر می‌شکند، خروجی هر task را مشخص می‌کند و منطق ترتیب انتخاب task ها را در برنامه می‌نویسد.

با همه‌گیرشدن LLMها، خیلی از برنامه‌ها LLM-powered شدند، در این برنامه‌ها همچنان توسعه‌دهنده هدف برنامه رو مشخص می‌کند، این هدف رو به تعدادی task کوچک‌تر می‌شکند و منطق ترتیب انتخاب task ها را در برنامه می‌نویسد. اما خروجی هر task بر اساس یک پرامپت ورودی به یک LLM به دست می‌آید.

این سبک طراحی و توسعه‌ی محصول، خیلی سریع جای خود رو به RAG-based application ها داد. در اپلیکیشن‌های RAG، برای یافتن خروجی هر task فقط به دانشی که LLM موقع آموزش دیده‌ست بسنده نمی‌شود و دانش به‌روزتر و کامل‌تری همراه با پرامپت به LLM داده می‌شود تا با توجه به آن دانش، خروجی task را مشخص کند.

با افزایش توان استدلال LLM ها، منطق اجرایی برنامه‌ها نیز به LLM ها سپرده شد (توسعه نرم‌افزارهای مبتنی بر Chain و Router). به عبارت دیگر توسعه‌دهنده، هدف برنامه رو مشخص می‌کند و این هدف رو به تعدادی task کوچک‌تر می‌شکند، اما خروجی هر task و منطق ترتیب انتخاب task ها توسط LLM انجام می‌شود.

و اما ترند این روزها در توسعه‌ی سرویس‌های نرم‌افزاری ظاهرا به سمت AI Agent ها در حرکت‌ست. در این نرم‌افزارها، توسعه‌دهنده، فقط هدف برنامه رو مشخص می‌کند، یک LLM سعی می‌کند آن هدف را بررسی و درک کرده، آن را به دنباله‌ای از task های کوچک و قابل دست‌رسی بشکند، با توجه به هدف، و اطلاعات جانبی که از محیط (پایگاه‌های داده‌ای، RAG، فایل‌ها، سرچ، APIها و …) دریافت می‌کند، منطق و اولویت اجرای این task ها را مشخص کرده و در نهایت به ابزارها و Actuator های مربوطه دستور انجام task را می‌دهد. این عمل در یک حلقه،‌ تکرار شده تا AI Agent به هدف خود برسد.

مثلا یک چت‌بات خدمات مشتریان را در نظر بگیرید که intent ها و action ها از قبل برای آن مشخص نشده و این عامل، طی تعامل با مشتری، با چرخیدن در پایگاه‌های داده و مستندات و به‌صورت خودمختار اقدام به رفع مشکل می‌کند.
Forwarded from Tensorflow(@CVision) (Alireza Akhavan)
ماجرای چت جی پی تی و ماشین ۱ دلاری!!
بنگاه‌های فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده می‌کردند؛
یکی از مراجعین، اول، هوش مصنوعی را قانع می‌کند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛
بعد ادامه می‌دهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛
درنهایت تاکید می‌کند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی می‌گیرد؛
البته بنگاه معاملات خودرو چنین معامله‌ای را قبول نمی‌کند؛
اما تو توییتر گفتن فرد با مراجعه به دادگاه و نشان دادن مکالمات، میتونه بنگاه را مجبور به فروش خودرو به یک دلار کنه

autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html
School of AI
مدل YOLOv10 توسط THU-MIG منتشر شد! این مدل در ۶ سایز معرفی شده‌ست: نانو (n): ۲/۳ میلیون پارامتر کوچک (s): ۷/۲ میلیون پارامتر متوسط (m): ۱۵/۴ میلیون پارامتر بزرگ (b): ۱۹/۱ میلیون پارامتر بزرگ (l): ۲۴/۴ میلیون پارامتر خیلی بزرگ (x): ۲۹/۵ میلیون پارامتر این…
This media is not supported in your browser
VIEW IN TELEGRAM
در این ویدئوی ۱۴ ثانیه‌ای با رزولوشن ۶۴۰x۶۴۰، از نسخه‌ی large دو مدل YOLOv8 و YOLOv10 با آستانه‌ی اطمینان ۰/۴، برای شناسایی اشیا استفاده شده‌ست.

- اشیا با رنگ سبز، توسط هر دو مدل شناسایی شده‌اند.
- آبی‌ها توسط مدل YOLOv10 شناسایی شده‌اند ولی مدل YOLOv8 در شناسایی آن‌ها ناتوان بوده.
- قرمزها توسط مدل YOLOv8 شناسایی شده و مدل YOLOv10 در شناسایی آن‌ها ناموفق عمل کرده‌ست.

همون‌طور که می‌بینید، مدل YOLOv10 با این‌که بسیار سبک‌تر و سریع‌ترست، اما در شناسایی اشیای کوچک،‌ به مراتب ضعیف‌تر از YOLOv8 عمل می‌کند.

بنابراین اگر قصد استفاده از YOLOv10 برای شناسایی اشیای کوچک را دارید، به‌ترست، آستانه‌ی اطمینان (Confidence Threshold) را روی عدد کوچک‌تری تنظیم کنید.
خواندن اطلاعات از تصویر قبض کاغذی و تبدیل آن به فایل JSON استاندارد، به‌کمک دو VLM اوپن-سورس محبوب این روزها.

با استفاده از مدل PaliGemma گوگل:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/PaliGemma/Fine_tune_PaliGemma_for_image_%3EJSON.ipynb

با استفاده از مدل Idefics2 هاگینگ‌فیس:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb
ظاهرا باز بین عُلما دعوا شده 😃

با معرفی محصول انقلابی ChatGPT توسط OpenAI، ایلان ماسک که در گذشته عضو تیم اولیه‌ی تاسیس این موسسه بود و انتظار داشت همه‌ی کارهای بزرگ در جهان، زیر نام خودش انجام شده باشند، حسابی به تکاپو افتاد. او در نهایت استارتاپ xAI رو برای پژوهش در زمینه‌ی هوش مصنوعی و با ماموریت “درک هستی” پایه‌گذاری کرد.

ایلان ماسک به‌تازگی از مرحله‌ی جدید جذب سرمایه (۶ میلیارد دلار) برای این استارتاپ خبر داده و از متخصصان و پژوهش‌گران این حوزه دعوت به هم‌کاری کرده‌ست.

البته که ایلان ماسک هم مثل استیو جابز و خیلی از مدیران موفق سیلیکون‌ولی، بین اهالی فن، در رابطه با فشار و استرس کاری، تعادل کار و زندگی، احترام به کارمندان و … تا حدی بدنام‌ست و این خود دلیلی‌ست که خیلی از متخصصان، زیر بار کار کردن برای او نروند.

از جمله این متخصصان، یان لیکان، مدیر ارشد هوش مصنوعی شرکت Meta و استاد دانشگاه نیویورک‌ست. لیکان یکی از سه پدرخوانده‌ی یادگیری عمیق‌ست که نقش پراهمیتی در توسعه‌ی یادگیری عمیق به ویژه شبکه‌های عصبی پیچشی (Convolutional Neural Networks) با معرفی معماری LeNet در سال ۱۹۹۸ داشته‌ست.