This media is not supported in your browser
VIEW IN TELEGRAM
بخیهزدن پوست دانهی ذرت توسط جدیدترین روبات ریزجراح ساخت شرکت Sony
Forwarded from SUT Twitter
This media is not supported in your browser
VIEW IN TELEGRAM
هشدار بعد از دیدن این ویدئو سعی کنید خونسردی خودتون رو حفظ کنید
این فیچر جدید ChatGPT تقریبا یکی از عظیم ترین پیشرفت ها AI
*Gratomic AI Bot | هوش مصنوعی گراتومیک*
@sut_tw
این فیچر جدید ChatGPT تقریبا یکی از عظیم ترین پیشرفت ها AI
*Gratomic AI Bot | هوش مصنوعی گراتومیک*
@sut_tw
This media is not supported in your browser
VIEW IN TELEGRAM
نسخهی جدید (۱/۵) از خانوادهی مدلهای Grounding DINO در دو سایز Pro و Edge منتشر شد.
مدل Grounding DINO یک مدل Open-Vocabulary Object Detection است که قادر به شناسایی اشیای موجود در تصویر، تنها بر اساس پرامپت متنی ارائهشده (بهصورت Zero-Shot Learning) است.
این نسخه از Backbone جدید استفاده کرده که از نسخهی قبلی سریعتر و دقیقترست.
نسخهی Pro نسخهای قدرتمندست که در سناریوهای پیچیده مثل Dense Object Detection (اشیا بسیار نزدیک به هم) و Long-tailed Object Detection (دادههای آموزشی یک کلاس بسیار کمتر از کلاسهای دیگر) نیز عملکرد خوبی دارد.
نسخهی Edge نسخهی سبک، سریع و کممصرف و مختص اجرا روی دستگاههای لبه مثل NVIDIA Jetson است. این نسخه برای TensorRT بهینه شده و قادرست تعداد ۷۵/۲ فریم را در هر ثانیه پردازش کند.
این نسخه تحت لایسنس Apache 2.0 منتشر شده یعنی بهراحتی و رایگان میتوان از آن در ساخت اپلیکیشنهای تجاری استفاده کرد.
دمو:
https://deepdataspace.com/playground/grounding_dino
مقاله:
https://arxiv.org/pdf/2405.10300
گیتهاب:
https://github.com/IDEA-Research/Grounding-DINO-1.5-API
مدل Grounding DINO یک مدل Open-Vocabulary Object Detection است که قادر به شناسایی اشیای موجود در تصویر، تنها بر اساس پرامپت متنی ارائهشده (بهصورت Zero-Shot Learning) است.
این نسخه از Backbone جدید استفاده کرده که از نسخهی قبلی سریعتر و دقیقترست.
نسخهی Pro نسخهای قدرتمندست که در سناریوهای پیچیده مثل Dense Object Detection (اشیا بسیار نزدیک به هم) و Long-tailed Object Detection (دادههای آموزشی یک کلاس بسیار کمتر از کلاسهای دیگر) نیز عملکرد خوبی دارد.
نسخهی Edge نسخهی سبک، سریع و کممصرف و مختص اجرا روی دستگاههای لبه مثل NVIDIA Jetson است. این نسخه برای TensorRT بهینه شده و قادرست تعداد ۷۵/۲ فریم را در هر ثانیه پردازش کند.
این نسخه تحت لایسنس Apache 2.0 منتشر شده یعنی بهراحتی و رایگان میتوان از آن در ساخت اپلیکیشنهای تجاری استفاده کرد.
دمو:
https://deepdataspace.com/playground/grounding_dino
مقاله:
https://arxiv.org/pdf/2405.10300
گیتهاب:
https://github.com/IDEA-Research/Grounding-DINO-1.5-API
School of AI
اگر دموهای GPT-4o براتون جذاب بود، احتمالا تا الان به مدلهای بینایی-زبان (Vision-Language Models) هم علاقهمند شدهاید. مدلهایی که تصویر و نوشتار را بهصورت همزمان دریافت و درک کرده و متنی مرتبط را در خروجی تولید میکنند. امروز گوگل خانوادهای از مدلهای…
در بلاگپست آموزشی زیر از تیم Roboflow مدل بینایی-زبان PaliGemma که بهتازگی توسط گوگل معرفی شده، قدم-به-قدم برای تشخیص شکستگی استخوان از روی تصویر X-Ray فاینتیون شدهست.
https://blog.roboflow.com/how-to-fine-tune-paligemma/
https://blog.roboflow.com/how-to-fine-tune-paligemma/
بررسی میدانی ما نشون میده، هوش مصنوعی GPT-4o اونقدرها هم که OpenAI ادعا میکنه، شگفتانگیز نیست. حداقل در شمارش تعداد خروسهای این تصویر که به گرد پای مدل اوپنسورس PaliGemma نمیرسه.
پژوهشگران گوگل در این پژوهش نشان دادهاند که Fine-tune کردن LLM ها میتواند باعث افزایش میل به Hallucination شود.
https://arxiv.org/pdf/2405.05904
https://arxiv.org/pdf/2405.05904
مطالعهی این گزارش از Salesforce به علاقهمندان به RLHF پیشنهاد میشود.
https://arxiv.org/pdf/2405.07863v1
https://arxiv.org/pdf/2405.07863v1
This media is not supported in your browser
VIEW IN TELEGRAM
مصطفی سلیمان، مدیراجرایی بخش هوش مصنوعی شرکت مایکروسافت، ویدئویی از محصول جدید مایکروسافت (Copilot + PCs) منتشر کرد که درواقع یک رایانهی شخصی دارای شتابدهندهی هوشمصنوعی + سیستمعامل ویندوز + یک نسخهی لوکال از Copilot است که به همهی بخشهای رایانه دسترسی دارد.
نسخهی جدید Microsoft Copilot مبتنی بر GPT-4o بوده و قابلیت شنیدن، دیدن و صحبتکردن درلحظه را دارد،
نسل جدیدی از رایانههای شخصی (Personal Computers) موسوم به هوش شخصی (Personal Intelligence) در راهاند.
نسخهی جدید Microsoft Copilot مبتنی بر GPT-4o بوده و قابلیت شنیدن، دیدن و صحبتکردن درلحظه را دارد،
نسل جدیدی از رایانههای شخصی (Personal Computers) موسوم به هوش شخصی (Personal Intelligence) در راهاند.
This media is not supported in your browser
VIEW IN TELEGRAM
پژوهشگران دانشگاه میشیگان، یک Diffusion Model معرفی کردهاند که با دریافت همزمان یک پرامپت متنی برای تصویر و یک پرامپت متنی برای صوت، تصویری که همزمان صدا (Spectrogram) نیز هست تولید میکند.
اسپکتوگرام (فارسی: طیفنگاره، آوانما) نمایشی دوبعدی (مانند تصویر) از سیگنالهایی مثل صداست. تصویر تولیدشده توسط این مدل جدید، همزمان که تصویری قابل فهم برای سیستم بیناییست، یک آوانمای معتبر نیز است.
مقاله:
arxiv.org/pdf/2405.12221
بلاگپُست:
ificl.github.io/images-that-sound
گیتهاب:
github.com/IFICL/images-that-sound
اسپکتوگرام (فارسی: طیفنگاره، آوانما) نمایشی دوبعدی (مانند تصویر) از سیگنالهایی مثل صداست. تصویر تولیدشده توسط این مدل جدید، همزمان که تصویری قابل فهم برای سیستم بیناییست، یک آوانمای معتبر نیز است.
مقاله:
arxiv.org/pdf/2405.12221
بلاگپُست:
ificl.github.io/images-that-sound
گیتهاب:
github.com/IFICL/images-that-sound
شرکت OpenAI محبوبترین صدای ChatGPT موسوم به Sky را که در دموهای چند روز پیش این شرکت وجود داشت، حذف کرد.
این صدا، الهامگرفتهشده از صدای هوش مصنوعی سامانثا در فیلم Her بود که به علت شباهت زیاد به صدای اسکارلت جانسون (صداپیشهی این فیلم) و نارضایتی وی، حذف شد.
https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/
این صدا، الهامگرفتهشده از صدای هوش مصنوعی سامانثا در فیلم Her بود که به علت شباهت زیاد به صدای اسکارلت جانسون (صداپیشهی این فیلم) و نارضایتی وی، حذف شد.
https://openai.com/index/how-the-voices-for-chatgpt-were-chosen/
همونطور که میدونید، بهتازگی مدلهای چندوجهی (Multimodal Models) و بهطور خاص مدلهای بینایی-زبان (Vision-Language Models) بسیار محبوب شدهاند.
این مدلها معمولا بهطور همزمان یک تصویر و یک نوشتار را در ورودی دریافت میکنند. خروجی این مدلها ممکنست تنها نوشتار باشد، تنها تصویر باشد و یا ترکیبی از هر دو.
از مدلهای تجاری مثل GPT-4o و Gemini 1.5 Pro که بگذریم، بسیاری از افراد مایلاند از مدلهای اوپن-سورس و رایگان استفاده کنند.
بهتازگی شاهد انتشار مدل PaliGemma توسط گوگل بودیم که در عین سادگی، عملکرد فوقالعادهای دارد. با این حال، این مدل ۸ میلیارد پارامتر دارد و ممکنست برای اجرا روی دستگاههای ضعیف مناسب نباشد.
گزینهی دیگر Moondream2 است که با اینکه دقت PaliGemma را ندارد اما بهنسبت سایز بسیار کوچک آن (۱/۸۶ میلیارد پارامتر) که مناسب اجرای بلادرنگست، دقت قابل قبولی داشته و حتی در آزمون VQAv2 از GPT-4o هم بهتر عمل میکند.
لینک آموزشی زیر، این مدل را برای شمارش مبلغ پول فاینتیون میکند.
https://blog.roboflow.com/finetuning-moondream2/
دمو:
https://huggingface.co/spaces/vikhyatk/moondream2
این مدلها معمولا بهطور همزمان یک تصویر و یک نوشتار را در ورودی دریافت میکنند. خروجی این مدلها ممکنست تنها نوشتار باشد، تنها تصویر باشد و یا ترکیبی از هر دو.
از مدلهای تجاری مثل GPT-4o و Gemini 1.5 Pro که بگذریم، بسیاری از افراد مایلاند از مدلهای اوپن-سورس و رایگان استفاده کنند.
بهتازگی شاهد انتشار مدل PaliGemma توسط گوگل بودیم که در عین سادگی، عملکرد فوقالعادهای دارد. با این حال، این مدل ۸ میلیارد پارامتر دارد و ممکنست برای اجرا روی دستگاههای ضعیف مناسب نباشد.
گزینهی دیگر Moondream2 است که با اینکه دقت PaliGemma را ندارد اما بهنسبت سایز بسیار کوچک آن (۱/۸۶ میلیارد پارامتر) که مناسب اجرای بلادرنگست، دقت قابل قبولی داشته و حتی در آزمون VQAv2 از GPT-4o هم بهتر عمل میکند.
لینک آموزشی زیر، این مدل را برای شمارش مبلغ پول فاینتیون میکند.
https://blog.roboflow.com/finetuning-moondream2/
دمو:
https://huggingface.co/spaces/vikhyatk/moondream2
یکی دیگه از VLM ها که بهتازگی توسط HuggingFace معرفی شده، Idefics2 است.
این مدل نیز مانند PaliGemma هشت میلیارد پارامتر دارد.
قابلیت دریافت دنبالهای از تصاویر (مثلا تکهای از یک ویدئو) را دارد.
تصاویر با رزولوشن و aspect ratio خودشان پردازش میشوند.
قابلیت OCR بسیار خوبی دارد.
تحت مجوز Apache 2.0 منتشر شده و استفاده از آن برای هر منظوری بلامانعست.
بلاگپست معرفی:
https://huggingface.co/blog/idefics2
مقاله:
https://arxiv.org/pdf/2405.02246
مستندات:
https://huggingface.co/docs/transformers/main/en/model_doc/idefics2
فاینتیون کردن برای استخراج اطلاعات از قبض:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb
این مدل نیز مانند PaliGemma هشت میلیارد پارامتر دارد.
قابلیت دریافت دنبالهای از تصاویر (مثلا تکهای از یک ویدئو) را دارد.
تصاویر با رزولوشن و aspect ratio خودشان پردازش میشوند.
قابلیت OCR بسیار خوبی دارد.
تحت مجوز Apache 2.0 منتشر شده و استفاده از آن برای هر منظوری بلامانعست.
بلاگپست معرفی:
https://huggingface.co/blog/idefics2
مقاله:
https://arxiv.org/pdf/2405.02246
مستندات:
https://huggingface.co/docs/transformers/main/en/model_doc/idefics2
فاینتیون کردن برای استخراج اطلاعات از قبض:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb
شاید شنیده باشید که در هنگام آموزش شبکههای عصبی، وقتی اندازهی batch ها را x برابر میکنید، بهترست نرخ آموزش را نیز x برابر (اگر الگوریتم آموزش SGD است) و یا x√ برابر (اگر الگوریتم آموزش Adam است) کنید.
مثلا در LLM ها که بیشتر از الگوریتم آموزشی Adam استفاده میشود، اندازهی batch ها را تا حدی که GPU شما خطای Out_Of_Memory نمیدهد (به صورت توانی از ۲) افزایش دهید. هر بار که اندازه batch را ۲ برابر میکنید، نرخ آموزش را ۱/۴ برابر کنید.
این مقالهی جالب از دانشگاه پرینستون، به کمک معادلات دیفرانسیل تصادفی، الگوی کارایی برای تغییر هایپرپارامترها (مثل learning rate) با افزایش batch size ارائه میدهد.
https://www.cs.princeton.edu/~smalladi/blog/2024/01/22/SDEs-ScalingRules/
پینوشت:
معمولا در عمل، نرخ آموزش هرچقدر هم که باشد، در طی epoch ها، ابتدا از 0.1 نرخ آموزش شروع کرده و در ده درصد ابتدایی مسیر آموزش، این نرخ را بهصورت خطی زیاد کرده تا وقتی ده درصد epoch ها طی شد، به نرخ اصلی رسیده باشیم. از آنجا به بعد (۹۰ درصد باقی epoch ها) نرخ آموزش بهصورت کسینوسی کم میشود.
مثلا در LLM ها که بیشتر از الگوریتم آموزشی Adam استفاده میشود، اندازهی batch ها را تا حدی که GPU شما خطای Out_Of_Memory نمیدهد (به صورت توانی از ۲) افزایش دهید. هر بار که اندازه batch را ۲ برابر میکنید، نرخ آموزش را ۱/۴ برابر کنید.
این مقالهی جالب از دانشگاه پرینستون، به کمک معادلات دیفرانسیل تصادفی، الگوی کارایی برای تغییر هایپرپارامترها (مثل learning rate) با افزایش batch size ارائه میدهد.
https://www.cs.princeton.edu/~smalladi/blog/2024/01/22/SDEs-ScalingRules/
پینوشت:
معمولا در عمل، نرخ آموزش هرچقدر هم که باشد، در طی epoch ها، ابتدا از 0.1 نرخ آموزش شروع کرده و در ده درصد ابتدایی مسیر آموزش، این نرخ را بهصورت خطی زیاد کرده تا وقتی ده درصد epoch ها طی شد، به نرخ اصلی رسیده باشیم. از آنجا به بعد (۹۰ درصد باقی epoch ها) نرخ آموزش بهصورت کسینوسی کم میشود.
مدل YOLOv10 توسط THU-MIG منتشر شد!
این مدل در ۶ سایز معرفی شدهست:
نانو (n): ۲/۳ میلیون پارامتر
کوچک (s): ۷/۲ میلیون پارامتر
متوسط (m): ۱۵/۴ میلیون پارامتر
بزرگ (b): ۱۹/۱ میلیون پارامتر
بزرگ (l): ۲۴/۴ میلیون پارامتر
خیلی بزرگ (x): ۲۹/۵ میلیون پارامتر
این مدل دقت (mAP) بهتری روی مجموعهدادهی COCO داشته و بهخاطر عدم استفاده از NMS به مراتب سریعترست. طوری که کوچکترین سایز، هر تصویر را در ۱ میلیثانیه پردازش میکند (1000fps) و به راحتی میتوان گفت بهترین مدل برای پردازش بلادرنگ ویدئوها روی دستگاههای لبه (edge devices) است.
کد این مدل روی فریمورک Ultralytics زده شده و بنابراین به کمک پکیج ultralytics بهسادگی قابل استفاده است.
نکتهی قابل توجه این که، این مدل تحت مجوز GNU GPL v3.0 منتشر شده، یعنی فقط در پروژههای اوپن-سورس قابل استفادهست و نمیتوان از آن در محصولات close-source استفاده کرد.
مقاله
https://arxiv.org/pdf/2405.14458
گیتهاب
https://github.com/THU-MIG/yolov10/
فاینتیون کردن مدل
https://blog.roboflow.com/yolov10-how-to-train/
دمو
https://huggingface.co/spaces/kadirnar/Yolov10
این مدل در ۶ سایز معرفی شدهست:
نانو (n): ۲/۳ میلیون پارامتر
کوچک (s): ۷/۲ میلیون پارامتر
متوسط (m): ۱۵/۴ میلیون پارامتر
بزرگ (b): ۱۹/۱ میلیون پارامتر
بزرگ (l): ۲۴/۴ میلیون پارامتر
خیلی بزرگ (x): ۲۹/۵ میلیون پارامتر
این مدل دقت (mAP) بهتری روی مجموعهدادهی COCO داشته و بهخاطر عدم استفاده از NMS به مراتب سریعترست. طوری که کوچکترین سایز، هر تصویر را در ۱ میلیثانیه پردازش میکند (1000fps) و به راحتی میتوان گفت بهترین مدل برای پردازش بلادرنگ ویدئوها روی دستگاههای لبه (edge devices) است.
کد این مدل روی فریمورک Ultralytics زده شده و بنابراین به کمک پکیج ultralytics بهسادگی قابل استفاده است.
نکتهی قابل توجه این که، این مدل تحت مجوز GNU GPL v3.0 منتشر شده، یعنی فقط در پروژههای اوپن-سورس قابل استفادهست و نمیتوان از آن در محصولات close-source استفاده کرد.
مقاله
https://arxiv.org/pdf/2405.14458
گیتهاب
https://github.com/THU-MIG/yolov10/
فاینتیون کردن مدل
https://blog.roboflow.com/yolov10-how-to-train/
دمو
https://huggingface.co/spaces/kadirnar/Yolov10
واژهی AI Agent (عامل هوشمصنوعی) واژهایست که علاقهمندان به AI این روزها زیاد باهاش روبهرو میشن. بنابراین در این پست به توضیح این مفهوم میپردازیم.
این مفهوم جدید نیست و پیشتر با عنوان Intelligent Agent در هوش مصنوعی بررسی میشد. اخیرا این مفهوم شکل و شمایل مدرنتری به خود گرفته و تحت نام AI Agent پوستاندازی کردهست.
در تعریف قدیمی، Intelligent Agent سامانهای (نرمافزاری یا سختافزاری یا ترکیبی) است که محیط (Environment) پیرامون خود را از طریق حسگرها (Sensors) ها، مشاهده و درک کرده (Perception)، بر اساس یک هدفی که برای او تعریف شده (Agent Goal) و اجرای یک برنامهی تصمیمگیری (Agent Function) عملی (Action) را از میان اعمال ممکن انتخاب کرده و توسط عملگرهای خود (Actuators) آن عمل را در محیط انجام میدهد. انجام آن عمل در محیط، وضعیت (State) را تغییر داده و تمامی این مراحل در یک حلقه، تکرار میشوند تا درنهایت عامل به هدف خود برسد.
این مفهوم، از ابتدا یک ایدهی مناسب برای مدلکردن سامانههای هوشمند مثل انواع روباتها، اتومبیلهای خودران، برنامههای هوش مصنوعی و … بود.
با پیدایش مدلهای بنیادین مثل LLM ها، دنیای نرمافزار هم دچار انقلاب شده و علاقه به توسعهی نرمافزارها، سرویسها و دستیارهای هوشمند و خودمختار افزایش یافتهست.
در توسعهی نرمافزار کلاسیک، همهیکارها روی دوش توسعهدهنده است، توسعهدهنده، هدف برنامه رو مشخص میکند، این هدف رو به تعدادی task کوچکتر میشکند، خروجی هر task را مشخص میکند و منطق ترتیب انتخاب task ها را در برنامه مینویسد.
با همهگیرشدن LLMها، خیلی از برنامهها LLM-powered شدند، در این برنامهها همچنان توسعهدهنده هدف برنامه رو مشخص میکند، این هدف رو به تعدادی task کوچکتر میشکند و منطق ترتیب انتخاب task ها را در برنامه مینویسد. اما خروجی هر task بر اساس یک پرامپت ورودی به یک LLM به دست میآید.
این سبک طراحی و توسعهی محصول، خیلی سریع جای خود رو به RAG-based application ها داد. در اپلیکیشنهای RAG، برای یافتن خروجی هر task فقط به دانشی که LLM موقع آموزش دیدهست بسنده نمیشود و دانش بهروزتر و کاملتری همراه با پرامپت به LLM داده میشود تا با توجه به آن دانش، خروجی task را مشخص کند.
با افزایش توان استدلال LLM ها، منطق اجرایی برنامهها نیز به LLM ها سپرده شد (توسعه نرمافزارهای مبتنی بر Chain و Router). به عبارت دیگر توسعهدهنده، هدف برنامه رو مشخص میکند و این هدف رو به تعدادی task کوچکتر میشکند، اما خروجی هر task و منطق ترتیب انتخاب task ها توسط LLM انجام میشود.
و اما ترند این روزها در توسعهی سرویسهای نرمافزاری ظاهرا به سمت AI Agent ها در حرکتست. در این نرمافزارها، توسعهدهنده، فقط هدف برنامه رو مشخص میکند، یک LLM سعی میکند آن هدف را بررسی و درک کرده، آن را به دنبالهای از task های کوچک و قابل دسترسی بشکند، با توجه به هدف، و اطلاعات جانبی که از محیط (پایگاههای دادهای، RAG، فایلها، سرچ، APIها و …) دریافت میکند، منطق و اولویت اجرای این task ها را مشخص کرده و در نهایت به ابزارها و Actuator های مربوطه دستور انجام task را میدهد. این عمل در یک حلقه، تکرار شده تا AI Agent به هدف خود برسد.
مثلا یک چتبات خدمات مشتریان را در نظر بگیرید که intent ها و action ها از قبل برای آن مشخص نشده و این عامل، طی تعامل با مشتری، با چرخیدن در پایگاههای داده و مستندات و بهصورت خودمختار اقدام به رفع مشکل میکند.
این مفهوم جدید نیست و پیشتر با عنوان Intelligent Agent در هوش مصنوعی بررسی میشد. اخیرا این مفهوم شکل و شمایل مدرنتری به خود گرفته و تحت نام AI Agent پوستاندازی کردهست.
در تعریف قدیمی، Intelligent Agent سامانهای (نرمافزاری یا سختافزاری یا ترکیبی) است که محیط (Environment) پیرامون خود را از طریق حسگرها (Sensors) ها، مشاهده و درک کرده (Perception)، بر اساس یک هدفی که برای او تعریف شده (Agent Goal) و اجرای یک برنامهی تصمیمگیری (Agent Function) عملی (Action) را از میان اعمال ممکن انتخاب کرده و توسط عملگرهای خود (Actuators) آن عمل را در محیط انجام میدهد. انجام آن عمل در محیط، وضعیت (State) را تغییر داده و تمامی این مراحل در یک حلقه، تکرار میشوند تا درنهایت عامل به هدف خود برسد.
این مفهوم، از ابتدا یک ایدهی مناسب برای مدلکردن سامانههای هوشمند مثل انواع روباتها، اتومبیلهای خودران، برنامههای هوش مصنوعی و … بود.
با پیدایش مدلهای بنیادین مثل LLM ها، دنیای نرمافزار هم دچار انقلاب شده و علاقه به توسعهی نرمافزارها، سرویسها و دستیارهای هوشمند و خودمختار افزایش یافتهست.
در توسعهی نرمافزار کلاسیک، همهیکارها روی دوش توسعهدهنده است، توسعهدهنده، هدف برنامه رو مشخص میکند، این هدف رو به تعدادی task کوچکتر میشکند، خروجی هر task را مشخص میکند و منطق ترتیب انتخاب task ها را در برنامه مینویسد.
با همهگیرشدن LLMها، خیلی از برنامهها LLM-powered شدند، در این برنامهها همچنان توسعهدهنده هدف برنامه رو مشخص میکند، این هدف رو به تعدادی task کوچکتر میشکند و منطق ترتیب انتخاب task ها را در برنامه مینویسد. اما خروجی هر task بر اساس یک پرامپت ورودی به یک LLM به دست میآید.
این سبک طراحی و توسعهی محصول، خیلی سریع جای خود رو به RAG-based application ها داد. در اپلیکیشنهای RAG، برای یافتن خروجی هر task فقط به دانشی که LLM موقع آموزش دیدهست بسنده نمیشود و دانش بهروزتر و کاملتری همراه با پرامپت به LLM داده میشود تا با توجه به آن دانش، خروجی task را مشخص کند.
با افزایش توان استدلال LLM ها، منطق اجرایی برنامهها نیز به LLM ها سپرده شد (توسعه نرمافزارهای مبتنی بر Chain و Router). به عبارت دیگر توسعهدهنده، هدف برنامه رو مشخص میکند و این هدف رو به تعدادی task کوچکتر میشکند، اما خروجی هر task و منطق ترتیب انتخاب task ها توسط LLM انجام میشود.
و اما ترند این روزها در توسعهی سرویسهای نرمافزاری ظاهرا به سمت AI Agent ها در حرکتست. در این نرمافزارها، توسعهدهنده، فقط هدف برنامه رو مشخص میکند، یک LLM سعی میکند آن هدف را بررسی و درک کرده، آن را به دنبالهای از task های کوچک و قابل دسترسی بشکند، با توجه به هدف، و اطلاعات جانبی که از محیط (پایگاههای دادهای، RAG، فایلها، سرچ، APIها و …) دریافت میکند، منطق و اولویت اجرای این task ها را مشخص کرده و در نهایت به ابزارها و Actuator های مربوطه دستور انجام task را میدهد. این عمل در یک حلقه، تکرار شده تا AI Agent به هدف خود برسد.
مثلا یک چتبات خدمات مشتریان را در نظر بگیرید که intent ها و action ها از قبل برای آن مشخص نشده و این عامل، طی تعامل با مشتری، با چرخیدن در پایگاههای داده و مستندات و بهصورت خودمختار اقدام به رفع مشکل میکند.
Forwarded from Tensorflow(@CVision) (Alireza Akhavan)
ماجرای چت جی پی تی و ماشین ۱ دلاری!!
بنگاههای فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده میکردند؛
یکی از مراجعین، اول، هوش مصنوعی را قانع میکند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛
بعد ادامه میدهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛
درنهایت تاکید میکند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی میگیرد؛
البته بنگاه معاملات خودرو چنین معاملهای را قبول نمیکند؛
اما تو توییتر گفتن فرد با مراجعه به دادگاه و نشان دادن مکالمات، میتونه بنگاه را مجبور به فروش خودرو به یک دلار کنه
autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html
بنگاههای فروش خودروی شورولت از ChatGPT برای پاسخ دادن به سؤالات مشتریان استفاده میکردند؛
یکی از مراجعین، اول، هوش مصنوعی را قانع میکند که چون وظیفه نمایندگی بنگاه را دارد، راضی نگه داشتن مشتری وظیفه او است؛
بعد ادامه میدهد که بودجه او برای خرید خودروی ۸۰ هزار دلاری، فقط یک دلار است و برای راضی نگه داشتن او باید آن را به این قیمت به او بفروشند؛
درنهایت تاکید میکند که آیا معامله نهایی است؟ و تاییدیه را هم از هوش مصنوعی میگیرد؛
البته بنگاه معاملات خودرو چنین معاملهای را قبول نمیکند؛
اما تو توییتر گفتن فرد با مراجعه به دادگاه و نشان دادن مکالمات، میتونه بنگاه را مجبور به فروش خودرو به یک دلار کنه
autoevolution.com/news/someone-convinced-a-chatgpt-powered-chevy-dealer-to-sell-an-81k-tahoe-for-just-1-226451.html
autoevolution
Someone Convinced a ChatGPT-Powered Chevy Dealer to Sell $81K Tahoe for Just $1
And as the chatbot itself said, "It's a legally binding offer, no takesies backsies," so Chevrolet should honor the order
School of AI
مدل YOLOv10 توسط THU-MIG منتشر شد! این مدل در ۶ سایز معرفی شدهست: نانو (n): ۲/۳ میلیون پارامتر کوچک (s): ۷/۲ میلیون پارامتر متوسط (m): ۱۵/۴ میلیون پارامتر بزرگ (b): ۱۹/۱ میلیون پارامتر بزرگ (l): ۲۴/۴ میلیون پارامتر خیلی بزرگ (x): ۲۹/۵ میلیون پارامتر این…
This media is not supported in your browser
VIEW IN TELEGRAM
در این ویدئوی ۱۴ ثانیهای با رزولوشن ۶۴۰x۶۴۰، از نسخهی large دو مدل YOLOv8 و YOLOv10 با آستانهی اطمینان ۰/۴، برای شناسایی اشیا استفاده شدهست.
- اشیا با رنگ سبز، توسط هر دو مدل شناسایی شدهاند.
- آبیها توسط مدل YOLOv10 شناسایی شدهاند ولی مدل YOLOv8 در شناسایی آنها ناتوان بوده.
- قرمزها توسط مدل YOLOv8 شناسایی شده و مدل YOLOv10 در شناسایی آنها ناموفق عمل کردهست.
همونطور که میبینید، مدل YOLOv10 با اینکه بسیار سبکتر و سریعترست، اما در شناسایی اشیای کوچک، به مراتب ضعیفتر از YOLOv8 عمل میکند.
بنابراین اگر قصد استفاده از YOLOv10 برای شناسایی اشیای کوچک را دارید، بهترست، آستانهی اطمینان (Confidence Threshold) را روی عدد کوچکتری تنظیم کنید.
- اشیا با رنگ سبز، توسط هر دو مدل شناسایی شدهاند.
- آبیها توسط مدل YOLOv10 شناسایی شدهاند ولی مدل YOLOv8 در شناسایی آنها ناتوان بوده.
- قرمزها توسط مدل YOLOv8 شناسایی شده و مدل YOLOv10 در شناسایی آنها ناموفق عمل کردهست.
همونطور که میبینید، مدل YOLOv10 با اینکه بسیار سبکتر و سریعترست، اما در شناسایی اشیای کوچک، به مراتب ضعیفتر از YOLOv8 عمل میکند.
بنابراین اگر قصد استفاده از YOLOv10 برای شناسایی اشیای کوچک را دارید، بهترست، آستانهی اطمینان (Confidence Threshold) را روی عدد کوچکتری تنظیم کنید.
خواندن اطلاعات از تصویر قبض کاغذی و تبدیل آن به فایل JSON استاندارد، بهکمک دو VLM اوپن-سورس محبوب این روزها.
با استفاده از مدل PaliGemma گوگل:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/PaliGemma/Fine_tune_PaliGemma_for_image_%3EJSON.ipynb
با استفاده از مدل Idefics2 هاگینگفیس:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb
با استفاده از مدل PaliGemma گوگل:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/PaliGemma/Fine_tune_PaliGemma_for_image_%3EJSON.ipynb
با استفاده از مدل Idefics2 هاگینگفیس:
https://github.com/NielsRogge/Transformers-Tutorials/blob/master/Idefics2/Fine_tune_Idefics2_for_JSON_extraction_use_cases_(PyTorch_Lightning).ipynb
ظاهرا باز بین عُلما دعوا شده 😃
با معرفی محصول انقلابی ChatGPT توسط OpenAI، ایلان ماسک که در گذشته عضو تیم اولیهی تاسیس این موسسه بود و انتظار داشت همهی کارهای بزرگ در جهان، زیر نام خودش انجام شده باشند، حسابی به تکاپو افتاد. او در نهایت استارتاپ xAI رو برای پژوهش در زمینهی هوش مصنوعی و با ماموریت “درک هستی” پایهگذاری کرد.
ایلان ماسک بهتازگی از مرحلهی جدید جذب سرمایه (۶ میلیارد دلار) برای این استارتاپ خبر داده و از متخصصان و پژوهشگران این حوزه دعوت به همکاری کردهست.
البته که ایلان ماسک هم مثل استیو جابز و خیلی از مدیران موفق سیلیکونولی، بین اهالی فن، در رابطه با فشار و استرس کاری، تعادل کار و زندگی، احترام به کارمندان و … تا حدی بدنامست و این خود دلیلیست که خیلی از متخصصان، زیر بار کار کردن برای او نروند.
از جمله این متخصصان، یان لیکان، مدیر ارشد هوش مصنوعی شرکت Meta و استاد دانشگاه نیویورکست. لیکان یکی از سه پدرخواندهی یادگیری عمیقست که نقش پراهمیتی در توسعهی یادگیری عمیق به ویژه شبکههای عصبی پیچشی (Convolutional Neural Networks) با معرفی معماری LeNet در سال ۱۹۹۸ داشتهست.
با معرفی محصول انقلابی ChatGPT توسط OpenAI، ایلان ماسک که در گذشته عضو تیم اولیهی تاسیس این موسسه بود و انتظار داشت همهی کارهای بزرگ در جهان، زیر نام خودش انجام شده باشند، حسابی به تکاپو افتاد. او در نهایت استارتاپ xAI رو برای پژوهش در زمینهی هوش مصنوعی و با ماموریت “درک هستی” پایهگذاری کرد.
ایلان ماسک بهتازگی از مرحلهی جدید جذب سرمایه (۶ میلیارد دلار) برای این استارتاپ خبر داده و از متخصصان و پژوهشگران این حوزه دعوت به همکاری کردهست.
البته که ایلان ماسک هم مثل استیو جابز و خیلی از مدیران موفق سیلیکونولی، بین اهالی فن، در رابطه با فشار و استرس کاری، تعادل کار و زندگی، احترام به کارمندان و … تا حدی بدنامست و این خود دلیلیست که خیلی از متخصصان، زیر بار کار کردن برای او نروند.
از جمله این متخصصان، یان لیکان، مدیر ارشد هوش مصنوعی شرکت Meta و استاد دانشگاه نیویورکست. لیکان یکی از سه پدرخواندهی یادگیری عمیقست که نقش پراهمیتی در توسعهی یادگیری عمیق به ویژه شبکههای عصبی پیچشی (Convolutional Neural Networks) با معرفی معماری LeNet در سال ۱۹۹۸ داشتهست.