عصر گویش | هوش مصنوعی

🌟 مرکز تحقیقات هوش مصنوعی Salesforce مدل BLIP3-o را منتشر کرده است؛ مجموعه‌ای کاملاً متن‌باز از مدل‌های چند‌حالته (مولتی‌مودال) یکپارچه که توانایی درک و تولید تصویر را به‌طور همزمان دارند.

در ساختار داخلی، BLIP3-o ترکیبی از یک مدل خودبازگشتی (برای تولید ویژگی‌های معنایی میانی) و یک ترنسفورمر دیفیوزیونی (برای تبدیل آن‌ها به تصویر) است.

تیم توسعه‌دهنده در طول پروژه، مجموعه‌ای از آزمایش‌ها را برای یافتن بهترین استراتژی معماری و آموزش مدل انجام داد. نتایج نشان دادند که استفاده از CLIP عملکرد بهتری نسبت به VAE سنتی دارد.

مدل CLIP نمایش‌های فشرده‌تر و غنی‌تری تولید می‌کند که باعث سرعت گرفتن فرایند آموزش و بهبود کیفیت تصاویر تولیدی می‌شود. همچنین، روش "تطبیق جریان" (Flow Matching) بهتر از روش خطای میانگین مربعات (MSE) عمل می‌کند و نتایجی متنوع‌تر و با کیفیت بصری بالاتر تولید می‌کند.

بهترین نتایج آموزشی زمانی حاصل شد که مدل ابتدا برای درک تصاویر آموزش دید و سپس این مهارت‌ها ثابت شدند تا مرحله آموزش تولید تصویر آغاز گردد.

بر اساس این اصول، دو مدل BLIP3-o 8B و BLIP3-o 4B توسعه یافتند.

در تست‌های بنچمارک، BLIP3-o 8B توانست امتیاز 1682.6 در MME-P، عدد 50.6 در MMMU و نمره 0.84 در GenEval کسب کند. در یک مطالعه با ارزیابی انسانی که این مدل را با Janus Pro مقایسه کرد، BLIP3-o هم در کیفیت بصری و هم در دقت نسبت به فرمان ورودی عملکرد بهتری داشت.

در آینده، Salesforce قصد دارد قابلیت‌های این مدل را گسترش دهد؛ از جمله ویرایش تصاویر موجود، پشتیبانی از دیالوگ‌های بصری، و تولید مرحله‌به‌مرحله تصاویر.

🟡 مدل
🟡 مقاله در Arxiv
🟡 نسخه نمایشی
🟡 دیتاست
🟡 گیت‌هاب

#هوش_مصنوعی #یادگیری_ماشین #مدل_چندحالته #BLIP3o #Salesforce
#مدل_چندوجهی
@asrgooyeshpardaz

4.7K viewsedited 11:36

About

Blog

Apps

Platform