🌟 مرکز تحقیقات هوش مصنوعی Salesforce مدل BLIP3-o را منتشر کرده است؛ مجموعهای کاملاً متنباز از مدلهای چندحالته (مولتیمودال) یکپارچه که توانایی درک و تولید تصویر را بهطور همزمان دارند.
در ساختار داخلی، BLIP3-o ترکیبی از یک مدل خودبازگشتی (برای تولید ویژگیهای معنایی میانی) و یک ترنسفورمر دیفیوزیونی (برای تبدیل آنها به تصویر) است.
تیم توسعهدهنده در طول پروژه، مجموعهای از آزمایشها را برای یافتن بهترین استراتژی معماری و آموزش مدل انجام داد. نتایج نشان دادند که استفاده از CLIP عملکرد بهتری نسبت به VAE سنتی دارد.
مدل CLIP نمایشهای فشردهتر و غنیتری تولید میکند که باعث سرعت گرفتن فرایند آموزش و بهبود کیفیت تصاویر تولیدی میشود. همچنین، روش "تطبیق جریان" (Flow Matching) بهتر از روش خطای میانگین مربعات (MSE) عمل میکند و نتایجی متنوعتر و با کیفیت بصری بالاتر تولید میکند.
بهترین نتایج آموزشی زمانی حاصل شد که مدل ابتدا برای درک تصاویر آموزش دید و سپس این مهارتها ثابت شدند تا مرحله آموزش تولید تصویر آغاز گردد.
بر اساس این اصول، دو مدل BLIP3-o 8B و BLIP3-o 4B توسعه یافتند.
در تستهای بنچمارک، BLIP3-o 8B توانست امتیاز 1682.6 در MME-P، عدد 50.6 در MMMU و نمره 0.84 در GenEval کسب کند. در یک مطالعه با ارزیابی انسانی که این مدل را با Janus Pro مقایسه کرد، BLIP3-o هم در کیفیت بصری و هم در دقت نسبت به فرمان ورودی عملکرد بهتری داشت.
در آینده، Salesforce قصد دارد قابلیتهای این مدل را گسترش دهد؛ از جمله ویرایش تصاویر موجود، پشتیبانی از دیالوگهای بصری، و تولید مرحلهبهمرحله تصاویر.
🟡 مدل
🟡 مقاله در Arxiv
🟡 نسخه نمایشی
🟡 دیتاست
🟡 گیتهاب
#هوش_مصنوعی #یادگیری_ماشین #مدل_چندحالته #BLIP3o #Salesforce
#مدل_چندوجهی
@asrgooyeshpardaz
در ساختار داخلی، BLIP3-o ترکیبی از یک مدل خودبازگشتی (برای تولید ویژگیهای معنایی میانی) و یک ترنسفورمر دیفیوزیونی (برای تبدیل آنها به تصویر) است.
تیم توسعهدهنده در طول پروژه، مجموعهای از آزمایشها را برای یافتن بهترین استراتژی معماری و آموزش مدل انجام داد. نتایج نشان دادند که استفاده از CLIP عملکرد بهتری نسبت به VAE سنتی دارد.
مدل CLIP نمایشهای فشردهتر و غنیتری تولید میکند که باعث سرعت گرفتن فرایند آموزش و بهبود کیفیت تصاویر تولیدی میشود. همچنین، روش "تطبیق جریان" (Flow Matching) بهتر از روش خطای میانگین مربعات (MSE) عمل میکند و نتایجی متنوعتر و با کیفیت بصری بالاتر تولید میکند.
بهترین نتایج آموزشی زمانی حاصل شد که مدل ابتدا برای درک تصاویر آموزش دید و سپس این مهارتها ثابت شدند تا مرحله آموزش تولید تصویر آغاز گردد.
بر اساس این اصول، دو مدل BLIP3-o 8B و BLIP3-o 4B توسعه یافتند.
در تستهای بنچمارک، BLIP3-o 8B توانست امتیاز 1682.6 در MME-P، عدد 50.6 در MMMU و نمره 0.84 در GenEval کسب کند. در یک مطالعه با ارزیابی انسانی که این مدل را با Janus Pro مقایسه کرد، BLIP3-o هم در کیفیت بصری و هم در دقت نسبت به فرمان ورودی عملکرد بهتری داشت.
در آینده، Salesforce قصد دارد قابلیتهای این مدل را گسترش دهد؛ از جمله ویرایش تصاویر موجود، پشتیبانی از دیالوگهای بصری، و تولید مرحلهبهمرحله تصاویر.
🟡 مدل
🟡 مقاله در Arxiv
🟡 نسخه نمایشی
🟡 دیتاست
🟡 گیتهاب
#هوش_مصنوعی #یادگیری_ماشین #مدل_چندحالته #BLIP3o #Salesforce
#مدل_چندوجهی
@asrgooyeshpardaz