خبرنامه هوش مصنوعی دومان

تولید ویدئو از عکس و متن توسط Stability AI

شرکت Stability AI مدل پایه Stable Video Diffusion را به صورت اپن‌سورس معرفی کرد. این مدل با استفاده از تصویر ورودی یک ویدئو بسیار کوتاه (حدود ۱۴ الی ۲۵ فریم) تولید می‌کند. قرار است به زودی مدل دیگری برای تبدیل متن به ویدئو منتشر کند. نمونه‌هایی که در این ویدئو مشاهده می‌کنید مربوط به دموی سرویس تبدیل متن به ویدئو است.

#stability_ai

@dumannewsletter

559 views21:10

0:24

تولید تصویر از متن به صورت Real Time (معرفی SDXL Turbo)

استارتاپ Stability AI روش جدیدی را برای تولید تصویر معرفی کرده که سرعت بیشتری نسب به روش‌های مرسوم در این حوزه دارد. این روش جدید از تکنولوژی Adversarial Diffusion Distillation استفاده کرده و SDXL Turbo نامیده می‌شود. برای مطالعه بیشتر درباره جزئیات فنی این تکنیک اینجا را بخوانید. همچنین می‌توانید از اینجا آن را تست کنید.

#stability_ai
#sdxl_turbo

@dumannewsletter

566 views17:14

درخواست استعفا از مدیرعامل Stability AI

بنابر گزارشی که توسط بلومبرگ منتشر شده سرمایه‌گذاران Stability AI نسبت به وضعیت مالی و مسائل مدیریتی این استارتاپ بیمناک بوده و قصد فروش آن را دارند. بنابر این گزارش Coatue بزرگترین سرمایه‌گذار Stability AI از Emad Mostaque مدیرعامل این شرکت خواسته که از سمت خود استعفا دهد. مذاکراتی برای فروش این استارتاپ با سرمایه‌گذاران محتمل نیز انجام شده است. استارتاپ Stability AI در لندن مستقر بوده و یکی از استارتاپ‌های پیشرو در حوزه هوش‌مصنوعی است که به صورت متن‌باز دستاوردهای خود را منتشر می‌کند.

#stability_ai

@dumannewsletter

487 views14:50

0:04

سه بعدی‌سازی تصاویر با Stable Zero123

شرکت Stability AI نسخه جدید مدل سه‌بعدی ساز خود را با نام Stable Zero123 منتشر کرد. این نسخه نسبت به مدل قبلی یعنی Zero123-XL بهبود قابل توجهی داشته است. این بهبود در تصاویر فوق نمایش داده شده است. Stable Zero123 به صورت اپن‌سورس صرفاً برای اهداف تحقیقاتی منتشر شده است. برای دسترسی به مدل و جزئیات فنی بیشتر به اینجا مراجعه کنید.

#stability_ai
#stable_zero123

@dumannewsletter

588 views22:16

معرفی مدل‌های زبانی کوچک جدید از Stability AI

۱. مدل Stable Code 3B: این مدل کوچک مخصوص کدنویسی با ۱۸ زبان برنامه‌نویسی مختلف توسعه داده شده است. نسبت به نمونه‌های مشابه در بنچ‌مارک‌ها بهتر عمل کرده است (👈جزئیات بیشتر).

۲. مدل Stable LM 2 1.6B: یک مدل‌زبانی کوچک جدید که توانایی رقابت با مدل Phi2 مایکروسافت و حتی مدل‌های بزرگتری نظیر Falcon-40B-Instruct را دارد (👈 جزئیات بیشتر).

#stability_ai
#stable_lm
#stable_code

@dumannewsletter

429 views09:47

1:31

1:31

معرفی مدل Stable Audio برای تولید موسیقی

استارتاپ Stability AI مدل جدیدی به نام Stable Audio AudioSparx 1.0 را برای تولید موسیقی معرفی کرده است. این مدل می‌تواند موسیقی استریو طولانی با مدت زمان متغیر را در فرکانس ۴۴.۱ کیلو هرتز تولید کند. با استفاده از این مدل، تولید موسیقی ۹۵ ثانیه‌ای با پردازنده گرافیکی A100 حدود ۸ ثانیه زمان می‌برد. بنابرادعای Stability AI این مدل از نمونه‌های AudioLDM2 و MusicGen بهتر عمل می‌کند. برای شنیدن نمونه‌های بیشتر اینجا را نگاه کنید و برای مطالعه جزئیات فنی درباره این مدل اینجا را بخوانید.

#stability_ai
#audio_diffusion

@dumannewsletter

527 views09:36

#stability_ai
#stable_diffusion

@dumannewsletter

نسخه ۳ Stable Diffusion منتشر شد.

مدل‌های Stable Diffusion توسط استارتاپ Stability AI توسعه داده شده است. این مدل‌ها از معماری Diffusion برای تولید تصویر از متن استفاده می‌کنند. در حال حاضر نسخه ۳ آن به صورت عمومی در دسترس قرار نگرفته ولی می‌توانید از اینجا در لیست انتظار ثبت‌نام کنید. مدل‌های این نسخه در سایزهای‌ مختلف از ۸۰۰ میلیون تا ۸ میلیارد پارامتر دارند. بهبود کیفیت تصویر و spelling درست متن در تصویر از جمله تغییرات این نسخه نسبت به نسخه قبلی است (منبع).
پرامپت استفاده شده برای تصویر جادوگر:
‍

Prompt: Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says "Stable Diffusion 3" made out of colorful energy

439 views10:06

معرفی Stable Video 3D توسط Stability AI

شرکت Stability AI مدل جدیدی به نام Stable Video 3D را برای سه بعدی کردن تصاویر معرفی کرد. این مدل بر پایه Stable Video Diffusion توسعه داده شده و از مدل‌های Zero123-XL و Stable Zero123 بهتر عمل می‌کند. قابل ذکر است که مدل Stable Zero123 نیز توسط Stability AI منتشر شده بود. نسخه تجاری این مدل از طریق پرداخت حق اشتراک و نسخه اپن‌سورس از طریق HuggingFace در دسترس قرار گرفته است (منبع).

#stability_ai
#stable_video_3d

@dumannewsletter

320 views09:46

0:30

3:01

نسخه ۲ مدل Stable Audio توسط Stability AI منتشر شد.

این نسخه می‌تواند بر اساس متن ورودی (prompt) موسیقی stereo با فرکانس 44.1 kHz به طول حداکثر سه دقیقه تولید کند. یکی از قابلیت‌های جالب توجه این نسخه امکان آپلود کردن صدا/موسیقی نمونه است! به عنوان مثال کاربر می‌تواند موسیقی مدنظر خود را زمزمه کرده و صدای خود را به عنوان ورودی به مدل بدهد. Stable Audio 2 با استفاده از دیتاست AudioSparx
آموزش داده شده است.
👈 برای تست کردن این مدل اینجا را مشاهده کنید.

#stable_audio
#stability_ai

@dumannewsletter

315 views18:40

شرکت Stability AI مدل زبانی جدیدی به نام Stable LM 2 12B را معرفی کرد. این مدل ۱۲ میلیارد پارامتر داشته و به صورت اپن‌سورس منتشر شده است. علاوه بر زبان انگلیسی ۶ زبان اروپایی دیگر را نیز پشتیبانی می‌کند.

👈 برای چت کردن با این مدل اینجا را ببینید.
👈 برای مشاهده نتایج مقایسه این مدل با نمونه‌های مشابه اینجا را بخوانید.

#stability_ai

@dumannewsletter

296 views19:40