عصر گویش | هوش مصنوعی
128K subscribers
2.02K photos
231 videos
4 files
1.26K links
مجله هوش مصنوعی عصر گویش

021 61931000
Download Telegram
📢 ابزار جدید هوش مصنوعی برای تولید صدا از ویدیو!

🎧 ابزار ThinkSound یک ابزار پیشرفته تولید صدا از ویدیو است که می‌توان آن را جانشین راستین پروژه‌ی mmAudio دانست. این مدل، صدا را نه صرفاً به شکل فیلتر بصری، بلکه با درک واقعی صحنه و منطق حرکات تولید می‌کند.

🔍 ویژگی‌های برجسته ThinkSound:

پشتیبانی از «promptهای زنجیره‌ای تفکر» (Chain-of-Thought): یعنی می‌توانید مرحله‌به‌مرحله توضیح دهید که صدای یک جسم چگونه باید باشد.
مثلاً: «این یک فلز است، روی کاشی می‌افتد، باید صدای زنگ‌دار و همراه با اکو بدهد».

تحلیل فیزیک حرکت، جنس مواد، و حتی زمینه‌ی کلی صحنه برای تولید صدای دقیق.

برخلاف فیلترهای سنتی، ThinkSound مانند یک مدل استدلال‌کننده عمل می‌کند.

🔊 در دموها، صدای قدم زدن روی شن، شکستن شیشه، و بارش باران را می‌شنوید — همگی به صورت زنده و بدون نمونه صدای واقعی تولید شده‌اند!

نکته: تنظیم دقیق پرامپت گاهی دشوار است، اما وقتی درست انجام شود، خروجی فوق‌العاده‌ای تولید می‌کند.

🔗 لینک‌ها:

📂 گیت هاب:
https://github.com/FunAudioLLM/ThinkSound

🎬 دمو:
https://thinksound-project.github.io/

📄 مقاله علمی:
https://arxiv.org/pdf/2506.21448

🌐 صفحه اصلی پروژه:
https://ThinkSound-Demo.github.io

#هوش_مصنوعی #Python #VideoToSound #تولید_صدا #یادگیری_عمیق
@asrgooyeshpardaz
9👌1