AI With Diego Jr
3.37K subscribers
98 photos
18 videos
5 files
46 links
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
انیمیشن کوتاه | INSOMNIA UNIT

در مسابقه WAP Fest سرویس Windscribe هر کشور یک Nickname خاص داره و شرکت‌کننده‌ها باید دو تا Nickname انتخاب می‌کردند و بر اساسش یک انیمیشن کوتاه می‌ساختند.

من Brisbane (Bad Koala / Good Koala) و New York (Insomnia) رو انتخاب کردم و این انیمیشن کوتاه رو در ساعات پایانی مسابقه ساختم.
(3 روز مونده به پایان مسابقه متوجه‌ش شدم! مرسی از NabiYok که اطلاع داد)

ابزارهای استفاده شده:

- مدل Grok: سناریو، دیالوگ و ساختار
- مدل GPT Image 2.0: طراحی کاراکتر و storyboard
- مدل Seedance 2.0 در سرویس Hailuo AI: انیمیشن

تماشا با کیفیت 1080p در یوتیوب:
https://youtu.be/fY-HAT9mnss

#InsomniaUnit #Windscribe #WAPFest
20🔥8
مدل Starchild-1، اولین world model چندرسانه‌ای real-time دنیا که همزمان هم تصویر تولید می‌کنه، هم صدا، و همه‌ش کاملاً در لحظه و تعاملیه!

برخلاف مدل‌های قبلی که فقط ویدیو بی‌صدا می‌ساختن یا کلیپ آفلاین تولید می‌کردن، Starchild-1 یک world model causal هست که autoregressively آینده‌ی جهان رو پیش‌بینی می‌کنه.
یعنی مدام به ورودی‌های کاربر (متن، صدا، عمل) واکنش نشون می‌ده و جهان رو در لحظه تغییر می‌ده.

دنیا ساکت نیست. حرف زدن، خنده، صدای موج، پرنده‌ها... Starchild-1 همه این‌ها رو یاد گرفته. حالا می‌تونی با محیط حرف بزنی، دستور بدی و ببینی چطور هم تصویر و هم صدا در لحظه تغییر می‌کنن.

این دقیقاً همون چیزیه که برای پیشرفت واقعی تو robotics، گیمینگ، آموزش، healthcare و حتی دستگاه‌های جدید محاسباتی لازمه. حرکت به سمت general world intelligence.

شرکت Odyssey با حل چالش‌های فنی سخت (مثل تفاوت فرکانس صدا و تصویر، پایداری بلندمدت، asynchronous KV-cache و causal distillation) تونسته این مدل رو بسازن.

لینک: https://odyssey.ml/introducing-starchild-1
تکنیکال ریپورتش رو هم حتماً بخونید.
7👍5
1
مراسم Google I/O 2026 تموم شد و اینجا خلاصه‌ای از این رویداد 2 ساعت و 30 دقیقه‌ای رو به صورت خلاصه بازتاب می‌دم!

گوگل امسال با Sundar Pichai و Demis Hassabis (البته ایشون لقب sir دارن گویا!) و تیم اصلیش اومد و کلی تکنولوژی رو روی صحنه آورد. حتی یوتیوبرهای معروف مثل Valkyrae و CourageJD هم اومدن تا قابلیت‌های گیمینگ جمنای رو زنده نشون بدن.

خب بریم سراغ مهم‌ترین اتفاقات:
۱. جمنای ۳.۵ فلش، سریع‌تر از پلک زدن!
با سرعت وحشتناک ۱۵۰۰ توکن در ثانیه. نه تنها باهوش‌تر شده، بلکه انقدر ارزونه که شرکت‌ها با عوض کردن مدل‌هاشون می‌تونن میلیاردها دلار صرفه‌جویی کنن.

۲. دستیار شخصی ۲۴ ساعته Spark
این یکی دیگه سطحش بالاست. حتی وقتی لپ‌تاپت بسته‌ست می‌تونه کار می‌کنه. ایمیل جواب بده، خرید کن، برنامه مدرسه بچه‌ها رو مدیریت کن... همه‌چیز رو در پس‌زمینه برات انجام می‌ده.

۳. عینک‌های هوشمند با سامسونگ
عینک‌های صوتی جدید که با Warby Parker هم همکاری کردن. نمایشگر نداره ولی جیمنای مستقیم توی گوشت باهات حرف می‌زنه، عکس می‌گیره، دستور غذا رو مرحله به مرحله برات می‌خونه و...

۴. جستجوی گوگل دیگه فقط سرچ ساده نیست
حالا می‌تونه برات برنامه سفر شخصی بسازه، ویجت تعاملی بسازه. مثلاً در مورد سیاه‌چاله بپرسی، همون لحظه یه اپلیکیشن کوچیک می‌سازه که با تغییر پارامترها بتونی یاد بگیری.

۵. ساخت بازی فقط با فکر کردن
بازی Infinite Scaler رو نشون دادن که هر مرحله‌ش رو خود کاربر با یه جمله ساده می‌سازه. هوش مصنوعی Nano Banana + جیمنای همون لحظه یه دنیای سه‌بعدی کامل و منحصربه‌فرد برات می‌سازن.

۶. ساخت سیستم‌عامل در ۱۲ ساعت!
به ایجنت‌هاشون گفتن از صفر یه سیستم‌عامل کامل بسازن. نتیجه؟ با کمتر از ۱۰۰۰ دلار، سیستمی ساختن که حتی روش بازی Doom اجرا می‌شه.

۷. خرید هوشمند با سبد خرید جهانی
پروتکل جدید تجارت که هوش مصنوعی می‌تونه با امنیت کامل برات خرید کنه. سبد خریدش انقدر باهوشه که اگه قطعه اشتباهی بگیری، هشدار می‌ده که با هم سازگار نیستن.

۸. ویرایش ویدیو با جادوی Gemini Omni
با یه دستور صوتی ساده، هر ویدیویی رو تغییر بده. لباس عوض کن، زاویه دوربین رو بچرخون، فیزیک حرکت‌ها رو طبیعی نگه دار... همه‌چیز ممکن شده.

۹. اپلیکیشن جمنای کاملاً عوض شد
طراحی جدید با اسم Neural Expressive، پر از انیمیشن نرم و رنگ‌های زنده. دیگه اون متن‌های خشک و طولانی قبلی رو نداره، همه‌چیز تعاملی، صوتی و خیلی مدرن شده.

این بود خلاصه کوتاهی از این رویداد گوگل.
15🔥8👍5😢4
This media is not supported in your browser
VIEW IN TELEGRAM
نمونه خروجی از Google Omni Model (یا همون Nano Banana برای ادیت ویدیو).

بر اساس تجربه من، شاید خروجی نهایی دقیقا با همین کیفیت باشه ولی بحث اینه شما در تلاش چندم و با چه مقدار هزینه و زمان در نهایت می‌تونید خروجی با کیفیت مشابه و مطلوب خودتون رو بگیرید.

linktr.ee/DiegoJr
🔥8🤯64👍3
یک مدل داخلی OpenAI یک حدس مرکزی در هندسه گسسته رو بعد از ۸۰ سال رد کرد!

مسئله این بود: اگه n تا نقطه تو صفحه بذاری، حداکثر چند جفتشون می‌تونن دقیقاً فاصله ۱ از هم داشته باشن؟

پاول اردوش این سؤال رو سال ۱۹۴۶ مطرح کرده بود و خیلی‌ها باور داشتن که شبکه مربعی (square grid) تقریباً بهینه‌ست و نمی‌شه خیلی بهتر از n^{1 + o(1)} واحد فاصله ساخت.

اما مدل OpenAI یه خانواده نامتناهی از ساخت‌ها پیدا کرده که به صورت چند جمله‌ای بهتره: حداقل n^{1 + δ} واحد فاصله (که δ مثبت و ثابت هست، بعداً یکی از ریاضیدان‌ها نشون داده δ ≈ ۰.۰۱۴ هم ممکنه).

چیزی که خیلی جالب‌تره: این مدل مخصوص ریاضی آموزش ندیده بود و مستقیماً با reasoning عمومی این کار رو کرده.
اثباتش از ابزارهای پیشرفته جبر اعداد (مثل class field towers و نظریه Golod-Shafarevich) استفاده کرده که قبلاً کسی فکرش رو هم نمی‌کرد به این مسئله هندسی مربوط بشه.

ریاضیدان‌های بزرگ مثل Noga Alon، Tim Gowers، Arul Shankar و Jacob Tsimerman اثبات رو چک کردن و گفتن کار فوق‌العاده‌ایه و حتی اگه انسان نوشته بود، راحت تو Annals of Mathematics قبول می‌شد.

این اولین بار هست که هوش مصنوعی یه مسئله باز معروف و مرکزی تو یه شاخه ریاضی رو کاملاً مستقل حل می‌کنه. milestone خیلی بزرگی برای ریاضی و AI.

لینک خبر: https://openai.com/index/model-disproves-discrete-geometry-conjecture/
🤯16😱4👍3🔥3🤔1
9 خبر از دنیای AI در هفته‌ای که گذشت:

۱. مدل همه‌کاره‌ی Lance از راه رسید!
شرکت Bytedance (مالک تیک‌تاک و مدل Seedance 2.0 و CapCut!) یک مدل ۳ میلیارد پارامتری معرفی کرد. این هوش مصنوعی نه تنها متن رو به ویدیو تبدیل می‌کنه، بلکه می‌تونه ویدیوهای موجود رو هم ویرایش کنه؛ مثلاً می‌تونید پس‌زمینه رو با آتش عوض کنید، مدل موهای یک نفر را تغییر دهید یا ازش بخواهید دستش رو آرام بالا بیاره.

۲. کمک‌دانشمند هوشمند گوگل دیپ‌مایند
گوگل دیپ‌مایند از سیستم «AI Co-scientist» رونمایی کرد که فراتر از یک چت‌بات ساده است. این سیستم شامل تیمی از ایجنت‌هاست که با هم بحث و جدل می‌کنند تا ایده‌های علمی جدید بدهند، فرضیه‌ها را نقد کنند و آزمایش‌های تحقیقاتی طراحی کنند. این ابزار قراره سرعت کشفیات در پزشکی و بیولوژی رو چند برابر کنه.

۳. بازی‌هایی که با دستور شما ساخته می‌شوند!
مدل Reactive GWM انقلابی در دنیای گیمینگ. در این سیستم، شخصیت‌های غیرقابل بازی (NPC) دیگه فقط دکور نیستند؛ شما می‌تونید استراتژی اون‌ها رو تعیین کنید، مثلاً به NPC بگید تهاجمی بازی کنه یا تدافعی، و هوش مصنوعی همون لحظه ویدیو و واکنش‌های بازی رو بر اساس دستور شما خلق می‌کنه.

۴. هوش مصنوعی Carbon؛ متخصص زبانِ زندگی
یک مدل متن‌باز جدید برای تحلیل DNA به اسم Carbon معرفی شده که کدهای ژنتیکی رو مثل یک زبان معمولی می‌خونه. این مدل اونقدر سریعه که می‌تونه کل ژنوم انسان رو روی یک کارت گرافیک معمولی در کمتر از ۲ روز پردازش کنه که برای تحقیقات ژنتیک و پروتئین‌سازی یک معجزه است.

۵. مترجمی که هم می‌شنود و هم می‌بیند!
علی‌بابا مدل Qwen 3.5 Live Translate رو منتشر کرد که یک مترجم همزمان بصریه. این هوش مصنوعی موقع ترجمه به تصویر هم نگاه می‌کنه تا کلمات رو اشتباه معنا نکنه؛ مثلاً اگر در تصویر صدف ببینه، می‌فهمه منظور از کلمه Muscle صدف دریایی است نه ماهیچه‌ی بدن انسان، و ترجمه‌ی دقیق‌تری تحویل می‌ده.

۶. ربات‌های دیوارنورد و انسان‌نماهای ارزان‌قیمت
در دنیای رباتیک، شرکت Robot Plus+ از ربات‌های غول‌پیکری رونمایی کرد که با آهنربا به بدنه‌ی کشتی‌ها و مخازن مواد شیمیایی می‌چسبند و کارهای سختی مثل جوشکاری یا رنگ‌آمیزی رو انجام می‌دن. از اون طرف، هانگینگ‌فیس (با هاگینگ فیس اشتباه نکنید!) پلتفرم Le Robot رو معرفی کرد که اجازه می‌ده یک ربات انسان‌نما رو با پرینتر سه بعدی و هزینه‌ی حدود ۲۵۰۰ دلار در خانه بسازید.

۷. جادوی صداگذاری و کنترل ویدیو
متا مدل Wave Flow را معرفی کرد که می‌تونه برای ویدیوهای بی‌صدا، صدا و افکت‌های صوتی کاملاً هماهنگ بسازه. همچنین سیستم Cog Omni Control مثل یک ریموت‌کنترل برای ویدیوها عمل می‌کنه؛ یعنی با یک نقاشی ساده یا تعیین ساختار بدن، می‌تونید دقیقاً کنترل کنید که شخصیت‌های توی ویدیو چطور حرکت کنن.

۸. تصاویر با کیفیت خیره‌کننده‌ی 8K
مدل جدید L2P مرزهای کیفیت تصویر را جابه‌جا کرده. برخلاف اکثر مدل‌ها که در یک فضای فشرده کار می‌کنن، این مدل مستقیماً روی پیکسل‌ها اثر می‌گذاره و می‌تونه عکس‌هایی با جزئیات بسیار بالا و کیفیت 8K بسازه.

۹. آواتارهای سخنگو که از آدمیزاد قابل تشخیص نیستند
شرکت Meituan نسخه‌ی جدید آواتارساز خودش رو منتشر کرد. کافی است یک عکس و یک فایل صوتی به اون بدید تا اون شخص با میمیک‌های صورت کاملاً طبیعی و احساسی، شروع به صحبت کنه. این سیستم حتی برای انیمیشن‌ها و تعاملات چندنفره هم فوق‌العاده عمل می‌کنه.

linktr.ee/DiegoJr
5012👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
به کمک 4DV AI و تکنیک 4D Gaussian Splatting می‌شه هر ویدیوی معمولی 2D رو تبدیل کنی به یک فضای سه‌بعدی کاملاً قابل کاوش.

می‌تونی دورش بچرخی، زاویه بگیری و از زوایایی که اصلاً تو فیلم اصلی وجود نداشته، صحنه رو ببینی.

وب سایت این ابزار
(خودم با این وضعیت اینترنت هنوز موفق به تست نشدم!)
7🤯3👍2
یک مطالعه بزرگ و مهم درباره الگوریتم‌های استخدام به کمک ابزارهای هوش مصنوعی منتشر شده و نتایجش نشون‌دهنده چالش جدی در کاربرد AI تو دنیای کار و استخدامه.

بزرگ‌ترین تحقیق مستقل تا امروز (روی بیش از ۴ میلیون اپلیکیشن از ۳ میلیون متقاضی در ۱۵۶ شرکت بزرگ) توسط محققان Stanford و دانشگاه‌های دیگه انجام شده. این مطالعه روی الگوریتم شرکت Pymetrics (که توسط Harver خریداری شده) تمرکز داره.

نکات کلیدی این تحقیق:
- بیش از ۲۵٪ از اپلیکیشن‌های افراد سیاه‌پوست به موقعیت‌هایی رفته که الگوریتم AI طبق قانون فدرال آمریکا (قانون چهار پنجم) تبعیض‌آمیز تشخیص داده می‌شه.

- حدود ۳۰٪ از متقاضیان سیاه‌پوست حداقل به یک شغل با خروجی تبعیض‌آمیز اپلای کردن.

- آسیایی‌ها هم تحت تاثیر بودن (۱۴.۷٪ اپلیکیشن‌هاشون مشکل‌دار بوده).

این الگوریتم به جای بررسی رزومه، از بازی‌های آنلاین برای سنجش ویژگی‌هایی مثل تحمل ریسک، سرعت پردازش و altruism استفاده می‌کنه.
ادعا می‌شد که این روش عادلانه‌تره، اما مطالعه نشون داد وقتی داده‌ها رو برای هر موقعیت شغلی جداگانه بررسی کنی (نه جمع کلی)، تبعیض AI واضح ظاهر می‌شه.

مشکل بزرگ‌تر: Algorithmic Blackball
چون خیلی از شرکت‌ها از یک واسط استفاده می‌کنن، رد شدن توسط الگوریتم AI در یک شرکت، احتمال رد شدن در شرکت‌های دیگه رو هم به شدت بالا می‌بره. این یعنی یک نوع لیست سیاه الگوریتمی ایجاد شده که متقاضیان حتی از وجودش خبر ندارن.

برای اینکه احتمال رد شدن سیستمی‌ات خیلی کم بشه، باید حداقل به ۲۵ شغل اپلای کنی!

این مطالعه نشون می‌ده که وقتی AI در فرآیند استخدام متمرکز بشه (یک الگوریتم روی صدها شرکت تاثیر بذاره)، خطاهای یک مدل می‌تونه به سطح کل صنعت برسه و فرصت‌های شغلی هزاران نفر رو تحت تأثیر قرار بده.

لینک مقاله کامل
5👍3😱2
This media is not supported in your browser
VIEW IN TELEGRAM
مارتین اسکورسیزی حالا مشاور Black Forest Labs (سازندگان FLUX) شده!
یکی از بزرگ‌ترین کارگردان‌های تاریخ سینما با ۶۰ سال تجربه، حالا به تیم BFL پیوسته تا با همکاری هم «ذوق و سلیقه انسانی» رو در مرکز هوش بصری قرار بدن.

تو این جلسه، با هم session storyboarding کردن و اسکورسیزی با FLUX ایده‌هاش رو به تصویر کشیده. اون می‌گه این ابزار کمک می‌کنه چیزی که تو ذهنش هست رو واضح‌تر و سریع‌تر به تیمش (طراح تولید، طراح هنری و فیلم‌بردار) منتقل کنه.

این همکاری نشون می‌ده که حتی غول‌های سینما دارن به سمت AI حرکت می‌کنن و ازش برای تقویت خلاقیت استفاده می‌کنن.

linktr.ee/DiegoJr
14😱4🔥3👍1🤩1
🔥2
خلاصه اخبار داغ و معرفی ابزارهای هوش مصنوعی این هفته:

۱. چشمان تیزبین انویدیا به کمک مدل Locate Anything
این مدل انویدیا توی شلوغ‌ترین ویدیوها هم هر چیزی که بخوای رو پیدا می‌کنه و دورش کادر می‌کشه. سرعتش به خاطر تکنیک جدید «Parallel Box Decoding» خیلی بالاست.

لینک:
https://research.nvidia.com/labs/lpr/locate-anything/

۲. جراحی نور در عکس‌های تاریک با Control Light
ابزار هوشمندی که نور عکس‌ها رو بدون نویز و به‌هم‌ریختگی جابه‌جا می‌کنه و انگار از اول همون‌طور نورپردازی شده بازسازی می‌کنه.

لینک:
https://yfyang007.github.io/ControlLight/

۳. بازسازی سه‌بعدی با سرعت مثلثی!
ابزار Triplat برخلاف روش‌های قدیمی، صحنه‌ها رو با مثلث می‌سازه. نتیجه‌ش بازسازی خیلی سریع‌تر و آماده برای موتورهای بازی‌سازیه.

لینک:
https://lhmd.top/trisplat/

۴. آپ‌اسکیلر وحشتناک سریع انویدیا PID
رکوردشکنی انویدیا! عکس معمولی رو زیر ۱ ثانیه به 2K تبدیل می‌کنه، تقریباً ۶ برابر سریع‌تر از رقبا.

لینک:
https://research.nvidia.com/labs/sil/projects/pid/

۵. کارگردانی همزمان صدا و تصویر با Instruct AV to AV
ویدیو می‌دی و می‌گی طرف یه حرف دیگه بزنه. هم صدا عوض می‌شه، هم حرکت لب‌ها دقیق هماهنگ می‌شه. خروجی کاملاً طبیعی.

لینک:
https://hjzheng.net/projects/InstructAV2AV/

۶. تبدیل ویدیوی گوشی به صحنه سه‌بعدی با Gen Recon
با گوشی از یه اتاق فیلم بگیر، این سیستم یه مدل سه‌بعدی کامل با متریال واقعی تحویل می‌ده. می‌تونی نور و اشیاء رو هم بعداً تغییر بدی.

لینک:
https://kasothaphie.github.io/GenRecon/

۷. ساخت دنیای بازی اکشن در لحظه با Scope
یه فریم عکس + دستورات دسته بازی بده، همون لحظه یه مرحله قابل بازی برات می‌سازه. حتی به شلیک و عوض کردن خشاب هم واکنش بصری نشون می‌ده.

لینک:
https://z2tong.github.io/SCOPE/

۸. مدل‌هایی که فیزیک حالیشونه؛ PhysX Omni
اشیاء رو طوری می‌سازه که مفصل دارن و واقعاً کار می‌کنن. مثلاً چرخ ماشین واقعاً می‌چرخه و آماده انیمیشن و شبیه‌سازیه.

لینک:
https://physx-omni.github.io/

۹. امتحان نهایی برای ایجنت‌های کدنویس؛ DeepSuite
بنچمارک جدید که به جای تست‌های تکراری، ایجنت‌ها رو با پروژه‌های واقعی و پیچیده نرم‌افزاری به چالش می‌کشه.

لینک:
https://deepswe.datacurve.ai/blog

۱۰. کلود ۴.۸ اپوس؛ پادشاه جدید دنیای استدلال
آنتروپیک مدلی آورده که تو تحلیل مالی و کدنویسی از GPT-5.5 هم جلو زده. بزرگ‌ترین نقطه قوتش اینه که اگه چیزی ندونه، صادقانه اعتراف می‌کنه.

لینک:
https://www.anthropic.com/news/claude-opus-4-8

۱۱. خدمتکار چرخ‌دار خونه؛ Astrobot T1
ربات انسان‌نمای ۱۳ هزار دلاری که تو اتو کردن، شستن لباس و کارهای خونه کمک می‌کنه. روی زمین صاف عالی کار می‌کنه.


۱۲. ربات شعبده‌باز؛ Athena Zero
فقط تو ۱۰ دقیقه ۵ مدل مختلف ژانگولربازی یاد می‌گیره و با پرتاب‌های نامنظم سریع خودش رو هماهنگ می‌کنه.

۱۳. مدل همه‌کاره و سریع؛ Step 3.7 Flash
مدل چندوجهی مخصوص کارهای ایجنتی. هم‌زمان می‌بینه، جستجو می‌کنه و کارهای پیچیده اداری رو برات انجام می‌ده.

لینک:
https://static.stepfun.com/blog/step-3.7-flash/

۱۴. تولید قطعات سه‌بعدی جداگانه؛ Cube Part
به جای مدل یک‌تکه، قطعات رو جدا تحویل می‌ده (چرخ، بدنه، فرمون و...) تا راحت بتونی حرکت بدی و تو بازی استفاده کنی.

لینک:
https://cubepart.github.io/

۱۵. خوداصلاحی هوش مصنوعی با متد زنبوری!
با روش جدیدی به اسم BEES توی اون مدل یاد می‌گیره مسائل سخت رو هم از پایین به بالا و هم از بالا به پایین تحلیل کنه و خودش اشتباهاتش رو اصلاح کنه.

لینک:
https://guoweixu.com/bes/

۱۶. تیم تحقیقاتی هوش مصنوعی؛ Autoscientist
ایجنت‌هایی که مثل تیم واقعی بحث می‌کنن، آزمایش طراحی می‌کنن و نتایج رو ثبت می‌کنن تا سرعت کشف علمی رو چند برابر کنن.

لینک:
https://autoscientists.openscientist.ai/

۱۷. شبیه‌ساز بازی‌های چندنفره انویدیا؛ Gamma World
دنیای بازی رو همزمان برای چند بازیکن مختلف می‌سازه، هر کسی کنترل خودش رو داره ولی محیط کاملاً هماهنگ و ثابت می‌مونه.

لینک:
https://research.nvidia.com/labs/sil/projects/gamma-world/

۱۸. فلاکس آفلاین تو جیب تو با Bonsai Image
حجم Flux رو از ۸ گیگ به ۱ گیگ رسونده. زیر ۱۰ ثانیه روی آیفون بدون اینترنت عکس حرفه‌ای می‌سازه.

لینک:
https://prismml.com/news/bonsai-image-4b

۱۹. عکس‌های غول‌آسا با کیفیت 6K با Sega
محدودیت رزولوشن رو شکسته و عکس‌هایی با ۶۰۰۰ پیکسل می‌سازه که حتی با زوم زیاد جزئیاتش خیره‌کننده می‌مونه.

لینک:
https://rajabi2001.github.io/sega/
3👍2🔥2
۲۰. جادوی تغییر منبع نور؛ Pixel Relights
موس رو تو عکس می‌چرخونی، منبع نور عوض می‌شه. اول درک سه‌بعدی از صحنه پیدا می‌کنه بعد سایه و بازتاب‌ها رو دقیق بازسازی می‌کنه.

لینک:
https://mlfarinha.github.io/pixl-relight/

۲۱. قدرت زیاد در ابعاد کم؛ mini CPM 51B
مدل ۱ میلیارد پارامتری (۲ گیگ) که تو دانش عمومی و کدنویسی خیلی از مدل‌های بزرگ‌تر رو شکست می‌ده.

لینک:
https://huggingface.co/openbmb/MiniCPM5-1B

۲۲. ساخت ویدیوهای ۳۶۰ درجه با Pantheon 360
چند عکس ۳۶۰ درجه رو می‌گیره و یه ویدیوی پانورامیک کامل می‌سازه که با حرکت دوربین همه زوایا هماهنگ و واقعی می‌مونن.

لینک:
https://koi953215.github.io/pantheon360_page/
🔥3
لیست مسابقات معتبر فیلم‌سازی با AI که مجموع جوایزشون ۱۵۰ هزار دلاره!

Korea AI Film Contest
جایزه: ۶۰ هزار دلار
ددلاین: ۱۲ جولای

👈 لینک مسابقه

Filmsupply Editing Competition
جایزه: ۶۵ هزار دلار
ددلاین: ۵ ژوئن

👈 لینک مسابقه

Seoul Design Foundation
جایزه: ۱۸ هزار دلار
ددلاین: ۳۰ ژوئن

👈 لینک مسابقه

linktr.ee/DiegoJr
13🔥2🤯1
AI With Diego Jr
لیست مسابقات معتبر فیلم‌سازی با AI که مجموع جوایزشون ۱۵۰ هزار دلاره! Korea AI Film Contest جایزه: ۶۰ هزار دلار ددلاین: ۱۲ جولای 👈 لینک مسابقه Filmsupply Editing Competition جایزه: ۶۵ هزار دلار ددلاین: ۵ ژوئن 👈 لینک مسابقه Seoul Design Foundation جایزه:…
اگر تولید محتوای AI می‌کنید و یا حتی توکن ماهیانه تو اکانت سرویس‌های AI دارید که استفاده نمی‌شن و می‌سوزن، منتظر باشید که توی همین چند روز آینده قراره جزئیات یه مسابقه بزرگ AI اعلام بشه که پشتش یکی از غول‌های تکنولوژی و سرگرمی دنیا ایستاده!
🔥81
تکنیک The Layout Bet، حرکت جدید و جاه‌طلبانه شرکت Reve!

به جای اینکه مثل مدل‌های فعلی، پرامپت متنی رو به LLM بدن و بعد به diffusion مدل، Reve یه شرط متفاوت بسته:
"استفاده از Layout به عنوان نماینده میانی تصویر."

حالا Layout اینجا چیه؟
یه ساختار سلسله‌مراتبی و دقیق که هر المان تو تصویر داره:
موقعیت، اندازه، توضیح محلی، رنگ، ارجاع به تصویر و... دقیق مثل HTML برای وب یا SVG برای وکتور.

نتیجه‌اش می‌شه کنترل خیلی دقیق‌تر و بدون ابهام متن. می‌تونی با زبان طبیعی دستور بدی یا مستقیم layout رو ویرایش کنی.
هم انسان راحت باهاش کار می‌کنه، هم ایجنت‌های AI.
(این دومی خیلی مهمه! مدل‌ها و به تازگی سرویس‌ها فقط دیگه برای من و شما ساخته نمی‌شن، یک مخاطب AI Agent هم دارن، و وای از اون روزی که مخاطبشون فقط همین‌ها باشن و نه ما!)


حالا Reve مدل خودشون رو (Large Layout Model) ساخته و ادعا می‌کنه Reve 2.0 بهترین مدل تصویرسازی شرکتی زیر ۱ تریلیون دلار هست، با منابع خیلی کمتر از غول‌ها.

این رویکرد تو بازسازی تصویر، ویرایش دقیق و کنترل فضایی خیلی قوی عمل کرده.

به نظرم این یکی از جهت‌های درست برای نسل بعدی مدل‌های بصریه: به جای تکیه کامل به متن، یه لایه معنایی ساختاریافته و قابل برنامه‌ریزی بذاریم وسط.

لینک مقاله کامل:
https://blog.reve.com/posts/the-layout-bet/

حتما مقاله رو ببینید، مثال‌های تصویری و تعاملی‌ای که آورده کامل این تکنیک رو براتون شفاف می‌کنه.
6👍2🤯1
شرکت OpenAI ویژگی Dreaming رو برای حافظه ChatGPT معرفی کرد!

بالاخره بعد از مدت‌ها انتظار، OpenAI ویژگی خیلی مهمی به اسم Dreaming رو برای ChatGPT معرفی کرد. این آپدیت حافظه رو از حالت «یادآوری ساده» به یه سیستم هوشمند و پویا تبدیل کرده.

قبلاً چی بود؟
قبلاً ChatGPT چند تا نکته رو یادش می‌موند، ولی بعد از مدتی قدیمی و بی‌ربط می‌شد. مثلاً اگه بهش گفته بودی رژیم غذایی خاصی داری یا پروژه‌ای داری، بعد از چند هفته دیگه درست به یادش نمی‌اومد.

حالا با Dreaming چی شده؟
با این قابلیت ChatGPT تو پس‌زمینه (حتی وقتی باهاش حرف نمی‌زنی) همه چت‌هات رو بررسی می‌کنه، خلاصه می‌کنه، الگوها رو پیدا می‌کنه و حافظه‌ش رو همیشه تازه و به‌روز نگه می‌داره. انگار داره «رویا می‌بینه» و اطلاعات رو مرتب و هوشمندانه سازماندهی می‌کنه.

فایده‌های واقعی‌ش چیه؟
شخصی‌سازی خیلی بهتر: ترجیحاتت، علایقت، محدودیت‌هات و جزئیات زندگی‌ت رو خیلی دقیق‌تر به خاطر می‌سپاره. مثلاً اگه قبلاً گفتی عاشق عکاسی طبیعت هستی، دیگه پیشنهادهای generic نمی‌ده؛ مستقیم بهت ایده‌های مرتبط با سبک مورد علاقه‌ت می‌ده.

پروژه‌های طولانی: اگه روی یه پروژه چند ماهه کار می‌کنی (مثل نوشتن کتاب، راه‌اندازی بیزینس یا یادگیری زبان)، لازم نیست هر بار از اول توضیح بدی. ChatGPT زمینه کامل رو حفظ می‌کنه.

آپدیت خودکار: مثلاً اگه گفتی قراره به سفر بری، بعد از سفر خودش متوجه می‌شه و اطلاعات قدیمی رو پاک یا آپدیت می‌کنه.
کنترل کامل داری: می‌تونی حافظه رو ببینی، ویرایش کنی، بگی چی رو فراموش کنه یا چی رو حتماً یادش بمونه.

در کل، ChatGPT دیگه مثل یه دوست معمولی عمل می‌کنه که فقط حرفاتو گوش می‌ده.
(حتی این هم با ما دوست معمولیه!)

حالا مثل یه دستیار واقعاً باهوش شده که تو جزئیات زندگی و کارتو درگیره و همیشه به‌روزه.

این ویژگی از امروز برای کاربران Plus و Pro در آمریکا فعال شده و به زودی برای بقیه کشورها و حتی کاربران معمولی هم می‌رسه.

لینک کامل توضیحات OpenAI:
https://openai.com/index/chatgpt-memory-dreaming/
11