This media is not supported in your browser
VIEW IN TELEGRAM
انیمیشن کوتاه | INSOMNIA UNIT
در مسابقه WAP Fest سرویس Windscribe هر کشور یک Nickname خاص داره و شرکتکنندهها باید دو تا Nickname انتخاب میکردند و بر اساسش یک انیمیشن کوتاه میساختند.
من Brisbane (Bad Koala / Good Koala) و New York (Insomnia) رو انتخاب کردم و این انیمیشن کوتاه رو در ساعات پایانی مسابقه ساختم.
(3 روز مونده به پایان مسابقه متوجهش شدم! مرسی از NabiYok که اطلاع داد)
ابزارهای استفاده شده:
- مدل Grok: سناریو، دیالوگ و ساختار
- مدل GPT Image 2.0: طراحی کاراکتر و storyboard
- مدل Seedance 2.0 در سرویس Hailuo AI: انیمیشن
تماشا با کیفیت 1080p در یوتیوب:
https://youtu.be/fY-HAT9mnss
#InsomniaUnit #Windscribe #WAPFest
در مسابقه WAP Fest سرویس Windscribe هر کشور یک Nickname خاص داره و شرکتکنندهها باید دو تا Nickname انتخاب میکردند و بر اساسش یک انیمیشن کوتاه میساختند.
من Brisbane (Bad Koala / Good Koala) و New York (Insomnia) رو انتخاب کردم و این انیمیشن کوتاه رو در ساعات پایانی مسابقه ساختم.
(3 روز مونده به پایان مسابقه متوجهش شدم! مرسی از NabiYok که اطلاع داد)
ابزارهای استفاده شده:
- مدل Grok: سناریو، دیالوگ و ساختار
- مدل GPT Image 2.0: طراحی کاراکتر و storyboard
- مدل Seedance 2.0 در سرویس Hailuo AI: انیمیشن
تماشا با کیفیت 1080p در یوتیوب:
https://youtu.be/fY-HAT9mnss
#InsomniaUnit #Windscribe #WAPFest
❤20🔥8
مدل Starchild-1، اولین world model چندرسانهای real-time دنیا که همزمان هم تصویر تولید میکنه، هم صدا، و همهش کاملاً در لحظه و تعاملیه!
برخلاف مدلهای قبلی که فقط ویدیو بیصدا میساختن یا کلیپ آفلاین تولید میکردن، Starchild-1 یک world model causal هست که autoregressively آیندهی جهان رو پیشبینی میکنه.
یعنی مدام به ورودیهای کاربر (متن، صدا، عمل) واکنش نشون میده و جهان رو در لحظه تغییر میده.
دنیا ساکت نیست. حرف زدن، خنده، صدای موج، پرندهها... Starchild-1 همه اینها رو یاد گرفته. حالا میتونی با محیط حرف بزنی، دستور بدی و ببینی چطور هم تصویر و هم صدا در لحظه تغییر میکنن.
این دقیقاً همون چیزیه که برای پیشرفت واقعی تو robotics، گیمینگ، آموزش، healthcare و حتی دستگاههای جدید محاسباتی لازمه. حرکت به سمت general world intelligence.
شرکت Odyssey با حل چالشهای فنی سخت (مثل تفاوت فرکانس صدا و تصویر، پایداری بلندمدت، asynchronous KV-cache و causal distillation) تونسته این مدل رو بسازن.
لینک: https://odyssey.ml/introducing-starchild-1
تکنیکال ریپورتش رو هم حتماً بخونید.
برخلاف مدلهای قبلی که فقط ویدیو بیصدا میساختن یا کلیپ آفلاین تولید میکردن، Starchild-1 یک world model causal هست که autoregressively آیندهی جهان رو پیشبینی میکنه.
یعنی مدام به ورودیهای کاربر (متن، صدا، عمل) واکنش نشون میده و جهان رو در لحظه تغییر میده.
دنیا ساکت نیست. حرف زدن، خنده، صدای موج، پرندهها... Starchild-1 همه اینها رو یاد گرفته. حالا میتونی با محیط حرف بزنی، دستور بدی و ببینی چطور هم تصویر و هم صدا در لحظه تغییر میکنن.
این دقیقاً همون چیزیه که برای پیشرفت واقعی تو robotics، گیمینگ، آموزش، healthcare و حتی دستگاههای جدید محاسباتی لازمه. حرکت به سمت general world intelligence.
شرکت Odyssey با حل چالشهای فنی سخت (مثل تفاوت فرکانس صدا و تصویر، پایداری بلندمدت، asynchronous KV-cache و causal distillation) تونسته این مدل رو بسازن.
لینک: https://odyssey.ml/introducing-starchild-1
تکنیکال ریپورتش رو هم حتماً بخونید.
❤7👍5
مراسم Google I/O 2026 تموم شد و اینجا خلاصهای از این رویداد 2 ساعت و 30 دقیقهای رو به صورت خلاصه بازتاب میدم!
گوگل امسال با Sundar Pichai و Demis Hassabis (البته ایشون لقب sir دارن گویا!) و تیم اصلیش اومد و کلی تکنولوژی رو روی صحنه آورد. حتی یوتیوبرهای معروف مثل Valkyrae و CourageJD هم اومدن تا قابلیتهای گیمینگ جمنای رو زنده نشون بدن.
خب بریم سراغ مهمترین اتفاقات:
۱. جمنای ۳.۵ فلش، سریعتر از پلک زدن!
با سرعت وحشتناک ۱۵۰۰ توکن در ثانیه. نه تنها باهوشتر شده، بلکه انقدر ارزونه که شرکتها با عوض کردن مدلهاشون میتونن میلیاردها دلار صرفهجویی کنن.
۲. دستیار شخصی ۲۴ ساعته Spark
این یکی دیگه سطحش بالاست. حتی وقتی لپتاپت بستهست میتونه کار میکنه. ایمیل جواب بده، خرید کن، برنامه مدرسه بچهها رو مدیریت کن... همهچیز رو در پسزمینه برات انجام میده.
۳. عینکهای هوشمند با سامسونگ
عینکهای صوتی جدید که با Warby Parker هم همکاری کردن. نمایشگر نداره ولی جیمنای مستقیم توی گوشت باهات حرف میزنه، عکس میگیره، دستور غذا رو مرحله به مرحله برات میخونه و...
۴. جستجوی گوگل دیگه فقط سرچ ساده نیست
حالا میتونه برات برنامه سفر شخصی بسازه، ویجت تعاملی بسازه. مثلاً در مورد سیاهچاله بپرسی، همون لحظه یه اپلیکیشن کوچیک میسازه که با تغییر پارامترها بتونی یاد بگیری.
۵. ساخت بازی فقط با فکر کردن
بازی Infinite Scaler رو نشون دادن که هر مرحلهش رو خود کاربر با یه جمله ساده میسازه. هوش مصنوعی Nano Banana + جیمنای همون لحظه یه دنیای سهبعدی کامل و منحصربهفرد برات میسازن.
۶. ساخت سیستمعامل در ۱۲ ساعت!
به ایجنتهاشون گفتن از صفر یه سیستمعامل کامل بسازن. نتیجه؟ با کمتر از ۱۰۰۰ دلار، سیستمی ساختن که حتی روش بازی Doom اجرا میشه.
۷. خرید هوشمند با سبد خرید جهانی
پروتکل جدید تجارت که هوش مصنوعی میتونه با امنیت کامل برات خرید کنه. سبد خریدش انقدر باهوشه که اگه قطعه اشتباهی بگیری، هشدار میده که با هم سازگار نیستن.
۸. ویرایش ویدیو با جادوی Gemini Omni
با یه دستور صوتی ساده، هر ویدیویی رو تغییر بده. لباس عوض کن، زاویه دوربین رو بچرخون، فیزیک حرکتها رو طبیعی نگه دار... همهچیز ممکن شده.
۹. اپلیکیشن جمنای کاملاً عوض شد
طراحی جدید با اسم Neural Expressive، پر از انیمیشن نرم و رنگهای زنده. دیگه اون متنهای خشک و طولانی قبلی رو نداره، همهچیز تعاملی، صوتی و خیلی مدرن شده.
این بود خلاصه کوتاهی از این رویداد گوگل.
گوگل امسال با Sundar Pichai و Demis Hassabis (البته ایشون لقب sir دارن گویا!) و تیم اصلیش اومد و کلی تکنولوژی رو روی صحنه آورد. حتی یوتیوبرهای معروف مثل Valkyrae و CourageJD هم اومدن تا قابلیتهای گیمینگ جمنای رو زنده نشون بدن.
خب بریم سراغ مهمترین اتفاقات:
۱. جمنای ۳.۵ فلش، سریعتر از پلک زدن!
با سرعت وحشتناک ۱۵۰۰ توکن در ثانیه. نه تنها باهوشتر شده، بلکه انقدر ارزونه که شرکتها با عوض کردن مدلهاشون میتونن میلیاردها دلار صرفهجویی کنن.
۲. دستیار شخصی ۲۴ ساعته Spark
این یکی دیگه سطحش بالاست. حتی وقتی لپتاپت بستهست میتونه کار میکنه. ایمیل جواب بده، خرید کن، برنامه مدرسه بچهها رو مدیریت کن... همهچیز رو در پسزمینه برات انجام میده.
۳. عینکهای هوشمند با سامسونگ
عینکهای صوتی جدید که با Warby Parker هم همکاری کردن. نمایشگر نداره ولی جیمنای مستقیم توی گوشت باهات حرف میزنه، عکس میگیره، دستور غذا رو مرحله به مرحله برات میخونه و...
۴. جستجوی گوگل دیگه فقط سرچ ساده نیست
حالا میتونه برات برنامه سفر شخصی بسازه، ویجت تعاملی بسازه. مثلاً در مورد سیاهچاله بپرسی، همون لحظه یه اپلیکیشن کوچیک میسازه که با تغییر پارامترها بتونی یاد بگیری.
۵. ساخت بازی فقط با فکر کردن
بازی Infinite Scaler رو نشون دادن که هر مرحلهش رو خود کاربر با یه جمله ساده میسازه. هوش مصنوعی Nano Banana + جیمنای همون لحظه یه دنیای سهبعدی کامل و منحصربهفرد برات میسازن.
۶. ساخت سیستمعامل در ۱۲ ساعت!
به ایجنتهاشون گفتن از صفر یه سیستمعامل کامل بسازن. نتیجه؟ با کمتر از ۱۰۰۰ دلار، سیستمی ساختن که حتی روش بازی Doom اجرا میشه.
۷. خرید هوشمند با سبد خرید جهانی
پروتکل جدید تجارت که هوش مصنوعی میتونه با امنیت کامل برات خرید کنه. سبد خریدش انقدر باهوشه که اگه قطعه اشتباهی بگیری، هشدار میده که با هم سازگار نیستن.
۸. ویرایش ویدیو با جادوی Gemini Omni
با یه دستور صوتی ساده، هر ویدیویی رو تغییر بده. لباس عوض کن، زاویه دوربین رو بچرخون، فیزیک حرکتها رو طبیعی نگه دار... همهچیز ممکن شده.
۹. اپلیکیشن جمنای کاملاً عوض شد
طراحی جدید با اسم Neural Expressive، پر از انیمیشن نرم و رنگهای زنده. دیگه اون متنهای خشک و طولانی قبلی رو نداره، همهچیز تعاملی، صوتی و خیلی مدرن شده.
این بود خلاصه کوتاهی از این رویداد گوگل.
❤15🔥8👍5😢4
This media is not supported in your browser
VIEW IN TELEGRAM
نمونه خروجی از Google Omni Model (یا همون Nano Banana برای ادیت ویدیو).
بر اساس تجربه من، شاید خروجی نهایی دقیقا با همین کیفیت باشه ولی بحث اینه شما در تلاش چندم و با چه مقدار هزینه و زمان در نهایت میتونید خروجی با کیفیت مشابه و مطلوب خودتون رو بگیرید.
linktr.ee/DiegoJr
بر اساس تجربه من، شاید خروجی نهایی دقیقا با همین کیفیت باشه ولی بحث اینه شما در تلاش چندم و با چه مقدار هزینه و زمان در نهایت میتونید خروجی با کیفیت مشابه و مطلوب خودتون رو بگیرید.
linktr.ee/DiegoJr
🔥8🤯6❤4👍3
یک مدل داخلی OpenAI یک حدس مرکزی در هندسه گسسته رو بعد از ۸۰ سال رد کرد!
مسئله این بود: اگه n تا نقطه تو صفحه بذاری، حداکثر چند جفتشون میتونن دقیقاً فاصله ۱ از هم داشته باشن؟
پاول اردوش این سؤال رو سال ۱۹۴۶ مطرح کرده بود و خیلیها باور داشتن که شبکه مربعی (square grid) تقریباً بهینهست و نمیشه خیلی بهتر از n^{1 + o(1)} واحد فاصله ساخت.
اما مدل OpenAI یه خانواده نامتناهی از ساختها پیدا کرده که به صورت چند جملهای بهتره: حداقل n^{1 + δ} واحد فاصله (که δ مثبت و ثابت هست، بعداً یکی از ریاضیدانها نشون داده δ ≈ ۰.۰۱۴ هم ممکنه).
چیزی که خیلی جالبتره: این مدل مخصوص ریاضی آموزش ندیده بود و مستقیماً با reasoning عمومی این کار رو کرده.
اثباتش از ابزارهای پیشرفته جبر اعداد (مثل class field towers و نظریه Golod-Shafarevich) استفاده کرده که قبلاً کسی فکرش رو هم نمیکرد به این مسئله هندسی مربوط بشه.
ریاضیدانهای بزرگ مثل Noga Alon، Tim Gowers، Arul Shankar و Jacob Tsimerman اثبات رو چک کردن و گفتن کار فوقالعادهایه و حتی اگه انسان نوشته بود، راحت تو Annals of Mathematics قبول میشد.
این اولین بار هست که هوش مصنوعی یه مسئله باز معروف و مرکزی تو یه شاخه ریاضی رو کاملاً مستقل حل میکنه. milestone خیلی بزرگی برای ریاضی و AI.
لینک خبر: https://openai.com/index/model-disproves-discrete-geometry-conjecture/
مسئله این بود: اگه n تا نقطه تو صفحه بذاری، حداکثر چند جفتشون میتونن دقیقاً فاصله ۱ از هم داشته باشن؟
پاول اردوش این سؤال رو سال ۱۹۴۶ مطرح کرده بود و خیلیها باور داشتن که شبکه مربعی (square grid) تقریباً بهینهست و نمیشه خیلی بهتر از n^{1 + o(1)} واحد فاصله ساخت.
اما مدل OpenAI یه خانواده نامتناهی از ساختها پیدا کرده که به صورت چند جملهای بهتره: حداقل n^{1 + δ} واحد فاصله (که δ مثبت و ثابت هست، بعداً یکی از ریاضیدانها نشون داده δ ≈ ۰.۰۱۴ هم ممکنه).
چیزی که خیلی جالبتره: این مدل مخصوص ریاضی آموزش ندیده بود و مستقیماً با reasoning عمومی این کار رو کرده.
اثباتش از ابزارهای پیشرفته جبر اعداد (مثل class field towers و نظریه Golod-Shafarevich) استفاده کرده که قبلاً کسی فکرش رو هم نمیکرد به این مسئله هندسی مربوط بشه.
ریاضیدانهای بزرگ مثل Noga Alon، Tim Gowers، Arul Shankar و Jacob Tsimerman اثبات رو چک کردن و گفتن کار فوقالعادهایه و حتی اگه انسان نوشته بود، راحت تو Annals of Mathematics قبول میشد.
این اولین بار هست که هوش مصنوعی یه مسئله باز معروف و مرکزی تو یه شاخه ریاضی رو کاملاً مستقل حل میکنه. milestone خیلی بزرگی برای ریاضی و AI.
لینک خبر: https://openai.com/index/model-disproves-discrete-geometry-conjecture/
🤯16😱4👍3🔥3🤔1
9 خبر از دنیای AI در هفتهای که گذشت:
۱. مدل همهکارهی Lance از راه رسید!
شرکت Bytedance (مالک تیکتاک و مدل Seedance 2.0 و CapCut!) یک مدل ۳ میلیارد پارامتری معرفی کرد. این هوش مصنوعی نه تنها متن رو به ویدیو تبدیل میکنه، بلکه میتونه ویدیوهای موجود رو هم ویرایش کنه؛ مثلاً میتونید پسزمینه رو با آتش عوض کنید، مدل موهای یک نفر را تغییر دهید یا ازش بخواهید دستش رو آرام بالا بیاره.
۲. کمکدانشمند هوشمند گوگل دیپمایند
گوگل دیپمایند از سیستم «AI Co-scientist» رونمایی کرد که فراتر از یک چتبات ساده است. این سیستم شامل تیمی از ایجنتهاست که با هم بحث و جدل میکنند تا ایدههای علمی جدید بدهند، فرضیهها را نقد کنند و آزمایشهای تحقیقاتی طراحی کنند. این ابزار قراره سرعت کشفیات در پزشکی و بیولوژی رو چند برابر کنه.
۳. بازیهایی که با دستور شما ساخته میشوند!
مدل Reactive GWM انقلابی در دنیای گیمینگ. در این سیستم، شخصیتهای غیرقابل بازی (NPC) دیگه فقط دکور نیستند؛ شما میتونید استراتژی اونها رو تعیین کنید، مثلاً به NPC بگید تهاجمی بازی کنه یا تدافعی، و هوش مصنوعی همون لحظه ویدیو و واکنشهای بازی رو بر اساس دستور شما خلق میکنه.
۴. هوش مصنوعی Carbon؛ متخصص زبانِ زندگی
یک مدل متنباز جدید برای تحلیل DNA به اسم Carbon معرفی شده که کدهای ژنتیکی رو مثل یک زبان معمولی میخونه. این مدل اونقدر سریعه که میتونه کل ژنوم انسان رو روی یک کارت گرافیک معمولی در کمتر از ۲ روز پردازش کنه که برای تحقیقات ژنتیک و پروتئینسازی یک معجزه است.
۵. مترجمی که هم میشنود و هم میبیند!
علیبابا مدل Qwen 3.5 Live Translate رو منتشر کرد که یک مترجم همزمان بصریه. این هوش مصنوعی موقع ترجمه به تصویر هم نگاه میکنه تا کلمات رو اشتباه معنا نکنه؛ مثلاً اگر در تصویر صدف ببینه، میفهمه منظور از کلمه Muscle صدف دریایی است نه ماهیچهی بدن انسان، و ترجمهی دقیقتری تحویل میده.
۶. رباتهای دیوارنورد و انساننماهای ارزانقیمت
در دنیای رباتیک، شرکت Robot Plus+ از رباتهای غولپیکری رونمایی کرد که با آهنربا به بدنهی کشتیها و مخازن مواد شیمیایی میچسبند و کارهای سختی مثل جوشکاری یا رنگآمیزی رو انجام میدن. از اون طرف، هانگینگفیس (با هاگینگ فیس اشتباه نکنید!) پلتفرم Le Robot رو معرفی کرد که اجازه میده یک ربات انساننما رو با پرینتر سه بعدی و هزینهی حدود ۲۵۰۰ دلار در خانه بسازید.
۷. جادوی صداگذاری و کنترل ویدیو
متا مدل Wave Flow را معرفی کرد که میتونه برای ویدیوهای بیصدا، صدا و افکتهای صوتی کاملاً هماهنگ بسازه. همچنین سیستم Cog Omni Control مثل یک ریموتکنترل برای ویدیوها عمل میکنه؛ یعنی با یک نقاشی ساده یا تعیین ساختار بدن، میتونید دقیقاً کنترل کنید که شخصیتهای توی ویدیو چطور حرکت کنن.
۸. تصاویر با کیفیت خیرهکنندهی 8K
مدل جدید L2P مرزهای کیفیت تصویر را جابهجا کرده. برخلاف اکثر مدلها که در یک فضای فشرده کار میکنن، این مدل مستقیماً روی پیکسلها اثر میگذاره و میتونه عکسهایی با جزئیات بسیار بالا و کیفیت 8K بسازه.
۹. آواتارهای سخنگو که از آدمیزاد قابل تشخیص نیستند
شرکت Meituan نسخهی جدید آواتارساز خودش رو منتشر کرد. کافی است یک عکس و یک فایل صوتی به اون بدید تا اون شخص با میمیکهای صورت کاملاً طبیعی و احساسی، شروع به صحبت کنه. این سیستم حتی برای انیمیشنها و تعاملات چندنفره هم فوقالعاده عمل میکنه.
linktr.ee/DiegoJr
۱. مدل همهکارهی Lance از راه رسید!
شرکت Bytedance (مالک تیکتاک و مدل Seedance 2.0 و CapCut!) یک مدل ۳ میلیارد پارامتری معرفی کرد. این هوش مصنوعی نه تنها متن رو به ویدیو تبدیل میکنه، بلکه میتونه ویدیوهای موجود رو هم ویرایش کنه؛ مثلاً میتونید پسزمینه رو با آتش عوض کنید، مدل موهای یک نفر را تغییر دهید یا ازش بخواهید دستش رو آرام بالا بیاره.
۲. کمکدانشمند هوشمند گوگل دیپمایند
گوگل دیپمایند از سیستم «AI Co-scientist» رونمایی کرد که فراتر از یک چتبات ساده است. این سیستم شامل تیمی از ایجنتهاست که با هم بحث و جدل میکنند تا ایدههای علمی جدید بدهند، فرضیهها را نقد کنند و آزمایشهای تحقیقاتی طراحی کنند. این ابزار قراره سرعت کشفیات در پزشکی و بیولوژی رو چند برابر کنه.
۳. بازیهایی که با دستور شما ساخته میشوند!
مدل Reactive GWM انقلابی در دنیای گیمینگ. در این سیستم، شخصیتهای غیرقابل بازی (NPC) دیگه فقط دکور نیستند؛ شما میتونید استراتژی اونها رو تعیین کنید، مثلاً به NPC بگید تهاجمی بازی کنه یا تدافعی، و هوش مصنوعی همون لحظه ویدیو و واکنشهای بازی رو بر اساس دستور شما خلق میکنه.
۴. هوش مصنوعی Carbon؛ متخصص زبانِ زندگی
یک مدل متنباز جدید برای تحلیل DNA به اسم Carbon معرفی شده که کدهای ژنتیکی رو مثل یک زبان معمولی میخونه. این مدل اونقدر سریعه که میتونه کل ژنوم انسان رو روی یک کارت گرافیک معمولی در کمتر از ۲ روز پردازش کنه که برای تحقیقات ژنتیک و پروتئینسازی یک معجزه است.
۵. مترجمی که هم میشنود و هم میبیند!
علیبابا مدل Qwen 3.5 Live Translate رو منتشر کرد که یک مترجم همزمان بصریه. این هوش مصنوعی موقع ترجمه به تصویر هم نگاه میکنه تا کلمات رو اشتباه معنا نکنه؛ مثلاً اگر در تصویر صدف ببینه، میفهمه منظور از کلمه Muscle صدف دریایی است نه ماهیچهی بدن انسان، و ترجمهی دقیقتری تحویل میده.
۶. رباتهای دیوارنورد و انساننماهای ارزانقیمت
در دنیای رباتیک، شرکت Robot Plus+ از رباتهای غولپیکری رونمایی کرد که با آهنربا به بدنهی کشتیها و مخازن مواد شیمیایی میچسبند و کارهای سختی مثل جوشکاری یا رنگآمیزی رو انجام میدن. از اون طرف، هانگینگفیس (با هاگینگ فیس اشتباه نکنید!) پلتفرم Le Robot رو معرفی کرد که اجازه میده یک ربات انساننما رو با پرینتر سه بعدی و هزینهی حدود ۲۵۰۰ دلار در خانه بسازید.
۷. جادوی صداگذاری و کنترل ویدیو
متا مدل Wave Flow را معرفی کرد که میتونه برای ویدیوهای بیصدا، صدا و افکتهای صوتی کاملاً هماهنگ بسازه. همچنین سیستم Cog Omni Control مثل یک ریموتکنترل برای ویدیوها عمل میکنه؛ یعنی با یک نقاشی ساده یا تعیین ساختار بدن، میتونید دقیقاً کنترل کنید که شخصیتهای توی ویدیو چطور حرکت کنن.
۸. تصاویر با کیفیت خیرهکنندهی 8K
مدل جدید L2P مرزهای کیفیت تصویر را جابهجا کرده. برخلاف اکثر مدلها که در یک فضای فشرده کار میکنن، این مدل مستقیماً روی پیکسلها اثر میگذاره و میتونه عکسهایی با جزئیات بسیار بالا و کیفیت 8K بسازه.
۹. آواتارهای سخنگو که از آدمیزاد قابل تشخیص نیستند
شرکت Meituan نسخهی جدید آواتارساز خودش رو منتشر کرد. کافی است یک عکس و یک فایل صوتی به اون بدید تا اون شخص با میمیکهای صورت کاملاً طبیعی و احساسی، شروع به صحبت کنه. این سیستم حتی برای انیمیشنها و تعاملات چندنفره هم فوقالعاده عمل میکنه.
linktr.ee/DiegoJr
50❤12👍3🔥2
This media is not supported in your browser
VIEW IN TELEGRAM
به کمک 4DV AI و تکنیک 4D Gaussian Splatting میشه هر ویدیوی معمولی 2D رو تبدیل کنی به یک فضای سهبعدی کاملاً قابل کاوش.
میتونی دورش بچرخی، زاویه بگیری و از زوایایی که اصلاً تو فیلم اصلی وجود نداشته، صحنه رو ببینی.
وب سایت این ابزار
میتونی دورش بچرخی، زاویه بگیری و از زوایایی که اصلاً تو فیلم اصلی وجود نداشته، صحنه رو ببینی.
وب سایت این ابزار
(خودم با این وضعیت اینترنت هنوز موفق به تست نشدم!)
❤7🤯3👍2
یک مطالعه بزرگ و مهم درباره الگوریتمهای استخدام به کمک ابزارهای هوش مصنوعی منتشر شده و نتایجش نشوندهنده چالش جدی در کاربرد AI تو دنیای کار و استخدامه.
بزرگترین تحقیق مستقل تا امروز (روی بیش از ۴ میلیون اپلیکیشن از ۳ میلیون متقاضی در ۱۵۶ شرکت بزرگ) توسط محققان Stanford و دانشگاههای دیگه انجام شده. این مطالعه روی الگوریتم شرکت Pymetrics (که توسط Harver خریداری شده) تمرکز داره.
نکات کلیدی این تحقیق:
- بیش از ۲۵٪ از اپلیکیشنهای افراد سیاهپوست به موقعیتهایی رفته که الگوریتم AI طبق قانون فدرال آمریکا (قانون چهار پنجم) تبعیضآمیز تشخیص داده میشه.
- حدود ۳۰٪ از متقاضیان سیاهپوست حداقل به یک شغل با خروجی تبعیضآمیز اپلای کردن.
- آسیاییها هم تحت تاثیر بودن (۱۴.۷٪ اپلیکیشنهاشون مشکلدار بوده).
این الگوریتم به جای بررسی رزومه، از بازیهای آنلاین برای سنجش ویژگیهایی مثل تحمل ریسک، سرعت پردازش و altruism استفاده میکنه.
ادعا میشد که این روش عادلانهتره، اما مطالعه نشون داد وقتی دادهها رو برای هر موقعیت شغلی جداگانه بررسی کنی (نه جمع کلی)، تبعیض AI واضح ظاهر میشه.
مشکل بزرگتر: Algorithmic Blackball
چون خیلی از شرکتها از یک واسط استفاده میکنن، رد شدن توسط الگوریتم AI در یک شرکت، احتمال رد شدن در شرکتهای دیگه رو هم به شدت بالا میبره. این یعنی یک نوع لیست سیاه الگوریتمی ایجاد شده که متقاضیان حتی از وجودش خبر ندارن.
برای اینکه احتمال رد شدن سیستمیات خیلی کم بشه، باید حداقل به ۲۵ شغل اپلای کنی!
این مطالعه نشون میده که وقتی AI در فرآیند استخدام متمرکز بشه (یک الگوریتم روی صدها شرکت تاثیر بذاره)، خطاهای یک مدل میتونه به سطح کل صنعت برسه و فرصتهای شغلی هزاران نفر رو تحت تأثیر قرار بده.
لینک مقاله کامل
بزرگترین تحقیق مستقل تا امروز (روی بیش از ۴ میلیون اپلیکیشن از ۳ میلیون متقاضی در ۱۵۶ شرکت بزرگ) توسط محققان Stanford و دانشگاههای دیگه انجام شده. این مطالعه روی الگوریتم شرکت Pymetrics (که توسط Harver خریداری شده) تمرکز داره.
نکات کلیدی این تحقیق:
- بیش از ۲۵٪ از اپلیکیشنهای افراد سیاهپوست به موقعیتهایی رفته که الگوریتم AI طبق قانون فدرال آمریکا (قانون چهار پنجم) تبعیضآمیز تشخیص داده میشه.
- حدود ۳۰٪ از متقاضیان سیاهپوست حداقل به یک شغل با خروجی تبعیضآمیز اپلای کردن.
- آسیاییها هم تحت تاثیر بودن (۱۴.۷٪ اپلیکیشنهاشون مشکلدار بوده).
این الگوریتم به جای بررسی رزومه، از بازیهای آنلاین برای سنجش ویژگیهایی مثل تحمل ریسک، سرعت پردازش و altruism استفاده میکنه.
ادعا میشد که این روش عادلانهتره، اما مطالعه نشون داد وقتی دادهها رو برای هر موقعیت شغلی جداگانه بررسی کنی (نه جمع کلی)، تبعیض AI واضح ظاهر میشه.
مشکل بزرگتر: Algorithmic Blackball
چون خیلی از شرکتها از یک واسط استفاده میکنن، رد شدن توسط الگوریتم AI در یک شرکت، احتمال رد شدن در شرکتهای دیگه رو هم به شدت بالا میبره. این یعنی یک نوع لیست سیاه الگوریتمی ایجاد شده که متقاضیان حتی از وجودش خبر ندارن.
برای اینکه احتمال رد شدن سیستمیات خیلی کم بشه، باید حداقل به ۲۵ شغل اپلای کنی!
این مطالعه نشون میده که وقتی AI در فرآیند استخدام متمرکز بشه (یک الگوریتم روی صدها شرکت تاثیر بذاره)، خطاهای یک مدل میتونه به سطح کل صنعت برسه و فرصتهای شغلی هزاران نفر رو تحت تأثیر قرار بده.
لینک مقاله کامل
❤5👍3😱2
This media is not supported in your browser
VIEW IN TELEGRAM
مارتین اسکورسیزی حالا مشاور Black Forest Labs (سازندگان FLUX) شده!
یکی از بزرگترین کارگردانهای تاریخ سینما با ۶۰ سال تجربه، حالا به تیم BFL پیوسته تا با همکاری هم «ذوق و سلیقه انسانی» رو در مرکز هوش بصری قرار بدن.
تو این جلسه، با هم session storyboarding کردن و اسکورسیزی با FLUX ایدههاش رو به تصویر کشیده. اون میگه این ابزار کمک میکنه چیزی که تو ذهنش هست رو واضحتر و سریعتر به تیمش (طراح تولید، طراح هنری و فیلمبردار) منتقل کنه.
این همکاری نشون میده که حتی غولهای سینما دارن به سمت AI حرکت میکنن و ازش برای تقویت خلاقیت استفاده میکنن.
linktr.ee/DiegoJr
یکی از بزرگترین کارگردانهای تاریخ سینما با ۶۰ سال تجربه، حالا به تیم BFL پیوسته تا با همکاری هم «ذوق و سلیقه انسانی» رو در مرکز هوش بصری قرار بدن.
تو این جلسه، با هم session storyboarding کردن و اسکورسیزی با FLUX ایدههاش رو به تصویر کشیده. اون میگه این ابزار کمک میکنه چیزی که تو ذهنش هست رو واضحتر و سریعتر به تیمش (طراح تولید، طراح هنری و فیلمبردار) منتقل کنه.
این همکاری نشون میده که حتی غولهای سینما دارن به سمت AI حرکت میکنن و ازش برای تقویت خلاقیت استفاده میکنن.
linktr.ee/DiegoJr
❤14😱4🔥3👍1🤩1
خلاصه اخبار داغ و معرفی ابزارهای هوش مصنوعی این هفته:
۱. چشمان تیزبین انویدیا به کمک مدل Locate Anything
این مدل انویدیا توی شلوغترین ویدیوها هم هر چیزی که بخوای رو پیدا میکنه و دورش کادر میکشه. سرعتش به خاطر تکنیک جدید «Parallel Box Decoding» خیلی بالاست.
لینک:
https://research.nvidia.com/labs/lpr/locate-anything/
۲. جراحی نور در عکسهای تاریک با Control Light
ابزار هوشمندی که نور عکسها رو بدون نویز و بههمریختگی جابهجا میکنه و انگار از اول همونطور نورپردازی شده بازسازی میکنه.
لینک:
https://yfyang007.github.io/ControlLight/
۳. بازسازی سهبعدی با سرعت مثلثی!
ابزار Triplat برخلاف روشهای قدیمی، صحنهها رو با مثلث میسازه. نتیجهش بازسازی خیلی سریعتر و آماده برای موتورهای بازیسازیه.
لینک:
https://lhmd.top/trisplat/
۴. آپاسکیلر وحشتناک سریع انویدیا PID
رکوردشکنی انویدیا! عکس معمولی رو زیر ۱ ثانیه به 2K تبدیل میکنه، تقریباً ۶ برابر سریعتر از رقبا.
لینک:
https://research.nvidia.com/labs/sil/projects/pid/
۵. کارگردانی همزمان صدا و تصویر با Instruct AV to AV
ویدیو میدی و میگی طرف یه حرف دیگه بزنه. هم صدا عوض میشه، هم حرکت لبها دقیق هماهنگ میشه. خروجی کاملاً طبیعی.
لینک:
https://hjzheng.net/projects/InstructAV2AV/
۶. تبدیل ویدیوی گوشی به صحنه سهبعدی با Gen Recon
با گوشی از یه اتاق فیلم بگیر، این سیستم یه مدل سهبعدی کامل با متریال واقعی تحویل میده. میتونی نور و اشیاء رو هم بعداً تغییر بدی.
لینک:
https://kasothaphie.github.io/GenRecon/
۷. ساخت دنیای بازی اکشن در لحظه با Scope
یه فریم عکس + دستورات دسته بازی بده، همون لحظه یه مرحله قابل بازی برات میسازه. حتی به شلیک و عوض کردن خشاب هم واکنش بصری نشون میده.
لینک:
https://z2tong.github.io/SCOPE/
۸. مدلهایی که فیزیک حالیشونه؛ PhysX Omni
اشیاء رو طوری میسازه که مفصل دارن و واقعاً کار میکنن. مثلاً چرخ ماشین واقعاً میچرخه و آماده انیمیشن و شبیهسازیه.
لینک:
https://physx-omni.github.io/
۹. امتحان نهایی برای ایجنتهای کدنویس؛ DeepSuite
بنچمارک جدید که به جای تستهای تکراری، ایجنتها رو با پروژههای واقعی و پیچیده نرمافزاری به چالش میکشه.
لینک:
https://deepswe.datacurve.ai/blog
۱۰. کلود ۴.۸ اپوس؛ پادشاه جدید دنیای استدلال
آنتروپیک مدلی آورده که تو تحلیل مالی و کدنویسی از GPT-5.5 هم جلو زده. بزرگترین نقطه قوتش اینه که اگه چیزی ندونه، صادقانه اعتراف میکنه.
لینک:
https://www.anthropic.com/news/claude-opus-4-8
۱۱. خدمتکار چرخدار خونه؛ Astrobot T1
ربات انساننمای ۱۳ هزار دلاری که تو اتو کردن، شستن لباس و کارهای خونه کمک میکنه. روی زمین صاف عالی کار میکنه.
۱۲. ربات شعبدهباز؛ Athena Zero
فقط تو ۱۰ دقیقه ۵ مدل مختلف ژانگولربازی یاد میگیره و با پرتابهای نامنظم سریع خودش رو هماهنگ میکنه.
۱۳. مدل همهکاره و سریع؛ Step 3.7 Flash
مدل چندوجهی مخصوص کارهای ایجنتی. همزمان میبینه، جستجو میکنه و کارهای پیچیده اداری رو برات انجام میده.
لینک:
https://static.stepfun.com/blog/step-3.7-flash/
۱۴. تولید قطعات سهبعدی جداگانه؛ Cube Part
به جای مدل یکتکه، قطعات رو جدا تحویل میده (چرخ، بدنه، فرمون و...) تا راحت بتونی حرکت بدی و تو بازی استفاده کنی.
لینک:
https://cubepart.github.io/
۱۵. خوداصلاحی هوش مصنوعی با متد زنبوری!
با روش جدیدی به اسم BEES توی اون مدل یاد میگیره مسائل سخت رو هم از پایین به بالا و هم از بالا به پایین تحلیل کنه و خودش اشتباهاتش رو اصلاح کنه.
لینک:
https://guoweixu.com/bes/
۱۶. تیم تحقیقاتی هوش مصنوعی؛ Autoscientist
ایجنتهایی که مثل تیم واقعی بحث میکنن، آزمایش طراحی میکنن و نتایج رو ثبت میکنن تا سرعت کشف علمی رو چند برابر کنن.
لینک:
https://autoscientists.openscientist.ai/
۱۷. شبیهساز بازیهای چندنفره انویدیا؛ Gamma World
دنیای بازی رو همزمان برای چند بازیکن مختلف میسازه، هر کسی کنترل خودش رو داره ولی محیط کاملاً هماهنگ و ثابت میمونه.
لینک:
https://research.nvidia.com/labs/sil/projects/gamma-world/
۱۸. فلاکس آفلاین تو جیب تو با Bonsai Image
حجم Flux رو از ۸ گیگ به ۱ گیگ رسونده. زیر ۱۰ ثانیه روی آیفون بدون اینترنت عکس حرفهای میسازه.
لینک:
https://prismml.com/news/bonsai-image-4b
۱۹. عکسهای غولآسا با کیفیت 6K با Sega
محدودیت رزولوشن رو شکسته و عکسهایی با ۶۰۰۰ پیکسل میسازه که حتی با زوم زیاد جزئیاتش خیرهکننده میمونه.
لینک:
https://rajabi2001.github.io/sega/
۱. چشمان تیزبین انویدیا به کمک مدل Locate Anything
این مدل انویدیا توی شلوغترین ویدیوها هم هر چیزی که بخوای رو پیدا میکنه و دورش کادر میکشه. سرعتش به خاطر تکنیک جدید «Parallel Box Decoding» خیلی بالاست.
لینک:
https://research.nvidia.com/labs/lpr/locate-anything/
۲. جراحی نور در عکسهای تاریک با Control Light
ابزار هوشمندی که نور عکسها رو بدون نویز و بههمریختگی جابهجا میکنه و انگار از اول همونطور نورپردازی شده بازسازی میکنه.
لینک:
https://yfyang007.github.io/ControlLight/
۳. بازسازی سهبعدی با سرعت مثلثی!
ابزار Triplat برخلاف روشهای قدیمی، صحنهها رو با مثلث میسازه. نتیجهش بازسازی خیلی سریعتر و آماده برای موتورهای بازیسازیه.
لینک:
https://lhmd.top/trisplat/
۴. آپاسکیلر وحشتناک سریع انویدیا PID
رکوردشکنی انویدیا! عکس معمولی رو زیر ۱ ثانیه به 2K تبدیل میکنه، تقریباً ۶ برابر سریعتر از رقبا.
لینک:
https://research.nvidia.com/labs/sil/projects/pid/
۵. کارگردانی همزمان صدا و تصویر با Instruct AV to AV
ویدیو میدی و میگی طرف یه حرف دیگه بزنه. هم صدا عوض میشه، هم حرکت لبها دقیق هماهنگ میشه. خروجی کاملاً طبیعی.
لینک:
https://hjzheng.net/projects/InstructAV2AV/
۶. تبدیل ویدیوی گوشی به صحنه سهبعدی با Gen Recon
با گوشی از یه اتاق فیلم بگیر، این سیستم یه مدل سهبعدی کامل با متریال واقعی تحویل میده. میتونی نور و اشیاء رو هم بعداً تغییر بدی.
لینک:
https://kasothaphie.github.io/GenRecon/
۷. ساخت دنیای بازی اکشن در لحظه با Scope
یه فریم عکس + دستورات دسته بازی بده، همون لحظه یه مرحله قابل بازی برات میسازه. حتی به شلیک و عوض کردن خشاب هم واکنش بصری نشون میده.
لینک:
https://z2tong.github.io/SCOPE/
۸. مدلهایی که فیزیک حالیشونه؛ PhysX Omni
اشیاء رو طوری میسازه که مفصل دارن و واقعاً کار میکنن. مثلاً چرخ ماشین واقعاً میچرخه و آماده انیمیشن و شبیهسازیه.
لینک:
https://physx-omni.github.io/
۹. امتحان نهایی برای ایجنتهای کدنویس؛ DeepSuite
بنچمارک جدید که به جای تستهای تکراری، ایجنتها رو با پروژههای واقعی و پیچیده نرمافزاری به چالش میکشه.
لینک:
https://deepswe.datacurve.ai/blog
۱۰. کلود ۴.۸ اپوس؛ پادشاه جدید دنیای استدلال
آنتروپیک مدلی آورده که تو تحلیل مالی و کدنویسی از GPT-5.5 هم جلو زده. بزرگترین نقطه قوتش اینه که اگه چیزی ندونه، صادقانه اعتراف میکنه.
لینک:
https://www.anthropic.com/news/claude-opus-4-8
۱۱. خدمتکار چرخدار خونه؛ Astrobot T1
ربات انساننمای ۱۳ هزار دلاری که تو اتو کردن، شستن لباس و کارهای خونه کمک میکنه. روی زمین صاف عالی کار میکنه.
۱۲. ربات شعبدهباز؛ Athena Zero
فقط تو ۱۰ دقیقه ۵ مدل مختلف ژانگولربازی یاد میگیره و با پرتابهای نامنظم سریع خودش رو هماهنگ میکنه.
۱۳. مدل همهکاره و سریع؛ Step 3.7 Flash
مدل چندوجهی مخصوص کارهای ایجنتی. همزمان میبینه، جستجو میکنه و کارهای پیچیده اداری رو برات انجام میده.
لینک:
https://static.stepfun.com/blog/step-3.7-flash/
۱۴. تولید قطعات سهبعدی جداگانه؛ Cube Part
به جای مدل یکتکه، قطعات رو جدا تحویل میده (چرخ، بدنه، فرمون و...) تا راحت بتونی حرکت بدی و تو بازی استفاده کنی.
لینک:
https://cubepart.github.io/
۱۵. خوداصلاحی هوش مصنوعی با متد زنبوری!
با روش جدیدی به اسم BEES توی اون مدل یاد میگیره مسائل سخت رو هم از پایین به بالا و هم از بالا به پایین تحلیل کنه و خودش اشتباهاتش رو اصلاح کنه.
لینک:
https://guoweixu.com/bes/
۱۶. تیم تحقیقاتی هوش مصنوعی؛ Autoscientist
ایجنتهایی که مثل تیم واقعی بحث میکنن، آزمایش طراحی میکنن و نتایج رو ثبت میکنن تا سرعت کشف علمی رو چند برابر کنن.
لینک:
https://autoscientists.openscientist.ai/
۱۷. شبیهساز بازیهای چندنفره انویدیا؛ Gamma World
دنیای بازی رو همزمان برای چند بازیکن مختلف میسازه، هر کسی کنترل خودش رو داره ولی محیط کاملاً هماهنگ و ثابت میمونه.
لینک:
https://research.nvidia.com/labs/sil/projects/gamma-world/
۱۸. فلاکس آفلاین تو جیب تو با Bonsai Image
حجم Flux رو از ۸ گیگ به ۱ گیگ رسونده. زیر ۱۰ ثانیه روی آیفون بدون اینترنت عکس حرفهای میسازه.
لینک:
https://prismml.com/news/bonsai-image-4b
۱۹. عکسهای غولآسا با کیفیت 6K با Sega
محدودیت رزولوشن رو شکسته و عکسهایی با ۶۰۰۰ پیکسل میسازه که حتی با زوم زیاد جزئیاتش خیرهکننده میمونه.
لینک:
https://rajabi2001.github.io/sega/
❤3👍2🔥2
۲۰. جادوی تغییر منبع نور؛ Pixel Relights
موس رو تو عکس میچرخونی، منبع نور عوض میشه. اول درک سهبعدی از صحنه پیدا میکنه بعد سایه و بازتابها رو دقیق بازسازی میکنه.
لینک:
https://mlfarinha.github.io/pixl-relight/
۲۱. قدرت زیاد در ابعاد کم؛ mini CPM 51B
مدل ۱ میلیارد پارامتری (۲ گیگ) که تو دانش عمومی و کدنویسی خیلی از مدلهای بزرگتر رو شکست میده.
لینک:
https://huggingface.co/openbmb/MiniCPM5-1B
۲۲. ساخت ویدیوهای ۳۶۰ درجه با Pantheon 360
چند عکس ۳۶۰ درجه رو میگیره و یه ویدیوی پانورامیک کامل میسازه که با حرکت دوربین همه زوایا هماهنگ و واقعی میمونن.
لینک:
https://koi953215.github.io/pantheon360_page/
موس رو تو عکس میچرخونی، منبع نور عوض میشه. اول درک سهبعدی از صحنه پیدا میکنه بعد سایه و بازتابها رو دقیق بازسازی میکنه.
لینک:
https://mlfarinha.github.io/pixl-relight/
۲۱. قدرت زیاد در ابعاد کم؛ mini CPM 51B
مدل ۱ میلیارد پارامتری (۲ گیگ) که تو دانش عمومی و کدنویسی خیلی از مدلهای بزرگتر رو شکست میده.
لینک:
https://huggingface.co/openbmb/MiniCPM5-1B
۲۲. ساخت ویدیوهای ۳۶۰ درجه با Pantheon 360
چند عکس ۳۶۰ درجه رو میگیره و یه ویدیوی پانورامیک کامل میسازه که با حرکت دوربین همه زوایا هماهنگ و واقعی میمونن.
لینک:
https://koi953215.github.io/pantheon360_page/
Nvidia
LocateAnything
Parallel Box Decoding unlocks substantial parallelism and preserves intra-box geometric coherence.
🔥3
لیست مسابقات معتبر فیلمسازی با AI که مجموع جوایزشون ۱۵۰ هزار دلاره!
Korea AI Film Contest
جایزه: ۶۰ هزار دلار
ددلاین: ۱۲ جولای
👈 لینک مسابقه
Filmsupply Editing Competition
جایزه: ۶۵ هزار دلار
ددلاین: ۵ ژوئن
👈 لینک مسابقه
Seoul Design Foundation
جایزه: ۱۸ هزار دلار
ددلاین: ۳۰ ژوئن
👈 لینک مسابقه
linktr.ee/DiegoJr
Korea AI Film Contest
جایزه: ۶۰ هزار دلار
ددلاین: ۱۲ جولای
👈 لینک مسابقه
Filmsupply Editing Competition
جایزه: ۶۵ هزار دلار
ددلاین: ۵ ژوئن
👈 لینک مسابقه
Seoul Design Foundation
جایزه: ۱۸ هزار دلار
ددلاین: ۳۰ ژوئن
👈 لینک مسابقه
linktr.ee/DiegoJr
1❤3🔥2🤯1
AI With Diego Jr
لیست مسابقات معتبر فیلمسازی با AI که مجموع جوایزشون ۱۵۰ هزار دلاره! Korea AI Film Contest جایزه: ۶۰ هزار دلار ددلاین: ۱۲ جولای 👈 لینک مسابقه Filmsupply Editing Competition جایزه: ۶۵ هزار دلار ددلاین: ۵ ژوئن 👈 لینک مسابقه Seoul Design Foundation جایزه:…
اگر تولید محتوای AI میکنید و یا حتی توکن ماهیانه تو اکانت سرویسهای AI دارید که استفاده نمیشن و میسوزن، منتظر باشید که توی همین چند روز آینده قراره جزئیات یه مسابقه بزرگ AI اعلام بشه که پشتش یکی از غولهای تکنولوژی و سرگرمی دنیا ایستاده!
🔥8❤1
تکنیک The Layout Bet، حرکت جدید و جاهطلبانه شرکت Reve!
به جای اینکه مثل مدلهای فعلی، پرامپت متنی رو به LLM بدن و بعد به diffusion مدل، Reve یه شرط متفاوت بسته:
"استفاده از Layout به عنوان نماینده میانی تصویر."
حالا Layout اینجا چیه؟
یه ساختار سلسلهمراتبی و دقیق که هر المان تو تصویر داره:
موقعیت، اندازه، توضیح محلی، رنگ، ارجاع به تصویر و... دقیق مثل HTML برای وب یا SVG برای وکتور.
نتیجهاش میشه کنترل خیلی دقیقتر و بدون ابهام متن. میتونی با زبان طبیعی دستور بدی یا مستقیم layout رو ویرایش کنی.
هم انسان راحت باهاش کار میکنه، هم ایجنتهای AI.
حالا Reve مدل خودشون رو (Large Layout Model) ساخته و ادعا میکنه Reve 2.0 بهترین مدل تصویرسازی شرکتی زیر ۱ تریلیون دلار هست، با منابع خیلی کمتر از غولها.
این رویکرد تو بازسازی تصویر، ویرایش دقیق و کنترل فضایی خیلی قوی عمل کرده.
به نظرم این یکی از جهتهای درست برای نسل بعدی مدلهای بصریه: به جای تکیه کامل به متن، یه لایه معنایی ساختاریافته و قابل برنامهریزی بذاریم وسط.
لینک مقاله کامل:
https://blog.reve.com/posts/the-layout-bet/
حتما مقاله رو ببینید، مثالهای تصویری و تعاملیای که آورده کامل این تکنیک رو براتون شفاف میکنه.
به جای اینکه مثل مدلهای فعلی، پرامپت متنی رو به LLM بدن و بعد به diffusion مدل، Reve یه شرط متفاوت بسته:
"استفاده از Layout به عنوان نماینده میانی تصویر."
حالا Layout اینجا چیه؟
یه ساختار سلسلهمراتبی و دقیق که هر المان تو تصویر داره:
موقعیت، اندازه، توضیح محلی، رنگ، ارجاع به تصویر و... دقیق مثل HTML برای وب یا SVG برای وکتور.
نتیجهاش میشه کنترل خیلی دقیقتر و بدون ابهام متن. میتونی با زبان طبیعی دستور بدی یا مستقیم layout رو ویرایش کنی.
هم انسان راحت باهاش کار میکنه، هم ایجنتهای AI.
(این دومی خیلی مهمه! مدلها و به تازگی سرویسها فقط دیگه برای من و شما ساخته نمیشن، یک مخاطب AI Agent هم دارن، و وای از اون روزی که مخاطبشون فقط همینها باشن و نه ما!)
حالا Reve مدل خودشون رو (Large Layout Model) ساخته و ادعا میکنه Reve 2.0 بهترین مدل تصویرسازی شرکتی زیر ۱ تریلیون دلار هست، با منابع خیلی کمتر از غولها.
این رویکرد تو بازسازی تصویر، ویرایش دقیق و کنترل فضایی خیلی قوی عمل کرده.
به نظرم این یکی از جهتهای درست برای نسل بعدی مدلهای بصریه: به جای تکیه کامل به متن، یه لایه معنایی ساختاریافته و قابل برنامهریزی بذاریم وسط.
لینک مقاله کامل:
https://blog.reve.com/posts/the-layout-bet/
حتما مقاله رو ببینید، مثالهای تصویری و تعاملیای که آورده کامل این تکنیک رو براتون شفاف میکنه.
Reve Blog
Reve: Bring your ideas to life
Reve Image (Halfmoon): A model trained from the ground up to excel at prompt adherence, aesthetics, and
typography. Make any image you can imagine with Reve.
typography. Make any image you can imagine with Reve.
❤6👍2🤯1
شرکت OpenAI ویژگی Dreaming رو برای حافظه ChatGPT معرفی کرد!
بالاخره بعد از مدتها انتظار، OpenAI ویژگی خیلی مهمی به اسم Dreaming رو برای ChatGPT معرفی کرد. این آپدیت حافظه رو از حالت «یادآوری ساده» به یه سیستم هوشمند و پویا تبدیل کرده.
قبلاً چی بود؟
قبلاً ChatGPT چند تا نکته رو یادش میموند، ولی بعد از مدتی قدیمی و بیربط میشد. مثلاً اگه بهش گفته بودی رژیم غذایی خاصی داری یا پروژهای داری، بعد از چند هفته دیگه درست به یادش نمیاومد.
حالا با Dreaming چی شده؟
با این قابلیت ChatGPT تو پسزمینه (حتی وقتی باهاش حرف نمیزنی) همه چتهات رو بررسی میکنه، خلاصه میکنه، الگوها رو پیدا میکنه و حافظهش رو همیشه تازه و بهروز نگه میداره. انگار داره «رویا میبینه» و اطلاعات رو مرتب و هوشمندانه سازماندهی میکنه.
فایدههای واقعیش چیه؟
شخصیسازی خیلی بهتر: ترجیحاتت، علایقت، محدودیتهات و جزئیات زندگیت رو خیلی دقیقتر به خاطر میسپاره. مثلاً اگه قبلاً گفتی عاشق عکاسی طبیعت هستی، دیگه پیشنهادهای generic نمیده؛ مستقیم بهت ایدههای مرتبط با سبک مورد علاقهت میده.
پروژههای طولانی: اگه روی یه پروژه چند ماهه کار میکنی (مثل نوشتن کتاب، راهاندازی بیزینس یا یادگیری زبان)، لازم نیست هر بار از اول توضیح بدی. ChatGPT زمینه کامل رو حفظ میکنه.
آپدیت خودکار: مثلاً اگه گفتی قراره به سفر بری، بعد از سفر خودش متوجه میشه و اطلاعات قدیمی رو پاک یا آپدیت میکنه.
کنترل کامل داری: میتونی حافظه رو ببینی، ویرایش کنی، بگی چی رو فراموش کنه یا چی رو حتماً یادش بمونه.
در کل، ChatGPT دیگه مثل یه دوست معمولی عمل میکنه که فقط حرفاتو گوش میده.
حالا مثل یه دستیار واقعاً باهوش شده که تو جزئیات زندگی و کارتو درگیره و همیشه بهروزه.
این ویژگی از امروز برای کاربران Plus و Pro در آمریکا فعال شده و به زودی برای بقیه کشورها و حتی کاربران معمولی هم میرسه.
لینک کامل توضیحات OpenAI:
https://openai.com/index/chatgpt-memory-dreaming/
بالاخره بعد از مدتها انتظار، OpenAI ویژگی خیلی مهمی به اسم Dreaming رو برای ChatGPT معرفی کرد. این آپدیت حافظه رو از حالت «یادآوری ساده» به یه سیستم هوشمند و پویا تبدیل کرده.
قبلاً چی بود؟
قبلاً ChatGPT چند تا نکته رو یادش میموند، ولی بعد از مدتی قدیمی و بیربط میشد. مثلاً اگه بهش گفته بودی رژیم غذایی خاصی داری یا پروژهای داری، بعد از چند هفته دیگه درست به یادش نمیاومد.
حالا با Dreaming چی شده؟
با این قابلیت ChatGPT تو پسزمینه (حتی وقتی باهاش حرف نمیزنی) همه چتهات رو بررسی میکنه، خلاصه میکنه، الگوها رو پیدا میکنه و حافظهش رو همیشه تازه و بهروز نگه میداره. انگار داره «رویا میبینه» و اطلاعات رو مرتب و هوشمندانه سازماندهی میکنه.
فایدههای واقعیش چیه؟
شخصیسازی خیلی بهتر: ترجیحاتت، علایقت، محدودیتهات و جزئیات زندگیت رو خیلی دقیقتر به خاطر میسپاره. مثلاً اگه قبلاً گفتی عاشق عکاسی طبیعت هستی، دیگه پیشنهادهای generic نمیده؛ مستقیم بهت ایدههای مرتبط با سبک مورد علاقهت میده.
پروژههای طولانی: اگه روی یه پروژه چند ماهه کار میکنی (مثل نوشتن کتاب، راهاندازی بیزینس یا یادگیری زبان)، لازم نیست هر بار از اول توضیح بدی. ChatGPT زمینه کامل رو حفظ میکنه.
آپدیت خودکار: مثلاً اگه گفتی قراره به سفر بری، بعد از سفر خودش متوجه میشه و اطلاعات قدیمی رو پاک یا آپدیت میکنه.
کنترل کامل داری: میتونی حافظه رو ببینی، ویرایش کنی، بگی چی رو فراموش کنه یا چی رو حتماً یادش بمونه.
در کل، ChatGPT دیگه مثل یه دوست معمولی عمل میکنه که فقط حرفاتو گوش میده.
(حتی این هم با ما دوست معمولیه!)
حالا مثل یه دستیار واقعاً باهوش شده که تو جزئیات زندگی و کارتو درگیره و همیشه بهروزه.
این ویژگی از امروز برای کاربران Plus و Pro در آمریکا فعال شده و به زودی برای بقیه کشورها و حتی کاربران معمولی هم میرسه.
لینک کامل توضیحات OpenAI:
https://openai.com/index/chatgpt-memory-dreaming/
OpenAI
Dreaming: Better memory for a more helpful ChatGPT
ChatGPT introduces a new memory system to better remember preferences, keeping context fresh and relevant across conversations.
❤11