DLeX: AI Python

Forwarded from NLP stuff

ارمغانی دیگر از قلمرو مولتی‌مودال! تولید تصاویر انسانی با استایل‌های مختلف.

جذابیت مدل‌‌های generative مخصوصا در حوزه تصویر داره میل به بی‌نهایت می‌کنه. مدل‌هایی مثل deep fake قبلا خیلی گرد و خاک کردند. اخیرا مدلی به‌نام Text2Human معرفی شده که با استفاده از جملات متنی یک استایل از انسان واقعی رو تولید می‌کنه. روش کارش به این صورته که شما در ورودی وضعیت بدنی (human pose) رو به صورت تصویر می‌دید (که هر تصویری می‌تونه باشه و خود دمو هم چندین مثال داره) و فرم لباس و بافت لباس مورد نظرتون رو به صورت جملات متنی می‌دید و مدل براتون تصاویر آدم‌هایی با همان ویژگی توصیف‌شده توسط شما رو تولید می‌کنه. شیوه کار کلی این مدل در دو گام اصلی خلاصه میشه. در گام اول یک تصویرخام از فرم بدن انسان (human pose)، تبدیل به یک قالب کلی انسان با یک لباس بدون بافت و شکل مشخص میشه (human parsing). سپس در گام دوم خروجی گام اول گرفته می‌شه و بافت و فرم لباس رو به تصویر گام قبل اضافه می‌کنه. نمای کلی مدل در تصویر زیر اومده. برای گام اول و تولید بردار بازنمایی قالب بدن انسان از جملات ورودی، از یک شبکه با چندین لایه fully connected استفاده می‌شه و این بردار بازنمایی به همراه تصویر خام به یک شبکه Auto Encoder داده میشه تا در خروجی یک قالب کلی از بدن انسان که فرم لباس در اون مشخصه ولی رنگ و بافت خاصی نداره رو خروجی بده. سپس برای گام دوم، خروجی تصویر گام اول به دو شبکه Auto Encoder همکار داده میشه که یکی مسوول بررسی ویژگی‌های سطح بالای تصویر استایل انسان هست و دیگری به صورت ریزدانه‌تری فیچر‌ها رو در نظر می‌گیره (فرض کنید در شبکه اول هر چند ده پیکسل مجاور هم تجمیع می‌شوند و به شبکه داده می‌شوند در حالیکه در شبکه دوم هر پیکسل یک درایه از بردار ورودی را تشکیل می‌دهد). از طرفی بازنمایی جملات نیز به این شبکه‌ها داده می‌شود. سپس برای اینکه این دو شبکه همکاری داشته باشند خروجی دیکودر شبکه اول به ورودی دیکودر شبکه دوم داده میشه. یعنی شبکه دوم علاوه بر دریافت خروجی encoder خودش، خروجی دیکودر شبکه اول رو هم دریافت می‌کنه و بعد اقدام به بازسازی تصویر نهایی می‌کنه. معماری این قسمت رو هم در تصاویر می‌تونید ببینید. این مدل بر روی هاگینگ‌فیس هم serve شده و می‌تونید دموش رو به صورت رایگان مشاهده کنید.

لینک مقاله:
https://arxiv.org/abs/2205.15996

لینک دمو:
https://huggingface.co/spaces/CVPR/Text2Human

لینک گیت‌هاب:
https://github.com/yumingj/Text2Human

#read
#paper

@nlp_stuff

stuff

👍4

3.17K viewsFarzad 🦅, 13:40

DLeX: AI Python

Forwarded from NLP stuff

عمرتان زیادی کرده که دکترا بخوانید؟

این هفته آقای لکان (یکی از سه‌ خدای دیپ‌لرنینگ) توییتی زده و به مورد Aditya Ramesh اشاره کرد. فردی که لیسانسش رو از دانشگاه NYU گرفته و قصد داشت تا وارد دوره دکتری شود اما با یک کارآموزی در OpenAI مسیرش تغییر کرده و در آن جا مانده و در نهایت با مدرک لیسانس تبدیل به نویسنده اصلی مقاله مدل معروف Dall-E می‌شود.

آقای بهنام نیشابور محقق گوگل هم توییت لکان را کوت کرده و نکات ریزتری برای تایید "نباید برای یادگیری ماشین دکترا خواند" به آن اضافه کرده است. نکته اصلی که تحصیلات تکمیلی برای زمینه‌ای مثل ML آورریتد است. چرا؟ چون که یک نفر بدون هیچ گونه پیش زمینه خاصی می‌تواند به این فیلد وارد شده و با اندکی وقت گذاشتن، حتی می‌تواند به راحتی در کنفرانس‌های مطرح دنیا مقاله‌ای چاپ کند. منابع آموزشی ML روز به روز گسترده‌تر و در دسترس‌تر می‌شوند و واقعا لازم نیست کسی برای وارد شدن به وادی پژوهشگری یادگیری ماشین بیاید و ۵ الی ۶ سال از عمرش را در ارشد یا دکتری هدر دهد. (و خودمانیم، رشته‌‌هایی مثل فیزیک را با ML مقایسه کنید. طرف در فیزیک تا بخواهد به جایی برسید باید مو سفید کند اما امروزه از صفر تا صد ماشین لرنینگ را با این تئوری‌های آبکی که دارد می‌توان در کمتر از دو سال طی نمود)

نکته‌ دیگری که آقای نیشابور اشاره کرده است این است که تعداد موقعیت‌های دکترای یادگیری ماشین روز به روز بیشتر می‌‌شود اما از آن طرف تعداد شغل‌هایی که به مدرک دکتری یادگیری ماشین نیاز دارد در آینده روز به روز کمتر می‌شود. در واقع با داشتن دکتری شما over-qualified می‌شوید و از طرف دیگر هم مگر آکادمی چه قدر موقعیت شغلی می‌تواند داشته باشد؟ در مقابل، صنعت اما بیش از ML Researcher به ML Engineer‌ها نیازمند است. کسی که بتواند چیزی را واقعا بسازد. دوره دکتری باعث دوری نسبی از شما صنعت و مهارت‌های آن خواهد شد. آقای نیشابور در انتها به نتایج تحقیقی اشاره کرده که در آن گفته شده درصد زیادی از دانشجویان تحصیلات تکمیلی دچار افسردگی و اضطراب شدید هستند.

نکته دیگری که ما به صحبت‌های بالا اضافه می‌توانیم بکنیم این است که جایگاه متفاوت یادگیری ماشین و به طور عام هوش مصنوعی نسبت به سایر علوم را باید در نظر گرفت. هوش مصنوعی در مدت ۷۰ سال اخیری که از خدا عمر گرفته است، همچنان حوزه یکپارچه‌ای نبوده است. هر از چند گاهی ایده‌ای آمده است و با هوش مصنوعی وارد بهاری شده و در نهایت در زمستانی دفن شده است. گاهی منطق‌دان‌ها به آن وارد شده‌اند و با دیدشان روش‌های سیستم‌های خبره و منطق را برای هوش مصنوعی توسعه داده‌اند. گاهی برقی‌ها وارد شده‌اند و مفاهیم سیگنالی را در حوزه هوش مصنوعی غالب کرده‌اند و این اواخر هم ریاضی‌دان‌ها و آماردان‌ها وارد شده و پارادایم یادگیری ماشین را پادشاه هوش مصنوعی کرده‌اند. از حدود ۲۰۱۲ به این ور هم شبکه‌های دیپ (شاید مدیون پیشرفت‌‌های سخت‌افزاری) فرمان بازی را به دست گرفته و بهاری‌ترین دوران هوش مصنوعی را رقم زده‌اند. اما واقعیت این است که یادگیری عمیق نیز اکنون احتمالا وارد پاییز خود شده است (در این مورد در آینده احتمالا صحبت می‌کنیم). مسیر تحقیقاتی هوش مصنوعی و یادگیری ماشین احتمال دارد به زودی دوباره وارد زمستان سخت شده و تمامی سرمایه‌گذاری‌های تحقیقاتی بسوزند. البته که بحث دنیای صنعت فرق می‌کند و همین الان بسیاری راه‌حل‌های یافت شده در دنیای آکادمی آماده هستند تا به دنیای صنعت و کاربرد اعمال شوند. در همین راستا شاید پیشنهاد ML Engineer شدن به جای ML Researcher شدن پیشنهاد عافیت داری برای دین و دنیا باشد. برای حسن ختام به قول سعدی:
کرامت جوانمردی و نان‌دهی است
مقالات بیهوده طبل تهی است

پی‌نوشت-۲: البته اگر در بلاد کفر نیستید قاعدتا برای رسیدن به جایی مانند گوگل یا کوچکتر از آن مسیری جز اپلای تحصیلی برای ساختن رزومه و تقویت حلقه تاثیر شاید نیست. بحث کلی این است که در شرایط عادی، دکترای یادگیری ماشین معنی چندانی در دنیای امروز ندارد.

لینک توییت لکان:
https://twitter.com/ylecun/status/1605450677806895104

لینک توییت نیشابور:
https://twitter.com/bneyshabur/status/1605677285255675904

#tweet
#read

@nlp_stuff

stuff

👍48👎8👌2

3.58K viewsFarzad 🦅, 11:25

About

Blog

Apps

Platform