Forwarded from NLP stuff
ارمغانی دیگر از قلمرو مولتیمودال! تولید تصاویر انسانی با استایلهای مختلف.
جذابیت مدلهای generative مخصوصا در حوزه تصویر داره میل به بینهایت میکنه. مدلهایی مثل deep fake قبلا خیلی گرد و خاک کردند. اخیرا مدلی بهنام Text2Human معرفی شده که با استفاده از جملات متنی یک استایل از انسان واقعی رو تولید میکنه. روش کارش به این صورته که شما در ورودی وضعیت بدنی (human pose) رو به صورت تصویر میدید (که هر تصویری میتونه باشه و خود دمو هم چندین مثال داره) و فرم لباس و بافت لباس مورد نظرتون رو به صورت جملات متنی میدید و مدل براتون تصاویر آدمهایی با همان ویژگی توصیفشده توسط شما رو تولید میکنه. شیوه کار کلی این مدل در دو گام اصلی خلاصه میشه. در گام اول یک تصویرخام از فرم بدن انسان (human pose)، تبدیل به یک قالب کلی انسان با یک لباس بدون بافت و شکل مشخص میشه (human parsing). سپس در گام دوم خروجی گام اول گرفته میشه و بافت و فرم لباس رو به تصویر گام قبل اضافه میکنه. نمای کلی مدل در تصویر زیر اومده. برای گام اول و تولید بردار بازنمایی قالب بدن انسان از جملات ورودی، از یک شبکه با چندین لایه fully connected استفاده میشه و این بردار بازنمایی به همراه تصویر خام به یک شبکه Auto Encoder داده میشه تا در خروجی یک قالب کلی از بدن انسان که فرم لباس در اون مشخصه ولی رنگ و بافت خاصی نداره رو خروجی بده. سپس برای گام دوم، خروجی تصویر گام اول به دو شبکه Auto Encoder همکار داده میشه که یکی مسوول بررسی ویژگیهای سطح بالای تصویر استایل انسان هست و دیگری به صورت ریزدانهتری فیچرها رو در نظر میگیره (فرض کنید در شبکه اول هر چند ده پیکسل مجاور هم تجمیع میشوند و به شبکه داده میشوند در حالیکه در شبکه دوم هر پیکسل یک درایه از بردار ورودی را تشکیل میدهد). از طرفی بازنمایی جملات نیز به این شبکهها داده میشود. سپس برای اینکه این دو شبکه همکاری داشته باشند خروجی دیکودر شبکه اول به ورودی دیکودر شبکه دوم داده میشه. یعنی شبکه دوم علاوه بر دریافت خروجی encoder خودش، خروجی دیکودر شبکه اول رو هم دریافت میکنه و بعد اقدام به بازسازی تصویر نهایی میکنه. معماری این قسمت رو هم در تصاویر میتونید ببینید. این مدل بر روی هاگینگفیس هم serve شده و میتونید دموش رو به صورت رایگان مشاهده کنید.
لینک مقاله:
https://arxiv.org/abs/2205.15996
لینک دمو:
https://huggingface.co/spaces/CVPR/Text2Human
لینک گیتهاب:
https://github.com/yumingj/Text2Human
#read
#paper
@nlp_stuff
جذابیت مدلهای generative مخصوصا در حوزه تصویر داره میل به بینهایت میکنه. مدلهایی مثل deep fake قبلا خیلی گرد و خاک کردند. اخیرا مدلی بهنام Text2Human معرفی شده که با استفاده از جملات متنی یک استایل از انسان واقعی رو تولید میکنه. روش کارش به این صورته که شما در ورودی وضعیت بدنی (human pose) رو به صورت تصویر میدید (که هر تصویری میتونه باشه و خود دمو هم چندین مثال داره) و فرم لباس و بافت لباس مورد نظرتون رو به صورت جملات متنی میدید و مدل براتون تصاویر آدمهایی با همان ویژگی توصیفشده توسط شما رو تولید میکنه. شیوه کار کلی این مدل در دو گام اصلی خلاصه میشه. در گام اول یک تصویرخام از فرم بدن انسان (human pose)، تبدیل به یک قالب کلی انسان با یک لباس بدون بافت و شکل مشخص میشه (human parsing). سپس در گام دوم خروجی گام اول گرفته میشه و بافت و فرم لباس رو به تصویر گام قبل اضافه میکنه. نمای کلی مدل در تصویر زیر اومده. برای گام اول و تولید بردار بازنمایی قالب بدن انسان از جملات ورودی، از یک شبکه با چندین لایه fully connected استفاده میشه و این بردار بازنمایی به همراه تصویر خام به یک شبکه Auto Encoder داده میشه تا در خروجی یک قالب کلی از بدن انسان که فرم لباس در اون مشخصه ولی رنگ و بافت خاصی نداره رو خروجی بده. سپس برای گام دوم، خروجی تصویر گام اول به دو شبکه Auto Encoder همکار داده میشه که یکی مسوول بررسی ویژگیهای سطح بالای تصویر استایل انسان هست و دیگری به صورت ریزدانهتری فیچرها رو در نظر میگیره (فرض کنید در شبکه اول هر چند ده پیکسل مجاور هم تجمیع میشوند و به شبکه داده میشوند در حالیکه در شبکه دوم هر پیکسل یک درایه از بردار ورودی را تشکیل میدهد). از طرفی بازنمایی جملات نیز به این شبکهها داده میشود. سپس برای اینکه این دو شبکه همکاری داشته باشند خروجی دیکودر شبکه اول به ورودی دیکودر شبکه دوم داده میشه. یعنی شبکه دوم علاوه بر دریافت خروجی encoder خودش، خروجی دیکودر شبکه اول رو هم دریافت میکنه و بعد اقدام به بازسازی تصویر نهایی میکنه. معماری این قسمت رو هم در تصاویر میتونید ببینید. این مدل بر روی هاگینگفیس هم serve شده و میتونید دموش رو به صورت رایگان مشاهده کنید.
لینک مقاله:
https://arxiv.org/abs/2205.15996
لینک دمو:
https://huggingface.co/spaces/CVPR/Text2Human
لینک گیتهاب:
https://github.com/yumingj/Text2Human
#read
#paper
@nlp_stuff
Telegram
stuff
👍4
Forwarded from NLP stuff
عمرتان زیادی کرده که دکترا بخوانید؟
این هفته آقای لکان (یکی از سه خدای دیپلرنینگ) توییتی زده و به مورد Aditya Ramesh اشاره کرد. فردی که لیسانسش رو از دانشگاه NYU گرفته و قصد داشت تا وارد دوره دکتری شود اما با یک کارآموزی در OpenAI مسیرش تغییر کرده و در آن جا مانده و در نهایت با مدرک لیسانس تبدیل به نویسنده اصلی مقاله مدل معروف Dall-E میشود.
آقای بهنام نیشابور محقق گوگل هم توییت لکان را کوت کرده و نکات ریزتری برای تایید "نباید برای یادگیری ماشین دکترا خواند" به آن اضافه کرده است. نکته اصلی که تحصیلات تکمیلی برای زمینهای مثل ML آورریتد است. چرا؟ چون که یک نفر بدون هیچ گونه پیش زمینه خاصی میتواند به این فیلد وارد شده و با اندکی وقت گذاشتن، حتی میتواند به راحتی در کنفرانسهای مطرح دنیا مقالهای چاپ کند. منابع آموزشی ML روز به روز گستردهتر و در دسترستر میشوند و واقعا لازم نیست کسی برای وارد شدن به وادی پژوهشگری یادگیری ماشین بیاید و ۵ الی ۶ سال از عمرش را در ارشد یا دکتری هدر دهد. (و خودمانیم، رشتههایی مثل فیزیک را با ML مقایسه کنید. طرف در فیزیک تا بخواهد به جایی برسید باید مو سفید کند اما امروزه از صفر تا صد ماشین لرنینگ را با این تئوریهای آبکی که دارد میتوان در کمتر از دو سال طی نمود)
نکته دیگری که آقای نیشابور اشاره کرده است این است که تعداد موقعیتهای دکترای یادگیری ماشین روز به روز بیشتر میشود اما از آن طرف تعداد شغلهایی که به مدرک دکتری یادگیری ماشین نیاز دارد در آینده روز به روز کمتر میشود. در واقع با داشتن دکتری شما over-qualified میشوید و از طرف دیگر هم مگر آکادمی چه قدر موقعیت شغلی میتواند داشته باشد؟ در مقابل، صنعت اما بیش از ML Researcher به ML Engineerها نیازمند است. کسی که بتواند چیزی را واقعا بسازد. دوره دکتری باعث دوری نسبی از شما صنعت و مهارتهای آن خواهد شد. آقای نیشابور در انتها به نتایج تحقیقی اشاره کرده که در آن گفته شده درصد زیادی از دانشجویان تحصیلات تکمیلی دچار افسردگی و اضطراب شدید هستند.
نکته دیگری که ما به صحبتهای بالا اضافه میتوانیم بکنیم این است که جایگاه متفاوت یادگیری ماشین و به طور عام هوش مصنوعی نسبت به سایر علوم را باید در نظر گرفت. هوش مصنوعی در مدت ۷۰ سال اخیری که از خدا عمر گرفته است، همچنان حوزه یکپارچهای نبوده است. هر از چند گاهی ایدهای آمده است و با هوش مصنوعی وارد بهاری شده و در نهایت در زمستانی دفن شده است. گاهی منطقدانها به آن وارد شدهاند و با دیدشان روشهای سیستمهای خبره و منطق را برای هوش مصنوعی توسعه دادهاند. گاهی برقیها وارد شدهاند و مفاهیم سیگنالی را در حوزه هوش مصنوعی غالب کردهاند و این اواخر هم ریاضیدانها و آماردانها وارد شده و پارادایم یادگیری ماشین را پادشاه هوش مصنوعی کردهاند. از حدود ۲۰۱۲ به این ور هم شبکههای دیپ (شاید مدیون پیشرفتهای سختافزاری) فرمان بازی را به دست گرفته و بهاریترین دوران هوش مصنوعی را رقم زدهاند. اما واقعیت این است که یادگیری عمیق نیز اکنون احتمالا وارد پاییز خود شده است (در این مورد در آینده احتمالا صحبت میکنیم). مسیر تحقیقاتی هوش مصنوعی و یادگیری ماشین احتمال دارد به زودی دوباره وارد زمستان سخت شده و تمامی سرمایهگذاریهای تحقیقاتی بسوزند. البته که بحث دنیای صنعت فرق میکند و همین الان بسیاری راهحلهای یافت شده در دنیای آکادمی آماده هستند تا به دنیای صنعت و کاربرد اعمال شوند. در همین راستا شاید پیشنهاد ML Engineer شدن به جای ML Researcher شدن پیشنهاد عافیت داری برای دین و دنیا باشد. برای حسن ختام به قول سعدی:
کرامت جوانمردی و ناندهی است
مقالات بیهوده طبل تهی است
پینوشت-۲: البته اگر در بلاد کفر نیستید قاعدتا برای رسیدن به جایی مانند گوگل یا کوچکتر از آن مسیری جز اپلای تحصیلی برای ساختن رزومه و تقویت حلقه تاثیر شاید نیست. بحث کلی این است که در شرایط عادی، دکترای یادگیری ماشین معنی چندانی در دنیای امروز ندارد.
لینک توییت لکان:
https://twitter.com/ylecun/status/1605450677806895104
لینک توییت نیشابور:
https://twitter.com/bneyshabur/status/1605677285255675904
#tweet
#read
@nlp_stuff
این هفته آقای لکان (یکی از سه خدای دیپلرنینگ) توییتی زده و به مورد Aditya Ramesh اشاره کرد. فردی که لیسانسش رو از دانشگاه NYU گرفته و قصد داشت تا وارد دوره دکتری شود اما با یک کارآموزی در OpenAI مسیرش تغییر کرده و در آن جا مانده و در نهایت با مدرک لیسانس تبدیل به نویسنده اصلی مقاله مدل معروف Dall-E میشود.
آقای بهنام نیشابور محقق گوگل هم توییت لکان را کوت کرده و نکات ریزتری برای تایید "نباید برای یادگیری ماشین دکترا خواند" به آن اضافه کرده است. نکته اصلی که تحصیلات تکمیلی برای زمینهای مثل ML آورریتد است. چرا؟ چون که یک نفر بدون هیچ گونه پیش زمینه خاصی میتواند به این فیلد وارد شده و با اندکی وقت گذاشتن، حتی میتواند به راحتی در کنفرانسهای مطرح دنیا مقالهای چاپ کند. منابع آموزشی ML روز به روز گستردهتر و در دسترستر میشوند و واقعا لازم نیست کسی برای وارد شدن به وادی پژوهشگری یادگیری ماشین بیاید و ۵ الی ۶ سال از عمرش را در ارشد یا دکتری هدر دهد. (و خودمانیم، رشتههایی مثل فیزیک را با ML مقایسه کنید. طرف در فیزیک تا بخواهد به جایی برسید باید مو سفید کند اما امروزه از صفر تا صد ماشین لرنینگ را با این تئوریهای آبکی که دارد میتوان در کمتر از دو سال طی نمود)
نکته دیگری که آقای نیشابور اشاره کرده است این است که تعداد موقعیتهای دکترای یادگیری ماشین روز به روز بیشتر میشود اما از آن طرف تعداد شغلهایی که به مدرک دکتری یادگیری ماشین نیاز دارد در آینده روز به روز کمتر میشود. در واقع با داشتن دکتری شما over-qualified میشوید و از طرف دیگر هم مگر آکادمی چه قدر موقعیت شغلی میتواند داشته باشد؟ در مقابل، صنعت اما بیش از ML Researcher به ML Engineerها نیازمند است. کسی که بتواند چیزی را واقعا بسازد. دوره دکتری باعث دوری نسبی از شما صنعت و مهارتهای آن خواهد شد. آقای نیشابور در انتها به نتایج تحقیقی اشاره کرده که در آن گفته شده درصد زیادی از دانشجویان تحصیلات تکمیلی دچار افسردگی و اضطراب شدید هستند.
نکته دیگری که ما به صحبتهای بالا اضافه میتوانیم بکنیم این است که جایگاه متفاوت یادگیری ماشین و به طور عام هوش مصنوعی نسبت به سایر علوم را باید در نظر گرفت. هوش مصنوعی در مدت ۷۰ سال اخیری که از خدا عمر گرفته است، همچنان حوزه یکپارچهای نبوده است. هر از چند گاهی ایدهای آمده است و با هوش مصنوعی وارد بهاری شده و در نهایت در زمستانی دفن شده است. گاهی منطقدانها به آن وارد شدهاند و با دیدشان روشهای سیستمهای خبره و منطق را برای هوش مصنوعی توسعه دادهاند. گاهی برقیها وارد شدهاند و مفاهیم سیگنالی را در حوزه هوش مصنوعی غالب کردهاند و این اواخر هم ریاضیدانها و آماردانها وارد شده و پارادایم یادگیری ماشین را پادشاه هوش مصنوعی کردهاند. از حدود ۲۰۱۲ به این ور هم شبکههای دیپ (شاید مدیون پیشرفتهای سختافزاری) فرمان بازی را به دست گرفته و بهاریترین دوران هوش مصنوعی را رقم زدهاند. اما واقعیت این است که یادگیری عمیق نیز اکنون احتمالا وارد پاییز خود شده است (در این مورد در آینده احتمالا صحبت میکنیم). مسیر تحقیقاتی هوش مصنوعی و یادگیری ماشین احتمال دارد به زودی دوباره وارد زمستان سخت شده و تمامی سرمایهگذاریهای تحقیقاتی بسوزند. البته که بحث دنیای صنعت فرق میکند و همین الان بسیاری راهحلهای یافت شده در دنیای آکادمی آماده هستند تا به دنیای صنعت و کاربرد اعمال شوند. در همین راستا شاید پیشنهاد ML Engineer شدن به جای ML Researcher شدن پیشنهاد عافیت داری برای دین و دنیا باشد. برای حسن ختام به قول سعدی:
کرامت جوانمردی و ناندهی است
مقالات بیهوده طبل تهی است
پینوشت-۲: البته اگر در بلاد کفر نیستید قاعدتا برای رسیدن به جایی مانند گوگل یا کوچکتر از آن مسیری جز اپلای تحصیلی برای ساختن رزومه و تقویت حلقه تاثیر شاید نیست. بحث کلی این است که در شرایط عادی، دکترای یادگیری ماشین معنی چندانی در دنیای امروز ندارد.
لینک توییت لکان:
https://twitter.com/ylecun/status/1605450677806895104
لینک توییت نیشابور:
https://twitter.com/bneyshabur/status/1605677285255675904
#tweet
#read
@nlp_stuff
Telegram
stuff
👍48👎8👌2