NLP stuff
4.06K subscribers
147 photos
1 video
2 files
277 links
مطالب خوب و به‌دردبخور در حوزه‌ی هوش مصنوعی و پردازش زبان طبیعی!

شکرشکن شوند همه طوطیان هند
زین قند پارسی که به بنگاله می‌رود

اگر انتقاد، پیشنهاد و یا مطلب مفیدی (لینک، پست و ...) داشتید:
@AliAkbarBadri
@mmsamiei
@MmahdiAghajani
Download Telegram
بخش Dataset Loaders از سایت paperswithcode!

سایت paperswithcode (قبلا این پست و این پست و این پست را درباره‌اش گذاشته بودیم) که بخش دیتاست‌ها را قبلا به سایتش اضافه کرده بود، حالا جدیدا بخشی رو اضافه کرده که برای هر دیتاست، کد لود کردنش رو با کتابخونه‌های مختلف مثل huggingface datasets, TensorFlow datasets, OpenMMLab, AllenNLP آورده؛ خیلی کاربردی و یک جا.

لینک یک دیتاست مثال:
https://paperswithcode.com/dataset/sst

#link

@nlp_stuff
یک هوشمند مسئول!

اگه در یه جایی از این دنیا مشغول طراحی یه سیستم مبتنی بر AI هستید، باید توجه‌تون رو به این نکته جلب کنم که طراحی یه سیستم مبتنی بر AI مانند یه سیستم نرم‌افزاری در دنیای کامپیوتر نیازمند best practice است. ینی یه سری زوج مرتب از چالش‌ها و راه‌حل‌هایی که افراد قبل از شما با اون‌ها مواجه شدند و راه‌حل ارائه شده براش به مقدار خوبی تست شده است. به خاطر همین به عنوان طراح سیستم‌های مبتنی بر AI خوبه که با اون‌ها آشنا بشید. برای آگاهی از این practiceها هم چه جایی بهتر از گوگل! بچه‌های گوگل کلی زحمت کشیدند و یه مفهومی رو به نام Responsible AI توسعه دادند و براش یه بلاگ درست کردند که در این بلاگ به Best Practice های حوزه AI اشاره شده. همچنین ابزارها و راه‌حل‌هایی که گوگل برای غلبه بر این چالش‌ها ارائه داده نیز در این بلاگ معرفی شدند. مثلا مساله‌ای مانند fairness در حوزه AI کم‌کم داره داغ میشه. وقتی شما مثلا می‌خواید یه سیستم credit scoring تولید کنید قطعا نتایج این سیسیتم می‌تونه بر زندگی خیلی از آدم‌ها تاثیر بذاره؛ پس مهمه که اگه این سیستم خطایی هم داره این خطا بین همه اقشار مختلف جامعه به طور منصفانه‌ای پخش بشه. دنیای امروز پر از biasهای ذهنی است که بازتابش در دیتاهای موجود خودش رو نشون میده و عملکرد منصفانه سیستم‌های مبتنی بر AI رو تحت تاثیر قرار میده. مثلا ممکنه نسبت به سیاه‌پوستا خطای بیشتری در تخصیص امتیاز بالا برای سیستم بانکی داشته باشه یا مثلا تفسیرپذیری مدل‌های مبتنی بر یادگیری عمیق هم از مسایلی هست که یک سیستم هوشمند مسوول باید نسبت به اون پاسخگو باشه. اگه یه سیستمی دارید طراحی می‌کنید که دستیار پزشکان در تشخیص سرطان هست باید برای پزشک متخصص توجیه داشته باشه که چرا داره یه نمونه رو سرطان تشخیص میده و چرا دیگری رو سرطان تشخیص نمیده. گوگل برای رعایت هرچه بهتر و راحت‌تر این practiceها ابزارهای مختلفی توسعه داده که در همین بلاگ به اون اشاره شده و به عنوان یکی از پایه‌ای‌ترین و اساسی‌ترین ابزار‌ها روز‌به‌روز داره ابزار TFX گوگل (پست https://t.me/nlp_stuff/157 رو ببینید) خودش رو بیشتر نشون میده. به خاطر همین توصیه می‌کنیم که در این دریایی که گوگل از practiceهاش فراهم کرده تنی به آب بزنید.

لینک بلاگ:
https://ai.google/responsibilities/responsible-ai-practices/

اگر هم خیلی دنبال مطلب‌های تیتروار می‌گردید و آب‌تنی دوست ندارید، سراغ این قسمت از این بلاگ برید که در قالب ۴۳ قانون، مسیر توسعه یک سیستم مبتنی بر AI رو براتون ترسیم کرده:
https://developers.google.com/machine-learning/guides/rules-of-ml

#read
#blog
#link

پ.ن.۱: در معرفی کانال به بقیه کوشا باشید :)
پ.ن.۲: لینک دوم رو با تحریم‌شکن باز کنید.

@nlp_stuff
معرفی هفته‌نامه‌ی آلفاسیگنال

داداشامون زحمت کشیدند یه سایت زدند که به صورت هفتگی مطالب پرطرفدار در زمینه هوش مصنوعی رو با کمک هوش مصنوعی (همون کراول و شمارش خودمون!) گلچین می‌کنه و بهتون ایمیل کنه که قشنگ سر فرصت بشینید ازشون لذت ببرید. بخش‌های مختلفی مثل Publications, News, Repos, Tweets داره.
ما خودمون اکثر مطالبی که معرفی کرده، در کانال گذاشتیم و می‌گذاریم؛ ولی خب همه دوست دارند مستقل و قائم بالذات باشند دیگه!!

لینک سایت:
https://alphasignal.ai/

پ.ن. با تشکر از آقای محمدحسین بهاری بابت معرفی این سایت.

#link

@nlp_stuff
مجموعه داده‌ی FarsTail

مجموعه داده‌ی FarsTail، مجموعه داده‌ی فارسی جمع آوری شده برای مسئله‌ی استنتاج زبان طبیعی (Natural Language Inference) توسط آزمایشگاه داده‌کاوی و یادگیری ماشین دانشگاه قم است. تسک NLI بدین صورت است که مدل، دو جمله ورودی را می‌گیرد و در خروجی می‌گوید با توجه به جمله‌ی اول، جمله‌ی دوم درست یا غلط یا خنثی است.
در تصویر توضیحات مربوط به روند جمع‌آوری آن (روشی شبیه به سناریوی استفاده شده در مجموعه داده‌ی انگلیسی SciTail) آورده شده است.
البته با اینکه از نظر اندازه، این دیتاست (۱۰ هزار جفت جمله) در مقایسه با دیتاست‌های معروف انگلیسی همچون SNLI (۵۷۰ هزار جفت جمله) خیلی کوچک‌تره اما شبیه دادگان SciTail (۲۷ هزار جفت جمله) با کیفیته و در هر صورت دمشون گرم که این کار رو شروع کردند و مهم‌تر اینکه رایگان منتشرش کردند.

لینک مقاله:
https://arxiv.org/abs/2009.08820

لینک دانلود مجموعه داده:
https://github.com/dml-qom/FarsTail

پ.ن. لطفا بهشون استار بدید که انرژی بگیرند.

#link
#irani
#dataset

@nlp_stuff
جمع‌آوری دادگان دست‌نوشته‌ی برخط فارسی

همین اولش بگیم که می‌تونید با هر امکاناتی در این جمع‌آوری دادگان مشارکت کنید.

دادگان آفلاین دست‌خط فارسی خیلی تا الان جمع‌آوری شده که کاربر روی کاغذ مینویسه و بعد نوشته‌اش اسکن میشه. اما این دیتاست که یکی از دانشجویان امیرکبیر واسه تزش داره جمع می‌کنه، آنلاینه و برای اولین بار داره جمع‌آوری میشه.
این دیتاست اینجوریه که کاربر در صفحه دیجیتالی (گوشی، لپتاپ و…) مینویسه، بعد این نتیجه‌اش فقط یه سری پیکسل عکس نیست و اطلاعات زمانی و سرعت حرکت دست برای کشیدن حروف مختلف و حتی اطلاعات فشار دست هم می‌تونه داشته باشه. کارهای تحقیقاتی مثل تبدیل دست‌نوشته به نوشتار و تشخیص جعل‌شدگی امضا روی این دیتاست قابل انجامه.

پ.ن. در ضمن این داداشمون قول داده که صد در صد دیتای جمع‌آوری شده را منتشر بکنه؛ پس لطفا دست به دست کنید که دور هم یه دیتاست جمع کنیم.

لینک سایت:
FarsiHandwriting.ir

#link
#irani
#dataset

@nlp_stuff
دادگان NLI مولتی مودال گوگل!

گوگل در ACL2021 دادگان جدید و جالبی منتشر کرده به نام Recognizing Multimodal Entailment!
قبلا راجع به NLI در این پست [https://t.me/nlp_stuff/201] صحبت کردیم؛ اما این دادگان فرق می‌کنه چون ترکیبی پرروی متن و عکسه برای این تسکه.
داستان اینه که آیا یک جفت عکس و متن، یک جفت عکس و متن دیگه رو نتیجه می‌ده (Implies) یا با هم در تضاد هستند (Contradictory) یا نسبت به هم خنثا هستند (NoEntailment).

این عکسه رو که ضمیمه شده ببینید! بحث سر اینه که با متن و تصویر گفته بشه که زمین گرده یا نه. مثلا متن سمت چپ بالا میگه که تصویر زمین از فضا اینه و خب در عکسش هم زمین گرده پس نظرش اینه که زمین گرده؛ اما متن سمت راست بالا میگه زمین واقعی این شکلیه و عکسش هم میگه زمینش تخته پس نظرش اینه که زمین تخته؛ پس مشخصا این دو جفت متن و تصویر با هم مخالف هستند. دقت کردید؟ با متن یا عکس تنها نمیشد تشخیص داد داستان چجوریه ولی با جفتش میشد این نظر را مقایسه کرد.
یا مثلا متن پایین سمت چپ میگه زمین این شکلی نیست و تصویرش میگه زمین تخته . پس اون جفت بالا چپ، جفت پایین چپ رو نتیجه میده چون بالایی میگه زمین گرده و پایینی میگه قطعا زمین تخت نیست.
و در نهایت دو جفت پایین چیزی رو از هم تایید یا رد نمی‌کنند چون جفتشون فقط میگن زمین این شکلی نیست.

این مجموعه دادگان از توئیتر جمع آوری شده و حدود ۱۵۰۰ جفت آدرس توئیت و یک ستونه که لیبل قضیه‌ست.

https://github.com/google-research-datasets/recognizing-multimodal-entailment

#link
#dataset

@nlp_stuff
ارائه‌های ICML 2021

این لینک حاوی اسلایدها و ویدیوی ارائه‌های کنفرانس معتبر ICML امساله. می‌تونید به صورت موضوعی (با استفاده از تب collection) هم ارائه‌ها رو ببینید و لذتشو ببرید.

https://slideslive.com/icml-2021

#link

@nlp_stuff
مدل‌های دسته‌بندی صوتی در هاگینگ‌فیس

قبلا در دو پست این [https://t.me/nlp_stuff/152] و این [https://t.me/nlp_stuff/184] راجع به مدل wave2vec و ابزار speechbrain صحبت کرده بودیم.
حالا کم‌کم زمان برداشت فرا رسیده و ملت مدل‌های کاربردی روی این مدل‌ها و ابزارهای پایه دارند تولید می‌کنند و روی هاگینگ‌فیس هم می‌گذارند.
به تسک‌هایی مثل تشخیص زبان، استخراج کلمات کلیدی، تشخیص احساسات، تشخیص گوینده و … از روی صدای ورودی، دسته‌بندی صوتی گفته میشه.

لینک کل مدل‌های دسته‌بندی صوتی موجود روی هاگینگ فیس:
https://huggingface.co/models?pipeline_tag=audio-classification

لینک مدل تشخیص زبان (فارسی هم داره) با Speechbrain:
https://huggingface.co/speechbrain/lang-id-commonlanguage_ecapa

#tool
#link

@nlp_stuff
This media is not supported in your browser
VIEW IN TELEGRAM
مدل‌های document parsing در هاگینگ‌فیس

دو مدل LayoutLMv2 و LayoutXLM از مایکروسافت برای پارس کردن تصاویر متنی به هاگینگ فیس اضافه شده و دمویی هم در لینک زیر براشون قرار داده شده که می‌تونید امتحان کنید. به این مدل‌ها مولتی‌مودال بین متن و لایوت و تصویر گفته میشه. این مدل‌ها کلمه‌های داخل عکس را یکی از تگ‌های مثل QUESTION/ANSWER/HEADER/OTHER می‌زنند و یعنی دارند کل جدول رو براتون پارس می‌کنند که باعث میشه خیلی راحتتر بتونید با مقادیر جدول کار کنید.
مدل LayoutXLM روی ۵۳ تا زبون (از جمله فارسی) پیش‌آموزش داده شده.

- دموی مدل LayoutLMv2:
https://huggingface.co/spaces/nielsr/LayoutLMv2-FUNSD


- لینک‌های مقاله و هاگینگ‌فیس مدل LayoutXLM:
https://huggingface.co/microsoft/layoutxlm-base

https://arxiv.org/abs/2104.08836


- لینک‌های مقاله و هاگینگ‌فیس مدل LayoutLMv2:
https://huggingface.co/microsoft/layoutlmv2-base-uncased

https://arxiv.org/abs/2012.14740

#tool
#link

@nlp_stuff
ورکشاپ یادگیری گراف استنفورد

ورکشاپ گراف دانشگاه استنفورد (آزمایشگاه آقای لسکوک‌اینا) دو هفته پیش برگزار شد و افراد خوف و خفن زیادی در این زمینه‌ها اومدند و راجع به مسائل مختلف گرافی در صنعت و آکادمیک صحبت کردند.
اسلایدها و ویدیوهاشون هم طبق معمول با سخاوت به اشتراک گذاشتند.
بحث‌های ترکیبی خیلی جذابی مثل کاربردهای گراف در پردازش زبان طبیعی، ویژن و تشخیص fraud و نفوذ شبکه و … ارائه شده.
کتابخونه‌هایی مثل PyG و GraphGym هم توش معرفی شدند.
خلاصه یه روزتون رو کامل میسازه و کلی چیز یاد می‌گیرید.

پ.ن. اگر کلا نمی‌دونید داستان یادگیری گراف چیه، این پست [https://t.me/nlp_stuff/163] و این پست [https://t.me/nlp_stuff/223] رو ببینید.

لینک صفحه‌ی ورکشاپ:
https://snap.stanford.edu/graphlearning-workshop/

لینک یوتیوب ورکشاپ:
https://youtu.be/NKZdqCi5fVE

#link
#conf

@nlp_stuff
This media is not supported in your browser
VIEW IN TELEGRAM
کوهستان RL؛ هدف بعدی هاگینگ فیس

هاگینگ فیس اعلام کرد که اولین محیط (environment) یادگیری تقویتی عمیق خودشون به نامSnowball Fight را منتشر کردند و هم‌آورد طلبیدند که کی می‌تونه ایجنتشون رو شکست بده (لینک آخر پست). الان هم دارند محیط‌های بعدی رو تولید می‌کنند. این محیط‌ها با Unity ML-Agents تولید شدند. این زبون‌بسته یه ابزار اوپن‌سورسه که باهاش شما می‌تونید محیطی برای آموزش ایجنت‌تون بسازید.

هاگینگ‌فیس طبق معمول برای این زمینه هم سه تا هدف برای اکوسیستمی که داره میسازه گذاشته:
- ملت بتونند محیط خودشون رو بسازند و با بقیه شیر کنند
- ملت مدل‌ها و محیط‌هاشونو روی هاگینگ فیس host کنند مثل همین بازی که لینکشو پایین گذاشتیم.
- دمویی از مدلشون بتونند راحت بالا بیارند که نتایج رو بتونند به بقیه نشون بدهند.

لینک پست توضیح:
https://huggingface.co/blog/snowball-fight

لینک بازی:
https://huggingface.co/spaces/ThomasSimonini/SnowballFight

#tool
#link

@nlp_stuff
مدل بازشناسی گفتار wav2vec2 فارسی

دوستان اومدند مدل wav2vec2 چند زبانه رو برای فارسی روی یه بخشی از دیتاست شخصی که در اختیار داشتند فاین تیون کردند و مدل نهایی رو با سخاوت روی هاگینگ فیس گذاشتند. نتایجش از مدل‌هایی که قبلاً بوده بهتر شده.
می‌تونید روی هاگینگ فیس با هر صوتی که میخواید تستش کنید.

لینک گیت‌هاب:
https://github.com/Hamtech-ai/wav2vec2-fa

لینک هاگینگ فیس:
https://huggingface.co/masoudmzb/wav2vec2-xlsr-multilingual-53-fa

پ.ن. با تشکر از آقایان مسعود پرپنچی و سجاد ایوبی که این پست رو فرستادند که در کانال قرار بدیم. دوست داشتید بهشون استار بدید که لذتشو ببرند.

#irani
#link

@nlp_stuff
معرفی کانال ارزشی MLST

اول از همه انشاءالله که سال و قرن خوبی داشته باشید.
به عنوان اولین پست قرن نو می‌خوایم یک کانال یوتیوبی فاخر و ارزشی در زمینه یادگیری ماشین رو معرفی کنیم. اسم این کانال Machine Learning Street Talk است. محتوای این کانال شامل مصاحبه‌های هر از چند گاهی با متفکران پیشرو هوش مصنوعی (نظیر بنجیو و لکان و شوله و مارکوس و ...) و بحث با اونها در مورد آینده هوش مصنوعی و شهودشون در مورد راه آینده در زمینه های مختلف است. ذکر این نکته لازمه که محتوای این مصاحبه‌ها و بحث‌ها خیلی خیلی فنیه و به جای این که به بحث در مورد مقالات مختلف در کاربردهای مختلف بپردازند (مثل کاری که کیلچر میکنه). موضوع، مباحثه کردن روی درک از فیل هوش مصنوعی در اتاق تاریک عصر فعلیه. اگر یک نگاه به ویدئوهای این کانال بیاندازید می‌بینید که طیف زیادی از موضوعات از زبانشناسی و مباحث تکنیکی خود یادگیری ماشین مثل یادگیری نیمه نظارتی و حملات خصمانه گرفته تا علوم اعصاب و علوم شناختی در این کانال با طراحی بسیار زیبا و شیوا مورد بحث و بیان قرار گرفته.

لینک کانال یوتیوب:
youtube.com/MachineLearningStreetTalk

#watch
#link

@nlp_stuff
دادن اطلاعات از شما، نوشتن متن با You

Hello,

If you're an artificial intelligence enthusiast, then you should definitely reshare posts from the nlp_stuff channel. nlp_stuff is a Telegram channel that's dedicated to AI news and advances. The subscribers of this channel can stay up to date with the latest in AI technology. However, some other channels do not comply with copyright law and copy posts from nlp_stuff into their own channels. This is unfair to the creators of nlp_stuff, and it also diminishes the quality of information that's available to AI enthusiasts. By resharing posts from the nLP_Stuff channel, you can help keep this information accessible and high-quality. Thanks for your support!

متنی که بالا دیدید رو هوش مصنوعی YOU نوشته (ما صرفا بهش توضیح بولتوار اندکی دادیم و این رو جنریت کرده). در سال‌های اخیر محصولاتی نظیر grammarly و wordtune با استفاده از هوش مصنوعی و پردازش زبان تونسته اند محصولاتی رو جهت کمک به کاربران در زمینه اصلاح و ویرایش متون انگلیسی ارائه کنند. حالا در آخرین مورد، شرکت YOU (که در اصل یک موتور جستجوگر هست که برخی میگویند در سال های آینده امکان داره شانه به شانه گوگل بزنه) اومده و یک سرویس برای رایتینگ در زبان انگلیسی ارایه داده. شما می‌تونید یک توضیح مختصر راجع به چیزی که میخواید بنویسید و بعد انتخاب کنید که چه نوع خروجی میخواید. آیا می‌خواهید یک متن میل مناسب خروجی بگیرید یا یک متن بلاگ طور یا یک انشا. سپس You یک متن برای این مشخصات تعیین‌شده توسط شما جنریت می‌کنه.
ما اندکی با این دمو ور رفتیم و مثال‌هایی رو پیوست کردیم. فهمیدیم که این سرویس می‌تونه حتی با ورودی گرفتن یک عبارت کوتاه، متنی مستند و منطقی تولید کنید (به مثالی که راجع به تولید دانش بنیان در ایران تولید کرده دقت کنید).
محصولاتی مثل Grammarly و Wordtune و You Write نشون میدن که میشه با پردازش زبان هم محصول واقعی تولید کرد.

لینک برای امتحان کردن:
You.com/write

#link
#tool

@nlp_stuff
ریزش برگ درختان با رونمایی از DALL-E 2

ساعاتی پیش شرکت Open AI از نسخه جدید مدل تولید تصویر DALL-E رونمایی کرد. این مدل نسبت به نسخه اول DALL-E که در ژانویه ۲۰۲۱ رونمایی شد (این جا قبلا پستش رو رفتیم: https://t.me/nlp_stuff/114) بسیار واقعی‌تر، دقیق‌تره و البته رزولوشن تصاویر تولیدی‌اش هم نسبت به مدل قبلی چهار برابر شده. به طور خلاصه متدلوژی این مدل از دو قسمت تشکیل شده. قسمت اول از مدل clip برای تولید امبدینگ از روی caption استفاده میکنه و بعد قسمت دیکودر میاد و یک تصویر رو مشروط بر امبدینگ مرحله قبل تولید میکنه. طبق معمول هم یانیک کیلچر در همان اوقات اولیه دست یک ویدئو در توضیح این مدل ضبط کرده که لینکش رو این زیر گذاشتیم. حقیقتا کیفیت تصاویر تولیدی این مدل عجیبه.

لینک دمو برای وررفتن:
https://openai.com/dall-e-2/
لینک مقاله:
https://cdn.openai.com/papers/dall-e-2.pdf
لینک بررسی کیلچر:
https://www.youtube.com/watch?v=gGPv_SYVDC8

پ.ن.:در ضمن میتونید اطلاعاتتون رو در لیست انتظار وارد کنید و اگر خدا بخواد و شانس‌تون خوب باشه به این مدل دسترسی پیدا کنید:
https://labs.openai.com/waitlist

#paper
#link
#read
#watch

@nlp_stuff
یادگیری قلق‌های ریسرچ هوش با کورس CS197 هاروارد

عموما اگر هم صنعت و هم آکادمی را تجربه کرده باشید این تفاوت را مشاهده کرده‌اید که به نظر فضای صنعت فضای سرراست‌تری است و روند آغاز تا انجام یک تسک یا پروژه بسیار شفاف‌تر و آشناتر است تا روند اجرای یک پژوهش در آکادمی. به علاوه در فضای صنعت نیروها به علت پیش‌زمینه مهندسی که دارند آشنا به رعایت یکسری قواعد و الگووار‌ه‌هایی هستند، حال آن که این قواعد و الگوها در سمت ریسرچ به صورت مدونی وجود ندارد. حال آقای Rajpurkar استادیار دانشگاه هاروارد آمده و یک کتاب الکترونیکی از درسی که تحت عنوان "تجربیات پژوهشی هوش مصنوعی"در هاروارد ارائه کرده، منتشر کرده است. در این کتاب راجع به مباحثی همچون استفاده درست و موثر از python و pytorch و lightning و HF و streamlite و vscode و git و ... توضیحات خوبی داده شده است. اما این کل ماجرا نیست، بلکه کتاب در ادامه صحبت کرده که چگونه می‌توان به صورت سیستماتیک مقالات را خواند، ایده‌های جدید زد، یک مقاله را ساختاربندی و منتشر کرد و اسلایدهای باکیفیتی ساخت. اما باز هم این تمام ماجرا نیست و راجپورکار برایمان راجع به نحوه مدیریت زمان و انرژی‌مان و همچنین نحوه مدیریت تعاملاتمان با استاد راهنما و یا سایر اعضای تیم نیز توضیح داده است. این منبع عالی را از دست نباید داد.

لینک کتاب:
https://docs.google.com/document/d/1uvAbEhbgS_M-uDMTzmOWRlYxqCkogKRXdbKYYT98ooc


#link
#coach
#course

@nlp_stuff
مرا به بک‌اند چه حاجت که مست روی تو باشم

تا حالا بحث داغ این بود که در آینده نزدیک می‌شه برنامه‌نویس‌ها رو دور ریخت و جاشون از هوش مصنوعی برای تولید کد استفاده کرد و ظهور ابزارهایی مثل copilot و gpt هم این اتفاق رو ممکن نشون می‌دادند. اما حالا این ایده یک لول جلوتر رفته، به این صورت که آقا اصلا چه نیازی به backend داریم بیاید جاش از مدل‌های زبانی استفاده کنیم. در همین راستا یک عده اومدن در هکاتون Scale AI در این هفته ایده زدن و یک اپ ساده todo رو بدون پیاده‌سازی api‌های بک‌اندی‌اش و در واقع با جایگزین کردن GPT به جای بک‌اند پیاده‌سازی کردند و اتفاقا برنده جایزه اول این هکاتون هم شدند. در واقع مدل‌زبانی GPT در این پروژه به طور کامل جایگزین قسمت بک‌اند ماجرا شده و هم قسمت منطق و هم قسمت داده رو تونسته حل کنه و تازه هیچ‌گونه training ای هم در کار نبوده. به صورت جزیی‌تر اگر بخوایم توضیح بدیم ابتدا به GPT گفتند که مثلا This is a todo list app و بعد هم یک تیکه json رو به عنوان وضعیت دیتابیس به GPT ورودی دادند تا بفهمه که قالب دیتا چه شکلیه. در مرحله بعدی هر وقت نیاز به یک API Call بوده وضعیت فعلی و همچنین درخواست کاربر رو به GPT دادند و پاسخ GPT رو گرفتند. خوبی این اتفاق اینه که GPT که در حکم بک‌اند قرار گرفته هم در نحوه ذخیره‌سازی داده و هم انجام اعمال منطقی بسیار منعطفه و می‌تونه طیف گسترده‌ای از api call هایی که حتی بهشون فکر نشده رو هم انجام بده.

این پروژه با این که فعلا صرفا روی نیازمندی ساده‌ todo اجرا گرفته شده ولی می‌تونه آغازی بر یک روند جالب برای آینده باشه. آینده‌ای که توش نیاز به دیتابیس و بک‌اند و حتی شاید زبان‌های برنامه‌نویسی مثل پایتون نیست و یک مدل زبانی قدرتمند مثل GPT می‌تونه در حکم یک مغز متفکر تمامی نیازمندی‌های درخواستی رو انجام بده.

لینک رپو:
https://github.com/TheAppleTucker/backend-GPT

لینک توییت توضیحات:
https://twitter.com/DYtweetshere/status/1617471632909676544

#link

@nlp_stuff
مخزنی از مقالات کلیدی هوش/یادگیری‌ماشین به ترتیب سال

آقای آمان چادها، اومدن و در این لینک لیستی کامل و جامع از مقالات کلیدی در حوزه‌های بینایی کامپیوتر و پردازش متن و صوت و سیستم‌های توصیه‌گر و یادگیری مولتی مودال و ... رو به ترتیب سال گذاشتند. اما تمام هنر آمان آقا به این جا خلاصه نمیشه و ایشون چیزهای دیگه رو هم تو سایتشون قرار دادند که شامل یک‌سری لکچرنوت‌های نیکو از کورس‌های معروف، لکچرنوت‌های راجع به کتابخانه‌های مربوط به کارهای هوش مصنوعی،‌ لیستی از بلاگ‌ها و کورس‌ها و یوتیوب‌های دیدنی و خلاصه هر چیزی که مربوط به هوش می‌شه و باید خوند و دید، رو قرار دادند. قشنگ استفاده کنید و حظش رو ببرید.

لینک لیست مقالات:
aman.ai/papers
لینک سایت:
aman.ai

پی‌نوشت: با دنبال‌کردن #coach می‌تونید منابع آموزشی معرفی‌شده رو بیابید.

#coach
#link

@nlp_stuff
ایجاد optical illusion با مدل‌های دیفوژنی

در چند روز گذشته، ترند ایجاد تصاویر دارای خطای دید با مدل‌های دیفوژنی تبدیل متن به تصویر بالا گرفته. تو این مساله، مدل با ورودی گرفتن یک پرامپت (مثل مثلا درخت‌ها تو پاییز) و البته یک تصویر پایه دیگه (مثل تصویر مریم میرزاخانی)، مدل میاد و جوری تصویر تولید می‌کنه که اصلش همون پرامپت اصلی (یعنی درخت‌های پاییزی) هست ولی وقتی که چشماتون رو اندکی چپ می‌کنید یا از دور به تصویر نگاه می‌کنید اون تصویر پایه (مثل مریم میرزاخانی) رو می‌تونید ببینید. ما هم چند نمونه جالب و البته نمونه‌هایی که خودمون تولید کردیم رو اینجا گذاشتیم. اگه خواستید خودتون هم امتحانش کنید میتونید از اینجا امتحان کنید:

https://huggingface.co/spaces/pngwn/IllusionDiffusion

#link

@nlp_stuff
شکست gpt3.5 توسط مدل وزن‌باز Mixtral-8x7B-v0.1 !

خلاصه بخوایم بگیم: جدیدا شرکت Mistral.ai یه مدل داده بیرون به اسم Mixtral-8x7B-v0.1 که با هشت تا مدل هفت میلیارد پارامتری Mistral با روش  high-quality sparse mixture of experts model (SMoE) ساخته شده، تونسته در اکثر ارزیابی‌ها هم لاما ۷۰ میلیاردی و هم جی‌پی‌تی۳.۵ رو شکست بده. خوش‌مزگی داستان اینه که یک سال بعد از جی‌پی‌تی ۳.۵ حالا میشه این مدل رو به صورت لوکال (طبیعتا با رم و جی‌پی‌یو به اندازه کافی) سرو کرد. این مدل رو میسترال خیلی لاتی‌طور اول یه لینک تورنت بدون توضیح گذاشت و بعد که ملت به جنب و جوش دراومدند، چند روز بعد یه توضیحی هم منتشر کرد!

مدل mixtral 8x7b که امروز توسط میسترال منتشر شد یک سطح جدیدی برای مدل وزن‌باز (نه متن‌باز، چون کد و دیتا و... رو نداده) را ارائه کرد و تونست مدل چت جی‌پی‌تی ۳.۵ رو در اکثر بنچمارک‌ها شکست بده. معماری این مدل شبیه مدل میسترال ۷ میلیاردیه (به زودی معماری اون هم براتون شرح خواهیم داد) با این تفاوت که در حقیقت این مدل جدید ۸ تا مدل expert در یک پکه. اینجا از یک تکنیک به نام MoE (Mixture of Experts) استفاده شده. این مدل یک مدل دیکودریه که بلوک فیدفوروارد بین ۸ گروه از پارامترها در هر لایه و برای هر توکن دو تا از این کارشناس‌ها (expert) رو انتخاب میکنه که توکن پردازش بشه. در معماری ترنسفورمرها یک سری لایه feed-forward داره، در MoE جای بعضی از این لایه‌ها از لایه‌های MoE استفاده شده است. لایه‌ی MoE یک شبکه‌ی روتری داره که انتخاب میکنه کدوم کارشناس (Expert) کدوم توکن‌ها رو بهتر پردازش می‌کنند. این تکنینم باعث میشه تعدا پارامترها زیاد بشه اما هزینه و سرعت کنترل بشه چون مدل فقط از بخشی از تعداد کل پارامترها رو برای یک توکن استفاده می‌کنه. همونطور که گفتیم در این میکسترال دو تا کارشناس در هر لحظه انتخاب میشن که باعث میشه سرعت دیکودینگ شبیه یه مدل ۱۲.۹ میلیاردی بشه در صورتی که ۴ برابرش (۴۶.۷ میلیارد) پارامتر داره!! یه عده اشتباه فکر میکردند ۵۶ میلیارد (۸*۷) پارامتر داره ولی اشتباهه چون فقط بعضی لایه‌های feed-forward فقط تکرار شدند نه همگی پارامترها. اگر بابت MoE کمی گیج شدید، نگران نباشید چون این یکی هم مفصلا در پست دیگه‌ای شرح میدیم. تا اینجا دو تا  طلبتون پس.

جونمون براتون بگه که مدل پایه و مدل Instruct رو منتشر کردند. طول کانتکستش ۳۲ هزار شده. تونسته مساوی یا بهتر از مدل ۷۰ میلیاردی لاما۲ و  جی‌پی‌تی ۳.۵ در اکثر بنچ‌مارک‌ها باشه. عکس نتایج رو در پیوست گذاشتیم. پنج تا زبون انگلیسی، فرانسوی، آلمانی، اسپانیایی و ایتالیایی رو بلده (به نظر روی دیتای togethercomputer/RedPajama-Data-V2 ترینش کردند، حدس ماست). توی تسک کدزنی هم خوبه و توی HumanEval به ۴۰.۲ رسیده. در نهایتا هم با Apache2.0 منتشرش کردند که همگی صفا کنیم. مدل Instruct فرمت پرامپت خودشو داره که توی لینک‌هایی که آخر میذاریم هست. مثل میسترال ۷b نمیدونیم دیتاستش چیه و چه حجمی داره و چجور پیش‌پردازش شده. دیتای sft و DPO (برای فاین تیون کردن) هم نمیدونیم! کد لود کردن و اینفرنس هم توی لینک‌ها هست که البته حداقل ۳۰ گیگ رم و جی‌پی‌یویی مثل A100 می‌خواد.


لینک بلاگ پست انتشار مدل:
https://mistral.ai/news/mixtral-of-experts/

لینک مدل پایه Mixtral-8x7B-v0.1:
https://huggingface.co/mistralai/Mixtral-8x7B-v0.1

لینک مدل Mixtral-8x7B-Instruct-v0.1:
https://huggingface.co/mistralai/Mixtral-8x7B-Instruct-v0.1

لینک بلاگ هاگینگ‌فیس:
https://huggingface.co/blog/mixtral

#read
#blog
#link
#model

@nlp_stuff