School of AI
10.5K subscribers
290 photos
94 videos
11 files
612 links
هدف ما در این اجتماع کوچک، آموزش و ترویج هوش مصنوعی و افزایش سطح آگاهی و تخصص نسبت به آن است.
باشد که دست در دست هم، آینده‌ی این صنعت را در میهن‌مان ایران بسازیم.

https://www.aparat.com/v/Pmrs8
Download Telegram
یک پُست خوب در رابطه با استفاده از Minio در پایپلاین RAG

https://blog.min.io/optimizing-ai-data-processing-with-minio-weaviate-and-langchain-in-retrieval-augmented-generation-rag-pipelines/amp/
👍5
Media is too big
VIEW IN TELEGRAM
🦜 ویدیو قسمت دوم آموزش Langchain Architecture & Concepts (part 1)

قسمت دوم (پارت ۱)، در مورد معماری جدید کتابخانه Langchain و کامپوننت‌های مهم این پلتفرم صحبت کردیم

📍برای دسترسی راحت‌تر، ویدیو در یوتیوب و آپارات آپلود شده.

یوتیوب:
https://youtu.be/dItLyctQVck

آپارات:
https://aparat.com/v/bllcbno

#langchain
😍10👍64🔥1🙏1
معماری Mamba2 معرفی شد!

این معماری، ترکیبی از مدل‌های فضای حالت (SSM ها) و مکانیزم Structured Attention است که state آن ۸ برابر بزرگ‌تر از Mamba و سرعت آموزش آن دو برابرست.

لایه‌ی State Space Duality در این معماری، بسیار بهینه‌تر و مقیاس‌پذیرترست.

مقاله:
https://arxiv.org/pdf/2405.21060


پی‌نوشت: برای آشنایی با SSM ها و تفاوت آن‌ها با Transformer ها می‌توانید به مقاله‌ی زیر رجوع کنید:
https://arxiv.org/pdf/2404.09516
👍62
بازی شطرنج (در حد استادبزرگ) با استفاده از ترنسفورمرها

در رو‌ش‌های کلاسیک برای حل بازی شطرنج از روش‌های جست‌وجوی رقابتی (Adversarial Search) و به‌کمک هیوریستیک‌های پیچیده استفاده می‌شد.

در این پژوهش که توسط DeepMind انجام شده، تعداد ۱۰ میلیون بازی شطرنج به یک مدل ترنسفورمر با ۲۷۰ میلیون پارامتر، آموزش داده شده‌ست.

https://arxiv.org/pdf/2402.04494
😍10👍6🔥2
Media is too big
VIEW IN TELEGRAM
🦜 ویدیو قسمت دوم آموزش Langchain Architecture & Concepts (part 2)

قسمت دوم (پارت 2)، اومدیم یک chain بسیار ساده ساختیم که مفهوم chain کاملا جا بیافته.

⚠️ نکته: به chainها در جلسه‌ای جداگونه می‌پردازیم و این ویدیو صرفا برای آشناییت هست🤘

📍برای دسترسی راحت‌تر، ویدیو در یوتیوب و آپارات آپلود شده.

🎬 یوتیوب:
https://youtu.be/UyRi7iE3qaQ

📺 آپارات:
https://aparat.com/v/xfei48w

#langchain
👍12😍42🙏1
پیاده‌سازی کامل مدل Llama3 فقط با استفاده از NumPy

فوق‌العاده برای درک بهتر ساختار و پیاده‌سازی مدل زبانی

https://docs.likejazz.com/llama3.np/

گیت‌هاب:
https://github.com/likejazz/llama3.np
👏81👍1
This media is not supported in your browser
VIEW IN TELEGRAM
پژوهش‌گران گوگل و دانشگاه واشنگتن یک مدل VTO یا virtual try-on به نام M&M VTO معرفی کردند که در ورودی، تصویر یک فرد، تصویر چند لباس دل‌خواه (مثلا کفش و کلاه و تی‌شرت) و همین‌طور یک توصیف متنی دریافت کرده و در خروجی تصویر لباس‌ها در تن شخص را نمایش می‌دهد.

این مدل، مبتنی بر UNet Diffusion Transformer و تک‌مرحله‌ای و بدون استفاده از super resolution cascading است.

بلاگ‌پست معرفی:
https://mmvto.github.io/

مقاله:
https://arxiv.org/pdf/2406.04542


پی‌نوشت: حدود ۱۰ سال پیش (تازه CNN ها مد شده بود)، من به عنوان Tech Lead در دیجی‌کالا (و دیجی‌استایل) مشغول بودم که در یکی از اسپرینت‌ها، با اعتماد به نفس بالا، انجام یه چیزی شبیه به همین VTO رو به عنوان تسک تعریف کردیم. یادم نمیاد تهش چه‌جوری موضوع جمع شد اما خواسنم میزان خجسته‌دل‌بودن‌مون رو باهاتون در میون بذارم 😂
👍196
امروز کنفرانس WWDC 2024 اپل برگزار شد و یکی از معرفی‌های هیجان‌انگیز و البته بحث‌برانگیز، Apple Intelligence بود.

این ویژگی که می‌توان از آن به‌عنوان نسل جدید Siri نام برد، در واقع استفاده از مدل‌های هوش مصنوعی OpenAI (مثل GPT-4o و DALL-E.3) در سطح سیستم‌عامل‌های اپل‌ست.

بنابر اعلام اپل، برای حفظ حریم شخصی کاربران، بیش‌تر پردازش‌های لازم به‌صورت Local و برروی سیستم کاربر اجرا می‌شوند. به‌همین‌خاطر، این ویژگی حداقل نیاز به تراشه‌ی A17 Pro یا M1 خواهد داشت. البته که درنهایت لازم‌ست بعضی از پردازش‌ها روی سرورهای ابری انجام شوند، ولی اپل مدعی‌ست که این سرور، یک Private Cloud Compute مختص به کاربر بوده و اپل به آن دسترسی نخواهد داشت.

بلافاصله، ایلان ماسک (که ظاهرا به OpenAI بی‌اعتمادست) در شبکه‌ی X خود اعلام کرد که در صورت اضافه شدن این ویژگی در سطح سیستم عامل، او استفاده از تمام محصولات اپل را در تمام شرکت‌های خود ممنوع اعلام می‌کند.

برای دیدن چندوچون این ویژگی باید تا پاییز صبر کرد.

https://www.apple.com/apple-intelligence/
👍82
School of AI
امروز کنفرانس WWDC 2024 اپل برگزار شد و یکی از معرفی‌های هیجان‌انگیز و البته بحث‌برانگیز، Apple Intelligence بود. این ویژگی که می‌توان از آن به‌عنوان نسل جدید Siri نام برد، در واقع استفاده از مدل‌های هوش مصنوعی OpenAI (مثل GPT-4o و DALL-E.3) در سطح سیستم‌عامل‌های…
و اما اپل چطور اطلاعات مهم رو روی دستگاه کاربر پردازش می‌کنه؟!

حدود ۲ ماه پیش اپل یک مدل بینایی-زبان (Multimodal LLM) بسیار سبک به نام Ferret-UI را با جزییات کامل و دقیق معرفی کرد که برای درک اجزای اسکرین‌شات‌ از رابط‌های کاربری (UI) اپلیکیشن‌های موبایل بهینه شده و روی تسک‌های مربوط به UI از GPT-4V به‌تر عمل می‌کند.

این مدل قادر به درک آیکان‌ها، ویجت‌ها، و نوشته‌ها روی صفحه‌ی iOS و همین‌طور استدلال در مورد مکان، ویژگی و کاربرد آن‌هاست.

قابلیت Apple Intelligence با استفاده از این مدل، به‌سادگی و روی دستگاه کاربر، صفحه‌ را بررسی و تفسیر می‌کند.

مقاله:
https://arxiv.org/pdf/2404.05719
3👍2
کارپاثی یک ویدئوی چهارساعته‌ی جدید منتشر کرده که در آن از صفر تا صد، یک مدل GPT-2 با ۱۲۴ میلیون پارامتر را می‌سازد، آن را برای آموزش سریع‌تر بهینه می‌کند، آموزش می‌دهد و در نهایت ارزیابی می‌کند.

کارپاثی واقعا برای جامه‌ی پژوهشی و مهندسی هوش مصنوعی یک نعمت بی‌همتاست. خیلی از علاقه‌مندان به یادگیری ژرف از کورس CS231n ایشون در دانشگاه استنفورد شروع کردند.

ویدئو:
https://www.youtube.com/watch?v=l8pRSuU81PU

گیت‌هاب:
https://github.com/karpathy/build-nanogpt
🔥32👍104
Media is too big
VIEW IN TELEGRAM
گوگل کولب، سه ویژگی هیجان‌انگیز جدید اضافه کرده که برنامه‌نویسی رو خیلی شیرین‌تر می‌کنن.

ویژگی Generate Code که با نگاه به کدهایی که در نوت‌بوک‌تون زده‌اید براتون کدی رو که می‌خواید می‌زنه

ویژگی Explain Error که ارورتون و دلیل‌ش رو توضیح می‌ده و اصلاحیه‌ی پیشنهادی رو هم به‌تون می‌گه.

ویژگی Gemini Chat که دستیار برنامه‌نویسی یا منتور فول‌تایم‌تونه :)
👍276
School of AI
مدل‌های زبانی بزرگ (LLM ها) معمولا برروی حجم زیادی از داده‌های موجود در وب آموزش می‌بینند. این داده‌ها ممکن است جهت‌دار و بی‌کیفیت باشند. برای رفع این مشکل، معمولا پس از آموزش مدل زبانی، مدل آموزش‌دیده‌شده در دسترس تعدادی انسان قرار گرفته و خروجی آن ارزیابی…
سرانجام روش آرش احمدیان و Shengyi Costa Huang برای فاین‌تیون‌کردن LLM ها به کمک الگوریتم سنتی REINFORCE (که پیش‌تر در مورد آن توضیح دادیم)، در قالب یک trainer جدید به نام RLOO یا REINFORCE Leave One-Out در پکیج TRL پیاده‌سازی شد و قابل استفاده‌ست.

پکیج TRL توسط HuggingFace ارائه شده و برای آموزش مدل‌های مبتنی بر Transformer (مثل LLM ها) و Diffusion Model ها به کمک Reinforcement Learning مورد استفاده قرار می‌گیرد.

روش RLOO تقریبا ۵۰ تا ۷۰ درصد حافظه vRAM کم‌تری مصرف می‌کند. برای مدل زبانی در سایز ۱ میلیارد پارامتر، دو برابر سریع‌تر از الگوریتم مرسوم PPO و برای مدل با سایز ۷ میلیارد، سه برابر سریع‌تر عمل می‌کند. در حالی که response win rate به‌تری هم دارد.

بلاگ‌پست معرفی:
https://huggingface.co/blog/putting_rl_back_in_rlhf_with_rloo
👍20😍4
Media is too big
VIEW IN TELEGRAM
🦜 ویدیو قسمت سوم آموزش Langchain LLM Patameters

قسمت سوم، در مورد پرامترها یا همون کانفیگ‌های LLM از جمله Temperature, Top P, Top K, Frequency Penalty, Presence Penalty صحبت کردیم که دقیقا این پرامترها چه تاثیری دارند و تفاوتشون باهم چگونست.


📍برای دسترسی راحت‌تر، ویدیو در یوتیوب و آپارات آپلود شده.

🎬یوتیوب:
https://youtu.be/V4tbLJ51QQI

📺آپارات:
https://aparat.com/v/iyml697
(در آپارات یکی دو ساعت تا اتمام پردازش ویدیو مونده)

#langchain
😍9👍32
This media is not supported in your browser
VIEW IN TELEGRAM
مدل بنیادین Florence-2 که یک مدل چندوجهی بینایی-زبان بسیار سبک و اوپن-سورس است، توسط Microsoft معرفی شد.

معماری ساده‌ی این مدل تغییر خاصی نسبت به نسخه‌ی قبل نکرده و متشکل از یک DaViT به عنوان کدگذار بینایی، یک BERT به عنوان کدگذار نوشتار و یک کدگشای مبتنی بر ترنسفورمرست.

این مدل قادر به انجام بیش از ۱۰ تسک مختلف در زمینه‌ی بینایی رایانه از جمله image captioning و object detection و grounding و segmentation و OCR است.

این مدل در دو نسخه‌ی base (۲۳۰ میلیون پارامتر) و large (۷۷۰ میلیون پارامتر) منتشر شده که هر دو مناسب اجرا روی دستگاه‌های لبه و موبایل‌ها هستند.

قابلیت بالای این مدل به خاطر مجموعه‌داده‌ی آموزشی حجیم آن به نام FLD-5B شامل ۱۲۶ میلیون تصویر و ۵/۴ میلیارد انوتیشن‌ست.


بلاگ‌پست معرفی:
https://blog.roboflow.com/florence-2/

مقاله:
https://arxiv.org/pdf/2311.06242

دمو:
https://huggingface.co/spaces/gokaygokay/Florence-2

نوت‌بوک:
https://colab.research.google.com/?ref=blog.roboflow.com#fileId=https%3A//huggingface.co/microsoft/Florence-2-large/blob/main/sample_inference.ipynb
👍7🔥52
اگر مایل‌ید در کنار بجِ Open in Colab در صفحه‌ی وب یا فایل README خود، از بجِ Open in Studio نیز استفاده کنید، از تکه‌کد زیر استفاده کرده و آدرس نوت‌بوک خود را در آن درج کنید:

<a target="_blank" href="https://lightning.ai/new?repo_url=https%3A%2F%2Fgithub.com%2Fxei%2Frecommender-system-tutorial%2Fblob%2Fmain%2Frecommender_system_tutorial.ipynb">
<img src="https://pl-bolts-doc-images.s3.us-east-2.amazonaws.com/app-2/studio-badge.svg" alt="Open in Studio" />
</a>


ابزار Studio جایگزینی برای Google Colab است که توسط Lightning.ai معرفی شده و نسبت به آن مزایایی دارد. از جمله:
- کارت گرافیک رایگان
- فضای ذخیره‌سازی مانا، دائمی و رایگان
- محیط و ماشین مجازی مانا که بدون درخواست مستقیم کاربر، از بین نمی‌رود.
- قابلیت اجرای کد در پس‌زمینه به‌صورت نامحدود
- قابلیت یکپارچه‌سازی با VSCode و Data Spell و PyCharm و …

https://lightning.ai/
https://lightning.ai/badge
👍264
مدل زبانی Claude 3.5 Sonnet توسط Anthropic معرفی شد.
این مدل علاوه بر ارزان‌تر بودن (۳ دلار به ازای هر یک میلیون توکن ورودی و ۱۵ دلار به ازای هر یک میلیون توکن خروجی) دو برابر سریع‌تر از Claude 3 Opus است. بنابراین برای تسک‌های پیچیده مثل خدمات مشتریان یا multi-step workflows مناسب‌ترست.
همچنین این مدل برای تسک‌های بینایی مثل تحلیل نمودار به‌تر از سایر مدل‌های مشابه عمل می‌کند.

https://www.anthropic.com/news/claude-3-5-sonnet


این مدل به‌سادگی با فریم‌ورک LangChain یک‌پارچه شده‌ست.

https://python.langchain.com/v0.2/docs/integrations/chat/anthropic/
👍62