یک پُست خوب در رابطه با استفاده از Minio در پایپلاین RAG
https://blog.min.io/optimizing-ai-data-processing-with-minio-weaviate-and-langchain-in-retrieval-augmented-generation-rag-pipelines/amp/
https://blog.min.io/optimizing-ai-data-processing-with-minio-weaviate-and-langchain-in-retrieval-augmented-generation-rag-pipelines/amp/
👍5
Media is too big
VIEW IN TELEGRAM
🦜 ویدیو قسمت دوم آموزش Langchain Architecture & Concepts (part 1)
قسمت دوم (پارت ۱)، در مورد معماری جدید کتابخانه Langchain و کامپوننتهای مهم این پلتفرم صحبت کردیم
📍برای دسترسی راحتتر، ویدیو در یوتیوب و آپارات آپلود شده.
یوتیوب:
https://youtu.be/dItLyctQVck
آپارات:
https://aparat.com/v/bllcbno
#langchain
قسمت دوم (پارت ۱)، در مورد معماری جدید کتابخانه Langchain و کامپوننتهای مهم این پلتفرم صحبت کردیم
📍برای دسترسی راحتتر، ویدیو در یوتیوب و آپارات آپلود شده.
یوتیوب:
https://youtu.be/dItLyctQVck
آپارات:
https://aparat.com/v/bllcbno
#langchain
😍10👍6❤4🔥1🙏1
معماری Mamba2 معرفی شد!
این معماری، ترکیبی از مدلهای فضای حالت (SSM ها) و مکانیزم Structured Attention است که state آن ۸ برابر بزرگتر از Mamba و سرعت آموزش آن دو برابرست.
لایهی State Space Duality در این معماری، بسیار بهینهتر و مقیاسپذیرترست.
مقاله:
https://arxiv.org/pdf/2405.21060
پینوشت: برای آشنایی با SSM ها و تفاوت آنها با Transformer ها میتوانید به مقالهی زیر رجوع کنید:
https://arxiv.org/pdf/2404.09516
این معماری، ترکیبی از مدلهای فضای حالت (SSM ها) و مکانیزم Structured Attention است که state آن ۸ برابر بزرگتر از Mamba و سرعت آموزش آن دو برابرست.
لایهی State Space Duality در این معماری، بسیار بهینهتر و مقیاسپذیرترست.
مقاله:
https://arxiv.org/pdf/2405.21060
پینوشت: برای آشنایی با SSM ها و تفاوت آنها با Transformer ها میتوانید به مقالهی زیر رجوع کنید:
https://arxiv.org/pdf/2404.09516
👍6❤2
بازی شطرنج (در حد استادبزرگ) با استفاده از ترنسفورمرها
در روشهای کلاسیک برای حل بازی شطرنج از روشهای جستوجوی رقابتی (Adversarial Search) و بهکمک هیوریستیکهای پیچیده استفاده میشد.
در این پژوهش که توسط DeepMind انجام شده، تعداد ۱۰ میلیون بازی شطرنج به یک مدل ترنسفورمر با ۲۷۰ میلیون پارامتر، آموزش داده شدهست.
https://arxiv.org/pdf/2402.04494
در روشهای کلاسیک برای حل بازی شطرنج از روشهای جستوجوی رقابتی (Adversarial Search) و بهکمک هیوریستیکهای پیچیده استفاده میشد.
در این پژوهش که توسط DeepMind انجام شده، تعداد ۱۰ میلیون بازی شطرنج به یک مدل ترنسفورمر با ۲۷۰ میلیون پارامتر، آموزش داده شدهست.
https://arxiv.org/pdf/2402.04494
😍10👍6🔥2
Media is too big
VIEW IN TELEGRAM
🦜 ویدیو قسمت دوم آموزش Langchain Architecture & Concepts (part 2)
قسمت دوم (پارت 2)، اومدیم یک chain بسیار ساده ساختیم که مفهوم chain کاملا جا بیافته.
⚠️ نکته: به chainها در جلسهای جداگونه میپردازیم و این ویدیو صرفا برای آشناییت هست🤘
📍برای دسترسی راحتتر، ویدیو در یوتیوب و آپارات آپلود شده.
🎬 یوتیوب:
https://youtu.be/UyRi7iE3qaQ
📺 آپارات:
https://aparat.com/v/xfei48w
#langchain
قسمت دوم (پارت 2)، اومدیم یک chain بسیار ساده ساختیم که مفهوم chain کاملا جا بیافته.
⚠️ نکته: به chainها در جلسهای جداگونه میپردازیم و این ویدیو صرفا برای آشناییت هست🤘
📍برای دسترسی راحتتر، ویدیو در یوتیوب و آپارات آپلود شده.
🎬 یوتیوب:
https://youtu.be/UyRi7iE3qaQ
📺 آپارات:
https://aparat.com/v/xfei48w
#langchain
👍12😍4❤2🙏1
پیادهسازی کامل مدل Llama3 فقط با استفاده از NumPy
فوقالعاده برای درک بهتر ساختار و پیادهسازی مدل زبانی
https://docs.likejazz.com/llama3.np/
گیتهاب:
https://github.com/likejazz/llama3.np
فوقالعاده برای درک بهتر ساختار و پیادهسازی مدل زبانی
https://docs.likejazz.com/llama3.np/
گیتهاب:
https://github.com/likejazz/llama3.np
👏8❤1👍1
This media is not supported in your browser
VIEW IN TELEGRAM
پژوهشگران گوگل و دانشگاه واشنگتن یک مدل VTO یا virtual try-on به نام M&M VTO معرفی کردند که در ورودی، تصویر یک فرد، تصویر چند لباس دلخواه (مثلا کفش و کلاه و تیشرت) و همینطور یک توصیف متنی دریافت کرده و در خروجی تصویر لباسها در تن شخص را نمایش میدهد.
این مدل، مبتنی بر UNet Diffusion Transformer و تکمرحلهای و بدون استفاده از super resolution cascading است.
بلاگپست معرفی:
https://mmvto.github.io/
مقاله:
https://arxiv.org/pdf/2406.04542
پینوشت: حدود ۱۰ سال پیش (تازه CNN ها مد شده بود)، من به عنوان Tech Lead در دیجیکالا (و دیجیاستایل) مشغول بودم که در یکی از اسپرینتها، با اعتماد به نفس بالا، انجام یه چیزی شبیه به همین VTO رو به عنوان تسک تعریف کردیم. یادم نمیاد تهش چهجوری موضوع جمع شد اما خواسنم میزان خجستهدلبودنمون رو باهاتون در میون بذارم 😂
این مدل، مبتنی بر UNet Diffusion Transformer و تکمرحلهای و بدون استفاده از super resolution cascading است.
بلاگپست معرفی:
https://mmvto.github.io/
مقاله:
https://arxiv.org/pdf/2406.04542
پینوشت: حدود ۱۰ سال پیش (تازه CNN ها مد شده بود)، من به عنوان Tech Lead در دیجیکالا (و دیجیاستایل) مشغول بودم که در یکی از اسپرینتها، با اعتماد به نفس بالا، انجام یه چیزی شبیه به همین VTO رو به عنوان تسک تعریف کردیم. یادم نمیاد تهش چهجوری موضوع جمع شد اما خواسنم میزان خجستهدلبودنمون رو باهاتون در میون بذارم 😂
👍19❤6
امروز کنفرانس WWDC 2024 اپل برگزار شد و یکی از معرفیهای هیجانانگیز و البته بحثبرانگیز، Apple Intelligence بود.
این ویژگی که میتوان از آن بهعنوان نسل جدید Siri نام برد، در واقع استفاده از مدلهای هوش مصنوعی OpenAI (مثل GPT-4o و DALL-E.3) در سطح سیستمعاملهای اپلست.
بنابر اعلام اپل، برای حفظ حریم شخصی کاربران، بیشتر پردازشهای لازم بهصورت Local و برروی سیستم کاربر اجرا میشوند. بههمینخاطر، این ویژگی حداقل نیاز به تراشهی A17 Pro یا M1 خواهد داشت. البته که درنهایت لازمست بعضی از پردازشها روی سرورهای ابری انجام شوند، ولی اپل مدعیست که این سرور، یک Private Cloud Compute مختص به کاربر بوده و اپل به آن دسترسی نخواهد داشت.
بلافاصله، ایلان ماسک (که ظاهرا به OpenAI بیاعتمادست) در شبکهی X خود اعلام کرد که در صورت اضافه شدن این ویژگی در سطح سیستم عامل، او استفاده از تمام محصولات اپل را در تمام شرکتهای خود ممنوع اعلام میکند.
برای دیدن چندوچون این ویژگی باید تا پاییز صبر کرد.
https://www.apple.com/apple-intelligence/
این ویژگی که میتوان از آن بهعنوان نسل جدید Siri نام برد، در واقع استفاده از مدلهای هوش مصنوعی OpenAI (مثل GPT-4o و DALL-E.3) در سطح سیستمعاملهای اپلست.
بنابر اعلام اپل، برای حفظ حریم شخصی کاربران، بیشتر پردازشهای لازم بهصورت Local و برروی سیستم کاربر اجرا میشوند. بههمینخاطر، این ویژگی حداقل نیاز به تراشهی A17 Pro یا M1 خواهد داشت. البته که درنهایت لازمست بعضی از پردازشها روی سرورهای ابری انجام شوند، ولی اپل مدعیست که این سرور، یک Private Cloud Compute مختص به کاربر بوده و اپل به آن دسترسی نخواهد داشت.
بلافاصله، ایلان ماسک (که ظاهرا به OpenAI بیاعتمادست) در شبکهی X خود اعلام کرد که در صورت اضافه شدن این ویژگی در سطح سیستم عامل، او استفاده از تمام محصولات اپل را در تمام شرکتهای خود ممنوع اعلام میکند.
برای دیدن چندوچون این ویژگی باید تا پاییز صبر کرد.
https://www.apple.com/apple-intelligence/
👍8❤2
School of AI
امروز کنفرانس WWDC 2024 اپل برگزار شد و یکی از معرفیهای هیجانانگیز و البته بحثبرانگیز، Apple Intelligence بود. این ویژگی که میتوان از آن بهعنوان نسل جدید Siri نام برد، در واقع استفاده از مدلهای هوش مصنوعی OpenAI (مثل GPT-4o و DALL-E.3) در سطح سیستمعاملهای…
و اما اپل چطور اطلاعات مهم رو روی دستگاه کاربر پردازش میکنه؟!
حدود ۲ ماه پیش اپل یک مدل بینایی-زبان (Multimodal LLM) بسیار سبک به نام Ferret-UI را با جزییات کامل و دقیق معرفی کرد که برای درک اجزای اسکرینشات از رابطهای کاربری (UI) اپلیکیشنهای موبایل بهینه شده و روی تسکهای مربوط به UI از GPT-4V بهتر عمل میکند.
این مدل قادر به درک آیکانها، ویجتها، و نوشتهها روی صفحهی iOS و همینطور استدلال در مورد مکان، ویژگی و کاربرد آنهاست.
قابلیت Apple Intelligence با استفاده از این مدل، بهسادگی و روی دستگاه کاربر، صفحه را بررسی و تفسیر میکند.
مقاله:
https://arxiv.org/pdf/2404.05719
حدود ۲ ماه پیش اپل یک مدل بینایی-زبان (Multimodal LLM) بسیار سبک به نام Ferret-UI را با جزییات کامل و دقیق معرفی کرد که برای درک اجزای اسکرینشات از رابطهای کاربری (UI) اپلیکیشنهای موبایل بهینه شده و روی تسکهای مربوط به UI از GPT-4V بهتر عمل میکند.
این مدل قادر به درک آیکانها، ویجتها، و نوشتهها روی صفحهی iOS و همینطور استدلال در مورد مکان، ویژگی و کاربرد آنهاست.
قابلیت Apple Intelligence با استفاده از این مدل، بهسادگی و روی دستگاه کاربر، صفحه را بررسی و تفسیر میکند.
مقاله:
https://arxiv.org/pdf/2404.05719
❤3👍2
کارپاثی یک ویدئوی چهارساعتهی جدید منتشر کرده که در آن از صفر تا صد، یک مدل GPT-2 با ۱۲۴ میلیون پارامتر را میسازد، آن را برای آموزش سریعتر بهینه میکند، آموزش میدهد و در نهایت ارزیابی میکند.
کارپاثی واقعا برای جامهی پژوهشی و مهندسی هوش مصنوعی یک نعمت بیهمتاست. خیلی از علاقهمندان به یادگیری ژرف از کورس CS231n ایشون در دانشگاه استنفورد شروع کردند.
ویدئو:
https://www.youtube.com/watch?v=l8pRSuU81PU
گیتهاب:
https://github.com/karpathy/build-nanogpt
کارپاثی واقعا برای جامهی پژوهشی و مهندسی هوش مصنوعی یک نعمت بیهمتاست. خیلی از علاقهمندان به یادگیری ژرف از کورس CS231n ایشون در دانشگاه استنفورد شروع کردند.
ویدئو:
https://www.youtube.com/watch?v=l8pRSuU81PU
گیتهاب:
https://github.com/karpathy/build-nanogpt
🔥32👍10❤4
Media is too big
VIEW IN TELEGRAM
گوگل کولب، سه ویژگی هیجانانگیز جدید اضافه کرده که برنامهنویسی رو خیلی شیرینتر میکنن.
ویژگی Generate Code که با نگاه به کدهایی که در نوتبوکتون زدهاید براتون کدی رو که میخواید میزنه
ویژگی Explain Error که ارورتون و دلیلش رو توضیح میده و اصلاحیهی پیشنهادی رو هم بهتون میگه.
ویژگی Gemini Chat که دستیار برنامهنویسی یا منتور فولتایمتونه :)
ویژگی Generate Code که با نگاه به کدهایی که در نوتبوکتون زدهاید براتون کدی رو که میخواید میزنه
ویژگی Explain Error که ارورتون و دلیلش رو توضیح میده و اصلاحیهی پیشنهادی رو هم بهتون میگه.
ویژگی Gemini Chat که دستیار برنامهنویسی یا منتور فولتایمتونه :)
👍27❤6
School of AI
مدلهای زبانی بزرگ (LLM ها) معمولا برروی حجم زیادی از دادههای موجود در وب آموزش میبینند. این دادهها ممکن است جهتدار و بیکیفیت باشند. برای رفع این مشکل، معمولا پس از آموزش مدل زبانی، مدل آموزشدیدهشده در دسترس تعدادی انسان قرار گرفته و خروجی آن ارزیابی…
سرانجام روش آرش احمدیان و Shengyi Costa Huang برای فاینتیونکردن LLM ها به کمک الگوریتم سنتی REINFORCE (که پیشتر در مورد آن توضیح دادیم)، در قالب یک trainer جدید به نام RLOO یا REINFORCE Leave One-Out در پکیج TRL پیادهسازی شد و قابل استفادهست.
پکیج TRL توسط HuggingFace ارائه شده و برای آموزش مدلهای مبتنی بر Transformer (مثل LLM ها) و Diffusion Model ها به کمک Reinforcement Learning مورد استفاده قرار میگیرد.
روش RLOO تقریبا ۵۰ تا ۷۰ درصد حافظه vRAM کمتری مصرف میکند. برای مدل زبانی در سایز ۱ میلیارد پارامتر، دو برابر سریعتر از الگوریتم مرسوم PPO و برای مدل با سایز ۷ میلیارد، سه برابر سریعتر عمل میکند. در حالی که response win rate بهتری هم دارد.
بلاگپست معرفی:
https://huggingface.co/blog/putting_rl_back_in_rlhf_with_rloo
پکیج TRL توسط HuggingFace ارائه شده و برای آموزش مدلهای مبتنی بر Transformer (مثل LLM ها) و Diffusion Model ها به کمک Reinforcement Learning مورد استفاده قرار میگیرد.
روش RLOO تقریبا ۵۰ تا ۷۰ درصد حافظه vRAM کمتری مصرف میکند. برای مدل زبانی در سایز ۱ میلیارد پارامتر، دو برابر سریعتر از الگوریتم مرسوم PPO و برای مدل با سایز ۷ میلیارد، سه برابر سریعتر عمل میکند. در حالی که response win rate بهتری هم دارد.
بلاگپست معرفی:
https://huggingface.co/blog/putting_rl_back_in_rlhf_with_rloo
👍20😍4
Media is too big
VIEW IN TELEGRAM
🦜 ویدیو قسمت سوم آموزش Langchain LLM Patameters
قسمت سوم، در مورد پرامترها یا همون کانفیگهای LLM از جمله Temperature, Top P, Top K, Frequency Penalty, Presence Penalty صحبت کردیم که دقیقا این پرامترها چه تاثیری دارند و تفاوتشون باهم چگونست.
📍برای دسترسی راحتتر، ویدیو در یوتیوب و آپارات آپلود شده.
🎬یوتیوب:
https://youtu.be/V4tbLJ51QQI
📺آپارات:
https://aparat.com/v/iyml697
(در آپارات یکی دو ساعت تا اتمام پردازش ویدیو مونده)
#langchain
قسمت سوم، در مورد پرامترها یا همون کانفیگهای LLM از جمله Temperature, Top P, Top K, Frequency Penalty, Presence Penalty صحبت کردیم که دقیقا این پرامترها چه تاثیری دارند و تفاوتشون باهم چگونست.
📍برای دسترسی راحتتر، ویدیو در یوتیوب و آپارات آپلود شده.
🎬یوتیوب:
https://youtu.be/V4tbLJ51QQI
📺آپارات:
https://aparat.com/v/iyml697
(در آپارات یکی دو ساعت تا اتمام پردازش ویدیو مونده)
#langchain
😍9👍3❤2
This media is not supported in your browser
VIEW IN TELEGRAM
مدل بنیادین Florence-2 که یک مدل چندوجهی بینایی-زبان بسیار سبک و اوپن-سورس است، توسط Microsoft معرفی شد.
معماری سادهی این مدل تغییر خاصی نسبت به نسخهی قبل نکرده و متشکل از یک DaViT به عنوان کدگذار بینایی، یک BERT به عنوان کدگذار نوشتار و یک کدگشای مبتنی بر ترنسفورمرست.
این مدل قادر به انجام بیش از ۱۰ تسک مختلف در زمینهی بینایی رایانه از جمله image captioning و object detection و grounding و segmentation و OCR است.
این مدل در دو نسخهی base (۲۳۰ میلیون پارامتر) و large (۷۷۰ میلیون پارامتر) منتشر شده که هر دو مناسب اجرا روی دستگاههای لبه و موبایلها هستند.
قابلیت بالای این مدل به خاطر مجموعهدادهی آموزشی حجیم آن به نام FLD-5B شامل ۱۲۶ میلیون تصویر و ۵/۴ میلیارد انوتیشنست.
بلاگپست معرفی:
https://blog.roboflow.com/florence-2/
مقاله:
https://arxiv.org/pdf/2311.06242
دمو:
https://huggingface.co/spaces/gokaygokay/Florence-2
نوتبوک:
https://colab.research.google.com/?ref=blog.roboflow.com#fileId=https%3A//huggingface.co/microsoft/Florence-2-large/blob/main/sample_inference.ipynb
معماری سادهی این مدل تغییر خاصی نسبت به نسخهی قبل نکرده و متشکل از یک DaViT به عنوان کدگذار بینایی، یک BERT به عنوان کدگذار نوشتار و یک کدگشای مبتنی بر ترنسفورمرست.
این مدل قادر به انجام بیش از ۱۰ تسک مختلف در زمینهی بینایی رایانه از جمله image captioning و object detection و grounding و segmentation و OCR است.
این مدل در دو نسخهی base (۲۳۰ میلیون پارامتر) و large (۷۷۰ میلیون پارامتر) منتشر شده که هر دو مناسب اجرا روی دستگاههای لبه و موبایلها هستند.
قابلیت بالای این مدل به خاطر مجموعهدادهی آموزشی حجیم آن به نام FLD-5B شامل ۱۲۶ میلیون تصویر و ۵/۴ میلیارد انوتیشنست.
بلاگپست معرفی:
https://blog.roboflow.com/florence-2/
مقاله:
https://arxiv.org/pdf/2311.06242
دمو:
https://huggingface.co/spaces/gokaygokay/Florence-2
نوتبوک:
https://colab.research.google.com/?ref=blog.roboflow.com#fileId=https%3A//huggingface.co/microsoft/Florence-2-large/blob/main/sample_inference.ipynb
👍7🔥5❤2
اگر مایلید در کنار بجِ Open in Colab در صفحهی وب یا فایل README خود، از بجِ Open in Studio نیز استفاده کنید، از تکهکد زیر استفاده کرده و آدرس نوتبوک خود را در آن درج کنید:
ابزار Studio جایگزینی برای Google Colab است که توسط Lightning.ai معرفی شده و نسبت به آن مزایایی دارد. از جمله:
- کارت گرافیک رایگان
- فضای ذخیرهسازی مانا، دائمی و رایگان
- محیط و ماشین مجازی مانا که بدون درخواست مستقیم کاربر، از بین نمیرود.
- قابلیت اجرای کد در پسزمینه بهصورت نامحدود
- قابلیت یکپارچهسازی با VSCode و Data Spell و PyCharm و …
https://lightning.ai/
https://lightning.ai/badge
<a target="_blank" href="https://lightning.ai/new?repo_url=https%3A%2F%2Fgithub.com%2Fxei%2Frecommender-system-tutorial%2Fblob%2Fmain%2Frecommender_system_tutorial.ipynb">
<img src="https://pl-bolts-doc-images.s3.us-east-2.amazonaws.com/app-2/studio-badge.svg" alt="Open in Studio" />
</a>
ابزار Studio جایگزینی برای Google Colab است که توسط Lightning.ai معرفی شده و نسبت به آن مزایایی دارد. از جمله:
- کارت گرافیک رایگان
- فضای ذخیرهسازی مانا، دائمی و رایگان
- محیط و ماشین مجازی مانا که بدون درخواست مستقیم کاربر، از بین نمیرود.
- قابلیت اجرای کد در پسزمینه بهصورت نامحدود
- قابلیت یکپارچهسازی با VSCode و Data Spell و PyCharm و …
https://lightning.ai/
https://lightning.ai/badge
👍26❤4
مدل زبانی Claude 3.5 Sonnet توسط Anthropic معرفی شد.
این مدل علاوه بر ارزانتر بودن (۳ دلار به ازای هر یک میلیون توکن ورودی و ۱۵ دلار به ازای هر یک میلیون توکن خروجی) دو برابر سریعتر از Claude 3 Opus است. بنابراین برای تسکهای پیچیده مثل خدمات مشتریان یا multi-step workflows مناسبترست.
همچنین این مدل برای تسکهای بینایی مثل تحلیل نمودار بهتر از سایر مدلهای مشابه عمل میکند.
https://www.anthropic.com/news/claude-3-5-sonnet
این مدل بهسادگی با فریمورک LangChain یکپارچه شدهست.
https://python.langchain.com/v0.2/docs/integrations/chat/anthropic/
این مدل علاوه بر ارزانتر بودن (۳ دلار به ازای هر یک میلیون توکن ورودی و ۱۵ دلار به ازای هر یک میلیون توکن خروجی) دو برابر سریعتر از Claude 3 Opus است. بنابراین برای تسکهای پیچیده مثل خدمات مشتریان یا multi-step workflows مناسبترست.
همچنین این مدل برای تسکهای بینایی مثل تحلیل نمودار بهتر از سایر مدلهای مشابه عمل میکند.
https://www.anthropic.com/news/claude-3-5-sonnet
این مدل بهسادگی با فریمورک LangChain یکپارچه شدهست.
https://python.langchain.com/v0.2/docs/integrations/chat/anthropic/
👍6❤2
School of AI
مدل زبانی Claude 3.5 Sonnet توسط Anthropic معرفی شد. این مدل علاوه بر ارزانتر بودن (۳ دلار به ازای هر یک میلیون توکن ورودی و ۱۵ دلار به ازای هر یک میلیون توکن خروجی) دو برابر سریعتر از Claude 3 Opus است. بنابراین برای تسکهای پیچیده مثل خدمات مشتریان یا…
مقایسهی عملکرد مدل Claude 3.5 Sonnet با سایر مدلهای مشابه
👍5❤1