دیتاست MRPC برای تشخیص هم معنی بودن دو جمله
#معرفی_دیتاست
دیتاست MRPC
(Microsoft Research Paraphrase Corpus)
شامل 5800 جفت جمله است که از منابع خبری آنلاین استخراج شده و برچسب گذاری های این دیتاست کاملا به دست انسان انجام شده است.
این دیتاست نشان دهنده اینست که آیا دو جمله مشخص رابطه ای برابر/معنی دار دارند یا نه. در جمع آوری این دیتاست فقط یک جمله از هر یک از مقالات خبری استخراج شده.
دانلود مسقیم دیتاست | هاگینگ فیس
لود مستقیم به کد، در تصویر نمایش داده شده است.
@silicon_brain
#معرفی_دیتاست
دیتاست MRPC
(Microsoft Research Paraphrase Corpus)
شامل 5800 جفت جمله است که از منابع خبری آنلاین استخراج شده و برچسب گذاری های این دیتاست کاملا به دست انسان انجام شده است.
این دیتاست نشان دهنده اینست که آیا دو جمله مشخص رابطه ای برابر/معنی دار دارند یا نه. در جمع آوری این دیتاست فقط یک جمله از هر یک از مقالات خبری استخراج شده.
دانلود مسقیم دیتاست | هاگینگ فیس
لود مستقیم به کد، در تصویر نمایش داده شده است.
@silicon_brain
کدام عبارت درمورد توابع فعالسازی (Activation Functions) که در یادگیری عمیق کاربرد دارد، صحیح نیست؟
Anonymous Quiz
23%
توابع فعال سازی با هدفِ از بین بردن خاصیت خطیِ شبکه های عصبی ایجاد شدند
20%
توابع فعالسازی نقش مهمی در طی آموزش شبکه عصبی ایفا کرده و شیب مشتق را تنظیم میکنند
40%
اکثر توابع فعالسازی در زمرهی توابع ناپیوسته جای میگیرند
16%
ویژگیهای این توابع باعث میشود تا شبکههای عصبی بازنمایی پیچیدهتری از توابع را یاد گیرند
👍1
آموزش همزمان روی متن و تصویر با استفاده از ترنسفورمر
بسیاری از محتوای تولید شده در شبکه های اجتماعی بصورت #multi_modal تولید میشوند، تصاویر تولید شده در اینستاگرام و خیلی از شبکه های اجتماعی دیگر، هم بصورت متن و هم بصورت تصویر منتشر میشوند، پس طراحی و آموزش مدل های مبتنی بر متن و تصویر بسیار کاربردی میتواند باشد.
سال 2019 مدلی مبتنی بر معماری ترنسفورمر، به اسم #vilbert یا (Vision and Language BERT)معرفی شد که داده ورودی آن متن و تصویر است. این مدل معماری محبوب #bert را به مدل چند حالته با دو جریان داده ورودی (متن و تصویر) تبدیل کرده و از طریق لایه های مختلف ترنسفورمر به هم اثر میدهد.
لینک مقاله | پیپرویدکد
#transformer
@silicon_brain
بسیاری از محتوای تولید شده در شبکه های اجتماعی بصورت #multi_modal تولید میشوند، تصاویر تولید شده در اینستاگرام و خیلی از شبکه های اجتماعی دیگر، هم بصورت متن و هم بصورت تصویر منتشر میشوند، پس طراحی و آموزش مدل های مبتنی بر متن و تصویر بسیار کاربردی میتواند باشد.
سال 2019 مدلی مبتنی بر معماری ترنسفورمر، به اسم #vilbert یا (Vision and Language BERT)معرفی شد که داده ورودی آن متن و تصویر است. این مدل معماری محبوب #bert را به مدل چند حالته با دو جریان داده ورودی (متن و تصویر) تبدیل کرده و از طریق لایه های مختلف ترنسفورمر به هم اثر میدهد.
لینک مقاله | پیپرویدکد
#transformer
@silicon_brain
❤1
الگوریتمی ساده برای تشخیص شباهت بین متون در اینستاگرام "سیلیکون برین" بخوانید:
https://www.instagram.com/p/CVBNtUxgNvU/?utm_medium=copy_link
https://www.instagram.com/p/CVBNtUxgNvU/?utm_medium=copy_link
میخواهید کلاسیفایرتون دقتش بیاد بالا؟ چندین کلاسیفایر ترین کنید و اونارو ترکیب کنید!
#ensemble_learning
@silicon_brain
#ensemble_learning
@silicon_brain
بعضی از افراد علاقه مند یا فعال در حوزه یادگیری عمیق، گام های انجام هر یک از مراحل #loss و #gradient و #optimization را درک نمیکنند.
در این تصویر به سادگی نشان داده شده است که ترتیب انجام هر یک از مراحل ذکر شده به چه شکلی ست، همینطور ورودی و خروجی هر یک از مراحل نیز قابل مشاهده است.
با انتخاب هر یک از هشتگ های ذکر شده میتوانید در مورد جزئیات هر مرحله مطالعه کنید.
#deep_learning
@silicon_brain
در این تصویر به سادگی نشان داده شده است که ترتیب انجام هر یک از مراحل ذکر شده به چه شکلی ست، همینطور ورودی و خروجی هر یک از مراحل نیز قابل مشاهده است.
با انتخاب هر یک از هشتگ های ذکر شده میتوانید در مورد جزئیات هر مرحله مطالعه کنید.
#deep_learning
@silicon_brain
شبکهی ResNet چیست و ساختار آن چگونه است؟
سالها محققان اقدام به ایجاد شبکههای عصبی عمیقتر (افزودن لایههای بیشتر) برای بهبود کارهای پیچیده کردند، اما با افزودن لایههای بیشتر به شبکهی عصبی، آموزش آنها دشوار میشود و دقت عملکرد شبکه شروع به کاهش میکند.
وقتی شبکهی ساده عمیقتر میشوند، مشکل محوشدگی گرادیان (Vanishing Gradient) یا انفجار گرادیان (Exploding Gradient) رخ میدهد؛ بنابراین عمیقترکردن شبکه کار راحتی نبود. اینجا بود که شبکهی #رزنت (#ResNet) معرفی شد تا این مشکل را حل کند. این شبکه میتواند تا ۱۵۲ لایه داشته باشد.
طرز کار این شبکه همانطور که در شکل پیداست، به این صورت است که، در این شبکه یک اتصال اضافی داریم. درواقع در شبکه های پیشین قبل از اضافهشدن اتصال مقدار ورودی x در وزن متناظرش ضرب میشد و با مقدار بایاس (Bias) جمع میشد و درنهایت یک تابع فعالساز ReLU روی آن اعمال میشد.
H(x)=f(wx + b)
یا بهعبارت دیگر:
H(x)=f(x)
اما اکنون که اتصال میانبر را نیز داریم، مقدار x اتصال میانبر هم به مقدار F(X) اضافه میشود:
H(x)=f(x)+x
@silicon_brain
سالها محققان اقدام به ایجاد شبکههای عصبی عمیقتر (افزودن لایههای بیشتر) برای بهبود کارهای پیچیده کردند، اما با افزودن لایههای بیشتر به شبکهی عصبی، آموزش آنها دشوار میشود و دقت عملکرد شبکه شروع به کاهش میکند.
وقتی شبکهی ساده عمیقتر میشوند، مشکل محوشدگی گرادیان (Vanishing Gradient) یا انفجار گرادیان (Exploding Gradient) رخ میدهد؛ بنابراین عمیقترکردن شبکه کار راحتی نبود. اینجا بود که شبکهی #رزنت (#ResNet) معرفی شد تا این مشکل را حل کند. این شبکه میتواند تا ۱۵۲ لایه داشته باشد.
طرز کار این شبکه همانطور که در شکل پیداست، به این صورت است که، در این شبکه یک اتصال اضافی داریم. درواقع در شبکه های پیشین قبل از اضافهشدن اتصال مقدار ورودی x در وزن متناظرش ضرب میشد و با مقدار بایاس (Bias) جمع میشد و درنهایت یک تابع فعالساز ReLU روی آن اعمال میشد.
H(x)=f(wx + b)
یا بهعبارت دیگر:
H(x)=f(x)
اما اکنون که اتصال میانبر را نیز داریم، مقدار x اتصال میانبر هم به مقدار F(X) اضافه میشود:
H(x)=f(x)+x
@silicon_brain
👍1
شناسایی و آشنایی با #داده_پرت را در پیج اینستاگرام ما بخوانید.
https://www.instagram.com/p/CVnb9yKIzqu/?utm_medium=copy_link
https://www.instagram.com/p/CVnb9yKIzqu/?utm_medium=copy_link
مدل BERT فارسی برای متن های طولانی
مدل های #Bert و #ParsBert میتوانند متون با طول توکن 512 را پردازش کنند. اما بسیاری از تسک ها مانند خلاصهسازی و پرسش و پاسخ به متنهای طولانیتری نیاز دارند. در این مدل از #BigBird برای آموزش زبان فارسی استفاده شده است تا با توجه به نسبت کمتر، #متن هایی با طول 4096 را به زبان فارسی پردازش کند.
گیتهاب| هاگینگ فیس | کولب
@silicon_brain
مدل های #Bert و #ParsBert میتوانند متون با طول توکن 512 را پردازش کنند. اما بسیاری از تسک ها مانند خلاصهسازی و پرسش و پاسخ به متنهای طولانیتری نیاز دارند. در این مدل از #BigBird برای آموزش زبان فارسی استفاده شده است تا با توجه به نسبت کمتر، #متن هایی با طول 4096 را به زبان فارسی پردازش کند.
گیتهاب| هاگینگ فیس | کولب
@silicon_brain
کتابخانه یادگیری ماشین برای سری های زمانی
اخیرا کتابخانه ای با نام #Merlion برای فعالیت های مرتبط با #سری_زمانی (#time_series) معرفی شده است.در واقع Merlion یک فریمورک یادگیری ماشینی اراده میدهد که شامل بارگذاری و تبدیل دادهها، ساخت مدلهای آموزشی، خروجیهای مدل پس از پردازش، و ارزیابی عملکرد مدل ساخته شده است.
این کتابخانه از وظایف یادگیری سری های زمانی مانند پیش بینی و تشخیص ناهنجاری برای سری های زمانی تک متغیره و چند متغیره را پشتیبانی می کند.
گیتهاب | پیپرویدکد
@silicon_brain
اخیرا کتابخانه ای با نام #Merlion برای فعالیت های مرتبط با #سری_زمانی (#time_series) معرفی شده است.در واقع Merlion یک فریمورک یادگیری ماشینی اراده میدهد که شامل بارگذاری و تبدیل دادهها، ساخت مدلهای آموزشی، خروجیهای مدل پس از پردازش، و ارزیابی عملکرد مدل ساخته شده است.
این کتابخانه از وظایف یادگیری سری های زمانی مانند پیش بینی و تشخیص ناهنجاری برای سری های زمانی تک متغیره و چند متغیره را پشتیبانی می کند.
گیتهاب | پیپرویدکد
@silicon_brain
👍1