This media is not supported in your browser
VIEW IN TELEGRAM
🟣 مکالمه بین دو عامل هوشمند که با مدل زبانی GPT-3 ساخته شده اند. این دو هوش مصنوعی بهتر از هر عاملی انگلیسی را درک کردند.
#chatbot #gpt3
@silicon_brain
#chatbot #gpt3
@silicon_brain
🟣 پایگاه نوتبوکهای متنوع حوزه ی NLP
در این پایگاه بیش از ۲۰۰ نوتبوک گردآوری شدهاند که مسائل مختلفی در حوزه #nlp را در بر میگیرد (مانند تنظیم پارامتر های bert و gpt و استفاده از doc2vec و fasttext و...)
حتما وارد این پایگاه بشید تا با تنظیم و دستکاری کردن پارامتر های مختلف یک تمرینی انجام داده باشید.
لینک
@silicon_brain
در این پایگاه بیش از ۲۰۰ نوتبوک گردآوری شدهاند که مسائل مختلفی در حوزه #nlp را در بر میگیرد (مانند تنظیم پارامتر های bert و gpt و استفاده از doc2vec و fasttext و...)
حتما وارد این پایگاه بشید تا با تنظیم و دستکاری کردن پارامتر های مختلف یک تمرینی انجام داده باشید.
لینک
@silicon_brain
🔵مقایسه بصری الگوریتمهای معروف کلاسترینگ روی دادههای چالشی با توزیعات مختلف
https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html
@silicon_brain
https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html
@silicon_brain
This media is not supported in your browser
VIEW IN TELEGRAM
🟣 اگر متخصص یا علاقه مند به هوش مصنوعی هستید، احتمالا ساعت ها پشت کامپیوتر هستید و همه میدونیم بعد از چند ساعت نشستن و ثابت بودن اولین جایی که شروع به درد و اذیت میکنه گردن هست.
با این ترفند ساده از شر گردن درد خلاص بشید و ساخت مدل یادگیری خود را ادامه بدین... 😉
@silicon_brain
با این ترفند ساده از شر گردن درد خلاص بشید و ساخت مدل یادگیری خود را ادامه بدین... 😉
@silicon_brain
👍1
🟢چگونه با missing value های موجود در دیتاست برخورد کنیم؟
برای تصمیم گیری درباره missing value ها بسته به نوع داده ها و شرایط مد نظر میتوان از یکی از موارد زیر استفاده کرد:
-پاک کردن سطرهای شامل missing value.
-محاسبه خانه خالی برای داده های عددی و غیر عددی.
-جایگذاری خانه خالی با مقدار میانگین یا میانه یا حتی یک مقدار ثابت یا رندم برای داده های عددی.
-استفاده از الگوریتم هایی که missing value را ساپورت میکنند.
-پیشبینی مقدار missing value ها.
@silicon_brain
برای تصمیم گیری درباره missing value ها بسته به نوع داده ها و شرایط مد نظر میتوان از یکی از موارد زیر استفاده کرد:
-پاک کردن سطرهای شامل missing value.
-محاسبه خانه خالی برای داده های عددی و غیر عددی.
-جایگذاری خانه خالی با مقدار میانگین یا میانه یا حتی یک مقدار ثابت یا رندم برای داده های عددی.
-استفاده از الگوریتم هایی که missing value را ساپورت میکنند.
-پیشبینی مقدار missing value ها.
@silicon_brain
🟢یه سوال ساده!
خوب همونطور که تو شکل میبینید Estimation و prediction از انواع یادگیری نظارت شده هستند. کسی میتونه تفاوت های این دو حالت Estimation و prediction رو بگه؟
@silicon_brain
خوب همونطور که تو شکل میبینید Estimation و prediction از انواع یادگیری نظارت شده هستند. کسی میتونه تفاوت های این دو حالت Estimation و prediction رو بگه؟
@silicon_brain
Silicon Brain | جامعه هوش مصنوعی
🟢یه سوال ساده! خوب همونطور که تو شکل میبینید Estimation و prediction از انواع یادگیری نظارت شده هستند. کسی میتونه تفاوت های این دو حالت Estimation و prediction رو بگه؟ @silicon_brain
⬇️
🟢جواب:
-تخمین یا همون Estimation معادل رگراسیون هست و متغیرهای خروجی از نوع عددی هستند. ولی در prediction متغیرهای خروجی هم میتونن عددی باشند هم میتونن دسته ای یا همون categorical باشند.
-در Estimation خروجیها وضعیت فعلی حال حاضر رو بیان میکنن و با آینده کاری ندارن مثل تخمین قیمت خانه. ولی در prediction خروجی ها وضعیت در آینده رو بیان میکنن مثل پیشبینی تغییرات آب و هوا.
@silicon_brain
🟢جواب:
-تخمین یا همون Estimation معادل رگراسیون هست و متغیرهای خروجی از نوع عددی هستند. ولی در prediction متغیرهای خروجی هم میتونن عددی باشند هم میتونن دسته ای یا همون categorical باشند.
-در Estimation خروجیها وضعیت فعلی حال حاضر رو بیان میکنن و با آینده کاری ندارن مثل تخمین قیمت خانه. ولی در prediction خروجی ها وضعیت در آینده رو بیان میکنن مثل پیشبینی تغییرات آب و هوا.
@silicon_brain
This media is not supported in your browser
VIEW IN TELEGRAM
🟣 امتیاز دهی اعتبار اجتماعی در چین!
چین با استفاده از سیستم مبتنی بر هوش مصنوعی میتواند شهروندان را بابت توئیت هایی که منتشر کرده اند یا در مورد اینکه در انتخابات این کشور شرکت کرده اند یا نه، شهروندان را جریمه یا تشویق کند.
این سیستم با میلیون ها دوربین و فناوری هایی مانند تشخیص چهره و ... میتواند تمامی رفتار های شهروندان را در اجتماع و فضای مجازی تحت نظر قرار دهد.
@siliocn_brain
چین با استفاده از سیستم مبتنی بر هوش مصنوعی میتواند شهروندان را بابت توئیت هایی که منتشر کرده اند یا در مورد اینکه در انتخابات این کشور شرکت کرده اند یا نه، شهروندان را جریمه یا تشویق کند.
این سیستم با میلیون ها دوربین و فناوری هایی مانند تشخیص چهره و ... میتواند تمامی رفتار های شهروندان را در اجتماع و فضای مجازی تحت نظر قرار دهد.
@siliocn_brain
تکرار دوباره دیتای آموزشی برای مدل زبانی نتیجه بهتری برای ما میدهد
نظر شما در مورد این جمله؟
نظر شما در مورد این جمله؟
Anonymous Poll
31%
درست
38%
غلط
31%
نظر یا اطلاعات کافی ندارم
🟣سری هشتم از یادگیری ماشین در مورد الگوریتم لجستیک رگرسیون
#یادگیری_ماشین #لجستیک_رگراسیون
#machine_learning #logistic_regression
@silicon_brain
#یادگیری_ماشین #لجستیک_رگراسیون
#machine_learning #logistic_regression
@silicon_brain
Silicon Brain | جامعه هوش مصنوعی
تکرار دوباره دیتای آموزشی برای مدل زبانی نتیجه بهتری برای ما میدهد
نظر شما در مورد این جمله؟
نظر شما در مورد این جمله؟
🔵پیدا کردن اطلاعات تکراری و حذف آنان امکان ساخت مدلهایی را که متن را حفظ میکنند را تا 10 برابر کمتر میکند! و استپهای آموزشی کمتری برای دستیابی به همان دقت یا بهتر دارد.
محققین Google در این مقاله روی دیتاست بزرگ C4 آزمایشاتی انجام دادهاند. C4 تقریبا 3% سند کپی در خود دارد. مثلا پاراگراف تصویر یک 64 هزار بار در ترین و 61 بار در ولیدیشن این دیتاست اومده!
در کل 280 نمونه رو پیدا کردند که حداقل 50 توکن یا یا یشتر با حداقل 5000 نمونه دیگر دارند.
و 7.8% از مثالها در C4 دارای یک تطبیق زیر رشتهای با 50 توکن یا بیشتر با یک نمونه دیگر در C4 است.
(تصویر دوم)
این مقاله می گوید: اگر یک نمونه را بارها مشاهده کنید، احتمالاً بیش برازش روش خواهد شد.(یعنی valid loss از train loss بیشتر شود.)
حذف تکرار در مجموعه داده، دقت مدل آموزش را کم نمیکند
مدلهای آموزش داده شده روی داده های اصلی C4 و مدلهای آموزش داده شده روی دادههای حذف زائد ، پرپلکسیتی مشابهی در مجموعه ولیدیشن داشتند.
(تصویر سوم )
متون تکراری فقط مختص به دیتاست بزرگ C4 نیست در همه دیتاست ها از جمله دیتاهای خبرهای و توییت و... میتونه باشه.
کد گیت برای حذف تکرار
https://github.com/google-research/deduplicate-text-datasets.
مقاله مذکور
https://arxiv.org/pdf/2107.06499.pdf]
#مقاله_ترند
#Deduplicating
#LM
#NLG #NLP
@silicon_brain
محققین Google در این مقاله روی دیتاست بزرگ C4 آزمایشاتی انجام دادهاند. C4 تقریبا 3% سند کپی در خود دارد. مثلا پاراگراف تصویر یک 64 هزار بار در ترین و 61 بار در ولیدیشن این دیتاست اومده!
در کل 280 نمونه رو پیدا کردند که حداقل 50 توکن یا یا یشتر با حداقل 5000 نمونه دیگر دارند.
و 7.8% از مثالها در C4 دارای یک تطبیق زیر رشتهای با 50 توکن یا بیشتر با یک نمونه دیگر در C4 است.
(تصویر دوم)
این مقاله می گوید: اگر یک نمونه را بارها مشاهده کنید، احتمالاً بیش برازش روش خواهد شد.(یعنی valid loss از train loss بیشتر شود.)
حذف تکرار در مجموعه داده، دقت مدل آموزش را کم نمیکند
مدلهای آموزش داده شده روی داده های اصلی C4 و مدلهای آموزش داده شده روی دادههای حذف زائد ، پرپلکسیتی مشابهی در مجموعه ولیدیشن داشتند.
(تصویر سوم )
متون تکراری فقط مختص به دیتاست بزرگ C4 نیست در همه دیتاست ها از جمله دیتاهای خبرهای و توییت و... میتونه باشه.
کد گیت برای حذف تکرار
https://github.com/google-research/deduplicate-text-datasets.
مقاله مذکور
https://arxiv.org/pdf/2107.06499.pdf]
#مقاله_ترند
#Deduplicating
#LM
#NLG #NLP
@silicon_brain
Telegram
هوش مصنوعی ! یادگیری عمیق ! یادگیری ماشین . Deep learning . Machine learning . Nlp .
👍1
🟣 شرکت DeepMind پایگاه داده AlphaFold که تمام ساختارهای پروتئینی انسان را در خود دارد منتشر میکند
سال گذشته، برگزارکنندگان دوسالانه پیش بینی ساختار پروتئین (CASP) ، AlphaFold را به عنوان راه حلی برای چالش بزرگ شناسایی ساختار #پروتئین ها، تشخیص دادند. این مشکل نزدیک به 50 سال است که از مسائل حل نشده بیولوژیست.
در واقع AlphaFold یک پیشرفت بزرگ است که نقشی اساسی برای کمک به دانشمندان جهت حل مشکلات مهمی در ساختار پروتئین مرتبط با بیماری هایی مانند آلزایمر، پارکینسون و بیماری هانتینگتون بازی خواهد کرد.
تا اینجا AlphaFold با استفاده از هوش مصنوعی با موفقیت ساختار 20،000 پروتئین را پیش بینی کرده است.
شرکت #deepmind درحال انتشار پایگاه داده خود از پروتئین های بدن انسان و همچنین پروتئین های 20 موجود زنده دیگری است که دانشمندان در تحقیقات خود به آنها اعتماد می کنند. این پایگاه داده به طور رایگان در اختیار محققان قرار میگیرد.
لینک
@silicon_brain
سال گذشته، برگزارکنندگان دوسالانه پیش بینی ساختار پروتئین (CASP) ، AlphaFold را به عنوان راه حلی برای چالش بزرگ شناسایی ساختار #پروتئین ها، تشخیص دادند. این مشکل نزدیک به 50 سال است که از مسائل حل نشده بیولوژیست.
در واقع AlphaFold یک پیشرفت بزرگ است که نقشی اساسی برای کمک به دانشمندان جهت حل مشکلات مهمی در ساختار پروتئین مرتبط با بیماری هایی مانند آلزایمر، پارکینسون و بیماری هانتینگتون بازی خواهد کرد.
تا اینجا AlphaFold با استفاده از هوش مصنوعی با موفقیت ساختار 20،000 پروتئین را پیش بینی کرده است.
شرکت #deepmind درحال انتشار پایگاه داده خود از پروتئین های بدن انسان و همچنین پروتئین های 20 موجود زنده دیگری است که دانشمندان در تحقیقات خود به آنها اعتماد می کنند. این پایگاه داده به طور رایگان در اختیار محققان قرار میگیرد.
لینک
@silicon_brain
🟣 با توجه به رشد روز افزون هوش مصنوعی و فیلد های مرتبط، افراد زیادی علاقه مند به زمینه های دانشمند داده و مهندس داده شدن...
با توجه به وجود تفاوت های ظریف بین این دو زمینه، بسیاری از افراد در تشخیص جزئیات هر کدام سر درگم میشن. در اینستاگرام سیلیکون برین سعی کردیم تفاوت های #دانشمند_داده و #مهندس_داده رو بیان کنیم.
https://www.instagram.com/p/CR1UtgGAJc9/?utm_medium=copy_link
با توجه به وجود تفاوت های ظریف بین این دو زمینه، بسیاری از افراد در تشخیص جزئیات هر کدام سر درگم میشن. در اینستاگرام سیلیکون برین سعی کردیم تفاوت های #دانشمند_داده و #مهندس_داده رو بیان کنیم.
https://www.instagram.com/p/CR1UtgGAJc9/?utm_medium=copy_link