Silicon Brain | جامعه هوش مصنوعی
7.04K subscribers
1.03K photos
117 videos
60 files
499 links
مغز سیلیکونی|جامعه هوش مصنوعی و یادگیری ماشین

گروه بحث و تبادل نظر:
https://t.me/+SWbgmMZt0XU0MGY0

مطالب و بحث های بیشتر در اینستاگرام:
https://www.instagram.com/silicon_brain/

ارتباط با ادمین:
@silicon_brain_admin
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🟣 مکالمه بین دو عامل هوشمند که با مدل زبانی GPT-3 ساخته شده اند. این دو هوش مصنوعی بهتر از هر عاملی انگلیسی را درک کردند.
#chatbot #gpt3
@silicon_brain
🟣 پایگاه نوتبوک‌های متنوع حوزه ی NLP

در این پایگاه بیش از ۲۰۰ نوتبوک گرد‌آوری شده‌اند که مسائل مختلفی در حوزه #nlp را در بر میگیرد (مانند تنظیم پارامتر های bert و gpt و استفاده از doc2vec و fasttext و...)

حتما وارد این پایگاه بشید تا با تنظیم و دستکاری کردن پارامتر های مختلف یک تمرینی انجام داده باشید.
لینک
@silicon_brain
🔵مقایسه بصری الگوریتم‌های معروف کلاسترینگ روی داده‌های چالشی با توزیعات مختلف

https://scikit-learn.org/stable/auto_examples/cluster/plot_cluster_comparison.html

@silicon_brain
This media is not supported in your browser
VIEW IN TELEGRAM
🟣 اگر متخصص یا علاقه مند به هوش مصنوعی هستید، احتمالا ساعت ها پشت کامپیوتر هستید و همه میدونیم بعد از چند ساعت نشستن و ثابت بودن اولین جایی که شروع به درد و اذیت میکنه گردن هست.
با این ترفند ساده از شر گردن درد خلاص بشید و ساخت مدل یادگیری خود را ادامه بدین... 😉

@silicon_brain
👍1
🟢چگونه با missing value های موجود در دیتاست برخورد کنیم؟

برای تصمیم گیری درباره missing value ها بسته به نوع داده ها و شرایط مد نظر میتوان از یکی از موارد زیر استفاده کرد:

-پاک کردن سطرهای شامل missing value.

-محاسبه خانه خالی برای داده های عددی و غیر عددی.

-جایگذاری خانه خالی با مقدار میانگین یا میانه یا حتی یک مقدار ثابت یا رندم برای داده های عددی.

-استفاده از الگوریتم هایی که missing value را ساپورت میکنند.

-پیشبینی مقدار missing value ها.
@silicon_brain
🟢یه سوال ساده!

خوب همون‌طور که تو شکل می‌بینید Estimation و prediction از انواع یادگیری نظارت شده هستند. کسی می‌تونه تفاوت های این دو حالت Estimation و prediction رو بگه؟

@silicon_brain
Silicon Brain | جامعه هوش مصنوعی
🟢یه سوال ساده! خوب همون‌طور که تو شکل می‌بینید Estimation و prediction از انواع یادگیری نظارت شده هستند. کسی می‌تونه تفاوت های این دو حالت Estimation و prediction رو بگه؟ @silicon_brain
⬇️
🟢جواب:

-تخمین یا همون Estimation معادل رگراسیون هست و متغیرهای خروجی از نوع عددی هستند. ولی در prediction متغیرهای خروجی هم میتونن عددی باشند هم میتونن دسته ای یا همون categorical باشند.

-در Estimation خروجی‌ها وضعیت فعلی حال حاضر رو بیان میکنن و با آینده کاری ندارن مثل تخمین قیمت خانه. ولی در prediction خروجی ها وضعیت در آینده رو بیان میکنن مثل پیشبینی تغییرات آب و هوا.
@silicon_brain
This media is not supported in your browser
VIEW IN TELEGRAM
🟣 امتیاز دهی اعتبار اجتماعی در چین!

چین با استفاده از سیستم مبتنی بر هوش مصنوعی میتواند شهروندان را بابت توئیت هایی که منتشر کرده اند یا در مورد اینکه در انتخابات این کشور شرکت کرده اند یا نه، شهروندان را جریمه یا تشویق کند.

این سیستم با میلیون ها دوربین و فناوری هایی مانند تشخیص چهره و ... میتواند تمامی رفتار های شهروندان را در اجتماع و فضای مجازی تحت نظر قرار دهد.

@siliocn_brain
تکرار دوباره دیتای آموزشی برای مدل زبانی نتیجه بهتری برای ما می‌دهد

نظر شما در مورد این جمله؟
Anonymous Poll
31%
درست
38%
غلط
31%
نظر یا اطلاعات کافی ندارم
🟣سری هشتم از یادگیری ماشین در مورد الگوریتم لجستیک رگرسیون

#یادگیری_ماشین #لجستیک_رگراسیون
#machine_learning #logistic_regression

@silicon_brain
Silicon Brain | جامعه هوش مصنوعی
تکرار دوباره دیتای آموزشی برای مدل زبانی نتیجه بهتری برای ما می‌دهد

نظر شما در مورد این جمله؟
🔵پیدا کردن اطلاعات تکراری و حذف آنان امکان ساخت مدل‌هایی را که متن را حفظ می‌کنند را تا 10 برابر کمتر می‌کند! و استپ‌های آموزشی کمتری برای دستیابی به همان دقت یا بهتر دارد.
محققین Google در این مقاله روی دیتاست بزرگ C4 آزمایشاتی انجام داده‌اند. C4 تقریبا 3% سند کپی در خود دارد. مثلا پاراگراف تصویر یک 64 هزار بار در ترین و 61 بار در ولیدیشن این دیتاست اومده!
در کل 280 نمونه رو پیدا کردند که حداقل 50 توکن یا یا یشتر با حداقل 5000 نمونه دیگر دارند.
و 7.8% از مثالها در C4 دارای یک تطبیق زیر رشته‌ای با 50 توکن یا بیشتر با یک نمونه دیگر در C4 است.
(تصویر دوم)

این مقاله می گوید: اگر یک نمونه را بارها مشاهده کنید، احتمالاً بیش برازش روش خواهد شد.(یعنی valid loss از train loss بیشتر شود.)


حذف تکرار در مجموعه داده، دقت مدل آموزش را کم نمیکند
مدل‌های آموزش داده شده روی داده های اصلی C4 و مدل‌های آموزش داده شده روی داده‌های حذف زائد ، پرپلکسیتی مشابهی در مجموعه ولیدیشن داشتند.

(تصویر سوم )

متون تکراری فقط مختص به دیتاست بزرگ C4 نیست در همه دیتاست ها از جمله دیتاهای خبرهای و توییت و... میتونه باشه‌.

کد گیت برای حذف تکرار

https://github.com/google-research/deduplicate-text-datasets.
مقاله مذکور
https://arxiv.org/pdf/2107.06499.pdf]

#مقاله_ترند
#Deduplicating
#LM
#NLG #NLP

@silicon_brain
👍1
🟣 شرکت DeepMind پایگاه داده AlphaFold که تمام ساختارهای پروتئینی انسان را در خود دارد منتشر میکند

سال گذشته، برگزارکنندگان دوسالانه پیش بینی ساختار پروتئین (CASP) ، AlphaFold را به عنوان راه حلی برای چالش بزرگ شناسایی ساختار #پروتئین ها، تشخیص دادند. این مشکل نزدیک به 50 سال است که از مسائل حل نشده بیولوژیست.

در واقع AlphaFold یک پیشرفت بزرگ است که نقشی اساسی برای کمک به دانشمندان جهت حل مشکلات مهمی در ساختار پروتئین مرتبط با بیماری هایی مانند آلزایمر، پارکینسون و بیماری هانتینگتون بازی خواهد کرد.

تا اینجا AlphaFold با استفاده از هوش مصنوعی با موفقیت ساختار 20،000 پروتئین را پیش بینی کرده است.

شرکت #deepmind درحال انتشار پایگاه داده خود از پروتئین های بدن انسان و همچنین پروتئین های 20 موجود زنده دیگری است که دانشمندان در تحقیقات خود به آنها اعتماد می کنند. این پایگاه داده به طور رایگان در اختیار محققان قرار میگیرد.
لینک
@silicon_brain
🟣 با توجه به رشد روز افزون هوش مصنوعی و فیلد های مرتبط، افراد زیادی علاقه مند به زمینه های دانشمند داده و مهندس داده شدن...
با توجه به وجود تفاوت های ظریف بین این دو زمینه، بسیاری از افراد در تشخیص جزئیات هر کدام سر درگم میشن. در اینستاگرام سیلیکون برین سعی کردیم تفاوت های #دانشمند_داده و #مهندس_داده رو بیان کنیم.

https://www.instagram.com/p/CR1UtgGAJc9/?utm_medium=copy_link