Ali's Notes
997 subscribers
8 photos
2 videos
57 links
من علی نجفی ام.
اینجا برای خودم نوت برداری میکنم
شاید به درد شما هم بخوره :‌)


Website: www.najafi-ali.com
BlueSky: https://bsky.app/profile/najafialiai.bsky.social
Linkedin: www.linkedin.com/in/najafi-ali1998
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
MetaGPT: The Multi-Agent Framework: Given one line Requirement, return PRD, Design, Tasks, Repo

کارهای جالبی میکنه:
- بهش بگید فلان گیم رو بساز براتون میسازه ( ویدیو )
- بهش میگید یه استارت اپ رو چطوری بسازم بهتون مراحل رو توضیح میده.


🔔ایجنت بیس هستش، یعنی میشه به خوبی scale کرد و برای هر GPT یک نقش خاصی بهش داد.
همین پوینتش یه نکته زیبا داره:
ایده داری، سریع میشه پیاده سازی کرد و دید چی میشه
https://github.com/geekan/MetaGPT



✔️ فرض کنید با این ایجنت ها برای هر کشور یک سخنگوی دولت مانند بسازید (برحسب ارزش ها و سیاست های هر کشور) بعدش بندازید به جون هم که باهم حرف بزنن.
بعدش چک کنید که کی خشن میشن یا تحت چه شرایطی کشورها استارت میزنن به دوست شدن و این چیز ها.
بعدش چی؟
این برای سیاست مدارها میتونه ارزشمند باشه که چیزهایی رو که ممکن هست رخ بده از قبل ببینن.

این ایده ای که دارم اینجا میدم میتونه خیلی broad باشه، ولی میشه ساختش. : )


@css_nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
☄️AutoTrain
✔️ برای تسک های classification میتونید دیتاستتون رو آپلود کنید و مدل رو انتخاب کنید و ریزالت هاتون رو ببینید
✔️ کد نمیزنید عملا.
⚠️ مشخصا رایگان نیستش و سیاستشون per minute training هست.
⚠️ بدیش اینه که دیتاستتون رو نمیدونید کجا آپلود میکنید.


🌐 Link 🌐
@css_nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
😇😇😇😇بالاخره بعد از مدت ها تونستم پیپر LLama-2 رو بخونم. برخلاف پیپر GPT که کلا چیزی نگفته بودن، این پیپر اطلاعات خیلی ارزشمندی رو در اختیار ما گذاشته.
یه سری از نکته هایی رو که واقعا ازش لذت بردم میخوام اینجا لیست کنم. قبل لیست کردن چند تا نکته رو اشاره کنم، خب مدل product محور که وقتی وارد بازار شدن همه جا رو ترکوندن و گفتن که دیگه رسیدیم به آخر AI و خیلی چیزهای دیگه مثل ChatGPT. اما مساله ای که اینجا ارزش داره بهش دقت کنیم این هست که این مدل ها close source هستن یا به عبارتی ما نمیدونیم اون پشت چه اتفاقاتی داره میافته که به این نتایج انسان پسند و باحال دست پیدا میکنیم.
تو دنیای ریسرچ فعلی برای NLP و مخصوصا سمت ترین کردن LLM ها، الان رقابتی که وجود داره اینطور هستش که مدلی رو بیرون بدن که ریزالت های نزدیک یا حتی بهتر از این پروداکت ها رو داشته باشن.
استارتینگ پوینتش رو از Falcon 7b بعد از BLOOM شاید بشه بهش اشاره کرد. علت اینکه BLOOM رو نمیگم اولی چون قبل تر از ChatGPT اینا بودن.
ولی مشکلات و بدبختی زیادی وجود داره 🥺.

🥵مدل ها خیلی بزرگن - درحدی بزرگن که با کوانتایزر کردن و 2 بیت 4 بیت کردن هم باز یه GPU در حد 16 گیگ رم میخواد.
هر چند اندروکارپاسی با cpp اومد اسکریپتی داد که حتی رو cpu هم میشه inference گرفت ولی خب....

🥵 مدل ها wild و وحشی ان. اصلا جنریت کردن به نظرم یکی از سخت ترین قسمت های کاری LLM ها هستش. چرا؟
🗿 اصلا کنترل کردن جنریت سخته. میگی 100 کاراکتر بیشتر جنریت نکن میبینی داره 400 تا کاراکتر جنریت میکنه
🗿 میگی پنالتی تکرار جنریت کردن و ببرم بالا، میبینی که دوباره تکست تکراری جنریت میکنه
🗿میخوای که مواظب باشی حرف های بد نزنه باید یا Direct Finetune کنی یا بیای RLHF که عملا یه مدلی هست که میاد مدل اصلی رو کنترل میکنه
(نمونش اونجا که chatgpt میگی یه حرف racist طور بزنه اما بعدش میگه به عنوان یه LLM نمیتونم و فلان)
(یادم باشه یه پست هم درمورد آماده کردن دیتاست ها اینجا بنویسم)


حالا این چیزا رو کنار بزاریم و بریم ببینیم که LLama2 چه گلی به سرمون زده:


⚡️Dataset
📌 دیتاستی که ترین کردن public هستش و مواظب بودن که شامل دیتای Meta نباشه.
📌 نسبت به LLama1 افزایش 40 درصدی دیتاست داشتن برای ترین کردن
📌 دیتاستی که ترین شدن multilingual هستش یعنی زبان های دیگه رو هم ساپورت میکنه اما تو پیپر گفتن که ما فقط انگلیسی رو زیرنظر گرفتیم
📌 چک کردن که دیتایی که هست شامل دیتای شخصی افراد نباشه به خاطر privacy.
📌 دیتا سرجمع 2 ترلیون توکن داشته
⚡️ Pre-training
📌 ساختار مدل همون ترنسفورمر استاندارد هستش
📌 قبل ترین مدل وزن ها رو با RMSNorm نرمالایزر کردن
📌 اکتیویشن فانکشن SwiGLU
📌 برای positional embedding، از Rotary Positional Embeddings استفاده کردن
📌 به طور کلی input length یا همون context length رو بردن بالا (نکته قابل ذکر اینکه وقتی این سایزر ورودی رو میبرن بالا، computational cost هم خیلی زیبا میره بالا. برای این پیپر attention is all you need رو میتونید چک کنید)
📌 ماژول اتنشنشون یکمی متفاوت هستش با اتنشن عادی. از GQA استفاده کردن

⚡️ Evaluation
تسک هایی که روش مدل های مختلف رو بنچ مارک گرفتن:
🟢 Code
🟢 Commonsense Reasoning
🟢 World Knowledge
🟢 Reading Comprehension (دوستانی که امتحان GRE دادن میدونن :)
🟢 Math
🟢 Popular Aggregated Benchmarks

📌در کل روی تسک های اشاره شده ریزالت ها بهتر شدن روی LLama-2 که از این بین بهتریشون 70 بیلیون پارامتری لاما هستش


⚡️ Finetuning

📌 من وقتی شنیدم که LLama 2 رو فاین تون کردن خوشحال شدم. چون کلا فاین تون رو گذاشته بودن کنار و کسی دیرکتلی فاین تون نمیکرد.

@css_nlp


ادامه دارد ...
Please open Telegram to view this post
VIEW IN TELEGRAM
کتاب یادداشت فرایند ترین کردن مدل OPT-175B که بیرون دادن.


🌐 OPT175B_Logbook.pdf🌐

انصافا دمشون گرم. عالین. این کلاستر ترین کردن رو نود های مختلف یک مصیبتی هستش که اصلا قابل توصیف نیست.
اینجا میتونید قشنگ ببینید که دونستن NLP یه چیزه، ترین کردن این مدل ها یه چیز دیگه که قشنگ فیلد خودش رو داره. شاید بشه گفت MLOPS....
@css_nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
Andrew NG
تو این سخنرانی که کرد واقعا به یک سری نکات ارزنده ای اشاره می کنه که واقعا باید بهش فکر کرد:

✔️ تو پروسه استارت آپ ها از ایده تا عمل: من وقتی به اون قسمتی رسید که یک CEO رو میارن روی کار لذت بردم. من بیشتر چیزی رو که تو جو حاکم ایران دیدم اینکه هممون conservative هستیم و دوست داریم که همه کارها رو خودمون انجام بدیم. و این سطح دید باعث میشه که خیلی ضرر کنیم مخصوصا از جهت زمان.
✔️تو بحث پروژه های AI: قشنگ مشخصه که تو مشکلات کوچیک کم کار شده و هنوز جای کار خیلی زیادی وجود داره، مثلا ما تو ایران تو زمینه کشاورزی چقدر از AI بهره میبریم؟
(حالا این یک مثال بود صرفا خواستم مطلب رو برسونم و در مورد ایران اصلا حرف نمیزنم) این یعنی اینکه کار خیلی زیادی هست که انجام شدن میخواد.
✔️نکته آخر اونجا که Andrew میگه از AI برای حل کردن مشکلاتی که انسان ها باهاشون ممکنه مواجه بشن کمک میکنه مثلا اگه یه پاندمی مثل کرونا بیاد میشه ازش استفاده کرد تا درمانش رو سریع پیدا کنیم.(اینجا رسما تیکه انداخت خطاب به اون دسته از افرادی که میگفتن که AGI اومده و میزنه همه انسان ها رو نابود میکنه و فلان و باید جلوی پیشرفت AI رو بگیریم).

🌐لینک ویدیو🌐

@css_nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
sharp-transformers

پلاگین جدید برای بازی سازهای عزیز که میتونن برای گیم انجین Unity ازش بهره ببرند.

@css_nlp
Language Models Represent Space and Time

تو این مقاله LLama2 رو آنالیز کردن که ببینند آیا این LLM علم به مختصات مکانی و زمانی داره یا نه!
پیشنهاد میکنم که این پیپر رو مطالعه کنید.

🌐Link🌐

@css_nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
RAG
🔹
Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks
🔹

✔️مدل های RAG، ساختار جدیدی برای مدل های Retrieval هستن که با knowledge سرو کار دارن و تلاش میکنند وقتی جنریت میکنن نالج محور باشن!
✔️ منظور از knowledge، هر دیتابیسی که شامل اطلاعاتی هستش مثل ویکی پدیا، البته فقط ویکی پدیا نیست لزوما
✔️ همونطور که گفتم این یک ساختار جدید هستش، Seq2Seq و نسبت به ساختار های E2E عادی و همچنین کاندیدا محور بهتر کار کرده.
✔️به خاطر محبوبیت و کاراییش، Huggingface هم این ساختار رو به کتابخونه ترنسفورمر ها اضافه کرده.

🌐 Link 🌐


@css_nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
مقاله جدیدی که ازش لذت بردم.

🔹
Your spouse needs professional help: Determining the Contextual Appropriateness of Messages through Modeling Social Relationships
🔹

✔️ تو این مقاله سعی شده با مدل کردن روابط اجتماعی، مناسب بودن یا نبودن گزاره هایی که افراد به یک دیگر می نویسند رو بررسی کنند.
✔️ شیوه ساخت دیتاست جامع توضیح داده شده.
✔️ از LLM ها برای مناسب بودن یا نبودن استفاده کردن.
(Prompting , Finetuning)
✔️ این کار تو فیلد Sociology و AI قرار میگیره.

🌐 Link 🌐

پ.ن: شرمنده که خیلی مدت بود که پست نگذاشتم. یکمی درگیرم این روزا D :

@css_nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
Ali's Notes
مقاله جدیدی که ازش لذت بردم. 🔹 Your spouse needs professional help: Determining the Contextual Appropriateness of Messages through Modeling Social Relationships 🔹 ✔️ تو این مقاله سعی شده با مدل کردن روابط اجتماعی، مناسب بودن یا نبودن گزاره هایی که افراد…
🔹
TurkishBERTweet: Fast and Reliable Large Language Model for Social Media Analysis
🔹

✔️ بالاخره این پروژه رو هم به اتمام رساندم. 🥵😆

✔️ تو این پروژه، یک مدل BERT-BASE رو از صفر روی TPU های گوگل، روی دیتای تویتر برای زبان ترکی استانبولی که تقریبا دیتایی از سال 2010 تا 2021 از پلتفورم Twitter/X رو شامل میشه ترین کردم.
✔️ روی دیتاست هایی که دردسترس بود برای این زبان، benchmark هایی انجام دادیم.
✔️ علاوه بر این مدل ChatGPT-turbo رو فاین تون کردیم روی دیتا و به صورت OOD مقایسه کردیم که مدل ما تقریبا برابری میکنه در پرفورمنس
✔️ این مدل به صورت اوپن سورس روی هاگین فیس دردسترس عموم قرار داره.
✔️ توکنایزر خاصی هم ساختیم تو این پروژه که میتونه Hashtag, Emoji, Cashtag, Http رو Unmask بکنه.
✔️ روش های فاین تونینگ LoRA هم در این پروژه استفاده شده.
✔️ از روش Distributed Training استفاده شد روی TPU های V3-8 گوگل.

🌐 Paper 🌐
🌐 HuggingFace 🌐

@css_nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
Please open Telegram to view this post
VIEW IN TELEGRAM
اگه تازه تصمیم گرفتید که وارد فیلد NLP بشید.
یکی از جاهایی که میتونید استارت بزنید این playlist هستش!


🔥Umass NLP

@css_nlp
Please open Telegram to view this post
VIEW IN TELEGRAM
🔹
The Rise and Potential of Large Language Model Based Agents
🔹
یک survey واقعا ترتمیز نوشته شده برای agent ها

🌐 Paper 🌐
Please open Telegram to view this post
VIEW IN TELEGRAM
سلام
از من دعوت شده تو این ایونت کار LLM ام رو ارایه بدم.
ایونت خوبی هستش که قراره از دانشگاه های مختلف کارهای خودشون رو ارایه بدند.
برای شرکت میتونید با فرم زیر ثبت نام کنید(رایگان هستش)





https://docs.google.com/forms/d/e/1FAIpQLSdBqTEt4e8pMpowKEnJUbS665yOu4pwi6G9zqcno2nt7ujl5g/viewform

@css_nlp
Ali's Notes
سلام از من دعوت شده تو این ایونت کار LLM ام رو ارایه بدم. ایونت خوبی هستش که قراره از دانشگاه های مختلف کارهای خودشون رو ارایه بدند. برای شرکت میتونید با فرم زیر ثبت نام کنید(رایگان هستش) https://docs.google.com/forms/d/e/1FAIpQLSdBqTEt4e8pMpowKEnJU…
PROGRAM:

Monday, March 4 2024 (6-9 PM Turkey Time*)
1. Tolga Kurtuluş (Turkish Airlines): "Quantization of large language models"

2. Karahan Şahin (Index Network): "Understanding Sign Language in the age of LLMs: Pretrained models for Sign Language Recognition and Translation"

3. Onur Güngör (Boğaziçi University): "TURNA: A Turkish Encoder-Decoder Language Model for Enhanced Understanding and Generation"

Tuesday, March 5 2024 (6-9 PM Turkey Time*)
4. Güldeniz Bektaş (Turknet): "Make Your Chatbots Smarter with LLMs"

5. Reshmi Ghosh (Microsoft): "Ensuring Safety in LLMs: Tackling Responsible AI Harms and Prompt Injections"

6. Julie Kallini (Stanford University): "Mission: Impossible Language Models"

Wednesday, March 6 2024 (5-8 PM Turkey Time*)
7. Vadim Kimmelman (Bergen University): "Investigating the structure of nonmanual markers in sign languages with Computer Vision: the first step"

8. Allison Dods (University of Maryland): "Using language models to study language acquisition: (What) can they tell us about filler-gap dependencies?"

9. Büşra Marşan (Stanford University): "Fixing benchmarking in Turkish: Can benchmarks lie?"

Thursday, March 7 2024 (5-8 PM Turkey Time*)
10. Mert İnan (Northeastern University): "Equitable and Accessible Multimodal Task-Oriented Dialogue Systems: Lessons from Alexa Prize Challenge"

11. Uzay Çetin (Galatasaray University, Summarify): "Introduction to Language Modeling with word2vec"

12. Yunus Emre Gündoğmuş (Summarify): "Data intensive scaleable application development"

Friday, March 8 2024 (6-9 PM Turkey Time*)
13. Ali Najafi (Sabancı University): "TurkishBERTweet: Fast and Reliable Large Language Model for Social Media Analysis"

14. Duygu Altınok (Deepgram): "From vectors to decoder-only models: How Generative models reached to the top"

15. Ali Hürriyetoğlu (Koç University): "Text Processing Unveiled: From Foundations to Frontiers"

@css_nlp
من میخوام یه موردی رو اشاره کنم در مورد شرایط دانشگاه های ایران در مقایسه با دانشگاه های ترکیه:

یکی از چیز هایی که خیلی اذیتم میکنه این روزها، دیدن فضای بسته آکادمی ایران هستش.
معمولا دانشگاه های ترکیه (حداقل دانشگاه های top ترکیه) با سایر دانشگاه های اروپا یا حتی امریکا، توسط اساتید خودشون تحت عنوان کنفرانس، استاد ها و boardممبر های سازمان های مختلف رو دعوت میکنند و حتی بهترین امکانات رو براشون آماده میکنند که در طول زمان حضورشون تو ترکیه، از بودن تو کشور لذت ببرند.
اما در عوض چه نفعی میبرند؟؟؟؟؟؟؟؟؟؟
شخص مقابل میاد و ارایه میده و به به و چه چه میکنند و بعدش با شخص مقابل چونه میزنند یا به کارهای مشترکی که میتونند تو آینده انجام بدند مشغول به حرف زدن میکنن.
مثلا برای پروژه ERC یا هر نوع پروژه و گرنت های دیگه از شخص مقابل قول مشارکت میگیرند یا قول کانکشن با استاد فلان دانشگاه تو کشور فلان رو میگیرند و حدس بزنید که چی میشه؟
واقعا این مشارکت ها انجام میشه( استاد دانشگاه هوشش میرسه که چجوری برخورد کنه که این مشارکت واقعا رخ بده) و این گرنت ها و مشارکت ها به دانشگاه inject میشه و در حداقل ترین خروجی، دانشجوی grad حداقل حداقل براش یه stipend در میاد یا اون گرنت صرف خرید دستگاه یا هر تکنولوژی لازم روز میشه و اینطوری دانشگاه ها رشد میکنند. دانشجو جذب میکنند. وکار با کیفیت بیرون میدند.

حالا من از سمت دانشگاه های تاپ ایران مثل شریف چی دیدم؟
هیچی
کلا فضایی که تو ایران میبینم یه فضای سمی بسته هستش که مجال نفس کشیدن برای دانشجو های حتی دانشگاه های دیگه هم نمیده مثل تبریز یا هر دانشگاه دیگه ای
در حالی که من مثلا دیگه چی میبینم اینجا؟
اینجا دانشگاه ها بهم کمک میکنند.
طرف خودش دانشگاه ITU هستش
میاد Sabanci تست میزنه چون دستگاهه اینجا هستش
و خب مشخصا استادی که تو سابانجی بهش access داده
affliation
تو ریسرچ رو هم میبره

چقدر اینجا باهم راحتن و بهم حتی دوست دارن نفع برسونند چون اینطوری نگاه میکنند که اگر من الان بهش کمک کنم تو آینده تو یه ریسرچی اون ها هم به من کمک میکنند.


اینم بگم که مهربونی رو اینجا بیشتر دیدم نسبت به ایران.
هیچ وقت یادم نمیره چجوری استاد های دانشگاه تبریز باهام رفتار کردند.
اینجا با اینکه یه ایرانیم
استادم جلوی اون یکی دانشگاه ها طرفم رو نگه میداره! میگه از بچه های خودمون این بشر.
تو ایران به جای اینکه اینطوری نگاه کنند از بچه های خودمونه بزار کمکش کنم رشد کنه، تازه مثل یه دزد با ادم برخورد میکنند.

این حرفام حرف دل بود.
زیاد سیاسیش نکنید.

@css_nlp
Ali's Notes pinned a photo