دیتاهاب
2.11K subscribers
184 photos
35 videos
125 files
318 links
موضوعات کانال:

Data Science
Machine Learning
Deep Learning
NLP

گروه تلگرامی ⬅️ @data_jobs
دیتاست ⬅️ @persian_data
ادمین ⬅️ @data_hub
Download Telegram
توی دنیای مدل‌های زبانی که قدم گذاشتیم، یکی از مهم‌ترین نکات، یادگیری شیوه تعامل با این مدل‌هاست. یعنی هرچقدر بهتر باهاشون صحبت کنیم، جواب بهتری دریافت می‌کنیم.

مثلاً فرض کنید می‌خواید از یه مدل زبانی کمک بگیرید برای نوشتن یه ایمیل کاری. اگه بگید: "یه ایمیل بنویس"، ممکنه چیز خوبی دریافت نکنید. ولی اگه بگید: "یه ایمیل رسمی برای درخواست مرخصی بنویس که شامل دلیل، تاریخ شروع و پایان مرخصی باشه"، خروجی خیلی بهتری می‌گیرید.

شیوه صحبت با مدل زبانی چیه؟ بله، درست حدس زدید... پرامپت نویسی.

یه منبع مفیدی پیدا کردم که به خوبی و با مثال می‌آد و از ساده‌ترین روش‌های پرامپت نویسی تا جدیدترین‌هاش را بیان می‌کنه. با دانستن همین نکاتی که شاید یک ساعت هم زمان نبره که کامل بخونینش، شاهد تأثیرات خیلی چشم‌گیری می‌شین توی خروجی مدل‌های زبانی.

لینک مطلب:
https://www.promptingguide.ai

واقعاً ارزش مطالعه داره و می‌تونه کیفیت کارتون با مدل‌های زبانی رو به شکل قابل توجهی بهبود بده.
👍41
یه ابزار فوق‌العاده کاربردی پیدا کردیم که خصوصاً برای کسانی که مهارت برنامه‌نویسی بالایی ندارن، خیلی می تونه مفید باشه.

همیشه داده لازم داریم، چه برای مقاله دانشگاهی‌مون چه برای پروژه شرکتی و هر کار دیگه توی دنیای علم داده. اصلاً بدون داده مگه میشه کاری کرد؟

ولی استخراج داده از وبسایت‌ها یا در اصطلاح کرالینگ، گاهی به شدت پیچیده است و نیاز به دانش تخصصی HTML و کتابخانه‌هایی مثل BeautifulSoup یا Scrapy داره و گاها واقعاً حوصله سر بر میشه.

مثلاً فرض کنید می‌خواید از یک سایت خبری، تمام اخبار مربوط به یک موضوع خاص را جمع‌آوری کنید. روش سنتی این بود که باید کدهای پیچیده‌ای بنویسید، با ساختار HTML آشنا باشید و برای هر تغییر کوچک در سایت، دوباره کدتون را بازنویسی کنید. این خیلی بده که هر بار که سایت تغییر کنه، کد شما باید بروز بشه.

اما حالا یک ابزار جدید به نام FireCrawl این کار را کاملاً ساده کرده. این ابزار به شما امکان می‌ده فقط با نوشتن یک پرامپت، داده‌های مورد نظرتون را از هر وبسایتی استخراج کنید. بدون هیچ کدنویسی.

روش کار خیلی ساده است: شما فقط کافیه لیست URLهای مورد نظر را به FireCrawl بدید و در یک پرامپت توضیح بدید که دقیقاً چه اطلاعاتی را می‌خواید. سپس ابزار خودش عمل crawling را انجام داده و داده‌های مرتب و ساختار یافته را برای شما آماده می‌کنه.

به عنوان مثال، اگر بخواید از یک سایت خبری تیتر، تاریخ انتشار و نویسنده را استخراج کنید، کافیه در پرامپت بنویسید:
"از این صفحه تیتر خبر، نام نویسنده و تاریخ انتشارش را استخراج کن."

FireCrawl بدون نیاز به نوشتن حتی یک خط کد، عمل استخراج را انجام داده و نتایج را به صورت مرتب و قابل استفاده در اختیار شما قرار می‌ده.

https://www.firecrawl.dev
8👍2
🎯 چرا ۸۰٪ آدم‌ها توی data science گم می‌شن؟

خب رفقا!

دیروز با یکی از دوستان صحبت می‌کردم که گفت: "۸ ماهه دارم مطالعه می‌کنم ولی هنوز نمی‌دونم از کجا شروع کنم! یه روز Python، یه روز SQL، یه روز Machine Learning... کلاً گیج شدم!"

این حس رو می‌شناسید؟

واقعاً دنیای داده شلوغه. هر روز یه ابزار جدید، یه roadmap جدید، یه دوره جدید! وسط این همه، آدم سردرگم میشه و نمی‌دونه کدوم مسیر درسته.

مشکل اصلی چیه؟
نمی‌دونیم شرکت‌ها واقعاً دنبال چی هستن. یکی میگه Python یاد بگیر، یکی میگه Tableau، یکی میگه Deep Learning!

ما توی دیتاهاب یه وبینار ۹۰ دقیقه‌ای طراحی کردیم که:

رمزگشایی آگهی‌های شغلی - بازار کار واقعاً چی می‌خواد؟
ابزارهای پولساز و نقشه راه یادگیری‌شون
تشخیص منابع خوب از محتوای بی‌کیفیت
راز Fast Learner بودن توی این دنیای پویا

این وبینار از صفر شروع میشه. حتی اگه هیچ پیش‌زمینه‌ای نداری، کاملاً مفیده!

نکته خوب:
یه طرح بورسیه ۱۰۰٪ بدون قرعه‌کشی داریم برای آدم‌های عملگرا! فقط کافیه پوستر وبینار رو share کنی و ما رو تگ کنی.

چطور؟ همه جزئیات اینجاست:
https://zaya.io/f1bss
5👍1🔥1
تو دنیای اپلیکیشن‌های هوش مصنوعی روی اندروید، یه تغییر جالب و غیرمنتظره داریم که شاید خیلی‌ها متوجهش نشدن.

تا همین یکی دو ماه پیش، هرکی دنبال یه اپ هوش مصنوعی واسه گوشی اندرویدی بود، مستقیم می‌رفت سراغ ChatGPT. اما تو اردیبهشت یه اتفاق جالب افتاد که طبق آمار Similarweb، تو ماه می، Gemini از نظر تعداد نصب از ChatGPT جلو زد.

این اتفاق نه شانسی بود نه اتفاقی، پشتش یه استراتژی حساب‌شده بود که گوگل پیاده کرد.

اول، Gemini نسخه ۲.۵ رو منتشر کرد که خیلی هوشمندتر شده بود و می‌تونست متن‌های طولانی رو راحت‌تر بفهمه و یادش بمونه. بعد، قابلیت Gemini Live اضافه شد که می‌تونستی صفحه یا دوربین گوشیتو share کنی و هم‌زمان ازش کمک بگیری.

بعدتر، رفت تو Android Auto که یعنی توی ۲۵۰ میلیون ماشین، بدون هیچ نصب اضافه‌ای می‌تونی باهاش حرف بزنی و کارت رو راه بندازی. آخر سر هم حالت Agent Mode معرفی شد که فقط باهات حرف نمی‌زنه، خودش می‌تونه یه‌سری کار رو انجام بده.

حالا ChatGPT تو این مدت چی کار کرد؟ آپدیت‌هایی مثل یادداشت صوتی و حالت آفلاین داد. خب، بد نبودن، ولی چیزی نبود که بگی واو!

یجورایی، الان دیگه Gemini فقط یه اپ نیست و داره یه بخشی از خود اندروید میشه. و این یعنی رقابت، جدی‌تر از همیشه‌ست.

و فعلا انگار OpenAI یکم از کورس عقب افتاده در صورتی که اگر خاطرتون باشه یکی دو سال اول، کامل گوگل عقب افتاده بود ولی خیلی عالی خودش رسوند. البته این نکته هم مهم هست که OpenAI حساب ویژه ای روی GPT5 باز کرده و احتمالا قراره تا یکی دو ماه آینده آتیش بازی بزرگی در پیش داشته باشیم.
👍8
رقیب اپن سورس و فول امکانات واسه n8n

حالا ممکنه بپرسید تفاوت Sim Studio با n8n چیه؟ هر دو پلتفرم برای ساخت و اتوماسیون ورک‌فلو هستن، اما برای نیازهای متفاوتی طراحی شدن. n8n یه ابزار عمومی برای اتوماسیون ورک‌فلو هست، در حالی که Sim Studio روی ساخت و اجرای ایجنت‌های هوش مصنوعی تمرکز داره.

پلتفرم n8n توی اتوماسیون کارها بین اپلیکیشن‌های مختلف عالیه، اما Sim Studio فرآیند ساخت ایجنت‌های هوشمند که می‌تونن فکر کنن و با محیط‌شون تعامل داشته باشن رو ساده می‌کنه.

اگه یه پلتفرم اتوماسیون همه‌کاره برای طیف وسیعی از کارها می‌خواید، n8n رو انتخاب کنید. اما اگه می‌خواید ایجنت‌های هوش مصنوعی رو سریع و راحت بسازید و اجرا کنید، Sim Studio بهتره.

لینک گیت‌هاب:
github.com/simstudioai/sim
👍4
Media is too big
VIEW IN TELEGRAM
خب رفقا!

خیلی‌ها ازمون پرسیدن که این وبینار دقیقاً چی قراره باشه و چطور می‌تونه توی مسیر data science کمک‌شون کنه.

مهندس مبشری ( که بچه های دیتاهاب اون با دوره های جبرخطی میشناسن ) ، مواردی که میخوان توی این کارگاه آموزشی براتون بگن رو معرفی کردن

تجربه شخصی:
خودم وقتی شروع کردم، کلی وقت تلف کردم روی چیزایی که بازار کار اصلاً نمی‌خواست! این ویدئو دقیقاً همون نکاتیه که کاش اون موقع می‌دونستم.

نکته مهم:
اگه هنوز مطمئن نیستید این وبینار برای شما مناسبه یا نه، حتماً این ویدئو رو ببینید. خیلی چیزا روشن میشه!

یادتون باشه:
طرح بورسیه ۱۰۰٪ بدون قرعه‌کشی هنوز فعاله. فقط کافیه پوستر رو share کنید و ما رو تگ کنید.

جزئیات کامل + ثبت‌نام:
https://zaya.io/f1bss

اگه سوالی داشتید ازمون بپرسید👇🏻
2
🚨 چطوری هوش مصنوعی داره شغل‌ها رو از دست ما انسان ها می‌گیره؟

خب رفقا!

دیروز یه مدل تحلیلی خفن دیدم که نشون می‌ده هوش مصنوعی چطور یه حوزه رو کامل فتح می‌کنه. شطرنج بهترین مثالشه که کامل این مسیر رو طی کرده.

مرحله اول: کنترل کامل انسانی
برای قرن‌ها، شطرنج فقط بازی انسان‌ها بود. استراتژی، تاکتیک، حتی اشتباهات - همه چیز انسانی.

مرحله دوم: موتورهای ساده
اولین موتورها مثل Minimax اومدن. حتی Deep Blue که کاسپاروف رو برد، همین منطق بود - فقط قدرت محاسباتی بیشتر.

مرحله سوم: فاز سانتور (همکاری)
اینجا قضیه جالب شد! برای مدتی، بهترین ترکیب، انسان + کامپیوتر بود. این همکاری از هر دو به صورت جداگانه قوی‌تر بود.

مرحله چهارم: استقلال کامل AI
با AlphaZero همه چیز عوض شد. حتی استراتژی‌هایی ابداع کرد که برای انسان‌ها کاملاً ناشناخته بود!

حالا سوال اصلی: مهندسی نرم‌افزار کجاست؟
الان دقیقاً توی فاز سانتور هستیم. GitHub Copilot، ChatGPT برای کدنویسی... بدون این ابزارها نمی‌تونیم کارمون رو با همون کیفیت انجام بدیم.

اما مرحله بعد چی؟
آیا هوش مصنوعی روزی می‌تونه کامل مستقل کد بنویسه، باگ رفع کنه، و حتی خودش رو بهبود بده؟
👍32🔥1
واقعیت تلخ:
کسانی که الان آماده نشن، توی موج بعدی از دست می‌رن!

راه نجات؟
باید یاد بگیریم چطور با هوش مصنوعی همکاری کنیم، نه اینکه ازش بترسیم.

خبر خوب:
ما توی دیتاهاب وبیناری طراحی کردیم که نقشه راه واقعی تبدیل شدن به تحلیلگر داده حرفه‌ای رو نشون می‌ده - اونی که شرکت‌ها برای استخدامش رقابت می‌کنن.

بورسیه ۱۰۰٪ بدون قرعه‌کشی:
فقط کافیه پوستر وبینار رو توی شبکه‌های اجتماعیت share کنی و ما رو تگ کنی. همین!

جزئیات کامل:
https://zaya.io/f1bss
👍41😁1
سلام مجدد، این روزها داشتم به یک موضوع جالب فکر می‌کردم 🤔
یکی از چیزهایی که خیلی توجهم رو جلب کرده، اینه که شرکت‌های بزرگ تک چقدر دارن روی بخش hardware و chip های مختص هوش مصنوعی سرمایه گذاری می‌کنند
من مطمئنم تا دو سال دیگه، همین لپ تاپ‌های متوسط ما قابلیت اجرای مدل‌های پیچیده رو خواهند داشت
یعنی دیگه نیازی نباشه که API گرون قیمت بخریم یا دسترسی آنچنانی به اینترنت داشته باشیم
تمام محاسبات روی دستگاه خودمون انجام بشه
این یعنی چی؟
یعنی کسب‌وکارهای کوچک هم میتونن از قدرت AI بهره ببرن بدون اینکه ماهی صدها دلار API cost پرداخت کنن
و از نظر privacy هم چیز فوق‌العاده‌ای میشه
چون دیگه داده‌هامون به سرورهای خارجی ارسال نمیشه
👍92
#خبر_داغ
ماکروسافت همین چند وقت پیش اعلام کردش که قراره Copilot رو عمیق‌تر توی Office Suite ادغام کنه
منظورش اینه که دیگه فقط Word و Excel نیست
بلکه تمام workflow کاری را قراره تغییر بده
پیش خودتون یک لحظه تصور کنید Outlook خودکار ایمیل‌هاتون رو طبقه‌بندی کنه، پاسخ‌های مناسب پیشنهاد بده، حتی جلسات رو براساس محتوای ایمیل‌ها تنظیم کنه

پاورپوینت که خودش presentation بسازه فقط با دادن چند کلید واژه
یا Teams که خلاصه جلسات رو به صورت خودکار استخراج کنه و action item ها رو تشخیص بده

سوال مهم ولی اینجاست: آیا این یعنی کارمندان اداری کمتری نیاز خواهیم داشت؟ وضعیت کارمندای ایرانی چی میشه؟ دیگه می تونن بگن برو سیستم قطعه😂 یا سرم شلوغه و بعدا بیا
شاید الان یکم دور از دسترس باشه ولی کارمند با تعریف امروزی به تاریخ خواهد پیوست.
👍9😁31
امروز داشتم یک paper می خوندم که ذهنم رو به هم ریخت 🤯
محققای دانشگاه Stanford نشون دادن که میشه مدل‌های زبانی رو طوری تیون کرد که حافظه‌شون selective باشه
یعنی بتونی بگی این اطلاعات رو یادت نره، اون یکی رو فراموش کن
این یعنی چی؟
یعنی میتونیم AI هایی داشته باشیم که مثلاً همه چیز درباره پزشکی میدونن ولی هیچی از ساخت سلاح نمیدونن
یا مدل‌هایی که expertise توی coding دارن ولی اطلاعات حساس امنیتی ندارن

به نظرم (حالا نکه نظرم خیلی مهمه😂) این یکی از مهم‌ترین breakthrough های اخیر هست
چون مسئله کنترل و safety رو تا حد زیادی حل می‌کنه که واقعا چالش سیاست گذارهای امروزی هستش، تا دلتون بخواد قراره قانون تعریف کنن که جلوی رشد بی رویه هوش مصنوعی بگیره.
البته هنوز خیلی ابتدایی و در مرحال آزمایشی و تحقیقاتی هست و نیاز به تست‌های بیشتری داره
ولی اگر عملی بشه، کاملاً game changer میشه
🔥10👍4
این مدت یک چیز عجیب متوجه شدم 😐
توی کامیونیتی‌های مختلف AI، بحث‌های زیادی درباره "AI safety" و "alignment" هست
ولی خیلی کم کسی درباره مسائل اجتماعی و اقتصادی این تحولات صحبت می‌کنه
مثلاً وقتی می‌گیم تا ۵ سال دیگه AI جایگزین انسان توی کلی کار میشه، خب بعدش چی؟
میلیون‌ها نفر بیکار میشن؟
یا اینکه جامعه باید ساختارش رو کاملاً عوض کنه؟
حس می‌کنم همه فقط روی جنبه تکنیکی تمرکز دارن
ولی کسی نمی‌گه اگر ۷۰ درصد مشاغل فعلی از بین برن، قراره اون نیروها کجا مشغول بشن
چون تغییرات خیلی سریع‌تر از چیزی که فکر می‌کنیم در راهه
👍5
تو این مدت که داشتم با مدل‌های مختلف کار می‌کردم، متوجه شدم که خیلی‌شون توی زبان فارسی ضعف جدی دارن
نه فقط از نظر grammar، بلکه از نظر درک context فرهنگی
مثلاً وقتی ازشون می‌پرسی درباره شعر حافظ، یا مسائل اجتماعی ایران، یا حتی غذاهای محلی
جواب‌هاشون خیلی generic و بی‌روحه انگار که واقعا از حفظ داره یک چیزایی میگه

این یعنی چی؟
یعنی هنوز فرصت زیادی هست که روی fine-tuning مدل‌ها برای زبان و فرهنگ فارسی کار کنیم
شاید بتونیم مدل‌هایی بسازیم که واقعاً متوجه ما باشن
نه اینکه فقط ترجمه کننده باشن
فکر می‌کنم این میتونه یک حوزه کاری خوب باشه برای کسانی که می‌خوان توی AI کار کنن
7
گزارش‌های اخیر نشون میده که OpenAI قراره تا پایان سال جاری، ChatGPT رو به صورت رایگان برای تمام دانش‌آموزان دبیرستانی آمریکا در دسترس قرار بده.

پ.ن: مقایسه کنید با وضعیت خودمون و ... جدی گریه آوره که چقدر توی تکنولوژی عقب هستیم و هر روز داره فاصله مون از جهان بیشتر میشه
11👍4😁1
یک پروژه با RAG پیاده‌سازی می‌کردم
و متوجه شدم چرا همه این قدر روی vector database ها مانور میدن
یک knowledge base ساده از ۵۰۰ تا PDF ساختم، Embedding ازشون گرفتم و توی ChromaDB ریختم
حالا هر سوالی بپرسم، دقیقاً از همون PDF مربوطه جواب میده
یعنی عملاً می‌تونم یک chatbot متخصص بسازم که روی داده‌های خودم کار کنه
نه اینکه بره ChatGPT عمومی استفاده کنم که نصف حرفاش اشتباهه😎
مشکل اینجاس که embedding quality خیلی مهمه
اگه sentence transformer ضعیفی استفاده کنی، کل سیستم می‌ره تو فاز هذیون‌گویی
و chunk size هم باید دقیق تنظیم کنی وگرنه context گم میشه
👍96
تعداد «متخصص هوش مصنوعی»ها توی ایران داره از تعداد «متخصص کرونا»ی سال ۱۴۰۰ هم بیشتر میشه!

یک زمانی یک شوخی رایج بود که توی ایران به ازای هر شنونده، 5تا خواننده پاپ هست. الان باید بگیم به ازای هر دانشجو کامپیوتر، 10تا مدرس و متخصص هوش مصنوعی
😁14👍6
رفقا یه حرف مهم بهتون میگم
بازار کار حساسه و بی‌رحمه
یک عمر مهارت یاد می‌گیری ولی به خاطر یه تغییر تکنولوژیکی همه چیز از بین میره (همیشه HTML و CSS کار می‌کردی ولی یهو همه چی شد React)
کسب و کار هم همینطوره
یک اشتباه ممکنه کل اعتبارت رو نابود کنه (همیشه پروژه‌هات به موقع تحویل می‌دادی ولی یه بار دیر کردی)
پس مراقب باش و از این فکر خطرناک فاصله بگیر:
"فقط یه باره" یا "من که همیشه به‌روز بودم، حالا این یک بار که پشت تکنولوژی نمونم، چیزی نمیشه"
هوش مصنوعی اومده، چه بخوای چه نخوای، حالا تصمیم با خودته
👍161
This media is not supported in your browser
VIEW IN TELEGRAM
یک حرف مهم هستش که در قالب یک تجربه مطرح بشه بهتره

اون حرف هم اینه:
"AI Agents are 90% engineering, 10% AI."

و خب اصل داستان:

چند روز پیش داشتم یک ویدیو توی یوتیوب در مورد AI Agent می دیدم و متوجه شدم چرا همه میگن ۹۰ درصدش engineering هست
مدل زبانی که فقط ۱۰ درصد کل ماجراس، مثل مغز آدم
ولی بقیه سیستم چی؟ اون بدن، سیستم عصبی، تنفس و قلب که نگهش می‌داره کجان؟
این نگاه که یک API call به GPT و یکم prompt engineering کافیه، خب لزوما درست نیست


باید database برای memory بسازی تا بتونه چیزایی که یاد گرفته رو یادش بمونه
باید infrastructure بچینی که بتونه scale کنه و crash نکنه
باید observability پیاده‌سازی کنی تا بدونی کجا گیر داده
باید security لحاظ کنی تا کسی hack نکنه
باید orchestration بنویسی تا بتونه با چندتا model مختلف کار کنه
یعنی اگه فکر می‌کنی AI Agent یعنی ChatGPT + prompt، خیلی ساده‌انگارانه فکر می‌کنی

پس
اصل کار توی اون ۹۰ درصد engineering هست
👍82
این روزا و از سر کنجکاوی ذهنم درگیر Fine-tuning مدل‌های کوچیکه
دیدم می‌شه یک Llama 7B رو روی dataset خودمون tune کرد که عملکرد بهتری نسبت به GPT-4 داشته باشه
البته برای domain specific tasks
من یک dataset از ۱۰ هزار sample سوال و جواب پزشکی جمع کردم، با LoRA fine-tune کردم
نتیجه‌ش جالب بود، توی medical queries دقت ۸۵ درصدی داشت
در حالی که GPT-4 حدود ۷۲ درصد می‌زد
نکته مهم اینه که GPU requirement خیلی کمتره
با یک RTX 4090 می‌شه fine-tune کرد
ولی data preparation اصل ماجراس، اگه quality dataset نداشته باشی، هر چی train کنی بی‌فایده‌س
8👍4