ISANG AI | از ابزار های هوش مصنوعی تا مباحث فنی
195 subscribers
42 photos
10 videos
1 file
32 links
من حسین محسنی هستم و اینجا توی ISANG AI با هم هوش مصنوعی رو از دو زاویه بررسی می‌کنیم:

🛠 ابزارها و ترفندهای کاربردی: چطور از AI توی کار و زندگی استفاده کنیم؟

🧠 مباحث فنی و علمی: عمیق‌تر بشیم و مدل‌های AI رو بشناسیم!


Me: @mohsenihossein
Download Telegram
استارتاپ فرانسوی Mistral از مدل‌های جدید هوش مصنوعی خود و قابلیت‌های مختلف چت‌بات Le Chat رونمایی کرد. اکنون این چت‌بات بیش‌ازپیش می‌تواند با ChatGPT رقابت کند.

براساس اعلام وب‌سایت Mistral، این شرکت از مدل بزرگ Pixtral Large خود پرده برداشت. این مدل 124 میلیارد پارامتری بر پایه مدل قبلی Mistral Large 2 که تابستان 2024 رونمایی شد و اولین مدل چندوجهی آن، Pixtral 12-B که در سپتامبر منتشر شد، توسعه یافته است.

مدل جدید با پنجره زمینه 128 هزار توکنی می‌تواند تا 30 تصویر با وضوح بالا یا کتابی 300 صفحه‌ای را در هر ورودی هندل کند که تقریباً می‌تواند با مدل‌های جدید OpenAI رقابت داشته باشد. این مدل عملکرد پیشرفته‌ای را در بنچمارک‌های مختلف ازجمله MathVista ،DocVQA و VQAv2 نشان داده است و آن را برای کارهایی مانند تفسیر نمودار، تجزیه‌وتحلیل اسناد و درک تصویر ایده‌آل می‌کند.
Channel name was changed to «ISANG AI | از ابزار های هوش مصنوعی تا مباحث فنی»
چینی‌ها تو #هوش_مصنوعی یه بازی جدید شروع کردن:

این روزا همه جا حرف از DeepSeek R1 هست، یه LLM از استارتاپ DeepSeek که کلی سروصدا به پا کرده.
این مدل نه تنها عملکردش نزدیک به GPT-4o هست، بلکه خیلی هم ارزون‌تر تمام شده! 🤯

خیلی خلاصه ببینیم که ویژگی‌هاش چیاست:

- هزینه آموزش: مدل‌هایی مثل GPT-4o برای آموزششون صدها میلیون دلار هزینه شده، اما R1 فقط با مبلغی نزدیک ۵ میلیون دلار ساخته شده!

- هزینه استنتاج: هر بار استفاده از R1 استفاده می‌کنی، تقریباً ۳۰ برابر ارزون‌تر از GPT-4o درمیاد!

- نوآوری: این استارتاپ با روش‌های ساده‌تر و هوشمندانه‌تر این مدل رو آموزش دادن.

چرا این مهمه؟

- تأثیر روی NVIDIA: این مدل نشون داد که دیگه لازم نیست حتماً از GPUهای گرون‌قیمت استفاده کنی. همین باعث شده سهام NVIDIA افت چشمگیری داشته باشه.

- دسترسی بیشتر: با این کاهش هزینه، حالا شرکت‌های کوچیک‌تر هم می‌تونن از این فناوری‌های پیشرفته استفاده کنن!!

- از طرفی جا داره اشاره کرد وبسایت Deepseek در ایران بدون هیچ پیش نیاز خاصی آزاد و قابل استفاده‌ست.

🧠🛠 | @IsangAI
👍1
مدل استدلالی o3-mini به طور رسمی عرضه شد.

این مدل در دو نسخه با سطح تفکر عادی و high در دسترس قرار می‌گیره که نسخه high برای کاربران اشتراکی خواهد بود.

https://openai.com/index/openai-o3-mini/

🧠🛠 | @IsangAI
👍2
اگر به دنبال راهی برای خلق موسیقی با کیفیت بالا بدون نیاز به دانش تخصصی هستید، Suno.com یک ابزار فوق‌العاده است. این پلتفرم با استفاده از هوش مصنوعی، امکان ساخت آهنگ‌های کامل با اشعار و ملودی‌های متنوع را تنها با وارد کردن توضیحات متنی فراهم می‌کند.

ویژگی‌های برجسته Suno:

تولید موسیقی با کیفیت بالا: با وارد کردن توضیحات متنی، آهنگ‌هایی با کیفیت حرفه‌ای تولید کنید.
تنوع در سبک‌ها و ژانرها: امکان تولید آهنگ در سبک‌ها و ژانرهای مختلف برای هر سلیقه‌ای.
رابط کاربری ساده و کاربرپسند: بدون نیاز به دانش فنی، به راحتی می‌توانید آهنگ‌های خود را ایجاد کنید.
دسترسی رایگان: با ثبت‌نام در سایت، روزانه می‌توانید تا ۱۰ آهنگ به صورت رایگان تولید کنید.

برای شروع، کافی است به Suno.com مراجعه کرده و با وارد کردن توضیحات مورد نظر خود، آهنگ دلخواهتان را بسازید. این ابزار برای هنرمندان حرفه‌ای و علاقه‌مندان به موسیقی که به دنبال راهی سریع و آسان برای خلق آهنگ‌های جدید هستند، بسیار مناسب است.

🧠🛠 | @IsangAI
Forwarded from NLP stuff
مدل‌های استدلالی (reasoning) چیست و چگونه ساخته می‌شوند؟

حتما این روزها بارها مدل‌های استدلالی مثل DeepSeek R1 به گوش و چشمتون خورده. اگر هنوز دقیق نمی‌دونید این مدلها معنیشون چیه و کجا به درد میخورند، بیاید که دواتون پیش آقای سباستین راشکا (نویسنده کتاب Build a Large Language Model From Scratch) هست. ایشون یه بلاگ مشتی راجع به مدل‌های استدلالی (همون reasoning) نوشته و مثل همیشه خیلی خوب داستان را شفاف کرده. این را داشته باشید تا منابع بعدی.

مواردی که در این بلاگ توضیح میده:
- تعریف مدل استدلالی چیه؟
- کجا باید از این مدل‌ها استفاده کنیم؟
- پایپلاین پشت R1 چیه؟
- چهار روش اصلی برای ساختن و بهبود مدلهای استدلالی چیه؟
- نکاتی پیرامون مدل R1
- نکاتی برای توسعه مدل‌های استدلالی با بودجه بسیار کم (حتی به اندازه دانشگاه‌های ایران کم ☺️)

اول میگه استدلال (reasoning) واسه وقتیه که سوالی را حل کنیم که نیاز به راه‌حل پیچیده و چندمرحله‌ای داره. مثلا پایتخت فرانسه کجاست اینجوری نیست ولی مثلا حل یه سوال فیزیک و ریاضی یا سوال acmای اینجوریه.

بعد میاد میگه سه جا خوب نیست اصلا از این مدل‌ها استفاده کنیم:
- وقتی ما نیاز به سرعت و قیمت پایین داریم
- وقتی سوال‌های دانشی (knowledge based) مثل همین پایتخت داریم چون این مدل‌ها دچار هذیان‌گویی میشن
- سوالات ساده چون این مدل‌ها مثل اکثر ما overthink میکنند

در ادامه میاد پایپلاین R1 را به شکل بسیار روان و ساده‌ای توضیح میده. عکس ضمیمه یک کلیتی از این پایپلاینه. میگه deepseek سه تا مدل داده: DeepSeek-R1-Zero، DeepSeek-R1 و DeepSeek-R1-Distill.
اول. با مدل DeepSeek-V3 که سپتامبر بیرون دادن، با یک RL cold start (بدون SFT) شبیه همون RLHF با دو تا reward (یکی دقت و دومی فرمت به جای ترجیح آدمیزاد) آموزش میده؛ و مدل DeepSeek-R1-Zero را درست میکنه. بعد از همین مدل میاد یه داده SFT بزرگ درست میکنه. ریوارد دقت میاد از leetcode استفاده میکنه که نتیجه کد را مستقیما اجرا کنه و بگه!! فرمت هم میاد از یه سری تگ استفاده میکنه که دقیقا با همون فرمت جواب بده.
دوم. بعد دوباره همون مدل زبانی اولیه سپتامبری DeepSeek-V3 را با همین دیتا SFT که در مرحله قبل ساخته شده بود یه بار فاین تیون میکنه و دوباره همون RL رو میزنه. این بار ولی بهش consistency هم اضافه میکنه که مدل سر چند زبانه بودن پنالتی نزنه. از همین مدل دو تا دیتاست SFT میسازه که یکیش با اندازه ۶۰۰ هزارتا chaing of thoughts داره و دیگری با اندازه ۲۰۰هزارتا knowldegeای هستش. بعد میاد یه RL دیگه هم میزنه که دیتاش کد و ریاضی هست. اینجا مدل DeepSeek R1 معروف ساخته میشه.
سوم. از اون دوتا دیتای SFT هم برای آموزش مدل‌های distill استفاده میکنه. البته اینجا distill مثل اون معروفه نیست، اینجا وقتی دیتای sft رو یه مدل قوی درست میکنه و مدل کوچیک (نیم الی ۷۰ میلیاردی) باهاش فاین تیون میشه، بهش میگن distillation.

خلاصه چهار تا روش برای تولید مدل استدلالی میگه:
- روش inference-time scaling: که از پرامپت و اینا استفاده میشه. منابع بیشتری لازمه. گرونتر هم درمیاد چون خیلی حرف میزنه.
- روش RL خالص مثل DeepSeek-R1-Zero
- روش SFT + RL مثل DeepSeek-R1
- روش SFT خالص با distillation: مثل DeepSeek-R1-Distill-Qwen
برای هر کدوم میزان کارایی رو توضیح میده و نهایتا میگه حالت سوم بهترین نتیجه رو میده ولی موارد دیگه هم چیزای جالبی بهمون یاد میده مثل اینکه RL خالی هم به استدلال مدل خیلی کمک میکنه.

در این بلاگ حدس‌های خوبی هم راجع به اینکه O1 و mini-O1 هم چطور آموزش داده شدند میگه که O1 ترکیب سوم و اولیه و o1-mini روش چهارم هست.

در نهایت هم میاد نظراتش رو راجع به R1 vs O1 میگه: در کل شبیه هم هستند ولی R1 بهینه‌تر و ارزانتره که دلیلش رو این میدونه که دیپ‌سیک بیشتر روی آموزش مدل وقت گذاشته ولی o1 روی inference-time رفته. و چون ما اندازه مدل o1 رو نمیدونیم خیلی مقایسه منصفانه‌ای نخواهیم داشت. درباره‌ی هزینه هم میگه این ۶ میلیون دلار که معروف شده ترکیب DeepSeek-R1 (همون سپتامبریه که پایه‌ی R1 هست) و R1 هستش ولی هزینه R1 رو دیپ‌سیک مشخص نکرده.

برای موضوع آخر هم میگه کسایی که پول کم هم دارند خوبه برن سراغ Distillation: به لطف مقاله مفصلی که برای R1 نوشتند مشخص شد که این روش هم خیلی موثره. مثلا میگه مقاله‌ای اومده یه مدل به نام Sky-T1 منتشر کرده که با ۴۵۰ دلار (۴۰ تومن) مدل ۳۲ میلیاردی را با ۱۷ هزارتا دیتای sft یه فاین تیون هدفمند کرده و در مواردی شبیه o1 عمل کرده!! موارد مهمی هم ادامش راجع به Journey Learning میگه که دیگه توی پست جا نمیشه :))

لینک پست:
https://sebastianraschka.com/blog/2025/understanding-reasoning-llms.html

#read
#blog

@nlp_stuff
Forwarded from مرجع دیتاست فارسی (دیتاهابر)
راهنمای کاربردی و ساده برای ساخت چت‌بات به زبان فارسی!

این پروژه شامل یک چت‌بات ساده به زبان فارسی است که با استفاده از الگوریتم‌های پردازش زبان طبیعی (NLP) و مدل‌های ترکیبی نوشته شده است. هدف این پروژه، فراهم آوردن یک مثال عملی و آموزشی جهت پیاده‌سازی چت‌بات‌های زبان فارسی می‌باشد.

این چت‌بات برای پاسخ به سوالات متداول و ارائه اطلاعات ساده در محیط‌های کاربردی مختلف مثل وبسایت‌ها و اپلیکیشن‌ها قابل استفاده است.

با مراجعه به این لینک، می‌توانید به کدمنبع و مستندات پروژه دسترسی پیدا کنید و با استفاده از راهنماهای موجود، چت‌بات خود را بسازید.


📱 GitHub Repo
This media is not supported in your browser
VIEW IN TELEGRAM
هر تصویری رو به یه ویدیوی زنده و واقعی تبدیل کن! 😍

با Kling 1.6، فقط کافیه یه تصویر و یه پرامپت ساده مثل این بنویسی:
*«شخصی به آسمون نگاه می‌کنه، لبخند می‌زنه و دستش رو برای گرفتن بارون دراز می‌کنه.»* 📸➡️🎥

🔥 قابلیت Lip Sync هم داره، پس می‌تونی صدا و حرکت لب رو کاملاً هماهنگ کنی و ویدیوهای حرفه‌ای بسازی.

🚀 وقتشه محتوای متفاوت و خلاقانه تولید کنی و تعامل بیشتری جذب کنی!

https://www.klingai.com/

🧠🛠 | @IsangAI
برای فاین‌تیون مدل‌های دیپ‌سیک نیاز داشتم یه دیتاست با استدلال داشته باشم، ولی دیتای مناسبی پیدا نکردم.

به‌خاطر همین تصمیم گرفتم خودم دیتایی که لازم دارم رو بسازم.

به این ترتیب اولین نسخه از این دیتاست به اسم Persian-Alpaca-Reasoning-v1 آماده شده!


📊 دیتاست شامل چیه؟ 
- بیش از ۲ هزار نمونه از پرسش و پاسخ‌های فارسی همراه با استدلال 
- سه ستون: 
  - instruction: سؤال یا دستور 
  - reasoning: توضیح و استدلال کامل 
  - output: پاسخ نهایی 


🔍 این دیتاست به چه درد می‌خوره؟ 
- فاین‌تیون مدل‌های زبانی فارسی برای تولید پاسخ‌های دقیق‌تر و با استدلال 
- ساخت چت‌بات‌های هوشمند فارسی
- بهبود سیستم‌های پرسش و پاسخ فارسی


🔧 چطور ساختمش؟ 
این دیتاست در واقع دیتاست Persian Alpaca هست.
برای هر پرسش و پاسخ، یه استدلال کامل با مدل J1 از jabirproject.org تولید کردم. بعدش داده‌ها رو بررسی کردم و جواب‌های ناقص یا بی‌ربط رو حذف کردم تا فقط استدلال‌های درست و باکیفیت باقی بمونه. 


این دیتاست هنوز کامل نشده و در نسخه‌های بعدی قراره مقادیرش بیشتر بشه. فعلاً این نسخه رو منتشر کردم تا فیدبک مورد نیازم رو بگیرم و ببینم چه بهبودهایی می‌شه داد. خیلی خوشحال می‌شم نظرتون رو بدونم! 😊

🔗 https://huggingface.co/datasets/hosseinhimself/persian-alpaca-reasoning-v1

🧠🛠 | @IsangAI
👍4
Forwarded from Geek Alerts
شرکت ByteDance، که میشه همون شرکتی که TikTok رو ساخته، مجموعه‌ای از مدل‌های AI به اسم گوکو «Goku» رو معرفی کرده که در واقع مدل متن به ویدیو یا همون ساخت عکس و ویدیو با AI هستن.

نمرات خوبی هم توی بنچمارک‌ها داشته مثلا 0.76 تو GenEval (تولید عکس از متن) و 83.65 تو DPG-Bench (تولید عکس از متن) و 84.85 تو VBench (تولید ویدیو از متن).

از اونجای که گوکو یه مدل اوپن‌سورس هست میشه با بقیه مدل‌های اوپن‌سورس (مثل CogVideoX و Open-Sora-Plan) و پریمیوم‌ها (از جمله DreamMachine، Pika، Vidu و Kling) مقایسه کرد که نتیجه نقطه قوت گوکو رو توی خروجی‌هایی با عناصر هماهنگ نشون میده، در اصل به جزئیاتی متنی که بهش داده میشه دقت بالایی داره.

huggingface
sangjinn
@geekalerts
👍2
❇️ فاین تیون (Fine-Tune) کردن یعنی چی؟ 🤔

فاین‌تیون کردن (Fine-tuning) یعنی آموزش دوباره یک مدل هوش مصنوعی که از قبل آموزش دیده، برای یک وظیفه خاص.
به جای اینکه مدل رو از صفر آموزش بدیم، از دانش قبلی مدل استفاده می‌کنیم و اونو برای نیاز خودمون بهینه‌تر می‌کنیم.

مثلاً یه مدل زبانی داریم که انگلیسی بلده، حالا می‌خواهیم فارسی هم یاد بگیره یا به سؤالات ریاضی بهتر جواب بده. اینجا فاین‌تیون کردن کمک می‌کنه تا با داده‌های جدید و کمتر از حالت عادی، مدل رو برای هدف خاصمون آماده کنیم.

✳️ به زبون خیلییییییی ساده:
فاین‌تیون کردن مثل این می‌مونه که یه آشپز حرفه‌ای رو که غذاهای مختلف بلده، فقط برای درست کردن یه نوع غذای خاص مثل قرمه‌سبزی آموزش بدیم! 🍛😋

🧠🛠 | @IsangAI
🔥2👏1🤩1
ISANG AI | از ابزار های هوش مصنوعی تا مباحث فنی pinned «برای فاین‌تیون مدل‌های دیپ‌سیک نیاز داشتم یه دیتاست با استدلال داشته باشم، ولی دیتای مناسبی پیدا نکردم. به‌خاطر همین تصمیم گرفتم خودم دیتایی که لازم دارم رو بسازم. به این ترتیب اولین نسخه از این دیتاست به اسم Persian-Alpaca-Reasoning-v1 آماده شده! 📊»