The Debugging Diaries

من تجربه کار با GPUهای مختلف از A100 و A6000 تا RTX4090 و و حتی مدل‌های پایین‌تر مث 3050 رو داشتم و انواع مدل‌ها از Deepseek v3 تا Gemma 1b رو هم با روش‌های مختلف سرو کردم
ولی هیچی برام هیجان انگیز‌تر از سرو مدل روی گوشی همراهم نبود.
دیشب گوگل خیلی چیزا رو معرفی کرد ولی بیشتر از همه مدل‌های Gemma 3n که مخصوص موبایل‌ و دیوایس‌های سبک بود، برام جذابیت داشت.
مولتی مدال ، فوق العاده خوب در فارسی(نسبت به سایز) و در تشخیص تصویر.
البته که که خیلیم سریع نیست.
یسری تست گرفتم که در ادامه باهم ببینیم.

و اگه دوست داشتین راجع استفاده از این مدل‌ها یه پست بذارم با ریکشن هاتون نشون بدین😁

👍5

130 viewsIman Gh, 18:57

سوال : راجع به این تصویر چی میتونی بگی؟

جواب : این پست از Sophia Yang، دکترای علوم کامپیوتر و متخصص هوش مصنوعی، درباره یک مدل متن‌باز جدید به نام "Devstral" است که برای توسعه‌دهندگان کد طراحی شده.

نقاط کلیدی پست عبارتند از:

* آشنایی با Devstral: یک مدل زبان متن‌باز جدید برای توسعه کد.
* توانایی‌های برنامه‌نویسی: حل مشکلات موجود در GitHub و ادغام بی‌نظیر با اسکلت‌های عوامل برنامه‌نویسی (code agent scaffolds).
* عملکرد: عملکرد بهتر از سایر مدل‌های متن‌باز، با حاشیه قابل توجهی.
* انعطاف‌پذیری: قابلیت اجرا بر روی کارت گرافیک RTX 4090 یا مک با حافظه 32 گیگابایت، مناسب برای استقرار محلی و کسب‌وکارها.
* مجوز: استفاده از مجوز Apache 2.0، به معنای متن‌باز بودن و آزاد بودن برای جامعه جهت استفاده و سفارشی‌سازی.
* نمودار عملکرد: نموداری که عملکرد Devstral را با سایر مدل‌های موجود مقایسه می‌کند و نشان می‌دهد که در اندازه‌های مختلف مدل، از عملکرد بهتری برخوردار است.

به طور کلی، این پست یک معرفی هیجان‌انگیز از یک ابزار قدرتمند و متن‌باز برای توسعه دهندگان کد است.

👍3

152 viewsIman Gh, 18:59

The Debugging Diaries

اخیرا گوگل تحت عنوان پلن دانشجویان ویژگی‌های Gimini Pro رو برای 15 ماه رایگان کرده.
برای دریافت ابتدا با آی پی آمریکا (با استفاده از VPN) وارد لینک بشین و صبر کنین عملیات انجام بشه
در صورت فعال نشدن از این لینک وارد بشین و گزینه دریافت رو بزنین
ویژگی‌های نسخه پرو هم شامل موارد زیر هست:
دسترسی بیشتر به مدل پیشرفته ۲.۵ Pro، قابلیت Deep Research و تولید ویدیو با Veo 2
ابزار فیلم‌سازی هوش مصنوعی با Veo 2 برای ساخت صحنه‌ها و داستان‌های سینمایی
محدودیت‌های کمتر برای تبدیل تصویر به ویدیو با Veo 2
دستیار تحقیق و نویسندگی با ۵ برابر Audio Overview بیشتر، دفترچه‌ها و امکانات دیگر در NotebookLM
استفاده مستقیم از Gemini در Gmail، Docs، Vids و غیره
2 ترابایت فضای کلی برای Photos، Drive و Gmail

🔥3

211 viewsIman Gh, 16:17

The Debugging Diaries

خب بریم سراغ راهنمای نصب Gemma 3n برای یدیوایس‌های اندروید:

فایل APK اپلیکیشن Edge Gallery رو از گیت‌هاب دانلود کنید:

https://github.com/google-ai-edge/gallery/releases/tag/1.0.3

برای دانلود مدل دو راه وجود داره یا از داخل نرم افزار مدل رو دانلود کنید یا
یکی از فایل‌های .task رو از سایت Hugging Face دانلود کنید:

https://huggingface.co/collections/google/gemma-3n-preview-682ca41097a31e5ac804d57b

فایل .task رو با زدن دکمه + در پایین سمت راست، داخل اپلیکیشن Edge Gallery وارد کنید.

همچنین می‌تونید مستقیما از داخل برنامه عکس بگیرید و با مدل گفتگو کنید.

GitHub

Release 1.0.3 · google-ai-edge/gallery

Fix some potential memory leak in image capture sheet

👍5

212 viewsIman Gh, 19:19

The Debugging Diaries

🔁 ادامه‌ی بحث Workflowها: معرفی Routing
در این روش، یک ورودی ابتدا طبقه‌بندی میشه و بعدش به یک زنجیره یا مسیر مشخص که از قبل تعیین شده، هدایت می‌شه. این workflow به ما امکان رو می‌ده تا زمینه‌ها را از هم تفکیک کنیم و برای هر نوع ورودی، پرامپت‌های تخصصی‌تری طراحی کنیم. در نبود این ساختار، اگر بخوایم مدل و پرامپت را برای یک نوع خاص از ورودی‌ها بهینه کنیم، ممکنه که این بهینه‌سازی باعث افت کیفیت پاسخ‌ها برای سایر انواع ورودی بشه
📌 چه زمانی از Routing استفاده کنیم؟
در واقع Routing گزینه‌ی مناسبی برای وظایف پیچیده‌ای هست که در اون ورودی‌ها به دسته‌های مشخص و متمایزی تقسیم می‌شن. در این حالت، اگر بتوان ورودی را با دقت کافی طبقه‌بندی کرد—چه با استفاده از یک LLM یا یک مدل/الگوریتم سنتی‌تر—می‌توان برای هر دسته، به صورت جداگانه زنجیره‌ی مناسب را اجرا کرد و عملکرد مدل را بهینه نگه داشت.

181 viewsIman Gh, 19:59

The Debugging Diaries

به‌طور کلی، برای پیاده‌سازی Routing معمولاً از مدلی استفاده می‌شود که توانایی تولید خروجی ساختارمند (Structured Output) را داشته باشد.این ویژگی به ما این امکان را می‌دهد که فرمت خروجی مدل را طوری طراحی کنیم که خروجی‌اش را در قالب یک فایل JSON با ساختار دلخواه ارائه بده.به طور مثال شما از مدل میخواین بپرسین که این تسکی که کاربر به عنوان ورودی تعریف کرده سخته یا آسون و نیاز به توضیح ندارین صرفا میخواین یه json دریافت کنین که به شکل زیر باشه

{
"is_complex":true/false,
"explanation": "this task is complex/simple because of …"
}

این ویژگی تو بسیاری از مدل‌های بروز و تجاری از جمله مدل‌های شرکت OpenAi،Anthropic ،Google و xAi وجود داره و شما باید صرفا نوع Json خروجی رو برای مدل تعریف کنین، برای آشنایی بیشتر توصیه میکنم به این لینک سر بزنین.

Openai

Structured model outputs | OpenAI API

Understand how to ensure model responses follow specific JSON Schema you define.

🔥1

282 viewsIman Gh, 20:00

The Debugging Diaries

🎯ژول (Jules) دستیار توسعه نرم افزار گوگل به صورت رایگان معرفی شد.
چند وقت پیش بود که OpenAi یک عامل کدنویسی به نام Codex برای کدنویسی به صورت اتوماتیک معرفی کرد که البته رایگان نبود حالا گوگل به ورژن رایگان و مشابه اون به نام Jules رو به صورت بتا معرفی کرده
این عامل یک دستیار کدنویسی Agentic و asynchronous و تحت وب هست که برپایه مدل قدرتمند Gemini 2.5 Pro، به‌صورت مستقیم به GitHub متصل می‌شه و کل پروژه رو در ماشین مجازی Google Cloud کلون می‌کنه تا کاملاً پروژه رو بفهمه و کارهای پیچیده‌تری مثل

🔧 رفع باگ(Bug Fixing)
✨ توسعه فیچر جدید(Feature Development)
🧼 بازآرایی کد(Code Refactoring)
🔁 مدیریت وابستگی(Dependency Management)
🧪 تولید تست(Test Generation)
رو به صورت موازی و مستقل انجام بده!

در نهایت هم از تغییرات ، pull request و changelog تولید می‌کنه و پس از تأیید نهایی توسط توسعه‌دهنده‌ اون رو در گیت هابش قرار میده
ماهیت ناهمزمان(asynchronous) اون به توسعه‌دهندگان این امکان رو می‌ده تا چند وظیفه به صورت همزمان به این Agent محول بشه.
برای آشنایی بیشتر با این ویژگی جدید می تونین این ویدیو رو نگاه کنین.

❤3

308 viewsIman Gh, 10:16

The Debugging Diaries

Please open Telegram to view this post

VIEW IN TELEGRAM

❤1

11:54

The Debugging Diaries

259 viewsIman Gh, 11:08

The Debugging Diaries

Photo

برخلاف این 20 روز اخیر که اتفاقات زیادی در کشور افتاد،تو بحث AIها و هوش مصنوعی ایام آرومی رو تجربه کردیم. تنها ابزار به درد بخوری که این ایام معرفی شد، Gemini cli هستش.
این ابزار یک عامل هوش مصنوعی متن‌باز است که دسترسی به Gemini 2.5 pro را مستقیماً در ترمینال شما فراهم می‌کند. قابلیت‌های مختلف از جمله بررسی فولدر یک پروژه، دسترسی به اینترنت و توانایی کار با ترمینال(با اجازه شما) رو داره. از طریق پروتکل mcp هم میشه ابزارهای مختلف بهش اضافه کرد. قبلا هم شرکت‌های Cluade و OpenAi هم ابزار مشابه رو معرفی کرده بودن ولی تمایز اساسی بین Gemini Cli و ابزارهای مشابه رایگان بودن و محدودیت کم استفاده ازش هست، به طوری که 60 درخواست تو دقیقه و 1000 درخواست در روز رو به صورت رایگان در اختیار افراد قرار میده که تقریبا بعیده بشه تو یه روز تمومش کرد. هدف این پست بررسی قابلیت‌های این ابزار نیست و بیشتر توصیه میکنم خودتون راجع بهش جست‌وجو کنین اما طرز استفاده‌اش با توجه به تحریم و اینکه این ابزار تحت ترمینال استفاده میشه، میتونه یخورده چالش داشته باشه. اول اینکه شما باید با استفاده از nodeJs این ابزار رو نصب کنین و باید nodejs که دارین ورژنش از 18 بیشتر باشه. نکته دوم اینکه اگه از پروکسی استفاده میکنین که کل سیستم رو تونل نمیکنه، احتمالا به مشکل میخورین حل این مشکل تو ویندوز از دستور

set http_proxy=http://proxy-server-ip:port
set https_proxy=http://proxy-server-ip:port

و در لینوکس از دستور

export http_proxy="http://proxy-server-ip:port"
export https_proxy="http://proxy-server-ip:port"

مثلا بعد از روشن کردن مثلا v2ray باید بنویسن localhost:10808 و اگه از vpn دیگه استفاده میکنین باید ببنین روی چه پورتی کار میکنه. بعدش میتونین از ابزار خیلی خفن گوگل استفاده کنین.

❤4

331 viewsIman Gh, 11:08

About

Blog

Apps

Platform