Software Engineer Labdon
601 subscribers
43 photos
4 videos
2 files
757 links
👑 Software Labdon

حمایت مالی:
https://www.coffeete.ir/mrbardia72

ادمین:
@mrbardia72
Download Telegram
🔵 عنوان مقاله
Automating LLM Apps Quality: A Survey of Open-Source Evaluation Tools for CI/CD

🟢 خلاصه مقاله:
** این مقاله به‌قلم Tarek Oraby فهرستی کاربردی از ابزارهای متن‌باز برای ارزیابی LLM و خودکارسازی تضمین کیفیت در CI/CD ارائه می‌کند. ابزارها طیفی از نیازها را پوشش می‌دهند: آزمون واحد برای پرامپت و زنجیره، ارزیابی مبتنی‌بر داده و متریک، بازبینی انسانی، گاردریل‌ها و سیاست‌های ایمنی، تولید داده و تست‌های مصنوعی، و مانیتورینگ پس از استقرار. سنجه‌های کلیدی شامل درستی و وفاداری (به‌ویژه در RAG)، ایمنی و سوگیری، پایداری و رگرسیون، و همچنین تأخیر و هزینه است. راهکارهای ادغام با CI/CD شامل تعریف آستانه قبولی/رد، اجرای تست‌ها در هر PR، نسخه‌بندی پرامپت/داده، مقایسه نتایج بین اجراها و گزارش‌دهی خودکار در PRهاست و می‌تواند با GitHub Actions، GitLab CI یا Jenkins پیاده شود. پیشنهاد عملی شروع کوچک با تست‌های طلایی، افزودن تست‌های رگرسیونی برای پرامپت‌های حساس و فعال‌سازی گاردریل‌هاست تا به‌تدریج پوشش و پایداری کیفیت افزایش یابد.

#LLM #CICD #MLOps #OpenSource #AIEvaluation #PromptTesting #QualityAssurance #AISafety

🟣لینک مقاله:
https://cur.at/BRLtRlT?m=web


👑 @software_Labdon
1