Сегодня разбираем решения для локальной работы с LLM-ками. Возможно вы задумывались об аналоге ChatGPT у себя в компании, или вам он нужен прямо на домашнем ПК, или как умный помощник для детей.
👉 С новой статьей вы сможете развернуть Ollama локально и в Kubernetes.
Статью написал новый автор Core 24/7, Абдухаликов Асир
Читайте и делитесь с коллегами 🤝
#llm #mlops #ollama #chatgpt
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍4❤3⚡2🎉2
Если хотите не только обучить LLM, но и приручить ее (а выходные для этого само то 😂), мы поможем подобрать инфраструктуру.
Список полезных ресурсов помжет разобраться в настройке, тестировании и оптимизации больших языковых моделей:
• Карточка модели Qwen2.5-32B-Instruct-AWQ на Hugging Face — содержит описание модели, параметры и инструкции по использованию.
• Документация по квантованию: GGUF, AWQ и GPTQ — полезно для понимания методов оптимизации памяти.
• Статья NVIDIA, как оценить требования к VRAM при выборе GPU для инференса.
• Онлайн-калькулятор VRAM LLM Calc — удобный инструмент для расчёта необходимой памяти в зависимости от параметров модели и квантования.
• Ollama — простой инструмент для локального инференса LLM.
• SGLang — фреймворк для ускорения инференса, с открытым кодом.
• VLLM — высокопроизводительный фреймворк для серверного инференса.
• Документация по настройке VLLM Engine Args — подробное описание параметров для оптимизации работы VLLM.
Универсальные инструменты: Locust, k6, Gatling, Apache JMeter, Яндекс.Танк — подходят для тестирования производительности бэкендов.
• Perf Analyzer — утилита для анализа производительности инференса.
• Gen AI Perf — специализированный инструмент для LLM.
• Режимы Gen AI Perf: Analyze и Sessions — помогают анализировать производительность в различных сценариях.
• VLLM Backend — интеграция VLLM с Triton Inference Server.
• TensorRT LLM Backend — бэкенд для ускорения инференса с использованием TensorRT.
• Triton CLI — упрощает импорт конфигураций и запуск инференса на Triton.
• TensorRT LLM Performance Overview — бенчмарки производительности TensorRT LLM от NVIDIA.
• Статья BentoML — сравнение различных бэкендов для инференса LLM.
Эта подборка охватывает все этапы работы с LLM: от выбора модели до тестирования производительности.
Пользуйтесь и делитесь с коллегами
@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥4⚡3👍3❤2