KazDevOps
5.37K subscribers
1.15K photos
25 videos
18 files
1.17K links
Канал о DevOps во всех проявлениях: K8s, CI/CD, AppSec, AI/ML, Cloud, Linux
Поможем с DevOps: https://core247.kz/
По рекламе @UlKonovalova
Download Telegram
🔥 Ollama в действии: запуск и настройка своего ChatGPT локально и в Kubernetes

Сегодня разбираем решения для локальной работы с LLM-ками. Возможно вы задумывались об аналоге ChatGPT у себя в компании, или вам он нужен прямо на домашнем ПК, или как умный помощник для детей.

👉 С новой статьей вы сможете развернуть Ollama локально и в Kubernetes.

Статью написал новый автор Core 24/7, Абдухаликов Асир 🫡

Читайте и делитесь с коллегами 🤝

#llm #mlops #ollama #chatgpt

@DevOpsKaz
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥15👍432🎉2
🔥 Оптимизация ресурсов для инференса LLM без лишних сложностей

Если хотите не только обучить LLM, но и приручить ее (а выходные для этого само то 😂), мы поможем подобрать инфраструктуру.

Список полезных ресурсов помжет разобраться в настройке, тестировании и оптимизации больших языковых моделей:

⚪️ Модели и их документация

Карточка модели Qwen2.5-32B-Instruct-AWQ на Hugging Face — содержит описание модели, параметры и инструкции по использованию.
• Документация по квантованию: GGUF, AWQ и GPTQ — полезно для понимания методов оптимизации памяти.

⚪️ Оценка и расчёт ресурсов

• Статья NVIDIA, как оценить требования к VRAM при выборе GPU для инференса.
• Онлайн-калькулятор VRAM LLM Calc — удобный инструмент для расчёта необходимой памяти в зависимости от параметров модели и квантования.

⚪️ Фреймворки для инференса

Ollama — простой инструмент для локального инференса LLM.
SGLang — фреймворк для ускорения инференса, с открытым кодом.
VLLM — высокопроизводительный фреймворк для серверного инференса.
• Документация по настройке VLLM Engine Args — подробное описание параметров для оптимизации работы VLLM.

⚪️ Инструменты нагрузочного тестирования

Универсальные инструменты: Locust, k6, Gatling, Apache JMeter, Яндекс.Танк — подходят для тестирования производительности бэкендов.

⚪️ Инструменты NVIDIA для инференса:

Perf Analyzer — утилита для анализа производительности инференса.
Gen AI Perf — специализированный инструмент для LLM.
• Режимы Gen AI Perf: Analyze и Sessions — помогают анализировать производительность в различных сценариях.

⚪️ Бэкенды Triton для LLM

VLLM Backend — интеграция VLLM с Triton Inference Server.
TensorRT LLM Backend — бэкенд для ускорения инференса с использованием TensorRT.
Triton CLI — упрощает импорт конфигураций и запуск инференса на Triton.

⚪️ Бенчмарки и сравнения

TensorRT LLM Performance Overview — бенчмарки производительности TensorRT LLM от NVIDIA.
• Статья BentoML — сравнение различных бэкендов для инференса LLM.

Эта подборка охватывает все этапы работы с LLM: от выбора модели до тестирования производительности.


Пользуйтесь и делитесь с коллегами 🫡

@DevOpsKaz 😛
Please open Telegram to view this post
VIEW IN TELEGRAM
🔥43👍32