KazDevOps

🔥

Ollama в действии: запуск и настройка своего ChatGPT локально и в Kubernetes

Сегодня разбираем решения для локальной работы с LLM-ками. Возможно вы задумывались об аналоге ChatGPT у себя в компании, или вам он нужен прямо на домашнем ПК, или как умный помощник для детей.

👉 С новой статьей вы сможете развернуть Ollama локально и в Kubernetes.

Статью написал новый автор Core 24/7, Абдухаликов Асир

🫡

Читайте и делитесь с коллегами 🤝

#llm #mlops #ollama #chatgpt

@DevOpsKaz

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥15👍4❤3⚡2🎉2

2K views06:59

KazDevOps

🔥

Оптимизация ресурсов для инференса LLM без лишних сложностей

Если хотите не только обучить LLM, но и приручить ее (а выходные для этого само то 😂), мы поможем подобрать инфраструктуру.

Список полезных ресурсов помжет разобраться в настройке, тестировании и оптимизации больших языковых моделей:

⚪️

Модели и их документация

• Карточка модели Qwen2.5-32B-Instruct-AWQ на Hugging Face — содержит описание модели, параметры и инструкции по использованию.
• Документация по квантованию: GGUF, AWQ и GPTQ — полезно для понимания методов оптимизации памяти.

⚪️ Оценка и расчёт ресурсов

• Статья NVIDIA, как оценить требования к VRAM при выборе GPU для инференса.
• Онлайн-калькулятор VRAM LLM Calc — удобный инструмент для расчёта необходимой памяти в зависимости от параметров модели и квантования.

⚪️ Фреймворки для инференса

• Ollama — простой инструмент для локального инференса LLM.
• SGLang — фреймворк для ускорения инференса, с открытым кодом.
• VLLM — высокопроизводительный фреймворк для серверного инференса.
• Документация по настройке VLLM Engine Args — подробное описание параметров для оптимизации работы VLLM.

⚪️ Инструменты нагрузочного тестирования

Универсальные инструменты: Locust, k6, Gatling, Apache JMeter, Яндекс.Танк — подходят для тестирования производительности бэкендов.

⚪️ Инструменты NVIDIA для инференса:

• Perf Analyzer — утилита для анализа производительности инференса.
• Gen AI Perf — специализированный инструмент для LLM.
• Режимы Gen AI Perf: Analyze и Sessions — помогают анализировать производительность в различных сценариях.

⚪️ Бэкенды Triton для LLM

• VLLM Backend — интеграция VLLM с Triton Inference Server.
• TensorRT LLM Backend — бэкенд для ускорения инференса с использованием TensorRT.
• Triton CLI — упрощает импорт конфигураций и запуск инференса на Triton.

⚪️ Бенчмарки и сравнения

• TensorRT LLM Performance Overview — бенчмарки производительности TensorRT LLM от NVIDIA.
• Статья BentoML — сравнение различных бэкендов для инференса LLM.

Эта подборка охватывает все этапы работы с LLM: от выбора модели до тестирования производительности.

Пользуйтесь и делитесь с коллегами 🫡

@DevOpsKaz 😛

Please open Telegram to view this post

VIEW IN TELEGRAM

🔥4⚡3👍3❤2

1.54K views06:59

About

Blog

Apps

Platform