Хабр / ML & AI

Построение инфраструктуры для работы с языковыми моделями: опыт X5 Tech

Привет, Хабр! Я Мичил Егоров, руководитель команды разработки продуктов искусственного интеллекта в X5 Tech. В последнее время языковые модели (LLM) стали неотъемлемой частью многих бизнес-процессов, начиная от чат-ботов и заканчивая автоматической обработкой отзывов клиентов. Однако, чтобы эффективно использовать такие модели, необходима мощная и гибкая инфраструктура.

За последний год команда X5 Tech значительно выросла, проверила множество гипотез и протестировала различные модели. Основные кейсы использования включают чат-боты, суфлёры для модераторов, автоматическое резюмирование и обработку отзывов клиентов. В этой статье расскажу, как команда X5 Tech построила инфраструктуру для работы с языковыми моделями, какие вызовы преодолели и какие решения были приняты.

Читать далее

#llm #с_нуля #построение_инфраструктуры #open_source #закрытые_решения #маскирование_данных #clearml #vllm #логирование #мониторинг | @habr_ai

Хабр

Построение инфраструктуры для работы с языковыми моделями: опыт X5 Tech

Привет, Хабр! Я Мичил Егоров, руководитель команды разработки продуктов искусственного интеллекта в X5 Tech. В последнее время языковые модели (LLM) стали неотъемлемой частью многих...

48 views07:56

Хабр / ML & AI

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Продолжаем пошагово разбираться с ответом на вопрос о том, как эффективно работать с передовыми LLM, используя доступное оборудование и распределённые вычисления.

В первой части статьи мы подготовили всё необходимое для развёртывания распределённого инференса с Ray Serve и vLLM. Сегодня этим и займёмся. Мы напишем скрипт vLLM, используем Ray Serve, чтобы предоставить внешний HTTP API, а также настроим KubeRay Cluster и развернём в нём Gemma 3. Вперёд!

#llm #gpu #ai #ml #vllm #gemma3 #devops | @habr_ai

Хабр

Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Продолжаем разбираться с тем, как можно эффективно работать с большими языковыми моделями, используя доступное оборудование. В этой части мы перейдём к организации распределённого инференса с помощью...

52 views08:32

Хабр / ML & AI

Эффективный инференс множества LoRA адаптеров

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера.

MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели.

В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM. Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу. Читать далее

#multilora #offline_inference #async_inference #vllm #tensorrt_llm #tensorrt #peft #inference #benchmark #lora | @habr_ai

Хабр

Эффективный инференс множества LoRA адаптеров

51 views08:40

Хабр / ML & AI

Будущее ИИ — формальные грамматики

Почему даже самая мощная LLM иногда выдаёт бессмысленные фразы и противоречия? Всё дело в экспоненциальном росте вариантов (N^M) и свободном копировании человеческих ошибок. Читайте статью, чтобы узнать, как мы с помощью формальных грамматик превращаем хаотичную генерацию в управляемый синтез, усиливая роль семантики и соблюдая структурные правила. Читать далее

#формальные_языки #формальные_грамматики #guided_decoding #xgrammar #sql_generator #vllm #формальные_языки_и_грамматики #синтаксис #семантика #llm | @habr_ai

Хабр

Будущее ИИ — формальные грамматики

Человеческий язык — это механизм, который ограничивает бесконечную вариабельность возможных звуков и их последовательностей в строгую систему коммуникации. Фонемы ограничивают сочетания звуков. В...

49 views11:40

Хабр / ML & AI

Где живут LLM: разбираем инференс-кластер YADRO и тестируем его производительность

Привет, Хабр! В этой статье я расскажу про наш LLM инференс-кластер YADRO: зачем он нужен, что у него под капотом и как в такой конфигурации показывают себя популярные модели. Кроме того, я немного порассуждаю об альтернативных реализациях кластера и поделюсь планами по развитию реализации нашей. Читать далее

#llm #vllm #litellm #inference_platform #инференс_моделей #большие_языковые_модели | @habr_ai

Хабр

Где живут LLM: разбираем инференс-кластер YADRO и гоняем в нем модели

Привет, Хабр! В этой статье я расскажу про наш LLM инференс-кластер YADRO : зачем он нужен, что у него под капотом и как в такой конфигурации показывают себя популярные модели. Кроме того, я немного...

48 views09:03

Хабр / ML & AI

GPT-OSS-20B / 120B: Сухие цифры после реальных тестов

GPT-OSS - тесты на реальном железе: производительность моделей 20B и 120B на RTX 4090, RTX 5090 и H100. Реальные метрики TPS, сравнение скорости генерации и практические выводы о том, какую модель выбрать для локального использования. Читать далее

#gpt_oss_20b #gpt_oss_120b #tps_токены_в_секунду #rtx_4090_vs_rtx_5090 #ollama #h100_pcie #llm #локальная_llm #vram_использование #vllm | @habr_ai

Хабр

GPT-OSS-20B / 120B: Сухие цифры после реальных тестов

OpenAI выпустила GPT-OSS модели ( https://huggingface.co/openai/gpt-oss-20b и https://huggingface.co/openai/gpt-oss-120b ) , и сообщество немедленно начало экспериментировать. Но реальные бенчмарки...

62 views10:05

Хабр / ML & AI

GPT-OSS-20B, H100: выжимаем 156 миллиардов токенов в месяц

После релиза GPT-OSS-20B от OpenAI было много новостей, но конкретных бенчмарков с реальными цифрами я так и не нашел.

Решил выжать из модели максимум на H100 PCIe 80GB. Что получилось: до 60K токенов/сек c 91% загрузка GPU. Внутри пишу, как я это сделал по шагам! Читать далее

#gpt_oss_20b #vllm #gpt_oss_20b_benchmark #локальная_llm #vram_использование #llm #h100 #h100_pcie #tps_токены_в_секунду #docker_gpt_oss | @habr_ai

58 views07:45

Хабр / ML & AI

Как мы научили LLM отвечать на вопросы абитуриентов в крупнейшем вузе страны

Академий показал, что LLM-бот может работать в продакшене, а не в демо. RAG, SQL-модуль, собственный бенч и GPU-инфра позволили выдержать десятки тысяч запросов в реальной приёмной кампании.

Для абитуриентов это быстрые и точные ответы 24/7, для вуза — разгрузка комиссии и масштабируемый инструмент. Для нас — платформа, где мы улучшаем подходы к RAG, фильтрации и безопасности в живой среде. Читать далее

#llm_бот #rag #qwen3 #vllm #milvus #langgraph #ранхигс | @habr_ai

Хабр

Как мы научили LLM отвечать на вопросы абитуриентов в крупнейшем вузе страны

Поступление в университет — это всегда стресс. Абитуриенты и их родители засыпают приёмные комиссии тысячами одинаковых вопросов: какие проходные баллы, как правильно заполнить заявление, что делать в...

50 views05:49

About

Blog

Apps

Platform