Хабр / ML & AI
483 subscribers
5.48K links
Telegram-канал, где вы можете найти публикации из RSS-фидов тематических хабов "Машинное обучение" и "Искусственный интеллект" портала Хабр.

Данный канал не является официальным представительством платформы Хабр.

Администратор - @evilfreelancer
Download Telegram
Построение инфраструктуры для работы с языковыми моделями: опыт X5 Tech

Привет, Хабр! Я Мичил Егоров, руководитель команды разработки продуктов искусственного интеллекта в X5 Tech. В последнее время языковые модели (LLM) стали неотъемлемой частью многих бизнес-процессов, начиная от чат-ботов и заканчивая автоматической обработкой отзывов клиентов. Однако, чтобы эффективно использовать такие модели, необходима мощная и гибкая инфраструктура. 

За последний год команда X5 Tech значительно выросла, проверила множество гипотез и протестировала различные модели. Основные кейсы использования включают чат-боты, суфлёры для модераторов, автоматическое резюмирование и обработку отзывов клиентов. В этой статье расскажу, как команда X5 Tech построила инфраструктуру для работы с языковыми моделями, какие вызовы преодолели и какие решения были приняты.

Читать далее

#llm #с_нуля #построение_инфраструктуры #open_source #закрытые_решения #маскирование_данных #clearml #vllm #логирование #мониторинг | @habr_ai
Распределённый инференс и шардирование LLM. Часть 2: скрипт vLLM, Ray Serve для вывода API и настройка KubeRay Cluster

Продолжаем пошагово разбираться с ответом на вопрос о том, как эффективно работать с передовыми LLM, используя доступное оборудование и распределённые вычисления. 

В первой части статьи мы подготовили всё необходимое для развёртывания распределённого инференса с Ray Serve и vLLM. Сегодня этим и займёмся. Мы напишем скрипт vLLM, используем Ray Serve, чтобы предоставить внешний HTTP API, а также настроим KubeRay Cluster и развернём в нём Gemma 3. Вперёд!

#llm #gpu #ai #ml #vllm #gemma3 #devops | @habr_ai
Эффективный инференс множества LoRA адаптеров

LoRA — популярный метод дообучения больших моделей на небольших датасетах, однако на этапе инференса низкоранговые адаптеры работают неэффективно, а их объединение с весами требует хранения отдельной полной копии модели для каждого адаптера.

MultiLoRA решает эту проблему, позволяя одновременно выполнять инференс с несколькими адаптерами на основе одной базовой модели.

В статье мы сравним производительность MultiLoRA-инференса в двух популярных фреймворках — vLLM и TensorRT-LLM. Тесты проведём на готовых релизных Docker-образах, оценивая, какой фреймворк эффективнее обрабатывает батчи запросов в сценариях, близких к офлайн и асинхронному инференсу. Читать далее

#multilora #offline_inference #async_inference #vllm #tensorrt_llm #tensorrt #peft #inference #benchmark #lora | @habr_ai
Будущее ИИ — формальные грамматики

Почему даже самая мощная LLM иногда выдаёт бессмысленные фразы и противоречия? Всё дело в экспоненциальном росте вариантов (N^M) и свободном копировании человеческих ошибок. Читайте статью, чтобы узнать, как мы с помощью формальных грамматик превращаем хаотичную генерацию в управляемый синтез, усиливая роль семантики и соблюдая структурные правила. Читать далее

#формальные_языки #формальные_грамматики #guided_decoding #xgrammar #sql_generator #vllm #формальные_языки_и_грамматики #синтаксис #семантика #llm | @habr_ai
Где живут LLM: разбираем инференс-кластер YADRO и тестируем его производительность

Привет, Хабр! В этой статье я расскажу про наш LLM инференс-кластер YADRO: зачем он нужен, что у него под капотом и как в такой конфигурации показывают себя популярные модели. Кроме того, я немного порассуждаю об альтернативных реализациях кластера и поделюсь планами по развитию реализации нашей. Читать далее

#llm #vllm #litellm #inference_platform #инференс_моделей #большие_языковые_модели | @habr_ai
GPT-OSS-20B, H100: выжимаем 156 миллиардов токенов в месяц

После релиза GPT-OSS-20B от OpenAI было много новостей, но конкретных бенчмарков с реальными цифрами я так и не нашел.

Решил выжать из модели максимум на H100 PCIe 80GB. Что получилось: до 60K токенов/сек c 91% загрузка GPU. Внутри пишу, как я это сделал по шагам! Читать далее

#gpt_oss_20b #vllm #gpt_oss_20b_benchmark #локальная_llm #vram_использование #llm #h100 #h100_pcie #tps_токены_в_секунду #docker_gpt_oss | @habr_ai
Как мы научили LLM отвечать на вопросы абитуриентов в крупнейшем вузе страны

Академий показал, что LLM-бот может работать в продакшене, а не в демо. RAG, SQL-модуль, собственный бенч и GPU-инфра позволили выдержать десятки тысяч запросов в реальной приёмной кампании.

Для абитуриентов это быстрые и точные ответы 24/7, для вуза — разгрузка комиссии и масштабируемый инструмент. Для нас — платформа, где мы улучшаем подходы к RAG, фильтрации и безопасности в живой среде. Читать далее

#llm_бот #rag #qwen3 #vllm #milvus #langgraph #ранхигс | @habr_ai