mrtnv | prism

Классификация LLM: как подобрать модель под задачу

Каждый месяц появляются новые языковые модели, обновляются существующие, меняются возможности и ограничения. Как разобраться в этом многообразии и выбрать оптимальное решение?

Погнали разбираться!

TL;DR

➡️Лицензия – proprietary / open-weight / open-source: бюджет, возможность модификации и юридические риски
➡️Размер – 1 B-400 B+ параметров: компромисс качества и скорости инференса
➡️Контекстное окно – считайте не токены «на бумаге», а реальную эффективность
➡️Модальность – text / vision / audio / video: подбирайте под сценарий
➡️Специализация – универсальная или доменная модель: точность vs универсальность

🔐 Уровень открытости
Proprietary (GPT-4o, Claude, Gemini)
– Доступ только через API
– Высокое качество «из коробки»
– Веса закрыты. Ограниченный файнтюн

Open-weight (Llama 3, Mistral 8×22B)
– Веса доступны для скачивания, можно запускать локально
– Лицензия запрещает Llama 3 для сервисов ≥ 700 млн MAU
– Частичный контроль: архитектура закрыта, но инференс у себя

Open-source (Falcon, BLOOM, Mistral 7B)
– Полная свобода: изменения, коммерциализация, аудит кода
– Сильное комьюнити, быстрые патчи и расширения

Многие называют Llama «

open-source

», но формально это

open-weight:

права на модификацию и масштабное коммерческое использование ограничены лицензией

💪 Размер модели
Малые (1–7 B) – можно запускать на ноутбуке; задержка < 100 мс, идеальны для edge и real-time-сценариев.
Средние (13–70 B) – баланс «качество / стоимость»; требуют одного-двух GPU A100/H100; покрывают 80 % production-кейсов.
Гиганты (175 B+) – state-of-the-art; нужны под задачи, где ошибка дороже инфраструктуры (медицина, финансы, R&D).

Аритектурный патерн

Mixture-of-Experts (MoE)

позволяют модели в 8 B параметров вести себя, как классическая 70 B, потому что при каждом запросе включается лишь часть «экспертов». Это резко сокращает требования к памяти и повышает скорость.

🔁 Контекстное окно: заявленное ≠ эффективное
– GPT-4o: заявлено 128 K токенов → эффективно ≈ 64 K
– Claude 3.5: 200 K → ≈ 150 K
– Llama 3: 128 K → ≈ 32 K
Эффективность измеряестя тестами Needle-in-a-Haystack и RULER (2024), где проверяют, находит ли модель «иголку» – факт, спрятанный в длинном документе.

В реальных экспериментах accuracy падает на 30–40 % после ~ 60 % от заявленного окна. Для RAG лучше закладывать запас. Важно: это все эмпирика на опыте :)

🎭 Модальность
Text – классика 90 % задач.
Vision + Text (GPT-4V/o, Claude 3.5 Sonnet, Gemini Pro) – анализ изображений, схем, таблиц; в финтехе заменяют связку «OCR → LLM».
Audio (Whisper-v3, AudioLM) — надёжная транскрипция и генерация речи.
Video (Sora, Lumiere, Google Veo )– уже больше чем R&D. Массового коммерческого внедрения пока нет, но ожидается рост интереса и запуск первых коммерческих сервисов.

🎯 Специализация
Языковая: модели под конкретный язык (Saiga-70B-RU) обычно превосходят универсальные на локальных задачах.
Доменная: Med-PaLM 2, BloombergGPT, CodeLlama-70B обучены на отраслевых корпусах и дают более точные ответы в своей нише.

Например,

для ru-юридических и медицинских кейсов

связка «специализированная модель + RAG» часто дешевле и точнее, чем GPT-4-o без дообучения.

📌 Рекомендации
Стартап / MVP – open-weight 7–13 B; быстрые эксперименты, локальный деплой, квантование до 8-бит.
Enterprise с жёстким compliance – проприетарная модель с SLA или 100 % open-source в своём кластере для контроля данных.
Продукт с миллионами DAU – MoE-архитектура + квантование; оптимизируйте latency и «живое» контекстное окно.

🔮 Взгляд на 2025-2026 гг.
– Контекст >1M токенов станет стандартом к 2026
– Генерация видео выходит в коммерцию уже сейчас
– Ультрамалые модели (<1B) on-device-LLM откроют рынок персональных ассистентов и edge-аналитики без облака

🟢

Рынок LLM растёт экспоненциально: то, что вчера требовало дата-центра, завтра запустится на смартфоне. Не существует «лучшeй» модели в абсолюте – есть задача, бюджет и ограничения.

Выбирайте модель под конкретную задачу и TCO

😉

#LLM #AI #MachineLearning #DataScience
@mrtnv_prism

Please open Telegram to view this post

VIEW IN TELEGRAM

16❤20👍20👏14🎉13🤩13🥰884

2.51K viewsedited 12:45

About

Blog

Apps

Platform