что интересного с конфы принес?!
Слушал я про РАГ системы.
кастомная разработка пайплайна на питоне вместо лангчейна и лангграфа (из-за скорости и количества запросов)
дообучение ллм моделей в раге через sft / RLHF дают возможность решить узкую и сложную задачу РАГа, без надобности jailbreak-ов
метрики! метрики! каждый шаг замерять в РАГе, не ориентироваться по одной итоговой метрике. На каждом этапе пайплайна метрики.
правильное чанкование и кэширование (закрывает от 60-90% вопросов)
рерайт вопроса пользователя и отдача в РАГ нескольких перефразов, чтобы получить лучший результат
VOSK small для транскрибации (вместо виспера) дает лучше результат
вместо вллм и сгланга для кастомных ллм, используют тритон + тензоррт для нагрузки батчами (и инфинити и оптмимум - не работал с ними еще)
стандартные алгоритмы поиска все еще работают в раге (вм25, поиск по нграммам, расстояние ливенштейна, поиск по графу знаний, бустинги)
файнтюны под конкретную задачу работают лучше гпт4
в раге используется несколько моделей (одна для простых вопросов и одна для сложных)
если надо вытаскивать информацию из рага из разных частей (например таблица или просто разбросанная инфа) нужно делать графовый раг или связывать информацию в граф изначально, как метаинформацию
Слушал я про РАГ системы.
кастомная разработка пайплайна на питоне вместо лангчейна и лангграфа (из-за скорости и количества запросов)
дообучение ллм моделей в раге через sft / RLHF дают возможность решить узкую и сложную задачу РАГа, без надобности jailbreak-ов
метрики! метрики! каждый шаг замерять в РАГе, не ориентироваться по одной итоговой метрике. На каждом этапе пайплайна метрики.
правильное чанкование и кэширование (закрывает от 60-90% вопросов)
рерайт вопроса пользователя и отдача в РАГ нескольких перефразов, чтобы получить лучший результат
VOSK small для транскрибации (вместо виспера) дает лучше результат
вместо вллм и сгланга для кастомных ллм, используют тритон + тензоррт для нагрузки батчами (и инфинити и оптмимум - не работал с ними еще)
стандартные алгоритмы поиска все еще работают в раге (вм25, поиск по нграммам, расстояние ливенштейна, поиск по графу знаний, бустинги)
файнтюны под конкретную задачу работают лучше гпт4
в раге используется несколько моделей (одна для простых вопросов и одна для сложных)
если надо вытаскивать информацию из рага из разных частей (например таблица или просто разбросанная инфа) нужно делать графовый раг или связывать информацию в граф изначально, как метаинформацию
❤4🔥3👍1
Привет. Сегодня хочу коснуться темы железа для джуна в ИИ.
Что нужно знать и понимать:
❔ Чем CPU отличается от GPU
❔ Что такое VRAM, и почему она ограничивает размер модели
❔ Что такое batch size и как он влияет на обучение
❔ Что такое quantization и как запускать модели на CPU
❔ Виды видеокарт (consumer vs enterprise) и как их подбирать под конкретные задачи
❔ Как считать экономическую эффективность (сколько стоит запуск одного инференса, сколько будет запусков в день, сумма на месяц и тд), чтобы понять, когда бизнесу выгодно внедрить алгоритм на GPU, а когда надо использовать более простой алгоритм под CPU
❔ Как мониторить использование ресурсов (nvidia-smi, top, htop)
Что нужно иметь самому
1️⃣ вариант: джун, изучающий ML/делающий pet-проекты
Можно начать даже с простого ноутбука, но стоит понимать, что LLM вы не запустите. Для работы с текстом лучше арендовать мощное железо или использовать Quantized-модели на CPU.
2️⃣ вариант: надо обучать нейросети
Тут уже обязательно нужен GPU. Минималка: RTX 3060 (VRAM 12 ГБ) — подойдет для обучения BERT-классификаторов, простых CNN. Нормально: AMD Radeon (16+ ГБ). Дорого, но отлично для любых экспериментов — RTX 3090 / 4090 (24 ГБ).
❕ Где обучать модели
📍 Локально:
◻️ свой ПК (дешево, но ограничено),
◻️ использовать почасовую аренду (100-200 руб./час)
◻️ подключиться к GPU через SSH (если работаете и в компании есть кластер).
☁️ Облака:
VK Cloud, Yandex Cloud (дороговато), Selected, MTS Cloud.
По балансу цена/простота для джуна оптимальны Selected и VK Cloud.
Нужно что-то дополнительно пояснить? Задавайте вопросы в комментах.
Что нужно знать и понимать:
❔ Чем CPU отличается от GPU
❔ Что такое VRAM, и почему она ограничивает размер модели
❔ Что такое batch size и как он влияет на обучение
❔ Что такое quantization и как запускать модели на CPU
❔ Виды видеокарт (consumer vs enterprise) и как их подбирать под конкретные задачи
❔ Как считать экономическую эффективность (сколько стоит запуск одного инференса, сколько будет запусков в день, сумма на месяц и тд), чтобы понять, когда бизнесу выгодно внедрить алгоритм на GPU, а когда надо использовать более простой алгоритм под CPU
❔ Как мониторить использование ресурсов (nvidia-smi, top, htop)
Что нужно иметь самому
1️⃣ вариант: джун, изучающий ML/делающий pet-проекты
Можно начать даже с простого ноутбука, но стоит понимать, что LLM вы не запустите. Для работы с текстом лучше арендовать мощное железо или использовать Quantized-модели на CPU.
2️⃣ вариант: надо обучать нейросети
Тут уже обязательно нужен GPU. Минималка: RTX 3060 (VRAM 12 ГБ) — подойдет для обучения BERT-классификаторов, простых CNN. Нормально: AMD Radeon (16+ ГБ). Дорого, но отлично для любых экспериментов — RTX 3090 / 4090 (24 ГБ).
❕ Где обучать модели
📍 Локально:
◻️ свой ПК (дешево, но ограничено),
◻️ использовать почасовую аренду (100-200 руб./час)
◻️ подключиться к GPU через SSH (если работаете и в компании есть кластер).
☁️ Облака:
VK Cloud, Yandex Cloud (дороговато), Selected, MTS Cloud.
По балансу цена/простота для джуна оптимальны Selected и VK Cloud.
Нужно что-то дополнительно пояснить? Задавайте вопросы в комментах.
❤5🔥3
Ну чего, все уже потыкали в gpt 5?
Я уже даже фотки погенерил 😌
Я уже даже фотки погенерил 😌
🤔3