Александр Агеев. Мой путь в ИИ.
111 subscribers
9 photos
12 links
Всем привет! Я разработчик в области компьютерного зрения и NLP. Буду делиться своими наблюдениями, заметками и интересами в ИИ.
Мой тг @alexANDRico
Download Telegram
что интересного с конфы принес?!
Слушал я про РАГ системы.

кастомная разработка пайплайна на питоне вместо лангчейна и лангграфа (из-за скорости и количества запросов)

дообучение ллм моделей в раге через sft / RLHF дают возможность решить узкую и сложную задачу РАГа, без надобности jailbreak-ов

метрики! метрики! каждый шаг замерять в РАГе, не ориентироваться по одной итоговой метрике. На каждом этапе пайплайна метрики.

правильное чанкование и кэширование (закрывает от 60-90% вопросов)

рерайт вопроса пользователя и отдача в РАГ нескольких перефразов, чтобы получить лучший результат

VOSK small для транскрибации (вместо виспера) дает лучше результат

вместо вллм и сгланга для кастомных ллм, используют тритон + тензоррт для нагрузки батчами (и инфинити и оптмимум - не работал с ними еще)

стандартные алгоритмы поиска все еще работают в раге (вм25, поиск по нграммам, расстояние ливенштейна, поиск по графу знаний, бустинги)

файнтюны под конкретную задачу работают лучше гпт4

в раге используется несколько моделей (одна для простых вопросов и одна для сложных)

если надо вытаскивать информацию из рага из разных частей (например таблица или просто разбросанная инфа) нужно делать графовый раг или связывать информацию в граф изначально, как метаинформацию
4🔥3👍1
Привет. Сегодня хочу коснуться темы железа для джуна в ИИ.

Что нужно знать и понимать:
Чем CPU отличается от GPU
Что такое VRAM, и почему она ограничивает размер модели
Что такое batch size и как он влияет на обучение
Что такое quantization и как запускать модели на CPU
Виды видеокарт (consumer vs enterprise) и как их подбирать под конкретные задачи
Как считать экономическую эффективность (сколько стоит запуск одного инференса, сколько будет запусков в день, сумма на месяц и тд), чтобы понять, когда бизнесу выгодно внедрить алгоритм на GPU, а когда надо использовать более простой алгоритм под CPU
Как мониторить использование ресурсов (nvidia-smi, top, htop)

Что нужно иметь самому

1️⃣ вариант: джун, изучающий ML/делающий pet-проекты
Можно начать даже с простого ноутбука, но стоит понимать, что LLM вы не запустите. Для работы с текстом лучше арендовать мощное железо или использовать Quantized-модели на CPU.

2️⃣ вариант: надо обучать нейросети
Тут уже обязательно нужен GPU. Минималка: RTX 3060 (VRAM 12 ГБ) — подойдет для обучения BERT-классификаторов, простых CNN. Нормально: AMD Radeon (16+ ГБ). Дорого, но отлично для любых экспериментов — RTX 3090 / 4090 (24 ГБ).

Где обучать модели

📍 Локально:
◻️ свой ПК (дешево, но ограничено),
◻️ использовать почасовую аренду (100-200 руб./час)
◻️ подключиться к GPU через SSH (если работаете и в компании есть кластер).

☁️ Облака:
VK Cloud, Yandex Cloud (дороговато), Selected, MTS Cloud.
По балансу цена/простота для джуна оптимальны Selected и VK Cloud.

Нужно что-то дополнительно пояснить? Задавайте вопросы в комментах.
5🔥3
Ну чего, все уже потыкали в gpt 5?
Я уже даже фотки погенерил 😌
🤔3