Александр Агеев. Мой путь в ИИ.

что интересного с конфы принес?!
Слушал я про РАГ системы.

кастомная разработка пайплайна на питоне вместо лангчейна и лангграфа (из-за скорости и количества запросов)

дообучение ллм моделей в раге через sft / RLHF дают возможность решить узкую и сложную задачу РАГа, без надобности jailbreak-ов

метрики! метрики! каждый шаг замерять в РАГе, не ориентироваться по одной итоговой метрике. На каждом этапе пайплайна метрики.

правильное чанкование и кэширование (закрывает от 60-90% вопросов)

рерайт вопроса пользователя и отдача в РАГ нескольких перефразов, чтобы получить лучший результат

VOSK small для транскрибации (вместо виспера) дает лучше результат

вместо вллм и сгланга для кастомных ллм, используют тритон + тензоррт для нагрузки батчами (и инфинити и оптмимум - не работал с ними еще)

стандартные алгоритмы поиска все еще работают в раге (вм25, поиск по нграммам, расстояние ливенштейна, поиск по графу знаний, бустинги)

файнтюны под конкретную задачу работают лучше гпт4

в раге используется несколько моделей (одна для простых вопросов и одна для сложных)

если надо вытаскивать информацию из рага из разных частей (например таблица или просто разбросанная инфа) нужно делать графовый раг или связывать информацию в граф изначально, как метаинформацию

❤4🔥3👍1

168 views17:16

Привет. Сегодня хочу коснуться темы железа для джуна в ИИ.

Что нужно знать и понимать:
❔ Чем CPU отличается от GPU
❔ Что такое VRAM, и почему она ограничивает размер модели
❔ Что такое batch size и как он влияет на обучение
❔ Что такое quantization и как запускать модели на CPU
❔ Виды видеокарт (consumer vs enterprise) и как их подбирать под конкретные задачи
❔ Как считать экономическую эффективность (сколько стоит запуск одного инференса, сколько будет запусков в день, сумма на месяц и тд), чтобы понять, когда бизнесу выгодно внедрить алгоритм на GPU, а когда надо использовать более простой алгоритм под CPU
❔ Как мониторить использование ресурсов (nvidia-smi, top, htop)

Что нужно иметь самому

1️⃣ вариант: джун, изучающий ML/делающий pet-проекты
Можно начать даже с простого ноутбука, но стоит понимать, что LLM вы не запустите. Для работы с текстом лучше арендовать мощное железо или использовать Quantized-модели на CPU.

2️⃣ вариант: надо обучать нейросети
Тут уже обязательно нужен GPU. Минималка: RTX 3060 (VRAM 12 ГБ) — подойдет для обучения BERT-классификаторов, простых CNN. Нормально: AMD Radeon (16+ ГБ). Дорого, но отлично для любых экспериментов — RTX 3090 / 4090 (24 ГБ).

❕ Где обучать модели

📍 Локально:
◻️ свой ПК (дешево, но ограничено),
◻️ использовать почасовую аренду (100-200 руб./час)
◻️ подключиться к GPU через SSH (если работаете и в компании есть кластер).

☁️ Облака:
VK Cloud, Yandex Cloud (дороговато), Selected, MTS Cloud.
По балансу цена/простота для джуна оптимальны Selected и VK Cloud.

Нужно что-то дополнительно пояснить? Задавайте вопросы в комментах.

❤5🔥3

174 viewsedited 11:15

Александр Агеев. Мой путь в ИИ.

Ну чего, все уже потыкали в gpt 5?
Я уже даже фотки погенерил 😌

🤔3

128 views19:56

Александр Агеев. Мой путь в ИИ.

https://habr.com/ru/specials/936618/

Хабр на днях выкатил аналитику зарплат в АйТи. Что думаете?

Хабр

Зарплаты IT-специалистов в первой половине 2025: +2%, рост замедлился

Каждые полгода мы на Хабр Карьере собираем зарплаты IT-специалистов из калькулятора и делаем большое исследование, чтобы посмотреть, как происходят дела на рынке зарплат.Принесли вам итоги первой половины 2025 — проанализировали, сколько специалисты зарабатывали…

👍1

56 views13:34

About

Blog

Apps

Platform