Ответы пишите в комменариях👇
🤔 Проблема
Катастрофическое забывание возникает, когда модель во время дообучения на новых данных теряет уже выученные знания.
Ещё хуже ситуация с коллапсом модели — когда в датасет начинают попадать тексты, сгенерированные самой LLM: это искажает данные, стирает редкие примеры и усиливает ошибки.
✅ Подходы на практике:
1️⃣ LoRA / параметро-эффективное дообучение:
- Обновляются не все веса, а только адаптеры.
- Это снижает риск забывания базовых знаний, сохраняя при этом гибкость для дообучения.
2️⃣Dynamic replay / rehearsal (динамическое повторное смешивание)
- К кастомному датасету подмешивают данные из предобучения.
- Обычно берут в 2–3 раза больше примеров из базового корпуса.
- Так сохраняется «фон» общих знаний модели.
3️⃣ Dataset mixing (смешивание датасетов)
- Не дают модели «зарыться» в узкий домен.
- Сочетание специализированных и базовых данных удерживает баланс.
4️⃣ Variation across epochs (вариативность между эпохами)
- На каждой эпохе берут новые сэмплы из предобученного корпуса.
- Это повышает разнообразие и снижает риск переобучения к конкретному подмножеству.
📌 Как ответить на собеседовании
«Чтобы избежать забывания, используют LoRA (параметро-эффективное дообучение), динамический replay с базовыми данными (в пропорции 1:2 или 1:3), а также варьируют сэмплы из pretrain-корпуса между эпохами. Это сохраняет старые знания и даёт гибкость для новых».
@machinelearning_interview
#AI #LLM #MachineLearning #Forgetting #FineTuning
Please open Telegram to view this post
VIEW IN TELEGRAM
👍12🔥5❤3😘3