Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
112 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
📊 Нужны ли дополнительные данные для модели

Если производительность модели почти не улучшается, несмотря на feature engineering и смену моделей, возможно, данных недостаточно.

Но сбор новых данных — это трудоёмко. Вот как проверить, помогут ли они:
1. Разделите обучающую выборку на k равных частей (7–12 обычно достаточно).
2. Поочерёдно обучайте модель: на 1 части, затем на 2, затем на 3, и так далее.
3. Оцените каждую модель на валидационной выборке.
4. Постройте график, который покажет зависимость производительности от объема данных.

📈 Линия растёт? Добавление данных улучшит модель.
📉 Линия стабильна? Собранные данные исчерпали потенциал.

Простой способ избежать лишней работы!

#данные #modeloptimization
🔥13👍61