Библиотека дата-сайентиста | Data Science, Machine learning, анализ данных, машинное обучение
18.7K subscribers
2.25K photos
112 videos
64 files
4.66K links
Все самое полезное для дата сайентиста в одном канале.

По рекламе: @proglib_adv

Курс по ML: https://clc.to/4hNluQ

Для обратной связи: @proglibrary_feeedback_bot

РКН: https://gosuslugi.ru/snet/67a5b03124c8ba6dcaa121c9
Download Telegram
This media is not supported in your browser
VIEW IN TELEGRAM
🔢 7 способов кодирования категориальных данных

При работе с категориальными данными в машинном обучении, выбор способа их преобразования имеет решающее значение.

1. One-Hot Encoding
Каждая категория превращается в отдельный бинарный столбец.
Пример: Цвета → Зеленый: [1, 0, 0], Красный: [0, 1, 0].

2. Dummy Encoding
Как One-Hot, но один столбец исключается, чтобы избежать дублирования информации.

3. Effect Encoding
Категории кодируются бинарно, но ряды с нулями заменяются на -1 для создания баланса.

4. Label Encoding
Каждой категории присваивается уникальное числовое значение.
Пример: Зеленый = 1, Красный = 2, Черный = 3.

5. Ordinal Encoding
Порядковое кодирование, где категории ранжируются по важности.
Пример: XS = 1, S = 2, M = 3, L = 4.

6. Count Encoding
Категории заменяются частотой их встречаемости в данных.

7. Binary Encoding
Категории преобразуются в бинарный код.
Пример: Зеленый = 01, Красный = 10.

Какой метод вы используете чаще всего? 👇

#Encoding
👍121