Абьюзер ChatGPT | 2.0

Сегодня был хороший вопрос на стриме и я обещал сделать подборку. Я люблю своих подписчиков

📇 Оффтоп, но по теме: где брать данные? Подборка лучших датасетов для практики

Титаник вы уже, надеюсь, «спасли» (или утопили). Чтобы не заскучать, держите пак проверенных датасетов. Разделил их по типам задач, чтобы вы качали разные скиллы‼️‼️

🏠 1. House Prices (регрессия)

Классика, которая приходит на смену Титанику. Задача: предсказать стоимость дома по его характеристикам (площадь, район, год постройки). Зачем: это Регрессия (предсказываем число, а не класс). Тут много пропусков, много текстовых признаков, которые надо кодировать. Отличный полигон для Feature Engineering.

💳 2. Credit Card Fraud Detection (аномалии)

Суровый финтех. Реальные транзакции европейских карт. Задача: понять, какая транзакция мошенническая. Зачем: главный урок здесь - дисбаланс классов (Imbalanced Data). Мошенников всего 0.17%. Если модель просто скажет "Все честные", она будет права на 99.83%, но пропустит всех воров. Тут вы научитесь работать с метриками (Recall) и сэмплированием.

👕 3. Fashion MNIST (картинки / Computer Vision)

Надоело смотреть на цифры (обычный MNIST)? Давайте смотреть на одежду. Задача: классифицировать 70,000 картинок одежды (футболки, кроссовки, сумки). Зачем: "Hello World" для нейросетей. Идеально, чтобы написать свою первую простую сетку на PyTorch.

📩 4. SMS Spam Collection (текст / NLP)

Ваш входной билет в обработку естественного языка. Задача: определить, является смска спамом или нормальным сообщением. Зачем: базовая работа с текстом. Токенизация (разбиение на слова), мешок слов (Bag of Words), TF-IDF.

🍷 5. Wine Quality (мультиклассовая классификация)

Для ценителей. Задача: предсказать оценку качества вина по химическому составу (кислотность, сахар, pH). Зачем: анализ корреляций (что влияет на вкус?) и работа с мультиклассовой классификацией (оценок может быть много: 3, 4, 5... 8).

🎮 6. Pokemon (для души / EDA)

Просто веселый датасет. Задача: кто победит в битве? Или предсказать, является ли покемон "Легендарным". Зачем: идеально для EDA (разведочного анализа) и красивых графиков. Характеристики (атака, защита, скорость) очень наглядны. Самый интересный вариант для обучения :)

💡 Микро-совет: не пытайтесь сделать всё сразу.

1. Возьмите House Prices.
2. Сделайте ноутбук с анализом данных.
3. Обучите простой RandomForest.
4. Выложите на GitHub.

Это уже будет проектом, который не стыдно показать.

#Datasets #Kaggle #MachineLearning #Practice #PetProject #Roadmap

Please open Telegram to view this post