Введение в Feature Engineering для начинающих дата-сайентистов и ML-инженеров
Подготовили гайд о том, какие бывают признаки, когда и с помощью каких методов проводить генерацию фич и как решить распространенные ошибки при работе с признаками.
Составить его помогла Виктория Тюфякова, Senior Data Scientist компании ecom.tech.
Читать далее
#feature_engineering #features #фичи #scaling #one_hot_encoding #scikit_learn #xgboost #shap #lime #feature_selection | @habr_ai
Подготовили гайд о том, какие бывают признаки, когда и с помощью каких методов проводить генерацию фич и как решить распространенные ошибки при работе с признаками.
Составить его помогла Виктория Тюфякова, Senior Data Scientist компании ecom.tech.
Читать далее
#feature_engineering #features #фичи #scaling #one_hot_encoding #scikit_learn #xgboost #shap #lime #feature_selection | @habr_ai
Хабр
Введение в Feature Engineering для начинающих дата-сайентистов и ML-инженеров
Feature Engineering, или генерация признаков — это процесс создания новых признаков (характеристик или фич) из имеющихся данных, чтобы улучшить работу модели машинного обучения. Он может включать...
[Перевод] Анализ и моделирование футбольных результатов английской Премьер-лиги с использованием методов машинного обучения
Рассмотрим статью 2018 года наших индийских коллег Rahul Baboota и Harleen Kaur «Predictive analysis and modelling football results using machine learning approach for English Premier League». Особое внимание советую уделить отбору признаков (feature engineering) — возможно, у вас появятся собственные новые идеи в этой области. Также рекомендую сравнить результаты различных моделей (naive Bayes, SVM, Random Forest, XGBoost) с вашими собственными. Читать далее
#машинное_обучение #xgboost #random_forest #svm #naive_bayes #feature_engineering #отбор_признаков #градиентный_бустинг #случайный_лес #классификация | @habr_ai
Рассмотрим статью 2018 года наших индийских коллег Rahul Baboota и Harleen Kaur «Predictive analysis and modelling football results using machine learning approach for English Premier League». Особое внимание советую уделить отбору признаков (feature engineering) — возможно, у вас появятся собственные новые идеи в этой области. Также рекомендую сравнить результаты различных моделей (naive Bayes, SVM, Random Forest, XGBoost) с вашими собственными. Читать далее
#машинное_обучение #xgboost #random_forest #svm #naive_bayes #feature_engineering #отбор_признаков #градиентный_бустинг #случайный_лес #классификация | @habr_ai
Хабр
Анализ и моделирование футбольных результатов английской Премьер-лиги с использованием методов машинного обучения
Предисловие Внедрение искусственного интеллекта дало нам возможность создавать системы прогнозирования с беспрецедентной точностью. Машинное обучение так или иначе используется практически во всех...
Геопространственная обработка признаков
Привет, я Александр Мещеряков, более 3-х лет работаю в компании «Синимекс» специалистом по анализу данных. Мне удалось поработать с различными ML-проектами, и больше всего меня увлекла работа с геоданными. Для многих эта тема кажется немного «магией» и я хотел бы на страницах Хабра пролить на нее немного света.
Эта статья — как шпаргалка для шеф-повара: берите готовые рецепты под ваши задачи. Здесь вы найдёте ключевые библиотеки (geopandas, h3-py) и принципы работы с геоданными — от парсинга OpenStreetMap до агрегации по шестиугольникам.
Читать далее
#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных | @habr_ai
Привет, я Александр Мещеряков, более 3-х лет работаю в компании «Синимекс» специалистом по анализу данных. Мне удалось поработать с различными ML-проектами, и больше всего меня увлекла работа с геоданными. Для многих эта тема кажется немного «магией» и я хотел бы на страницах Хабра пролить на нее немного света.
Эта статья — как шпаргалка для шеф-повара: берите готовые рецепты под ваши задачи. Здесь вы найдёте ключевые библиотеки (geopandas, h3-py) и принципы работы с геоданными — от парсинга OpenStreetMap до агрегации по шестиугольникам.
Читать далее
#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных | @habr_ai
Хабр
Обработка геоданных для ML-задач. Часть 1
Привет, я Александр Мещеряков, более 3-х лет работаю в компании «Синимекс» специалистом по анализу данных. Мне удалось поработать с различными ML-проектами, и больше всего меня увлекла работа с...
Обработка геоданных для ML-задач. Часть 2: пространственные объединения и расстояния
Статья продолжает обсуждение пространственных признаков в Python. Здесь мы рассматриваем пространственные объединения — аналог обычного объединения в мире геоданных, основанный на топологических отношениях между объектами, таких как пересечение, вложение или касание. Также мы узнаем, как правильно рассчитывать различные типы расстояний (и иногда это не просто евклидово расстояние между двумя точками). Например, геодезическое расстояние учитывает кривизну Земли, что особенно важно для анализа данных на больших территориях; расстояние маршрута учитывает направление: оптимальный маршрут от A до B не всегда равен маршруту от B до A. Читать далее
#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных | @habr_ai
Статья продолжает обсуждение пространственных признаков в Python. Здесь мы рассматриваем пространственные объединения — аналог обычного объединения в мире геоданных, основанный на топологических отношениях между объектами, таких как пересечение, вложение или касание. Также мы узнаем, как правильно рассчитывать различные типы расстояний (и иногда это не просто евклидово расстояние между двумя точками). Например, геодезическое расстояние учитывает кривизну Земли, что особенно важно для анализа данных на больших территориях; расстояние маршрута учитывает направление: оптимальный маршрут от A до B не всегда равен маршруту от B до A. Читать далее
#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных | @habr_ai
Хабр
Обработка геоданных для ML-задач. Часть 2: пространственные объединения и расстояния
Эта статья продолжает наше обсуждение пространственных признаков в Python. Вы можете прочитать первую часть текста здесь , чтобы изучить основы пространственных данных и их источников. Сейчас мы...
Обработка геоданных для ML-задач. Часть 3: агрегирование данных и оценка пространственных шаблонов
Пространственное агрегирование помогает контролировать степень детализации данных в зависимости от пространственных характеристик отдельных записей. Эта операция может быть полезна, если вы хотите сравнить разные регионы по конкретному параметру, (например, плотность населения или динамика продаж), оценить значение признака на единицу площади (скажем, среднюю выручку магазинов на квадратный километр) или преобразовать набор точек в растровые пространственные данные.
Важно учитывать, что агрегирование упрощает анализ, но «схлопывает» внутреннюю вариативность данных, типа как усреднённая температура по больнице может скрывать локальные перегретые серверные. Существует, по крайней мере, три метода пространственного агрегирования... Читать далее
#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных #машинное_обучение #машинное_обучение #машинное_обучениe | @habr_ai
Пространственное агрегирование помогает контролировать степень детализации данных в зависимости от пространственных характеристик отдельных записей. Эта операция может быть полезна, если вы хотите сравнить разные регионы по конкретному параметру, (например, плотность населения или динамика продаж), оценить значение признака на единицу площади (скажем, среднюю выручку магазинов на квадратный километр) или преобразовать набор точек в растровые пространственные данные.
Важно учитывать, что агрегирование упрощает анализ, но «схлопывает» внутреннюю вариативность данных, типа как усреднённая температура по больнице может скрывать локальные перегретые серверные. Существует, по крайней мере, три метода пространственного агрегирования... Читать далее
#геоданные #feature_engineering #python #postgresql #postgis #data_science #анализ_данных #машинное_обучение #машинное_обучение #машинное_обучениe | @habr_ai
Хабр
Обработка геоданных для ML-задач. Часть 3: агрегирование данных и оценка пространственных шаблонов
Мы продолжаем погружаться в тему создания пространственных признаков. Если вы пропустили предыдущие части, рекомендую начать с первой статьи о базовых принципах работы с геоданными, а затем перейти ко...