Forwarded from Цифры в спорте
Пользователь твиттера Ben Griffis делает много интересных расчётов и визуализаций на тему футбола. В последнее время у него стали появляться твиты где он считает схожесть игроков по их показателям в прошедшем сезоне. Например, Промес занимает 3 место по схожести для Дибалы.
Вчера Бен выложил свои изыскания на гитхаб и теперь каждый может поиграть с данными. Глубоко в кишки кода я не лез, но похоже, что он считает косинусную близость для игроков, команд и лиг. Обидно, что в файлах с данными лежат уже рассчитанное значение схожести, т.е. нельзя узнать какие показатели с Wyscout он брал для расчёта. Есть несколько парметров, которые могут влиять на ваш расчёт, например можно отфильтровать игроков из непохожих команд/лиг (что может показаться логично, когда вы посмотрите на топ-10 по схожести с Месси без этого фактора), а также считать медиану для трёх показателей: схожесть игроков, команд и лиг (тут мне кажется другая крайность, очень большой буст получают люди из той же лиги, у которых автоматом в этом пункте 100 из 100. Кажется, что тут нужно было бы как-то взвешивать показатели).
Сам расчёт небыстрый, посчитать Месси у меня заняло где-то 45 секунд, судя по вложенным циклам код далеко неоптимальный. Но на пощупать самое то. Код написан на питоне, пакет лежит только на гитхабе, поэтому установить его можно командой:
#soccer #python #advstats
Твиттер автора
Гитхаб проекта
Вчера Бен выложил свои изыскания на гитхаб и теперь каждый может поиграть с данными. Глубоко в кишки кода я не лез, но похоже, что он считает косинусную близость для игроков, команд и лиг. Обидно, что в файлах с данными лежат уже рассчитанное значение схожести, т.е. нельзя узнать какие показатели с Wyscout он брал для расчёта. Есть несколько парметров, которые могут влиять на ваш расчёт, например можно отфильтровать игроков из непохожих команд/лиг (что может показаться логично, когда вы посмотрите на топ-10 по схожести с Месси без этого фактора), а также считать медиану для трёх показателей: схожесть игроков, команд и лиг (тут мне кажется другая крайность, очень большой буст получают люди из той же лиги, у которых автоматом в этом пункте 100 из 100. Кажется, что тут нужно было бы как-то взвешивать показатели).
Сам расчёт небыстрый, посчитать Месси у меня заняло где-то 45 секунд, судя по вложенным циклам код далеко неоптимальный. Но на пощупать самое то. Код написан на питоне, пакет лежит только на гитхабе, поэтому установить его можно командой:
pip install git+https://github.com/griffisben/griffis_soccer_analysis.git
#soccer #python #advstats
Твиттер автора
Гитхаб проекта