Первый подкаст в 2023 году: https://www.youtube.com/watch?v=_ZrAcNPWSIg&t
Из-за моей проебки не дали внутрь графики: прикрепляю сюда хотя бы две иллюстрации к одной из главных тем — переход Зоммера в Баварию.
Из-за моей проебки не дали внутрь графики: прикрепляю сюда хотя бы две иллюстрации к одной из главных тем — переход Зоммера в Баварию.
This media is not supported in your browser
VIEW IN TELEGRAM
Момент, который сейчас активно гуляет по твиттеру и реддиту — кусок (более расширенная версия — https://www.youtube.com/watch?v=rrmx28Kxyzk), где Артета объясняет специфику рондо на предстоящей тренировке, — направленный на отработку одного из его атакующих принципов, что вингер не должен получать передачу спиной к воротам в широкой позиции, а надо в такой ситуации находиться в полоборота, делать движение в середину и принимать внутрь — наложенный на эпизоды с Антони и Сака. Кто-то скажет, что это база, что это с академии всем очевидно — да, но иногда надо делать акцент на очевидных вещах, потому что даже в АПЛ только в нескольких командах вингеры стабильно принимают таким образом. Без рефлекса в простых вещах люди не могут воспринимать более сложные принципы.
С большим интересом прочитал в этой статье (https://theathletic.com/3181844/2022/03/15/passive-or-aggressive-spread-or-smother-using-body-poses-to-understand-goalkeeper-technique/) о подходах к выработке оптимальной стратегии для вратаря при выходах 1 на 1 — в зависимости от точки и находится ли игрок атаки под прессингом. Первый подход — человек вручную классифицировал каждый эпизод (~5000), заранее определив все возможные стратегии и выработал оптимальные в зависимости от положения бьющего.
Второй — сеть обучилась на нескольких сотнях ударов в ситуациях 1 на 1, выделила четыре наиболее встречающиеся стратегии/стойки, определила оптимальные в зависимости от позиции бьющего и оказанного на него давления (на Sloan была подробная работа — https://arxiv.org/ftp/arxiv/papers/2202/2202.12259.pdf). В большинстве своем результаты совпали, но комплексно человеческие выводы интуитивно более логичны.
Второй — сеть обучилась на нескольких сотнях ударов в ситуациях 1 на 1, выделила четыре наиболее встречающиеся стратегии/стойки, определила оптимальные в зависимости от позиции бьющего и оказанного на него давления (на Sloan была подробная работа — https://arxiv.org/ftp/arxiv/papers/2202/2202.12259.pdf). В большинстве своем результаты совпали, но комплексно человеческие выводы интуитивно более логичны.
На фоне общей ситуации АПЛ под микроскопом надо изучать трансферы Брайтона — стабильно в нижней части таблицы по тратам, но в верхней по перформансу. В это окно скромно (на 10 млн) взяли двух типов 2003 и 2004 годов — у Ауари, по виду, много шансов преуспеть в АПЛ: не сразу, может быть через аренду в Юнион на сезон, но вероятность хорошая. Да, только шведская лига и не такой большой наигрыш, но много качеств с мячом, динамичный, интенсивный в обороне, очень редкий набор топовых результатов в метриках для центрального полузащитника такого возраста — и главное, что отлично подходящий под манеру игры Брайтона.
Действительно мощный прогноз по исходу, но по игре все вышло значительно лучше для Дайча — Эвертон хоть и был без мяча, но значительно острее по моментам. Видно, что Дайч продуктивно провел несколько дней после назначения: давно не видел Эвертон настолько организованным без мяча — компакты в центре, своевременно сдваивались на крайних нападающих на фланге, высоко жали линию (пока могли это делать). С мячом тоже типичная игра Дайча — длина, подборы, заходы в штрафную через кроссы, примерно одна и та же идея на всех угловых с приходящими подачами и насыщением вратарской. Очень позитивная динамика — 18-19 оборона лиги до этого матча практически ничего не позволила создать команде с топ-3 атакой.
Один из главных скиллов Дайча — умение быстро и понятно объяснять простые вещи. На картинке ситуации (собранные не вручную, а с помощью трекинга), когда Арсенал был во фланговых зонах в трети поля Эвертона 10 секунд и более.
Инцидент с пенальти в конце тайма даже несколько затмевает очередную оригинальную идею Гвардиолы — Бернарду Силва чуть ли не впервые играет ложного левого фулбека, что разумно, учитывая, что Сити 70% времени на мяче, а правого вингера у Астон Виллы играет номинальный центральный полузащитник (Сити получает самый мощный из возможных вариантов на мяче в этой позиции, при этом не беря на себя большой риск в обороне, если бы вместо Рамзи играл профильный быстрый крайний нападающий с обыгрышем 1 в 1).
В пенальти меня смущает исполнитель — при живом Холанде (93.8% реализация, ни одного промаха за Сити) бил Марез (70% реализация, из-за его промахов в последний год Сити не выиграл два матча в ЛЧ и чуть не упустил чемпионство). Не иначе как Пепа задевают разговоры, что по проценту голов команда слишком зависима от Холанда, и он при комфортном счете читерит, давая бить Марезу.
P.S. Замена Холанда в перерыве, возможно, указывает на его повреждение — тогда логично, что ему не дали бить.
В пенальти меня смущает исполнитель — при живом Холанде (93.8% реализация, ни одного промаха за Сити) бил Марез (70% реализация, из-за его промахов в последний год Сити не выиграл два матча в ЛЧ и чуть не упустил чемпионство). Не иначе как Пепа задевают разговоры, что по проценту голов команда слишком зависима от Холанда, и он при комфортном счете читерит, давая бить Марезу.
P.S. Замена Холанда в перерыве, возможно, указывает на его повреждение — тогда логично, что ему не дали бить.
Forwarded from Fit Predict
Добавил несколько простых, но полезных улучшений EPV.
https://www.sports.ru/tribuna/blogs/fitpredict/3114305.html
https://www.sports.ru/tribuna/blogs/fitpredict/3114305.html
Sports.ru
Строим модель Expected Possession Value на event-данных Wyscout
Когда-то давно мы уже строили EPV на трекинг-данных РПЛ. В этой статье мы не будем использовать трекинг, но данных будет больше, мы охватим сразу несколько десятков лиг.
Хороший пример, когда люди часто не совсем понимают определение метрик, которые используют. Fbref недавно поменял условия для progressive passes & runs — если раньше ориентиром был центр ворот, то теперь просто лицевая линия. Полное безобразие, потому что большое количество передач/ранов из центра во фланг с относительным продвижением относительно лицевой (но без продвижения относительно центра ворот) будут относиться к этой категории, хотя фактически они не будут с продвижением и не будут улучшать владение. Еще более вопиющий пример на картинке B — передача из опорной зоны в угловой флаг будет считаться с продвижением, т.к. сильно продвинет относительно лицевой.
Понятно, что в таких метриках ориентир должен быть относительно центра ворот, но второй немаловажный момент — странно брать какую-то минимальную отсечку (например, минимум 15 метров), куда логичнее каким-то образом рейтинговать все действия (через метры вперед или тот же fields gained). Но глобально это уже архаичные метрики — нон-шот и аналоги дают более комплексную оценку: каждый пас/ведение оцениваются с точки зрения влияния на вероятность забить в этом владении, гораздо лучше учитываются координаты (пас на 15 метров вперед на своей половине не отрейтингуется лучше, чем проникающий на 7 метров вперед около штрафной), есть понятные штрафы за потери (а без них метрики переоценивают излишне рискующих игроков, которые при этом могут часто обрезать), лучше оцениваются ситуации за счет возможности передать время с начала владения или тип передачи.
Понятно, что в таких метриках ориентир должен быть относительно центра ворот, но второй немаловажный момент — странно брать какую-то минимальную отсечку (например, минимум 15 метров), куда логичнее каким-то образом рейтинговать все действия (через метры вперед или тот же fields gained). Но глобально это уже архаичные метрики — нон-шот и аналоги дают более комплексную оценку: каждый пас/ведение оцениваются с точки зрения влияния на вероятность забить в этом владении, гораздо лучше учитываются координаты (пас на 15 метров вперед на своей половине не отрейтингуется лучше, чем проникающий на 7 метров вперед около штрафной), есть понятные штрафы за потери (а без них метрики переоценивают излишне рискующих игроков, которые при этом могут часто обрезать), лучше оцениваются ситуации за счет возможности передать время с начала владения или тип передачи.
Forwarded from Цифры в спорте
Сейчас проходит соревнование по предсказанию результатов футбольных матчей Soccer Prediction Challenge. Этот же состав организаторов проводил такое же соревнование 6 лет назад, в приложении статья в журнале Machine Learning его описывающая (там же есть финальные результаты).
Сайт соревнования: https://sites.google.com/view/2023soccerpredictionchallenge/home
В нём Вам будет нужно предсказать результаты матчей в 35 лигах, которые будут сыграны с 16 по 29 апреля. Крайний срок отправки решения: 23:59 13 апреля.
Теперь немного подробнее. Для каждого матча нужно будет сделать два предсказания: точный счёт, а также вероятности победы хозяев, ничьи и победы гостей.
С первым пунктом всё довольно просто, предсказываете точный счёт, дальше считается среднеквадратичная ошибка от промаха по голам хозяев (0, если указали точно) плюс того же самого по голам гостей. Чем меньше RMSE, тем лучше. В этом отличие от соревнования 6-летней давности, там просто считалась точность (кол-во точных предсказаний/общее кол-во предсказаний), и лучший результат был 53.88%.
Во втором случае Вам нужно создать массив из трёх чисел от нуля до единицы, где первое число — вероятность победы хозяев, далее вероятность ничьи и вероятность победы гостей. Дальше для каждого матча считается метрика ranked probability score (RPS). Логика примерно такая же: насколько ваши вероятности разошлись с реальностью.
Пример: вы предсказали такие вероятности (0.85, 0.1, 0.05). В реальности победили гости, поэтому вектор такой (0, 0, 1), а у вас большие проблемы). Считается RPS для каждой игры, а потом берётся его среднее значение. Так же, как и в первой части, у кого метрика меньше, тот и победил.
Немного про данные. Предскзаать нужно около 630 игр из 35 лиг (количество и того и другого может к апрелю поменяться). Дан тренировочный датасет с результатами игр с сезона 2000/01. Но в нём никаких xG и прочих изысков: кто играл и счёт. Но в правилах есть оговорка, что модель может быть построена на данных, предоставленных организаторами или других открытых данных, так что есть возможность соскрэпить fbref или understat.
Если кто заинтересовался участием вся информация есть на сайте организаторов.
#mlcompetition #soccer
Сайт соревнования: https://sites.google.com/view/2023soccerpredictionchallenge/home
В нём Вам будет нужно предсказать результаты матчей в 35 лигах, которые будут сыграны с 16 по 29 апреля. Крайний срок отправки решения: 23:59 13 апреля.
Теперь немного подробнее. Для каждого матча нужно будет сделать два предсказания: точный счёт, а также вероятности победы хозяев, ничьи и победы гостей.
С первым пунктом всё довольно просто, предсказываете точный счёт, дальше считается среднеквадратичная ошибка от промаха по голам хозяев (0, если указали точно) плюс того же самого по голам гостей. Чем меньше RMSE, тем лучше. В этом отличие от соревнования 6-летней давности, там просто считалась точность (кол-во точных предсказаний/общее кол-во предсказаний), и лучший результат был 53.88%.
Во втором случае Вам нужно создать массив из трёх чисел от нуля до единицы, где первое число — вероятность победы хозяев, далее вероятность ничьи и вероятность победы гостей. Дальше для каждого матча считается метрика ranked probability score (RPS). Логика примерно такая же: насколько ваши вероятности разошлись с реальностью.
Пример: вы предсказали такие вероятности (0.85, 0.1, 0.05). В реальности победили гости, поэтому вектор такой (0, 0, 1), а у вас большие проблемы). Считается RPS для каждой игры, а потом берётся его среднее значение. Так же, как и в первой части, у кого метрика меньше, тот и победил.
Немного про данные. Предскзаать нужно около 630 игр из 35 лиг (количество и того и другого может к апрелю поменяться). Дан тренировочный датасет с результатами игр с сезона 2000/01. Но в нём никаких xG и прочих изысков: кто играл и счёт. Но в правилах есть оговорка, что модель может быть построена на данных, предоставленных организаторами или других открытых данных, так что есть возможность соскрэпить fbref или understat.
Если кто заинтересовался участием вся информация есть на сайте организаторов.
#mlcompetition #soccer
Google
2023 Soccer Prediction Challenge
The 2023 Soccer Prediction Challenge is an international machine learning competition that invites the machine learning community to predict the outcomes of a set of soccer matches from leagues worldwide played at the beginning of April 2023. Participants…
Forwarded from Цифры в спорте
Dubitzky2018_Article_TheOpenInternationalSoccerData.pdf
951.8 KB
Статья в журнале Machine Learning о соревновании 2017 года
Про превентивную опеку написано много, но вот попытка формализовать rest-attack одна из первых.
https://spielverlagerung.com/2022/06/16/tactical-theory-rest-attack%EF%BF%BC/
https://spielverlagerung.com/2022/06/16/tactical-theory-rest-attack%EF%BF%BC/
Spielverlagerung.com
Tactical Theory: Rest-Attack
The term rest-defense, translated from the German “Restverteidigung”, has become more known (and utilized) in recent years. Its equivalent on the other hand, is still rarely talked and even less (consciously) used in coaching, though more frequently by players…
Сходу не вспомнить, когда бы в последний раз Уокер весь матч играл длинный фланг и был бы в широкой позиции в атакующей пятерке — именно постоянно в структуре, как в игре с РБЛ, а не при эпизодической позиционной ротации. Обычные его позиции, когда Сити с мячом — в тройке ЦЗ, либо ложный фулбек. В широких позициях в верхней пятерке практически всегда играют профильные атакующие игроки — сильные 1 в 1, способные комбинировать и стабильно создавать моменты. По идее и в матче с РБЛ была такая опция: Марез мог бы играть в ширине, Бернардо — в полуфланговой позиции, — а Уокер в опорной зоне рядом с Родри (с позиционной ротацией в этом треугольнике, где Бернардо мог бы оказываться в трех позициях, а Уокер и Марез — в двух).
Но Пеп использовал Уокера именно в ширине, и эксперимент оказался неудачным — 1 в 1 он обыгрывает только если за спиной у соперника много пространства, комбинирует хуже относительно партнеров, перед штрафной практически все эпизоды закончил потерями (из шести попыток внутрь прошла только одна). В целом он не особо был настроен продвигать мяч, часто изначально не располагая корпус для первого касания и последующей передачи вперед — из его пас-мапа хорошо видно, что практически все точные пасы в развитии шли назад. По большому счету Сити а) играл без конкретики с этого фланга — по нон-шоту (влиянию на качества владений команды за счет передач и ведения) у Уокера с отрывом худший результат в команде (близко только Холанд, который традиционно был отрезан от остальных), — очень сильный контраст с результатом Грилиша б) лишился привычной позиционной ротации, поскольку Уокер еще менее эффективен между линиями. Тем страннее, что даже по ходу игры не было попыток сделать перестановки внутри атакующей структуры, вернувшись к более привычным позициям Мареза и Уокера.
Но Пеп использовал Уокера именно в ширине, и эксперимент оказался неудачным — 1 в 1 он обыгрывает только если за спиной у соперника много пространства, комбинирует хуже относительно партнеров, перед штрафной практически все эпизоды закончил потерями (из шести попыток внутрь прошла только одна). В целом он не особо был настроен продвигать мяч, часто изначально не располагая корпус для первого касания и последующей передачи вперед — из его пас-мапа хорошо видно, что практически все точные пасы в развитии шли назад. По большому счету Сити а) играл без конкретики с этого фланга — по нон-шоту (влиянию на качества владений команды за счет передач и ведения) у Уокера с отрывом худший результат в команде (близко только Холанд, который традиционно был отрезан от остальных), — очень сильный контраст с результатом Грилиша б) лишился привычной позиционной ротации, поскольку Уокер еще менее эффективен между линиями. Тем страннее, что даже по ходу игры не было попыток сделать перестановки внутри атакующей структуры, вернувшись к более привычным позициям Мареза и Уокера.
С новыми доступными позиционными данными (позволяет считать количество защитников между мячом и воротами и расстояние до своих ворот самого глубокого защитника при приеме) возможна визуализация, неплохо (хотя бы частично) отражающая манеру нападающего — помимо зон приема еще и немного о типе открываний.
Случайно наткнулся на это относительно старое интервью — тогда тренера сборной Дании U-21, сейчас уже главного тренера Мидтьюланда (https://www.canofootball.com/articles/interviews/albert-capellas-in-football-you-have-to-decide-what-runs-the-ball-or-the-player/). Много интересных мыслей — в том числе в выделенном отрезке про позиционный футбол.
С удивлением читаю преобладающие мнения, что Пеп заменил Холанда, чтобы тот не побил рекорд Месси по голам в одном матче плей-офф. По мне, это ахинея. Не только потому что тренеры не думают во время игр о спонтанных рекордах — безусловно Пеп знал о том, что Месси воткнул пять Байеру, но во время матча тренер даже при комфортном счете обычно на стрессе и держит в голове десятки других, более важных в текущей ситуации, вещей (это не то же самое, когда перед матчем ожидается какой-то юбилейный гол — заранее запланированное, ожидаемое событие).
По-моему, причина замены более прозаичная: Холланд впервые в карьере играет в таком плотном графике, при этом к 22 годам он собрал приличный набор из мелких повреждений — и основная потенциальная причина, почему он может не побить рекорды Месси и КриРо по голам в том, что его тело более склонно к травмам — соответственно он может просто не сыграть достаточного количества матчей.
Возьмем матчи, где Сити играет через два дня на третий + в обоих задействован Холанд (часто он просто выходит только в одной из игр, если второй матч проходной по турнирной ситуации):
1) 03.09 Холанд играет полный матч против Астон Виллы, 06.09 его меняют на 70-й минуте в Севилье (через 3 минуты после того, как счет стал 3-0)
2) 02.10 он играет полный матч против МЮ, 05.10 его меняют в перерыве против Копенгагене при счете 3-0
3) 22.10 играет 80 минут против Брайтона, 25.10 сняли в перерыве в Дортмунде — тогда он сам попросил замену (вероятно, сняв его за 10 минут до конца с Брайтоном, планировали, что тут он сможет сыграть 70-80 минут — матч ожидался потный, в случае поражения у Сити подвисал выход с первого места)
4) 19.01 играет 90 минут со шпорами, 22.01 Пеп снимает его за полчаса до конца при 3-0 (через 5 минут после третьего гола)
5) 12.02 его меняют в перерыве против Виллы при счете 3-0, 15.02 он проводит фулл матч против Арсенала — по сути, Пеп просто перераспределил нагрузку, понимая, что во второй игре он будет нужен 90 минут
6) 22.02 полный матч в гостях с РБЛ, 25.02 меняют за 20 минут до конца в Борнмуте при счете 4-0
Подходим к рассматриваемой игре: 11.03 Холанд запотел 90 минут с Пэлас (наверное, его бы сняли раньше, но результат все время был открытым), и в эту канву абсолютно ложится замена за полчаса до конца с РБЛ.
Не имея данных о накопленной нагрузке и повреждениях, рассматривая только игровое время, можно предположить, что в текущих кондициях Холанд готов играть 150-160 минут, если два матча проходят в течение трех дней. Естественно, он сыграет и два по 90, если будет подвисать результат (вряд ли бы его меняли с РБЛ, если бы Сити не вел хотя бы +2), но наверняка при этом (в конкретном случае Холанда) повышается как риск травмы, так и просто риск уйти в утомление. Вот такую информацию по каждому игроку Пеп точно держит в голове во время матча, и если счет позволяет, то избегает ненужного риска. Зачем допускать даже (условно) 20% вероятность травмы ради тир-2 рекорда? Большинство людей слишком result-oriented — представьте сценарий, что Гвардиола оставил бы Холанда для шестого гола, и он сломался бы на 80 минуте — в таком случае говорили бы наоборот, что как можно при закрытой игре не убирать лучшего бомбардира с поля и лишаться его на следующие 3-4 игры?
По-моему, причина замены более прозаичная: Холланд впервые в карьере играет в таком плотном графике, при этом к 22 годам он собрал приличный набор из мелких повреждений — и основная потенциальная причина, почему он может не побить рекорды Месси и КриРо по голам в том, что его тело более склонно к травмам — соответственно он может просто не сыграть достаточного количества матчей.
Возьмем матчи, где Сити играет через два дня на третий + в обоих задействован Холанд (часто он просто выходит только в одной из игр, если второй матч проходной по турнирной ситуации):
1) 03.09 Холанд играет полный матч против Астон Виллы, 06.09 его меняют на 70-й минуте в Севилье (через 3 минуты после того, как счет стал 3-0)
2) 02.10 он играет полный матч против МЮ, 05.10 его меняют в перерыве против Копенгагене при счете 3-0
3) 22.10 играет 80 минут против Брайтона, 25.10 сняли в перерыве в Дортмунде — тогда он сам попросил замену (вероятно, сняв его за 10 минут до конца с Брайтоном, планировали, что тут он сможет сыграть 70-80 минут — матч ожидался потный, в случае поражения у Сити подвисал выход с первого места)
4) 19.01 играет 90 минут со шпорами, 22.01 Пеп снимает его за полчаса до конца при 3-0 (через 5 минут после третьего гола)
5) 12.02 его меняют в перерыве против Виллы при счете 3-0, 15.02 он проводит фулл матч против Арсенала — по сути, Пеп просто перераспределил нагрузку, понимая, что во второй игре он будет нужен 90 минут
6) 22.02 полный матч в гостях с РБЛ, 25.02 меняют за 20 минут до конца в Борнмуте при счете 4-0
Подходим к рассматриваемой игре: 11.03 Холанд запотел 90 минут с Пэлас (наверное, его бы сняли раньше, но результат все время был открытым), и в эту канву абсолютно ложится замена за полчаса до конца с РБЛ.
Не имея данных о накопленной нагрузке и повреждениях, рассматривая только игровое время, можно предположить, что в текущих кондициях Холанд готов играть 150-160 минут, если два матча проходят в течение трех дней. Естественно, он сыграет и два по 90, если будет подвисать результат (вряд ли бы его меняли с РБЛ, если бы Сити не вел хотя бы +2), но наверняка при этом (в конкретном случае Холанда) повышается как риск травмы, так и просто риск уйти в утомление. Вот такую информацию по каждому игроку Пеп точно держит в голове во время матча, и если счет позволяет, то избегает ненужного риска. Зачем допускать даже (условно) 20% вероятность травмы ради тир-2 рекорда? Большинство людей слишком result-oriented — представьте сценарий, что Гвардиола оставил бы Холанда для шестого гола, и он сломался бы на 80 минуте — в таком случае говорили бы наоборот, что как можно при закрытой игре не убирать лучшего бомбардира с поля и лишаться его на следующие 3-4 игры?