Blocknote
8.32K subscribers
1.17K photos
133 videos
23 files
1.69K links
"Если ты в меньшинстве - или даже в единственном числе - это не значит, что ты безумен". Для связи: @nikitarfs
Download Telegram
С большим интересом прочитал в этой статье (https://theathletic.com/3181844/2022/03/15/passive-or-aggressive-spread-or-smother-using-body-poses-to-understand-goalkeeper-technique/) о подходах к выработке оптимальной стратегии для вратаря при выходах 1 на 1 — в зависимости от точки и находится ли игрок атаки под прессингом. Первый подход — человек вручную классифицировал каждый эпизод (~5000), заранее определив все возможные стратегии и выработал оптимальные в зависимости от положения бьющего.

Второй — сеть обучилась на нескольких сотнях ударов в ситуациях 1 на 1, выделила четыре наиболее встречающиеся стратегии/стойки, определила оптимальные в зависимости от позиции бьющего и оказанного на него давления (на Sloan была подробная работа — https://arxiv.org/ftp/arxiv/papers/2202/2202.12259.pdf). В большинстве своем результаты совпали, но комплексно человеческие выводы интуитивно более логичны.
На фоне общей ситуации АПЛ под микроскопом надо изучать трансферы Брайтона — стабильно в нижней части таблицы по тратам, но в верхней по перформансу. В это окно скромно (на 10 млн) взяли двух типов 2003 и 2004 годов — у Ауари, по виду, много шансов преуспеть в АПЛ: не сразу, может быть через аренду в Юнион на сезон, но вероятность хорошая. Да, только шведская лига и не такой большой наигрыш, но много качеств с мячом, динамичный, интенсивный в обороне, очень редкий набор топовых результатов в метриках для центрального полузащитника такого возраста — и главное, что отлично подходящий под манеру игры Брайтона.
Действительно мощный прогноз по исходу, но по игре все вышло значительно лучше для Дайча — Эвертон хоть и был без мяча, но значительно острее по моментам. Видно, что Дайч продуктивно провел несколько дней после назначения: давно не видел Эвертон настолько организованным без мяча — компакты в центре, своевременно сдваивались на крайних нападающих на фланге, высоко жали линию (пока могли это делать). С мячом тоже типичная игра Дайча — длина, подборы, заходы в штрафную через кроссы, примерно одна и та же идея на всех угловых с приходящими подачами и насыщением вратарской. Очень позитивная динамика — 18-19 оборона лиги до этого матча практически ничего не позволила создать команде с топ-3 атакой.
Один из главных скиллов Дайча — умение быстро и понятно объяснять простые вещи. На картинке ситуации (собранные не вручную, а с помощью трекинга), когда Арсенал был во фланговых зонах в трети поля Эвертона 10 секунд и более.
Инцидент с пенальти в конце тайма даже несколько затмевает очередную оригинальную идею Гвардиолы — Бернарду Силва чуть ли не впервые играет ложного левого фулбека, что разумно, учитывая, что Сити 70% времени на мяче, а правого вингера у Астон Виллы играет номинальный центральный полузащитник (Сити получает самый мощный из возможных вариантов на мяче в этой позиции, при этом не беря на себя большой риск в обороне, если бы вместо Рамзи играл профильный быстрый крайний нападающий с обыгрышем 1 в 1).

В пенальти меня смущает исполнитель — при живом Холанде (93.8% реализация, ни одного промаха за Сити) бил Марез (70% реализация, из-за его промахов в последний год Сити не выиграл два матча в ЛЧ и чуть не упустил чемпионство). Не иначе как Пепа задевают разговоры, что по проценту голов команда слишком зависима от Холанда, и он при комфортном счете читерит, давая бить Марезу.

P.S. Замена Холанда в перерыве, возможно, указывает на его повреждение — тогда логично, что ему не дали бить.
Хороший пример, когда люди часто не совсем понимают определение метрик, которые используют. Fbref недавно поменял условия для progressive passes & runs — если раньше ориентиром был центр ворот, то теперь просто лицевая линия. Полное безобразие, потому что большое количество передач/ранов из центра во фланг с относительным продвижением относительно лицевой (но без продвижения относительно центра ворот) будут относиться к этой категории, хотя фактически они не будут с продвижением и не будут улучшать владение. Еще более вопиющий пример на картинке B — передача из опорной зоны в угловой флаг будет считаться с продвижением, т.к. сильно продвинет относительно лицевой.

Понятно, что в таких метриках ориентир должен быть относительно центра ворот, но второй немаловажный момент — странно брать какую-то минимальную отсечку (например, минимум 15 метров), куда логичнее каким-то образом рейтинговать все действия (через метры вперед или тот же fields gained). Но глобально это уже архаичные метрики — нон-шот и аналоги дают более комплексную оценку: каждый пас/ведение оцениваются с точки зрения влияния на вероятность забить в этом владении, гораздо лучше учитываются координаты (пас на 15 метров вперед на своей половине не отрейтингуется лучше, чем проникающий на 7 метров вперед около штрафной), есть понятные штрафы за потери (а без них метрики переоценивают излишне рискующих игроков, которые при этом могут часто обрезать), лучше оцениваются ситуации за счет возможности передать время с начала владения или тип передачи.
Сейчас проходит соревнование по предсказанию результатов футбольных матчей Soccer Prediction Challenge. Этот же состав организаторов проводил такое же соревнование 6 лет назад, в приложении статья в журнале Machine Learning его описывающая (там же есть финальные результаты).

Сайт соревнования: https://sites.google.com/view/2023soccerpredictionchallenge/home

В нём Вам будет нужно предсказать результаты матчей в 35 лигах, которые будут сыграны с 16 по 29 апреля. Крайний срок отправки решения: 23:59 13 апреля.
Теперь немного подробнее. Для каждого матча нужно будет сделать два предсказания: точный счёт, а также вероятности победы хозяев, ничьи и победы гостей.

С первым пунктом всё довольно просто, предсказываете точный счёт, дальше считается среднеквадратичная ошибка от промаха по голам хозяев (0, если указали точно) плюс того же самого по голам гостей. Чем меньше RMSE, тем лучше. В этом отличие от соревнования 6-летней давности, там просто считалась точность (кол-во точных предсказаний/общее кол-во предсказаний), и лучший результат был 53.88%.

Во втором случае Вам нужно создать массив из трёх чисел от нуля до единицы, где первое число — вероятность победы хозяев, далее вероятность ничьи и вероятность победы гостей. Дальше для каждого матча считается метрика ranked probability score (RPS). Логика примерно такая же: насколько ваши вероятности разошлись с реальностью.
Пример: вы предсказали такие вероятности (0.85, 0.1, 0.05). В реальности победили гости, поэтому вектор такой (0, 0, 1), а у вас большие проблемы). Считается RPS для каждой игры, а потом берётся его среднее значение. Так же, как и в первой части, у кого метрика меньше, тот и победил.

Немного про данные. Предскзаать нужно около 630 игр из 35 лиг (количество и того и другого может к апрелю поменяться). Дан тренировочный датасет с результатами игр с сезона 2000/01. Но в нём никаких xG и прочих изысков: кто играл и счёт. Но в правилах есть оговорка, что модель может быть построена на данных, предоставленных организаторами или других открытых данных, так что есть возможность соскрэпить fbref или understat.

Если кто заинтересовался участием вся информация есть на сайте организаторов.

#mlcompetition #soccer
Dubitzky2018_Article_TheOpenInternationalSoccerData.pdf
951.8 KB
Статья в журнале Machine Learning о соревновании 2017 года
Сходу не вспомнить, когда бы в последний раз Уокер весь матч играл длинный фланг и был бы в широкой позиции в атакующей пятерке — именно постоянно в структуре, как в игре с РБЛ, а не при эпизодической позиционной ротации. Обычные его позиции, когда Сити с мячом — в тройке ЦЗ, либо ложный фулбек. В широких позициях в верхней пятерке практически всегда играют профильные атакующие игроки — сильные 1 в 1, способные комбинировать и стабильно создавать моменты. По идее и в матче с РБЛ была такая опция: Марез мог бы играть в ширине, Бернардо — в полуфланговой позиции, — а Уокер в опорной зоне рядом с Родри (с позиционной ротацией в этом треугольнике, где Бернардо мог бы оказываться в трех позициях, а Уокер и Марез — в двух).

Но Пеп использовал Уокера именно в ширине, и эксперимент оказался неудачным — 1 в 1 он обыгрывает только если за спиной у соперника много пространства, комбинирует хуже относительно партнеров, перед штрафной практически все эпизоды закончил потерями (из шести попыток внутрь прошла только одна). В целом он не особо был настроен продвигать мяч, часто изначально не располагая корпус для первого касания и последующей передачи вперед — из его пас-мапа хорошо видно, что практически все точные пасы в развитии шли назад. По большому счету Сити а) играл без конкретики с этого фланга — по нон-шоту (влиянию на качества владений команды за счет передач и ведения) у Уокера с отрывом худший результат в команде (близко только Холанд, который традиционно был отрезан от остальных), — очень сильный контраст с результатом Грилиша б) лишился привычной позиционной ротации, поскольку Уокер еще менее эффективен между линиями. Тем страннее, что даже по ходу игры не было попыток сделать перестановки внутри атакующей структуры, вернувшись к более привычным позициям Мареза и Уокера.
С новыми доступными позиционными данными (позволяет считать количество защитников между мячом и воротами и расстояние до своих ворот самого глубокого защитника при приеме) возможна визуализация, неплохо (хотя бы частично) отражающая манеру нападающего — помимо зон приема еще и немного о типе открываний.
Случайно наткнулся на это относительно старое интервью — тогда тренера сборной Дании U-21, сейчас уже главного тренера Мидтьюланда (https://www.canofootball.com/articles/interviews/albert-capellas-in-football-you-have-to-decide-what-runs-the-ball-or-the-player/). Много интересных мыслей — в том числе в выделенном отрезке про позиционный футбол.
С удивлением читаю преобладающие мнения, что Пеп заменил Холанда, чтобы тот не побил рекорд Месси по голам в одном матче плей-офф. По мне, это ахинея. Не только потому что тренеры не думают во время игр о спонтанных рекордах — безусловно Пеп знал о том, что Месси воткнул пять Байеру, но во время матча тренер даже при комфортном счете обычно на стрессе и держит в голове десятки других, более важных в текущей ситуации, вещей (это не то же самое, когда перед матчем ожидается какой-то юбилейный гол — заранее запланированное, ожидаемое событие).

По-моему, причина замены более прозаичная: Холланд впервые в карьере играет в таком плотном графике, при этом к 22 годам он собрал приличный набор из мелких повреждений — и основная потенциальная причина, почему он может не побить рекорды Месси и КриРо по голам в том, что его тело более склонно к травмам — соответственно он может просто не сыграть достаточного количества матчей.

Возьмем матчи, где Сити играет через два дня на третий + в обоих задействован Холанд (часто он просто выходит только в одной из игр, если второй матч проходной по турнирной ситуации):

1) 03.09 Холанд играет полный матч против Астон Виллы, 06.09 его меняют на 70-й минуте в Севилье (через 3 минуты после того, как счет стал 3-0)

2) 02.10 он играет полный матч против МЮ, 05.10 его меняют в перерыве против Копенгагене при счете 3-0

3) 22.10 играет 80 минут против Брайтона, 25.10 сняли в перерыве в Дортмунде — тогда он сам попросил замену (вероятно, сняв его за 10 минут до конца с Брайтоном, планировали, что тут он сможет сыграть 70-80 минут — матч ожидался потный, в случае поражения у Сити подвисал выход с первого места)

4) 19.01 играет 90 минут со шпорами, 22.01 Пеп снимает его за полчаса до конца при 3-0 (через 5 минут после третьего гола)

5) 12.02 его меняют в перерыве против Виллы при счете 3-0, 15.02 он проводит фулл матч против Арсенала — по сути, Пеп просто перераспределил нагрузку, понимая, что во второй игре он будет нужен 90 минут

6) 22.02 полный матч в гостях с РБЛ, 25.02 меняют за 20 минут до конца в Борнмуте при счете 4-0

Подходим к рассматриваемой игре: 11.03 Холанд запотел 90 минут с Пэлас (наверное, его бы сняли раньше, но результат все время был открытым), и в эту канву абсолютно ложится замена за полчаса до конца с РБЛ.

Не имея данных о накопленной нагрузке и повреждениях, рассматривая только игровое время, можно предположить, что в текущих кондициях Холанд готов играть 150-160 минут, если два матча проходят в течение трех дней. Естественно, он сыграет и два по 90, если будет подвисать результат (вряд ли бы его меняли с РБЛ, если бы Сити не вел хотя бы +2), но наверняка при этом (в конкретном случае Холанда) повышается как риск травмы, так и просто риск уйти в утомление. Вот такую информацию по каждому игроку Пеп точно держит в голове во время матча, и если счет позволяет, то избегает ненужного риска. Зачем допускать даже (условно) 20% вероятность травмы ради тир-2 рекорда? Большинство людей слишком result-oriented — представьте сценарий, что Гвардиола оставил бы Холанда для шестого гола, и он сломался бы на 80 минуте — в таком случае говорили бы наоборот, что как можно при закрытой игре не убирать лучшего бомбардира с поля и лишаться его на следующие 3-4 игры?
Forwarded from Fit Predict
MIT Sloan выложил доклады.

https://www.youtube.com/watch?v=icHe8mgLpeE&list=PLhbPeSFiFnAbqricaUvWo0sLL4xMndxFL&index=1

Посмотрел пока только три и они совсем грустные.

A Graph Neural Network Deep-Dive into Successful Counterattacks

Авторы обучают сеть, которая должна предсказывать закончится ли контратака в футболе успешно или нет. Успешность определяется так: если контратака закончилась входом в штрафную, то она успешная, если нет, то нет. Непонятно, зачем обучаться под такой странный таргет, если можно подгоняться под EPV в конце контратаки, например. Справедливости ради, авторы об этой проблеме упомянули.

Потом авторы рассказали, как использовать их модель. Тут и начались фокусы: давайте у двух игроков атаки векторы скоростей повернем, тогда вероятность успешности контратаки увеличится. При этом движения игроков защиты соперника тоже должны бы измениться, чего авторы не учитывают.

Estimating Positional Plus-Minus in the NBA

Работа делится на две части:
1) Пропустим игроков и типы их атак (Isolation, P&R Handler и другие) через K-means, на выходе получим 7 кластеров, которые подразумевают более адекватную позицию игрока в отличие от традиционных PG, SG и тд.
2) На этих позициях обучим регрессию, которая будет предсказывать +/-.

На основе прогнозов авторы делают выводы вроде Versatile Scorers - самые полезные игроки. Конечно, если один кластер будет представлять из себя игроков вроде Джейсона Тейтума, то этот кластер самым полезным и окажется. Но это же не означает, что если ты попросишь условного Пи Джея Такера поменьше бросать из-за угла и побольше прорываться под кольцо, то он станет играть эффективнее.

Ну и уровень дискуссии соответствующий: "Скажите, пожалуйста, а почему у вас 7 кластеров, а не, скажем, 12?". О проблеме задачи кластеризации поговорим чуть подробнее в следующем посте.

Fair and Efficient Ranking in Incomplete Tournaments

Человек целый час изобретал Elo-подобный велосипед, чем он лучше того же Elo, не говоря уже о Glicko, человек не объяснил.
Люблю такие статистические сравнения, где наглядно видна разница в стиле лиг.