statbase
236 subscribers
21 photos
2 links
кросс-спортивная экосистема анализа и моделирования спортивных событий
Download Telegram
Channel created
Channel photo updated
Недавно к нам заглянули наши друзья из телеграм-канала @dnortinelli с классным и дерзким запросом:
«Ребята, ваше аналитическое ядро переваривает гигантские массивы бейсбольных данных. А есть ли техническая возможность адаптировать вашу модель StatPredict под футбольные метрики?»


Что ж... Математика и дата-инжиниринг не имеют жестких границ, и у нас было немного времени между игровыми неделями, чтобы взяться за реализацию.

Прямо сейчас мы на постоянной основе обеспечиваем продвинутой аналитикой некоторые европейские бейсбольные клубы и федерации, выстраивая для них скаутинговые репорты, перфоманс ревью и предиктивные модели. Так, например, один из клубов пытается спастись от вылета из «Премьер Лиги» в «Чемпионшип», и мы с ними тесно работаем, чтобы каждое решение на поле и вне его приносило желаемый результат.

Наш внутренний фреймворк аналитики, вышеупомянутый StatPredict, изначально проектировался как гибкая кросс-спортивная система. Для алгоритмов не так важно, выбьет ли бэттер хоумран после хорошего свинга или попадет ли мяч в «девятку» после классного розыгрыша. Главное – правильно настроить веса, ролевые фильтры и симуляционные матрицы, ну и, конечно же, исходные данные.

В общем, мы приняли вызов команды @dnortinelli и решили провести масштабный практический ресерч. А чтобы тест-драйв обновленной модели был максимально показательным и релевантным, мы выбрали главный матч европейского сезона 2026 – Финал Лиги чемпионов: Арсенал против ПСЖ.

Что доработали под капотом?
Мы масштабировали архитектуру StatPredict за пределы бейсбольной логики:
• Ролевые индексы ценности и формы (PVI/PFI): теперь алгоритм оценивает игроков по специфическим метрикам (для форвардов – объем ударов и xGOT-proxy, для полузащиты – xA и продвижение, для защиты – подавление npxGA, и многое другое). В сумме в расчетной модели учитывается почти полторы сотни различных параметров
• Марковские симуляции: модель раскладывает 90 минут матча на пошаговые вероятностные состояния.
• Стресс-тесты сценариев: от логики «титульной усталости» до контроля низкого блока после «рандома с корнера».

Тизер модели: кто станет победителем «новой» ЛЧ?
Наша футбольная модель выдала обновленные расчеты по финалу:
Вероятность взять трофей: «Арсенал» – 57.7% / «ПСЖ» – 42.3% (в основное время: победа «Арсенала» – 43.4%, ничья – 26.8%, победа «ПСЖ» – 29.8%)

Сила команд (Индекс TPM): Общий рейтинг «канониров» зафиксирован на отметке 91 (благодаря железобетонной защите на 97 баллов). Парижане дышат в спину с общим TPM 85, при этом минимально опережая лондонцев в атакующей мощи (Атака: 82 против 81)

Скрипт матча: Модель четко разделяет фазы игры. «ПСЖ» опаснее и эффективнее в динамике (-0.33 в пользу Парижа по xG в open-play), но «Арсенал» тотально доминирует на стандартах (+0.26) и при давлении с угловых (+0.18)

Плотность счета: Основное время имеет высокую концентрацию «низовых» исходов. Самый вероятный счет по итогам симуляций – 1:1 (12.8%), а следом идет минимальная сухая победа «Арсенала» 1:0 (11.6%)

Это наш первый пост в формате футбольного превью. Обычно мы занимаемся нефутбольной аналитикой, но теперь надеемся радовать и вас качественными репортами.

Подписывайтесь, ставьте лайки и включайте уведомления – в скоро мы разберем ролевые модели лидеров команд и покажем, почему алгоритмы так высоко оценивают микро-профили игроков, на примере ТОП25 в АПЛ (уже в следующем посте).

Оставайтесь с нами и обязательно заглядывайте к ребятам в @dnortinelli – они уже готовят разбора перформанса Чемпионов АПЛ в своем фирменном стиле.

👇 Вся инфографика из репорта по разбору Финала ЛЧ в постах ниже

🏆 Подписаться
НО У БУКМЕКЕРОВ ДРУГИЕ ЦИФРЫ...

Почему Statbase расходится с "буками" на финал ЛЧ? Разбираем разницу в логике.

Если открыть букмекерские приложения, то можеть заметить, что фаворитом финала «Арсенал» – «ПСЖ» идут парижане. Симуляции нашего аналитического ядра StatPredict говорят об обратном – «Арсенал» имеет 57.7% на то, чтобы поднять еще один кубок в этом сезоне.

Означает ли это, что букмекеры ошиблись? Нет. Означает ли это, что модель не работает? Тоже нет.

Правильная позиция примерно такая: рынок и математическая модель отвечают на абсолютно разные вопросы.

1. Линия букмекера – цена, а не прогноз.
Букмекерская линия строится не вокруг чистого футбола, т.к. в первую очередь это сложный финансовый инструмент. В него заложены маржа, ликвидность, движение колоссальных потоков денег и, главное, психология толпы. На медийный «ПСЖ» и его звезд традиционно «грузят» огромные объемы. Чтобы сбалансировать свои риски, букмекеры вынуждены занижать коэффициент на Париж. Линия БК, по своей сути, это цена, по которой рынок готов принимать ставки прямо сейчас.

2. Модель Statbase – это холодный футбольный аудитор
Наш алгоритм очищен от эмоций, новостей и «умных денег» рынка. Он раскладывает игру на атомы: сезонные микро-роли, поправку на силу лиг (через бенчмарки EPL env vs Ligue 1 env) и симуляции с помощью марковских цепей. Модель оценивает не вероятность проигрыша букмекера, а чистую структуру футбольного матча.

Так почему же цифры разошлись?
Алгоритм Statbase не игнорирует силу парижского клуба. Напротив, модель зафиксировала у «ПСЖ» мощнейший еврокубковый сигнал реализации моментов (UCL realization signal) – они шикарно конвертируют xG в голы и доминируют в открытой игре (преимущество в open-play: -0.33 в пользу Парижа).

Но на дистанции в 10 000 симуляций «Арсенал» забирает этот финал за счет двух факторов, которые рынок недооценивает (возможно, осознанно):
Железный защитный каркас
Индекс обороны Канониров по нашей оценке равен 97 (против 89 у «ПСЖ»)
Тотальное преимущество на стандартах
Встроенная модель оценки ударов на основе xGOT дает «Арсеналу» мощный перевес на «мертвых» мячах (+0.26) и, в особенности, на давлении с угловых (+0.18)


StatPredict считает, что в стрессовом кубковом финале структурная защита и стандарты весят больше, чем атакующий хаос.

Наш подход – концепция трех углов обзора.
В Statbase мы не пытаемся доказать, что кто-то прав, а кто-то не очень.
Мы за прозрачную методологию. Поэтому в нашей аналитике мы выводим три метрики рядом:

1. Позиция рынка: Что говорят деньги и коэффициенты БК (фаворит – «ПСЖ»).

2. Оценка мат.модели: Что говорит чистая структура данных (фаворит – «Арсенал», 57.7%).

3. Сбалансированный взгляд: Наша консервативная смесь (60% модели / 40% рынка), которая идеально сглаживает аномалии и учитывает как математику, так и рыночный контекст.

Вероятности – это не предсказание будущего из хрустального шара. Это язык описания неопределенности. И если две продвинутые системы оценивают одну игру, разница в результатах – это не ошибка.
Это и есть та самая «альфа» (уникальная ценность), которую мы ищем в спортивных данных и которая является той самой интригой, что мы жаждем как зрители.

Ну и наконец, в чем сила?
Математика или Рынок, мы узнаем уже сегодня.

Инфографика, как обычно в посте ниже👇

🏆 Подписаться