Tribuna/Футбол/Блоги/Статистика не врёт/Машина времени Евгения Поболовца

Машина времени Евгения Поболовца

Играют ли деньги в футбол? Лонг-рид с корреляционным анализом, Валерием Стрельцовым и таблицей Стьюдента.

Автор — dekho
27 октября 2017, 16:03
15
Машина времени Евгения Поболовца

Играют ли деньги в футбол? Лонг-рид с корреляционным анализом, Валерием Стрельцовым и таблицей Стьюдента. 

Думаю, ни для кого не секрет, что в последнее время в Высшей Лиге чемпионата РБ по футболу наметилась явная черта, разделяющая команды. Проходит эта черта между третьим и четвёртым местами; и если на протяжении чемпионата какие-то команды иногда вклиниваются в разборки за промежуточные первое-второе-третье места (как, например, Крумкачы в начале сезона-2016 :) ), к концу сезона на первых трёх местах неизменно финиширует Большая Тройка нашего футбола — борисовский БАТЭ, солигорский Шахтёр и минское Динамо. Эта традиция неизменна уже 5 сезонов подряд (с 2012 года), и вряд ли кто-то будет спорить, что в этом году что-то изменится, учитывая 11-очковый разрыв на той самой черте перед 27-ым туром.

Причины такого разрыва, теоретически, можно искать и анализировать долго, но на поверхности плавает довольно банальный ответ — деньги. Так, например, в 2015 году разрыв между третьим и четвёртым бюджетами был в 2 млн. долларов, в 2016 году - 1 млн. долларов. Материалы по 2017 году почему-то исчезли с Трибуны, поэтому пришлось пользоваться иными источниками, которые показывают разрыв между минским Динамо и Торпедо-БелАЗ в 1.8 млн долларов (эту картину «портит» лишь брестское Динамо благодаря внезапным арабским шейхам, опережая по годовому бюджету минское Динамо).

Давно известна поговорка, что в футбол не деньги играют; её часто приводят в качестве контраргумента в спорах о том, что футбол превратился в бизнес, и самые богатые команды выигрывают. Этот спор чаще звучит относительно Лиги чемпионов, Примеры или АПЛ; в нашей старой доброй Высшей Лиге как-то все привыкли за эти пять лет, что есть три «богатых» клуба, занимающие первые три места, и есть все остальные команды. То есть, в первом приближении можно выдвинуть гипотезу, что именно деньги обуславливают результат.

Подвергнем эту поговорку чуть более детальному анализу, проведя количественную оценку ответа на вопрос: насколько сильно зависит результат команды от денег, потраченных на её существование? Или, говоря чуть более детально — каков коэффициент линейной корреляции между годовым бюджетом команды и местом, занятым ею в соответствующем сезоне Высшей Лиги чемпионата РБ по футболу?

Disclaimer: данная публикация не является серьёзным научным трудом; анализ, проводимый здесь, направлен на проверку поговорки, и поэтому проведён далеко не по всем правилам настоящего корреляционного анализа ради упрощения расчётов и восприятия статьи. Так, например, сложно делать однозначные выводы о нормальном распределении и однородности данных, учитывая небольшие размеры выборок и особенность показателя «занятое место», согласно которой одно и то же место в одном и том же сезоне не может быть занято при одном и том же бюджете.

Желающие заняться более скрупулёзным, настоящим анализом, скорее всего, уже работают на букмекерские конторы, и точно не публикуются на Трибуне :)

Для начала выясним, о каких данных можно рассуждать. К сожалению, поиск в открытых источниках не дал информации по бюджетам старше, чем 2011 год — за год до оформления границы между Большой Тройкой и «простыми смертными». Если после публикации будут найдены дополнительные данные, то данная статья будет дополнена.

Бюджеты клубов Высшей лиги в сезонах 2011-2017

Информация о бюджетах взята из четырёх источников: данные, взятые согласно by.tribuna.com и pressball.by не выделены никак; данные, взятые по football.by, выделены розовым; данные, взятые по sport.tut.by, выделены сиреневым. Данных по бюджету ФК «Витебск» за 2011 год найти не удалось; известно лишь, что они ниже, чем 1,3 миллиона. Для расчёта взят 1 миллион на пересечении двух, так сказать, «аксиом» — о том, что в те времена грешно было играть в Высшей лиге с бюджетами ниже, чем миллион, и о том, что в те времена на ФК «Витебск» город был не готов тратить больше.

Кроме того, отдельно была составлена таблица мест, занятых командами Высшей лиги в тот же период, для расчётов и удобства приведённая ниже.

Распределение мест Высшей лиги в сезонах 2011-2017

Сезон 2017 приведен по состоянию на начало 27 тура, без учёта «казуса Веремко», потому как окончательное решение по данному делу ещё не принято.

Тогда для некоего множества команд К, участвовавших в высшей лиге с 2011 года, у нас есть от 1 до 7 точек в трёхмерном пространстве (Сезон; бюджет; место), которые мы можем тем или иным образом подставлять в графики и формулы.

Как выглядит для каждого сезона зависимость между местом и бюджетом?

 

Почти что 3d-график, показывающий соотношение мест и бюджетов клубов, эти места занявших

Невооружённый глаз видит на этом графике то, что и подсказывает здравый смысл — чем больше у тебя денег, тем лучше ты выступишь. В регрессионный анализ (тем более нелинейный или нескольких переменных) мы не полезем, но гипотетическая регрессионная кривая по каждому сезону вполне похожа на гиперболу; конечно, видны и пиковые значения с большим отклонением от этой гиперболы. Так, например, брестское Динамо образца-2017 пока ещё не оправдывает свой бюджет; у него есть ещё 4 тура, чтобы уменьшить среднеквадратичную ошибку гиперболы-2017 :)

Однако для простоты расчётов предположим, что зависимость (если она есть) всё же линейна.

Если принимать «годовой бюджет» как независимую переменную X, а результирующее место команды в сезоне — как зависимую переменную Y, то для каждого отдельного сезона можно рассчитать линейный коэффициент корреляции, показывающий, насколько совпадала реальность с чаяниями боссов футбольных клубов.

Расчёт линейных коэффициентов корреляции по стандартной формуле, не учитывающей коррекцию среднеквадратичных отклонений

Некоторые пояснения по таблице. Здесь N означает количество элементов в рассматриваемой выборке, т. е. сколько единиц данных у нас есть по каждому году (соответствует количеству команд в сезоне). Sum(x) — сумма всех бюджетов лиги (кстати, можно заметить, сколько денег тратится в нашей Высшей лиге); остальные показатели чисто технические и прямого смысла не имеют. R — непосредственно линейный коэффициент корреляции, исчисляемый в пределах от -1 до 1. Отрицательное значение этого коэффициента показывает, что существует обратная связь («чем меньше бюджет, тем больше номер места, на котором окажется команда»).

Так что же, 0,66? 0,84? И всё? Что с этими числами делать, как их интерпретировать?

Закономерный вопрос. Шкала Чеддока, используемая как раз для этой интерпретации, для коэффициента R при значении выше, чем 0.7 по модулю, говорит про «высокий уровень связи между признаками» (а между 0.5 и 0.7 - «заметный уровень»). То есть — да, связь между бюджетом и занимаемым местоместь, и довольно прочная.

Прочность этой связи была немного нарушена в сезоне-2016, когда бюджетно крепкие «Неман» и «Белшина» финишировали в конце таблицы (про «Гранит» не будем, он как раз оправдал ожидания), а довольно «голые» новички «Ислочь» и «Крумкачы» финишировали гораздо выше положенных им мест (равно как и брестское Динамо, чей бюджет в расчётах мы использовали именно в заявленном до начала сезона виде — то есть до прихода инвесторов, которые, конечно, влили в клуб свежих и неучтённых нами денег). 5 команд из 16 сыграли не по бюджету, корреляция сезона-2016 захромала.

Подождите, а как мы вообще можем доверять этим результатам?

Ну, ээ, никак.

Ещё в начале, в дисклэймере, мы честно сообщили о проблемах с рассматриваемыми данными. Но если предположить, что этих проблем нет, тогда можно провести проверку достоверности с помощью t-критерия.

Расчёт t-критерия для полученных ранее коэффициентов корреляции

Желающие могут довольно легко нагуглить процесс расчёта этого показателя, так что мы его не приводим здесь. Суть в том, что для заявленных количества элементов в выборке и уровня значимости при альфе, равной 1%, расчётный показатель T должен быть больше, чем соответствующий ему пороговый показатель из таблицы Стьюдента. Как мы видим в таблице, он выше порогового для всех сезонов (даже для сезона-2016), что согласно определению критерия читается как: «вероятность наступления события, которое покажет, что расчётные коэффициенты корреляции незначимы, меньше 1%».

Что можно перевести на человеческий язык следующим образом.

В белорусской высшей лиге лучше выступают те команды, у которых выше бюджеты, и уровень связи между результатами и размерами бюджетов — высокий. Вероятность опровержения предыдущего утверждения — меньше 1%.

То есть мы доказали то, что все и так всегда знали.

Романтика игры разбивается о скучную серость бытия с её неумолимыми экономическими законами. Любому крумкачу тоже нужно кушать и кормить семью, и чем меньше бюджет команды, тем ниже вероятность, что эта команда будет побеждать на протяжении сезона.

Но для чего все эти расчёты? Чем 0,78 отличается от 0,84?

У стандартного линейного коэффициента корреляции есть интересное свойство, на которое не всегда обращают внимание. Звучит оно примерно так — если признак X отклонится от своего среднего значения на одно среднеквадратичное отклонение, то признак Y отклонится от своего среднего значения на своё среднеквадратичное отклонение, умноженное на коэффициент корреляции.

Среднеквадратичные отклонения рассматриваемых признаков

А теперь — перевод. В первом столбце — количество денег, которое команде со средним бюджетом нужно дополнительно привлечь. В последнем столбце — количество мест, на которое предположительно поднялась бы эта команда («уменьшился бы номер места», отсюда и минус) благодаря целевому использованию привлечённых денег.

Дьяволёнок на левом плече подмывает меня написать что-то спекулятивное в качестве промежуточного вывода. Например, что именно этих денег (из первого столбца) не хватало Гомелю в 2011 и 2012 годах, чтобы с большой вероятностью становиться чемпионом.

Конечно, это не так. Если Евгений Поболовец сейчас схватит 2 миллиона долларов, прыгнет в машину времени и в январе 2012 года передаст эти деньги самому себе ради чемпионства клуба, Гомель совсем не обязательно придёт первым к финишу в конце 2012 года.

"Нет-нет, Евгений, подождите, это ничего не решит!"

Во-первых, вполне возможно, что в 2011 и 2012 годах Гомель и так прыгал выше головы; во-вторых, наличие этих дополнительных денег ничего не может обещать в плане результатов, ведь их ещё нужно правильно освоить — подобрать такое сочетание людей (управленцев, медиков, игроков, тренеров и т. д.) и инфраструктуры (тренировочная база, питание, транспорт, манишки, литература, софт, медикаменты и т. д.), которое даст результат. Вот тут и заключена вся магия. Именно на это и намекает та самая поговорка о том, что не деньги играют в футбол, а люди.

Ведь так легко ошибиться.

Но подождите, а можем ли мы оценить количественно эту магию?

И тут мы подходим к самому интересному, делая следующий логический шаг. Мы вывели довольно достоверный коэффициент корреляции, позволяющий оценить некое гипотетическое место в сезоне, которое клуб занял бы, исходя из бюджета. Мы знаем, какие места реально заняли команды. Очевидно, что иногда команды играли лучше прогноза, иногда — хуже. И эту разницу мы можем оценить количественно. И даже интерпретировать то, что мы получим.

Разница между расчётным и реальным местами команд. Значения с минусом означают выступления хуже расчётного, без минуса - лучше

Учитывая принцип конкурентного распределения мест, в котором две команды с одинаковым бюджетом не могут занять одно и то же место, как бы им ни хотелось, нужно простить командам разницу, меньшую 1. Учитывая плотность очень похожих бюджетов, можно даже простить разницу в 2. Но для бОльших разниц мы можем с некоторой уверенностью сказать, что они как раз и отражают влияние третьего фактора — умения директората осваивать бюджет и противостоять внешним малоконтролируемым факторам (например, волюнтаризм городских властей, разногласия с фанатами, конфликт с директором стадиона...). Оценить этот фактор количественно мы не можем; максимум — вывести из разницы мест некоторый «коэффициент освоения бюджета» (разница мест, делённая на 2), который может нам показать некоторые интересные моменты.

Коэффициент освоения бюджета для каждой команды в каждом сезоне

Исходя из предыдущих предпосылок очевидно, что значения коэффициента от -1 до 1 показывают примерное соответствие расчётного места и реального, то есть бюджет потрачен среднестатистически хорошо, команда отклонилась от расчётного места не больше, чем на 2 позиции.

Интересны же ситуации, в которых коэффициент выходит за пределы этого интервала. Это значит, что по какой-то причине команда сыграла в сезоне гораздо лучше или гораздо хуже прогнозируемого (больше, чем 2 позиции разницы).

В таблице 39 таких позиций, и анализировать каждую уйдёт слишком много времени и сил. Поэтому остановимся лишь на нескольких из них.

Гомель

К слову о машине времени Евгения Поболовца. В сезонах 2011 и 2012, Гомель, оказывается, действительно прыгнул выше головы. Однако дальше в связи с кардинальной сменой политики комплектации состава магия разрушилась, в сезонах 2013 и 2014 команда играла согласно бюджету, а в 2015 году наступил крах. И если умение осваивать бюджет было на высоте, плохое умение противостоять внешним факторам подкосило директорат.

Белшина

4ое место Белшины в 2015 году действительно было взято вопреки бюджету. Бобруйский клуб сыграл на 5 позиций лучше прогнозируемого, и виной тому как раз та самая магия. В то же время одиозная Белшина-2016 сыграла, как Вы все помните, гораздо хуже расчётного места (по изначально заявленному бюджету), благодаря очень скоротечному приходу и уходу российских инвесторов. Это, кстати, самый глухой пролёт среди всех результатов 2011-2017, на 6 позиций хуже прогнозируемого места.

Торпедо-БелАЗ

Буквально сегодня утром Николай Ходасевич опубликовал на Трибуне заздравную статью о том, что жодинцы, грубо говоря, молодцы. Его вывод основан на статистике игр клуба после прихода Олега Кубарева. Наш вывод, который звучит примерно так же, основан на чуть бОльшем наборе данных.

Вот уже пять сезонов подряд Торпедо-БелАЗ занимает места согласно или даже лучше своего бюджета. Более того, в сезонах 2016 и 2017 (если торпедовцы удержат четвёртую позицию) команда прыгает даже выше головы. Более того, гипотетическая четвёртая позиция в сезоне-2017 станет самым сильным прыжком вверх — на шесть позиций выше расчётной (да, бюджет Торпедо, на самом деле, даже меньше среднего по лиге в сезоне-2017, в связи с чем они должны, теоретически, брать примерно 10-ое место).

Днепр

И последнее наблюдение, о котором хочется сказать. Вот уж кому не везёт с управлением деньгами. Три раза из четырёх за последние 7 лет, когда могилёвская команда играла в Вышке, она делала это хуже, чем должна (согласно своему бюджету). Прибавим сюда Первую лигу-2015, когда с наилучшим бюджетом лиги Днепр умудрился отдать проходное третье место «нищим» «Крумкачам», и возникнет большой вопрос об умении работать в директорате Стрельцова.

Видимо, такой же вопрос возник в своё время и у городских властей, после чего в сезоне-2017 Днепр уже играет вполне сообразно своему бюджету (ну чуть-чуть хуже, но это малозначимая деталь).

Постскриптум

Каждый сам волен делать новые выводы на основании предоставленных выше расчётов. Я намеренно не говорил о силе и умениях тех или иных тренеров, игроков и управленцев. Евгений Поболовец и Валерий Стрельцов были далеко не единственными факторами влияния на освоение бюджетов в своих клубах в том или ином сезоне, поэтому нельзя хвалить или вешать собак только на них, ведь правда куда комплексней и запутанней. Однако наш корреляционный анализ позволил в некоторой мере показать количественно, что да, действительно, там или сям есть или были проблемы, а вон там — почему-то получилось гораздо лучше, чем ожидалось. И подобные выводы могут стать первым шагом на пути объективной оценки причин и следствий.

Если, конечно, это вообще кому-то надо.

Использованы фото с сайта the-big-bang-theory.com

Информация о бюджетах взята с сайтовpressball.by, sport.tut.by (раз, два), football.by (слишком много ссылок)

Лучшее в блогах
Больше интересных постов