巴西奪冠可能性最大?牛津學者用統計模型預測世界盃比賽走勢

近日,科學家用統計學中常用的“雙泊松”統計模型評估卡達世界盃中球隊的進攻和防守實力。根據模型統計結果,巴西隊與比利時隊最有望奪冠。

因為,巴西隊曾在 1958 年、1962 年、1970 年、1994 年、2002 年五次奪得冠軍。不僅如此,在曾經的比賽中,巴西隊無論是進攻指數還是防禦指數都名列前茅。

巴西奪冠可能性最大?牛津學者用統計模型預測世界盃比賽走勢

動圖 | 球賽中球員的實際跑動路線與模型預測的鏡頭之外的球員跑動路線(來源:DeepMind)

高科技不僅改變了足球隊員們對比賽的認知,也改變了球員分析對手與教練培養球員的方式。在此過程中,預測足球比賽結果也成為球迷們熱衷的事情。為此,統計學家一直努力地尋找不同的方式對進球和失球數進行建模。

據瞭解,該模型由英國牛津大學數學與統計學博士生馬修·佩恩(Matthew Penn)開發,透過分析隊員過去的進球數和失球數等表現,準確地預測出比賽結果。它曾在 2020 年歐洲足球錦標賽上正確預測到義大利能夠擊敗英格蘭。

儘管科學家一直在不斷開發新的預測方法,但由於該模型集合了所有其它模型的優勢,並可以產生高質量的結果。因此,它一直是預測足球比分的熱門選擇之一。

巴西奪冠可能性最大?牛津學者用統計模型預測世界盃比賽走勢

圖 | 使用“雙泊松”模型預測卡達世界盃各隊奪冠的可能性大小(資料來源:Nature,製圖:DeepTech)

巴西奪冠可能性最大?牛津學者用統計模型預測世界盃比賽走勢

進攻與防守指數確定泊松機率

2022 年 5 月 19 日,發表在 PLoS One 上的一篇論文,曾對“雙柏松”統計模型做出過詳細的分析,論文題為《預測 2020 年歐洲盃比賽結果的雙泊松模型分析》(Analysis of a double Poisson model for predicting football results in Euro 2020)為題。

巴西奪冠可能性最大?牛津學者用統計模型預測世界盃比賽走勢

(來源:PLoS One)

論文中指出,在該模型中,每個球隊的進球數都可以被換算成泊松機率分佈。並且,透過該模型可以統計出球隊在比賽過程中的進球個數,其均值取決於球隊的進攻和防守能力。

實際比賽的過程中,除了雙方的綜合實力,還受運氣等外在因素影響,因此結果具有不確定性。考慮到這點,在用“雙泊松”模型描述球隊水平時,會提前設定“進攻”與“防守脆弱性”指數。

其中,“進攻”指數越高表示球隊進球越容易,“防守脆弱性”指數則相反,越高表示進球越難。

在獲得“進攻”與“防禦脆弱性”指數後就能算出“泊松機率分佈”平均值。“雙泊松”模型中設定不同的球隊可以根據各自不同的“雙泊松”過程得分,並將 A 和 B 球隊的預期進球得分設定為 μ(A,B)。

需要注意的是,統計模型在計算的過程中會將進球速度看做是恆定的,也不考慮進球的具體時間,只需要考慮進球數。

此外,“泊松機率分佈”的計算過程使用了“無記憶”假設,即一個進球不會影響比賽其餘的進球數。這些通常是模型的潛在錯誤來源。

巴西奪冠可能性最大?牛津學者用統計模型預測世界盃比賽走勢

圖 | 各國贏球機率預測(來源:Matthew Penn)

同樣值得注意的是,在這個模型中,沒有對主客場比賽進行區分。也就是說,無論比賽在哪裡進行,A 隊對 B 隊的預期進球數都將等於 μ(A,B)。這是一個簡化的假設,不僅減少了引數的數量,而且避免了小資料集的過度擬合。

事實上,由於不同球隊之間的相關聯結果數量很少(其中許多球隊根本沒有進行過比賽),會根據情況減少模型中的引數數量。

巴西奪冠可能性最大?牛津學者用統計模型預測世界盃比賽走勢

預估球隊分數

接下來,在計算不同球隊預計進球數的過程中,模型預設球員都按照最理想的情況發揮。“預計進球數”等於 A 球隊的進攻指數乘以 B 球隊的防守脆弱性指數,在計算 B 球隊的進球數過程中也是如此。

例如,A 球隊的進攻指數是 8,防守脆弱性指數是 0。4;B 球隊進攻指數是 10,防守脆弱性指數是 0。6,雙方的得分為 4。8:4(模型預設為 5:4)。

但是,由於比賽過程中充滿不確定因素,A 隊 4。8 的進球數與 B 隊 0。6 的進球數都被當做平均泊松機率分佈。所有比分的機率大小取決於兩個進球數機率值的乘積。

A 和 B 球隊攻擊力和防守脆弱性指數都是根據球隊過去的表現與分數綜合地確定,需要不斷更新與調整,將預測的柏松機率分佈數值與比賽中實際獲得的分數匹配。

巴西奪冠可能性最大?牛津學者用統計模型預測世界盃比賽走勢

(來源:Pixabay)

因此,在實際預測過程中,球隊可能出現的分數都會被預測出來,最後可以預估出奪冠的球隊。

馬修·佩恩在牛津大學官網上表示:“雙柏松統計模型預測了一百萬次球賽,得出世界盃十六強晉級走勢及冠軍歸屬。

根據預測結果,荷蘭、伊朗、阿根廷、丹麥、西班牙、克羅埃西亞、巴西等球隊會進入十六強。阿根廷進入四強,巴西將在四分之一決賽時淘汰西班牙。”

參考資料:

1。Penn, Matthew J。, and Christl A。 Donnelly。 Analysis of a double Poisson model for predicting football results in Euro 2020。

PLoS One

,17。5:e0268511(2022)。 https://journals。plos。org/plosone/article?id=10。1371/journal。pone。0268511

https://journals。plos。org/plosone/article?id=10。1371/journal。pone。0268511

https://www。nature。com/articles/d41586-022-03698-1

https://www。nature。com/articles/d41586-022-03809-y

https://www。maths。ox。ac。uk/node/61756