最小二乘法的前世今生，及其與平均值的關係

張三同學近5次月考的數學成績分別為： 98，114，103，108，99。如果只能使用一個數據來描述張三的成績，我猜你會使用

算術平均數

：（98+114+103+108+99）/5=104。4。

算術平均數

在我們生活中如此的常用，以至於我們沒有去思考它的合理性和適用範圍？僅僅依據經驗做事，我們的確少了很多思維上的折磨，但有時也會做出錯誤的判斷。比如，這裡我們將張三第5次月考的成績改為13分，直接使用算術平均數來描述張三的成績就不合理了。

算術平均值是統計學中最基本、最常用的一種平均指標。

18世紀中葉，人們就在天文和航海領域熟練運用算術平均數來減少相同條件下的資料測量誤差了。英國著名數學家

科茨

在1750年也在減少誤差使用到了

加權平均

（ The weighted average）。但是我們很難確保他們是否真的懂得使用平均值減少資料誤差的數學原理。

Let p be the place of some object defined by observation， q， r， s the places of the same object from subsequent observations。 Let there also be weights P，Q， R， S reciprocaly proportional to the displacements which may arise from the errors in the single observation， and which are given from the given limits of error； and the weights P， Q， R， S are conceived as being placed at p， q， r， s， and their centre of gravity z is found： I say the point Z is the most probable place of the object， and may be most safely had for its true place。（科茨作品中關於加權平均的記載）

以上面的5次月考成績為例，我們先跳出平均數這個圈，來看看一般性原理。為了能夠直觀理解，我們先來作一個簡圖。

現在我們要找到一個合適的y值，使得它能替代這5次成績。一個好的想法是讓y到這五個點的豎直距離之和最小。

記這5個點到y的豎直距離之和為Z，則

Z=|y-98|+|y-114|+|y-103|+|y-108|+|y-99|

絕對值不利於後續計算，因為只需求當Z取最小時的y值，因此可以使用等價形式：

很容易看出這是一個二次函式，在對稱軸y=y’處取得最小值。其中

y’=（ 98+114+103+108+99）/5 ，且y’恰好是這5次月考成績的算術平均值。

總結一下，為了找出最能代表5次月考成績的真值y，我們使用了到y值的“距離平方的和”最小的原理。用今天我們熟悉的稱呼叫做“最小二乘法（least square method）”，這裡的二乘就是平方的意思。

從上面的分析，我們已經知道最小二乘法的發現與平均值密切相關，並且可以牽強的追溯到科茨的時代。但是真正的清晰闡述這個原理的是，18世紀法國著名數學家勒讓德（Legendre，1752－1833）。當然，與上面的成績分析也沒有一點關係，最初都是用於解決測量資料誤差的問題。

闢謠：此圖不是數學家勒讓德

勒讓德的思路是這樣的：

在實際問題中，一個數據受到多個因素的制約，因此可以根據資料得到多個下面這樣的方程：

E=a+bx+cy+...(其中，a,b,c為已知數，x,y為未知數)

這裡的E指的誤差。根據方程組知識，如果這樣的（含有n個未知數的）方程恰好有n個，則E為0，沒有誤差。但是如果這樣的方程多於n個，那麼誤差E必然存在。

勒讓德與最小二乘法

那如何使得誤差最小呢？勒讓德的做法是讓所有方程的誤差平方和最小。

勒讓德使用的

求和符號

與現在不同，他的符號是現在通用的積分符號

∫

。

勒讓德的處理方式很巧妙，一直到現在我們都很少有改動，最後讓我們一起來看看最小二乘法“二維的情況”，以及勒讓德之前和之後的數學家們的一些工作。

勒讓德（只有這張抽象的圖了）

（一）。最小二乘法“二維的情況”

比如，人體脂肪與年齡的關係（高中教材人教A版必修三85頁）：

畫出散點圖，可以觀察得到這些點在直線f（x）=ax+b的周圍。為了敘述方便，記原始資料中的年齡為xi，脂肪百分比為yi。

使用最小二乘法原理，誤差的平方的和z要最小：

帶入資料接出a≈0。557，b≈-0。448。即，這條擬合直線方程為：

f(x)=0.557x-0.448

。

（二）。其他數學家的工作

首先，作為第一次的有效嘗試，

梅耶

（Mayer）將得到的27個方程E=a+bx+cy+。。。分成了3組（如下圖一），並進行了簡單的各自求和運算，得到3個方程（如下圖二）。3個方程3個未知數可以解出唯一的一組值。

圖一：梅耶的分組

圖二：求解

這樣的做法與求平均值類似，它也能較好的較少誤差。但是與我們的最小二乘法還有相當大的距離。

接著，著名的法國數學家

拉普拉斯

（ Laplace，1749－1827）在梅耶的方法上做了較大的改進，他不再對資料進行分組，而是將得到的所有24個方程進行加減運算（第一個就是將所有方程相加，這已經相當於是求平均值了），得到4個方程，再進行計算。拉普拉斯這樣的處理方式，把資料作為整體來看待（而非梅耶一樣的分組處理），並進行不同的資料組合，能夠將所有的未知數綜合來考慮，能進一步的減小誤差。這或許在一定程度上對勒讓德關於最小二乘法有了一定的啟發作用。

然後，是高斯的工作。

高斯

（Gauss，1777-1855）是一個平時默默無聲，關鍵時候出來嚇人的頂級數學家。與他同時代的很多數學家都吃過他的苦頭，多年嘔心瀝血公佈於世的研究成果，卻被高斯告知他多年前便已研究好，只是沒有公開而已，勒讓德也不例外。1805年，勒讓德正式對外公佈了他關於最小二乘法的研究成果。但是年輕高斯卻不屑一顧，因為他說早在1795年他就用到了這個方法。

事情經過大致是這樣的，1801年，義大利天文學家

皮亞齊

發現了第一顆小行星——穀神星。經過40天的跟蹤觀測後，因為某些原因，皮亞齊失去了穀神星的位置，而此後各類計算方法都沒有得到該行星的執行軌跡。

高斯決定試一試，透過短時間的計算，他得到了穀神星的執行軌道，據此，奧地利天文學家

奧爾伯斯

重新發現了穀神星。這是一個他一生都引以為傲的傳奇經歷。據他後來回憶，在此過程中他運用了最小二乘法。

由於當時他並沒有公佈計算方法，因此圍繞最小二乘法，高斯與勒讓德展開了一場激烈的優先權之爭。此處略去爭論的具體內容，但值得我們注意的是，撇開優先權不論，高斯老爺子的確比勒讓德走得遠得多。

勒讓德說，誤差的平方和最小是合理的，但為什麼會合理？或者什麼時候是合理的？勒讓德並沒有說明白。但高斯做到了，高斯第一次的將最小二乘法與機率論結合在一起，並由此開發出一個新工具——“正態分佈”。

設一次測量得到了n個數據：a，b，c，。。。。它們與真實值這間的誤差x分別為：x-a，x-b，x-c，。。。。高斯引入了下面的機率密度函式：

1822年，高斯證明了，在誤差的平均值為0，且方差相等的線性模型中，最小二乘法進行迴歸分析是最佳的。高斯為最小二乘法的合理性做了最重要的論述。

最小二乘法，始於算術平均數，最終與正態分佈強強結合，成為了資料處理與分析必不可少的工具。感謝勒讓德，感謝高斯，以及所有對之有貢獻的數學家們！

參考文獻：

1。The Measurement of Uncertainty before 1900 。Stephen M。 Stigler

2。維基百科