決定係數是重回歸分析結果中讀取的重要指標之一。數值越接近1,分析的精度就越高。然而,如果只關注決定係數,可能會誤解分析結果。本文將引導你正確理解決定係數。

決定係數的重要性

在回歸分析的結果中,決定係數是讓人最關心的指標之一。決定係數用來衡量回歸分析中,預測的目的變數值與實際值有多一致。回歸分析包括單回歸分析(表達式為y=ax+b)和重回歸分析(包含多個解釋變數)。首先,我們從單回歸分析來探討何謂決定係數。

單回歸分析中的決定係數

單回歸分析中,我們使用y=ax+b來預測目的變數(y)的值。然而,由於這是預測值,實際的目的變數值不會完全一致。根據選擇的解釋變數(x),可能會有“預測相當準確”的情況,也可能有“預測不太準確”的情況。下圖顯示了兩種不同的情況。

單回歸分析決定係數

左邊圖例的狀況“幾乎準確”,右邊圖例的狀況“並不準確”。為了比較這兩種情況,我們需要一個客觀的指標來衡量“預測有多準確”,這就是決定係數。決定係數在0到1之間,數值越接近1,預測越準確;越接近0,預測越不準確。嚴格來說,這個數字定義為“回歸分析結果能解釋目的變數變差(分散)的程度”。

重回歸分析中的決定係數

重回歸分析涉及多個解釋變數。當解釋變數是兩個時,情況如圖所示。

雖然這次涉及的維度較多,但基本的概念沒有變化。這次我們同樣關心“從解釋變數x和z得到的y的預測值,與實際的y的值有多一致”,這仍由決定係數來表示。和單回歸分析一樣,誤差越小(預測越準確),決定係數就越大。

決定係數與自由度調整決定係數

在回歸分析中,經常會看到“自由度調整決定係數”。這個指標修正決定係數,使其能夠應用於整體數據而不只是樣本數據。例如,考慮隨機選取1000人進行問卷調查,然後用結果進行回歸分析得到決定係數。然而,這個決定係數僅對隨機選取的1000人適用。因此,我們需要修正這個值,讓其在更廣泛的人群中具有適用性。這就是自由度調整決定係數,它使用樣本數和解釋變數個數來修正。

決定係數不是絕對指標

雖然決定係數是一個方便的指標,但只依賴於其高低是錯誤的。分析本身應有具體目標和假設。加入與目標無關的變數只是為了提升決定係數,會讓模型變得復雜且難以解釋。此外,決定係數主要來衡量“預測的準確性”,但如果分析的目的是了解某變數的影響力,如“雨天數對月銷售額的影響”,那麼回歸係數和其顯著性檢測結果反而更為重要。

總之,理解決定係數的實際意義並正確應用它,是進行有價值分析的關鍵。