一、基本概念:卡方檢驗
(一)定義
卡方檢驗主要用於研究
定類與定類
資料之間的差異關係。一般使用卡方檢驗進行分析的目的是
比較差異性
。例如研究人員想知道兩組學生對於手機品牌的偏好差異情況。
(二)卡方值
卡方值表示觀察值與理論值之間的偏離程度。
卡方值的大小與樣本量(自由度)有關。一般來說,卡方值越大越好,但並不準確。比如5000和5010的差異為10;40和50的差異為10,明顯後者差異更大。
最終檢視卡方值對應的p值更準確。
二、卡方檢驗分類
(一)方法分類
SPSSAU系統中,卡方檢驗分為【通用方法】中的
交叉卡方
,以及【醫學/研究】模組中的
卡方檢驗
、
配對卡方
、
卡方擬合優度
、
分層卡方
五類。
(二)方法對比
(
1
)交叉卡方
適用於大部分場景之中,滿足大部分使用者需求,使用頻率高,僅使用Pearson卡方,不支援加權資料。
交叉卡方僅輸出一個交叉卡方分析結果如下圖:
可以看到卡方值為16。667,p=0。000<0。01,所以不同地區的飲食習慣情況呈現出
顯著性差異
。
(
2
)卡方檢驗
適用於實驗醫學研究方向,專業性更強,使用頻率高。
從上表可知,利用卡方檢驗(交叉分析)去研究減肥方式對於膽固醇水平共1項的差異關係【獨立性】,不同減肥方式樣本對於膽固醇水平共1項呈現出顯著性(p<0。05)。
總結可知:不同減肥方式樣本對於膽固醇水平全部均呈現出顯著性差異。
①
Pearson
卡方、
yates
校正卡方、
Fisher
卡方
三類卡方,具體選擇標準如下圖
上表格為卡方檢驗的中間過程值,由於本案例資料為3*2格式,且1<=E<5 格子的比例大於20%(此處為33。33%),因而最終選擇使用yates校正卡方值。
【
特別備註
:Pearson卡方和yates校正卡方完全相同是正常現象,多數情況下二者完全相等】
②
加權資料
資料格式如下
③
效應量指標
(研究差異幅度情況,效應量值越大說明差異幅度越大,通常情況下效應量小、中、大的區分臨界點分別是0。20,0。50和0。80)卡方檢驗時,通常有
5
個指標均可表示效應量大小,區別在於使用場合不一樣,選擇標準如下圖:
上表格為效應量指標,由於本案例資料為3*2格式,所以使用CramerV研究差異幅度情況。CramerV=0。47,說明各減肥方式下膽固醇水平差異接近中等水平。
④
卡方檢驗多重比較
(多重比較得到多個卡方值,比較更加全面,通常在醫學研究中使用,且類別數量較少時使用)
卡方檢驗多重比較指
兩兩類別
組合(每個組合共4個數字)重複進行卡方檢驗;多重比較的次數=C(X類別個數)*C(Y類別個數),比如X類別為3,Y類別個數為5,則為C(3,2)*C(5,2)=30次;
SPSSAU僅針對
第
1
個
Y
進行,可透過更換Y的位置實現其它分析項的多重比較,X或Y的選項個數大於10時不進行多重比較;
多重比較時提供的是
Pearson
卡方檢驗
;
多重比較時,檢驗次數增多會增加一類錯誤的機率,建議使用
校正顯著性水平
(Bonferroni校正);如果顯著性水平為0。05,並且兩兩比較次數為3次,那麼Bonferroni校正顯著性水平為0。05/3次=0。0167,即 p 值需要與0。0167進行對比,而不是0。05;
【
特別提示
:多重比較通常在醫學研究中使用,且類別數量較少時使用】
⑤
趨勢卡方檢驗
(Cochran-Armitage趨勢卡方檢驗(Linear-by-Linear)研究k*2(或2*k)列聯表資料的趨勢差異關係;通常用於k*2(或2*k)的列聯表結構,k為
有序定類
資料,2指兩個類別)
如果 p 值小於0。05則說明k組間呈現出某種趨勢變化;
如果 p 值大於0。05則說明k組間不會呈現出趨勢變化;
SPSSAU預設均提供趨勢卡方檢驗(Linear-by-Linear)結果,但需要注意使用此指標的前提條件。
(
3
)配對卡方
配對卡方研究配對定類資料間的差異關係,適用於兩配對資料的比較,使用頻率低,提供McNemar檢驗與Bowker檢驗,選擇標準如下:
本次配對對比類別數量為2(即配對四表格),因而使用McNemar檢驗進行研究。配對資料之間呈現0。05水平的顯著性(chi=2。000,p=0。022<0。05),意味著配對資料間有著明顯的差異性。
總結可知:使用McNemar檢驗研究A方法共有兩種結果和B方法共有兩種結果之間的差異性,分析顯示配對資料間呈現出顯著性差異。
(
4
)卡方擬合優度檢驗
卡方擬合優度檢驗研究定類資料的頻數分佈是否與期望頻數保持一致。
針對性別進行卡方擬合優度檢驗,研究資料分佈是否與期望分佈保持一致,從上表可以看出:性別全部均沒有呈現顯著性(p>0。05),意味著接受原假設(原假設:實際分佈比例與預期比例一致),即資料分佈與預期一致。
(
5
)分層卡方
分層卡方研究X與Y之間的差異時,進一步研究是否存在
擾動因素項
Factor
項
。
針對分層卡方,其涉及的理論知識內容,如下表格:
通常情況下,首先檢視“比值比齊性檢驗”,如果其呈現出顯著性(p< 0。05),則說明具有混雜因素,即需要考慮分層項,分別檢視不同分層項下的資料結果。反之如果沒有透過“比值比齊性檢驗”,即說明沒有混雜因素不需要考慮分層項,報告整體的結果即可(包括卡方檢驗,以及OR值)。
三、卡方檢驗應用
(一)分析步驟
(1)分析X分別與Y之間是否呈現出顯著性(p值小於0。05或0。01);
(2)如果呈現出顯著性,具體對比選擇百分比(括號內值),描述具體差異所在;未呈現出顯著性則停止分析;
(3)對分析進行總結。
(二)多選題分析中的應用
(1)卡方擬合優度:
多選題
,檢驗各選項選擇比例是否有顯著性差異
從上表可以看出,各選項選擇沒有顯著差異,百分比選擇分佈較均勻(chi=5。947,p=0。203>0。05)。
(2)Pearson卡方:
單選
-
多選
,交叉差異檢驗
從上表可以看出,性別對於共五項表示的多選題並不會呈現出顯著差異性(chi=1。208,p=0。877>0。05)。
(3)Pearson卡方:
多選
-
多選
,交叉差異檢驗
從上表可以看出,兩個多選題之間並沒有明顯的關聯關係,百分比選擇分佈較均勻(chi=0。732,p=1。000>0。05)。
四、資料格式
卡方檢驗資料格式可分為
常規格式
與
加權格式
兩類。
上述五類卡方檢驗方法,除交叉卡方外,其餘四類卡方檢驗均支援加權資料格式。
(
1
)常規格式
一行代表一個樣本,如果有100個樣本即為100行;一列代表一個屬性;這類格式最為常見,而且此類資料格式可以做任何的分析。因為其攜帶著所有最原始的資料資訊。
(
2
)加權格式
例如:膽固醇水平有2項,減肥方式有3項,因而為3*2共6種組合,則一定需要有6行,並且一定為3列,最後一列叫‘加權項’,這樣的資料格式上傳到SPSSAU後進行分析即可。
五、差異幅度
p 值越小,差異幅度越大;
效應量值越大說明差異幅度越大,通常情況下效應量小、中、大的區分臨界點分別是: 0。20,0。50 和 0。80。
六、定量資料做卡方檢驗
卡方檢驗主要用來研究定類與定類資料間差異關係的;
那麼定量資料能否進行卡方檢驗呢?此時可以分為以下三種情況討論:
(
1
)定量資料可以轉化為定類資料
(可以進行卡方檢驗)
①
自動按分位數分組
例如:想讓樣本資料按五分位數進行分樣本處理;第一步將資料按照指定變數從小到大排列;第二步分別找到20%分位點、40%分位點、60%分位點、和80%分位點;第三步將小於20%分位點的全部取值為1,20%-40%取值為2,60%-80%取值為3,80%以上取值為4。
②
按實際意義分組
例如:本科以下、本科以上兩組;20歲以下、20-30歲、30歲以上。
(
2
)定量和定類模糊
(視研究偏好而定)
例如:量表資料,比如非常不滿意,不滿意,一般,滿意和非常滿意
(
3
)定量不可轉化為定類資料
(不可以進行卡方檢驗)
如果研究定類與定量資料之間的關係,此時應該使用方差或者T檢驗。
差異關係研究方法選擇見下表: