第十章 非参数检验
非参数统计是统计分析的重要组成部分。可是与之很不相称的是它的理论发展远远不及参数检验完善,因而比较完善的可供使用的方法也不多。在SAS中,非参数统计主要由UNIVARIATE过程、MEANS过程和NPAR1WAY过程来实现,前两者在前面的章节中已经介绍,它们可以进行配对设计差值的符号秩和检验(WILCOXON配对法);后者是一个单因素的非参数方差分析过程,可进行成组设计的两样本(WILCOXON法)或多样本比较(KRUSKAL-WALLIS法)的秩和检验。本章将主要介绍NPAR1WAY过程。
由于在理论上还有争议,作为权威性的统计软件,SAS不提供非参检验两两比较的方法。据我所知,其余统计软件里也只有PEMS提供这一功能(因为她是医统·医百的配套软件,而非参两两比较是写入了该书的)。如果你需要这一结果,那么恐怕只有手算了。
9.0.1 语法格式
PROC NPAR1WAY [DATA=<数据集名> [选项] ] ; |
CLASS <处理因素变量名>; |
必需,指定要分析的处理因素 |
EXACT <关键字>; |
要求程序在必要时计算确切概率 |
OUTPUT <OUT=数据集名> <选项>; |
指定统计结果的输出数据集 |
VAR <结果变量名>; |
指定要分析的应变量 |
BY <变量名列>; |
统计按指定的变量分组进行 |
NPAR1WAY过程不能处理按频数输入的资料。这意味着如果你的数据是以频数方式输入的,那么除非你将资料想办法转换成按例记录的资料,否则SAS无法处理。
有的同学将“NPAR1WAY”打成了“NPARLWAY”,可以这样来记:“NPAR”即“非参”的英文缩写,“WAY”是维数,更明确的说是因素的意思,而“1WAY”就代表一个因素,合起来“NPAR1WAY”说的是“单因素的非参数检验”。怎么样,明白这个过程在做什么了吧!
9.0.2 语法说明
【过程选项】
NPAR1WAY 过程常用的选项有:
- MISSING
将缺失值也用于统计分析
- ANOVA
同时进行方差分析
- MEDIAN
要求进行中位数检验
- NOPRINT
禁止统计结果在OUTPUT视窗内输出
- SAVAGE
要求对样本进行SAVAGE得分分析
- WILCOXON
要求进行WILCOXON秩和检验
我们常用的秩和检验就是WILCOXON秩和检验,对于其它方法,有兴趣的读者可参阅有关统计书籍。
9.0.3 结果解释
在省略所有选项的情况下, SAS系统默认输出所有的统计结果,这恰恰说明了非参数检验方法的不完善。如果你无法判断用那个结果,那么只看Wilcoxon秩和检验的分析结果就够了。这里我们给出《卫生统计学》第三版91页例9.2的运算结果,其OUTPUT视窗输出如下:
下面的输出结果中反复出现了Z检验及相应的统计量Z,实际上Z检验就是我们非常熟悉的u检验,只不过是国内外的叫法不同罢了。
N P A R 1 W A Y P R O C E D U R E ----------------------------以下为方差分析的检验结果-------------------------
Analysis of Variance for Variable 应变量名
Classified by Variable 分组变量名 分组变量名 N Mean Among MS Within MS
样本量 均数 组间MS 组内MS
1413.87273 258.270000
1 10 23.6000000
2 12 7.5000000 F Value Prob > F
F值 p值
5.474 0.0298
Average Scores Were Used for Ties -------------------------以下为Wilcoxon秩和检验的分析结果-------------------------
Wilcoxon Scores (Rank Sums) for Variable 应变量名
Classified by Variable 分组变量名 Sum of Expected Std Dev Mean
分组变量名 N Scores Under H0 Under H0 Score
样本量 各组的秩和 各组的期望秩和 秩和的标准差 各组的平均秩次
1 10 170.0 115.0 15.1529004 17.0000000
2 12 83.0 138.0 15.1529004 6.9166667
Average Scores Were Used for Ties Wilcoxon 2-Sample Test (Normal Approximation)
(with Continuity Correction of .5) S = 170.000 Z = 3.59667 Prob > |Z| = 0.0003
如果按照正态近似法做秩和检验,则Z=3.59667,p=0.0003。
T-Test Approx. Significance = 0.0017
做近似t检验则p=0.0017
Kruskal-Wallis Test (Chi-Square Approximation)
CHISQ = 13.174 DF = 1 Prob > CHISQ = 0.0003
用 近似做K-W法秩和检验,则 =13.174,p=0.0003。 ------------------------以下为中位数检验的分析结果----------------------------
Median Scores (Number of Points Above Median)
for Variable 应变量名
Classified by Variable 分组变量名 Sum of Expected Std Dev Mean
分组变量名 N Scores Under H0 Under H0 Score
样本量 各组的中位秩次和 各组期望中位秩次和 中位秩次的标准差 各组平均中位秩次
1 10 9.0 5.0 1.19522861 0.900000000
2 12 2.0 6.0 1.19522861 0.166666667
Average Scores Were Used for Ties Median 2-Sample Test (Normal Approximation)
S = 9.00000 Z = 3.34664 Prob > |Z| = 0.0008
用正态近似法做中位数检验,则Z=3.34664,p=0.0008。
Median 1-Way Analysis (Chi-Square Approximation)
CHISQ = 11.200 DF = 1 Prob > CHISQ = 0.0008
用c2近似法做中位数检验,则c2=11.200,p=0.0008。 -------------------------以下为Van der Waerden比分检验的结果-------------------------
Van der Waerden Scores (Normal) for Variable 应变量名
Classified by Variable 分组变量名 Sum of Expected Std Dev Mean
分组变量名 N Scores Under H0 Under H0 Score
样本量 各组的比分和 各组的期望比分和 比分和的标准差 各组的平均比分
1 10 7.34869734 0.0 2.09589648 0.734869734
2 12 -7.34869734 0.0 2.09589648 -.612391445
Average Scores Were Used for Ties Van der Waerden 2-Sample Test (Normal Approximation)
S = 7.34870 Z = 3.50623 Prob > |Z| = 0.0005
用正态近似法做Van der Waerden检验,则Z=3.50623,p=0.0005。 Van der Waerden 1-Way Analysis (Chi-Square Approximation)
CHISQ = 12.294 DF = 1 Prob > CHISQ = 0.0005
用c2近似法做Van der Waerden检验,则 =12.294,p=0.0005。 ----------------------以下为Savage比分检验的结果-------------------------
Savage Scores (Exponential) for Variable 应变量名
Classified by Variable 分组变量名 Sum of Expected Std Dev Mean
分组变量名 N Scores Under H0 Under H0 Score
样本量 各组的比分和 各组的期望比分和 比分和的标准差 各组的平均比分
1 10 7.14463489 0.0 2.17965946 0.714463489
2 12 -7.14463489 0.0 2.17965946 -.595386241
Average Scores Were Used for Ties Savage 2-Sample Test (Normal Approximation)
S = 7.14463 Z = 3.27787 Prob > |Z| = 0.0010
用正态近似法做Savage检验,则Z=3.27787,p=0.0010。 Savage 1-Way Analysis (Chi-Square Approximation)
CHISQ = 10.744 DF = 1 Prob > CHISQ = 0.0010
用c2近似法做Savage检验,则c2=10.744,p=0.0010。 ------------------以下为Kolmogorov-Smirnov检验的结果----------------------
Kolmogorov-Smirnov Test for Variable 应变量名
Classified by Variable 分组变量名
Deviation
EDF from Mean
分组变量名 N at Maximum at Maximum
1 10 0.20000000 -1.37990298
2 12 1.00000000 1.25967331
---- -----------
22 0.63636364 Maximum Deviation Occurred at Observation 22
Value of DAY at Maximum 13.0000000 Kolmogorov-Smirnov 2-Sample Test (Asymptotic)
KS = 0.398344 D = 0.800000
KSa = 1.86840 Prob > KSa = 0.0019
Kolmogorov-Smirnov检验的最后结果为统计量Ksa=1.86840,p=0.0019。 ------------------以下为Cramer-von Mises检验的结果------------------------
Cramer-von Mises Test for Variable 应变量名
Classified by Variable 分组变量名 Summed
Deviation
分组变量名 N from Mean
1 10 0.775807663
2 12 0.646506386 Cramer-von Mises Statistic (Asymptotic)
CM = 0.064651 CMa = 1.42231
Cramer-von Mises统计量CM=0.064651,CMa=1.42231。 ----------------------------以下为Kuiper检验的结果----------------------------
Kuiper Test for Variable 应变量名
Classified by Variable 分组变量名 Deviation
GROUP N from Mean
1 10 0.000000000
2 12 0.800000000 Kuiper 2-Sample Test (Asymptotic)
K = 0.800000 Ka = 1.86840 Prob > Ka = 0.0241
Kuiper检验的最后结果为统计量Ka=1.86840,p=0.0241。
9.0.4 应用实例
例 9.1 测得铅作业与非铅作业工人的血铅值( ),问两组工人的血铅值有无差别(卫统p233 4.3题)?
铅作业组 0.82 0.87 0.97 1.21 1.64 2.08 2.13
非铅作业组 0.24 0.24 0.29 0.33 0.44 0.58 0.63 0.72 0.87 1.01
解:程序如下:
data a.wt4_3; |
group=1; |
if _n_>7 then group=2; |
input value@@; |
cards; |
0.82 0.87 0.97 1.21 1.64 2.08 2.13 |
0.24 0.24 0.29 0.33 0.44 0.58 0.63 |
0.72 0.87 1.01 |
; |
proc gchart; |
分组做条图,观察数据的分布 |
vbar value / group=group; |
proc npar1way data=a.wt4_3 WILCOXON ; |
class group; |
var value; |
run; |
例 9.2 现测量了三组人的血浆总皮质醇,试检验这三组人有无差别(卫统p234 4.6题)。
解:程序如下:
data a.wt4_6; |
do group=1 to 3; |
do tempvar=1 to 10; |
input value @@; |
output; |
end; |
end; |
drop tempvar; |
cards; |
0.11 0.52 ... |
0.17 0.33 ... |
... 5.96 6.62 |
; |
proc npar1way data=a.wt4_6 WILCOXON; |
class group; |
var value; |
run; |
|