10.2 Curve Estimation过程
Curve Estimation过程可以用与拟合各种各样的曲线,原则上只要两个变量间存在某种可以被它所描述的数量关系,就可以用该过程来分析。但这里我们要指出,由于曲线拟合非常的复杂,而该模块的功能十分有限,因此最好采用将曲线相关关系通过变量变换的方式转化为直线回归的形式来分析,或者采用其他专用的模块分析。
10.2.1 界面详解
Curve Estimation过程中有特色的对话框界面内容如下:
下面我们分别解释一下它们的具体功能。
【Dependent框】
用于选入曲线拟和中的应变量,可选入多个,如果这样,则对各个应变量分别拟合模型。
【Independent单选框组】
用于选入曲线拟和中的自变量,有两种选择,可以选入普通的自变量,也可以选择时间作为自变量,如果这样做,则所用的数据应为时间序列数据格式。
【Models复选框组】
是该对话框的重点,用于选择所用的曲线模型,可用的有:
-
Linear:拟合直线方程,实际上与Linear过程的二元直线回归相同;
-
Quadratic:拟合二次方程Y = b0+b1X+b2X2;
-
Compound:拟合复合曲线模型Y = b0×b1X;
-
Growth:拟合等比级数曲线模型Y = e(b0+b1X);
-
Logarithmic:拟合对数方程Y = b0+b1lnX;
-
Cubic:拟合三次方程Y = b0+b1X+b2X2+b3X3;
-
S:拟合S形曲线Y = e(b0+b1/X);
-
Exponential:拟合指数方程Y = b0 eb1X;
-
Inverse:数据按Y = b0+b1/X进行变换;
-
Power:拟合乘幂曲线模型Y = b0X b1;
-
Logistic:拟合Logistic曲线模型Y = 1/(1/u + b0×b1X),如选择该线型则要求输入上界。
上面的几种线型和其他的模块有重复,如Logistic、Liner等,由于本模块的功能有限,在重复的情况下建议用其它专用模块来分析。
【Include constant in equation复选框】
确定是否在方程中包含常数项。
【Plot models复选框】
要求对模型做图,包括原始数值的连线图和拟合模型的曲线图。
【save钮】
弹出SAVE对话框,用于定义想要存储的中间结果,如预测值、预测值可信区间、残差等。
【Display ANOVA table复选框】
要求显示模型检验的方差分析表。
10.2.2 实例操作
例10.3:锡克试验阴性率(%)随着年龄的增长而增高,某地查得儿童年龄(岁)X与锡克试验阴性率Y的资料如下,试拟合曲线。
年龄(岁) |
1 |
2 |
3 |
4 |
5 |
6 |
7 |
锡克试验阴性率(%) |
57.1 |
76.0 |
90.9 |
93.0 |
96.7 |
95.6 |
96.2 |
首先对年龄和阴性率作散点图,发现两者有斜率逐渐放缓的曲线趋势,因此选择二次曲线模型、三次曲线模型和对数曲线模型,最终取其中结果最优者,做法如下:
-
Analyze==>Regression==>Curve estimation
-
Dependant框:选入阴性率
-
Independant框:选入年龄
-
Models复选框组:选择Quadratic、Curbe、Logarithmatic,取消对Liner的选择。
-
单击OK
结果如下:
Curve Fit
MODEL: |
MOD_11. |
|
|
|
|
|
|
|
|
Independent: |
年龄 |
|
|
|
|
|
|
|
|
Dependent |
Mth |
Rsq |
d.f. |
F |
Sigf |
b0 |
b1 |
b2 |
b3 |
阴性率 |
LOG |
.913 |
5 |
52.32 |
.001 |
61.3259 |
20.6704 |
|
|
阴性率 |
QUA |
.970 |
4 |
65.20 |
.001 |
39.2714 |
21.8250 |
-2.0036 |
|
阴性率 |
CUB |
.994 |
3 |
165.37 |
.001 |
25.5714 |
37.4278 |
-6.5702 |
.3806 |
上表给出了所拟合的三个模型的检验报告,包括拟合优度、模型的检验结果和各个系数值,从检验结果看,三个模型均有统计学意义,但从拟合优度看,三次方曲线的拟合优度最高,似乎应选择三次方曲线,但注意三次方曲线多一个参数,要复杂一些,而它的拟合优度和二次方曲线相差不大,因此仅从这里的结果还不好对它们两者作出判断,下面我们还要看看模型曲线的情况。
上图是三个模型曲线和实际值连线的情况,可见在4岁以前,二次方和三次方曲线对模型的拟合相差不大,4岁以后三次方曲线则要明显优于二次方曲线,但我们的观察值只有7例,样本量太少,在曲线回归中,模型的简洁性和拟合优度的高低同样重要,拟合优度太高的模型往往对新样本的拟合度较差,我认为在这种情况下选择参数较少的模型为宜,因此最终选择二次方曲线模型。
其实这里由于观察样本太少,无论选择哪种模型影响都不大,而且各人的意见不会相同,往往是有多少条曲线,就会有多少种意见,最后还是要结合专业知识来决定,我这样写只是让大家明白,曲线拟和是非常复杂的问题,千万不能轻易下结论。
|