§6.3 Explore过程
Explore过程可对变量进行更为深入详尽的描述性统计分析,主要用于对资料的性质、分布特点等完全不清楚时,故又称之为探索性分析。它在一般描述性统计指标的基础上,增加有关数据其他特征的文字与图形描述,如枝叶图、箱图等,显得更加详细、全面,有助于用户制定继续分析的方案。
6.3.1 界面说明
【Display单选钮组】
用于选择输出结果中是否包含统计描述、统计图或两者均包括。
【Dependent List框】
用于选入需要分析的变量。
【Factor List框】
如果想让所分析的变量按某种因素取值分组分析,则在这里选入分组变量。
【Label cases by框】
选择一个变量,他的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。
【Statistics钮】
弹出Statistics对话框,用于选择所需要的描述统计量。有如下选项:
- Descriptives复选框:输出均数、中位数、众数、5%修正均数、标准误、方差、标准差、最小值、最大值、全距、四分位全距、峰度系数、峰度系数的标准误、偏度系数、偏度系数的标准误及指定的均数可信区间。
- M-estimators复选框:作中心趋势的粗略最大似然确定,输出四个不同权重的最大似然确定数。
- Outliers复选框:输出五个最大值与五个最小值。
- Percentiles复选框:输出第5%、10%、25%、50%、75%、90%、95%位数。
【Plot钮】
弹出Plot对话框,用于选择所需要的统计图。有如下选项:
- Boxplots单选框组:确定箱式图的绘制方式,可以是按组别分组绘制(Factor levels together),也可以不分组一起绘制(Depentends together),或者不绘制(None)。
- Descriptive复选框组:可以选择绘制茎叶图(Stem-and-leaf)和直方图(Histogram)。
- Normality plots with test复选框:绘制正态分布图并进行变量是否符合正态分布的检验。
- Spread vs. Level with Levene Test单选框组:当选择了分组变量时,绘制spread-versus-level图(我还没有找到他的中文名字该叫什么),设置绘图时变量的转换方式,并进行组间方差齐性检验。
【Options钮】
用于选择对缺失值的处理方式,可以是不分析有任一缺失值的记录、不分析计算某统计量时有缺失值的记录,或报告缺失值。
6.3.2 结果解释
以例6.1的数据为例,按默认方式下的选择,Explore过程的输出如下:
Explore
首先是例行的处理记录缺失值情况报告,可见101例均为有效值。
上表详细列出了常用的描述统计量,如果有标准误也会列出(如偏度和峰度系数)。
X
X Stem-and-Leaf Plot
Frequency Stem & Leaf
1.00 2 . 7 8.00 3 . 00123334 9.00 3 . 556689999 24.00 4 . 000001111222333333344444 25.00 4 . 5555556666677777777788899 17.00 5 . 01111111222333334 9.00 5 . 556778889 6.00 6 . 112333 1.00 6 . 5 1.00 Extremes (>=7.2)
Stem width: 1.0000 Each leaf: 1 case(s)
以上是茎叶图,整数位为茎,小数位为叶。这样可以非常直观的看出数据的分布范围及形态,在国外非常流行。
以上是箱式图,中间的黑粗线为均数,红框为四分位间距的范围,上下两个细线为最大、最小值。
|