9.3 Distances过程
Distances过程是专门进行距离相关分析用的,由于该方法大多数人用的非常少,里面又涉及到太深的统计原理,这里我只对界面做一解释,就不再深入下去了。如要用到,请参考有关的多元统计专业书。
【Variables框】
用于选入需要进行距离相关分析的变量,至少需要选入两个。
【Label cases by框】
选择一个变量用于给各个记录加上标签,可以不选。
【Compute Distances单选框组】
其中有两个选择,Between cases表示作变量内部观察值之间的距离相关分析,Between variables表示作变量之间的距离相关分析。
【Measure单选框组】
用于选择分析时采用的距离类型:Dissimilarities为不相似性测距,Similarities为相似性测距。
【Measure钮】
和前面的Measure单选框组配合使用,单击后弹出Distance:Dissimilarity Measure对话框,用户可根据数据特征选用测距方法:
选择Dissimilarities时各种数据类型可用的测距方法有:
1、计量资料
- Euclidean distance:以两变量差值平方和的平方根为距离;
- Squared Euclidean distance:以两变量差值平方和为距离;
- Chebychev:以两变量绝对差值的最大值为距离;
- Block:以两变量绝对差值之和为距离;
- Minkowski:以两变量绝对差值p次幂之和的p次根为距离;
- Customized:以两变量绝对差值p次幂之和的r次根为距离。
2、计数资料
- Chi-square measure:χ2值测距;
- Phi-square measure:ψ2值测距,即将χ2测距值除合计频数的平方根。
3、二分类变量
- Euclidean distance:二分差平方和的平方根,最小为0,最大无限;
- Squared Euclidean distance:二分差平方和,最小为0,最大无限;
- Size difference:最小距离为0,最大无限;
- Pattern difference:从0至1的无级测距;
- Variance:以方差为距,最小为0,最大无限;
- Lance and Williams:Bray-Curtis非等距系数,界于0至1之间。
选择Similarities时各种数据类型可用的测距方法有:
1、计量资料
- Pearson correlation:以Pearson相关系数为距离;
- Cosine:以变量矢量的余弦值为距离,界于-1至+1之间。
2、二分类变量
- Russell and Rao:以二分点乘积为配对系数;
- Simple matching:以配对数与总对数的比例为配对系数;
- Jaccard:相似比例,分子与分母中的配对数与非配对数给予相同的权重;
- Dice:Dice配对系数,分子与分母中的配对数给予加倍的权重;
- Rogers and Tanimoto:Rogers and Tanimoto配对系数,分母为配对数,分子为非配对数,非配对数给予加倍的权重;
- Sokal and Sneath 1:Sokal and Sneath Ⅰ型配对系数,分母为配对数,分子为非配对数,配对数给予加倍的权重;
- Sokal and Sneath 2:Sokal and Sneath Ⅱ型配对系数,分子与分母均为非配对数,但分子给予加倍的权重;
- Sokal and Sneath 3:Sokal and Sneath Ⅲ型配对系数,分母为配对数,分子为非配对数,分子与分母的权重相同;
- Kulczynski 1:Kulczynski Ⅰ型配对系数,分母为总数与配对数之差,分子为非配对数,分子与分母的权重相同;
- Kulczynski 2:Kulczynski平均条件概率;
- Sokal and Sneath 4:Sokal and Sneath 条件概率;
- Hamann:Hamann概率;
- Lambda:Goodman-Kruskai相似测量的λ值;
- Anderberg's D:以一个变量状态预测另一个变量状态;
- Yule's Y:Yule综合系数,属于2×2四格表的列联比例函数;
- Yule's Q:Goodman-Kruskal γ值,属于2×2四格表的列联比例函数。
3、其他类型变量
- Ochiai:Ochiai二分余弦测量;
- Sokal and Sneath 5:Sokal and Sneath Ⅴ型相似测量;
- Phi 4 point correlation:Pearson相关系数的平方值;
- Dispersion:Dispersion相似测量。
- 同时,还可以选择数据转换形式:
- None:不作数据转换;
- Z-Scores:作标准Z分值转换;
- Range -1 to 1:作-1至+1之间的标准化转换;
- Range 0 to 1:作0至1之间的标准化转换;
- Maximum magnitude of 1:作最大量值1的标准转换;
- Mean of 1:作均数单位转换;
- Standard deviation of 1:作标准差单位转换。
|