admin 管理员组文章数量: 1086019
2023年12月25日发(作者:java一个月工资多少)
第三讲:均值比较与回归分析
教学目的:能应用SPSS软件进行:单个均值假设检验、均值比较分析、相关分析、回归分析等
教学内容:1)均值的比较
2)相关分析
3)回归分析
教学重点:均值比较分析、回归分析
教学难点:均值比较分析
教学时间:1学时
均值的比较Compare Means
调查研究中的个案(Cases)被称为样本。如果样本来自总体,那么,总体的特征可以采用集中趋势或离中趋势加以描述和统计,其结果可以准确地描述总体。一般地,数据总体的均值应为0,方差应为1,即服从标准正态分布。现实中,样本的均值与方差都不能满足该条件,但可加大样本规模使之分布接近总体的正态分布。
在SPSS中,将两个总体均值近比较称为Compare Means,可选择Analyze→Compare Means来实现。Compare Means集中了几个用于计量资料均值间比较的过程。具体有:
Means过程:对准备比较的各组计算描述指标,进行预分析,也可直接比较。
One-Samples T Test过程:进行样本均值与已知总体均值的比较。
Independent-Samples T Test过程:进行两样本均值差别的比较,即通常所说的两组资料的t检验。
Paired-Samples T Test过程:进行配对资料的显著性检验,即配对t检验。
One-Way ANOVA过程:进行两组及多组样本均值的比较,即成组设计的方差分析,还可进行随后的两两比较。
1.1 Means过程
和上一章所讲述的几个专门的描述过程相比,Means过程的优势在于各组的描述指标被放在一起便于相互比较,并且如果需要,可以直接输出比较结果,无须再次调用其他过程。
显然要方便得多。
1.1.1 界面说明
选择Analyze→Compare Means→Means,进入Means对话框,见图1.1a。其各部分解释如下:
图1.1a Means对话框
●Dependent List框:用于选入需要分析的变量。
●Independent List框:用于选入分组变量。
●Options:弹出Options对话框(见图1.1b),选择需要计算的描述统计量和统计分析:
Statistics框:可选的描述统计量。它们是:
1. sum,number of cases 总和,记录数
2. mean, geometric mean, harmonic mean 均值,几何均值,修正均值
3. standard deviation,variance,standard error of the mean 标准差,均值的标准误, 方差
4. median, grouped median 中位数,频数表资料中位数(比如30岁组有5人,40岁组有1人,则在计算grouped median时均按组中值35和45进行计算)。
5. minimum,maximum,range 最小值,最大值,全距
6. kurtosis, standard error of kurtosis 峰度系数,峰度系数的标准误
7. skewness, standard error of skewness 偏度系数,偏度系数的标准误
8. percentage of total sum, percentage of total N 总和的百分比,样本例数的百分比
Cell Statistics框:选入的描述统计量。
Statistics for First layer复选框组
1. Anova table and eta 对分组变量进行单因素方差分析,并计算用于度量变量相关程度的eta值。
2. Test for linearity 检验线性相关性,实际上就是上面的单因素方差分析。
图1.1b Means中的Options对话框
1.1.2 分析案例
例1.1 利用文件中的数据分析,不同性别sex、月收入income、年龄age等q9(即被访问者最近一次参加促销活动的消费)的不同表现。
上述问题采用Means来解决。如果分析消费与性别的关系,或者说研究男女消费的差异,则月收入和年龄就是两个控制变量。当然,也可分析消费与与收入的关系、消费与年龄的关系,相应地,另两个变量就成了控制变量了。
这里只给出男女消费差异求解的简化操作:
1.
Analyze→Compare Means→Means
2.
Dependent list框:选入q9
3.
Independent list框:依次选入sex、income、age(注意:sex一定要放在第一位)
4.
单击option:选中Anova table and eta复选框,单击Continue
5.
单击OK
1.1.3 结果解释
有了上一章的基础,Means过程的输出看起来就不太困难了。它的输出结果包括Case
Processing Summary、Report、ANOVA Table、 Measures of Association等。
●缺失值报告。312个Cases均有效。
Cases
Included
被访问者最近一次参加促销活动的消费 * 被访问者性别 * 被访问者年龄 * 被访问者月收入
312 100.0% 0 .0% 312 100.0%
N Percent N
Excluded
Percent N
Total
Percent
Case Processing Summary
●常用统计描述量报表。由于Report表太长,这里只给出了一部分,但人可以看出表的结构。表中的结果是按默认情况输出均值、样本量和标准差。因为选择了分组变量,所以三项指标均给出分组及合计值,可见以这种方式列出统计量可以非常直观的进行各组间的比较。
●单因素方差分析表。在选择了Anova table and eta或Test for linearity复选框时出现。实际上就是在检验各组间均值有无差异。表中结果显示:组间Between Groups的离差平方和为154.914,自由度为1(即只有一个因素Sex);而组内Within Groups的离差平方和为1415811.715,自由度为310;最后F值为0.033,F值的概率为0.851>>0.05,表明没有理由拒绝系统默认的原假设——不同性别的消费相同,可认为男女参加促销活动的消费没有什么区别。
ANOVA Table
Sum of
被访问者最近一次参加促销活动的消费 *
被访问者性别
Between
Groups
Within Groups
Total
(Combined)
Squares
154.914
1415811.715
1411021.179
df
1
310
311
Mean Square
154.914
4728.102
F
.033
Sig.
.851
●相关性度量指标,给出Eta值以及Eta值的平方根。表中数据说明两者关系较弱。
被访问者最近一次参加促销活动的消费 * 被访问者性别
.010 .000
Eta Eta Squared
Measures of Association
1.2 One-Samples T Test过程
One-Samples T Test过程用于进行样本所在总体均值与已知总体均值的比较,可以自行定义已知总体均值为任意值,该对话框的界面非常简单。
1.2.1 界面说明
选择Analyze→Compare Means→One-Samples T Test,进入对话框,见图1.2a。其各部分解释如下:
图1.2a One-Samples T Test对话框
●Test Variables框:用于选入需要分析的变量。
●Test Value框:在此处输入已知的总体均值,默认值为0。
●Options:弹出Options对话框(见图1.2b),用于定义相关的选项,有:
Confidence Interval框 输入需要计算的均值差值可信区间范围,默认为95%。如果是和总体均值为0相比,则此处计算的就是样本所在总体均值的可信区间。
Missing Values单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludes cases analysis by
analysis),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。
图1.2b One-Samples T Test的Options对话框
1.2.2 分析案例
比如要检验数据中q9(消费)的总体均值是否等于200。采用One-Samples T
Test的简要操作步骤如下:
1.
Analyze→Compare Means→One-Samples T Test
2.
Test Variable(s)框:选入q9
3.
Test Value框:填入200
4.
单击OK
1.2.3 结果解释
One-Samples T Test过程的输出也是比较简单的,由描述统计表和t检验表组成。上例的输出如下:
●One-Sample Statistics分析表。所分析变量的基本情况描述,有样本量、均值、标准差和标准误。
Std. Error
被访问者最近一次参加促销活动的消费
N
312
Mean
114.03
Std. Deviation
18.158
Mean
3.887
One-Sample Statistics
●单样本t检验表,第一行注明了用于比较的已知总体均值为200,下面从左到右依次为t值(t)、自由度(df)、P值(Sig.2-tailed)、两均值的差值(Mean Difference)、差值的95%可信区间。由上表可知:t=-9.253,P=0.000<0.05。因此可以认为消费的总体均值不等于200。
One-Sample Test
Test Value = 200
95% Confidence Interval
Mean
被访问者最近一次参加促销活动的消费
t
-9.253
df
311
Sig. (2-tailed)
.000
Difference
-35.97
of the Difference
Lower
-43.12
Upper
-28.32
1.3 Independent-Samples T Test过程
Independent-Samples T Test过程用于进行两样本均值的比较,即常用的两样本t检验。该对话框的界面和上面的One-Samples T Test对话框非常相似。
1.3.1 界面说明
选择Analyze→Compare Means→Independent-Samples T Test,进入对话框,见图1.3a。其各部分解释如下:
图1.3a Independent-Samples T Test对话框
●Test Variables框:用于选入需要分析的变量。
●Grouping Variable框:用于选入分组变量。注意选入变量后还要定义需比较的组别。
●Define Groups:单击后进入对话框(见图1.3b),用于定义需要相互比较的两组的分组变量值。如果分组变量有3个取值(即有三组),而这个t检验是比较其中的某两组,这时就可以用Define Groups框来指定需比较的两组。当然,如果分组变量只有2个取值时,
仍然要再该框中进行定义,这也算是SPSS对话框存在的一个小缺陷吧。
图1.3b Independent-Samples T Test的Define Groups对话框
●Options:和One-Samples T Test对话框的Options完全相同,此处不再重复。
1.3.2 分析案例
要求检验数据中不同年龄组的消费q9是否相同。当然只能两个年龄组相比,如比较25岁以下与25-35岁两个组的消费均值是否相同。采用Independent-Samples T Test的简要操作步骤如下:
1.
Analyze→Compare Means→Independent-Samples T Test
2.
Test Variable(s)框:选入q9
3.
Grouping Variable框:选入age
4.
单击Define Groups:在Group1框内输入1,Group2框内输入2,然后单击Continue
5.
单击OK
1.3.3 结果解释
用Independent-Samples T Test过程的结果输出如下:
●两组需检验变量的基本情况描述。
Std. Error
被访问者最近一次参加促销活动的消费
被访问者年龄
25岁以下
25-35岁
N
53
188
Mean
110.12
113.39
Std. Deviation
11.441
18.385
Mean
9.121
4.987
Group Statistics
●Independent Samples Test分析表。该结果分为两大部分:第一部分为Levene's方差齐性检验,用于判断两总体方差是否齐,这里的检验结果为F =0.251,P = 0.113>0.05,可见在本例中方差是齐的;第二部分则分别给出两组所在总体方差齐和方差不齐时的t检验结果,由于前面的方差齐性检验结果为方差齐,第二部分就应选用方差齐时的t检验结果,即上面一行列出的t = -0.212,df =239,P=0.793>0.05,从而拒绝H0,认为这两个年龄组的消费没
什么不同。从上面的统计结果看,两个样本均值相差无几,也可认为两个组的消费无显著差异。最后面还附有一些其他指标,如两组均值的可信区间等,以对差异情况有更直观的了解。
1.4 Paired-Samples T Test过程
该过程用于进行配对设计的样本差值均值与总体离差均值0比较的t检验,它和One-Samples T Test过程相重复的(等价于已知总体均值为0的情况),但Paired-Samples T
Test过程使用的数据输入格式和前者不同,即通常所称的统计表格格式,因此仍然有存在的价值。
1.4.1 界面说明
选择Analyze→Compare Means→Paired-Samples T Test,即可进入对话框,见图1.4。整个界面上只有一个Paired Variable框需要介绍,它用于选入希望进行比较的一对或几对变量(注意这里的量词是对而不是个)。选入变量需要成对成对的选入,即按住Ctrl键,选中两个成对变量,再单击将其选入。如果只选中一个变量,则按钮为灰色,不可用。
图1.4 Paired-Samples T Test对话框
1.4.2 分析实例
例1.2 某单位研究饮食中缺乏维生素E与肝中维生素A含量的关系,将同种属的大白按性别相同,年龄、体重相近者配成对子,共8对,并将每对中的两头动物随机分到正常饲料组和维生素E缺乏组,过一定时期将大白鼠杀死,测得其肝中维生素A的含量,问不同饲料的大白鼠肝中维生素A含量有无差别?
大白鼠对号 正常饲料组 维生素E缺乏
1
2
3
4
5
1
7
8
3550
2000
3000
3950
3800
3750
3450
3050
2450
2400
1800
3200
3250
2700
2500
1750
为了说明问题,此处假设输入数据时就按照上表格式输入,其中正常饲料组变量名为G1,维生素E缺乏组变量名为G2。操作如下:
1. 同时选中G1、G2:选入Paired Variables框
2. 单击OK
1.4.3 结果解释
以例1.1为例,其输出结果如下:
●配对变量各自的统计描述,此处只有1对,故只有Pair 1。
●此处进行配对变量间的相关性分析。等价于Analyze→Correlate→Bivariate。
●配对t检验表,给出最终的检验结果,由上表可见P=0.004,故可认为两种饲料所得肝中维生素A含量有差别,即维生素E缺乏对大白鼠肝中维生素A含量有影响。
上表的标题内容翻译如下:
对子间的差异
均值的95%可信区间
自由差值均值 标准差 标准误 t值 P值(双侧)
度
下限 上限
第一G1 - G2 812.5000 541.2535 193.1298 355.8207 1219.1793 4.207
对
1.5 One-Way ANOVA过程
One-Way ANOVA过程用于进行两组及多组样本均值的比较,即成组设计的方差分析,如果做了相应选择,还可进行随后的两两比较,甚至于在各组间精确设定哪几组和哪几组进行比较,在本章的内容中,它是最为复杂的一个,但是有了前面的基础,拿下他应该不成问题。
1.5.1 界面说明
选择Analyze→Compare Means→Paired-One-Way ANOVA,即可进入对话框,见图1.5a。其各部分的解释如下:
7 .004
图1.5a Paired-One-Way ANOVA对话框
●Dependent List框:选入需要分析的变量,可选入多个结果变量(因变量)。
●Factor框:选入需要比较的分组因素,只能选入一个。
●Contrast:弹出Contrast对话框(见图1.5b),用于对精细趋势检验和精确两两比较的选项进行定义,由于该对话框太专业,也较少用,这里只做简单介绍。
Polynomial复选框:定义是否在方差分析中进行趋势检验。
Degree下拉列表:和Polynomial复选框配合使用,可选则从线性趋势一直到最高五次方曲线来进行检验。
Coefficients框:定义精确两两比较的选项。这里按照分组变量升序给每组一个系数值,注意最终所有系数值相加应为0。如果不为0仍可检验,只不过结果是错的。比如说在下面的例1.2中要对第一、三组进行单独比较,则在这里给三组分配系数为1、0、-1,就会在结果中给出相应的检验内容。
●Post Hoc:弹出Post Hoc Multiple Comparisons对话框(见图1.5c),用于选择进行各组间两两比较的方法,有:
Equar Variances Assumed复选框组:一组当各组方差齐时可用的两两比较方法,共有14种。这里不一一列出了,其中最常用的为LSD、S-N-K、Tukey等。
Equar Variances Not Assumed复选框组:一组当各组方差不齐时可用的两两比较方法,共有4种,其中以Dunnetts's C法较常用。
Significance Level框:定义两两比较时的显著性水平,默认为0.05。
图1.5b One-Way ANOVA中的Contrasts对话框
图1.5c One-Way ANOVA中的Post Hoc Multiple Comparisons对话框
●Options:弹出Options对话框(见图1.5d),用于定义相关的选项,有:
Statistics复选框组:选择一些附加的统计分析项目,有统计描述(Descriptive)和方差齐性检验(Homogeneity-of-variance)。
Means plot复选框:用各组均值做图,以直观的了解它们的差异。
Missing Values单选框组:定义分析中对缺失值的处理方法,可以是具体分析用到的变量有缺失值才去除该记录(Excludes cases analysis by
analysis),或只要相关变量有缺失值,则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。
图1.5c One-Way ANOVA中的Options对话框
1.5.2 分析实例
例1.3 利用文件中q9(消费)、income(月收入)数据,研究四种收入群体的消费是否显著不同。
设数据文件已打开,分组变量为income,因变量为q9。此处先进行单因素方差分析,然后进行两两比较,这里选择Tukey法进行两两比较。操作如下:
1.
Analyze→Compare Means→Paired-One-Way ANOVA
2.
Dependent List框:选入q9
3.
Factor框:选入income
4.
单击Post Hoc:选中Tukey复选框,单击Continue
5.
单击OK
1.5.3 结果解释
上题的输出结果如下:
●一个典型的方差分析表。给出了单因素方差分析的结果,可见F=1.001,P=0.390>0.05。因此可认为四组收入群体的最近一次参加促销活动的消费无显著差异。
被访问者最近一次参加促销活动的消费
Sum of
Between Groups
Within Groups
Total
Squares
14222.725
1451798.955
1411021.179
df
3
308
311
Mean Square
4740.908
4713.133
F
1.001
Sig.
.390
ANOVA
上表的标题内容翻译如下:
离均差平方和SS 自由度
组间变异
组内变异
总变异
14222.725
1451798.955
1411021.179
3
308
311
均方MS
4740.908
4713.133
F值
1.001
P值
.390
●用Tukey法进行两两比较的结果。简单的说,在表格的纵向上有各配对组的均值差异、标准差、P值及95%的置信区间,表格的横向上被分成了若干个亚组。表中结果显示:不同亚组间的P值都大于0.05,表明各组间两两比较均无有显著差异,可认为不同收入群体的消费几乎趋同。
Post Hoc Tests
Multiple Comparisons
Dependent Variable: 被访问者最近一次参加促销活动的消费
Tukey HSD
(I) 被访问者月收入
1000元以下
1000-1500元
1500-2000元
2000元以上
(J) 被访问者月收入
1000-1500元
1500-2000元
2000元以上
1000元以下
1500-2000元
2000元以上
1000元以下
1000-1500元
2000元以上
1000元以下
1000-1500元
1500-2000元
Mean
Difference (I-J)
9.55
-5.55
21.09
-9.55
-15.11
11.54
5.55
15.11
21.14
-21.09
-11.54
-21.14
Std. Error
8.901
11.418
18.050
8.901
12.181
18.512
11.418
12.181
19.872
18.050
18.512
19.872
Sig.
.701
.913
.147
.701
.102
.925
.913
.102
.538
.147
.925
.538
95% Confidence Interval
Lower Bound
-13.45
-35.17
-25.54
-32.51
-41.57
-31.28
-24.07
-11.31
-24.19
-17.72
-59.31
-77.97
Upper Bound
32.51
24.07
17.72
13.45
11.31
59.31
35.17
41.57
77.97
25.54
31.28
24.19
相关分析Correlate
在市场研究中经常要遇到分析两个或多个变量间关系的情况,有时是希望了解某个变量对另一个变量的影响强度,有时则是要了解变量间联系的密切程度,前者用下一章将要讲述的回归分析来实现,后者则需要用到本章所要讲述的相关分析实现。
SPSS的相关分析功能被集中在Statistics菜单的Correlate子菜单中,他一般包括以下三个过程:
1. Bivariate过程 此过程用于进行两个/多个变量间的参数/非参数相关分析,如果是多个变量,则给出两两相关的分析结果。这是Correlate子菜单中最为常用的一个过程,实际上对他的使用可能占到相关分析的95%以上。下面的讲述也以该过程为主。
2. Partial过程 如果需要进行相关分析的两个变量其取值均受到其他变量的影响,就可以利用偏相关分析对其他变量进行控制,输出控制其他变量影响后的相关系数,这种分析思想和协方差分析非常类似。Partial过程就是专门进行偏相关分析的。
3. Distances过程 调用此过程可对同一变量内部各观察单位间的数值或各个不同变量间进行距离相关分析,前者可用于检测观测值的接近程度,后者则常用于考察预测值对实际值的拟合优度。该过程在实际应用中用的非常少。
这里只介绍Bivariate过程。
2.1 Bivariate过程
2.1.1 界面说明
选择Analyze→Correlate→Bivariat,就可进入对话框,如图2.1a所示。其中各部分解释如下:
图2.1a Bivariat对话框
●Variables框:用于选入需要进行相关分析的变量,至少需要选入两个。
●Correlation Coefficients复选框组:用于选择需要计算的相关分析指标,有:
Pearson复选框 选择进行积距相关分析,即最常用的参数相关分析
Kendall's tau-b复选框 计算Kendall's等级相关系数
Spearman复选框 计算Spearman相关系数,即最常用的非参数相关分析(秩相关)
●Test of Significance单选框组:用于确定是进行相关系数的单侧(One-tailed)或双侧(Two-tailed)检验,一般选双侧检验。
●Flag significant correlations:用于确定是否在结果中用星号标记有统计学意义的相关系数,一般选中。此时P<0.05的系数值旁会标记一个星号,P<0.01的则标记两个星号。
●Options:弹出Options对话框(见图2.1b),选择需要计算的描述统计量和统计分析:
图2.1b Bivariat Correlatiolns中的Options对话框
Statistics复选框组 可选的描述统计量。它们是:
Means and standard deviations每个变量的均值和标准差
Cross-product deviations and covariances各对变量的交叉积和以及协方差阵
Missing Values单选框组 定义分析中对缺失值的处理方法,可以是具体分析用到的两个变量有缺失值才去除该记录(Exclude cases pairwise),或只要该记录中进行相关分析的变量有缺失值(无论具体分析的两个变量是否缺失),则在所有分析中均将该记录去除(Excludes cases listwise)。默认为前者,以充分利用数据。
2.1.2 分析实例
例2.1 请计算SPSS自带的样本数据中意大利(judge1)和韩国法官(judge2)得分的相关性。
由于judge1和judge2的数据分布不太好,这里同时计算Pearson相关系数和Spearman相关系数。操作如下:
1. Variables框:选入judge1、judge2
2. Pearson复选框:选中
3. Spearman复选框:选中
4. 单击OK钮
2.1.3 结果解释
例2.1的输出结果如下所示:
●Pearson相关系数系数表。变量间两两的相关系数是用方阵的形式给出的。每一行和每一列的两个变量对应的格子中就是这两个变量相关分析结果结果,共分为三列,分别是相关系数、P值和样本数。由于这里只分析了两个变量,因此给出的是2*2的方阵。由上表可见judge1、judge2自身的相关系数均为1(of course),而judge1和judge2的相关系数为0.91,P<0.01,有非常显著的统计学意义。
如果需要得到具体的P值。请进入表格的编辑模式,双击P值所在的单元格,就可以看
到精确的P值大小。
Correlations
上表的标题内容翻译如下:
Italy South Korea
.910
.000
300
1.000
300
Pearson积距相关系数 1.000
Italy P值(双侧)
样本数 300
Pearson积距相关系数 .910
South
P值(双侧) .000
Korea
样本数 300
●Spearman相关系数系数表。此处的表格内容和上面Pearson相关系数的结果非常相似,只是表格左侧注明为Spearman等级相关。可见judge1和judge2的等级相关系数为0.92,P<0.001,有非常显著的统计学意义。
Nonparametric Correlations
回归分析:线性回归与曲线拟合Regression
回归分析是处理两个及两个以上变量间线性依存关系的统计方法。在现实问题研究中,这类方法用的比较多。如产品销售与广告费用有关系,人头发中某种金属元素的含量与血液中该元素的含量有关系,人的体表面积与身高、体重有关系;等等。回归分析就是用于说明这种依存变化的数学关系。
3.1 Linear过程
3.1.1 简单操作入门
调用此过程可完成二元或多元的线性回归分析。在多元线性回归分析中,用户还可根据需要,选用不同筛选自变量的方法(如:逐步法、向前法、向后法,等)。
例3.1请分析在数据集中变量X1(化肥施肥量)对变量Y(粮食产量)的大小有无影响?或者X1、X2、X3、X4、X5变化对Y有无影响?
显然,这里所有变量都是连续性变量,用单因素方差分析或多因素方差分析不太现实,应采用回归分析来解决。前一个问题是双变量回归问题,而后面是多元回归问题。其实,回归分析和方差分析都可以被归入广义线性模型中,因此他们在模型的定义、计算方法等许多方面都非常近似,下面大家很快就会看到。
3.1.1.1 界面详解
在菜单中选择Regression→linear,系统弹出线性回归对话框,如图3.1a所示:
图3.1a Linear Regression对话框
除了大家熟悉的内容以外,里面还出现了一些特色项:
●Dependent框:用于选入回归分析的因变量。
●Block按钮组:由Previous和Next两个按钮组成,用于将下面Independent框中选入的自变量分组。由于多元回归分析中自变量的选入方式有前进、后退、逐步等方法,如果对不同的自变量选入的方法不同,则用该按钮组将自变量分组选入即可。下面的例子会讲解其用法。
●Independent框:用于选入回归分析的自变量。双变量回归时,选入一个变量即可;若多元回归时,就需要选入多个变量。由于是线性回归分析,所以要求所有选入的变量必须与Dependent框中的变量是线性相关,也就是回归方程必须是线性的。
●Method下拉列表:用于选择对自变量的选入方法,有Enter(强行进入法)、Stepwise(逐步法)、Remove(强制剔除法)、Backward(向后法)、Forward(向前法)五种。该选项对当前Independent框中的所有变量均有效。
●Selection Variable框:选入一个筛选变量,并利用右侧的Rules钮建立一个选择条件,这样,只有满足该条件的记录才会进入回归分析。
●Case Labels框:选择一个变量,它的取值将作为每条记录的标签。最典型的情况是使用记录ID号的变量。
●WLS>>:可利用该按钮进行权重最小二乘法的回归分析。单击该按钮会扩展当前对话框,出现WLS Weight框,在该框内选入权重变量即可。
●Statistics:弹出Statistics对话框(见图3.1b),用于选择所需要的描述统计量。有如下选项:
图3.1不 Linear Regression中的Statistics对话框
Regression Coefficients复选框组:定义回归系数的输出情况,选中Estimates可输出回归系数B及其标准误,t值和p值,还有标准化的回归系数beta;选中Confidence intervals则输出每个回归系数的95%可信区间;选中covariance
matrix则会输出各个自变量的相关矩阵和方差、协方差矩阵。以上选项默认只选中Estimates。
Residuals复选框组:用于选择输出残差诊断的信息,可选的有Durbin-Watson残差序列相关性检验、超出规定的n倍标准误的残差列表。
Model fit复选框:模型拟合过程中进入、退出的变量的列表,以及一些有关拟合优度的检验:,R,R2和调整的R2, 标准误及方差分析表。
R squared change复选框:显示模型拟合过程中R2、F值和p值的改变情况。
Descriptives复选框:提供一些变量描述,如有效例数、均值、标准差等,同时还给出一个自变量间的相关矩阵。
Part and partial correlations复选框:显示自变量间的相关、部分相关和偏相关系数。
Collinearity diagnostics复选框:给出一些用于共线性诊断的统计量,如特征根(Eigenvalues)、方差膨胀因子(VIF)等。
以上各项在默认情况下只有Estimates和Model fit复选框被选中。
●Plot:弹出Plot对话框(见图3.1c),用于选择需要绘制的回归分析诊断或预测图。可绘制的有标准化残差的直方图和正态分布图,因变量、预测值和各自变量残差间两两的散点图等。
图3.1c Linear Regression中的Plots对话框
●Save:许多时候需要将回归分析的结果存储起来,然后用得到的残差、预测值等做进一步的分析,Save钮就是用来存储中间结果的。可以存储的有:预测值系列、残差系列、距离(Distances)系列、预测值可信区间系列、波动统计量系列,见图3.1d。下方的按钮用于选择将这些新变量存储到一个新的SPSS数据文件或XML中。
图3.1d Linear Regression中的Save对话框
●Options:设置回归分析的一些选项,见图3.1e:
Stepping Method Criteria单选钮组:设置纳入和排除标准,可按P值或F值来设置。
Include constant in equation复选框:用于决定是否在模型中包括常数项,默认选中。
Missing Values单选钮组:用于选择对缺失值的处理方式,可以是不分析任一选入的变量有缺失值的记录(Exclude cases listwise)而无论该缺失变量最终是否进入模型;不分析具体进入某变量时有缺失值的记录(Exclude cases pairwise);将缺失值用该变量的均值代替(Replace with mean)。
图3.1e Linear Regression中的Options对话框
3.1.1.2 输出结果解释
根据题目的要求,第一个问题只需在Dependent框中选入Y,Independent框中选入X1即可,其他的选项一律不管,单击OK就行了。而第二个问题是多元回归,除了在Independent框中选入所有X变量外(注意Block顺序),最好还要改Method框中的Enter为Forward或者Backward,以检验多重共线性问题。此外,还可在Statistics中选中Durbin Waston、Collinearity diagnostics等。
下面是第一个问题的分析结果。第二个问题就由大家参照后面的实例去练习一下。
●这里的表格是拟合过程中变量进入/退出模型的情况记录,由于只引入了一个自变量,所以只出现了一个模型1(在多元回归中就会依次出现多个回归模型),该模型中X1为进入的变量,没有移出的变量,具体的进入/退出方法为enter。
Variables
Model
1
Entered
X1(a)
Variables
Removed
.
Method
Enter
Variables Entered/Removed(b)
a All requested variables entered.
b Dependent Variable: Y
●拟合模型的情况简报,显示在模型1中相关系数R为0.994,而决定系数R2为0.892,校正的决定系数为0.885,说明模型的拟合度较高。
Model Summary
Adjusted R
Model
1
R
.944(a)
R Square
.892
Square
.885
Std. Error of
the Estimate
1493.98371
a Predictors: (Constant), X1
●这是所用模型的检验结果,可以看到这就是一个标准的方差分析表!有兴趣的话,可以自己用方差分析模型做一下,就会发现出了最左侧的一列名字不太一样外,其他的各个参数值都是相同的。从上表可见所用的回归模型F值为132.017,P值为0.000,因此用的这个回归模型是有统计学意义的,可以继续看下面系数分别检验的结果。由于这里所用的回归模型只有一个自变量,因此模型的检验就等价与系数的检验,在多元回归中这两者是不同的。
Model
1
Regression
Residual
Total
Sum of Squares
294770998.380
35711799.398
330482797.778
df
1
11
17
Mean Square
294770998.380
2231987.412
F
132.017
Sig.
.000(a)
ANOVA(b)
a Predictors: (Constant), X1
b Dependent Variable: Y
●包括常数项在内的所有系数的检验结果。用的是t检验,同时还会给出标化/未标化系数。可见常数项和X1都是有统计学意义的。
Unstandardized
Model
1
(Constant)
X1
Coefficients
B
30817.311
4.571
Std. Error
1201.314
.398
Standardized
Coefficients
Beta
.944
t
25.587
11.492
Sig.
.000
.000
Coefficients(a)
a Dependent Variable: Y
上表的内容如果翻译成中文则如下所示:
模型
1
未标准化系数 标准化系数
系数β
.944
t值
25.587
11.492
系数b 系数标准误
常数
30817.311
X1
4.571
1201.314
.398
P值
.000
.000
3.1.2 复杂实例操作
3.1.2.1 分析实例
例3.2 请分析在数据集中变量extrusn、additive、gloss和opacity对变量tear_res的大小有无影响?已知extrusn对tear_res的大小有影响。
显然,这里是一个多元回归,由于除了extrusn确有影响以外,不知道另三个变量有无影响,因此这里将extrusn放在第一个block,进入方法为enter(有把握extrusn一定有统计学意义);另三个变量放在第二个block,进入方法为stepwise(让软件自动选择判断),操作如下:
1.
2.
3.
4.
5.
Analyze→Regression→Linear
Dependent框:选入tear_res
Independent框:选入extrusn;单击next钮
Independent框:选入additive、gloss和opacity;Method列表框:选择单击OK钮
stepwise
3.1.2.2 结果解释
最终的结果如下:
●表格依次列出了模型的筛选过程,模型1用进入法引入了extrusn,然后模型2用stepwise法引入了additive,另两个变量因没有达到进入标准,最终没有进入。
Regression
上面的表格翻译出来如下:
模进入的变型 量
1
2
extrusn
移出的变量
进入法
stepwise法(标准:进入概率小于0.05,移出概率大于0.1)
变量筛选方法
additive
●两个模型变异系数的改变情况,从调整的R2可见,从上到下随着新变量的引入,模型可解释的变异占总变异的比例越来越大。
●所用两个模型的检验结果,用的方法是方差分析,可见二个模型都有统计学意义。
●三个模型中各个系数的检验结果,用的是t检验,可见在模型2中所有的系数都有统计学意义。
上表的内容翻译如下:
1
2
(常数)
(常数)
未标化的系数 标化的系数
B
标准误
Beta
t值
5.900 .215
5.315 .314
P值
模型
22.278 .000
3.522
.000
11.921
.000
4.905
.000
2.707
.000
extrusion
.590 .117 .139
extrusion
.590 .144 .139
additive .390 .144 .422
●这是新出现的一个表格,反映的是没有进入模型的各个变量的检验结果,可见在模型1中,未引入模型的候选变量additive还有统计学意义,可能需要引入,而模型2中没有引入的两个变量其P值均大于0.05,无需再进行分析了。
3.2 Curve Estimation过程
Curve Estimation过程可以用与拟合各种各样的曲线,原则上只要两个变量间存在某种可以被它所描述的数量关系,就可以用该过程来分析。但这里要指出,由于曲线拟合非常的复杂,而该模块的功能十分有限,因此最好采用将曲线相关关系通过变量变换的方式转化为直线回归的形式来分析,或者采用其他专用的模块分析。
3.2.1 界面详解
Curve Estimation过程中有特色的对话框界面内容,如图3.2a所示:
图3.2a Curve Estimation对话框
下面分别解释一下它们的具体功能:
●Dependent框:用于选入曲线拟和中的因变量,可选入多个,如果这样,则对各个因变量分别拟合模型。
●Independent单选框组:用于选入曲线拟和中的自变量,有两种选择,可以选入普通的自变量,也可以选择时间作为自变量,如果这样做,则所用的数据应为时间序列数据格式。
●Models复选框组:是该对话框的重点,用于选择所用的曲线模型,可用的有:
Linear:拟合直线方程,实际上与Linear过程的二元直线回归相同;
Quadratic:拟合二次方程Y = b0+b1X+b2X2;
Compound:拟合复合曲线模型Y = b0×b1X;
Growth:拟合等比级数曲线模型Y = e(b0+b1X);
Logarithmic:拟合对数方程Y = b0+b1lnX;
Cubic:拟合三次方程Y = b0+b1X+b2X2+b3X3;
S:拟合S形曲线Y = e(b0+b1/X);
Exponential:拟合指数方程Y = b0 eb1X;
Inverse:数据按Y = b0+b1/X进行变换;
Power:拟合乘幂曲线模型Y = b0X b1;
Logistic:拟合Logistic曲线模型Y = 1/(1/u + b0×b1X),如选择该线型则要求输入上界。
上面的几种线型和其他的模块有重复,如Logistic、Liner等,由于本模块的功能有限,在重复的情况下建议用其它专用模块来分析。
●Include constant in equation复选框:确定是否在方程中包含常数项。
●Plot models复选框:要求对模型做图,包括原始数值的连线图和拟合模型的曲线图。
●Save:弹出SAVE对话框(见图3.2b),用于定义想要存储的中间结果,如预测值、
预测值可信区间、残差等。
图3.2b Curve Estimation中的Save对话框
●Display ANOVA table复选框:要求显示模型检验的方差分析表。
附:实验项目3:均值比较与回归分析
实验项目
实验日期
实验环境
实验内容
能应用SPSS软件进行:单个均值假设检验、均值比较、相关分析、回归分析
SPSS for WINDOWS
依据上个实验的数据文件或选择SPSS数据库中的文件,进行:
1、单个均值假设检验分析
2、均值比较分析
3、相关分析
4、回归分析
根据实验自己认真填写.
实验步骤
实验结论(或实验体会)
实验批改
1.写出求解问题的主要结果。
2.谈谈实验体会。
版权声明:本文标题:第7章均值的比较CompareMeans 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://roclinux.cn/b/1703480094a453193.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论