案例,spss,数据分析
您现在的位置:SPSS案例分析网 >> SPSS学习案例

SPSS重要概念


SPSS重要概念(一)

(一)标准差(sd):描述数据的离散程度
(一)标准误差:
标准误差用来衡量抽样误差。标准误越小,表明样本统计量与总体参数的值越接近,样本对总体越有代表性,用样本统计量推断总体参数的可靠度越大。因此,标准误是统计推断可靠性的指标。
1,标准误差一般用来判定该组测量数据的可靠性,在数学上它的值等于测量值误差的平方和的平均值的平方根。
2,标准误差在正态分布中表现出正态分布曲线的陡峭程度,标准误差越小,曲线越陡峭,反之,曲线越平坦。
3,标准误差在实际的计算中使用的是标准误差估算值。
4,标准误差不是实际误差。
标准差,中文环境中又常称均方差,但不同于均方误差(均方误差是各数据偏离真实值的距离平方和的平均数,也即误差平方和的平均数,计算公式形式上接近方差,它的开方叫均方根误差,均方根误差才和标准差形式上接近),标准差是离均差平方和平均后的方根,用σ表示。标准差是方差的算术平方根。标准差能反映一个数据集的离散程度。平均数相同的两组组数据,标准差未必相同。

概念不同;标准差是描述观察值(个体值)之间的变异程度;标准误是描述样本均数的抽样误差;
用途不同;标准差与均数结合估计参考值范围,计算变异系数,计算标准误等。标准误用于估计参数的可信区间,进行假设检验等。
它们与样本含量的关系不同:当样本含量n足够大时,标准差趋向稳定;而标准误随n的增大而减小,甚至趋于0 。
转载自https://zhidao.baidu.com/question/561511345148197404.html
(二)均值(mean):描述数据的大小
(三)T检验(Student's t test):比较两个平均数的差异是否显著
原理:T检验是用T分布理论来推论差异发生的概率,从而比较两个平均数的差异是否显著。
适用范围:T检验主要用于样本含量较小(例如n < 30),总体标准差σ未知的正态分布,用来检验两独立样本均数差异是否能推论至总体。
检验条件:T检验是有条件的,其中之一就是要符合方差齐次性,这点需要F检验来验证。从两研究总体中随机抽取样本,要对这两个样本进行比较的时候,首先通过F检验判断两总体方差是否相同,即方差齐性。若两总体方差相等,则直接用t检验,若不等,可采用变量变换或秩和检验等方法。
处理样本组数:T检验用于两个处理样本之间,判断平均数之差与均数差数标准误的比值,它一般用于两处理,其目的是推翻或肯定假设前提两处理的分别的总体平均数相等。
(四)F检验(F-test):基于统计值服从F分布的检验
又称为联合假检验、方差比率检验、方差齐性检验。
原理:F检验是基于统计值服从F分布的检验。
适用范围:F检验主要用于均数差别的显著性检验、分离各有关因素并估计其对总变异的作用、分析因素间的交互作用、方差齐性(Equality of Variances)检验等情况。
处理样本组数:F检验是一种一尾检验,目的在于推断处理间差异,主要用于方差分析,一般用于三组以上的样本。
(五)公因子方差(共性方差):几个公因子方差的累计贡献率(因子提取案例)
公因子方差是几个公因子方差的累计贡献率,累计贡献率越高,说明提取的这几个公因子对于原始变量的代表性或者说解释率越高,整体的效果就越好。 累计贡献率越低,说明提取的公因子的代表性或者说解释率越差,效果就越差。这个没有统一的标准,有的分析中,50%就可以接受,有的分析中,达到80%才可以。

 
上表显示第一成分与第二成分的初始特征值均大于1,其后的都小于1,故选择两个公共因子便可以得到95.478%的累积贡献率,即表示两个公共因子可以解释约95%的总方差,结果理想。
 
上表11个变量的共性方差均大于0.5,且大部分接近或超过0.9,说明提取的两个公共因子能很好的反映原始变量的主要信息。
 
上述的碎石图信息表达的内容和公因子方差表的内容一致。
 
上表中用主成分的提取方法获得的因子负荷矩阵中,根据0.5的原则,因子1在11个变量中都有很大的负荷,可以认为其反应了总体城市化的综合情况。因子2在第二产业总产值占GDP比重X2、第三产业总产值占GDP比重X3、地方财政收入X4变量上有较大的负荷,说明因子2反映的是产业结构经济发展因子。
 
上表是旋转后的成分矩阵。
 
 
 
 
 
 
 


(六)碎石图:分析降维因子分析抽取碎石图
(七)成份得分系数矩阵:分析降维因子分析得分显示得分系数矩阵
(七)累积贡献率(方差贡献):反映公因子对量表的累积有效程度
(八)变量共同度:反映公因子解释原变量的有效程度
(九)因子载荷(成分载荷,或称为权重):反映原变量与某个公因子的相关程度
又如某个二级变量对一级变量的银子载荷。
 
(九)标准化因子载荷:
探索性因子分析用spss做,

验证性因子分析用AMOS做,,标准化因子载荷属于验证性因子分析结果
(十)层次结构数据(hierarchical data):在Stata20.0中称为面板数据(panel data)
操作方法:分析混合模型线性

 

面板数据,即Panel Data,也叫“平行数据”,是指在时间序列上取多个截面,在这些截面上同时选取样本观测值所构成的样本数据。或者说他是一个m*n的数据矩阵,记载的是n个时间节点上,m个对象的某一数据指标。

SPSS里把这种类型的资料,不叫面板数据panel data,而叫层次结构数据hierarchical data。

然后,分析方法常采用线性混合效应模型linear mixed model,在SPSS13里选analyze->mixed model-> linear 可以作。如果模型比较复杂的话,SPSS就做不了,需要找专门软件了,比如前面朋友提到的EVIEWS。

最后,在excel里面把数据按每列一个变量输入,然后把这几列数据复制到data里面就可以了,需要该变量名的话,把变量名转置成列,粘贴到变量的标签值里即可。
 

概念:其有时间序列和截面两个维度,当这类数据按两个维度排列时,是排在一个平面上,与只有一个维度的数据排在一条线上有着明显的不同,整个表格像是一个面板,所以把panel data译作“面板数据”。但是,如果从其内在含义上讲,把panel data译为“时间序列—截面数据” 更能揭示这类数据的本质上的特点。也有译作“平行数据”或“TS-CS数据(Time Series - Cross Section)”。
(十一)计算变量(合并变量):“转换”“计算变量”
(十二)方差:衡量随机变量或一组数据时离散程度的度量
概念:方差是在概率论和统计方差衡量随机变量或一组数据时离散程度的度量。概率论中方差用来度量随机变量和其数学期望(即均值)之间的偏离程度。统计中的方差(样本方差)是每个样本值与全体样本值的平均数之差的平方值的平均数。在许多实际问题中,研究方差即偏离程度有着重要意义。

统计学意义:当数据分布比较分散(即数据在平均数附近波动较大)时,各个数据与平均数的差的平方和较大,方差就较大;当数据分布比较集中时,各个数据与平均数的差的平方和较小。因此方差越大,数据的波动越大;方差越小,数据的波动就越小。
样本中各数据与样本平均数的差的平方和的平均数叫做样本方差;样本方差的算术平方根叫做样本标准差。样本方差和样本标准差都是衡量一个样本波动大小的量,样本方差或样本标准差越大,样本数据的波动就越大。
方差和标准差是测算离散趋势最重要、最常用的指标。方差是各变量值与其均值离差平方的平均数,它是测算数值型数据离散程度的最重要的方法。标准差为方差的算术平方根,用S表示。方差相应的计算公式为:
(十三)标准差:样本方差和样本标准差都是衡量一个样本波动大小的量
标准差与方差不同的是,标准差和变量的计算单位相同,比方差清楚,因此很多时候我们分析的时候更多的使用的是标准差。
(十四)二分类变量(只有两个结果:如0和1,0代表不合格,1代表合格)
(十四)定距、定类(转换重新编码为不同变量)
(十四)二元logistic回归(因变量是二分类变量的回归)
Logistic回归是一种广义的线性回归分析模型,常用于数据挖掘、疾病自动诊断,经济预测等,如探讨引发疾病的危险因素,并根据危险因素预测疾病发生的概率等。以胃癌病情分析为例,选择两组人群,一组是胃癌组,一组是非胃癌组,两组人群必定具有不同的体征与生活方式等。因此因变量就为是否胃癌,值为“是”或“否”,自变量就可以包括很多了,如年龄、性别、饮食习惯、幽门螺杆菌感染等。自变量既可以是连续的,也可以是分类的。然后通过logistic回归分析,可以得到自变量的权重,从而可以大致了解到底哪些因素是胃癌的危险因素。同时根据该权值可以根据危险因素预测一个人患癌症的可能性。


logistic是一种特殊的回归分析,对bai因变量有特殊的要求即二分类变量。就是只有两种可能结果,比如合格还是不合格。
非缺失值的产生的原因多种多样,主要分为机械原因和人为原因。机械原因是由于机械原因导致的数据收集或保存的失败造成的数据缺失,比如数据存储的失败,存储器损坏,机械故障导致某段时间数据未能收集(对于定时数据采集而言)。人为原因是由于人的主观失误、历史局限或有意隐瞒造成的数据缺失,比如,在市场调查中被访人拒绝透露相关问题的答案,或者回答的问题是无效的,数据录入人员失误漏录了数据。

二元logistic回归的因变量 只能限定有两个分类。可以改用多元logistic回归
(十四)多元logistic回归中的协变量可以看作控制变量
(十五)自由度(df):
自由度(degree of freedom, df)指的是计算某一统计量时,取值不受限制的变量个数。通常df=n-k。其中n为样本数量,k为被限制的条件数或变量个数,或计算某一统计量时用到其它独立统计量的个数。自由度通常用于抽样分布中。
(十六)平方和
平方和,数学术语,定义为2个或多个数的平方相加。通常是一些正整数的平方之和,整数的个数可以是有限个,也可以是无限多。
 
组内离差平方和反映了试验过程中各种随机因素所引起的试验误差;组间离差平方和反映了各组样本之间的差异程度,即由变异因素的水平不同所引起的系统误差;总离差平方和反映了全部观察值离散程度的总规模。
(十七)均方(meansquare):均方是表示离差平方和与自由度之比,也称为方差
由于各误差平方和的大小与观测值的多少有关,为了消除观测值多少对误差平方和大小的影响,需要将其平均,也就是用各平方和除以它们所对应的自由度,这一结果称为均方(meansquare),也称为方差。
(十八)平均提取方差(Average Variance Extracted, AVE):在cmos中做
一般在cmos中做。