RSS订阅 | 匿名投稿
您的位置:网站首页 > 相关知识 > 正文

统计学 相关分析课件ppt

作者:habao 来源: 日期:2019-11-1 7:53:53 人气: 标签:相关分析

  脸上的痣图解1.本站不该用户上传的文档完整性,不预览、不比对内容而直接下载产生的问题本站不予受理。

  第二章 相关分析; 社会上,许多现象之间也都有相互联系,例如:身高与体重、教育程度和收入、学业成就和家庭、智商与父母智力等。在这些有关系的现象中,它们之间联系的程度和性质也各不相同。 本书第十章提出了两总体的检验及估计的问题,这意味着我们开始与双变量统计方法打交道了。双变量统计与单变量统计最大的不同之处是,客观事物间的关联性开始披露出来。这一章我们将把相关关系的讨论深入下去,不仅要对相关关系的存在给出判断,更要对相关关系的强度给出测量,同时要披露两变量间的联系,其内容分为相关分析和回归分析这两个大的方面。 ;第一节 变量之间的相互关系; 2. 相关方向:正相关和负相关 所谓正相关关系是指一个变量的值增加时,另一变 量的值也增加。例如,受教育水平越高找到高薪水工作的 机会也越大。而负相关关系是指一个变量的值增加时,另 一变量的值却减少。例如,受教育水平越高,理想子女数 目越少。要强调的是,只有定序以上测量层次的变量才分 析相关方向,因为只有这些变量的值有高低或多少之分。 至于定类变量,由于变量的值并无大小、高低之分,故定 类变量与其他变量相关时就没有正负方向了。; 3. 关系与对称关系 关系中两个变量有自变量(independent Variable)和因变量(dependent Variable)之分: (1)两个变量有共变关系; (2)因变量的变化是由自变量的变化引起的; (3)两个变量的产生和变化有明确的时间顺序,前者 称为自变量,后者称为因变量。 表现为对称关系的相关关系,互为根据,不能区分自 变量和因变量,或者说自变量和因变量可以根据研究目的 任意选定,例如身高和体重之间的关系。 ;4. 单相关和复相关 从变量的多少上看,单相关只涉及两个变量,亦称二元 相关;三个或三个以上变量之间的关系称为复相关,亦称多 元相关。 五、直线相关和曲线相关 从变量变化的形式上看,如果关系近似地表现为一条直 线,称为直线相关或线性相关;如果关系近似地表现为一条 曲线,则称为曲线相关或称为非线性相关。 由于数学手段的局限性,我们以学习线性相关为主。在 统计学中,通过分段处理线性相关也可以用于处理曲线相 关。;第二节 定类变量的相关分析;1. 列联表 列联表,是按品质标志把两个变量的频数分布进 行交互分类,由于表内的每一个频数都需同时满足两个 变量的要求,所以列联表又称条件频数表。 例如,某区调查了357名选民,考察受教育程度与投 票行为之间的关系,将所得资料作成下表,便是一种关 于频数的列联表。;2×2频数分布列联表的一般形式; r×c频数分布列联表的一般形式;自己志愿;两个边际分布: ; 条件频数表中各频数因基数不同不便作直接比较,因此有必要将频数化成相对频数,使基数标准化。这样,我们就从频数分布的列联表得到了相对频数分布的列联表(或称频率分布的列联表)。下表是r×c相对频数分布列联表的一般形式。; r×c相对频数分布列联表的一般形式; 在相对频数分布列联表中,各数据为各分类 出现的相对频数(或者频率)。将频数 化成相对 频数 有两种做法: ①相对频数联合分布 两个边际分布 或 ②相对频数条件分布 或 ; r×c相对频数联合分布列联表;控制X,Y相对频数条件分布列联表;控制Y,X相对频数条件分布列联表; [例A1]试把下表所示的频数分布列联表,转 化为自变量受到控制的相对频数条件分布列联 表,并加以相关分析。 ; 从上表可知,受过大学以上教育的被调查者绝大多 数(占95.8%)是投票的,受教育程度在大学以下的被调 查者虽多数也参与投票(占67.9%),但后者参与投票的百 分比远小于前者;前者只有4.2%弃权,而后者则有32.1% 弃权。两相比较可知,受教育程度不同,参与投票的行 为不同,因此两个变量是相关的。; [例A2]试把下表所示的频数分布列联表,转 化为相对频数条件分布列联表和自变量受到控制 的相对频数条件分布列联表,并加以相关分析。 ; 上表显示,大学以上文化程度和大学以下文化程度同样 各有60%的人参与投票,40%的人弃权,并没有因为受教育 程度不同,而使参与投票的行为有所不同。因此,此时的两 个变量是不相关的,或者说是的。我们不难发现,此时 反映全体投票情况的相对频数的边际分布( )也各有60% 的人参与投票,40%的人弃权。; 上表显示,当两个变量不相关时有 。 如0.532× 0.40=0.213。; [例B]某社区调查了120名市民,考察性别与 对吸烟态度之间的关系,试将所得资料作成相对 频数的联合分布、边际分布和条件分布列联表, 并进行相关分析。 性别与对吸烟的态度 ;相对频数联合分布列联表 ;相对频数条件分布列联表 ;2675名双亲和他们10071个子女 的智力的关系(%)(相对频数条件分布列联表); 通过列联表研究定类变量之间的关联性,这 实际上是通过相对频数条件分布的比较进行的。 如果对不同的X,Y的相对频数条件分布不同,且 和Y的相对频数边际分布不同,则两变量之间是 相关的。而如果变量间是相互的话,必然存 在着Y的相对频数条件分布相同,且和它的相对 频数边际分布相同。后者用数学式表示就是 或者 ;2. 削减误差比例 PRE (Proportionate Reduction in Error) 通过相对频数条件分布列联表的讨论,可以就自变量 X和因变量Y的关联性给出一个初步的判断。但是对关联 性给出判断,肯定没有用量化指标表达来得好。所以,下 面我们将关注于如何用统计方法,使相关关系的强弱可以 通过某些简单的系数明确地表达出来。 在社会统计中,表达相关关系的强弱,削减误差比 例的概念常有价值的。削减误差比例的原理是,如果 两变量间存在着一定的关联性,那么知道这种关联性,必 然有助于我们通过一个变量去预测另一变量。其中关系密 切者,在由一变量预测另一变量时,盲目性必然较关系不 密切者为小。; PRE:用不知道Y与X有关系时预测Y的全部误差E1,减去知道Y与X有关系时预测Y的联系误差E2,再将其化为比例来度量 PRE的取值范围是 0≤PRE≤l 削减误差比例PRE适用于各测量层次的变量,λ系数和τ系数便是在定类测量的层次上以削减误差比例PRE为基础所设计的两种相关系数。 ; PRE=(56-28)/56=0.5;3. λ系数 在定类尺度上测量集中趋势只能用众数。 λ系数就是利用此性质来构造相关系数的。 (1)不对称的λ系数; [例] 对下表所示资料,用λ系数反映性别与收 入高低的相关关系。;邓齐都耐酒斧滴叠削龙匹叫涪浚败晤帚退缓茫乳坊蜂段澈师啸蜘触漂油骆统计学 相关分析课件统计学 相关分析课件;(2)对称的λ系数 ; [例] 研究工作类别与工作价值的关系,工 作类别可分为三类:工人、技术人员、管理/行 政人员;工作价值也可分为三类:以收入/福利 为最重要的职业选择标准的称为经济取向型,以 工作的创造性、挑战性为最重要的职业选择标准 的称为成就取向型,以工作中的人际关系为最重 要的职业选择标准的称为人际关系取向型。对下 表所示资料,用λ系数反映工作类别与工作价值 的相关关系 。; 职工的工作种类与工作价值 ; ; 性质: (1)0≤λ≤1 (2)具有PRE意义。 (3)对称与不对称情况下,有不同的公式。 (4)以众数作为预测的准则,对条件频数分 布列联表中众数频数以外的条件频数不予理会。 (5)如果众数频数集中在条件频数分布列联 表的同一行时,λ=0,从而无法显示两变量之间 的相关性。 ;4.τ系数 τ系数的统计值域是[0,1],其特点是在计 算时考虑所有的边际频数和条件频数 。 注意:当众数很突出且众数分布不在同一行,同一 列时,用λ系数较好;但当众数不突出时,用τ系数更 好;若众数集中在某一行或某一列,一定用τ系数。; [例] 对下表所示资料,用τ系数反映性别与 收入高低的相关关系,并对系数的PRE意义加以 解释。 ; ;: 调查100名青年人与其知心朋友的志愿,条 件次数分布如下:计算知心朋友的志愿与自己志 愿之间的相关关系,并提出研究结论。;第三节 定序变量的相关分析;1. 同序对、异序对、同分对 社会学研究常用的两定序变量的相关测量 法,有一类是以同序对、异序对、同分对的概念 为基础的,如Gamma系数、肯德尔系数、d系数 等。所以我们在讨论这几种相关系数之前,先来 了解这三个概念。; 在定序相关测量中,首先要搞清楚“次序对(pair)”的概念。例如,假设 研究员工的工作满足感与归属感的关系,将工作满足感从低到高,分为低 (1)、中(2)和高(3)三个级别,归属感也从低到高分为低(1)、中 (2)和高(3)三个级别。下表列示的是5名被访者A、B、C、D、E的情况。;同序对 参见上表(注意,为了容易识别各种次序对,该表已 先将被访者按定序变量X由低到高作了排列),在观察X 序列时如果我们看到Xi< Xj ,在Y序列中看到的是Yi< Yj,则称这一配对是同序对。同序对只要求X变化方向和Y 变化方向相同,并不要求X变化大小和Y变化大小相等。 同序对的总数用符号ns表示。 异序对 见上表,在观察X序列时如果我们看到Xi< Xj ,在Y 序列中看到的是Yi > Yj,则称这一配对是异序对。同样, 异序对只要求X变化方向和Y变化方向相同,并不要求X变 化大小和Y变化大小相等。同序对的总数用符号nd表示。;同分对 如果在X序列中,我们观察到Xi= Xj (此时在Y序列中 无Yi = Yj),则这个配对仅是X方向上而非Y 方向上的同分 对;X 的这种同分对用符号nx表示。如果在Y 序列中,我 们观察到Yi = Yj(此时在X序列中无Xi= Xj ),则这个配对 仅是Y 方向上而非X方向上的同分对;Y 的这种同分对用符 号ny表示。如果我们观察到 Xi= Xj时,也观察到Yi = Yj , 则称这两个配对为X与Y 同分对,以符号nxy表示。X 同分对 的总数用符号Tx表示, Tx = nx + nxy ;Y 同分对的总数用 符号Ty表示, Ty = ny + nxy 。 n个单位两两配对,总对数= ns + nd + nx + ny + nxy ; 计算Gamma系数,肯得尔系数、 d系 数等,我们面对的经常是两定序变量已形 成列联表的资料,所以对我们来说很重要 的是要学会定序变量列联表中这五种“次序 对”的计算和识别。 同序对:“右下余子式”法 异序对:“左下余子式”法 ;;2. Gamma系数 性质: (1)取值范围[-1,1] (2)具有PRE意义 (3)属对称相关测量。 (4)不考虑同分对。; 例:在某市200户中调查,看住户人口密 度与婆媳冲突是否有关,交互分类后分布如 下,计算G相关系数并提出研究结论。 ;3. 肯德尔等级相关系数 (1)Tau-a 系数 适用于不存在任何同分对的情况。 ; 某市有12 所大专院校,现组织一个评审委员会 对各院校校园及学生体质进行评价,评价结果 如表(表中已先将学校按X作了次序排列)所示, 试计算校园和学生体质关系的肯德尔相关系 数。 ;(2)Tau-b系数 当出现同分对时,对分母进行修正。与G系 数一样, Tau-b系数也具有消减误差比例的意 义。 Tau-b系数的特殊性在于,只有在列联表的 行数与列数相同(r=c)的情况下,其系数值才 可能是-1或+1,否则便不确定。 ;(3)Tau-c系数 当同分对很多时,且r≠c ,可以用 Tau-c系数来测量。 m取r×c列联表 中r和 c值较小者。 Tau-c系数没有消减误差比例的意义。 ;4. 萨默斯 (d系数) 萨默尔斯提出的,对G系数进行修正。 d系数具有PRE意义,取值[-1,1],为不对称测量。 ;5. Spearman等级相关系数 运用上式计算等级相关系数很简便:首先将定序变 量X和Y的数值形成对应的两个序数数列(其中先将X由小 到大排)。如遇有相等的数值时,则应将原有的等级求其 平均数,让它们以这平均等级并列。然后求出等级差, 经平方后求和,运用上式即可求得斯皮尔曼等级相关系 数。 例:为了解活动能力与智商是否有关,作了10名 同学的抽样调查,资料如表,问这10名同学的智商与活 动能力是否有关。;学生;6. 肯德尔和谐系数 前面我们谈的都是对双变量求等级相关系 数。对于多变量求等级相关系数,如多个专家 对同一事物评价的一致性或相关程度的衡量, 肯德尔运用数理分析方法,提出了一个计算公 式 ; 假设四位专家对10所大专院校质量进行排序, 有关评价结果列于下表中,试通过计算肯德尔和谐系 数,检验专家意见的一致性和相关程度。 ; 例:通过对1500多名青年作社会调查, 探讨当代青年择业倾向与对社会经济生活 的基本态度,得资料如表,求等级相关系 数(当代青年择业倾向与他们对职业社会 地位的等级认定的关系;择业倾向与他们 对职业的富裕程度认定的关系)。;职业; 试就以下单元数据,列举其中的同序 对、异序对、同分对。 ; 根据交互分类表计算:ns、nd、 nx 、 ny 、 nxy 、 Tx 、 Ty 、 T(总对数) ; :1.在某地抽选469名已婚男人,研究他们对父 亲的感情是否会影响他们对婚姻的适应。试计算G系数并 提出研究结论。 丈夫与父亲的感情对其婚姻适度之影响 ; 2. 以下是两位评判员对10名参赛人员的打分 排序:试用一系数描述两评判员打分相近程度。;第四节 定距变量的相关分析;1. 相关表和散点图 相关表:经整理后反映两变量之间对应关系的数据表。 散点图:将相关表中各个有对应关系的数据在直角坐标 系上标出来,就得到散点图。散点图可以直观地观察两变 量之间对应关系。;散点图表示的相关的类型;2.积差系数的导出和计算 ; r是协方差与X和Y的标准差的乘积之比; 试就下表所示资料,计算关于员工的工龄 和技术考核分的皮尔逊相关系数。 ; N0;解:计算过程见上表 r= ;3 .积差系数的性质 (1) r 是线)适用于定距/定比变量。 (3)取值[-1,1],绝对值越大,相关程度越高。r 的 绝对值在0.3以下表示不相关;0.3~0.5表示低度相关; 0.5~0.8表示中等相关;0.8以上表示高度相关。 (4)X与Y是对称关系。 (5)相关系数的数值不受坐标点变化的影响。 (6)r2具有PRE意义。 (7)r 公式中的两个变量都是随机的,因而改变两者的并不影响r的数值。 ;注意事项: (1)注意实际意义 进行相关回归分析要有实际意义,不可把毫无关系 的两个事物或现象用来作相关回归分析。例如,有人 说,孩子长,公园里的小树也在长。求孩子和小树之间 的相关关系就毫无意义,用孩子的身高推测小树的高度 则更加。 (2)注意虚关 两个事物间能计算出相关系数,并不一定能证明事 物间有内在联系,例如,有人发现,对于在校儿童,鞋 的大小与阅读技能有很强的相关关系。然而,学会新词 并不能使脚变大,而是涉及到第三个因素?? 年龄。当儿 童长大一些,他们的阅读能力会提高而且由于长大也穿 不下原来的鞋。; (3)利用散点图 对于性质不明确的两组数据,可先做散点图,在图 上看它们有无关系、关系的密切程度、是正相关还是负 相关,是直线相关还是曲线相关,然后再进行相关分 析。 (4)注意变量范围 相关分析和回归方程仅适用于产生样本的原始数据 范围之内,出了这个范围,两变量的相关关系和回归关 系不能就此得到说明。;第五节 回归分析; 1. 线性回归 线性回归分析,一般是先依据相关表做出 散点图,直观地估计X和Y关联性。如果两变量 的确呈现出一定的线性相关趋势,便可以设所 要求的回归直线方程为 是因变量Y的预测值或称估计值。 回归方程的建立: ① 先做散点图;②利 用最小二乘法。; 运用最小平方法可以在所有可能的直线中找到使 Q达到最小的回归直线。 分别对a、b求偏导并令其为零,求得两个标准方程:; 在回归方程中,b有十分重要的意 义,被称为回归系数。b值的大小, 反映了X对Y有多大的影响,即b值就 是当X增加一个单位时Y值的增量。 ; 例:为了研究受教育年限和职业声望之间的关系,设 以下是8名社会抽样调查的结果,求直线回归方程。 解:;调查对象;X; 是r2而非r 具有PRE意义; 相关指数R,对于直线相关来说,等同于r, 即R=r。但对于非线性相关来说,就只能用相关 指数R来加以测量了。;总变差:不知回归方程时, 剩余变差:Y值对于回归直线的偏差,。 回归变差:回归已知时误差减少的量。 总变差 = 剩余变差 + 回归变差 总平方和 = 未解释的平方和 + 已解释的平方和 SST = SSe + SSA r 2=(总变差 - 剩余变差)/总变差 =回归变差/总变差 是r2而非r 具有PRE意义,所以r≤0.3时判定无相关。;第六节 曲线相关与回归;估计标准误差 为了测定回归线的代表性,引入 用来反 映围???回归线的Y值分布的离散程度。又称回归 标准差。 ;估计标准误差的解释 (1)Y的实际观测值在对应的每个估计值YP 周围呈正态分布,越靠近YP的地方Y值出现的机 会越多。 (2)所有的正态分布都具有相同的标准差: 同方差性。据此,可以对Y进行估计和推断。; :以下是生活期望值与个人成就的 抽样调查。 求:相关系数和回归直线。

  请自觉遵守互联网相关的政策法规,严禁发布、、的言论。用户名:验证码:匿名?发表评论

  

读完这篇文章后,您心情如何?
0
0
0
0
0
0
0
0
本文网址:
上一篇:热搜字词
下一篇:没有资料