当前位置:首页 > 新闻中心 > 公司新闻

数据处理与分析

发布时间: 2021-09-22 03:46:50  来源:火狐平台开户 

  数据处理 (数据)处理就是把调查中收集到的数 据转换为适合汇总制表和数据分析的形 式。 数据收集完毕之后,估计之前对数据进行 加工处理的所有活动:主要包括数据的编 码、录入、审核、插补、离群值的检测 和处理等。最后生成一个为进一步分析 用的数据库。 1 1.编码 编码是给问题的每项答案赋予一个数值 代码,以便于数据录入和作进一步处理 的过程。 编码具体方法很多,包括: 问卷中已预先编码; 在数据收集完毕之后进行手工编码; 通过文本识别软件进行自动编码(即借助软 件给一串字符赋予一个代码)。 2 2)数据录入 数据录入是将回答转化成可机读的形式。 采用纸张式收集数据的方法时,数据录 入是在数据收集完毕之后(通常是在对 问卷进行一些“梳理”和初步审核之后) 进行。 采用计算机辅助数据收集方法时,数据 录入是在数据收集的同时完成的。 3 下面几种方法可以提高数据录入的效率: 采用计算机辅助数据收集方法; 对纸张式问卷进行光电扫描; 对纸张式问卷进行预先编码。 4 3.审核 审核是应用各种检查规则来辨别缺失、无效或 不一致的录入,这些会导致数据记录的潜在错 误。审核的目的就是要保证调查最后所得的数 据的完整性、一致性和有效性(包括逻辑性)。 审核主要可分为三类:即有效性审核、一致性 审核与分布审核。有效性审核和一致性审核是 对单张问卷进行的审核;分布审核则是对全部 问卷或部分问卷的数据一起进行审核。 5 通常,审核规则的确定基于以下几个方面: 关于调查主题的专业知识; 问卷和问题的结构; 其它相关的调查或数据; 统计理论(如离群值的检测方法)。 6 数据收集完毕后,对审核失效,通常按 下列方法进行处理: 将其剔除; 进行插补; 设立特殊代码。 7 有些时候,一条记录(或整份问卷)不 符合多条审核规则的要求,或者不符合 少数几条关键审核规则的要求,从而使 得后续的处理失去意义。 在这种情况下,通常可以将这些记录剔 除,作为无回答处理,同时将赋予各被 调查单元的权数进行调整。 8 对大多数审核失效都应该加以标示, 留待作插补处理。 对于有些项目,我们可以用特殊代码 标示的方法,对确认为审核失效而不 可接受的值或无效的空白加以保留。 9 选择性审核 选择性审核基于这样一种思想:即只有 那些“关键”的审核失效,而不是所有 的审核失效,才需要采取相应的处理措 施。选择性审核一般适于定量数据。 对审核失效进行选择性审核时,可能需 要对被调查者进行再访,但对于那些需 要进一步处理和插补的记录的审核失效 除外。 10 审核的指导方针 审核的目标是: - 更好地理解数据和数据处理过程; - 检查问卷; - 回访被调查者; - 检出错填或漏填的数据; - 删除无效记录; - 分离需要插补的记录。 11 审核的准则: 审核不仅对整理数据有用,而且审核失效发生 率不论是对当前调查的质量度量,还是对将来 调查的改进都很有用,它能提供调查中有关数 据处理的信息; 不论什么时候,开始一项调查时,总是要对数 据做一些假定,审核时可以检验这些假定的合 理性。例如,可能很明显,有些领域的审核规 则太严,或者有些类型的审核失效太频繁,这 些情况表明审核规则可能不太合适(或问卷可 能存在问题); 12 审核应该分阶段进行; 审核工作应由对本次调查的主题、问卷的设 计和数据分析有专业知识、并且有类似调查 经验的人员来进行; 各阶段所进行的审核不应与其它阶段的审核 相抵触; 应该将审核的信息和审核工作对调查数据的 影响通知数据的用户。 13 4.插补 插补就是解决在审核过程中辨别出来的 数据缺失、无效与不一致等问题的过程。 插补是对审核过程中发现的所有缺失信 息的记录进行补充或用合适的数值进行 替代,确保得出内在一致的记录。 14 插补方法可以归为两类—随机插补和确 定性插补。 确定性插补,对于特定的被调查的数据, 可能的插补值只有一个。 随机插补则含有随机因素因此,每次得 出的插补值可能会不一样。 15 几种确定性插补方法如下: - 推理插补; - 均值插补; - 比(率)/回归插补; - 序贯热平台插补; - 序贯冷平台插补; - 最近邻值插补。 每一种确定性的插补方法都对应着一种随机插 补方法。插补定量数据时,用确定性的方法得 出一个插补值,加上从某个适宜的分布或模型 产出的一个残差作为最后的插补值,就成为随 机插补。 16 随机插补能更好地保持数据集的频数结 构,保持比确定性插补方法更真实的变 异性。 除供者插补方法外,下面介绍的方法可 逐项进行插补。 所谓的供者插补方法,就是用一个供者 来插补一个受者的所有缺失的或不一致 的数据。 17 4.1推理插补 推理插补:缺失的或不一致的数据能通 过推断确定。通常,这种推理是根据问 卷上其它回答项的模式来进行的。 下面简述一些常用的插补方法。对所有 这些插补方法,最好是把类似的记录归 为一组,就象进行无回答权数调整时一 样,这些组称为插补类。 18 4.2 均值插补 用均值插补,缺失或不一致的值可用插补类的 均值来代替。对缺失数据,用均值插补相当于 对同一插补类中的所有被调查者使用相同的无 回答权数进行调整。 均值插补会得到较好的点估计,但由于在插补 类均值这一点形成一个人为的“峰值”,从而 破坏了分布状态和变量之间的关系。因此,如 果用常规的抽样方差公式进行计算,就会低估 最终的方差。 均值插补通常在没有辅助信息可用或只有少量 记录需要作插补处理时,才被采用。 19 4.3 比(率)或回归插补 比率或回归插补是使用辅助信息及其它记录中 的有效回答建立一个比率或回归模型,该模型 表明了两个或多个变量之间的关系。 例如,比率插补所使用的模型为: yi Rxi i 其中:yi是变量y的第i个单元值; xi是与变量y相关的变量x的第i个单元值; R是直线的斜率(即每变动一个单位, 平均变动的数值); 是模型的随机误差项,均值为0、方差 为。 20 i 这时,yi 的插补值按如下公式计算: ~yi y x xi 式中: ~y i x 是变量y第i个记录的插补值; 是插补类中记录的x值的均值; y 是插补类中记录的y值的均值。 这里我们假定,拟合一个插补类中有效 数据(即通过了所有的审核)的比率或回归模 型,同样适用于该插补类中审核失效的数据。 21 ? 比率和回归估计产生的插补值比简单均值法产 生的插补值更加稳定。这种方法常用于的商业 调查中的定量变量,在这种调查中常可用前期 数据来预测现期数据。 ? 利用前期的数据进行插补,也称前向插补,是 比率或回归插补的一个特例,只是直接用前期 调查的数据来作为当前调查的缺失数据的插补 值。 22 4.4 热平台插补 ? 热平台插补是使用同一插补类中的供者记录 的信息来代替一个相似的受者记录中缺失的或 不一致数据。 ? 为了找到一个与受者记录相似的供者记录,必 须先确定与需要进行插补处理的变量相关的变 量,建立插补类。然后,插补类中通过所有审 核的记录集就是供者记录的集合,这些记录用 来插补受者中缺失的数据。 ? 热平台插补可以用来插补定量数据,也可以 用来插补定性数据,但通常只用定性变量建立 插补类。 23 样本序号 性别 年龄 婚姻状况 收入 汽车拥有 1 男 青年 未婚 70 无 2 男 中老年 已婚 100 有 3 女 青年 未婚 50 无 4 男 中老年 已婚 70 有 5 男 青年 未婚 90 有 6 女 中老年 丧偶 30 无 7 男 中老年 已婚 --- -- - 8 女 青年 离异 45 有 9 男 青年 未婚 --- 无 10 女 中老年 丧偶 20 --- 11 男 青年 未婚 50 有 12 男 中老年 已婚 --- --- 24 插补情况: 受者 7 9 10 12 收入 70 90 70 汽车拥有 有 无 有 供者 4 5 6 4 25 ? 在序贯热平台插补方法中,数据在插补类中是 按某种顺序排列进行处理的,插补就是用这个 序列需要插补数据前面某一个有效的回答单元 的数据来代替缺失的数值。 ? 如果每次都使用相同的排序及选取方法,序贯 热平台法是一种确定性的插补方法。而随机热 平台插补,供者是在插补类中随机选出的,因 此是一种随机插补方法。 26 ? 供者插补方法(局限于热平台插补和最 近邻插补)的优点是,因为相似的供者 (如公司和家庭等)具有相似的特征, 因此插补出的数值应该是相当准确的。 使用供者插补可以保持数据的原始分布 形式。 27 4.5 冷平台插补 ? 冷平台插补与热平台插补类似,不同之 处在于热平台插补使用当前调查的供者, 而冷平台插补则使用其它资料中的供者。 ? 冷平台插补经常使用前期的调查或普查 中的历史数据。 28 4.6 最近邻插补 ? 最近邻插补,就像热平台插补,也是基于匹配 变量选择一个供者记录。 ? 但是,用这种方法,目的不一定是非要找出一 个和受者记录在匹配变量上完全相同的供者记 录,而是要在插补类中按匹配变量找到和受者 记录最接近的供者记录——即找到距离最近的 值。 ? “最近”是通过两个观测对象之间的距离来定 义的,两个观测对象之间的距离是由辅助数据 计算的。 29 4.7 随机性插补 任何用于定量数据的确定性插补都能通过加上随 机残差变得具有非确定性。例如,我们可以用 平均值加上随机残差来进行插补: 其中, ~yi y ei ~yi 是y变量第i个记录的插补值; y 是插补类的均值; ei 是从被调查者或某一分布的随机模型中 抽取的残差。 30 哪些值需要插补 由于无回答或回答无效检出的审核失效的记录 一般都需要进行插补。但是并不是所有审核失 效的数据都需插补。对一个记录应尽可能限制 需插补的项目。 确定哪些字段需要插补应遵循以下三条准则: 应该通过变更尽可能少的数据项(字段),以使 每条记录都满足审核规则的要求; 尽可能保持数据文档的原始频数结构; 插补规则的确定,不是参考其它任何具体规定, 而是由相应的审核规则导出。 31 举例说,假设某份问卷中关于一位被调查者 的背景资料是:受教育程度(大学),婚姻 状况(已婚),性别(女),年龄(10岁)。 显然,这条记录中,年龄-婚姻状况、年龄、 受教育程度是不符合审核规则的。为了纠正 审核失效,可以同时调整婚姻状况和受教育 程度,也可以只对年龄作调整,一般倾向于 采用后者。 32 插补后数据的方差估计 前面讲到的所有插补方法都能为每一个 缺失的或不一致的值生成一个单一的插 补值,这些方法也都会在某种程度上扭 曲插补变量的原始分布,并导致使用标 准方差估计公式得出的不适当的方差估 计。 分布扭曲的程度很大程度上取决于插补 量的大小和所使用的插补方法。 33 插补的准则 虽然插补能改善最终数据的质量,但也 要小心选择适当的插补方法。插补方法 是否适当取决于调查的类型、目的、可 用的辅助信息和错误的性质。审核和插 补带来的风险是它们会破坏报告数据, 产生符合预想模型的记录,而这种模型 后来可能表明并不正确。 34 以下是进行插补的几条准则: ? 插补得到的记录应该和审核失效的记录非 常相似。这通常可以通过只对尽可能少的变量 进行插补而尽可能多地保留被调查者的原始回 答数据来做到。 ? 基本的假定(在实际工作中并不总成立)是 一个被调查者更有可能只出错一两次,而出错 多次的情况较少; ? 好的插补会为评估留下审查的线索,并保证 插补的记录具有内部一致性。插补处理过程应 该是自动的、客观的、可再现的和有效的; 35 插补得到的记录应该满足所有的审核规 则; - 插补值应标明,插补方法和插补使用 的资料也应清楚地标明。记录中变量的 插补和非插补的值都应该保留,以便对 插补的程度和影响进行评估; - 仔细选择插补的方法,考虑每一种插 补方法的优缺点以及要插补的数据的类 型; 36 - 插补方法应减少无回答偏倚,并尽 可能地保持不同变量之间的关系(即不 应破坏数据的多变量结构); - 插补系统应事先思考、提出、编程 和调试; - 插补系统应该能处理各种缺失或不 一致的字段; 37 - 对于供者插补方法,插补得到的记 录应尽可能与选中的供者相似。这有 利于保证插补记录中插补值与非插补 值的组合不仅满足审核规则而且具有 多样性。 38 5) 离群值的检测和处理 ? 离群值的检测可以看作审核的一种类 型, ? 主要是用来发现和确认可疑的记录。 应该区分极值和影响值。 ? 如果一个记录值和抽样权数的组合对 估计有较大的影响,我们就称这样的观 测值为影响值。但极值不一定是影响值。 39 ? 应区别单变量离群值和多变量离群值。 ? 如果一个离群值对应一个变量,该观测 值就是一个单变量离群值;如果一个离群 值对应两个或多个变量,我们就说该观测 值是一个多变量离群值。 ? 例如,某人的身高是2米,或体重是45公 斤,这种情况可能并不少,但身高2米且体 重只有45公斤的人,即是一个多变量离群 值的例子。 40 有许多原因会导致离群值的产生: ? 数据中有错误(如,数据录入错误); ? 离群值可能来自另一模型或分布,如,大多 数数据服从某个正态分布,但所推测的离群 值很可能是来自一个指数分布; ? 离群值的出现,可能是由于数据固有的变异 性。看起来值得怀疑的东西,可能仅仅是由 于数据集固有的变异性。 41 离群值的检测 传统上,离群值是通过测量它们和数据中心的 相对距离来辩认的。设 y1, y2 , , yn 是观测到 的样本数据,m和s分别是数据集中趋势和离 散义趋 为势 :d的i度量,yi离s数m据或中心z 的 相y对i距dx离i 定 如果大于预先确定的偏离值(如d=1.96,对应的 概率为95%,d=2.58,对应的概率为99%), 那么该观测值就被认为是一个离群值。 42 离群值也可以通过下面的容许区间进行 确认: (m cL s, m cU s) 这里,cL 和cU 分别是预先确定的下限 和上限的值。如果总体是偏态的c,L c和U 就不相等。落在这个区间之外的观测值 被认为是离群值。 43 样本均值和样本方差是度量数据集中趋势和离 散程度最常用的统计量。但是,由于它们对离 群值比较敏感。 因为上述原因,检测离群值的最常用的方法之 一是四分位数法。这种方法用中位数度量数据 的集中趋势,四分位数间距度量数据的离散程 度,因为这些统计量对离群值更为稳健(即不 大敏感)。 44 注意这里所说的中位数和四分位数都是用加权 的样本数据计算出来的。 hL q5 q25 与hL q5 q25 分别称为下四 分位数间距与上四分位数间距。由此可得容许 区间为:(q5 cL hL , q5 cU hU ) 其中,cL 和 cU 可以通过以前的数据或基于过 去的经验来确定。任何落到这个区间之外的观 测值都被认为是一个离群值。 45 10.6.2 离群值的处理 在手工审核系统中,对离群值进行检查, 如果确认是错误,就要回访并校正。 在自动审核系统中,离群值经常要进行 插补处理。 有些情况下,如果认为离群值无妨大碍, 可以不对离群值做任何处理。 46 在审核时没有进行处理的离群值可以在估计的 时候处理。 简单地忽略未经处理的离群值会影响估计的效 果,并导致估计量的方差增大; 给离群值赋予1或0的权数会使估计结果发生偏 倚。 离群值处理的目的就是在不引入较大偏倚的前 提下,尽量减少离群值对估计量抽样误差的影 响。 47 估计时有三种方法可以处理离群值,即: 1) 改变数值 处理极值的一种方法是缩尾化,这种方法首 先要将样本数据按从小到大依次排序 : 假设 y(i) , i 1,2, , n 是将样本观测值按从 小到大的顺序重新排列得到的有序样本。 若样本数据中前k个最大值(即有序样本值中 的 y(nk 1) ,..., y(n) )被认为是离群值, 则单侧次缩尾估计量就可以通过用第n-k个最 大y值(nk ) 代替所有离群值来定义。 48 例如: 年龄的样本数据排序为: 20、20、21、21、21、22、23、…99、 100、105、110 如果我们认为105和110为离群值,则可 用100来代替105和110。 49 2) 调整权数 处理离群值的另一种方法是,降低离群 值的权数使它们的影响变小。 若赋予离群值的抽样权数为1或0,这样 做对估计的影响太大,特别是对偏态总 体的估计。这样做对估计的具体影响是 使估计出现严重的偏倚—通常是低估。 50 3) 使用稳健估计量 通常样本均值和样本方差估计量在正态 性的假定下是最优的。但是,这些估计 量对离群值非常敏感。 稳健估计量则能克服这种局限性,因为 它对分布的假定不太敏感。比如,中位 数比均值更稳健;四分位数间距比通常 的方差估计量更稳健。 51