您的位置:主页 > 六西格玛专栏 >
续 学习质量管理六西格玛必备(统计学知识-第一章),今天讲统计资料该如何整理。
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
第二章 统计资料的整理
调查得到的原始的统计资料必需进行加工整理,如分类、归并、汇总,按时间前后或按数值大小重新排列等等,才容易发现数据的规律性并便于做进一步的统计分析。
2.1统计调查
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
2.1.1 序列表
将变量所取值按时间顺序或按地域排列的表,分别称为时间序列表和地域序列表。表 2-2 为时间序列表。
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
分类表可以按性质分类(常称为定性分布),也可以按数值分类(常称为频数分布)。
1.定性分布
先建立一个关于元素的类别系统,各类要互相排斥,而且是完备的,使被观测的各元素能既不重复又无遗漏地分到各类中去。记录分到同类中的元素个数就可以得到定性分布,见表 2-3。
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
2.频数分布
按变量所取的值进行分类,分类的原则与定性分布相同,于是资料中每个观测值都分到相应类中去。记录各类中观测值出现的次数,制成表格形式,就是频数分布表 。
在作频数分布表时,如果变量所能取值的数目很小,就按取值大小顺序排列,每个值为一类。如果变量所能取值的数目很大,特别当变量是连续的情形,就将变量所取的值分组,记录观测值落在各组中的资料(称为频数), 制成表格形式,常称为频数分布表。
做分组频数分布表时,要先确定分几组(组数),每组变量取值范围的大小(组距)和取值范围的上、下限(组限)。
分组的目的是要简明扼要地了解大量数据的数值分布情况,所以组数不能太多。但分组后,落在同一组内的数据不再加以区分(都以该组的中点值代替),因此损失了不少原始数据的信息,所以组数也不能太少。对于观测值在 100 个或更多的资料,一般地以分 10~15 组为宜。
各组的组距可以是相同的,称为等组距的分布表。在等组距的情形下,当找出全部数据中的最大值
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
和最小值
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
后,组距 h 可由二者之差被组数 k 除得的商
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
来考虑。
当然,组距要取整数或便于计算的数。但是分组并不一定非“等组距”不可。有些数据按 “等组距”分组后可能频数分布很不正常,例如有些组的频数太小甚至为 0,就不如用不等的组距为好。还有一种通常称作“开口组”的,即最小组只有上限没有下限,最大组只有下限没有上限, 写成 “ 以下”、“ 以上”,常用在事先不能确定组限就陆续收集数据,无法预计全体数据的最大值和最小值的情形。在确定了组数和组距后,就应写出各组的上下限,然后将各观测值一一归入相应的组即可做出分布表。现通过例题说明,数据采用表 2-1。
研究表 2-1 中 200 个学生的成绩分布,可知最低分为 45,最高分为 100。若组距定为 10 分,对200 名学生的成绩进行分组,在组数、组距和各组上、下限都确定了以后,就可对观测值逐一检查它们所属的组,在所属组的记录栏做一记号,按照我国习惯,用写“正”字方法,将各观测值检查、记录完毕,就可计算出各组的频数,此时,频数分布表就完成了。本例的频数分布表如下:
表 2-4 某校 200 个学生高等数学考试成绩的频数分布表
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
在此频数表中,我们可以看出,资料的许多细节已经失去。表中 58 人的分数在 70 分至 79 分之间,但却不知 58 人的分数在此 10 分全距中所呈分布的细节。若将组距缩小,组数增多, 则细节的损失就可较不明显;但组数过多,频数表则不易一目了然。而当组数适当时,频数分布较有规则性(Regularity),即两极端之组所含频数较小,而渐近中央的组,则频数逐渐增大 。若组数增多,这种规则性,便可降低。观察表 2-4,就可明白 200 个同学高数成绩的频数分布,也具有这种对称的规则性。假使组数增多,便渐渐地失去这种规则性。现在将组距改为 6 分及 2 分,则频数表如表 2-5、表 2-6。
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
表 2-5 中组距等于 6,频数分布的规则性仍然可以维持,同时细节的损失也可减轻;而表 2-6中的组距等于 2,各组频数分布就变得很不规则了。由此可见,组数的确定应适当,不宜太多。
(1)累积频数(Cumulative Frequency)
由第一组起至第 i 组止各频数之和称为第 i 组的累积频数,记为 Fi,即
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
(2-1)
(2)频率(Percent Frequency)和累积频率
频率是频数被总数 n 除所得结果,即: Fi /n,经常以百分数表示,见表 2-7 第 5 列。各组频率之和为 1。累积频率是频率的累加,可以和累积频数比照,见表 2-7 第 6 列。频率分布和累积频率分布由于不受总数 n 的影响,所以便于不同资料的比较。
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
2. 2 统计图
统计资料整理成统计表后,便于清晰地展示变量的变化规律。为了使这种规律更有直观性,也常用图形表示,称为统计图。
2.2.1 线图(Line graph)
线图是用线条的上下波动形式,反映连续性的相对数资料的变化趋势。线图常用以表示事物或现象在时间上的发展变化,如图 2-1(数据采用表 2-8)。
绘制线图时,通常以横轴表示时间或变量,纵轴表示指标,两轴的尺度均可不从“0”点开始。图内线条一般不超过四、五条,可分别以不同的线段或颜色表示,并附图例说明。
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
图 2-1 国民生产总值与居民消费水平增长速度线图
2.2.2 条形图 (Bar chart)
条形图又名长条图,以条形的长短来表示非连续性资料(该资料可以是绝对数,也可以是相对数)的数量大小,如图2-2(数据采用表 2-8)。
绘制条形图时应注意以下各点:
(1)图中各条要有同一基线,其尺度必须从“0”开始,否则会改变条间的比例关系。
(2)条的排列顺序由高到低,如事物有自然顺序者,也可按自然顺序排列。
(3)各条的宽度要一致,条间的空隙要相等,条间空隙一般不要大于条宽。
(4)尽量避免用折断或回转的条。
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
2.2.3 圆饼图 (Pie chart)
圆饼图也称馅饼图,用扇形的面积,也就是圆心角的度数来表示数量。圆饼图主要用来表示组数不多且各部分百分比之和必须是 100%的品质资料或间断性数量资料的内部构成。圆饼图可以使读者根据圆中各个扇形面积的大小,判断某一部分在总体中所占比例的多少。圆饼图实例见图 2-1(数据采用表 2-9)
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
2.2.4 散点图 (Scatter diagram)
散点图是表示两个变量之间关系的图,又称相关图,用于分析两测定值之间相关关系。散点图具有直观简便的优点,通过散布图不但可以从点的位置判断测量值的高低、大小、变动趋势或变化范围,还可以通过观察剔除异常数据,从而提高用计算法估算相关程度的准确性,散点图实例见图2-4(数据采用表 2-8)。
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
2. 2 双变量的二元分布
对每一元素观测两个特征,记录观测结果,就是双变量的统计资料。双变量常用(X,Y)形式表示,以区别两个单变量 X 和 Y。整理双变量的统计资料时,将两变量分别分类(或按数值分组):
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
检查每一元素的两个特征应属于的类别,记录属于同类(xi,yi)的元素的数,即频数 fij,就得到二元分布。二元分布用矩形表表示,称为二元分布表,或称交叉表(Cross Table)。元素的总数:
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
(2-2)
【例2.1 】 在飞行模拟训练时,用计算机测定并打印出飞行动作的错误,从两方面进行测定:
(1)错误发生时的飞行状态,分起飞(T)、巡航(C)和着陆(L)三种。
(2)错误发生的原因,分规范理解错误(R)、仪表读数错误(M)和其它原因(O)三种。测定 45 次的打印记录如下:
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
(3)根据该记录整理的二元分部表如下:
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
从表中看出,在起飞(T)时容易发生规范理解错误(R)和仪表读数错误(M),而着陆(L)时不太容易发生规范理解错误。
在上述分布表中变量也可以是定量的。
【例2.2 】 某旅行社 322 个旅游团的旅游天数和支出费用。
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询
从表中看出,旅游费用是直接与天数有关的,天数为 3 天且费用不到 300 元的很多。
在二元分布表最下行(合计行)和最右列(合计列)分别是 X 和 Y 的单变量分布,称为边际分布。
一个双变量的二元分布绝不同于两个单变量的一元分布,它不仅说明两变量各自的分布情况,而且说明两变量之间(飞行状态与错误原因之间,旅游天数与旅游费用之间)的相互关联情况。 而这种关联情况(即是否存在关联以及关联的性态和程度等)正是研究二元分布的主要任务。
对于三变量(X,Y,Z)的统计资料,整理成分布表的形式是困难的,常用的方法是对于 X 的每一特定值 xi,研究(Y,Z)的二元分布。更多变量的情形也类似。

 张驰咨询精选课程推送:

推荐网站:

张驰咨询培训

六西格玛、DFSS、精益六西格玛》内容每周定期更新内容,敬请关注!


张驰咨询提供精益六西格玛项目辅导、公开课培训、企业内训,绿带黑带培训及项目辅导咨询。

企业内训:人数控制在30人以内,讲解、讨论、游戏结合项目运作,财务收益承诺;  

企业咨询:项目辅导+理论培训;具体详情可致电咨询!

张驰咨询公司官网http://www.zc6sigma.com(复制网址到浏览器打开)

温馨提示:六西格玛黑带培训上海、深圳、北京地区接受报名,详情致电咨询!

联系电话:17722597309;0755-86372259。

学习质量管理六西格玛必备(统计资料的整理-第二章)-张驰咨询

 

随机推荐

图文聚集

热门排行

最新文章