美章网 资料文库 统计资料范文

统计资料范文

统计资料

【关键词】统计学;医学;数据分析,统计

HuCY,HuLP.JChinIntegrMed.2009;7(1):7478.

ReceivedOctober9,2008;accptedDecember1,2008;publishedonlineJanuary15,2009.

Indexed/abstractedinandfulltextlinkoutatPubMed.JournaltitleinPubMed:ZhongXiYiJieHeXueBao.

Freefulltext(HTMLandPDF).

ForwardlinkingandreferencelinkingviaCrossRef.

DOI:10.3736/jcim20090112OpenAccess

Howtoidentifystatisticaldata

ChunyanHU,LiangpingHU

ConsultingCenterofBiomedicalStatistics,AcademyofMilitaryMedicalSciences,Beijing100850,China

Keywords:statistics;medicine;dataanalysis,statistical

统计资料是统计分析的对象,正确识别统计资料是合理运用统计分析方法处理统计资料的首要前提;而科学完善的实验设计又是获得准确而又可靠统计资料的基本保证。

1何为统计资料

1.1数据不等于统计资料某研究者提交了如下内容。请问:它们是否叫统计资料?

6.55.16.13.93.57.72.11.99.67.97.67.84.66.16.42.87.62.54.68.14.86.95.12.06.46.04.58.08.08.66.44.96.46.84.73.47.71.22.80.52.63.26.57.63.55.75.42.37.42.74.26.46.97.26.76.54.07.31.14.92.52.91.93.61.42.54.42.5

它们不叫统计资料,因为这些数据代表什么含义并不清楚,数据的单位是什么不清楚,能派什么用场也不清楚,它们只能叫68个数据而已。

1.2仅有度量衡单位的数据仍不能称为统计资料假定前面给出的68个数据的单位是ng/ml,是否可称其为统计资料呢?仍然不可以!因为还缺少数据的名称,即数据的专业含义是什么,必须交代清楚,对其进行分析和讨论才能有的放矢,否则,只能是玩弄数字游戏。

1.3仅有变量名及其取值的数据仍不能称为统计资料表1中有很多数据,其中的每一列都能被称为统计资料吗?

有些似乎可以,有些则不可以。因为有些列仅有变量名,其专业含义并不清楚,如“G”代表什么,其下方的“1”与“2”又分别代表什么,“X1”的含义可通过其下方的“男”、“女”得知其代表“性别”,但“X3~X13”的含义都不清楚,“X14”代表联合用药情况。

1.4有指标名称又有度量衡单位的数据是否一定就可称为统计资料假定前面给出的68个数据所代表的指标为神经元特异性烯醇化酶(neuronspecificenolase,NSE)的含量,其单位是ng/ml,此时,它们是否就能叫统计资料?若要求不高,基本上可以称其为统计资料;若要求严格,还不能这样称呼。因为它们测自什么样的受试者并不清楚!比如有的测自正常人,有的测自不同疾病患者,甚至有的测自动物。表1冠心病人与正常人多项指标的观测结果

1.5统计资料应具备4个基本要素应当说,指标(或变量)名称、度量衡单位和具体取值是统计资料的3个基本要素。仅有这些基本要素可能还达不到特定的研究目的,也就是说,统计资料还应包括实现特定研究目的所对应的特定条件。比如说,前面给出的68个数据是某年从某地区18~60岁全部正常成年人中随机抽取的68人血液NSE酶的具体数值,而且,在获得这些数据时,测定的时间、地点、方法、仪器设备和测定者等都相同。这样条件下测得的NSE酶含量(ng/ml)所得的统计资料,运用适当的统计分析方法,才可以推测该年该地区18~60岁全部正常成年人血中NSE酶含量的(1-α)100%容许区间(医学上习惯称为正常值范围)和NSE酶含量总体平均值的(1-α)100%置信区间(也有人称为可信区间)。概括起来说,统计资料应具备4个要素:影响因素(测定条件)、有明确专业含义的指标名称、度量衡单位和具体取值。由此可见,统计资料通常是复合型,一般至少含有2个变量,一个称为影响因素,另一个称为观测指标及其取值。前面举的例子中,影响因素是受试者类型,仅测定了正常人,隐含的另一个水平是除这里定义的正常人以外的其他人,要使两组人具有较好的可比性,与其可形成对照的是某年从某地区18~60岁全部非正常成年人中随机抽取的68人。下面的表2中,若给X5~X11加上相应的度量衡单位,就是一个比较正规且可达到一定研究目的的复合型统计资料。表2103例冠心病人与100例正常人多项指标的观测结果

2统计资料的分类

2.1定性与定量资料任何一个有一定实用价值的统计资料通常都是复合型统计资料,即至少有两类性质的资料,一类叫定性资料,另一类叫定量资料。通常影响因素是定性资料,而观测结果是定量资料,但有时影响因素和观测结果都可包含定性与定量两类资料。

2.2资料类型的两种划分方法资料类型的划分方法有传统与现代两种。现将这两种划分方法作一扼要介绍,并对其加以比较。

2.2.1资料类型的传统划分方法资料类型的传统划分方法是将资料分为计量资料、计数资料和等级资料3类。其定义如下。

计量资料:测定每个观察单位某项指标量的大小,所得的资料称为计量资料。例如测得正常成年男子身高(cm)、体质量(kg)、血红蛋白(g/L)和总铁结合力(μmol/L)等所得的资料。

计数资料:将观测单位按某种属性或类别分组计数,得到各组观察单位数称为计数资料。例如某单位全体员工按ABO血型系统划分所得A型、B型、AB型、O型血的人数分别为1598、2032、641、1823人;又例如某小学1年级至6年级的学生人数分别为90、100、86、95、112、96人。

等级资料:将观测单位按某种属性的不同程度分组计数,得到各组观察单位数称为等级资料或半定量资料或有序资料。例如用某种治疗方法医治100名某病患者,最后清点治愈、显效、好转、无效和死亡的人数分别为10、30、40、15和5人;又例如某医院检测1029例患者,其中眼晶状体混浊程度为+、++、+++的分别有494、296、239人。

2.2.2资料类型的现代划分方法资料类型的现代划分方法是将资料先粗分为定量资料和定性资料两大类,然后,再将定量资料划分为计量资料和计数资料两小类;将定性资料划分为名义资料和有序资料两小类。其定义如下。

定量资料:测定每个观察单位某项指标量的大小,所得的资料称为定量资料。

计量资料:指标的取值可以带度量衡单位,甚至可以带小数(标志测量的精度)的定量资料,就叫计量资料。例如测得正常成年男子身高(cm)、体质量(kg)、血红蛋白(g/L)和总铁结合力(μmol/L)等所得的资料,它们首先是定量资料,进一步细分,它们还是计量资料。

计数资料:在定量资料中,若指标的取值可以带度量衡单位,但不可以带小数(只能取整数,通常为正整数)的定量资料,就叫计数资料。例如测得正常成年男子脉搏数(次/min)和引体向上的次数(次/min)。

定性资料:观测每个观察单位某项指标质的状况,所得的资料称为定性资料。

名义资料:在定性资料中,若指标质的不同状况之间在本质上无数量大小或质量好坏之分或先后顺序之分的定性资料,就叫名义资料。例如某单位全体员工按ABO血型系统(A型、B型、AB型、O型)来记录每个人的情况所得的资料;又例如某市全体员工按职业(工人、农民、知识分子、军人……)来记录每个人的情况所得的资料。

有序资料:指标质的不同状况(状态个数≥3)之间在本质上有数量大小或质量好坏或有先后顺序之分的定性资料,就叫有序资料。例如某病患者按治疗后的疗效(治愈、显效、好转、无效、死亡)来划分所得的资料;又例如矽肺病患者按肺门密度级别(+、++、++

+)来划分所得的资料。

若用一张表将资料类型的现代划分方法表示出来,则一目了然。见表3。表3统计资料类型的现代划分方法

2.2.3资料类型两种划分方法的比较资料类型的传统划分方法是从资料的收集方式角度来定义,也可以说是就“形式”而言;而资料类型的现代划分方法是从资料的性质角度来定义,也可以说是就“本质”而言。

事实上,当人们看到一个记号“1”时,人们无法知道这个“1”究竟代表的是什么含义。因为它可以代表1个人的年龄为1天或1个月或1岁,可以代表某定量指标的一个具体取值,也可以代表某组个体中具有某种阳性反应的人数是1人(频数为1),还可以代表受试者的一个特定性别(如用“1”代表男性,用“0”代表女性)。这说明仅从事物的表面看问题,很难准确地获知事物的本质特征。要想准确地揭示统计资料的性质,只需给出资料所对应的指标名称(变量名,通常隐含专业意义,若含义不明,应明确给出)和具体取值,而不必将调查对象分组后数出各组的调查单位数。例如在表3的前4行中,任何一行的任何一个数据或符号都应叫做其表头上相应指标的具体取值,“25”是“年龄X1”的一个具体取值,“农民”是“职业X4”的一个具体取值,同理,“+”是“尿糖X7”的一个具体取值。对于资料类型的现代划分方法而言,可以说出表3中任何一列的资料类型;而对于资料类型的传统划分方法而言,就不便说出表3中后4列的资料类型,它需要先分组,然后,用每个指标的所有不同标志及其对应组内的个体数两部分结合在一起,才叫计数资料或等级资料。而在多变量回归分析中,需要直接利用后4列资料,此时,资料类型的传统划分方法就显得“心有余而力不足”了。

3误判资料类型的案例

例1原文题目:美泰宁对睡眠作用的影响。原作者研究美泰宁对戊巴比妥钠诱导的小鼠睡眠的影响,选用40只体质量相近的雄性小鼠,随机分为溶剂对照组和3个剂量组,根据0、12.5、25.0和75.0mg/kg体质量,用蒸馏水配成所需浓度,每天灌胃。第7天灌胃15min后,各组动物按28mg/kg体质量腹腔注射戊巴比妥钠,以小鼠翻正反射消失达1min以上作为入睡判断标准,观察腹腔注射戊巴比妥钠25min内各组动物发生睡眠的动物数。经统计学处理,中、高剂量组与溶剂对照组比较,差异有统计学意义(P<0.01)。见表4。表4美泰宁对阈下剂量戊巴比妥钠诱导雄性小鼠睡眠发生率的影响

对差错的辨析与释疑统计资料常常分为定量资料和定性资料两大类,所谓定量资料是指每个观察单位用计量方法测量某项指标数值大小;而定性资料是指记录每个观察单位的某一方面的特征和性质。本资料观察的是动物的入睡情况,原作者把每组入睡的每只动物记为1,不睡的动物记为0,这样第一组有2个1,8个0,第2组有5个1,5个0,第1组和第2组各10个数据进行t检验,得t=1.406,P<0.05(经验算,就计算本身而言,原作者的计算结果是正确的)。但实际上这里的1并不代表真正的数值,它只是代表一种状态,即入睡,而0则代表没有入睡,因而本资料从性质上说应属于定性资料。但原作者却错误地将其判断为定量资料,表的标题后括号内写了x±s的形式,但实际上表中并没有表示平均数和标准差的数据,反而误导读者该资料为定量资料。一般来说,t检验仅适于分析定量资料,用分析定量资料的方法去分析定性资料显然是错误的。

正确判定统计资料属于定量资料还是定性资料是选用统计分析方法的首要前提。本资料属于定性资料,应根据分析目的,合理选用适合此类资料的分析方法如Fisher精确检验进行统计分析。

例2原文题目:小儿皮肤血管瘤雌、孕激素受体的研究。原作者意在探讨雌激素受体(estrogenreceptor,ER)和孕激素受体(progesteronereceptor,PR)在血管瘤发生、发展中的意义。采用免疫组化方法对毛细血管瘤、混合型血管瘤、海绵状血管瘤、淋巴管瘤及正常皮肤组织的ER和PR进行检测。全部标本经10%福尔马林固定,常规石蜡包埋。每例选一典型蜡块,4~6μm切片,进行免疫组化染色,高倍镜下每例肿瘤区内计数500个细胞,计数ER和PR阳性细胞百分率,统计方法用χ2检验。结果见表5。表5血管瘤和淋巴管瘤中ER和PR检测结果

对差错的辨析与释疑正确判别统计资料的设计类型是合理选择统计分析方法的重要前提。根据统计指标的性质,统计资料一般分为定量资料和定性资料两大类。所谓定量资料,是指每个观察单位(针对此资料,其观察单位是病例标本)测得的指标是用具体的数值表示,其又细分为计量资料和计数资料;所谓定性资料,是指每个观察单位测得的指标仅反映某一方面的性质,并不能用具体的数值表示,其又细分为名义资料和有序资料。对于本资料来说,测量细胞的结果是“阳性”或“阴性”,且一般认为带有“率”的资料就是定性资料,似应判为定性资料。然而问题的关键在于,原作者的观察单位并不是细胞本身,而是每一个病例标本。原作者关心的是4种疾病病例标本和一组正常人标本的ER和PR阳性细胞率之均值是否相同,从每一个病例标本中得到的是ER和PR阳性细胞率,是一具体的数值,因而应属于定量资料。如果仅从资料的表面现象(有“率”)进行判断,而不考虑每一个数值的实际含义,没有从资料的本质上进行判断,很容易判断错误。

本资料的受试对象为病例标本,测量指标为“阳性细胞百分率”,因而应为定量资料,其涉及一个实验因素,即样品类别,有5个水平,即毛细血管瘤、混合型血管瘤、海绵状血管瘤、淋巴管瘤和正常皮肤。对于百分率的定量指标,一般根据经验,宜做平方根反正弦变换,使资料检验满足正态性和方差齐性的前提条件后,按单因素五水平设计资料进行方差分析,如变量变换后仍不满足前提条件,则用非参数检验。

例3有人对103例冠心病患者(G=1)和100例正常对照者(G=2)进行了多项指标的观测,资料见表2。若以X5~X11为定量的结果变量,分别以“组别、性别、年龄、高血压史、吸烟史、基因型”为影响因素,有人说此表中的资料类型为定性资料,也有人认为是定量资料。请问:此表中的统计资料究竟是什么资料[1]。

对差错的辨析与释疑将此表中的资料说成是定性资料或定量资料都不对,因为此表中有很多列,各列资料的性质不尽相同。若笼统地说,此表中的资料为混合型统计资料;具体地说,应根据各列变量、取值及其专业含义,区别对待。

第1列“编号”不属于统计资料,仅起一个标识作用,若一定要问该变量的性质是什么,可叫它为“多值有序变量”。

第2列“组别(区分正常人和冠心病病人)”、第3列“性别”、第5列“是否有高血压史”和第6列“是否抽烟”都是定性资料,其变量性质应叫做“二值名义变量”。

第7列~第13列都是“血脂指标”,它们都是定量资料,具体应叫做计量资料。

第14列和第15列分别是两种“基因型”(通常有3种表现:-/-、-/+、+/+),它们都是定性资料,其变量性质应叫做“三值名义变量”。

第16列是“服药情况”,其变量性质应叫做“多值名义变量”。

4小结

本文从正反两个方面介绍了什么是统计资料、统计资料的分类以及统计资料识别中常犯的错误。按现代划分方法来命名统计资料,有利于抓住问题的实质。科研设计的质量好坏和实施过程中的质量控制水平

的高低决定了所收集的统计资料是否准确、可靠;而正确识别各种研究问题中的统计资料类型,则是合理选用统计分析方法处理统计资料的关键环节。这是所有希望靠数据来说话的科研工作者不可小视的一个大问题!

【参考文献】

1HuLP.Applicationoftripletypetheoryofstatisticsinstatisticalexpressionanddescription.Beijing:People''''sMilitaryMedicalPress.2008:4046.Chinese.