admin 管理员组

文章数量: 1086019


2024年3月13日发(作者:switch case能不能选择范围)

1.总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观

察单位某种观察值(变量值)的集合。总体可分为有限总体和无限总体。有限总体明确规定了空间、

时间、人群范围

2. 样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。样本应具有代表

性。所谓有代表性的样本,是指用随机抽样方法获得的样本

3.变量(variable)(观察指标等):要研究的个体特征例如:身高、体重、性别、血型、反应、疗效

4.个体(观察单位等):统计研究中的基本单位-据研究目的而定

5.同质:给个体规律的一些相同性质(使研究变量的已知影响因素齐同)

6.变异:同质个体的变量值的差异

7.计量资料(measurement data)又称定量资料或数值变量资料。为测定每个观察单位某项指标的大

小而获得的资料。其变量值是定量的,表现为数值大小,一般有度量衡单位。

8.计数资料(enumeration data)又称定性资料或无序分类变量资料。为将观察单位按某种属性或类

别分组计数,分组汇总各组观察单位数后而得到的资料。其变量值是定性的,表现为互不相容的属性

或类别。

9.等级资料(ranked data)又称半定量资料或有序分类变量资料。为将观察单位按某种属性的不同

程度分成等级后分组计数,分类汇总各组观察单位数后而得到的资料。其变量值具有半定量性质,表

现为等级大小或属性程度。

10.随机误差(random error):不恒定的、随机变化的误差,由多种尚无法控制的因素引起。无方向

性。主要指重复测量产生的测量误差和抽样过程产生的抽样误差。

11.抽样误差(sampling error )是指样本统计量与总体参数的差别。在总体确定的情况下,总体

参数是固定的常数,统计量是在总体参数附近波动的随机变量。

12.系统误差(systematic error):实验过程中产生的误差,它的值或恒定不变,或遵循一定的变化

规律,其产生原因往往是可知的或可能掌握的,大小变化有方向性。

13.频率(frequency)假设在相同条件下,独立地重复做

n

次试验,

A

n

次试验中出现了

m

次,则

比值

m

/

n

称为随机事件

A

n

次试验中出现的频率。

14.概率(probability)又称几率,是度量某一随机事件A发生可能性大小的一个数。值,记为P(A),

P(A)越大说明A事件发生的可能性越大0﹤P(A)﹤1。

15.统计描述:指选用恰当的指标,通常称为统计量,选用合适的统计表与统计图,对资料的数量特

征及其分布规律进行测定和描述。包括搜集数据、整理数据、总结数据、分析数据以及将数据呈现出

16.统计推断:指如何在一定的可信度下由样本信息统计指标来推断总体相应指标,又称参数估计。

包括进行推测、假设检验、确定关系然后作出预测

17.平均数(average)来描述一组变量值的集中位置或平均水平,常用的平均数有算术均数、几何均

数、中位数。

18.均数(mean)可用于反映一组呈对称分布的变量值在数量上的平均水平或者说是集中位置的特征

值。

19.几何均数(geometric mean)可用于反映一组经对数转换后呈对称分布的变量值在数量上的平均

水平。

20.中位数(median)是将

n

个变量值从小到大排列,位置居于中间的那个变量值。适用于偏态分布

资料,和一端或两端无确切数值的资料,分布不明的资料。

21.百分位数(percentile)将一组数据从大到小按顺序排列起来,并计算相应的累计百分位(频率)。

那某一百分位所对应的数据变量值就叫这一百分位的百分位数

分位数的应用:确定医学参考值

范围 ;中位数Md与四分位半间距QD一起使用,描述偏态分布资料的特征

22.极差(range):即一组变量值最大值与最小值之差

23.四分位数(quartile)是把全部变量值分为四部分的分位数

24.方差(variance)也称均方差,反映一组数据的平均离散水平与均数配对使用。其正平方根为标

准差(standard deviation)

25.变异系数(coefficient of variation)变异系数记为CV

多用于观察指标单位不同时,如身高

与体重的变异程度的比较或均数相差较大时,主要用于描述对称分布(特别是正态分布)资料的相对

变异程度.

26.医学参考值(reference value)是指包括绝大多数正常人的人体形态、机能和代谢产物等各种生

理及生化指标常数,也称正常值。

27.标准误(standard error, SE) 表示样本统计量抽样误差大小的统计指标。均数标准误:说明均数

抽样误差的大小

28.可信区间:按预先给定的概率确定的包含未知总体参数的可能范围。该范围称为总体参数的可信

区间(confidence interval,CI)。它的确切含义是:可信区间包含总体参数的可能性是1- α ,而不

是总体参数落在该范围的可能性为1-α 。

29.点估计(point estimation):就是用相应样本统计量直接作为其总体参数的估计值。

30.间估计(interval estimation)按预先给定的概率(1

)所确定的包含未知总体参数的一个范围。

31.95%可信区间:从总体中作随机抽样,作100次抽样,每个样本可算得一个可信区间,得100个

可信区间,平均有95个可信区间包括μ(估计正确),只有5个可信区间不包括μ(估计错误)。可信

区间估计的优劣取决于可信度1

(接近1愈好)和区间的宽度(区间愈窄愈好)当样本含量为定值时,

上述两者互相矛盾

32.假设检验(hypothesis test)它是利用小概率反证法思想,从问题的对立面(

H

0)出发间接判断要

解决的问题(

H

1)是否成立。然后在

H

0成立的条件下计算检验统计量,最后获得

P

值来判断。

33.检验水准(size of a test),过去称显著性水准,是预先规定的概率值,它确定了小概率事件

的标准。在实际工作中常取

 =

0.05

可根据不同研究目的给予不同设置。

34.P的含义是指H0规定的总体随机抽样,抽得等于及大于(或/和等于及小于)现有样本获得的检验

统计量(如

t

u

等)值的概率。

35. I 型错误:指拒绝了实际上成立的H0,这类“弃真”的错误其概率大小用α表示

36. II 型错误:指接受了实际上不成立的H0,这类“存伪”的误,其概率大小用β表示。

37.检验效能(power of test):1- β它是指当两总体确有差别,按规定的检验水准a 所能发现该

差异的能力。

38.变量变换(variable transformation)是将原始数据作某种函数转换,如转黄为对数值等。

39.完全随机设计(completely random design)是采用完全随机化的分组方法,将全部试验对象分

配到

g

个处理组(水平组),各组分别接受不同的处理,试验结束后比较各组均数之间的差别有无

统计学意义,推论处理因素的效应。

40.组间变异: 各处理组由于接受处理的水平不同,各组的样本均数

(

i

=1,2,„,

g

)也大小不等,

这种变异称为组间变异。其大小可用各组均数与总均数的离均差平方和表示,记为

SS

组间

41.组内变异:在同一处理组中,虽然每个受试对象接受的处理相同,但测量值仍各不相同,这种变

异称为组内变异(误差)。组内变异可用组内各测量值

Xij

与其所在组的均数的差值的平方和表示,

记为

SS

组内, 表示随机误差的影响。

42.随机区组设计(randomized block design)先按影响试验结果的非处理因素(如性别、体重、年

龄、职业、病情、病程等)将受试对象配成区组,再分别将各区组内的受试对象随机分配到各处理或

对照组。

-t检验:即最小显著差异t检验,适用于一对或几对在专业上有特殊意义的样本均数间的比

较。

t-t检验:适用于g-1个实验组与一个对照组均数差别的多重比较

-t检验:适用于多个样本均数两两之间的全面比较。

46.强度相对数:说明某现象发生的频率或强度,又称为率

47.结构相对数:表示事物内部某一部分的个体数与该事物各部分个体数的总和之比,用来说明各构

成部分在总体中所占的比重或分布,又称为构成比或百分比

48.相对比(ratio)即两个有关指标之比,说明两指标间的比例关系。两个指标可以是性质相同,也

可以性质不同。

49.标准化法(standardization)当两组资料内部构成不同,且各小组率亦明显不同时,不能直接比

较两个合计率,而须采用统一的标准校正后方能比较,这种采用统一的内部构成,然后计算标准化率

的方法,称为标准化法。

50.动态数列(dynamic series):是一系列按时间顺序排列起来的统计指标(可以为绝对数,相对数

或平均数),用以观察和比较该事物在时间上的变化和发展趋势。

n分布(Poisson distribution)一种概率分布,其特点是该分布的均值等于方差。在生

态学中常用来描述随机分布型的生物个体的空间分布格局。用来分析医学上发病率很低的非传染性疾

病的发病或患病人数分布。

52.秩次:变量值按照从小到大顺序所编的秩序号称为秩次(rank)

53.秩和:各组秩次的合计称为秩和(rank sum),是非参数检验的基本统计量

54. 直线回归(linear regression)建立一个描述应变量依自变量变化而变化的直线方程,并要求

各点与该直线纵向距离的平方和为最小。直线回归是回归分析中最基本、最简单的一种

55.直线回归方程: y’为各X处Y的总体均数的估计; a 为回归直线在 Y 轴上的截距:

a

> 0,表示直

线与纵轴的交点在原点的上方;

a

< 0,则交点在原点的下方;

a

= 0,则回归直线通过原点。

b

为回

归系数,即直线的斜率,

b

的统计学意义是:

X

每增加(减)一个单位,

Y

平均改变

b

个单位。

56.相关系数(correlation coefficient)又称Pearson积差相关系数,用来说明具有直线关系的两

变量间相关的密切程度与相关方向。相关系数没有单位,其值为

r

(-1,1)

r

值为正表示正相关,

r

为负表示负相关,

r

的绝对值等于1为完全相关,

r

=0为零相关。

57.决定系数(coefficient of determination) 定义为回归平方和与总平方和之比,R

2

取值在0到1

之间且无单位,其数值大小反映了回归贡献的相对程度,也就是在Y的总变异中回归关系所能解释的

百分比

58.统计表(statistical table)是表达统计分析结果中数据和统计指标的表格形式;

59.统计图(statistical graph)是用点、线、面等各种几何图形来形象化表达统计数据。

60.直条图(bar chart)用相同宽度的直条长短表示相互独立的某统计指标值的大小。直条图按直条是

横放还是竖放分卧式和立式两种,按对象的分组是单层次和两层次分单式和复式两种。

61.圆图(pie chart)是以圆形总面积作为100%,将其分割成若干个扇面表示事物内部各构成部分所

占的比例。

62.百分比条图(percent bar chart)是以矩形总长度作为100%,将其分割成不同长度的段表示各构

成的比例,描述分类变量的构成比资料。

63.线图(line graph)线图是用线段的升降来表示数值的变化,适合于描述某统计量随另一连续性数

值变量变化而变化的趋势,最常用于描述统计量随时间变化而变化的趋势。

64.半对数线图:横轴是算术尺度,纵轴是对数尺度,特别适宜作不同指标变化速度的比较

65.直方图(histogram):以直方面积描述各组频数的多少,面积的总和相当于各组频数之和,适合表

示数值变量的频数分布。直方图的横轴尺度是数值变量值,纵轴是频数。

66.箱式图(box plot) 使用5个统计量反映原始数据的分布特征,即数据分布中心位置、分布、偏度、

变异范围和异常值,箱式图的箱子两端分别是上四分位数和下四分位数,中间横线是中位数,两端连

线分别是除异常值外的最小值和最大值。另外标记可能的异常值。

67.茎叶图(stem-leaf plot)将数据分离成两部分:整数部分和尾数部分,整数部分形成图的茎,尾

数部分形成图的叶,可以非常直观地显示数据的分布范围和形态

68.误差条图(error bar chart) 是通过样本信息来描述总体,估计抽样误差的大小。特别适合比较

多个样本间的差异情况。误差条图可以显示三种不同的区间:可信区间、

XS

XS

X

69.非参数检验:针对某些资料的总体分布难以用某种函数式来表达,或者资料的总体分布的函数式是

未知的,只知道总体分布式连续型的或是离散型的,用于解决这类问题需要一种不依赖总体分布的具

体形式的统计分析方法。由于这类方法不受总体参数的限制,故称为非参数统计,或称为不拘分布的

统计分析方法,又称为无分布型式假定的统计分析方法。适于处理总体分布不易确定或未知;分布非

正态但无合适转换方法;有一端或两端有不确定数值(如<0.1, >15.0) 的资料;等级资料等。

70.参数检验:通常要求样本来自总体分布类型已知(正态分布),在这种假设的基础上,对总体参数

(如总体均数)进行估计和检验,称为参数检验。例如,均数的区间估计;t检验/u检验,F检验。

71.单独效应(simple effect)指其他因素的水平固定时,同一因素不同水平间的差别.

72.主效应(msin effect)指某一因素各水平间的平均差别

73.交互作用(interaction)当某因素的各个单独效应随另一因素变化而变化时,则称这两个因素间存

在交互作用。

74.多元线性回归模型:式中β

0

为常数项,又称截距,β

1

β

2

„β

m

称为偏回归系数。公式表示数据中应

变量Y可以近似地表示为自变量X

1

, X

2,

„X

M

的线性函数,而e则是去除m个自变量对Y影响后的随

机误差,也称残差。偏回归系数表示在其他自变量保持不变时,X

J

增加或减少一个单位时Y的平均

变化量。

74.复相关系数(multiple correlation coefficient)可用来度量应变量Y与多个自变量间的线性

ˆ

之间的相关程度。计算公式:

RR

2

相关程度,亦即观察值Y与估计值

Y

75.偏回归平方和(sum of squares for partial regression)表示模型中含有其他m-1个自变量的

条件下该自变量对Y的回归贡献,相等于从回归方程中剔除X

J

后所引起的回归平方和的减少量。

ic回归(logistic regression)属于概率性非线性回归,它是研究二分类观察结果与一

些影响因素之间关系的一种多变量分析方法。模型参数意义:常数项β

0

表示暴露剂量为0时个体发

病与不发病概率之比的自然对数;回归系数β

j

(j=1,2„m)表示自变量X

J

改变一个单位时logitP的改变

量,它与衡量危险因素作用大小的比数比例亦称优势比(OR)有一个对应的关系。

75.条件logistic回归:又称配对资料的logistic回归为了控制一些重要的混杂因素,常把病例和对

照按照年龄、性别等条件进行配对,形成多个匹配组。常用的是每组中有一个病例和若干个对照,即

1:M配对研究。

76.优势比OR(odds ratio)流行病学衡量危险因素作用大小的比数比例指标

77.生存分析:将事物发生的结果和随访时间两个因素结合在一起进行分析的一种统计学方法。能充

分利用得到的研究信息,更加准确地评价和比较随访资料。

78.生存时间(survival time)是任何两个有联系事件之间的时间间隔,常用符号

t

表示。狭义的

生存时间—患某种疾病的病人从发病→死亡所经历的时间跨度;广义的生存时间—从某种起始事件→

终点事件所经历的时间跨度(如:戒烟)。

79.截尾值(censored value)指在随访过程中,由于某种原因未能观察到病人的明确结局(即终止

事件),所以不知道该病人的确切生存时间,它提供的生存时间的信息是不完全的.

80.生存率:又称生存函数和累计生存率,表示具有协变量X的观察对象其生存时间T大于时间t的

概率常用S(t,X)=P(t>t,X)表示。在实际工作中,生存率是用生存时间大于t的病人数与总病人数的

比例来估计的。

81.死亡概率:表示一个观察对象从开始观察到时间t为止的死亡概率,它是一个随时间上升的函数:

F(t,X)=P(T≤t,X),当t趋于无穷大时,死亡概率就等于1.

82. 判别分析(discriminant analysis)在已知分为若干个类的前提下,获得判别模型,并用来判

定观察对象的归属。

83.聚类分析(clustering analysis)将随机现象归类的统计学方法,在不知道应分多少类合适的情况

下,试图借助数理统计的方法用已收集到的资料找出研究对象的适当归类方法。已成为发掘海量基

因信息的首选工具。

84.R型聚类:又称指标聚类,是指将

m

个指标归类的方法,其目的是将指标降维从而选择有代表性的

指标。

85.Q型聚类:又称样品聚类,是指将

n

个样品归类的方法,其目的是找出样品间的共性。

86.相似系数(similarity coefficient)两个指标或两个样品间相似性的度量


本文标签: 总体 分布 资料 观察 表示