admin 管理员组

文章数量: 1087135


2024年4月16日发(作者:substr函数修改用法sql)

 use 与 save是一对调用STATA系统数据文件和以STATA系统格

式 存盘的命令;infile 和 outfile也是一对调用外部文本数据文件

和以 文本文件格式存盘的命令。Infile 变量名 using 文件

outfile x using e: 与infile、outfile区别是有无变量名(如xy)

outsheet using e:

 如果是excel格式,则excel另存为csv格式文件

 drop _all 清除以上所有数据

 产生新的变量:STATA 命 令:gen 新变量名=表达式

 修 改 数 据:STATA 命 令:replace 变量名= 表 达 式[if 逻辑

表达式] 。例replace x=1 if x>=100&x<200. replace x=. if

x==200。

在 逻 辑 表 达 式 中:“ 等 于” 用== 表 示;“不 等 于” 用

~= 表 示;“或” 用| 表 示;“ 并 且” 用& 表示。

 Summarize 变量(简写sum 变量);summarize 变量, detail(简

写sum 变量,d)

 sort group(以group变量为例从小到大排序)

 by group:summarize x()

Stata中常用的命令

命令关键词 缩写

describe

display

generate

replace

d

di

gen

执行的操作

显示当前数据集,或者指定数据集的概况

以即时方式对指定的表达式进行计算,并给出结果

产生新变量: gen 变量名=数值

替代某个值: replace 变量名=数值

drop

drop in

list

sort

clear

l

so

删除某个变量: drop 变量名

删除某条记录: drop in 记录号

显示数据

将记录按照指定顺序排序

清除数据库

 (

分组变量

)tab1

,g(

)

。该

(

即:

)

 频数分布的常见错误:tab、tab1、tab2

tab 1)用于生成单个变量的频数分布,其后只能跟一个变量;

2)用于描述两个变量的交叉分布,其后只能接两个变量; 所

以tab后面最多接1个变量。

tab1 可以接多个变量,扥是只能分别生成各个变量的频数分布,

不能生成交叉表。

tab2 可以生成多个双变量的交叉表。

 四分位数间距:

上四分位数与下四分位数之差,用四分位数间距可反映变异程度的大小.

1 Centile x【得中位数】。centile x, c(25, 50, 75)【四分之一,中位

数。。】{sum x, detail}也可以得到所需。

2 tabstat x[fw=f], st(q) {没expand f时,用此;有expand f, 则

去掉fw=f}

3 expand x

Centile x, c(25,50,75)

Tab x [fw=f]

 频数分布表中要用到expand 变量名,后再计算个指标

 graph x, bin(13) norm 【bin(13)表示频数图的组数为13。norm表示

画一条相应的正态曲线(可以不要

)】

例如:histogram x, frequency bin(6) norm

histogram y,frequency bin(6) xlab(61(2)73) norm【histogram 为绘制直方图

命令,frequency 为频数,bin 为组数,xlab(3(0.2)5.6) 为坐标轴,norm

画正态曲线】

 对正态分布来说,偏度系数(Skewness)=0,峰度系数(Kurtosis)=3。

偏度系数为0时称为对称分布, 大于0为正偏态, 小于0为负偏

态;峰度系数为3时称为正态峰,大于3为尖峭峰, 小于3为平

阔峰。

 ci 变量名, level(90) 数据类型

例如:ci x, level(95) normal/poisson 即计算x的95%的可信限。

例题

1 ①正常女子血清总胆固醇在4.00mmol/L以下者占正常女子总人数的百分比;

②在4.00~5.00mmol/L之间者占正常女子总人数的百分比;③在5.00mmol/L

以上者各占正常女子总人数的百分比。

Sum x

Recode x(min/4=1)(4.01/5=2)(5.01/max=3), gen(group)

tab group

计算95%参考值范围

Sum x

di r(mean)-1.96*r(sd) 2.58(双侧)

di r(mean)+1.96*r(sd)

单侧: 1.645(95)

2.326(99)

2 t检验

ttesti 样本数 均值 标准差样本数 均值 标准差(两样本的统计值依次写入)


本文标签: 变量 分布 计算 频数 指定