版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据分析与Sta
ta软件应用数据分析与St
a
t
a软件概述数据的获取、整理与
S
t
a
t
a实现数据的描述与St
a
t
a实现点击添加目录数据的均值比较、推断与S
t
a
t
a实现数据内部关联结构分析与S
t
a
t
a实现变量间相关关系分析与St
a
t
a实现变量间回归关系分析与St
a
t
a实现数据分析与St
a
t
a软件概述
数据分析数据类型
数据分析基本流程
数据分析基本方法
常用数据分析软件
S
t
a
t
a软件概述数据分析与S
t
a
t
a软件概述数据分析与S
t
a
t
a软件概述数据分析与Stata软件概述数据分析基本内容数据分析软件数据类型基本流程基本方法S
tata软件概述其他软件特点工作界面输入命令形式文件类型SPSSSASR其他1数据分析与St
a
t
a软件概述煉1.1数据分析数据类型煉按照测量精度,数据分为4种类型,分别为定性变量数据、定序变量数据、定距变量数据和定比变量数据。煉根据变量数据的使用途径,可以将数据分为数值变量数据和分类变量数据。根据数值变量数据的连续性特征,可将数据分为连续变量数据和离散变量数据。1数据分析与St
a
t
a软件概述煉1.2数据分析基本流程煉项目计划煉数据获取与准备
煉变量数据特征探讨煉模型精准分析煉结果报告1数据分析与St
a
t
a软件概述煉1.3数据分析基本方法煉描述统计分析法煉统计推断方法煉多变量模型分析方法煉多元统计分析方法
煉其他1数据分析与St
a
t
a软件概述煉1.4常用数据分析软件煉SPSS煉SAS煉R煉其他:Python、Exce
l1数据分析与St
a
t
a软件概述煉1.5
Stata软件概述煉1.5.1特点煉短小精悍、功能强大;煉操作简单、语法易学煉运算速度快、结果简单易读1数据分析与St
a
t
a软件概述煉1.5.2
Stata工作界面煉结果窗口煉命令窗口煉变量窗口煉属性窗口煉历史窗口1数据分析与St
a
t
a软件概述煉1.5.3
Stata命令输入形式煉单击菜单输入命令形式煉命令窗口输入命令形式煉编写.do文件提交命令形式1数据分析与St
a
t
a软件概述煉1.5.4
Stata的文件类型煉数据文件:扩展名为.dta;煉命令程序文件:扩展名为.do;煉运行程序文件:扩展名为.ado;煉帮助文件:扩展名为.hlp;煉结果记录文件:扩展名为.smcl或.log;煉图形文件:扩展名为.gph;煉数据代码文件:扩展名为.dct。数据分析与Sta
ta软件应用数据的获取、整理与St
a
t
a实现
数据的获取与St
a
t
a实现
数据的整理与St
a
t
a实现数据的获取、整理与St
a
t
a实现数据的获取、整理与St
a
t
a实现数据的获取、整理与S
tata实现数据的获取与S
tata实现数据的整理与Stata实现数据的直接输入数据文件读入与存储变量的定义数据与变量的标签数据与变量的注释数据排序数据子集选择数据的保留和删除新变量生值成与变量赋虚拟变量生成变量类型转换常用函数display命令2数据的获取、整理与St
a
t
a实现煉2.1数据的获取与Stata实现煉2.1.1数据的直接输入煉1.使用数据编辑器煉2.使用命令窗口2数据的获取、整理与St
a
t
a实现煉2.1.2数据文件的读入煉1.读入数据的基本原则煉(1)当Stata内存中已经有数据时,在打开数据文件之前,必须用clear命令先清除内存,或者在使用use命令后添加选项“,clear”。煉(2)如果用户没有改变Stata默认的1mb内存容量,那么在读取大容量数据文件之前,就需要先增加内存容量,否则Stata将提示错误信息。.
set
memory
50m,
permanently2数据的获取、整理与St
a
t
a实现煉2.读入Stata自有格式的数据文件煉读入以Stata格式存储的数据文件的命令是use该命令的语法:
.
use
filename
[,
clear]煉filename是完整的路径及文件名。如果数据文件在当前工作目录里,则无须指明路径。煉当用户只需读取Stata自有格式数据文件中的一部分时,如:.use
varname
1
varname
2
using
f:\stata\chapter2\data1煉其中,varname
1、varname
2是希望读取的变量名称,using后为数据的路径和文件名。2数据的获取、整理与St
a
t
a实现煉3.读取Exce
l格式的数据文件煉第一步,将Exce
l数据文件中需要导入的内容选定并复制到剪贴板上,也可直接右击选择复制或按快捷键Ctrl+C。煉第二步,切换到Stata中的数据编辑器窗口,右击选择粘贴或按快捷键Ctrl+V,将数据粘贴至其中,再做相应修正。2数据的获取、整理与St
a
t
a实现煉4.读取文本格式的数据文件煉Stata给出了3种读取文本格式数据文件的命令。煉insheet:适用于文件中各列用指定的分隔符(如“,”或
“;”等)隔开的文本格式数据文件,每一行代表一个个案的数据,没有多余的行和列数据。煉infile:适用于文件中各列用指定的空格符“”隔开的文本格式数据文件,可以存在多余的行和列。煉infix:适用于各列位置固定的文本格式数据文件。2数据的获取、整理与St
a
t
a实现煉insheet命令适用文件的扩展名为.txt.
insheet
using
filename.txt,
comma煉该命令中,数据是以逗号“comma”为分隔符的,comma也可省略,Stata系统会自动识别分隔符,如分号或制表符。煉如果文本文件中第一行不是变量名称,那么需要将变量名称按数据情况一一列出,指示Stata各列数据的变量名称由用户指定。.
insheet
varname
1
varname
2
⋯using
filename.tx2数据的获取、整理与St
a
t
a实现使用infile命令时,需要注意以下问题:①数据文件中不能出现变量名,需要在infile命令中设置和定义变量。②数据文件中的不同数值之间只允许使用空格作为分隔符,可以是一个空格,也可以是多个空格。③缺失数据不可以使用空格来表示,可以使用特定的标识表示缺失数据,通常使用“.”。④这一命令要求的文本数据并不一定是一个完整的数据矩阵,数据矩阵可以是不规则的。2数据的获取、整理与St
a
t
a实现煉infile命令的语法为:.
infile
varname
1
varname
2
varname
3⋯using
filename.txt煉使用infix命令时,用户需要给出数据已经设定的格式,即数据的各个变量间应该用空格隔开且左右对称,因此用户在使用infix命令时需要指明每一个变量所占据的列的位置。煉infix命令的语法举例为:.
infix
varname
1
1-2
varname
2
3-4⋯using
filename.raw2数据的获取、整理与St
a
t
a实现煉2.1.3数据文件的存储⑴利用菜单储存数据文件⑵利用Stata命令存储数据文件:数据存储命令的格式为:.save
filename[,replace]如果用户指明的将要存储的数据文件名与已有文件名相同,
Stata并不会自动覆盖原有数据文件,而是会给出错误提示。如果用户希望覆盖原有数据文件,则可以使用如下命令:.
save
filename,
replace2数据的获取、整理与St
a
t
a实现煉2.1.4变量的定义煉1.变量的命名变量名称可以由不超过32个字符组成。组成变量名称的字符可以是A~Z、a~z、0~9与下画线“_”,这些字符以外的字符不允许出现在变量名称中。变量名称不能以数字开头。变量名称区分大小写。系统使用的保留字不允许作为变量名称使用,如下:_all
_b
_coef
_cons
_n
_N
_pi
_pred
_rc
_se
_skipbyte
double
float
if
in
int
long
using
with2数据的获取、整理与St
a
t
a实现煉2.变量的取值类型与存储格式煉⑴字符变量煉Stata中字符变量的存储格式是str#,其中str表示使用字符型变量的格式,#表示该变量的存储最多可容纳的字符数。煉⑵数值变量数字取值类型存储类型占用字节数位精确度数字范围整数字节(byte)12±1
26整数(int)24±3
27
6
6长整数(long)49±2
×10
9非整数浮点(float)47±1
0
3
6双浮点(double)816±1
0
3
0
82数据的获取、整理与St
a
t
a实现煉⑶缺失数据煉当变量取值存在缺失时,就涉及一种特殊的变量取值,即缺失数值。Stata设置了27个数值型代码表示缺失数值,分别为:“.”“.a”“.b”“.c”“.d”⋯⋯“.z”,这些数值依次增大,其中“.”被认为成大于任何数,同时也是所有缺失值中最小的。一般使用“.”作为缺失值就足够了,但是要表示不同类型的缺失数值时,可以细分为“.a”“.b”“.c”等。2数据的获取、整理与St
a
t
a实现煉3.变量的显示格式煉数值变量的显示格式基本有3种:e、f和g。其中e表示科学计数法,f表示固定格式,g表示默认格式(即普通格式)。字符变量的显示格式只有一种,变量显示格式的基本表达式为 %*.#+基本格式的显示符(e
、f、g、s)煉其中%为提示符,*.#是用“.”分隔开的两个数字,*表示整个变量显示所占的字符数(即宽度),#表示变量显示的数字中小数点后的位数。因此字符变量的显示格式表达式为%*
s。2数据的获取、整理与St
a
t
a实现煉2.1.5数据与变量的标签煉1.数据标签煉添加数据标签的命令为:
.
label
data
[“text”]煉text为添加的数据标签,主要用于说明数据的内容与数据的来源。煉2.变量标签煉添加变量标签的命令为:.label
variable
varname“text”煉varname是要添加标签的变量名称,text是添加的变量标签。2数据的获取、整理与St
a
t
a实现煉3.变量数值标签煉变量数值标签是针对变量的各种取值给予的说明。在Stata中,为变量数值添加标签分为两步:第一步,定义一个变量数值标签;第二步,将该标签附加在变量上。.
label
define
labelname
1“text”2“text”3“text”⋯.
label
value
varname
labelname煉labelname是要定义的变量数值标签,1,2,3⋯等数字是变量的取值,双引号内字符是各个数字对应的数值标签的具体内容2数据的获取、整理与St
a
t
a实现煉2.1.6数据与变量的注释煉1.数据的注释煉给数据添加注释的命令是:.notes:text煉该命令中notes后面的冒号不可缺少,冒号后text为需要输入的注释内容。数据的注释可以是一个,也可以是多个。煉2.变量的注释煉给变量添加注释的命令为:.notes
varname:text煉varname为需要添加注释的变量名称,text为添加的注释内容。2数据的获取、整理与St
a
t
a实现煉2.2数据的整理与Stata实现煉2.2.1数据的排序煉1.向上排序煉按照某一个变量(varname)的数值从小到大排序。.sort
varname煉2.向下排序煉按照某一个变量(varname)的数值从小到大排序。.
gsort
–varname2数据的获取、整理与St
a
t
a实现煉3.混合排序煉Stata中还可以对不同的变量分别采取向上和向下的混合排序。例如:.
gsort
varname1—varname2
varname32数据的获取、整理与St
a
t
a实现煉2.2.2数据子集的选择煉1.in的使用煉in用于指定观测个案值。使用语法:.command
in
range煉command表示Stata中的某个命令;range代表数据子集的范围,它可以是一个数字,形式为“#”,也可以是从某个数字到另一个数字,形式为“#/#”,还可以是从某个数字到最后,形式为“#/l”(注意,这里是L的小写形式l,而不是数字1),以及从最开始到某个数字,形式为“f/#”。2数据的获取、整理与St
a
t
a实现煉2.if的使用煉if用于挑选满足条件的数据子集,通常跟在一个命令之后。煉if的使用语法如下:
.
command
if
expression煉command表示Stata中的某个命令,expression是需要满足的条件的表达式。对于含有if挑选条件的Stata命令,则需要执行的命令只针对满足条件的观测个案。煉在每一个命令中,只能够有一个if引导的条件表达式,但是可以采用逻辑运算符“&”(并)和“|”(或)来进行表达式的组合2数据的获取、整理与St
a
t
a实现煉3.by的使用煉by前置语句用于对某些变量具有相同取值的数据子集重复执行命令。使用by前置语句时要求先将数据依据by之后的变量进行排序,因此by前置语句的使用有两种方式。煉第一种方式是先对by之后的变量进行排序,而后引入by前置语句对数据子集重复执行相同的命令。使用语法如下:.
sort
varlist.
by
varlist:
command煉varlist是用来分组的变量,command是Stata中的命令2数据的获取、整理与St
a
t
a实现煉第二种方式是将上述两步合并为一步,直接使用bysort语句煉使用语法如下:.bysort
varlist:command或者.by
valist:command,sort煉这两个命令是等价的。2数据的获取、整理与St
a
t
a实现煉2.2.3数据的保留和删除煉1.观察个案的保留和删除煉观察个案的保留和删除使用的ke
ep和drop命令的语法如下:煉.ke
ep
if[in]煉.drop
if[in]煉ke
ep和drop命令后直接跟筛选观察个案的条件,2数据的获取、整理与St
a
t
a实现煉2.变量的保留和删除煉变量的保留和删除同样需要使用keep和drop命令。煉基本语法如下:.keep
varname1
varname2⋯.
drop
varname1
varname2⋯煉keep和drop命令后紧跟着需要保留和删除的变量名称,可以是一个变量,也可以是多个变量。煉用户在读取已有数据文件时,也可以直接指示Stata仅将需要的变量读入内存。其基本语法如下:.
use
varname1
varname2⋯
using
filename2数据的获取、整理与St
a
t
a实现煉2.2.4新变量生成与变量赋值煉1.generate命令煉generate命令用于生成新变量,其语法为:.
generate
newvar=expression
[if]
[in]煉newvar是要生成的新变量,跟在generate后面,新变量的名称不可与数据中已有变量名称相同,否则Stata会提示错误。“=”为新变量表达式的引导符号,表示的是“定义”,所以使用单个等号。2数据的获取、整理与St
a
t
a实现煉2.replace命令煉replace命令用于改变已存在变量的赋值,replace命令经常与generate命令配合使用来创建一些特殊的变量。generate命令的运行结果是生成新变量,replace命令的运行结果是改变已有变量的取值。煉replace命令的语法为:.
replace
oldvar=expression
[if]
[in]2数据的获取、整理与St
a
t
a实现煉3.recode命令煉recode命令用于对已有变量的重新赋值,recode命令每次只能给一个观测变量改变数值。煉recode命令的语法为:
.
recode
oldvar
expression煉oldvar是需要改变数值的变量,expression是改变数值的指令。指令的形式很多,可以将某一范围的数值改变为某一个数值,也可以直接将某一个数值更改为另一个数值,更改后的数值与更改前的数值之间用“=”连接,表示“定义”。2数据的获取、整理与St
a
t
a实现煉2.2.5虚拟变量的生成煉1.generate和replace的组合命令煉2.recode命令煉3.tabulate命令煉tabulate命令主要用于生成频次表,即列出目标变量的所有取值类别及其对应的频次。在tabulate命令的基础上,配合使用generate命令,也可生成虚拟变量,这时生成的虚拟变量适用于类别变量,即对应于目标变量的每一个类别或组别生成一个虚拟变量。2数据的获取、整理与St
a
t
a实现煉使用tabulate命令生成虚拟变量的基本语法为:.
tabulate
varname,
generate(newvar).
li
varname
newvar
[if]
[in],
clean煉varname是指生成虚拟变量时所依据的目标变量,newvar是指为生成的虚拟变量的起始字符,目标变量有几个类别,则就生成几个虚拟变量,分别命名为newvar1、newvar2.⋯⋯2数据的获取、整理与St
a
t
a实现煉2.2.6变量的转换煉1.字符变量转变为数值变量煉将字符变量转变为数值变量的命令为encode,为已经存在
的字符变量添加一个有标签的数值变量。encode命令步骤
为:首先Stata自动将字符变量按照首字母的顺序进行排序,排序规则为a~Z;然后将排序后的字符变量从1开始赋值,
形成数值变量,即将1赋值给排在第一位的字符变量。煉encode命令的语法如下:.
encode
varname
[if]
[in],
generate(newvar)
[label(name)]2数据的获取、整理与St
a
t
a实现煉2.数值变量转变为字符变量煉将数值变量转变为字符变量的命令是decode。decode命令是将原有的数值变量的数值标签作为新生成的字符变量的取值,如果原有的数值变量没有设置数值标签,那么这一转换过程就无法实现。煉decode命令的语法为:.decode
varname[if][in],generate(newvar)[maxlength(#)]煉maxlength(#)用于指定新生成的字符变量的长度,#的取值为1~244,默认为maxlength(244)2数据的获取、整理与St
a
t
a实现煉2.2.7
Stata中的常用函数煉2.2.8
display命令的使用煉将display命令与运算表达式结合起来,可以让Stata转变为计算器。使用这一功能时并不影响内存里的数据。煉display命令的语法如下:.
display
expression/function煉即display后紧跟着运算表达式或者函数表达式,计算结果会直接显示在结果窗口中,另外display还可以直接显示当前Stata运算的统计结果。数据的描述与St
a
t
a实现
数值变量数据的分布特征描述
分类变量数据的分布特征描述
数据的图形描述3数据的描述与St
a
t
a实现3数据的描述与St
a
t
a实现数据的描述与Stata实现数值变量数据分布特征描述分类变量数据分布特征描述集离分中散布趋势趋势状态数据的图形描述列联直散表方点分图图析饼图条形图3数据的描述与St
a
t
a实现煉3.1数值变量数据的分布特征描述煉3.1.1集中趋势描述煉常用的表示数据集中趋势的统计量有均值、中位数和众数。其中均值是参数统计量,中位数和众数是位置统计量。煉3.1.2离散趋势描述煉常用的表示数据离散趋势的统计量有方差、标准差、全距、分位数和均值标准误。煉3.1.3分布状态描述煉常用的数据分布形态的描述统计量是偏度和峰度。3数据的描述与St
a
t
a实现煉3.1.4
Stata基本命令煉1.查看数据概要煉查看数据概要的主要命令为describe,除此之外,还可使用list、codebook等命令进行数据全方位的概述展示。煉describe命令可列出数据的基本信息,包括变量名称、存储方式、显示格式、标签和数值标签等。describe命令可简写为d,若读者只想观察数据文件的基本信息,则可在
describe后面加上选择项,simple,也可简写为s。即:煉.d,s3数据的描述与St
a
t
a实现煉list命令用于列出已有数据,并查看数据的取值,是极为常用的数据描述命令,简写为li。list命令的基本语法为:.
list.
list
varlist
[if]
[in]
[,
options]煉codebook命令用于查看变量的包括取值区间在内的详细信息。其基本语法为:.
codebook
varlist
[if]
[in]煉varlist可以是一个变量,也可是多个变量。3数据的描述与St
a
t
a实现煉2.描述统计量的计算煉Stata中用于计算描述性统计量的命令主要有summarize和tabstat。煉summarize可简写为sum,可以给出所有数值变量的基本描述统计量,也可以在summarize命令后加上变量名称,输出指定变量的基本描述统计量。.
summarize
varlist煉tabstat命令用于计算并输出描述统计量,计算结果以表格的形式输出。使用tabstat命令不仅需要指定变量,同时还需要指定计算的统计量名称,如果不指定统计量名称,则默认只输出均值。.
tabstat
varlist,
stats(stats_options)3数据的描述与St
a
t
a实现煉3.2分类变量数据的分布特征描述煉3.2.1列联表分析基本原理煉交叉列联表分析除了列出交叉分组下的频数分布外,还需要分析两个变量之间是否具有独立性或一定的相关性。煉Stata提供了多种适用于不同相关系数的相关关系,相关系数显著性检验的原假设相同,均是:行列变量之间彼此独立,不存在显著的相关关系。Stata将自动给出检验的相伴概率,如果相伴概率小于显著性水平0.05,那么应拒绝原假设,认为行列变量之间彼此相关。3数据的描述与St
a
t
a实现煉3.2.2
Stata基本命令煉1.table命令煉table命令可以生成不同维度的交叉列联表。table命令除可在交叉列联表中输出频数外,还可输出其他一些变量常用的描述统计量。煉table命令的基本语法为:.table
rowvar[colvar[supercolvar]][if][in][weight][,table_options]煉其中,rowvar为行变量,colvar为列变量,supercolvar为更高维度交叉列联表中的列变量,3数据的描述与St
a
t
a实现煉2.tabulate命令煉Stata中tabulate命令主要用于生成一维列联表和二维交叉列联表,在生成二维交叉列联表的同时,还可对行列变量的独立性进行检验。煉⑴一维列联表的构建:.
tabulate
varname
[if]
[in]
[weight]
[,
tabulate_options1]煉⑵二维交叉列联表的构建及检验煉.tabulate
varname1
varname2[if][in][weight][,tabulate_options2]煉tabulate命令在生成二维交叉列联表的同时,还可以对行列变量的相关系数进行计算,并进行独立性检验。varname1为生成的交叉列联表的列变量,varname2为生成的交叉列联表的行变量3数据的描述与St
a
t
a实现煉3.3数据的图形描述煉3.3.1
Stata绘图简介煉Stata中绘制的图形由4个部分组成:煉⑴由横轴和纵轴围成的图形核心部分;煉⑵核心部分中的附加部分,如轴线间隔、连线、数值显示等;煉⑶核心部分周围的附加部分,如图形名称、坐标值说明、图例名称、数据来源等;煉⑷在复杂图形中,用户可在图形核心部分上叠加其他的图形。3数据的描述与St
a
t
a实现煉3.3.2直方图煉绘制直方图的命令为histogram,也可简写为hist,命令主干部分为:.
histogram
varname.
hist
varname煉可通过添加选项来实现图形绘制时的特殊要求,命令语法形式为:.
histogram
varname,
hist_options3数据的描述与St
a
t
a实现煉3.3.3散点图煉Stata中绘制散点图的命令语法如下:.
scatter
varlist
[if]
[in]
[,
scatter_options].
graph
twoway
scatter
varlist
[if]
[in]
[,
scatter_options].
twoway
scatter
varlist
[if]
[in]
[,
scatter_options]煉上述几个命令是等价的,实际使用中第一个最为常用。3数据的描述与St
a
t
a实现煉3.3.4饼图煉第1种,绘制关于观测个案数目的饼图:.graph
pie,over(varname)煉此时绘制的饼图中每一个扇形表示对应变量(varname)的一个组别,各个扇形的大小代表对应组别观测个案的数目。煉第2种,根据其他变量分组的饼图:.graph
pie
varname1,over(varname2)煉根据varname2的各个组别进行分组,每个扇形的大小为varname1变量在
varname2变量的各个组别上的和。即第1个扇形的大小为varname2变量设定为第1个类别时,所有观测个案的varname1变量的取值的和。煉第3种,绘制多个变量的饼图:.graph
pie
varname1
varname2⋯煉此时得到的饼图中每一个扇形对应一个变量,每一个扇形的大小对应该变量在所有观测个案上的取值的和。3数据的描述与St
a
t
a实现煉3.3.5条形图煉简单条形图是指根据单个变量分组的单变量条形图,其基本命令语法为:.
graph
bar
varname1,
over(varname2)此时根据varname
2的不同类别形成不同的条形,每个条形的大小由不同类别下观测个案的varname
1取值之和决定。3数据的描述与St
a
t
a实现煉多个变量分组的简单条形图是指根据多个变量交叉分组情况下的条形图的绘制,基本命令语法为:.
graph
bar
varname1,
over(varname2,
label(alter))
over(varname3)煉此时根据varname
3的不同类别先进行分组,在varname
3的不同类别下再按照varname
2的不同类别形成不同的条形,每个条形的大小由不同类别下观测个案的varname
1取值之和决定。在这里label(alte
r)表示显示varname
2标签时使用错开的格式,否则显示结果将无法阅读。3数据的描述与St
a
t
a实现煉多变量条形图是指使用条形图同时观察多个变量的均值。基本命令语法为:煉.graph
bar
varname
1
varname
2⋯,over(varname
3)煉此时根据varname
3的不同类别形成不同的条形组,每个条
形组下条形的数量由varname
1
varname
2⋯变量的个数决定,每个条形代表一个varname变量下varname
3对应类别观测个案取值的均值。3数据的描述与St
a
t
a实现煉3.1数值变量数据的分布特征描述4数据的均值比较、推断与St
a
t
a实现
单样本数据均值的比较与推断
两样本数据均值的比较与推断
多样本数据均值的比较与推断数据的均值比较、推断与St
a
t
a实现数据的均值比较、推断与St
a
t
a实现数据的均值比较、推断与Stata实现单样本数据均值比较与推断两样本数据均值比较与推断两独较立与样推本断均值比两配较对与样推本断均值比多样本数据均值比较与推断单因素方差分析多因素方差分析协方差分析4数据的均值比较、推断与St
a
t
a实现煉4.1单样本数据均值的比较与推断煉4.1.1单样本数据t检验原理与步骤煉单样本t检验的原假设(H0)为:总体均值和指定检验值之间不存在显著差异。煉单样本t检验采用t统计量,t统计量计算公式为DS nt
4数据的均值比较、推断与St
a
t
a实现煉4.1.2
Stata基本命令煉Stata使用ttest命令进行单样本t检验,命令基本格式为:煉.ttest
varname==#[if][in][,level(#)]煉#为指定检验值,level为显著性水平,默认为0.05。4数据的均值比较、推断与St
a
t
a实现煉4.2两样本数据的均值比较与推断煉4.2.1两独立样本的均值比较与推断煉1.两独立样本t检验原理与步骤煉两独立样本t检验的前提如下。
煉(1)两个样本应是互相独立的。煉(2)样本来自的两个总体应该服从正态分布。4数据的均值比较、推断与St
a
t
a实现煉t检验步骤:煉第一步,利用F检验判断两总体的方差是否相同;第二步,根据第一步的结果,决定t统计量和自由度计算公式,进而对t检验的结论作出判断。4数据的均值比较、推断与St
a
t
a实现煉2.Stata基本命令煉⑴命令格式1,通过样本进行分组t检验。.
ttest
varname
[if]
[in],
by(groupvar)
[options]煉该命令默认两独立样本是同方差的,若不满足该假设,则需在上述基本命令的基础上添加unequal选项,即:.
ttest
varname
[if]
[in],
by(groupvar)
unequal4数据的均值比较、推断与St
a
t
a实现煉⑵命令格式2,通过样本的统计量进行t检验.
ttesti
#obs1
#mean1
#sd1
#obs2
#mean2
#sd2
[,options]煉该命令主要适用于原始数据未知,但是两个独立样本的相关统计量是已知的情况,判断两独立样本均值是否相等的假设检验问题。4数据的均值比较、推断与St
a
t
a实现煉4.2.2两配对样本的均值比较与推断煉1.两配对样本t检验原理与步骤煉两配对样本t检验的前提如下。煉(1)两个样本应是配对的煉(2)样本出自的两个总体应服从正态分布。4数据的均值比较、推断与St
a
t
a实现煉两配对样本t检验的原假设H0为两总体均值之间不存在显著差异。煉原理:首先求出每对观察值的差值,得到差值序列;然后对差值求均值;最后检验差值序列的均值,即平均差是否与0有显著差异。煉t检验统计量为:t=
DS
n4数据的均值比较、推断与St
a
t
a实现煉4.3多样本数据的均值比较与推断煉4.3.1单因素方差分析煉1.适用条件煉只有一个控制变量;煉控制变量的不同水平下,各总体均值服从方差相同的正态分布4数据的均值比较、推断与St
a
t
a实现煉2.统计量构建及检验原理煉F统计量的构建原理是数据变异,即数据总变异平方和的拆解。将所有样本变量值的总变异平方和记为SST,将其分解为两个部分:一部分是由控制变量引起的变异平方和,记为SSA(组间离差平方和);另一部分是由随机变量引起的变异平方和,记为SSE(组内离差平方和)。SST
SSASSE4数据的均值比较、推断与St
a
t
a实现煉F统计量是平均组间离差平方和与平均组内离差平方和的比。煉F检验原假设H0:控制变量不同水平下的各总体均值没有显著差异F
SSA
(k
1)SSE
(n
k)4数据的均值比较、推断与St
a
t
a实现煉3.Stata基本命令煉Stata中方差分析的基本命令为anova,它可以进行单因素方差分析,也可以进行多因素方差分析和协方差分析。煉Stata中实现单因素方差分析的命令有两种:一种是anova命令,一种是oneway命令。4数据的均值比较、推断与St
a
t
a实现煉anova命令实现单因素方差分析的基本语法为:.
anova
responsevar
factorvar
[if]
[in]
[,options]煉oneway命令实现单因素方差分析的基本语法为:.
oneway
responsevar
factorvar
[if]
[in]
[,options]煉这两个命令的结构基本一致,其中responsevar为观察变量,即因变量,factorvar为控制变量,即自变量。4数据的均值比较、推断与St
a
t
a实现煉4.3.2多因素方差分析煉1.适用条件煉存在两个或两个以上控制变量。多因素方差分析对各个总体的方差相等的前提假设是放松的,但是一般要求多控制变量交叉作用下的单元格内至少有3个观测值。4数据的均值比较、推断与St
a
t
a实现煉2.统计量构建及检验原理煉将观察变量总的离差平方和分解为3个部分。煉①多个控制变量独立作用引起的离差平方和。煉②多个控制变量交互作用引起的离差平方和。煉③其他随机变量引起的离差平方和。4数据的均值比较、推断与St
a
t
a实现煉多因素方差分析仍然采用F检验。煉原假设H0:多个控制变量的不同水平下,各总体均值没有显著差异。22S(r
1)
S
rs(l
1)Q控制变量1控制变量1F控制变量1
Q随机变量随机变量Q
(s
-1)S
2FQS
2
rs(l
1)控制变量2控制变量2控制变量2随机变量随机变量QS
2FQS
2(r
1)(s
1)
rs(l
1)控制变量1,2控制变量1,2控制变量1,2随机变量随机变量4数据的均值比较、推断与St
a
t
a实现煉4.Stata基本命令煉Stata中用于多因素方差分析的命令为anova,其基本语法为:.
anova
responsevar
factorvar
1
factorvar
2⋯factorvar
1#factorvar
2
[if]
[in]
[,options]煉responsevar为观察变量(因变量),factorvar1,factorvar2⋯为控制变量(自变量),可以有多个。4数据的均值比较、推断与St
a
t
a实现煉在多因素方差分析中,可以选择进行交互效用检验,采用factorvar1#factorvar2的形式,可以是双控制变量的交互作用,也可以是多控制变量的交互作用,只需指定进行交互作用的变量名称即可。4数据的均值比较、推断与St
a
t
a实现煉4.3.3协方差分析煉1.适用条件煉将那些很难控制的因素作为协变量,在排除协变量影响的条件下,分析控制变量对观察变量的影响。煉协方差分析要求协变量是连续变量,多个协变量间互相独立,且与控制变量之间没有交互作用。单因素方差分析和多因素方差分析中的控制变量都是一些分类变量。4数据的均值比较、推断与St
a
t
a实现煉2.统计量构建及检验原理煉以单因素协方差分析为例,因为只含有一个控制变量,则数据总的变异平方和表示为Q总Q控制变量Q协变量+Q随机变量煉协方差分析仍然采用F检验。4数据的均值比较、推断与St
a
t
a实现煉原假设H0:多个控制变量的不同水平下,各总体均值没有显著差异。S
2FS
2
控制变量控制变量随机变量S
2FS
2
协变量协变量随机变量4数据的均值比较、推断与St
a
t
a实现煉4.Stata基本命令煉Stata中用于协方差分析的命令为anova,其基本语法为:.
anova
responsevar
factorvar1
factorvar2⋯,
c.varname煉c.varname用于指定协变量,按照规定,协变量也必须是连续变量,varname为协变量的变量名称。煉要加入交互效应检验,只需指需要定交互的变量,并用#连接即可。5数据内部关联结构分析与St
a
t
a实现
样本的关联结构分析—聚类分析
变量的关联结构分析—因子分析数据内部关联结构分析与St
a
t
a实现数据内部关联结构与St
a
t
a实现数据内部关联结构分析与Stata实现样本的关联结构分析—聚类分析变量的关联结构分析—因子分析系快因因因统速适子子子聚聚用变变得类类条量量分分分件构命计析析造名算5数据内部关联结构分析与St
a
t
a实现煉5.1样本的关联结构分析—聚类分析煉聚类分析的实质是建立一种分类,它能够在没有先验知识的情况下将一批样本数据按照它们性质上的亲疏程度自动进行分类,通过分类反映样本之间的关联结构。5数据内部关联结构分析与St
a
t
a实现煉5.1.1系统聚类分析与Stata实现煉系统聚类分析是根据观察变量之间的亲疏程度,将最相似的对象结合在一起,以逐次聚合的方式将观察个案(即样本)分类,直到最后所有观察个案(样本)都聚成一类。煉Stata根据变量数据类型的不同,分别提供了相似性(即相关系数)和不相似性(即距离)两种方式测度样本间亲疏程度。5数据内部关联结构分析与St
a
t
a实现煉1.样本间亲疏程度测量方法煉⑴连续变量的样本不相似性测度方法煉①欧氏距离煉②欧氏距离平方煉③切比雪夫距离煉④块距离煉⑤闵可夫斯基距离2i
1kEUCLID
(x
y
)
i
i2i
1kSEUCLID
(x
y
)
i
iCHEBYSHEV(x,y)
maxxi
yikBLOCK
(x,
y)
xi
yii
1kppi
1MINKOWSKI
(x,
y)
x
y
i
i5数据内部关联结构分析与St
a
t
a实现2
222煉⑵连续变量的样本相似性测度方法煉连续变量亲疏程度的度量,有皮尔逊相关系数、余弦相似度(COSINE)等。ki
ikkiix
y( x
)( y
)i
1i
1i
1COSINE(x,y)
5数据内部关联结构分析与St
a
t
a实现煉⑶定序或定性变量的样本亲疏程度测量方法煉①(Chi-squa
re)统计量煉②(Phi-squa
re)统计量22i
ii
iE(xi
)E(
yi
)i
1(xE
(x
))(
y
E
(
y
))CHISQ(x,y)
i
1k
k
22k
kE
(
yi
)n(x
E
(x
))(
y
E
(
y
))i
1
i
1
E
(xi
)PHISQ(x,
y)
i
i
i
i5数据内部关联结构分析与St
a
t
a实现煉2.类间亲疏程度测量方法煉⑴最近邻元素法煉以当前某个样本与已经形成小类中的各样本距离的最小值作为当前样本与该小类之间的距离。煉⑵最远邻元素法煉以当前某个样本与已经形成小类中的各样本距离的最大值作为当前样本与该小类之间的距离。煉⑶组间链接法煉两个小类之间的距离为两个小类内所有样本间的平均距离。5数据内部关联结构分析与St
a
t
a实现煉⑷组内链接法煉对所有样本对的距离求平均值,包括小类之间的样本对、小类内的样本对。煉⑸质心聚类法煉将两小类间的距离定义成两小类重心(质心)间的距离。每一小类的重心(质心)就是该类中所有样本在各个变量上的均值代表点。煉⑹瓦尔德法煉是小类合并的方法,在聚类过程中,使小类内各个样本的欧氏距离总平方和增加最小的两小类合并成一类。5数据内部关联结构分析与St
a
t
a实现煉3.Stata基本命令煉Stata中聚类分析可以采用两种命令方式完成:一种是利用cluster命令通过数据直接进行系统聚类分析,另一种是利用clustermat命令通过分析距离矩阵来进行系统聚类分析。煉⑴cluster命令煉cluster命令的基本语法为:.
cluster
linkage
varlist
[if]
[in]
[,cluste
r_options]5数据内部关联结构分析与St
a
t
a实现煉linkage是系统聚类中类间距离测度方法,varlist是系统聚类分析中需要用到的变量名称。煉系统聚类分析中,除了形成聚类分析结果文件,还可绘制树状聚类图,具体命令可采用如下形式:.
cluster
singlelinkage
x1
x2
x3,
name
(cls).
cluster
dendrogram
cls,
xlabel5数据内部关联结构分析与St
a
t
a实现煉⑵clustermat命令煉clustermat命令使用之前要求首先生成距离矩阵,生成距离矩阵的基本命令为:.
matrix
dissimilarity
matname=
[varlist]
[if]
[in]
[,matrix_options]煉dissimilarity表示依据样本之间的不相似性(距离)作为分类的依据,matname表示生成的距离矩阵的名称,[varlist]指明需要保存哪些变量的所有观测个案的距离。5数据内部关联结构分析与St
a
t
a实现煉⑶cluster
dendrogram命令煉cluster
dendrogram命令主要用于将聚类分析的结果生
成树状图。cluster
dendrogram命令的常用基本语法为:.
cluster
dendrogram
clname,
labels(name
)
horizontal煉其中clname为聚类分析产生的结果,该命令表示针对clname绘制树状图。labels(name)对生成的树状图命名,名字为name。horizontal表示生成水平状的树状图,默认为垂直状的。5数据内部关联结构分析与St
a
t
a实现煉5.1.2快速聚类分析与Stata实现煉1.适用条件煉快速聚类分析是由用户指定类别数的大样本数据的逐步聚类分析。它先对数据进行初始分类,然后逐步调整,得到最终分类。煉在快速聚类分析中,用户可以自己指定初始的类中心点。如果用户的经验比较丰富,则可以指定比较合理的初始类中心点。5数据内部关联结构分析与St
a
t
a实现煉2.迭代原理和过程煉快速聚类分析基本原理和迭代步骤如下:煉(1)首先需要用户指定聚类成多少类(比如k类)。煉(2)然后Stata确定k个类的初始类中心点。煉(3)计算所有样本数据点到k个类中心点的欧氏距离。煉(4)Stata重新确定k个类的中心点。煉(5)重复(3)(4)两步计算过程,直到达到指定的迭代次数或终止迭代的判断要求为止。5数据内部关联结构分析与St
a
t
a实现煉3.Stata基本命令煉快速聚类中类初始中心点的指定方法不同,形成了k均值聚类和k中位数聚类两种方法。煉k均值聚类方法的基本命令为:.
cluster
kmeans
[varlist]
[if]
[in]
,
k(#)
[options]煉k中位数聚类方法的基本命令为:.
cluster
kmedians
[varlist]
[if]
[in]
,
k(#)
[options]煉其中,varlist表示聚类分析过程中需要使用的变量,
k(#)表示指定的聚类的类别数,#为类别数5数据内部关联结构分析与St
a
t
a实现煉5.2变量的关联结构分析—因子分析煉因子分析就是用少量因子来描述许多指标或因素之间的联系,以较少的几个因子反映原资料的大部分信息的统计方法。煉因子分析有两个核心问题:一是如何构建因子变量;二是如何对因子变量进行命名解释。5数据内部关联结构分析与St
a
t
a实现煉因子分析有下面4个基本步骤:
煉(1)确定因子分析的适用条件;煉(2)构造因子变量;煉(3)因子变量命名,以便使得因子变量更具有可解释性;煉(4)计算因子变量的得分。5数据内部关联结构分析与St
a
t
a实现煉5.2.1因子分析基本步骤煉1.适用条件煉初始变量之间要具有比较强的相关关系。煉Stata在因子分析过程中还提供了几种检验方法来判断变量是否适合做因子分析,主要的统计检验方法有如下几种。5数据内部关联结构分析与St
a
t
a实现煉⑴KMO统计量检验煉⑵巴特利特球形度检验煉巴特利特球形度检验统计量较大,相伴概率值小于用户设定的显著性水平,那么应该拒绝原假设,认为相关系数矩阵不可能是单位矩阵,即适合于做因子分析煉⑶反映像相关矩阵检验222ijij
ijrpi
ji
j
i
jKMO
r
5数据内部关联结构分析与St
a
t
a实现煉2.因子变量的构建煉因子分析中有多种构建因子变量的方法,如基于主成分模型的主成分分析法和基于因子分析模型的主轴因子法、极大似然法、最小二乘法等。其中,基于主成分模型的主成分分析法是使用最多的因子变量构建方法之一。5数据内部关联结构分析与St
a
t
a实现煉以主成分分析方法为因子变量构建方法进行分析。煉⑴数据标准化煉⑵因子载荷矩阵构建煉①因子载荷煉②变量共同度煉③公共因子的方差贡献5数据内部关联结构分析与St
a
t
a实现煉⑶公共因子提取煉确定公共因子个数m的方法主要有:煉
①根据特征值的大小确定,一般取大于1的特征值的个数作为m的数值;煉
②根据因子的累计方差贡献率来确定。5数据内部关联结构分析与St
a
t
a实现煉3.因子变量的命名解释煉通过旋转因子载荷矩阵,使得因子载荷的数值向0或1分化,以便于快速识别到公共因子主要反映的初始变量的综合含义。煉4.因子得分的计算煉样本数九在不同公共因子变量上的具体数据值就是因子得分,它和原变量的得分相对应。估计因子得分的方法有回归法、巴特利特法、安德森-鲁宾法等。5数据内部关联结构分析与St
a
t
a实现煉5.2.2
Stata基本命令煉1.estat命令煉estat命令用于判断初始变量数据是否适合于做因子分析,因子分析进行之后,可通过estat命令显示估计的数值与矩阵变量的统计量。煉2.screeplot命令煉screeplot命令用来绘制碎石图。screeplot命令基本语法:.
screeplot
[e
igenvals]
[,
options]煉其中,eigenvals为用户保存的特征向量,5数据内部关联结构分析与St
a
t
a实现煉3.scoreplot、loadingplot命令煉这两个命令都用来绘制散点图。煉scoreplot用于绘制不同因子得分的散点图,基本语法:.scoreplot
[,
scoreplot_options]煉loadingplot命令用于绘制不同因子载荷的散点图,基本语法如下:.
loadingplot
[,
loading_options]5数据内部关联结构分析与St
a
t
a实现煉4.rotate命令煉rotate命令用于完成因子载荷矩阵的正交旋转或斜交旋转。煉rotate命令的基本语法如下:.
rotate
[,
rotate_options]5数据内部关联结构分析与St
a
t
a实现煉5.predict命令煉predict命令可以用于预测变量、拟合值和残差,利用predict命令也可以完成因子得分的计算。
predict命令的基本语法为:.
predict
[type
]
stub*
|
newvarlist
[if]
[in]
[,
statistic
options]煉其中stub*|
newvarlist为需要计算因子变量得分的变量。5数据内部关联结构分析与St
a
t
a实现煉6.factor和factormat命令煉前述各项命令是因子分析中用于中间计算结果的展示和调整命令。Stata中用于因子分析的主命令有两种形式,一是通过变量直接进行因子分析,为factor命令。二是通过矩阵进行主成分分析,为
factormat命令。5数据内部关联结构分析与St
a
t
a实现煉命令格式1:通过变量直接进行因子分析。.factor
varlist[if][in][we
ight][,method
options]煉varlist为因子分析使用的原始变量。5数据内部关联结构分析与St
a
t
a实现煉命令格式2:通过矩阵进行主成分分析。.
factormat
matname,
n(#)
[me
thod
options
factormat_options]煉如果已有变量的相关系数矩阵或协方差矩阵,则可以使用factormat命令进行因子分析。其中matname为事先形成的系统的相关系数矩阵或协方差矩阵,n(#)表示观测个案的个数#。6变量间相关关系分析与St
a
t
a实现
二元变量相关分析
偏相关分析变量间相关关系分析与St
a
t
a实现变量间相关关系分析与St
a
t
a实现变量间相关关系分析与Stata实现二元变量相关分析偏相关分析二相元关定分距析变量二相元关定分序析变量6变量间相关关系分析与St
a
t
a实现煉6.1二元变量相关分析煉6.1.1分析方法煉1.散点图煉2.相关系数煉如果相关系数是根据总体全部数据计算而来的,称为总体相关系数,记为ρ;如果是根据样本数据计算而来的,则称为样本相关系数,记为r。在统计学中,一般用样本相关系数r来推断总体相关系数。6变量间相关关系分析与St
a
t
a实现煉6.1.2分析原理及步骤煉1.二元定距变量相关分析原理及步骤煉皮尔逊简单相关系数用来衡量定距变量间的线性关系。22i
1i
1r
(x
x
)(
y
y
)n
(xi
x
)(
yi
y
)i
1n
in
i6变量间相关关系分析与St
a
t
a实现煉对皮尔逊简单相关系数进行显著性的统计检验是t检验,通过计算t统计量对相关系数与0的差异进行推断。r
n
2t
1
r
26变量间相关关系分析与St
a
t
a实现煉2.二元定序变量相关分析原理及步骤煉斯皮尔曼(Spe
arman)等级相关系数和肯德尔(Ke
ndall)tua-b等级相关系数用以衡量定序变量间的线性相关关系,它们利用的是非参数检验的方法。煉
斯皮尔曼等级相关系数为6niD
2n(n2
1)
R
1-
i
1
6变量间相关关系分析与St
a
t
a实现煉斯皮尔曼等级相关系数显著性检验分为两种情况。煉①个案数n≤30,Stata将直接利用斯皮尔曼等级相关统计量表,自动根据该表给出对应的相伴概率值。煉②个案数n>30,则采用Z统计量。Z统计量近似服从正态分布,Stata将根据正态分布表给出对应的相伴概率。6变量间相关关系分析与St
a
t
a实现煉肯德尔tua-b等级相关系数为煉肯德尔tua-b等级相关系数统计检验分为两种情况:煉①个案数n≤30,Stata将直接利用肯德尔tua-b等级相关统计量表,自动根据该表给出相伴概率值。煉②个案数n>30,则计算Z统计量。Z统计量近似服从正态分布,Stata将根据正态分布表给出相伴概率。4VT
1
n(n
1)6变量间相关关系分析与St
a
t
a实现煉6.1.3
Stata命令煉1.二元定距变量相关分析基本命令煉二元定距变量相关分析基本命令为correlate,correlate命令不仅可以计算变量之间的相关系数矩阵,也可以计算变量间的协方差矩阵。煉correlate命令基本语法为:.
correlate
[varlist]
[if]
[in]
[,
correlate_options]6变量间相关关系分析与St
a
t
a实现煉Stata中针对缺失数据提出了两种不同处理方法,
correlate命令在计算相关系数时,若某个观测个案在指明的变量中有一个缺失数据,那么该观测个案将不参加所有二元相关系数的计算,相当于删除了这条观测个案。6变量间相关关系分析与St
a
t
a实现煉若只有当用到某个变量时才将缺失数据删除,这时可以采用pwcorr命令,该命令不仅可以进行相关系数计算,而且通过选择项设置还可以进行相关系数的显著性检验。pwcorr命令的基本语法如下:.
pwcorr
[varlist]
[if]
[in]
[,
pwcorr_options]6变量间相关关系分析与St
a
t
a实现煉2.二元定序变量相关分析基本命令煉Stata分别采用spearman命令和ktau命令来计算斯皮尔曼等级相关系数和肯德尔tua-b相关系数。煉
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024固结磨具用磨料粒度组成的检测和标记第1部分:粗磨粒F4~F220
- 电缆载流量表
- 幼儿园教师培训总结2020
- 河南省南阳市淅川县2023-2024学年八年级下学期第三学月月考语文试题
- 2024年上海市黄浦区中考三模考试物理试题
- 2024年浙江省绍兴市上虞区中考二模数学试题
- 专题强化训练一 电磁感应的中的图像和电路问题-2022-2023学年高二物理精讲与精练高分突破考点专题系列(人教版2019选择性必修第二册)
- 初中语法复习专题六 动 词
- 《辽、西夏与北宋的并立》名师课件
- 2024-2034年中国蒸汽机器人行业市场深度分析及投资战略规划研究报告
- 全过程工程咨询服务方案
- 2022贵州遵义市播州区粮食购销限公司招聘10人上岸笔试历年难、易错点考题附带参考答案与详解
- 《眼镜维修检测技术》期末考试复习题库(含答案)
- 伊宁城市规划参考课件
- 第六届全国物流设计大赛一等奖作品
- 旧制度与大革命模板文档
- 山东省滨州市阳信县2022-2023学年七年级下学期期末英语试题(含答案及听力音频无听力原文)
- SMT制程不良原因及改善对策
- 信息能力2.0背景下的小学数学“双减”教学研究
- 文艺复兴史学习通课后章节答案期末考试题库2023年
- 2023年05月山东济南商标审查协作中心招考聘用商标审查辅助人员29人笔试题库含答案解析
评论
0/150
提交评论