实证研究方法论-Stata应用课件第3章数据收集、处理与Stata实现

上传人：s*** IP属地：浙江上传时间：2024-05-02 格式：PPTX 页数：111 大小：5.39MB 积分：15 举报 版权申诉

已阅读5页，还剩106页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

第3章数据收集、处理与

Stata实现数据分类数据来源数据处理与Stata实现主要内容对现象进行计量的结果

不是指单个的数字，而是由多个数据构成的数据集

不仅仅是指数字，它可以是数字的，也可以是文字的数据（data）数据的分类按计量尺度按时间状况按收集方法定定定观试截时混类序量察验面序合数数数数数数数数据据据据据据据据数据的分类定类数据/分类数据(categorical

data)只能归于某一类别的非数字型数据对事物进行分类的结果，数据表现为类别，用文字来表述例如，亏损和非亏损、国有和民营定序数据/顺序数据(rank

data)只能归于某一有序类别的非数字型数据对事物类别顺序的测度，数据表现为类别，用文字来表述例如，信息披露：优秀、良好、合格、不合格等定量数据/数值型数据(metric

data)按数字尺度测量的观察值结果表现为具体的数值，对事物的精确测度例如：公司的资产、ROA定量数据可进一步区分为定距数据和定比数据数据按计量尺度分类定量数据定距数据，表现为数值，可进行加、减运算，如温度定比数据，表现为数值，可进行加、减、乘和除运算，时间、重量和长度都是定比数据主要的区别定距数据中的“0”是人为给定的，不具有实际意义，比如温度为0并不表示没有温度定比数据中的“0”是实际意义上的真实零点比如说，一个公司的ROA为0的含义是什么？数据按计量尺度分类2019年，贵州茅台的营业收入为888.54亿元，五粮液的营业收入为501.18亿元如何基于不同的计量尺度来进行描述定类数据定序数据定距数据定比数据示例1从某数据库中调出的A公司的资产项目的数据如下，则A公司的资产总计为多少？示例2货币资金应收账款存货固定资产无形资产资产总计100200300400.？按计量尺度区分数据类型的意义1.不同的数据需要采用不同的统计方法来处理定类数据：计算频数和频率，列联分析和卡方检验定序数据：中位数和分位数，等级相关分析2.高层次计量尺度的数据可以很容易转换为低层次计量尺度的数据比如根据ROA是否小于0，将上市公司划分为2组等3.高层次计量尺度的数据包含更多的数学特性，所运用的统计方法越多4.适用于低层次计量尺度数据的方法也适用高层次计量尺度的数据，反之则不能成立数据按计量尺度分类观测数据(observational

data)通过调查或观测而收集到的数据在没有对事物人为控制的条件下而得到的有关社会经济现象的统计数据几乎都是观测数据试验数据(experimental

data)在试验中控制试验对象而收集到的数据比如，卡尼曼实验中对测试者风险态度的数据等自然科学领域的数据大多数都为试验数据，社会科学中的使用也逐步增多数据按收集方法分类截面数据(cross-sectional

data)在相同或近似相同的时间点上收集的数据描述现象在某一时刻的变化情况比如，2010年我国沪深两市上市公司的净利润时间序列数据(time

series

data)在不同时间上收集到的数据描述现象随时间变化的情况比如，1994-2003万科的每股收益混合横截面数据(pooled

cross-sectional

data)由不同期间的横截面数据混合而成的数据数据按时间状况分类横截面数据（cross-section）横截面数据的重要特征通常我们可以假定，它们是从样本背后的总体通过随机抽样（random

sampling）而得到的。改变观测值（observation）的排列顺序，对分析不会有任何影响。WAGE1.dta中1976年526个工人的横截面数据横截面数据（cross-section）横截面数据（cross-section）时间序列数据（time

series

data）时间序列数据是由一个或几个变量不同时期的观测值所构成,如股票价格，GDP等。时间序列数据包括不同的数据频率（data

frequency），最常见的频率包括年、季、月、周、天、小时、分钟等。时间序列数据有一个关键的特征，观测数据在时间上不独立（时间相依）。同横截面数据的排序不同，观测值的顺序在时间序列分析中则非常重要。时间序列数据（time

series

data）混合横截面数据（pooled

crosssection

data）混合横截面数据，由不同期间的横截面数据混合而成的数据。混合横截面数据既具有横截面数据的特点，又具有时间序列数据特点的数据。混合横截面数据的分析同横截面数据的分析非常类似。然而，通常可以从混合横截面数据中获取更多的信息，即变量之间

的关系如何随时间的变化而变化。这对政策的效果的分析将

非常有用。混合横截面数据存在两种排列格式。混合横截面数据格式1混合横截面数据格式2混合横截面数据从数据库里调出来的数据结构最多的混合横截面数据结构1，如色诺芬、国泰安。也有少量的数据结构为混合横截面数据结构2，如巨灵。通常，对混合横截面数据结构1的处理更加方便。Stata中的reshape命令可以实现两种数据结构的自由转换*打开reshape命令演示数据reshape

wide

i(dm

nd)

j(m)reshape

longStata命令：reshape面板数据（panel

data）面板数据，也译为纵列数据（longitude

data），是指由横截面数据集中每个数据的一个时间序列组成。对100家上市公司连续收集10年的数据。面板数据有别于混合横截面数据的关键特征是，同一横截面数据的数据单位（个人或公司等）都被跟踪了一段特定的时期。和横截面数据一样，对面板数据中的横截面的数据的排序无关紧要。面板数据（panel

data）各种数据结构的评论1横截面数据通常不能反映变量各期之间的相依性，通常只适合对静态关系进行模型化；时间序列数据可以对变量之间的动态相依进行模型化；面板数据可以实现对静态关系和动态关系的模型化各种数据结构的评论2比如通过横截面数据可以对盈余对市场回报的影响进行模型化通过时间序列数据可以对股市发展对市场回报的影响进行模型化通过面板数据可以同时对盈余和股市发展对产生的影响进行模型化数据取得的几种方式一、通过数据库获得档案数据（archival

study）二、通过调查问卷获取数据三、通过实验法获取数据四、通过模拟（simulation）获取数据数据来源常用的数据库有哪些？美国CRSP、COMPUSTAT和I/B/E/S等数据库中国国泰安数据库（CSMAR）巨灵数据库（genius）锐思数据库（resset）万德数据库（wind）

色诺芬数据库（ccer）同花顺数据库（iFind）国际BloombergDatastreamBvD(穆迪公司)一、通过数据库获得档案数据这种方法的优势在于可以通过设计各种问题，直接向被调查对象寻找答案Graham，Harvey和Rajgopal（2005）通过对美国401位财务经理进行问卷调查，并对其中20位进行深度访谈，以寻找影响盈余报告和自愿性披露的关键因素。问卷调查在我国实证会计研究中也得到了广泛的应用但一定程度上也被滥用问卷发放的随意性，而不是通过科学的设计来随机获取样本被调查者对研究有效性的影响非常大二、通过调查问卷获取数据问卷构建封面信指导语问题和答案问题按其形式分：开放式和封闭式问题按其内容分：特征、行为和态度问卷设计要点简明清楚设计问卷不能带有倾向性不提有可能难以真实回答的问题不能把未经确认的事当做前提假设问卷设计（1）量表总加量表区分两类（同意、不同意），然后加总量化李克特表区分为两类以上（非常同意、同意、不知道、不同意、非常不同意），然后加总量化语义差异量表两端为一对意义相反的形容词，中间分为7个等级7,6,5,4,3,2,1；或+3，+2，+1,0,-1，-2，-3问卷设计后的预回答问卷的回收率（>70%）专家调查问卷问卷设计（

）这种方法以经济学、心理学、社会学等诸多学科的理论为基础，调查参与人在实验控制的场景中如何对会计问题作出判断、决策或采取行动。它的优势在于可以操纵自变量的变化，观察到这种变化对因变量的影响，从而更能得出因果关系的推论（罗炜，2005）。在实验中，通常需要将同意参加实验的对象随机划分处理组（treatment

group）和控制组（controlgroup），以观察到外生变化对行为和结果的影响。三、通过实验法获取数据三、通过实验法获取数据邀请符合条件的对象参加是否

同意

参加？是否随机分配从研究中删除划分为处理组划分为控制组社会实验研究中的随机分配程序这对理解统计和计量经济学的方法，以及一些统计量的属性非常有帮助。Stata可以通过simulate命令进行模拟Help

simulate四、通过模拟（

simulation ）获取数据数据处理与Stata实现数据处理通常要包括下述过程：1.数据导入。将收集的数据调入Stata软件等，或直接通过数据转换软件（stat/transfer等）将数据转换为Stata等。2.数据检查。消除相同的观测值，处理缺失值等。3.数据预处理。包括对数据和变量贴标签、变量处理、数据筛选和排序、删除重复观测值、处理缺失值等。4.数据转换。包括数据结构（宽数据格式和长数据格式转换）和变量类型转换。5.数据分组与展示。包括对数据进行分组标记、分组统计处理和图标展示。6.数据定位。包括某一事件相对时间的标定。7.数据配对。对研究组或处理组确定配对样本。8.数据合并。对数据进行横向和纵向合并。数据导入数据导入是将数据导入统计和计量经济分析软件的过程。已有的统计分析软件基本都可以调用各种格式存储的数据文件。数据通常通过excel表格存储为了进行数据处理，需要首先将数据导入到统计计量分析软件中，如Stata.数据导入Stata程序：数据导入将以raw、txt、xls、xlsx、dta、sas7bdat存储的StockReturn0数据调入Stata软件。Stata调入数据基本规则主要有：使用import（Stata12以后可用）、odbc命令直接调入excel数据集。使用infile、insheet和infix命令调入txt、csv等类型的数据（或点击file-import3.使用use命令打开存储在计算机中的Stata数据集，使用sysuse命令打开Stata自带

的Stata数据集。使用use命令或webuse命令从网上直接获取数据。其他方式，例如，通过odbc

load调取dbase，access等数据。以下举例中，假定已经通过cd命令设定了当前文件目录，或者文件存于F盘。对Stata还未有了解的，可先阅读附录中附表1-1和附表1-3，了解Stata的工作界面和语法基本规则。*Stata程序通过cd命令设定当前工作目录*1.调入Excel数据集方法1：使用import命令调入（Stata12版以后可用）import

excel

"StockReturn0.xlsx",sheet("StockReturn0")

firstrow

clear复制excel数据，直接粘贴到Stata数据窗口。注意，有时不能识别excel格式，容易出错（不适用数据量大的情况）。数据导入*2.调入txt数据集*通过infile命令调入文本文件infile

str7

month

using"StockReturn0.txt"

,clear*3.调入Stata的dta数据集use

"StockReturn0.dta",clear*或者点击file-open直接打开*4.从网上直接读取数据use

/ec-

p/data/wooldridge/bwght.dta,clearwebuse

lifeexp,clear数据导入对于一个大的数据集，很容易出现错误数据，因此应仔细检查。对数据集名称、变量、观测的检查。数据集名称检查是指对数据是否命名进行检查，数据集变量检查内容包括数据集变量个数、每个变量的名称、变量存储类型、变量显示格式、变量标签等。数据集观测检查内容包括观测的数量、数据质量等的初步检查等。对数据质量的检查。对数据进行描述性统计可以为数据质量检查提供很多思路。在Stata中：可以使用describe或d命令来检查内存数据集、变量和观测的基本情况。可以使用compress命令对内存中的数据进行压缩，从而释放更大的内存。可以使用browse和edit命令浏览和修改数据，使用list命令在结果窗口显示数据，查看缺失值的表示情况。可以使用summerize（sum、su）命令初步判断数据质量。数据检查数据预处理主要包括：1.对数据集和变量贴标签；2.对变量的初步处理；3.对数据进行筛选和排序；4.对重复观测的处理；5.对缺失值的处理。数据预处理为了便于对数据集和变量的处理，数据集和变量的命名通常应尽量简洁，特别是变量通常用英文、英文首字母简称、中文拼音首字母进行命名。这样做不利的一面是经过一段时间后可能不能记起数据库和变量的含义了，通过对数据库和变量进行贴标签，可以有效解决这一问题。在Stata中：可以使用label

data命令对数据集贴标签。可以使用label

var命令对变量进行贴标签。可以使用label

define命令对变量取值贴标签。在Stata中还可以使用notes命令对一个数据集或单个变量添加注释。使用非官方的labone命令，可将数据集中的指定行作为变量的标签。例如，对于下载的CSMAR数据（如excel），调入Stata后可以使用labone命令直接将第2行的“变量说明”作为变量的标签。数据预处理-对数据集和变量贴标签变量（variable）是说明现象某种特征的概念，其特点是从一次观察到下一次观察结果会呈现出差别或变化。变量由变量名和变量值

组成。变量名是指变量的名称，变量值是指变量的具体取值。例如

对于变量公司产权性质，其变量值表现为国有和非国有。对变量的初步处理主要包括变量名的统一标准化、以及变量类型之间的转换。（1）变量名命名及其统一标准化可以用中文、英文、数字、符号、或者上述的组合进行命名避免使用特殊字符和通配符注意软件自带的系统变量为了方便合并，统一关键识别变量（dm，nd）（2）变量类型的之间的转换数字型、字符型、日期型之间的相互转换数据预处理-对变量的初步处理数据预处理-数据筛选（data

filter

数据筛选（data

filter）是根据需要找出符合特定条件的某类数据。数据筛选的内容

将某些不符合要求的数据或有明显错误的数据予以剔除

将符合某种特定条件的数据筛选出来，而不符合特定条件的数据予以剔除Stata命令：

drop

jqr==.drop

month==“2004-01”数据预处理-数据排序（data

rank）

按一定顺序将数据排列，以发现一些明显的特征或趋势，找到解决问题的线索

排序有助于对数据检查纠错，以及为重新归类或分组等提供依据在某些场合，排序本身就是分析的目的之一排序可借助于计算机完成，如在Stata中：sort

dmsort

ndsort

m数据预处理-数据排序（data

rank）分类数据的排序字母型数据，排序有升序降序之分，但习惯上用升序（sort命令默认按升序排序）

汉字型数据，可按汉字的首位拼音字母排列，也可按笔画排序，其中也有笔画多少的升序降序之分数值型数据的排序递增排序：设一组数据为x1，x2，…，xn，递增排序后可表示为：x(1)<x(2)<…<x(n)递减排序：可表示为：x(1)>x(2)>…>x(n)gsort+dm-nd//gsort可实现对变量进行递增和递减排序数据预处理——对重复值的处理由于数据库的设计存在问题，有时从数据库中调出的数据会存在相同的观测值，或者因为重复录入的问题而存在相同的观测值，因此应首先消除相同的观测值。使用duplicates命令报告、列示和删除重复观察duplicates

report/*报告所有变量相同的重复观测*/duplicates

list/*显示所有变量相同的重复观测*/duplicates

drop/*删除所有变量相同的重复观测*/*duplicates可以处理指定变量是否存在重复现象duplicates

report

m对抽样调查数据，一个主要的问题是无回答和部分无回答，从而形成缺失值。在重复观测中，由于家庭的搬迁、个人的死亡、失踪以及公司的破产等原因，也会导致样本点的丢失，从而形成缺失值。对缺失值的处理最简单的方法是将其删除。但是需要注意的是，必须考虑缺失值形成的原因和重要性。查看并处理缺失值。不同的数据库中对不同变量的缺失值有不同的表示，大多数情况下并不是以点（.）表示，有时用一个数值代码表示，分析时应特别注意。数据预处理——对缺失值的处理数据审核dmyearepsbvpepbAudit00000219940.74254.48388.08081.3382100000219940.74254.48388.08081.3382100000319940.64174.79929.42811.2606100000419940.3833.308315.9531.8469-1400000519940.32312.342218.91062.60873数据审核dmyearpricebvpepbAudit000002199464.48388.08081.338210000031994-954.79929.42811.2606100000419946.113.308315.9531.8469-1400000519946.112.342218.91062.60873Sinofin数据库中缺失值的表示代码描述-97由于计算原因此项没有记录(例如收益率第一项)-95价格库中没有交易的记录，例如停牌等-11公司基本信息部分缺失，有可能补齐，如企业工商注册登记号-35数据源数据缺失(例如成交笔数是1998年后才可获取)对于事件终止时间现在不确定的记录表2色诺芬数据库中对应缺失值的代码及解释Stata中:可以使用browse、list、inspect命令来查看缺失值的表示。可以使用mvdecode命令将数值型缺失值转换为.，使用

mvencode将缺失值.转换为数值型缺失值。需要指出的是，缺失值和0存在本质的区别。而有些数据库中对缺失值以0表示，或调入excel表中后变为0，这使得对缺失值的处理变得异常困难。数据预处理——对缺失值的处理数据转换包括数据结构转换和数据变量转换。数据结构转换包括宽格式数据和长格式数据转换（reshape）、数据转置（transpose）、数据堆叠（stack）。其中，宽格式数据如表3-4所示，长格式数据如表3-3所示。宽格式数据和长格式数据转换相对复杂，而数据转置、数据堆叠则相对简单。数据变量转换包括宽格式数据和长格式数据转换、产生新变量和取代原有变量中的值、和对字符型变量的处理。数据转换1.宽格式数据和长格式数据转换从数据库中调出数据后，经过数据预处理后，需要通过变量计算（加、减、乘、除等），将原始的变量变为可用于特定目的的分析。例如：对规模变量如总资产等取对数；根据净利润和平均总资产或上年总资产计算总资产收益率；根据净利润和经营活动现金流量计算应计利润。根据字符型变量产生特定的数字型变量，如通过行业分类产生行业分类变量。2.产生新变量和取代原有变量中的值对字符型变量的处理要相对复杂一些。对字符型变量的处理包括：压缩字符变量值、提取字符变量值、连接字符变量值、取代字符变量值、转换字符变量值等。Stata都提供了丰富的字符函数。Stata中字符型变量的处理主要通过字符型函数进行。输入命令help

function，点击string

functions可以查看所有字符型函数的使用。主要字符型函数的使用说明见本书附表1-7。重点关注文本挖掘中常用的正则表达式（regular

expression，简称regex、regexp或RE）提取、替换和截取函数。3.对字符型变量的处理在经验研究中，对数据进行分组处理是十分常见的。例如，对数据进行分年度处理，分行业处理，或者分年度分行业处理。也可以对连续性变量，如ROA进行分组，以揭示不同业绩组之间的特定差异。数据分组与展示有时，可以通过对数据产生分组标记来对给定数据进行处理。例如，仅保留每家上市公司第一次发布盈利预测的公告时间等。因此需要将每家上市公司第一次发布盈余公告的时间标记出来，然后根据要求进行处理。1.数据分组标记的产生为了研究需要，有时我们需要将数值型数据分成观测数量相同的若干组。例如：（1）将所有公司按ROA大小分为20组（2）分年度将所有公司按ROA大小分为20组（3）分年度按ROA大小将公司分组，使每组的公司数为20（4）分年度按分位数分组（5）分组产生虚拟变量（dummy

variable）2.数据分组通过对数据分组标示，可以很方便地计算分组累积求和和求积。3.分组统计处理对数据进行预处理后，可以使用图表更直观和形象地展示数据。一张完整的图应包括以下要素：坐标轴、曲线（点/线/面）、标题与副标题、图例、脚注、插文。图3-2行驶里程与车重关系4.单变量数据展示一张好的图表应当：精心设计、有助于洞察问题的实质使复杂的观点得到简明、确切、高效的阐述能在最短的时间内以最少的笔墨给读者提供最大量的信息是多维的表述数据的真实情况4.单变量数据展示数据的整理和显示定类数据的整理与图示定序数据的整理与图示定量数据的整理与图示数据的整理和显示：基本问题要弄清所面对的数据类型不同类型的数据，采取不同的处理方式和方法对定类数据和定序数据主要是作分类整理对定量/数值型数据则主要是作分组整理

适合于低层次数据的整理和显示方法也适合于高层次的数据；但适合于高层次数据的整理和显示方法并不适合于低层次的数据定类数据的图示—条形图(Barchart)示例1顾客性别计数项:饮料类型男女总计1果汁1562矿泉水64103绿茶74114其他2685碳酸饮料6915总计222850定类数据的图示—对比条形图示例3国有与非国有对比条形图定类数据的图示—饼图

(Pie

chart)示例4定序数据的整理（可计算的统计量）累积频数(cumulativefrequencies)：各类别频数的逐级累加累积频率(cumulative

percentages)：各类别频率

(百分比)的逐级累加2008年CFO在高管团队中排名的频数分布全部样本国有企业民营企业CFO权力距Freq.PercentCum.Freq.PercentCum.Freq.PercentCum.0312.572.57162.192.19153.163.16124420.2522.8212116.5818.7712325.8929.05223519.542.3213818.937.679720.4249.47320116.685911415.6253.298718.3267.79418315.1974.1911615.8969.186714.1181.89514411.9586.149913.5682.74459.4791.376796.5692.7598.0890.82204.2195.587463.8296.51344.6695.48122.5398.118221.8398.34202.7498.2220.4298.539201.66100131.7810071.47100Total1,205100730100475100表1CFO在高管团队中排名的频数分布定量数据的整理与图示根据数据统计研究的需要，将原始数据按照某种标准化分成不同的组别，分组后的数据称为分组数据。定量数据分组方法分组方法等距分组异距分组单变量值分组组距分组单变量值分组（要点）将一个变量值作为一组适合于离散变量适合于变量值较少的情况2008年不同行业中CFO在高管团队中排名前4的频数分布行业名称1CFO权力距23总计林业623%415%519%26石油和天然气开采业618%515%412%34制造业12419%14823%10216%655电力、蒸汽、热水的生产和供应业土木工程建筑业12520%18%518%4%11419%14%5928交通运输服务业1424%712%915%59计算机应用服务业2129%1014%1521%72零售业1316%1822%1417%81房地产开发与经营业1620%1924%1418%79旅馆业617%617%720%35出版业440%220%220%10综合类1725%1015%1421%67合计24422%23516%20118%1205组距分组（几个概念）下限(low

limit)：一个组的最小值上限(upper

limit)：一个组的最大值组距(class

width)：上限与下限之差组中值(class

midpoint)：下限与上限之间的中点值，反映各组数据的一般水平的代表值下限值+上限值

2组中值=组距分组

（要点）将变量值的一个区间作为一组适合于连续变量适合于变量值较多的情况

需要遵循“不重不漏”的原则以及

“上组限不在内”原则

可采用等距分组，也可采用不等距分组~~~~~分组数据的图示（直方图的绘制）我一眼就看出来了，销售量在170～180之间的天数最多!(天)2015频

30数

25105140

150

160

170

180

190

200

210

220

230

240销售量（台）某电脑公司销售量分布的直方图上市公司ROE频数分布分组数据—直方图（直方图与条形图的区别）

条形图（Bar）是用条形的长度(横置时)表示各类别频数的多少，其宽度(表示类别)则是固定的

直方图（Histogram）是用面积表示各组频数的多少，矩形的高度表示每一组的频数或百分比，宽度则表示各组的组距，其高度与宽度均有意义

直方图的各矩形通常是连续排列，条形图则是分开排列

条形图主要用于展示分类数据，直方图则主要用于展示数值型数据时间序列数据—线图

（例题分析）【例】我国

1991～2003年城乡居民家庭的人均收入数据如右表。试绘制线图￥＄1991～2003年城乡居民家庭人均收入年份城镇居民农村居民19911700.6708.619922026.6784.019932577.4921.619943496.21221.019954283.01577.719964838.91926.119975160.32091.119985425.12162.019995854.02210.3两个变量间的关系—二维散点图（2D

scatterplots）Stata作图twoway

(scatter

mpg

weight

foreign==0)

///(scatter

mpg

weight

foreign==1,msymbol(Sh))/*曲线选项，点的类型（Sh表示为大空心正方形）*////subtitle(副标题:11574年美国的国产和进口汽车),

///title(标题:

行驶里程与车重关系)

/*图选项：标题*/

////////////ytitle(纵坐标标题：里程)xtitle(横坐标标题：重量)note(注释:数据来自于美国汽车协会)text(35

3400"曲线类型：散点图")//////legend(title(图例)

label(1

国产车)

label(2

进口车))scheme(s2rcolor)

/*图样式*////[graph]

graph-command

(plot-command,plot-options)

(plot-command

plot-options)

graph-options或者用||连接graph-command定义图的类型（多变量图形（如命令twoway），还是单变量图形（如bar、box、dot、pie），plot-command定义多变量图形twoway中的曲线类型（如scatter、line、area等），同一个图中如果有多条曲线可以用括号分开，也可以用“||”分开，曲线有其自身的选项，而整个图也有其选项。Stata作图graph

baryvars//bar

chartsgraph

dotyvars//dot

chartsgraph

boxyvars//box-and-whisker

plotsgraph

pievarlists//pie

charts单变量图形*graph

barclearinput

str16

drink

number

male

female果汁6

5矿泉水10

4绿茶11

4其他8

6碳酸饮料15

9endgraph

bar

number,over(drink)///

title("顾客与购买的饮料类型")///ytick(0(1)15)ylabel(0(1)15)bar(1,color(blue))/////////b1title("饮料类型")ytitle("购买人数")Barclearinput

str16

drink

number果汁6

5矿泉水10

4绿茶11

4其他8

6碳酸饮料15

9endgsort

-numbergraph

bar

number,over(drink,sort(number)descending)///

title("顾客与购买的饮料类型")///ytick(0(1)15)ylabel(0(1)15)bar(1,color(blue))/////////b1title("饮料类型")ytitle("购买人数")Bar：帕累托图clearinput

str16

drink

number

male

female果汁6

5矿泉水10

4绿茶11

4其他8

6碳酸饮料15

9endgraph

bar

male

female,over(drink)///

title("顾客性别与购买的饮料类型")///ytick(0(1)10)ylabel(0(1)10)//////b1title("饮料类型")ytitle("购买人数")///bar(1,color(blue))bar(2,color(red))//////legend(label(1"男性购买人数")label(2"女性购买人数"))Bar：对比条形图1.

一张好的图表应包括以下基本特征◦◦◦◦显示数据让读者把注意力集中在图表的内容上，而不是制作图表的程序上避免歪曲强调数据之间的比较服务于一个明确的目的有对图表的统计描述和文字说明5种鉴别图表优劣的准则：一张好的图表应当精心设计、有助于洞察问题的实质使复杂的观点得到简明、确切、高效的阐述能在最短的时间内以最少的笔墨给读者提供最大量的信息是多维的表述数据的真实情况合理使用图表：鉴别图表优劣的准则统计表的结构2002～2003年城镇居民家庭抽样调查资料

表头项目单位2002年2003年列行标题调查户数平均每户家庭人口平均每户就业人口平均每户就业面平均一名就业者负担人数平均每人全部年收入＃可支配收入平均每人消费性支出户4531748028

标人3.043.01

题人1.581.58

数%51.97字52.49

资元1.921.91

料元8177.409061.22元7702.808472.20

附加元6029.886510.94合理安排统计表的结构总标题内容应满足3W

要求

数据计量单位相同时，可放在表的右上角标明，不同时应放在每个变量后或单列出一列标明表中的上下两条横线一般用粗线，其他线用细线通常情况下，统计表的左右两边不封口

表中的数据一般是右对齐，有小数点时应以小数点对齐，而且小数点的位数应统一对于没有数字的表格单元，一般用“—”表示必要时可在表的下方加上注释统计表的设计统计表的设计（比较与选用）表A 某城市居民关注广告类型的频数分布广告类型人数(人)频率(%)商品广告11256.0服务广告5125.5金融广告94.5房地产广告168.0招生招聘广告105.0其他广告21.0合计200100统计表的设计（比较与选用）表B 某城市居民关注广告类型的频数分布广告类型人数(人)频率(%)商品广告11256.0服务广告5125.5金融广告94.5房地产广告168.0招生招聘广告105.0其他广告21.0合计200100附：主要期刊的表格样式在数据处理过程中，我们经常需要判断某一事件或事项是首次还是非首次发行。例如，公司是首亏还是连续亏损，是首次配股增发还是非首次配股增发，是首次债券公开发行还是非首次债券公开发行（见Stata程序上市公司债券发行与应计盈余管理），事件研究中事件日的标定（见Stata程序：年报披露信息含量研究第（6）部分）。数据定位将处理组（treat）的每个样本分年度和其同行业的所有其他公司进行合并，然后选择总资产或营业收入，ROA或ROE最小的公司最为配对组（matchgroup）。在Stata中，可以通过合并数据进行配对，使用非官方的runby、rangejoin、rangestat可以方便地进行简单配对。数据配对有时，一个数据库并不能满足研究的需要，需要从同一公司或不同公司开发的不同数据库中调出数据，然后将其进行合并。数据合并包括横向合并和纵向合并。横向合并又包括基于观测值的合并和基于关键变量的合并，实证研究中，更多的是基于关键变量的合并。对上市公司有关公司年的研究而言，主要基于关键变量代码（dm）、年度（nd）进行合并，因此，在不同的数据集中，统一关键变量的命名非常关键。数据合并在Stata中，通过merge、joinby命令进行横向合并，以创建一个更宽的数据集；通过append命令进行纵

向合并，以创建一个更长的数据集。merge命令可以基于关键变量进行一对一（1:1）、一对多（1:m）、多对一（m:1）、多对多（m:m）合并。在默认情况

下，执行merge命令合

人人文库> 全部分类> 图纸下载 > 毕业设计

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

实证研究方法论-Stata应用 课件 第3章 数据收集、处理与Stata实现

文档简介

温馨提示

最新文档

评论

相关文档

实证研究方法论-Stata应用课件第3章数据收集、处理与Stata实现