数据处理与表征的新概念.doc_第1页
数据处理与表征的新概念.doc_第2页
数据处理与表征的新概念.doc_第3页
数据处理与表征的新概念.doc_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据处理与表征的新概念 史锦顺 中国电子科技集团公司第27研究所 郑州 450005摘要 提出测量数据拟合计算中的一个技巧对称编号,给出简化拟合计算的实例。说明误差偏差计算中取标准值的原则。指出:统计测量不能剔除粗差。基于微小误差准则,给出测量数据有效数字的新定义。关键词 常规测量 统计测量 贝塞尔公式 不确定度 准确度1 必要测量与重复测量一定的质表现为一定的量,我们日常生活工作都离不开测量与计算。日常生活中的测量,误差常可忽略。科学与技术中的物理量测量就不同了,测量仪器误差或物理量值的变化,通常不能忽略了事。要知道物理量的大小,必须进行至少一次测量,这叫做必要测量。要知道物理量在一定间隔时间的变化,必须进行至少二次测量,这两次测量也是必要测量。生活中只进行必要测量就够了,但技术测量,包括常规测量测量与统计测量,要进行多次测量。除必要测量以外的测量称重复测量(有的计量学书上称为多余测量,似不妥当,并不是“多余”)。科学的测量,应该包括必要测量与重复测量。科学技术工作者要养成习惯,凡测量,都要包含重复测量。最少测3次,通常测10次,有些则要求测量上百次。例如频率稳定度的测量,秒以下采样时,国际惯例,采样次数是100。测量晶振日老化率,通常测量7周天。为知一天的变化量,间隔一天测2次,这是必要测量,其余测量是重复测量。 2 多次测量取平均值的意义 定理 表征量值的最佳值是测得值的平均值。设对一个物理量测量了N次,共有N个测得值:A1,A2,AN。找一个值B,使其与各值差的平方和为最小。 做函数:注意,这里B是我们要寻找的量,是变量。令有得 (1) 由以上推导过程,知B是最佳估值;由表达式(1),知B是平均值;故知平均值是最佳估值。定理得证。对量值进行多次测量取平均值有下列好处: (1)常规测量可以减小随机误差; (2)可以避免差错 在统计测量的情况下,平均操作是取得统计平均值。平均值是期望值的最佳估值。3 数据拟合的技巧 对变化可略的量,进行多次测量,取平均值,是常数拟合。如上节所述。 对变化的量,进行数据拟合,是函数拟合。此函数通常取多项式函数。依多项式的阶数,称一阶拟合(线性拟合)、二阶拟合、三阶拟合。 (1) 零阶拟合 前述对常量的拟合,可以看作对函数 y = B的拟合,是零阶拟合。其结果是 (2)一阶拟合 对应等间隔的自变量x1、x2、 xN,测得值为y1、y2、 yN ,测得值大致呈直线。拟合一条直线,使测得值与线的差的平方和最小。 设直线为:y = B + kx 作函数:这里是选曲线,B、k是变量。令有整理 (2) (3)由联立方程(2)(3)求解,是经典解法。易见这是未知量B、k的线性方程组,其解为: 如此常规求解,一阶拟合的解,表达式与计算已很繁,二阶以上的解与计算更繁。这里介绍一种简化方法。这种方法的核心是对称编号。 函数拟合的前提是自变量无误差,而函数有误差或有随机变化。把自变量等间隔地分成N段,则可表为: 通常的编号方法是i从1到N。现推荐对称编号,i从-n到+n。则必有:定理 等间隔划分的自变量,对称编号时,自变量的奇次方之和为零。证明 对称编号时,由于-1的奇次方是-1,i为正值时自变量各奇次方值,必有绝对值相等而正负号相反的值与其对应,相消了,故求和结果为零。联立方程(2)(3)变为: (5) (6) 易得解为 (7) (8) (3)2阶拟合模型 yBkx +ax2 作函数 (9)令 由于对称编号,xi = id的奇次方求和为零。有: (10) (11) (12)由(10)至(12),解得: (13) (14) (15)注意到 xi =id,且有公式: 由此,可进一步简化(13)(14)(15)各式。在以后刊出的测速文中有具体结果。4 误差与偏差表达的标准值问题 误差与偏差的表达中,都有以什么值当标准的问题。 早期曾把量值分为两类:表类和源类。 表类,如螺旋测微器、电压表等的示值。示值就是测得值。以被测量的实际值为标准。例如,物理量的实际值为A,表的示值即测得值为Am,实际值A做标准。误差为 AmAmA 源类,如标准频率源之频率,标准电池之电压等,在同一名义值下,在不同时刻,给出不同的量值。以标称值为标准。如标称值为Ao,而实际输出值为Ai,标称值Ao做标准。偏差为 AiAiAo 这种表达方法,运用方便,下称第1种方法。特别是在各类频率源的表达中,几乎占统治地位。缺点是这样做的理由论述不够,当今虽靠习惯支撑着,却被指责违反规定。 上世纪末期,出现了新的规定,不分表类源类,一律以物理量的实际值为标准。下称第2种方法。这种作法,似乎很理直气壮,这是以客观物理量为标准呀,谁好反对? 举个实际例子。例如5MHz晶振,实测频率为5000000.5Hz,按第1种方式: AAAo = 5000000.1Hz5MHz = +0.5Hz 5MHz是标称值,视为无限精确值。 该晶振频率偏高,或说频率偏高+1.010-7;按第2种方式: AAoA =5MHz 5000000.1Hz=0.5Hz该晶振频率的标称值偏低0.5Hz,或说标称值偏低1.010-7。这种说法不当,5MHz的晶振可能有千万台,标称值是固定的常量,怎么说标称值高了还是低了。差异性是晶振的实际频率造成的,考察的是实际频率,它是被比较的,它不该做标准。 在实际应用中,晶振大量应用于时钟,钟的计时量与频率成正比,这里的频率指的是频率实际值,用标称值高低的说法就很不顺。 是不是用第1种说法,即分表类、源类好呢?不,这样分类缺少抵抗力,也未涉及问题本质。 第3种方法是区分常规测量与统计测量。这是本书测量分类说的自然引申。常规测量,以物理量的实际值为标准;统计测量,以标称值为标准。 例如用计数式频率计测量频率。按第1 种方式,先要认定这是表类还是源类,表面上看计数式频率计给出示值,似乎是表类,现用计数式频率计测晶振,晶振又是源类,这个问题按第1种方式是说不清的。按第2种方式,要以晶振实际输出值为准,而晶振实际输出值可能是变化的,标准有多个,这不好。按第3种方式,先要区分是常规测量还是统计测量。如果计数式频率计内标晶振指标远高于被测晶振,这是通常情况,在分辨力足够的条件下,测量误差可略,测得的值都是真值(实际值),这是统计测量,是统计问题,表达偏差要用标称值做标准。如果计数式频率计内标晶振指标远低于被测晶振,这不是通常情况,可能是在检查频率计本身,测得值的变化与偏离,反映的是测量误差,这是常规测量问题,量值标准要用被测量的真值,那就是被测晶振的标称值。在检定工作的实践中,以高指标的频率合成器为标准,用被检频率计测量频率合成器的各种频率输出,这是典型的测量问题。对该频率计来说,频率合成器的频率示值就是真值,频率计测得值与其差就是该频率计的误差。笔者曾用此法检查出一种型号的集成式频率计(其晶振电路缺少隔离级)的频率牵引现象。将测量分为常规测量与统计测量,也顺便解决了表达误差偏差时的标准值问题。5 统计测量不能剔除粗差 粗差是测量数据中的超常数据的误差,其绝对值过大。是不是粗差,有几种判别方法,最常用的是3法。这种粗差判别法说:凡大于3的误差是粗差,产生粗差的数据是异常数据,异常数据剔除。处理过程:全体数据计算1,误差大于31的数据剔除;用其余数据再算2 ,误差大于32的数据剔除。 笔者认为粗差剔除虽然可以用于常规测量,但用时要慎重,更不应递进式舍弃;要寻找数据分散的原因,不该剔除了事。 笔者在这里提出的是一个新观点:在统计测量中,不能剔除粗差。常规测量,是经典的测量。被测量的量值是客观存在,是唯一的、不变的。测量出的数据是人的认识,认识有准确与不大准确之分。不大准确是正常的;而太不准确,那是错误,错误该去掉。因而对常规测量,剔除粗差相当于去掉错误认识。但对统计测量,性质就变了。在统计测量中,测量误差可略,测得值个个是真值,真值是不能去的。真值不可抛,不能舍弃异常值。要分析产生异常值的原因。找出原因,改正,直到不出现异常值。也许一时找不到原因,异常值仍出现,那只有把此异常值统计入被测量的特性中。异常值的出现,有两种可能,一种是测量仪器等测量过程的问题,另一种是被测量有异常变化。测量通常是保证措施,必须保险,不能漏掉该查出的问题,故不可舍弃异常值。 频率测量通常是统计测量(研制与检验频率计的测量是常规测量)。频率稳定度表征频率源的频率稳定性。测量频率稳定度,要求测量设备(包括参考源、比较系统、计算系统等)的频率变化远小于被测频率的变化。当今通行的阿仑方差,其测量与计算是不舍弃异常值的。不剔除异常值这一条,在频率稳定度测量中,已实行三十多年了。这里,将其上升为规则。6 微小误差准则 误差、偏差(或误差范围、偏差范围)都是统计类量,当甲误差比乙误差大一个量级时,称乙误差为微小误差,微小误差可略。 很显然,误差与误差范围是不同的。但在一般表达中,常常用误差来代表误差范围。应明确,这仅仅是用语的简化,切不可混淆我们的理解。在一次测量的一组操作中,测得值N个,误差就大大小小有N个值,而误差范围只有一个。 微小误差可略,可以推广为微小误差范围可略。这在测量理论与实践中,在计量体系中,都是常常应用的。 微小误差可略,表征测量结果的数据,就不必写得过长,只保留有效数字。 微小误差范围可略,计量标准、计量仪器,便可划分等级,上一等计量标准成为下一等测量仪器的量值标准即相对真值。微小,是比较而言的,是相对某特定量来说的。要注意微小误差、微小误差范围的相对性。 微小误差准则:凡是对总误差值的构成作用小于总误差1/20(或1/10)的误差,称微小误差,微小误差可略。小于总误差的1/20,这个标准比较高,可用于标准和重要的工程中;一般测量,此值可取为1/10。6 有效数字的新概念有效数字与精度密切相关。没有精度的概念,就谈不上有效数字。 精度决定有效数字。许多讲测量理论的书,摆错了有效数字与精度的位置。有效数字取决于精度,但不能说有效数字决定精度。数学小辞典4上说:“对于实数X,如果它的近似数是X*,当X*的绝对误差最多不超过左边第一个非零数字算起第K位上的半个单位,这时我们说近似数X*有K个有效数字,并把左边第一个非零数字算起到第K位止的这K个数字都叫做近似数X*的有效数字”。 这个定义只表明保留的数字是按4舍5入法处理的。有效数字理论的主要应用场合是测量的实践,其基本任务是正确表达测量结果。上述定义能完成这个任务吗? 测量结果的计算中可能遇到取常数近似值的问题,例如、 的近似取值问题。取近似值有误差,但要注意,这里的“误差”一词可不是测量意义下的误差,而是取近似数这一项的误差,是整个测量结果误差的极小的一部分。 定义有效数字有两条思路:第一种,描述有效数字误差有多大;第二种,为保证精度,应如何取有效数字。教科书上的思路是第一种,出了许多问题。例如一本计量学专著5上有大段话,说明如何从有效数字断定精度,这是不对的。让我们沿着第二种思路,重来。 有效数字概念的理论基础是微小误差准则。这个准则说:凡是对总误差值的构成作用小于总误差1/20(或1/10)的误差,称微小误差,微小误差可略。1/20这个标准比较高,可用于标准和重要的工程中;一般测量,此值可取为1/10。 一个数据,位数取得过多,多写了无用的尾数,麻烦,不该;位数取少了,影响精度,更不可。合适地取数据的位数,就是有效数字理论的任务。测量有误差,微小误差可略。误差使数据分为肯定位、随机位与多余位。肯定位在前,随机位在后,多余位是尾部。肯定位、随机位上的数字,对测量结果有意义,统称有效数字,多余位上的数字对表达测量结果无意义,是无效数字。保留有效数字,舍弃或进位多余位上的数字,这称有效数字处理。去掉多余位上的数字,本文简称为截位。舍弃或进位多余数字产生的误差称截位误差(舍进误差)。截位误差必须是微小误差。由微小误差准则,微小误差可略,因而这种截位是合理的。截位的方法是:被截位上的数小于5,舍弃;大于5,进位,即上位加1;被截位恰为5时,上位是奇数时进位,上位是偶数时舍弃。截位误差小于或等于最低保留位上单位的二分之一,它应是微小误差(比较标准是数据自身的误差)。有些数,例如、根号2这些数自身无误差可言,取近似值时,要根据计算结果精度对其要求处理:截位误差对计算结果的影响量,应是微小误差。 误差量本身该取几位有效数字,是个重要问题,是决定数据有效数字位数的关键。误差量也是量,也要做有效数字处理。误差量的截位误差应是微小误差,比较标准是误差自身。举几个极端情况,计算一下便知:误差取两位即可。例如,误差计算结果是1.050,从左数第3位起截去,截位误差为0.05,即为误差自身的1/20。这是误差取两位时的最大截位误差,即极限情况。由此可见,误差取两位足够,取三位就显得多了。那么误差取一位行吗?如果误差量第一位数字是5或大于5,则取一位的最大误差是1/10,这时取一位可以;但第一位数字是4或小于4,若取一位,则截位误差不能保证小于1/10,故必须取两位。 这样,一般情况下,误差取两位。非精密测量,若误差量第一位是5以上,则误差可取一位,数据显得简洁;但第一位是4或4以下,则必须取两位。例如误差第一

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论