大物实验之实验数据的处理－金锄头文库-凯发k8网页登录

资源描述

《大物实验之实验数据的处理》由会员分享，可在线阅读，更多相关《大物实验之实验数据的处理（126页珍藏版）》请在金锄头文库上搜索。

1、2 实验数据处理在自然界中，有很多的现象是不能用我们以前所在自然界中，有很多的现象是不能用我们以前所学的知识所能解决的研究动机学的知识所能解决的研究动机比如我们在耐液锌蚀腐蚀合金研究过程中，它是比如我们在耐液锌蚀腐蚀合金研究过程中，它是由许多种元素配合，再通过高温熔炼而成。可以由许多种元素配合，再通过高温熔炼而成。可以用多少种成份来配料，熔炼温度需要多高，后续用多少种成份来配料，熔炼温度需要多高，后续如何处理？这些往往都是未知数。而且没有一定如何处理？这些往往都是未知数。而且没有一定的规律可言。那就需要我们进行大量的试验来寻的规律可言。那就需要我们进行大量的试验来寻找它的配方及烧制温度。找它的

2、配方及烧制温度。在实验过程中将要利用各种方法对样品进行分析在实验过程中将要利用各种方法对样品进行分析测试，产生许多测量数据。测试，产生许多测量数据。按测量值获得的方法分为：直接测量、间接测量按测量值获得的方法分为：直接测量、间接测量和组合测量和组合测量直接测量：如用米尺测量长度直接测量：如用米尺测量长度间接测量：利用直接测量结果，根据特定关系计间接测量：利用直接测量结果，根据特定关系计算特定物理量，如晶面间距测量算特定物理量，如晶面间距测量组合测量：测量长宽，计算面积组合测量：测量长宽，计算面积第二章实验数据处理在自然科学领域，常用函数表达变量之间的数量关系在自然科学领域，常用函数表达变量

3、之间的数量关系例如扩散层厚度与时间的关系，利用公式便于分析规例如扩散层厚度与时间的关系，利用公式便于分析规律律如何利用有限的实验数据拟合出一个近似公式如何利用有限的实验数据拟合出一个近似公式, ,这就是参数这就是参数拟合问题。拟合问题。确定参数的方法主要有最小二乘法和最大似然法。确定参数的方法主要有最小二乘法和最大似然法。如要判断一组数据是否在某个精度范围内与理论公式一致如要判断一组数据是否在某个精度范围内与理论公式一致, ,就是假设检验问题。就是假设检验问题。采用代数多项式来表示复杂的函数采用代数多项式来表示复杂的函数, ,可用插值法可用插值法2.1 误差理论简介误差的含义绝对误差绝对

4、误差相对误差相对误差置信区间贝叶斯理论贝叶斯理论区间估计区间估计不同分布样本的区间估计一、误差的含义可以通过一定的试验测试或运算用估计值表示理论值的近似值。试验值（估计值）与理论值（真值）之间的差值称绝对误差，简称误差。真值往往很难得到，因而误差的绝对值也是无法知道的。但是根据测量工具或计算情况可以估计误差值上限或估计值的精确程度。相对误差误差限的大小还不能完全表示近似值的好坏，如101与10005两个量，虽然前者绝对误差较小，但是显然后者更精确。所以除了考虑误差的大小以外，还应考虑准确值本身的大小，误差与准确值的比值称为近似值的相对误差。系统误差与随机误差系统误差系统误差由于某种原因所产

5、生，并遵循一定的规律进行由于某种原因所产生，并遵循一定的规律进行变化变化. . 例如，随样品或试剂用量的大小按比例进行变化例如，随样品或试剂用量的大小按比例进行变化. . 系统误差有一定的指向，系统误差有一定的指向，例如称量一种吸湿性物质，其误例如称量一种吸湿性物质，其误差总是正值差总是正值. . 它属于方法和技术问题，知道了产生的原因，它属于方法和技术问题，知道了产生的原因，便可消除或修正，所以此种误差也称可定误差便可消除或修正，所以此种误差也称可定误差. .随机误差随机误差在相同条件下重复多次测定同一物理量时，误在相同条件下重复多次测定同一物理量时，误差大小或正负变化纯属偶然而毫无规律，

6、这种误差称为随差大小或正负变化纯属偶然而毫无规律，这种误差称为随机误差，也叫偶然误差机误差，也叫偶然误差. . 系统误差的特点重现性单向性数值基本恒定系统误差可以校正。可用一定的方法消除。随机误差分布随机误差是不可预测、不可避免的随机误差是不可预测、不可避免的根据统计理论，随机误差服从高斯分布根据统计理论，随机误差服从高斯分布（正态分布）（正态分布）随机误差具有随机误差具有单峰性：较小误差出现的几率较大单峰性：较小误差出现的几率较大对称性：绝对值相等的正负误差出现的几率相对称性：绝对值相等的正负误差出现的几率相等等有界性：大误差出现的几率较低有界性：大误差出现的几率较低因此，测量次数较多

7、时，均值会趋于真值因此，测量次数较多时，均值会趋于真值随机误差的估算算术平均误差算术平均误差用算用算术平均代替真值，术平均代替真值，可以计算绝对误差可以计算绝对误差的平均值。的平均值。标准误差（方差）标准误差（方差）反映数据偏离真值反映数据偏离真值的分散程度，即均的分散程度，即均值与真值之间的接值与真值之间的接近程度。近程度。几个精度概念精密度：多次测量结果之间的符合程度，反映随机误差的大小，重现性正确度：系统误差的大小准确度：测量值与真值的一致程度，反映系统误差与随机误差的综合在热工、电工仪表中，正确度等级一般都用引用误差来表示，通常分为0.1, 0.2, 0.5, 1.0, 1.5,

8、2.5, 5.0 七级。例如，某仪表正确度等级为r级（引用误差r%），满量程的刻度为x，实际使用时的测量值为 x （x x），则通过上面的分析，可知为了减少仪表测量的误差，提高正确度，应该使仪表尽可能在靠近满量程刻度的2/3以上的区域内使用的原则。提高实验数据准确度的方法减少系统误差的途径对照实验对照实验空白实验空白实验校准仪器校准仪器校正方法校正方法减少偶然误差的途径多次测量、取平均值多次测量、取平均值防范过失！粗大误差粗大误差也称过失误差，是一种不应发生，而仅粗大误差也称过失误差，是一种不应发生，而仅由于粗心、疏忽等引起的误差。由于粗心、疏忽等引起的误差。往往是由于非正常

9、实验条件或非正常操作所造成往往是由于非正常实验条件或非正常操作所造成的的. . 如测量时对错了标志如测量时对错了标志, , 误读了数码误读了数码, , 实验仪器实验仪器未达到预想的指标，记录计算错误，加错了试剂未达到预想的指标，记录计算错误，加错了试剂等等粗大误差的数值远大于系统误差和随机误差，实粗大误差的数值远大于系统误差和随机误差，实际上已超出了误差范围际上已超出了误差范围含有粗差的测量值常称为坏值或异常值含有粗差的测量值常称为坏值或异常值, , 应予以剔应予以剔除除, ,否则会影响结果否则会影响结果坏值剔除用统计法进行坏值剔除的基本思想是：给定一显著性水平，并确定一门限值，凡超过这个门限

10、的误差就认为它不属于随机误差的范畴，而是粗差，并予以剔除.拉依达( )准则拉依达准则又被简称为拉依达准则又被简称为3 3 准则。由于随准则。由于随机误差服从正态分布规律，因此机误差服从正态分布规律，因此 p|p| | | 3 3 =99.7=99.7有限次测量误差超过有限次测量误差超过3 3 的几率很小，可的几率很小，可以剔除以剔除由于实际上由于实际上未知，如果未知，如果可以剔除，弃真几率很小可以剔除，弃真几率很小例某合金导线的电阻值测量次序电阻值/w测量次序电阻值/w测量次序电阻值/w140.42940.401740.42240.431040.431840.41340.381140.42

11、1940.39440.441240.432040.39540.461340.392140.30640.421440.362240.42740.401540.402340.43840.431640.432440.4324个测量值的均值为40.4124个测量值的标准差s0.03213s0.0963与平均值偏差最大的是21次测量结果40.30，偏差0.11，超过3s，坏值去掉该值后，均值40.41，s0.0225偏差最大（5，14）0.053s，有效肖维勒准则肖维勒认为，在肖维勒认为，在n n次测次测量中，某误差可能出现量中，某误差可能出现的次数小于半次时，则的次数小于半次时，则舍去这个误差值。舍去

12、这个误差值。误差等于或大于误差等于或大于出现出现的相对频数可近似地取的相对频数可近似地取为为1-p1-p 测量次数为测量次数为n n，误差等，误差等于或大于于或大于出现的次数出现的次数为为n( 1-pn( 1-p )0.5) s s，即可判断为粗，即可判断为粗差差chauvenet系数的数值表系数的数值表 n in in i34567891011121.381.531.651.731.801.861.921.962.002.03131415161718192021222.072.102.132.152.172.202.222.242.262.282324253040507510020050

13、02.302.312.332.392.492.582.712.813.023.20grubbs准则格拉布斯格拉布斯(f(fe egrubbs)grubbs)准则同样适用于准则同样适用于对同一参数进行重复测量得到的一列测量数对同一参数进行重复测量得到的一列测量数据的处理。据的处理。这个准则经蒙持卡罗法考验后，认为是最有这个准则经蒙持卡罗法考验后，认为是最有效的判别方法。效的判别方法。同上，当同上，当时则认为时则认为x xi i是含有粗是含有粗值的坏值，应予剔除值的坏值，应予剔除grubbs系数数值表n n n 0.010.050.010.050.010.05345678910111.151.

14、491.751.912.102.222.322.412.481.151.461.671.821.912.032.112.182.241213141516171819202.552.612.662.702.742.782.822.852.882.292.332.372.412.412.472.502.532.562122232425303540502.912.942.952.993.013.103.183.213.342.582.602.622.642.662.742.812.872.96t检验法该准则又可称为罗曼诺夫准则。当测量次数较小时，按t分布的实际误差分布范围来判断粗大误差较为合理。t检

15、验准则的原则是：首先剔除一个与均值偏离最大的数据，然后对剩余的数据进行统计计算，以判定该次剔除是否合理，即判定已被剔除的那个数据是否含有粗大误差。在剔除某一数据在剔除某一数据x xi i后，重新计算均值和方差，后，重新计算均值和方差，如果时，剔除坏值如果时，剔除坏值x xi i其中其中t t为为t t分布，自由度分布，自由度f=n-2f=n-2dixon 准则狄克松狄克松(dixon)(dixon)准则采用了极差比的方法，不必求方差。准则采用了极差比的方法，不必求方差。对于某一等精度重复测量，按测量值的大小排列为对于某一等精度重复测量，按测量值的大小排列为 x x1 1x x2 2x xn

16、 n 如果上述测量值中有含有粗大误差的测量数据，首先值得怀疑的是如果上述测量值中有含有粗大误差的测量数据，首先值得怀疑的是x x1 1、x xn n。狄克松首先定义了一个与狄克松首先定义了一个与x x1 1，x xn n和、和、n n有关的极差比统计量有关的极差比统计量f(ff(f的计算公的计算公式见表式见表) )，如果，如果 f f临界值临界值f(a,n)f(a,n) 则认为在显著性水平下，则认为在显著性水平下， x x1 1、x xn n含有粗大误差，应予以剔除。含有粗大误差，应予以剔除。狄克松准则一次能判别两个数据狄克松准则一次能判别两个数据x x1 1，x xn n ，如果这两个数

17、据都不含粗大，如果这两个数据都不含粗大误差，判断结束。误差，判断结束。如果这两个数据中有含粗大误差的数据，则予以剔除。剔除后的数据如果这两个数据中有含粗大误差的数据，则予以剔除。剔除后的数据列当做新的数据列，重新进行判断列当做新的数据列，重新进行判断实验结果的表示测量结果最常用的表示方式是均值和标准偏差。前测量结果最常用的表示方式是均值和标准偏差。前者表征测试量的大小，后者表征测试的精密度。者表征测试量的大小，后者表征测试的精密度。与之有关的是有效位的取舍与之有关的是有效位的取舍. . 所谓有效位是指某种所谓有效位是指某种测量所达到的精度测量所达到的精度. . 如下列测试值：如下列测试值：1

18、0.09,10.11,10.09,10.1010.09,10.11,10.09,10.10和和10.1210.12，其均值为，其均值为10.10210.102，标准偏差为，标准偏差为0.0130.0.0130.但测试值仅准确到小但测试值仅准确到小数点后面第一位，而第二位为可疑位，故结果的表数点后面第一位，而第二位为可疑位，故结果的表示为：示为：二、置信度与置信区间设一未知参数设一未知参数x(x(例如材料的硬度例如材料的硬度), ),虽然其精确值未虽然其精确值未知，但是可由若干试验值（样本）估计它在某个知，但是可由若干试验值（样本）估计它在某个范围内。如果有区间范围内。如果有区间xx1 1,x,

19、x2 2 ，对于给定值，对于给定值mm（0 0 m1m1），），x x值在值在x x1 1-x-x2 2之间出现的概率满足之间出现的概率满足p (xp (x1 1xxxx2 2)=m)=m则称随机区间则称随机区间xx1 1,x,x2 2 是是x x的的100m0m%置信区间，置信区间，x x1 1是置信下限，是置信下限，x x2 2是置信上限，百分数是置信上限，百分数100m0m%称为称为置信度。置信度。置信区间举例假如真值为假如真值为xoxo，拟合出参数的值，拟合出参数的值x xx, x, 意味着意味着在某个概率下在某个概率下, ,多次测量的多次测量的x x估计值估计值( (近似

20、等于近似等于xo)xo)可以落在以上范围内。可以落在以上范围内。如果估计值如果估计值x x服从正态分布服从正态分布,x,x在某范围在某范围( (如如xx1 1,x,x2 2 区间区间) )选值的概率等于高斯概率密度曲线下选值的概率等于高斯概率密度曲线下x x1 1到到x x2 2的面积。若采用标准误差的面积。若采用标准误差和测量值和测量值x x来表示测得来表示测得的真值的真值xoxo范围范围, ,则则 p(xp(x - xo x- xo x )0.68 )0.68 p(xp(x -2 xo x-2 xo x 2)0.95 2)0.95 p(xp(x -3 xo x-3 xo x 3)

21、0.9974 3)0.9974显然，区间越宽，置信度越高。显然，区间越宽，置信度越高。三、不同分布的区间估计1. 对于正态分布样本，可以用若干样本平均值估计总体平均值举例例二如果方差未知，可以用样本方差s作为总体方差的近似值，样本均值与整体均值之间服从t分布。例3钢中钢中crcr含量的含量的5 5次测次测定结果定结果(%)(%)为为1.121.12，1.151.15，1.111.11，1.161.16，1.121.12。根据。根据这批数据估计这批数据估计crcr的的含量范围含量范围(90%)(90%)。1.10,1.161.10,1.16normfitmumu估计值估计值, sigma, si

22、gma估计值估计值, mu, mu区间区间, sigma, sigma区间区间 = normfit(x,alpha) = normfit(x,alpha) 对给定数据对给定数据x x，在置信度，在置信度100(1- 100(1- ) )条件下给出正态分布参数的无偏估计条件下给出正态分布参数的无偏估计该函数输入变量最多该函数输入变量最多2 2个，第个，第2 2参数参数的的缺省值缺省值= = 0.05 0.05 对应于置信度对应于置信度90�%（双边）或（双边）或95�%（单边）。（单边）。函数的输出值最多可以有函数的输出值最多可以有4 4个，可以选择前个，可以选择前1 14 4个个作

23、为输出结果。作为输出结果。 2. 0-1分布参数的估计举例binofitbinofit 对二项分布数据参数和置信区间估计binofit(x,n) 对于给定数据 x返回取1的几率 phat, pci = binofit(x,n,alpha) 给出极大似然估计值和100(1-) % 置信区间缺省值 = 0.05 对应于90�%置信区间（双边）（双边）或或95�%（单边）。（单边）。3.契比雪夫不等式变量之间的关系分为两类。一类是确定性关系，变量之间的关系分为两类。一类是确定性关系，如函数关系。另一类是非确定性关系。当自变量如函数关系。另一类是非确定性关系。当自变量x x确定以后，因变

24、量确定以后，因变量y y并不确定，而是符合一定分布并不确定，而是符合一定分布的随机变量。二者的关系可以表示为的随机变量。二者的关系可以表示为y=f(x) y=f(x) , ,随机项随机项 n(0,1)n(0,1)，f(x)f(x)是确定函数，称为回归函数。是确定函数，称为回归函数。回归分析的任务一是根据经验公式、散点图等确回归分析的任务一是根据经验公式、散点图等确定回归函数；还要检验回归函数是否合理；回归定回归函数；还要检验回归函数是否合理；回归的目的是用的目的是用f(x)f(x)预测和决策。预测和决策。如果通过试验得到了一组样本观察值（试验值），自然希望利用这组数据来估计总体参数的值，在统

25、计学上称为点估计问题。例如歌手大奖赛评分方法，去掉若干最高最低，然后求平均值，估价歌手的水平。参数估计的方法估计值的求法有很多，如估计值的求法有很多，如常用的数字特征法，用样本的数字特征，如平均常用的数字特征法，用样本的数字特征，如平均值、方差等估计总体的数字特征。值、方差等估计总体的数字特征。顺序统计量法是一种简便方法，将样本按大小顺顺序统计量法是一种简便方法，将样本按大小顺序排列，取居中的一个或几个数的平均值作为总序排列，取居中的一个或几个数的平均值作为总体均值的估计值、用最大值与最小值的差值估计体均值的估计值、用最大值与最小值的差值估计数据的离散程度。数据的离散程度。最小二乘法和最大似然

26、法是求出未知参数值的有最小二乘法和最大似然法是求出未知参数值的有效的方法。效的方法。2.2 最小二乘法在实验数据处理中，常常需要从一组测定的数据（xi,yi）去求自变量x和因变量y的近似函数关系式y=f(x)。从图形上看,就是由给定的n个点（xi,yi）（i=1,2,n）求曲线拟合的问题。实际上实验中所得到的数据总是有测试误差的,因此并不要求曲线通过所有的点。最小二乘法原理曲线拟合是要求画出一条近似曲线,尽可能从给定点的附近通过，能反映给定数据的一般趋势,但是尽量不出现局部波动。最小二乘法是参数估计的一种方法，可用来求这样的近似曲线。对于含有观测误差的数据来说，这样的处理可以部分抵消数据中

27、含有的观测误差。最小二乘法误差选取1.直线拟合(线性回归) 如如果果由由试试验验得得到到的的一一组组数数据据(x(xi i,y,yi i) )在在平平面面x-yx-y上上画画出出的的曲曲线线与与直直线线差差不不多多，就就可可以以用用直直线线y=a bxy=a bx去去拟合。问题就变为选择适当的参数拟合。问题就变为选择适当的参数a a和和b b，使得，使得取得最小值取得最小值。直线拟合算法2.代数多项式拟合(回归) 代数多项式拟合算法多项式次数从这个方程组可以求出系数aj即可得到所要求的m次多项式曲线方程。当m值较大时，以上方程的系数行列式将减小，使方程组出现病态，因而一般多项式拟合最高次数只

28、取到m=4-5。3.线性模型的推广curve fit toolbox利用曲线拟合工具箱可以对数据进行各种函数形式的拟合，如多项式拟合、指数函数拟合、高斯拟合等在命令窗口利用函数a=polyfit(x,y,n)返回n次多项式的系数；matlab矩阵除法利用矩阵除法可求解超定、欠定方程。利用矩阵除法可求解超定、欠定方程。矩阵除法可以实现特殊形式的回归矩阵除法可以实现特殊形式的回归例如，求一形如例如，求一形如y=a bxy=a bx2 2的经验公式中的系数的经验公式中的系数例如已知例如已知x,yx,y的的5 5个值，个值，令令x1=ones(5,1),(x.2)x1=ones(5,1),(x.2)

29、； ab=x1yab=x1y即可得到系数即可得到系数a,ba,b4 多元线性拟合最小二乘法可以推广到二元、甚至多元线性拟合。最小二乘法可以推广到二元、甚至多元线性拟合。设因变量为设因变量为y y，两个自变量分别为，两个自变量分别为x x1 1和和x x2 2，假设已，假设已通过试验测得一系列数据为通过试验测得一系列数据为(y(yi i,x,x1i1i,x,x2i2i), ), i=1,2,3ni=1,2,3n则二元线性回归方程可表示为则二元线性回归方程可表示为y ya ba b1 1x x1 1 b b2 2x x2 2式中式中a a为常数项为常数项,b,b1 1和和b b2 2分别为分别为y

30、 y对对x x1 1和和x x2 2的偏回归的偏回归系数。系数。残差平方和残差平方和根据最小二乘法的原理，令残差平方和最小，可求得这些根据最小二乘法的原理，令残差平方和最小，可求得这些参数。对相关参数求导数，得参数。对相关参数求导数，得方程组的简化形式regress函数利用统计工具箱命令利用统计工具箱命令regressregress实现多元线性回归实现多元线性回归调用格式为调用格式为b=regress(y,x) b=regress(y,x) 或或 b,bint,r,rint,stats = b,bint,r,rint,stats = regess(y,x,alpha)regess(y,x,al

31、pha)，alphaalpha为显著性水平为显著性水平( (缺省时设定为缺省时设定为0.05)0.05)输出向量输出向量b b，bintbint为回归系数估计值和它们的置信区间，为回归系数估计值和它们的置信区间，r r，rintrint为残差及其置信区间为残差及其置信区间statsstats是用于检验回归模型的统计量，有三个数值，第一个是用于检验回归模型的统计量，有三个数值，第一个是是r r2 2，其中，其中r r是相关系数，第二个是是相关系数，第二个是f f统计量值，第三个是统计量值，第三个是与统计量与统计量f f对应的概率对应的概率p p，当，当pp1010倍自变量）高精度的数据；倍自变量

32、）高精度的数据；预分析：根据专业知识和经验确定自变量的高次项及交叉预分析：根据专业知识和经验确定自变量的高次项及交叉乘积是否进入模型，是否需要数据转换，检验全变量线性乘积是否进入模型，是否需要数据转换，检验全变量线性关系是否显著，利用残差分析等手段考察误差分布的正态关系是否显著，利用残差分析等手段考察误差分布的正态性、等方差性假定是否合理？性、等方差性假定是否合理？确定回归关系形式后，选择影响显著的变量，确定最优回确定回归关系形式后，选择影响显著的变量，确定最优回归方程归方程2.3 假设检验假设检验是统计推断的另一类重要问题，它是根假设检验是统计推断的另一类重要问题，它是根据样本的信息来判断一

33、组数据是否在某个精度范据样本的信息来判断一组数据是否在某个精度范围内与理论公式一致围内与理论公式一致, , 或判断总体分布是否具有或判断总体分布是否具有指定特征。指定特征。假设检验包括参数检验和分布检验。假设检验包括参数检验和分布检验。参数检验是在假设是正确的情况下，计算得到拟参数检验是在假设是正确的情况下，计算得到拟合参数的几率。如果该几率较大，则接受假设，合参数的几率。如果该几率较大，则接受假设，反之则放弃假设。实际工作中一般采用分布假设。反之则放弃假设。实际工作中一般采用分布假设。1. 分布律的检验分布律检验的原理是pearson平方和准则假设n个样本来自分布为f(x)的总体；将实数域分

34、成k个区间，若样本落在第i个区间的次数为mi,而根据分布律计算得到的概率为pi分布律检验选取统计量式中r为需要估计的参数个数根据样本观察值计算统计量的值查表得临界值如果一般可以接受这种分布假设，反之拒绝假设2.均值估计均值估计示例u检验法（）ztest 样本均值与一常数进行比较h,p,ci,zval = ztest(x,m,sigma,alpha,tail)h=0接受原假设，h=1拒绝原假设m均值，tail=0,1,-1对应于备选假设为不等于、大于和小于mt检验法（方差未知）ttest: ttest: 样本均值与一常数进行比较样本均值与一常数进行比较matlabmatlab函数用法与函数用法

35、与ztestztest相似相似h,p,ci,stats = ttest(x,m,alpha,tail) h,p,ci,stats = ttest(x,m,alpha,tail) 判断来自判断来自于正态分布的于正态分布的x x均值是否为均值是否为m.m.缺省值缺省值m = 0, m = 0, = 0.05 = 0.05 ，tail = 0tail = 0原假设原假设: : 均值均值mm对于对于tail=0, tail=0, 备选假设备选假设: : 均值均值不等于不等于m.m.对于对于tail=1, tail=1, 备选假设备选假设: : 均值均值大于大于mm对于对于tail=-1,tail=

36、-1,备选假设备选假设: : 均值均值小于小于mm3.以误差判断拟合质量 4.回归分析回归（拟合）可以由最小二乘法实现，回归（拟合）可以由最小二乘法实现，matlab matlab polyfitpolyfit回归方程的质量常用相关系数和回归方程的质量常用相关系数和f f检验作为评估指检验作为评估指标。标。相关系数用如下公式计算相关系数用如下公式计算相关系数用以描述两个变量线性相关的密切程度。相关系数用以描述两个变量线性相关的密切程度。绝大部分绝大部分r r值在值在0-10-1之间。之间。相关系数与样品个数相关系数与样品的相关系数与样品的抽样个数有关。抽样个数有关。对于一定观察次数对于一定

37、观察次数n n，相关系数必须大，相关系数必须大于一定值所拟合的于一定值所拟合的直线才有意义，此直线才有意义，此时我们称二者显著时我们称二者显著相关相关。观察次数n临界值=5%=10.9971.00050.8780.957100.6320.765200.4440.561300.3610.463500.2730.3541000.1950.2542000.1380.1814000.0980.12810000.0620.081可以证明，当可以证明，当x yx y均服从正态分布，当二者无关时，均服从正态分布，当二者无关时，统计量统计量给定显著性水平给定显著性水平，可查表求得临界值，可查表求得临

38、界值t t (n-2)(n-2)若计算的统计量若计算的统计量t t t t (n-2)(n-2)，则可以认为，则可以认为x yx y二者二者显著相关，相关系数有效。显著相关，相关系数有效。否则可认为否则可认为x yx y二者无关。二者无关。f检验复相关系数对于多元线性回归，采用复相关系数。复相关系数的意义r反映了变量y与多个变量xi(i=1,2,3)之间的线性相关程度。r=0表示x,y之间无关，r=1表示x,y二者严格线性相关。r越大，线性回归效果越好。回归方程变量个数复相关系数是总回归效果的一个重要指标，但是r与回归方程中自变量个数k以及试验次数n有关。当n值相对于k不是很大时，常有较大的

39、r。特别是当n=k 1时，即使k个自变量与y无关，也必然有r=1（q=0），因此在实际计算当中必须注意k与n的相对比例。根据经验，n应该比k大4-5以上。复相关系数的临界值统计量w服从f分布f（k,n-k-1)可根据置信度大小在f表中查出相应的临界值。当计算的f值大于临界值则认为回归效果显著。偏相关系数偏相关系数表征单个因素对因变量的作用大小。偏相关系数表征单个因素对因变量的作用大小。偏相关系数也可以用普通相关系数公式计算，偏相关系数也可以用普通相关系数公式计算，即即r ri i越大，说明越大，说明y y对对x xi i的依赖越显著，这时不可将的依赖越显著，这时不可将该因素剔除。该因素剔除

40、。偏相关系数的临界值常用如下统计量来衡量该因素的显著性给定置信度，可以根据t分布表，查出临界值t,当计算值w的绝对值大于临界值t，则认为xj对y产生显著影响，不可忽视。 matlab实现相关系数r=corrcoef(x,y), 式中 x 和 y 列向量, 等价于 r=corrcoef(x y).单个回归系数的显著性利用统计量利用统计量式中分子分别为对第式中分子分别为对第k k个变量回归系数的估计值和系数值，个变量回归系数的估计值和系数值，分母分母s s是系数的标准差的估计是系数的标准差的估计, ,t检验法单个回归系数的显著性在在 k k0 0时，时，|t |tk k| |不应过分偏大。反之，

41、若不应过分偏大。反之，若则可以认为在置信度（则可以认为在置信度（1 1 ）条件下）条件下x xk k对结果有显著作用对结果有显著作用单个回归系数的显著性或选取统计量或选取统计量a akkkk是是(xx)(xx)1 1的主对角线上第的主对角线上第k k个元素个元素f fk k不应过分偏大。反之，若不应过分偏大。反之，若则可以认为在置信度（则可以认为在置信度（1 1 ）条件下）条件下x xk k对结果有显著作用对结果有显著作用5 方差分析试验过程中经常需要分析各种方法、参数对实验结果的影响方差分析是鉴别各个因素效应的一种统计方法20年代英国统计学家r a fisher首先应用到农业试验中。如果试验

42、时只有一个因素在变化，其它可控制的因素都不变，称单因素试验若变化的因素多于一个，称为双因素或多因素试验单因素分析模型在同一水平在同一水平a ai i下独立观察下独立观察n ni i次，因变量的观察值服从正态次，因变量的观察值服从正态分布；分布；不同水平的观察值来自于不同的正态总体；不同水平的观察值来自于不同的正态总体；除除a a的水平变化外，尽量控制替他条件相同，即假定各正的水平变化外，尽量控制替他条件相同，即假定各正态总体具有相同的方差，因素的影响只局限在均值的差异态总体具有相同的方差，因素的影响只局限在均值的差异单因素方差分析将试验的变异因素将试验的变异因素a a分成分成r r个水平，对每

43、一个个水平，对每一个水平进行重复试验，列出试验结果水平进行重复试验，列出试验结果水平水平试验结果试验结果行均行均1x11x12x1n1x12x21x22x2n2x2rxr1xr2xrnrxr 是i 的良好估计值，se反映了随机误差ij的影响；称为误差平方和；sa反映了i (i=1,2,r)之间的差异程度，反映了各水平效应对观测量的影响；称为因素的平方和选取统计量如果统计量f临界值f,该因素没有显著作用，反之作用显著。举例某学期本课程三个班成绩情况某学期本课程三个班成绩情况1班班2班班3班班均值均值74.73553.00057.000标准差标准差s12.37017.8479.293人数人数24

44、2439se，sa计算总平均总平均（74.37524 5324 573974.37524 5324 5739）/(24 24 39)=6/(24 24 39)=60.6900.690sa=24*(74.375-60.690)2 24*(53-sa=24*(74.375-60.690)2 24*(53-60.690)2 39*(57-60.690)2=644560.690)2 39*(57-60.690)2=6445se= 23*12.3702 23*17.8472 se= 23*12.3702 23*17.8472 38*9.2932=14126.9238*9.2932=14126.92f

45、=(6445/2)/(14126.92/84)=19.16f=(6445/2)/(14126.92/84)=19.16查表取查表取 0.05,f(2,60)=3.150.05,f(2,60)=3.15查表取查表取 0.01,f(2,60)=4.980.01,f(2,60)=4.98可见三个班的考试成绩有非常显著差别可见三个班的考试成绩有非常显著差别例2某学期某学期4 4个班个班9797人材料科学基础人材料科学基础b b成绩成绩均值均值66.4226866.422681 1班：班：76.43876.438，8.813,328.813,32人；人；2 2班：班：46.28046.280，14.84

46、5, 2514.845, 25人；人；3 3班：班：75.60075.600，9.170, 259.170, 25人；人；4 4班：班：63.33363.333，10.175, 1510.175, 15人人sa=15601.42sa=15601.42st=26765.67st=26765.67se=se=11164.2511164.25查表取查表取 0.01,f(3,60)=4.130.01,f(3,60)=4.13f=(15601.42/3)/(11164.25/93)= 43.32f=(15601.42/3)/(11164.25/93)= 43.32可见可见4 4个班的考试成绩有非常显著差

47、别个班的考试成绩有非常显著差别例3 2011材料基础a成绩双因素方差分析进行双因素分析的目的是要检验两个因素对实验结果有无影响如果不考虑两因素的相互作用,对每一因素的每一水平可以只取一个数据,即没有重复;如果考虑两因素的相互作用,可以进行不等重复试验无重复试验选取统计量如果统计量fa，或fb临界值f,该因素没有显著作用，反之作用显著。重复试验如果要考虑a，b两因素是否存在交互作用，需要对两因素、各种的水平组合进行重复试验设每一个组合均重复m次，如果不等重复，用均值补齐以便于计算n=rsm记xijk是ai、bj组合的第k次试验显著性检验选取统计量选取统计量如果统计量如果统计量f fa a，f

48、fb b或或f faxbaxb 临界值临界值f f , ,该因素没有该因素没有显著显著( (交互交互) )作用，反之作用显著。作用，反之作用显著。虽然两个因素、以及交互作用是同时讨论的，但虽然两个因素、以及交互作用是同时讨论的，但是他们的地位不同是他们的地位不同具体应用中，应首先检验有无交互作用，具体应用中，应首先检验有无交互作用，若无交互作用，然后检验若无交互作用，然后检验a a、b b的效应显著性的效应显著性若存在交互作用，单独考虑若存在交互作用，单独考虑a a、b b各水平值的差异各水平值的差异已经没有意义，可通过比较因素各水平的组合上已经没有意义，可通过比较因素各水平的组合上的均值来

49、了解其差异的均值来了解其差异2.4 函数的插值在试验中测得的是一些离散点处的函数值，要想在试验中测得的是一些离散点处的函数值，要想获得任意一点的函数值，可以采用插值的方法。获得任意一点的函数值，可以采用插值的方法。1.1.线性插值线性插值假设，假设，线性插值公式为线性插值公式为当当x-xx-xi i较小时，这种方法是很常用的，但是这种较小时，这种方法是很常用的，但是这种方法误差较大。方法误差较大。2.langrange插值多项式已知已知n 1n 1个互不相同的点个互不相同的点x xi i上函数依次取值上函数依次取值y yi i, ,对于对于插值区域内任意一点插值区域内任意一点x x，可以

50、用拉格朗日多项式，可以用拉格朗日多项式ln(x)ln(x)计算函数值计算函数值langrangelangrange插值多项式次数为插值多项式次数为n n，通过，通过n 1n 1个（个（x xi i,y,yi i）点。当选择的插值多项式次数太高时，计算量）点。当选择的插值多项式次数太高时，计算量较大，效果也不理想。一般采用三点抛物线插值。较大，效果也不理想。一般采用三点抛物线插值。3.样条插值机械样条（曲线板）是绘图员用来画光滑曲线的机械样条（曲线板）是绘图员用来画光滑曲线的一种工具。样条函数有近似于机械样条的性质，一种工具。样条函数有近似于机械样条的性质，它在连接点处不仅函数连续，而且一阶导数

51、、二它在连接点处不仅函数连续，而且一阶导数、二阶导数也连续。阶导数也连续。在实际应用中广泛使用的是三次样条函数。在实际应用中广泛使用的是三次样条函数。一般来说，一个区间对应的插值多项式与其他区一般来说，一个区间对应的插值多项式与其他区域是不同的。根据区间边界处函数值连续、导数域是不同的。根据区间边界处函数值连续、导数值连续的条件，可以得到一个方程组，从而确定值连续的条件，可以得到一个方程组，从而确定各区间的插值函数。各区间的插值函数。matlab实现y1=lagrange(x,y,x1)yi=interp1(x,y,xi),分段插值yi=interp1(x,y,xi，spline),三次样条插值举例x=0:0.1:10;x=0:0.1:10;y=sin(x);y=sin(x);x1=0:0.25:10;x1=0:0.25:10;y1=interp1(x,y,x1)y1=interp1(x,y,x1); ; plot(x,y,o,x1,y1) plot(x,y,o,x1,y1)

展开阅读全文

大物实验之实验数据的处理－金锄头文库-凯发k8网页登录

最新文档