注册 登录  
 加关注
   显示下一条  |  关闭
温馨提示!由于新浪微博认证机制调整,您的新浪微博帐号绑定已过期,请重新绑定!立即重新绑定新浪微博》  |  关闭

淘尽网 官方博客

淘尽网http://www.tao3w.com做最好的比价网站

 
 
 

日志

 
 
关于我

淘尽网 http://www.tao3w.com 做最好的比价网站,做最好的数据抓取专家。

网易考拉推荐

标准误差standard error,均方根误差中误差(RMSE,root mean squared error)  

2012-09-12 16:14:32|  分类: 推荐系统 |  标签: |举报 |字号 订阅

  下载LOFTER 我的照片书  |
标准差( Deviation) 标准差(Standard Deviation) ,也称均方差(mean square error),是各数据偏离平均数的距离的平均数,它是离均差平 方和平均后的方根,用σ表示。标准差是方差的算术平方根。标 准差能反映一个数据集的离散程度 能反映一个数据集的离散程度。平均数相同的,标准差未必 能反映一个数据集的离散程度 相同。 简介 标准差也被称为标准偏差,或者实验标准差,公式如图。 简单来说,标准差是一组数据平均值分散程度的一种度量。一个 一个 较大的标准差, 较大的标准差,代表大部分数值和其平均值之间差异较大;一个 一个 较小的标准差, 较小的标准差,代表这些数值较接近平均值。 例如,两组数的集合 {0, 5, 9, 14} 和 {5, 6, 8, 9} 其 平均值都是 7 ,但第二个集合具有较小的标准差。 标准差

可以当作不确定性的一种测量。例如在物理科学中,做重复性测 量时,测量数值集合的标准差代表这些测量的精确度。当要决定 标准差代表这些测量的精确度 当要决定 标准差代表这些测量的精确度 测量值是否符合预测值, 测量值是否符合预测值,测量值的标准差占有决定性重要角色: 如果测量平均值与预测值相差太远 (同时与标准差数值做比较) , 则认为测量值与预测值互相矛盾。这很容易理解,因为如果测量 值都落在一定数值范围之外,可以合理推论预测值是否正确。 标准差应用于投资上,可作为量度回报稳定性的指标。标准差数 值越大, 代表回报远离过去平均数值, 回报较不稳定故风险越高。 相反,标准差数值越细,代表回报较为稳定,风险亦较小。

例如,A、B 两组各有 6 位学生参加同一次语文测验,A 组的 分数为 95、85、75、65、55、45,B 组的分数为 73、72、71、 69、68、67。这两组的平均数都是 70,但 A 组的标准差为 17.07 分,B 组的标准差为 2.37 分(此数据时在 R 统计软件中运行获 得)说明 A 组学生之间的差距要比 B 组学生之间的差距大得多。 , 如是总体,标准差公式根号内除以 如是总体,标准差公式根号内除以 n 式根号内除以(n-1) 遍使用根号内除以 (n-1) 如是样本,标准差公

因为我们大量接触的是样本,所以普 公式意义 所有数减去其平均

值的平方和,所得结果除以该组数之个数(或个数减一),再把 所得值开根号,所得之数就是这组数据的标准差。 标准差的意义 标准差越高,表示实验数据越离散,也就是说越不精确 反之,标准差越低,代表实验的数据越精确 离散度 标准差是反应一组数据离散程度最常用的一种量化形式, 是 标准差 表示精密确的最要指标。 说起标准差首先得搞清楚它出现的目的。 我们使用方法去检测它,但检测方法总是有误差的,所以检测值 并不是其真实值。 检测值与真实值之间的差距就是评价检测方法 检测值与真实值之间的差距 最有决定性的指标。但是真实值是多少,不得而知。因此怎样量 因此怎样量

化检测方法的准确性就成了难题。这也是临床工作质控的目的: 化检测方法的准确性就成了难题 保证每批实验结果的准确可靠。 虽然样本的真实值是不可能知道的, 但是每个样本总是会有 一个真实值的,不管它究竟是多少。可以想象,一个好的检测方 法,基检测值应该很紧密的分散在真实值周围。如何不紧密,那 距真实值的就会大,准确性当然也就不好了,不可能想象离散度 大的方法,会测出准确的结果。因此,离散度是评价方法的好坏 的最重要也是最基本的指标。 一组数据怎样去评价和量化它的离散度呢人们使用了很多 种方法: 极差 最直接也是最简单的方法, 即最大值-最小值 (也就是极差) 来评价一组数据的离散度。这一方法在日常生活中最为常见,比 如比赛中去掉最高最低分就是极差的具体应用。 离均差的平方和 由于误差的不可控性, 因此只由两个数据来评判一组数据是 不科学的。 所以人们在要求更高的领域不使用极差来评判。 其实, 离散度就是数据偏离平均值的程度。因此将数据与均值之差(我 离散度 们叫它离均差)加起来就能反映出一个准确的离散程度。和越大 离散度也就越大。 但是由于偶然误差是成正态分布的,离

均差有正有负,对于大样本离均差的代数和为零的。为了避免正 负问题,在数学有上有两种方法:一种是取绝对值,也就是常说 的离均差绝对值之和。而为了避免符号问题,数学上最常用的是 另一种方法--平方,这样就都成了非负数。因此,离均差的平 方和成了评价离散度一个指标。 方差(S2) 方差(S2) 由于离均差的平方和与样本个数有关, 只能反应相同样本的 离散度,而实际工作中做比较很难做到相同的样本,因此为了消 除样本个数的影响,增加可比性,将标准差求平均值,这就是我 们所说的方差成了评价离散度的较好指标。 样本量越大越

能反映真实的情况,而算数均值却完全忽略了这个问题,对此统 计学上早有考虑, 在统计学中样本的均差多是除以自由度 (n-1), 它是意思是样本能自由选择的程度。当选到只剩一个时,它不可 能再有自由了,所以自由度是 n-1。 标准差(SD) 标准差(SD) 由于方差是数据的平方,与检测值本身相差太大,人们难以 直观的衡量, 所以常用方差开根号换算回来这就是我们要说的标 准差。

在统计学中样本的均差多是除以自由度(n-1),它是意思 是样本能自由选择的程度。当选到只剩一个时,它不可能再有自 由了,所以自由度是 n-1。 变异系数(CV) 变异系数(CV) 标准差能很客观准确的反映一组数据的离散程度, 但是对于 不同的检目,或同一项目不同的样本,标准差就缺乏可比性了, 因此对于方法学评价来说又引入了变异系数 CV。 标准差与平均值之间的关系 一组数据的平均值及标准差常常同时做为参考的依据。 在直 觉上,如果数值的中心以平均值来考虑,则标准差为统计分布之 一“自然”的测量。 标准差公式 1、方差 s^2=[(x1-x)^2+(x2-x)^2+......(xn-x)^2]/n 2、标准差=方差的算术平方根 几何学解释 从几何学的角度出发,标准差可以理解为一个从 n 维空间 的一个点到一条直线的距离的函数。举一个简单的例子,一组数 据中有 3 个值,X1,X2,X3。它们可以在 3 维空间中确定一个点 P 定义公式: 定义公式:

= (X1,X2,X3)。想像一条通过原点的直线 。如果这组数据中的 3 个值都相等,则点 P 就是直线 L 上的一个点,P 到 L 的距 离为 0, 所以标准差也为 0。若这 3 个值不都相等,过点 P 作垂 线 PR 垂直于 L,PR 交 L 于点 R,则 R 的坐标为这 3 个值的 平均数: 运用一些代数知识,不难发现点 P 与点 R 之间

的距离(也就是点 P 到直线 L 的距离)是。在 n 维空间中,这 个规律同样适用,把 3 换成 n 就可以了。 标准差与标准误的区别 标准差与标准误都是心理统计学的内容, 两者不但在字面上 比较相近, 而且两者都是表示距离某一个标准值或中间值的离散 程度,即都表示变异程度,但是两者是有着较大的区别的。 首先要从统计抽样的方面说起。现实生活或者调查研究中,我们 常常无法对某类欲进行调查的目标群体的所有成员都加以施测, 而只能够在所有成员(即样本)中抽取一些成员出来进行调查, 然后利用统计原理和方法对所得数据进行分析, 分析出来的数据 结果就是样本的结果,然后用样本结果推断总体的情况。一个总 体可以抽取出多个样本,所抽取的样本越多,其样本均值就越接 近总体数据的平均值。 标准差( STD) 标准差(standard deviation, STD)

表示的就是样本数据的离散程度。 标准差就是样本平均数方 差的开平方,标准差通常是相对于样本数据的平均值而定的,通 标准差通常是相对于样本数据的平均值而定的, 标准差通常是相对于样本数据的平均值而定的 来表示, 常用 M±SD 来表示 表示样本某个数据观察值相距平均值有多远。 从这里可以看到,标准差收到极值的影响。标准差越小,表明数 据越聚集;标准差越大,表明数据越离散。标准差的大小因测验 而定,如果一个测验是学术测验,标准差大,表示学生分数的离 散程度大,更能够测量出学生的学业水平;如果一个侧样测量的 是某种心理品质,标准差小,表明所编写的题目是同质的,这时 候的标准差小的更好。标准差与正态分布有密切联系:在正态分 标准差与正态分布有密切联系: 标准差与正态分布有密切联系 布中,1 个标准差等于正态分布下曲线的 68.26%的面积,1.96 个标准差等于 95%的面积。这在测验分数等值上有重要作用。 标准误( 标准误(standard error, SE) 表示的是抽样的误差。 因为从一个总体中可以抽取出无多个 样本,每一个样本的数据都是对总体的数据的估计。标准误代表 的就是当前的样本对总体数据的估计, 标准误代表的就是样本均 数与总体均数的相对误差。 标准误是由样本的标准差除以样本个 标准差除以样本个 标准差除以样本 数的开平方来计算的。从这里可以看到,标准误更大的是受到样 数的开平方 本个数的影响。样本个数越大,标准误越小,那么抽样误差就越 小,就表明所抽取的样本能够较好地代表样本。 Excel 函数

关于这个函数在 EXCEL 中的 STDEVP 函数有详细描述, EXCEL 中文版里面就是用的“标准偏差”字样。但我国的中文教材等通 常还是使用的是“标准差”。 在 EXCEL 中 STDEVP 函数是另

外一种标准差,也就是总体标准差。在繁体中文的一些地方可能 叫做“母体标准差” 在 R 统计软件中标准差的程序为:

sum((x-mean(x))^2)/(length(x)sum((x-mean(x))^2)/(length(x)-1) 外汇术语 标准差指统计上用于衡量一组数值中某一数值与其平均值 差异程度的指标。 标准差被用来评估价格可能的变化或波动程度。 标准差越大,价格波动的范围就越广,股票等金融工具表现的波 动就越大。 在 excel 中调用函数 “STDEV“ 估算

样本的标准偏差。 标准偏差反映相对于平均值 (mean) 的离散程 度。 样本标准差 在真实世界中,除非在某些特殊情况下,不然找到一个总体 的真实的标准差是不现实的。大多数情况下,总体标准差是通过 随机抽取一定量的样本并计算样本标准差估计的。

标准误差(又称均方根误差) 标准误差(又称均方根误差)

比值的平方根, 它是观测值与真值偏差的平方和观测次数 n 比值的平方根, 在实际测量中, 观测次数 n 总是有限的, 真值只能用最可信赖 (最 佳)值来代替. 标准误差对一组测量中的特大或特小误差反映非常敏感,所以, 标准误差能够很好地反映出测量的精密度 这正是标准误差在工 标准误差能够很好地反映出测量的精密度。 精密度 程测量中广泛被采用的原因。

在相同测量条件下进行的测量称为等精度测量, 例如在同样的条 件下,用同一个游标卡尺测量铜棒的直径若干次,这就是等精度 测量。对于等精度测量来说,还有一种更好的表示误差的方法, 就是标准误差。 标准误差定义为各测量值误差的平方和的平均值的平方根 故又 为各测量值误差的平方和的平均值的平方根, 为各测量值误差的平方和的平均值的平方根 称为均方误差。 设 n 个测量值的误差为ε1、ε2……εn,则这组测量值的标准 误差σ等于: (此处为一公式,显示不出来,你看下文字就可以知道这个公式 是什么样的。) 由于被测量的真值是未知数,各测量值的误差也都不知道,因此 不能按上式求得标准误差。 测量时能够得到的是算术平均值 , () 它最接近真值 (N) 而且也容易算出测量值和算术平均值之差, ,

称为残差(记为 v)。理论分析表明①可以用残差 v 表示有限次 (n 次)观测中的某一次测量结果的标准误差σ,其计算公式为 (此处为一公式,显示不出来,你看下文字就可以知道这个公式 是什么样的。) 对于一组等精度测量(n 次测量)数据的算水平均值,其误差应 该更小些。理论分析表明,它的算术平均值的标准误差。有的书 中或计算器上用符号 s 表示) 与一次测量值的标准误差σ之间的 关系是 (此处为一公式,显示不出来,你看下文字就可以知道这个公式 是什么样的。) 需要注意的是,标准误差不是测量值的实际误差,也不是误差范 不是测量值的实际误差, 不是测量值的实际误差 围,它只是对一组测量数据可靠性的估计。标准误差小,测量的 它只是对一组测量数据可靠性的估计。 可靠性的估计 可靠性大一些,反之,测量就不大可靠。进一步的分析表明,根 据偶然误差的高斯理论,当一组测量值的标准误差为σ时,则其 中的任何一个测量值的误差εi 有 68.3%的可能性是在(-σ, +σ)区间内。 世界上多数国家的物理实验和正式的科学实验报告都是用标准 误差评价数据的, 现在稍好一些的计算器都有计算标准误差的功 能,因此,了解标准误差是必要的。

就是在要求以内的,, 呵呵, 可以记为不算误差的范围

世界上多数国家的物理实验和正式的科学实验报告都是用标准 标准 误差评价数据的, 误差评价数据的 现在稍好一些的计算器都有计算标准误差的功 能,因此,了解标准误差是必要的。

标准差

是方差的平方根。它和观测值有相同的单位。是最常用的表示数 据分散程度的指标。对于正态分布的数据,它的用处尤大。样本 标准差 s 是对总体标准差σ的一种估计。s 的值可在有统计功能 的计算器上直接得出。计算 s 值的功能键常用表示。 测量误差按其性质可以分为系统误差、随机误差和粗大误差。 1、系统误差 系统误差是指在相同测量条件下,对同一被测几何量进行连续 多次测量时,误差的大小和符合均变,或按一定规律变化的测量

误差。前者称为定值系统误差,后者称为变值系统误差。例如, 使用千分尺测量零件时,千分尺零位调整不正确,对各次测量结 果的影响是相同的,因此所引起的测量误差属于定值系统误差。 又如,分度盘所引起的按正弦规律变化的测量误差,属于变值系 统误差。 根据系统误差的性质和变化规律,它可以用计算或实验对比的 方法确定,用修正值从测量结果中消除。但是在某些情况下,系 统误差的规律难于判定,因而无法消除。 2、随机误差 随机误差是指在相同测量条件下,连续多次测量同一被测几何 量时,误差的大小和符号以不可预定的方式变化的测量误差。所 谓不可预定是指单次测量中,误差的大小和符号无法预先知道。 但是连续多次进行测量,则误差的总体服从一定的统计规律。 由于随机误差是由测量过程中许多难以控制的偶然因素或不 稳定因素引起的,所以误差值时大时小,符号可正可负。因而这 类误差不能消除,只能设法减小它对测量结果的影响,并运用概 率论和数理统计方法,在一定的置信概率下估算它的分布范围。 从某种意义上说,测量精度的高低,并不取决于对测量误差的 估计, 而是取决于测量方法和测量条件的优劣。 要提高测量精度, 必须采用科学的测量方法和良好的测量条件。 3、粗大误差 粗大误差是指超出在规定测量条件条件下预计的测量误差,它

明显歪曲测量结果。含有粗大误差的测得值称为异常值,它的数 值比较大。粗大误差的产生由主观的原因,如测量人员疏忽造成 的读数不准确, 也有客观原因, 如外界突然振动。 在处理数据时, 必须从测量数据中按一定的准则剔除。 粗大误差常用拉依达准则。主要时用于测量次数较大,(一般 要求多于 10 次),服从正态分布的误差,该准则认为:某一测 量值的残余误差的绝对值大于 3 倍的随机误差标准偏差时, 则可 以认为该测量值属于粗大误差,应予剔除。

误差表示给出值与真值的差量。 误差所指的是一个实验的估计不准度。 给出值指测量值、标示值、标称值、矛置值、近似值等给出的非 真值。 真值是指在某一时刻和某一位置, 或某一状态某量的客观值或实 标值。 真值可以分下面几类: a 、理论真值

如平面三角形三个内角和为 1800;同一量自身之差为零;自身 之比为 1。等等。 b、计量学约定真值 如长度单位:米——1 米等于氪 86 原子的 2P10 和 5d 能级之间 跃迁的辐射在真空中波长的 1650763.73 倍。 时间单位:秒——1 秒是铯 133 原子基态的两个超精细能级之间 跃迁所对应的辐射的 9192631770 个周期的持续时间。 电流强度单位:安培——1 安培是一恒定电流,如果处在真空中 相距 1 米的两根无限长而圆截面可忽略的平行直导线, 所载电流 各保持 1 安培, 则这两导线间每单位长度的作用力为 2×10-7 牛 顿米。 温度单位:开尔文——开尔文是水的三相点热力学温度的 1/273.16。 c、标准器相对真值 高一级标准器的误差与低一级标准器或普通仪器的误差相比, 为 1/5(或者 1/8—1/10)时,则可以认为前者是后者的相对真值。 平均误差、相对误差、标准误差、可几误差。

平均误差:在一组测量中,测得值为 X1、X2······Xn , 其真值为 X。 则平均误差定义为:。 它反映测得值离真值的大小,故又称绝对误差,在多次测量中, 可用平均值代替真值。平均值: 。

相对误差:例如用一频率计测量准确值为 100 千赫的频率源、测 得值为 101 千赫,测量误差为 1 千赫,又用波长表测量一准确值 为 1 兆赫的标准频率源,测得值为 1,001 兆赫,其误差也为 1 千赫。上面两个测量,从误差的绝对量来说是一样的,但它们是 在不同频率点上作测量的,它们的准确度是不同的。为描述测量 的准确度而引入相对误差的概念。 定义:相对误差=误差÷真值, 一般用百分数表示。 我们在测量中经常使用电气仪表,电气仪表的准确度分为 0.1, 0.2,0.5,1.0,1.5,2.5 和 5.0 七级,若仪表为 S 级,则用该 仪表测量时绝对误差为: 绝对误差≤XS×S% XS 为满刻度值。 相对误差为≤

故当 X 越接近于 X 满时,其测量准确度越高,相对误差越小。这 就是人们利用这类仪表时, 尽可能在仪表满刻度 2/3 以上量程内 测量的原因。所以测量的准确度不仅决定于仪表的准确度,还决 定于量程的选择。 如用一 0.5 级、 量程为 0~300 伏的电压表和一 1.0 级量程为 0~100 伏的电压表测量一接近 100 伏的电压,问那个测量较为准确? 因为 可见量程选择恰当, 1.0 级表进行测量也会得到比用 0.5 级表, 用 而量程选择不当时更为准确的结果。 标准误差:也称为方根误差。 标准误差,定义为: 在有限次测量中常用表示,一般利用标准误差来表示精密度。 可几误差:可几误差也称为必然误差,它的意义为:在一组测量 中若不计正负号, 误差大于 r 的测量值与小于 r 的测量值的数目 各占一半。 可几误差 r 标准误差δ的关系为: r=0.6745δ 误差来源

装置误差 标准器误差:标准器是提供标准量的器具,如标准电池、标准电 阻、标准钟等。它们本身体现的量都有误差。 仪表误差:如电表、天平、游标等本身的误差。 附件误差:进行测量时所使用的辅助附件,如开关、电源、连接 导线所引起的误差。 环境误差: 由于各种环境因素(如温度、湿度、气压、震动、照明、电磁场 等)与要求的标准状态不一致,及其在空间上的梯度、与随时间 的变化,致使测量装置和被测量本身的变化所引起误差。 人员误差: 测量者生理上的最小分辨力,感官的生理变化,反应速度和固有 习惯所引起的误差。 方法误差: 经验公式、 函数类型选择的近似性及公式中各系数确定的近似值 所引起的误差。

在推导测量结果表达式中没有得到反映, 而在测量过程中实际起 作用的一些因素引起的误差,如漏电、热电势、引线电阻等一些 因素引起的误差。 由于知识不足或研究不充分引起的方法误差。

误差的分类 系统误差 定义:在同一条件下多次测量同一量时,误差的绝对值和符号保 持恒定或在条件改变时,按某一确定规律变化的误差,它的特点 是其确定性。 实验条件一经确定,系统误差就获得一个客观上的恒定值。多次 测量的平均值也不能削弱它的影响, 改变实验条件或改变测量方 法可以发现系统误差,可以通过修正予以消除。 偶然误差 定义:在同一条件下多次测量同一量时,误差的绝对值和符号随 机变化,它的特点是随机性,没有一定规律,时大时小,时正时 负,不能予定。

由于偶然误差具有偶然的性质,不能预先知道,因而也就无法从 测量过程中予以修正或把它加以消除,但是偶然误差,在多次重 复测量中服从统计规律,在一定条件下,可以用增加测量次数的 方法加以控制,从而减少它对测量结果的影响。 过失误差(粗大误差) 定义:明显歪曲测量结果的误差。这是由于测量者在测量和计算 中方法不合理,粗心大意,记错数据所引起的误差。只要实验者 采取严肃认真的态度是可以避免的。 精度

不准确或不精确度是指给出值偏离真值的程度, 它与误差的大小 相对应。习惯上称为准确度,其含义乃是不准确之意。 精度一词可细分为精密度,准确度和精确度。 或者说, 多次测量时, 1.精密度: 精密度:表示一组测量值的偏离程度。 表示测得值重复性的高低。如果多次测量的值都互相很接近,即 偶然误差小,则称为精密度高。可见精密度与偶然误差相联系。

2.准确度:表示一组测量值与真值的接近程度。测量值与真值 准确度: 越接近,或者说系统误差越小,其准确度越高。所以准确度与系 统误差相联系。 3.精确度:它反映系统误差与偶然误差合成大小的程度。在实 精确度: 验测量中,精密度高的、准确度不一定高,准确度高的,精密度 不一定高,但精确度高的。则精密度和准确度都高。

误差的传递 测量结果可直接从测量值得出的测量叫直接测量。 通过对几个与 被测有一定函数关系的量进行直接测量, 然后利用函数关系算出 被测量大小的测量方法叫间接测量。 既然公式中所包含的直接测 量都的误差, 那么, 间接测量也必然有误差, 这就是误差的传递。 设间接测量量 Y 与 n 个直接量量 X1、X2······Xn 有关, dX1、dX2······dXn 表示各对应量的绝对误差,则有: 绝对误差 相对误差 结论:

间接测量量的绝对误差等于各直接测量量所决定的函数的全微 分,并应取所有偏微分绝对值的和。 间接测量的相对误差等于各直接测量量的偏微分与原函数的比 值的绝对值之和。

误差的处理 由于误差的存在,测量值可能比真值大,也可能比真傎小,故在 可能情况下,总是采用重复多次测量,然后取其平均值,这个平 均值必然更接近其真值。 设在相同条件下对某一物理量 X 进行 n 次重复测量, 其测量值分 别为 X1、X2······Xn 则平均值: 若为多次测量,则用多次测量的平均值代替真值。 平均偏差: 相对误差: 标准误差 :
  评论这张
 
阅读(2928)| 评论(0)
推荐 转载

历史上的今天

在LOFTER的更多文章

评论

<#--最新日志,群博日志--> <#--推荐日志--> <#--引用记录--> <#--博主推荐--> <#--随机阅读--> <#--首页推荐--> <#--历史上的今天--> <#--被推荐日志--> <#--上一篇,下一篇--> <#-- 热度 --> <#-- 网易新闻广告 --> <#--右边模块结构--> <#--评论模块结构--> <#--引用模块结构--> <#--博主发起的投票-->
 
 
 
 
 
 
 
 
 
 
 
 
 
 

页脚

网易公司版权所有 ©1997-2017