剔除离群值的目的是什么

剔除离群值的目的是什么
剔除离群值的目的是更真实地反应数值 。离群值,也称逸出值,是指在数据中有一个或多个数值与其他数值相比差异较大 。chanwennt准则规定,如果某个数值偏离观测平均值的概率小于等于1/(2n),n为观察例数,则该数据应当舍弃 。当出现离群值的时候,要慎重处理,要将专业知识和统计学方法结合起来,首先应认真检查原始数据,看能否从专业上加以合理的解释,如数据存在逻辑错误而原始记录又确实如此,又无法在找到该观察对象进行核实,则只能将该观测值删除 。

剔除离群值的目的是什么

文章插图
非线性回归曲线进行直线化时常用的转换方法有哪两种1、作回归分析要有实际意义,不能把毫无关联的两种现象,随意进行回归分析,忽视事物现象间的内在联系和规律;如对儿童身高与小树的生长数据进行回归分析既无道理也无用途 。
另外,即使两个变量间存在回归关系时,也不一定是因果关系,必须结合专业知识作出合理解释和结论 。
2、直线回归分析的资料,一般要求应变量Y是来自正态总体的随机变量,自变量X可以是正态随机变量,也可以是精确测量和严密控制的值 。
若稍偏离要求时,一般对回归方程中参数的估计影响不大,但可能影响到标准差的估计,也会影响假设检验时P值的真实性 。
3、进行回归分析时,应先绘制散点图(scatter plot) 。
若提示有直线趋势存在时,可作直线回归分析;若提示无明显线性趋势,则应根据散点分布类型,选择合适的曲线模型(curvilinear modal),经数据变换后,化为线性回归来解决 。
一般说,不满足线性条件的情形下去计算回归方程会毫无意义,最好采用非线性回归方程的方法进行分析 。
4、绘制散点图后,若出现一些特大特小的离群值(异常点),则应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正和剔除 。
否则,异常点的存在会对回归方程中的系数a、b的估计产生较大影响 。
5、回归直线不要外延 。
直线回归的适用范围一般以自变量取值范围为限,在此范围内求出的估计值称为内插(interpolation);超过自变量取值范围所计算的称为外延(extrapolation) 。
【剔除离群值的目的是什么】若无充足理由证明,超出自变量取值范围后直线回归关系仍成立时,应该避免随意外延 。

    推荐阅读