剔除离群值的目的是什么
剔除离群值的目的是更真实地反应数值 。离群值,也称逸出值,是指在数据中有一个或多个数值与其他数值相比差异较大 。chanwennt准则规定,如果某个数值偏离观测平均值的概率小于等于1/(2n),n为观察例数,则该数据应当舍弃 。当出现离群值的时候,要慎重处理,要将专业知识和统计学方法结合起来,首先应认真检查原始数据,看能否从专业上加以合理的解释,如数据存在逻辑错误而原始记录又确实如此,又无法在找到该观察对象进行核实,则只能将该观测值删除 。
文章插图
非线性回归曲线进行直线化时常用的转换方法有哪两种1、作回归分析要有实际意义,不能把毫无关联的两种现象,随意进行回归分析,忽视事物现象间的内在联系和规律;如对儿童身高与小树的生长数据进行回归分析既无道理也无用途 。
另外,即使两个变量间存在回归关系时,也不一定是因果关系,必须结合专业知识作出合理解释和结论 。
2、直线回归分析的资料,一般要求应变量Y是来自正态总体的随机变量,自变量X可以是正态随机变量,也可以是精确测量和严密控制的值 。
若稍偏离要求时,一般对回归方程中参数的估计影响不大,但可能影响到标准差的估计,也会影响假设检验时P值的真实性 。
3、进行回归分析时,应先绘制散点图(scatter plot) 。
若提示有直线趋势存在时,可作直线回归分析;若提示无明显线性趋势,则应根据散点分布类型,选择合适的曲线模型(curvilinear modal),经数据变换后,化为线性回归来解决 。
一般说,不满足线性条件的情形下去计算回归方程会毫无意义,最好采用非线性回归方程的方法进行分析 。
4、绘制散点图后,若出现一些特大特小的离群值(异常点),则应及时复核检查,对由于测定、记录或计算机录入的错误数据,应予以修正和剔除 。
否则,异常点的存在会对回归方程中的系数a、b的估计产生较大影响 。
5、回归直线不要外延 。
直线回归的适用范围一般以自变量取值范围为限,在此范围内求出的估计值称为内插(interpolation);超过自变量取值范围所计算的称为外延(extrapolation) 。
【剔除离群值的目的是什么】若无充足理由证明,超出自变量取值范围后直线回归关系仍成立时,应该避免随意外延 。
推荐阅读
- 饥寒交迫的迫是什么意思 从容不迫的迫的意思
- 分享南瓜的几种做法,个个好吃又简单 南瓜怎么做好吃
- 康辉消失原因曝光 康辉为什么被央视解雇原因
- 1首古典诗词里的名句,美到窒息的古典诗句
- 行车记录仪什么牌子质量好?三款横评显真章
- 在纳斯达克上市很牛吗 纳斯达克上市需要什么条件
- 福瑞控是什么意思?福瑞两字含义介绍
- 3块钱一斤的蜂蜜是真的吗 蜂蜜多少钱一斤
- 貔貅正确的摆放方法 貔貅如何摆放