什么是正态分布?正态分布中的σ又指的是什么?

什么是正态分布
正态概率分布是连续型随机变量概率分布中最重要的形式 , 它在实践中有着广泛的应用 。在生活中有许多现象的分布都服从正态分布 , 如人的身高、体重、智商分数;某种产品的尺寸和质量;降雨量;学习成绩 , 特别是 , 在统计推断时 , 当样本的数量足够大时 , 许多统计数据都服从正态分布 。下面以人的身高为例 , 通俗解释一下什么是正态分布?
随机抽取200位同等年龄上下的男性 , 测量好他们的身高之后计算出平均身高 , 通过将平均身高和他们各自的身高对比 , 我们可以轻松发现这一现象:大多数男性的身高都集中在平均身高上下浮动 , 有极少数男性身高很矮 , 也有极少数男性身高很高 。这200为男性身高的概率密度函数可能如下图所示:
实际上 , 这种形状十分常见 , 应用很广泛 , 它叫做正态分布 。
【什么是正态分布?正态分布中的σ又指的是什么?】正态分布中的σ指的是方差 。σ描述正态分布资料数据分布的离散程度 , σ越大 , 数据分布越分散 , σ越小 , 数据分布越集中 。
正态分布的概率密度函数
正态分布之所以被称为正态 , 是因为它的形态看起来合乎理性 。在现实生活中 , 遇到测量值之类的大量连续数据时 , 正常情况下都会期望看到这种形态 。正态分布的概率密度函数的计算公式如下:
其中μ=均值 , σ=标准差 , π=3.14159 , e=2.71828 。如果随机变量X符合上述概率密度函数的分布 , 则称X是服从参数为μ , σ2的正态分布 , 记为X~N(μ , σ2) 。
正态分布的概率密度函数具有下列性质;

  1. 以x=μ为对称轴的对称分布;
  2. σ2指分散性 , σ2值越大 , 正态分布的曲线越扁平、越宽;
  3. 以x轴为渐近线;
  4. 若随机变量X1,X2…,Xn皆服从正态分布 , 且相互独立 , 则对任意几个常数a1,a2,…,an(不全为0) , Z=a1X1+a2x2+……+anXn也服从正态分布
正态分布求概率
但是在正态分布中求概率是非常困难的 , 提供包括所有不同的μ和σ的正态分布表也是不可能的 。所以统计学家通过一种简单的方法来解决这一问题 。对于一个随机变量X~N(μ , σ2) , 如果令Z=(x-μ)/σ(标准分) , 则随机变量Z服从μ=0,σ2=1的正态分布 , 记为Z~N(0,1) , 称为标准正态分布 。
标准正态分布的概率密度函数为:
通过上式可以看出标准正态分布不再依赖于参数μ和σ , 它是固定的 , 是唯一的 。因此 , 标准正态分布中随机变量与其概率的对应关系被计算出来 , 并列为标准正态概率分布表 , 以便查询 。于是 , 对于不同的μ和σ , 只要将变量值转化为Z值 , 然后查表即可得到其概率值 。
标准正态概率分布表
例子:已知研究生完成一篇硕士论文的时间服从正态分布 , 平均花费2500h , 标准差为400h , 现随机找到一个已完成论文的学生 , 求:
(1)他完成论文的时间超过2700h的概率;
(2)他完成论文的时间低于2000h的概率;
(3)他完成论文的时间在2400h~2600h之间的概率 。
解:用X表示完成论文的时间 , 则X~N(2500 , 400*400) 。这是非标准的正态分布 , 如果直接计算概率是非常麻烦的 , 我们首先将其转化为标准正态分布 , 然后通过标准正态分布表查出变量的概率值 。

推荐阅读