概率论与数理统计
目录
课程视频:
第四章 随机变量的数字特征
矩
第六章 样本及抽样分布
以概率论为理论基础,根据实验或观察得到的数据来研究随机现象,对研究对象的客观规律性作出种种合理的估计和判断。受理统计的内容包括如何收集整理数据资料,如何对所得的数据资料进行分析研究,从而对所研究的对象的性质,特点做出推断。后者就是我们所说的统计推断问题。在数理统计中,我们研究的随机变量,它的分布是未知的,或者是不完全知道的,人们是通过对所研究的随机变量进行重复独立的观察,得到许多观察值对这些数据进行分析,从而对所研究的随机变量的分布作出种种推断。
数理统计中三个重要的抽样分布——${\chi}^2$ 分布,t分布,F分布。
${\chi}^2$ 分布
t分布
在
n
趋近于无穷大的时候接近于标准正态分布。
F分布
第七章 参数估计
参数:反映总体某方面特征的量,比如:合格率,均值,方差,中位数
参数估计的形式:点估计和区间估计
明天的最高温度:12°C ——点估计
天气预报11°C到13°C ——区间估计
统计推断的基本问题可以分为两大类,一类是估计问题,另一类是假设检验问题,本章讨论总体参数的点估计和区间估计。
7.1 点估计
矩估计法
[例1]
某大学新生有4千人参加第一学期末的《微积分》考试.现随机选出100名学生,计算得他们的平均成绩为72.3分,标准差为15.8分.试估计全部学生的平均成绩.
- 记总体(4000个学生成绩)的均值为μ,则μ的估计值为72.3分.
- μ:总体一阶矩,72.3分:样本一阶矩的观测值
- 用样本矩作为总体矩的估计即为矩估计
矩估计法统计思想:以样本矩估计总体矩,以样本矩的函数 理论根据:辛钦大数定律和依概率收敛的性质.
矩估计法的具体步骤:
[例子]
估算例1中总体标准差σ
的矩估计值
这里的$μ_2$计算使用了方差的性质$D(x)=E(X^2)-[E(x)]^2$
[例子]
[例子]
极大似然估计
原理:
考察以下例子: 假设在一个罐中放着许多白球和黑球,并假定已经知道两种球的数目之比是1:3,但不知道哪种颜色的球多。如果用放回抽样方法从罐中取5个球,观察结果为:黑、白、黑、黑、黑,估计取到黑球的概率p.
未知参数可能不是一个,设为$θ=(θ_1,θ_2,…,θ_k)$
[例子]
7.3 估计量的评选标准
无偏准则
定义:
举例如下:
无偏性的统计意义是指在大量重复试验下, 由$\hatθ(X_1,…,X_N)$给出的估计的平均恰是θ, 从而无偏性保证了$\hatθ$没有系统误差.
例如,工厂长期为商家提供某种商品,假设生产过程相对稳定,产品合格率为θ,虽然一批货的合格率可能会高于θ ,或低于θ ,但无偏性能够保证在较长一段时间内合格率接近θ,所以双方互不吃亏。但作为顾客购买商品,只有二种可能,即买到的是合格品或不合格品, 此时无偏性没有意义。
[例子]
显然可以看出$\hatθ_L$是偏小的,下面继续计算这个$\hatθ_L$的数学期望。
实际上样本方差$B_2$是总体方差$S_2$的一个纠偏结果,具体证明结果见:样本方差与总体方差
有效性
定义:
均方误差
均方误差准则必有效性的使用范围更广,他不需要这里$\hatθ_1$/$\hatθ_2$是无偏估计。
[例子]
相合性
用于考察随着样本量趋于无穷的时估计量的性质。
[例子]
7.4 区间估计
根据具体样本观测值,点估计提供一个明确的数值. 但这种判断的把握有多大,点估计本身并没有告诉人们. 为弥补这种不足,提出区间估计的概念.
Neyman原则:在置信水平达到1-α
的置信区间中,选精确度尽可能高的置信区间
枢轴量估计
问题:
设总体X的分布有未知参数θ,$X_1,…,X_n$是一样本.
如何给出θ的
(1)置信水平为1-α
的双侧置信区间?
(2)置信水平为1-α
的单侧置信下限?
(3)置信水平为1-α
的单侧置信上限?
基本原理:
实际操作:
统计量和枢轴量都是样本的函数,他们有什么区别?
枢轴量和统计量的区别: (1) 枢轴量是样本和待估参数的函数, 其分布不依赖于任何未知参数; (2) 统计量只是样本的函数,其分布常依赖于未知参数.
[例子]
[例子]
单个正态总体均值的区间估计(使用枢轴量估计)
[例子]
[例子]
[例子]
总结
第八章 假设检验
假设检验的基本思想
[例子]
检验假设的过程是一个四步曲.
- 第一步,建立两个完全对立的假设:原假设(零假设)H0,备择假设 (对立假设) H1。 原假设与备择假设是不对称的! 决定谁是原假设,依赖于立场、惯例、方便性.
-
保护原假设.如果错误地拒绝假设A比错误地拒绝假设B带来更严重的后果——A选作原假设! 例如:假设A:新药有某种毒副作用,假设B:新药无某种毒副作用.———A选作原假设H0!
“有毒副作用”错误地当成“无毒副作用” 比“无毒副作用”错误地当成“有毒副作用”带来的后果更严重。 -
原假设为维持现状.为解释某些现象或效果的存在性, 原假设常取为“无效果”、“无改进”、“无差异” 等,拒绝原假设表示有较强的理由支持备择假设. 例1中原假设H0:药物没有减肥效果. 备择假设H1: 药物有减肥效果.
-
原假设取简单假设.只有一个参数(或分布)的假设称为简单假设.如果只有一个假设是简单假设,将其取为原假设.
- 第二步, 检验假设——给出检验统计量,并确定拒绝域的形式. 根据收集的资料,针对假设,给出检验方法,然后对假设进行判断。 判断方法有二种:临界值法. P_值法.
如果统计量$T=T(X_1,…,X_n)$的取值大小和原假设$H_0$是否成立有密切联系,可将其称为对应假设问题的检验统计量,而对应于拒绝原假设H0时,样本值的范围称为拒绝域, 记为W ,其补集W称为接受域. 本例中的检验统计量为$\overline{X}$,拒绝域为 ${W=(X1, …, Xn) : \overline{X} ≥ C}$
这里的关键问题是 C
如何选择?
关于C的选择可能会有两类错误:
在这里犯第一类错误的概率概率是$α=P_{μ_0}(\overline{x} ≥ C)$ 在这里犯第二类错误的概率概率是$β=P_{μ_1}(\overline{x} < C)$
这两个值是相互制约的, 如何取得一个折中?
Neyman-Pearson原则: 首先控制犯第I类错误的概率不超过某个常数α ∈(0,1),再寻找检验,使得犯第II类错误的概率尽可能小. α称为显著水平. 常取α为0.01,0.05,0.1等.
- 第三步,根据显著水平和统计量的分布确定临界 ——临界值法
总结归纳如下:
临界值法处理假设检验问题的基本步骤 (1)根据实际问题提出原假设和备择假设; (2)提出检验统计量和拒绝域的形式; (3)在给定的显著水平α下,根据Neyman-Pearson原则求出拒绝域的临界值; (4)根据实际样本观测值作出判断.
相应的P_值法在第三部开始有些差异:
P_值法处理假设检验问题的基本步骤
(1)根据实际问题提出原假设和备择假设;
(2)提出检验统计量和拒绝域的形式;
(3’)计算检验统计量的观测值与P_值;
P_值:当原假设H0成立时,检验统计量取比观察到的结果更为极端的数值的概率
概率这么小的事件!竟然发生了!! 拒绝原假设!!!
(4’)根据给定的显著水平α,作出判断.
拟合优度检验
前面介绍的各种检验都是在总体服从 正态分布前提下,对参数进行假设检验的。 实际中可能遇到这样的情形,总体服从何 种理论分布并不知道,要求我们直接对总 体分布提出一个假设 。
[例子]:
拟合优度检验的基本原理和步骤:
确定拒绝域的定理:
注: ${\chi}^2$ 拟合检验使用时必须注意:
- n要足够大,$np_i$ (或$n\hat{p_i}$ )不能太小。
- 根据实践,要求n≥50,$np_i$(或$n\hat{p_i}$)≥5, 否则应适当合并相邻的类,以满足要求。 例1的Excel实现见实验24.
[例子的解法]:
[例子]:
例2:孟德尔遗传理论断言,当两个品种的豆杂交时,圆的和黄的、起皱的和黄的、圆的和绿的、起皱的和绿的豆的频数将以比例9:3:3:1发生。在检验这个理论时,孟德尔分别得到 频数315、101、108、32、这些数据是否支持该理论?
第九章 方差分析及回归分析
1 单因素实验的方差分析
方差分析(ANOVA),是由英国统计学家费歇尔(Fisher)在20世纪20年代提出的,可用于推断两个或两个以上总体均值是否有差异的显著性检验。
[例子]:
- 在方差分析中, 通常把研究对象的特征值, 即所考察的试验结果称为试验指标. 本例中“索赔额”就是试验指标.
- 对试验指标产生影响的原因称为因素. 本例中“地区” 即为因素.
- 因素中各个不同状态称为水平. 本例中“四个不同地区”即为四个水平.
单因素方差分析的定义:
方差分析的目的就是要比较因素A 的r 个 水平下试验指标理论均值的差异, 问题可 归结为比较这r个总体的均值差异.
检验假设
H0: μ1 = μ2 = … = μr
H1: μ1,μ2,…,μr 不全相等。
检验假设的方法如下:
[例子]:
3 一元线性回归
参数估计
变量与变量之间的关系
-
确定性关系 当自变量给定一个值时,就确定应变量的值与之对应。如:在自由落体中,物体下落的高度h与下落时间t之间有函数关系
-
相关性关系 变量之间的关系并不确定,而是表现为具有随机 性的一种“趋势”。即对自变量x的同一值,在不同 的观测中,因变量Y可以取不同的值,而且取值是随机的,但对应x在一定范围的不同值,对Y进行观测时, 可以观察到Y随x的变化而呈现有一定趋势的变化。
[例子]
可支配收入x的变化是引起消费支出Y的变化的主要因素,其他因素的影响是次要的.
Y 称为响应变量,x称为解释变量.
从散点图看出,引起消费支出Y的变化的主要部分可以表示为
$μ(x) = β_0 + β_1x$,其中$β_0$和$β_1$是未知参数
另一部分是由其他随机因素引起的,记为$\epsilon$
即$Y = β_0 + β_1x + \epsilon$
$β_0$ 和$β_1$的估计:
σ的估计:
根据方差的性质$D(x)=E(X^2)-[E(x)]^2$ 这里的$E(\epsilon) = 0$, 所以$σ^2 = D(\epsilon_i) = E(\epsilon^2)$ 这里的σ也被称为估计标准误差。 参考: 一元线性回归的检验:估计标准误差
模型检验及应用
(3)线性假设的显著性检验 检验假设 $H_0:β_1=0, H_1:β_1≠0$ 若接受原假设,说明Y与x不是线性关系,回归方程 若原假设被拒绝,说明回归效果是显著的.否则, 无意义。回归效果不显著的原因可能有以下几种: (1)影响Y取值的,除了x,还有其他不可忽略的因素; (2)E(Y)与x的关系不是线性关系,而是其他关系; (3)Y与x不存在关系。
F检验