企业🤖AI智能体构建引擎,智能编排和调试,一键部署,支持私有化部署方案 广告
当研究并解决一个实际问题时, 我们会 遇到下面问题: • 1. 这个随机现象可以用什么样的分布律 来刻划,这种分布律的选用合理吗? • 2. 所选用的这一分布律的参数是多少? 如何估计和确定这些参数? 如何利用数据资料,作出尽可能精确可 靠的统计结论(统计推断): 1) **估计**——从局部观测资料的统计特征,推断总体的特征(分布与矩); 2)**假设检验**——依据抽样数据资料,对总体的某种假设作检验,从而决定对此假定是拒绝抑或接受. ### 数理统计的基本概念 **总体**:研究对象全体; 也称母体, 记作S. **样本**:总体中抽出作观测的个体;也称子样,记ω **样本容量**:抽取的个体数目;也称样本大小. ### 例子 随机抽5支,得寿命数据(称为观察[测]值): 725,520,683,992,742.(小时) 一般记为,x1 x2 x3 x4 x5. 又抽5支, x′1 x′2 x′3 x′4 x′5. 再抽5支, x′′1 x′′2 x′′3 x′′4 x′′5 . …… …… 如此继续. 各组观察值彼此不同. 如此继续. 每组中的第一支灯的寿命, 也彼此不同. 这样,泛指所抽取的第一支荧光灯的寿命应是一个rv,记为 X1 . 同样第二支的寿命是rv X2 ,… 如此得一组rv : X1,X2,X3,X4,X5 称为大小为5的样本. 一般地则有大小(容量)为n 的样本,称x1,x2,...,xn为**样本观察值**[*现实*]. 抽取的样本如能切实保证其随机性,那么应该彼此独立,且能反映总体的随机规律性,即所有样本彼此独立且与总体同分布. 这样的样本,我们称之为**简单样本**. 这种抽样方法,叫**简单抽样**. 注意,在有限总体中,各观察结果可能不独立. ### 样本的数字特征与分布 最简单又方便的样本函数g(X1,…,Xn)是Xi们的一次和二次的线性组合. 由于样本“平等”,线性组合中应有相等的权系数. **一次时:**样本的算术平均值X¯¯¯; **二次时:**中心化后的样本二阶中心矩S2n. 设X1,…,Xn为总体S的大小为n的样本, 分别称 X¯¯¯=1n∑i=1nXi    S2=1n−1∑i=1n(Xi−X¯¯¯)2 为 **样本均值** 和 样本方差[(样本方差除以n-1的原因)](http://www.dutor.net/index.php/2009/10/sample-variance/) ,而依次称 Mk=1n∑i=1nXki    S2n=1n∑i=1n(Xi−X¯¯¯)2 为 **样本的k阶矩** 和 **样本的二阶中心矩** . 记号:**总体k阶矩**: μk=EXk∫+∞−∞xkdFX(x) **总体的k阶中心矩** : σk=∫+∞−∞(x−EX)kdFX(x) μ=μ1,σ2=σ2 . 注意 1)M1=X¯¯¯,S2n没叫样本方差. 2) 比较总体的期望μ、方差σ2与矩μk:     1. 样本的均值、方差及k阶矩等都是rv,并且因n有限而总是存在的.     2. 总体的期望、方差及k阶矩等不一定存在.且即便存在,也是实数值, 而非rv. 3.代入观察值, 有相应的**样本矩的观察值**x,m以及s2 等. 性质 如果总体k阶矩存在,则样本的k阶矩的数学期望等于总体的k阶矩,而当n趋于无穷时,样本的k阶矩以概率收敛到总体的k阶矩,即 ![这里写图片描述](https://box.kancloud.cn/2016-07-25_5795bdc3e8731.jpg "") ### 顺序统计量与经验df 仍从观察值出发设法求总体分布. 以五支荧光灯寿命数据725,520,683,992,742为例,构造 ![这里写图片描述](https://box.kancloud.cn/2016-07-25_5795bdc416622.jpg "") 其df 函数(如后图)称为**经验df函数**. 设{xi}观察值重新依序排列为{x(n)}:    x(1)≤x(2)≤⋯≤xn 令![这里写图片描述](https://box.kancloud.cn/2016-07-25_5795bdc45d159.jpg "") 称为由{xi}决定的**经验df**, 简记为F∗n(x). 将以从小到大为序重新排列的一个样本,称为**顺序统计量**,专记为x(1) x(2) … xn 下面一个非常重要的定理确立经验df 的重要地位. 此定理保证,几乎由每一组观察值得到的经验df,只要n足够大,都可作为总体df的近似. 定理中一致收敛性和几乎处处收敛性,给了我们充分的自由.从而由样本去找总体df,理论上有一个完满的解决. limn→∞F∗n(x)=F(x) ### 抽样分布与统计量 #### 正态总体常用的样本函数 1.设总体S~N(μ,σ2). 则 样本均值X¯¯¯~N(μ,σ2n),从而 Z:=X¯¯¯−μσ/n√~N(0,1) 2.K2n:=∑n1(Xi−μσ)2的分布χ2(n) K2n是n个独立的标准正态变量的平方和,称n个独立的标准正态变量的平方和的分布为自由度为n的[χ2分布](http://baike.baidu.com/link?url=Nu_ktFPjY7pDAtSiJt5IXx6pOjijIZhxJp1RvQ1yFDskdSmu1gnhk6QLk9JRPZqXIorAfySMJqg2yQCo4Fo_mq). 3.(n−1)S2σ2~χ2(n−1) 样本均值与样本方差独立, 且 K2=(n−1)S2σ2=∑1n(Xi−X¯¯¯σ)2 ~ χ2(n−1) 在K2n=∑n1(Xi−μσ)2中用X¯¯¯易μ得K2. 4.T:=X¯−μS/n√~ t(n−1) Z:=X¯−μσ/n√~N(0,1)中如σ未知,S2是σ2的无偏估计,自然用S代替Z中的σ引入T 如果Z ~N(0,1),Y~χ2(n)且独立,则称 t=ZY/N−−−−√~t(n) 即自由度n的[t分布](http://baike.baidu.com/link?url=scKS9Aozzu4_3ydPC18Kg4S5jrD4nkyvensgS2exsIZW-SgpuEXxDOw64SgbKV3UjdE3CNKH7bvVqfcMxD_jfq). 5.Fnm:=S21σ22S22σ21~F(n−1,m−1) 如果X~χ2(n),Y~χ2(n),且两者相互独立,则称F=χ2(n)/nχ2(m)/m~F(n,m) 为自由度为n,m的[F分布](http://baike.baidu.com/view/1173064.htm) #### 性质 • t 分布是对称的,且n→∞极限为正态(n≥30时近似的效果就很好) . • t 分布只有k<n阶矩. • κ2分布和F分布不对称,且x<0 时为0. • κ2 分布的可加性:设U 与V 独立,且分别~κ2(n)和κ2(m),则U+V~κ2(n+m). 对给定的实数α∈(0,0.5), 使 P(X>y)=∫∞yfX(x)=α 成立的点y, 称为X 或其分布的上百分位α点. 特别对N(0,1)、t(n)、κ2(n)和F(n,m)分布, 分别记为 zα,tα(n),χ2α(n),Fα(n,m) 使 P(X>y)=∫∞yfX(x)=1−α 成立的点y, 称为X 或其分布的下百分位α点. 特别对N(0,1)、t(n)、κ2(n)和F(n,m)分布, 分别记为 z1−α,t1−α(n),χ21−α(n),F1−α(n,m) 百分位点的值,可由表查得. #### 例题: ##### 例题1: 设X1,X2,…,Xn, 是来自总体X~N(0,σ2)的简单随机样本,求统计量 ∑10i=1(−1)iXi∑20i=11X2i−−−−−−−−√ 的分布。 解: 由题意可知Xk~N(0,σ2)可得 ∑10i=1(−1)iXi~N(0,10σ2) ∑10i=1(−1)iXi /10−−√σ~N(0,1) 又因为∑20i=11(X2iσ)~χ2(10) 故由t分布定义可得 ∑10i=1(−1)iXi∑20i=11X2i−−−−−−−−√ = ∑10i=1(−1)iXi10−−√σ(∑20i=11(X2i/10)σ)−1~t(10) ##### 例题2: 设X1,X2,…,Xn+1是正态总体的简单样本,前面容量为n的样本均值和样本二阶中心矩分别为X¯¯¯ 和S2n 试求下列样本函数的分布 1)(n−1)(X1−μ)2 / ∑ni=2(Xi−μ)2 2)Xn+1−X¯Snn−1n+1−−−√ 解: 1) (n−1)(X1−μ)2 / ∑ni=2(Xi−μ)2=(Xi−μ)2σ2∑ni=2(Xi−μσ)2n−1 分子服从χ2(1),分母服从χ2(n−1) 所以整个式子服从F(1,n−1) 2) Xn+1−X¯Snn−1n+1−−−√ 分母部分变成: S2n(n−1)σ2~χ2(n−1) 分子部分变成: Xn+1−X¯σ~N(0,1) 因此原式变成: Xn+1−X¯σS2n(n−1)σ2√ / n−1√ 服从t(n−1)