tceic.com
简单学习网 让学习变简单
当前位置:首页 >> 数学 >>

03简单随机抽样


第三章 简单随机抽样(SRS)

3.0 概率抽样概述
基本假定
以后几章中,我们考察几种基本的概率抽样方法 的性质。暂时不考虑非抽样误差。为适当地简 化讨论,作如下假定:

抽样框是完善的; 抽样总体与目标总体相同; 没有无回答现象或缺失数据; 所有的测量都是准确无误的。

1、定义 2 总体均

值与总量的简单估计 3、总体比例的简单估计 4、样本量的确定 5、放回简单随机抽样

一、简单随机抽样定义
定义:设总体中有N个单元,不加条件从 中随机抽取n个单元为样本,每个单元 都有同样的概率被抽中的抽样方法。 分为: 放回简单随机抽样 不放回简单随机抽样

不放回简单随机抽样 (1)一次抽取n个; (2)逐个不放回抽取n个。 放回简单随机抽样

二、简单随机抽样实施方法
抽签法 随机数法: ? 随机数表法 ? 随机数骰子产生随机数 ? 计算机产生:随机数发生器

三、简单随机抽样的优点
是最简单的抽样技术; ? 抽样框不需要其他(辅助)信息,唯一需 要的只是一个关于调查总体所有单元的一 个完全的清单和与其如何联系的信息; ? 关于样本量的确定、总体估计与方差估计 都有现成的标准公式可以利用,因此技术 发展已经成熟。
?

四、简单随机抽样的缺点
?

?

? ?

抽样框中即使有现成的辅助信息也不加利用, 使得估计的统计效率较其他利用辅助信息的 样本设计低; 由于样本在总体中的地理分布范围比较广, 如果采用面访,费用较高; 有可能抽到一个“差的”样本; 如果不用计算机,而用随机数表抽一个大样 本将十分单调劳神。

SRS的性质
设总体单元数为N,样本容量为n。对于SRS, 1) 每个总体单元被抽中的概率为 f=n/N; n(n ? 1) 2) 任意两个总体单元同时被抽中的概率为 N ( N ? 1) 。
?N ? ? N ? 1? 证明: 在所有? ?种样本中,包含某个特 定的总体单元的样本有 ? ?n? ? n ? 1 ?种, ? ? ? ? ? ? N ? 1? ? N ? n 所以该单元被抽中的概 率为 f ? ? ? n ?1 ? ? n ? ? N 。 ? ? ? ? ? ? ? ? N ? 2? 同理,同时包含两个特 定单元的样本有 ? ? n ? 2 ?种, ? ? ? ? N ? 2 ? ? N ? n ( n ? 1) 所以这两个单元同时被 抽中的概率为? ? n ? 2 ? ? n ? ? N ( N ? 1) 。 ? ? ? ? ? ? ?

SRS的性质
设总体单元数为N,样本容量为n。且对每个总体单元定 义如下随机变量,i=1,…,N,
?1 第i个总体单元入样, ai ? ? 否则。 ?0

n 则: ai ) ? ? f ; E( N Var(ai ) ? f (1 ? f ); Cov(ai , a j ) ? ? f (1 ? f ) /( N ? 1), ?i ? j。

SRS的性质
证明: i ) ? 1 ? P r(第i个单元入样) ? 0 ? P r(第i个单元不入样) E(a ?n N ? f; Var( ai ) ? E ( ai2 ) ? E 2 ( ai ) ? n N ? ?n N ? ? f (1 ? f ); ?i ? j ,
2

Cov( ai , a j ) ? E ( ai a j ) ? E ( ai ) E ( a j ) n ( n ? 1) ? n ? ?? ? N ( N ? 1) ? N ? f (1 ? f ) ?? 。 N ?1 ?
2

总体均值与总量的简单估计
1 (1) 均值: Y ? N

?Y
i ?1

N

i

;

(2) 总和: Y ? NY ; 1 N (3) 方差: S 2 ? (Yi ? Y )2 , 标准差:S ? S 2 ; ? N ? 1 i ?1 (4) 变异系数: ( y ) ? S Y 。 CV
注意:总体方差与估计量的方差是两个不同的量; 变异系数只对取值为正的变量有意义。

样本均值
1 n y ? ? yi n i ?1

总体均值和总量的估计
1 n ? Y ? y ? ? yi n i ?1
N n ? Y ? Ny ? ? yi n i ?1

? Th1 对于SRS , 有 E ( y ) ? Y , E (Y ) ? Y . 1 n ? Y ? y ? ? yi n i ?1 N n ? Y ? Ny ? ? yi n i ?1 E( y ) ? Y 1 n n C N?11 ? Yi ? y n i ?1 E( y ) ? ? n ? ?Y n CN CN

方法二,Cornfield 方法。
?1, 第i个总体单元入样 引进随机变量 ai ? ? , ? 1,...,N i 否则 ?0, 1 N ? y ? ? ai yi n i ?1 1 N ? E ( y ) ? ? yi E ( ai ) n i ?1 1 N n 1 ? ? yi ? n i ?1 N N

?y
i ?1

N

i

?Y

方法三,对称性原则。
?N ? 考虑E ( ?i ?1 yi ),因每个总体单元在 ?个样本中 ? ? ?n ? ? 出现的次数相同,且每 个样本出现的概率相同 ,
n

因此, ( ?i ?1 yi )作为对所有可能的样本 E 求平均,
n

必定是?i ?1 yi的倍数,且倍数可由 i ?1 yi与?i ?1 yi ?
N n N

的项数之比决定,即 N 。 n n 1 1 n N ? E ( y ) ? E ?i ?1 yi ? ?i?1 yi ? Y . n nN

?

?

有限总体的方差 Th2 对于SRS,有 1? f 2 N ? n 2 V ( y) ? S ? S , n nN N 1 2 2 S ? ? (Yi ? Y ) , N ? 1 i ?1 ?) ? N 2 1? f S 2 V (Y n ?1 若第i个单元入样 ?i ? ? i ? 1, 2,? 否则 ?0

n? n? V (? i ) ? ?1 ? ? ? f ?1 ? f ? N? N? Cov(? i , ? j ) ? E (? i? j ) ? E (? i )
2

n(n ? 1) ? n ? f (1 ? f ) ? ?? ? ? ? N ( N ? 1) ? N ? N ?1
2

1 N V ( y ) ? V ( ? ? iYi ) n i ?1
N ? 1 ?N 2 ? 2 ? ? Yi V (? i ) ? 2? YY j Cov(? i , ? j ) ? i n ? i ?1 i? j ? N 1? f ? N N 2 1 2? ? ? N ? 1 ? Yi V (? i ) ? N ? 1 (? Yi ) ? nN ? i ?1 i ?1 ?

1? f 2 ? S n N ( N ? n) 2 V ( Ny ) ? S n

注:
1) 影响 y 的方差大小的主要因素 有: 总体方差 S 2, 样本容量 n 。
2) 1 ? f 称为有限总体校正系数 (finitepopulationcorrectionfpc) , 。 当 f ? 0.05 甚至 f ? 0.1 ,且 n 较大时,常作如下近似 : 1? f 1 ? ,这称为忽 略fpc。 n n

注:
3) 经验的定比例抽样的做 法不合理。 通常认为,若抽样比一 样,那么 y 的精度也一样。 对 于SRS , 不 对 。 这 一方面, 对于同样大小的总体, 若它们的 S 2 不等, 那么假如 f 相同, 则它们的V ( y )之比为其S 2之比; 另一方面, 若两总体 S 2 相同, N不等, 但 那么假如 f 相同, 则它们的V ( y )之比为N之比的倒数。


两个总体 S 2 相同, 1 ? 200,000 N 2 ? 10,000 N , 。 若都采用 %的定比抽样,则 5 1 ? 5% 2 S ? 0.000095 2 ; S 10,000 1 ? 5% 2 n2 ? N 2 ? 5% ? 500, V ( y2 ) ? S ? 0.001900 2 . S 500 V ( y1 ) V ( y2 ) ? 0.22. n1 ? N1 ? 5% ? 10,000, V ( y1 ) ?

抽样比相同,但标准差相差近五倍!
要达到与总体2实施5%抽样相同的精度,那么 1 ? ?, f1 ? ? n 由 1 ? f1 1 1 ? ? ? 0.0019 可知, n1 n1 N1

n1 ? 525 (接近 n2 ? 500),此时 f1 ? 2.625%。

三、方差的估计量
Th2 从理论上给出了估计量 y 的平均误差。实际问题中, S 2 往往未知,由V ( y )的公式还不能对y的平均误差作出 具体的估计。 这时,自然地希望通过样本观测数据获得S 2的估计, 从而得到V ( y )的估计。很自然地,会想到用样本方差 1 n s ? ( yi ? y ) 2 ? n ? 1 i ?1
2

去估计S 2。 那么这种估计的效果如何呢?

Th3 对于SRS,有 E(s ) ? S 。
2 2

估计量的方差估计
1 n 2 2 s ? ? ( yi ? y ) n ? 1 i ?1 1 n 2 ? ? [( yi ? Y ) ? ( y ? Y )] n ? 1 i ?1 1 n ? [( yi ? Y ) 2 ? n( y ? Y ) 2 ] ? n ? 1 i ?1

1 ?n 2 2 2 ? E (s ) ? E ?? [( yi ? Y ) ? n( y ? Y ) ]? n ? 1 ? i ?1 ? 1 n N 1 2 ? ? (Yi ? Y ) ? n ? 1 nV ( y ) n ? 1 N i ?1 1 n 1 S 2 2 ? ( N ? 1) S ? n (1 ? f ) ? S n ?1 N n ?1 n
2

三、方差的估计量
推论: 1? f 2 v( y ) ? s 是 V ( y ) 的U.E.(称为y的方差估计量)。 n N 2 (1 ? f ) 2 ? ? v (Y ) ? s 是 V (Y ) 的U.E. 。 n

1? f 2 记 se y ? v ( y ) ? s , seY? ? Ns y . n se y 常被称为y的标准误(standarderror) , 是估计量 y 之标准差的估计, 也就是对 y 的平均误差的估计。 seY? 有类似的解释。

三、方差的估计量
CV ( y ) ? V ( y ) Y 称为 y 的变异系数, 衡量的是 y 理论上的平均相对误差 。 cv( y ) ? v( y ) y ? se y y 是 CV ( y ) 的估计, 也就是对 y 的平均相对误差的估计 。

四、置信区间
实际问题中,经常需要了解未知的目标量最 可能落在哪个范围内。为此,统计学中提出 了置信区间(Confidence Interval)这个概念。
? ? 设关心的总体目标量为 。随机区间[? L , ?U ] 若满足: ? ? ? ? 1) ? , ? 是两个统计量,且 ? ? ? ; ?
L U L U

? ? 2) ?? , P r? {? L ? ? ? ?U } ? 1 ? ?。 ? ? 则称 [? L , ?U ] 为? 的置信度为 ? ?的置信区间。 1

置信区间的解释

若对同一个总体反复抽样,并根据样本观 测计算同一个置信区间,那么这些区间 包含真实目标量的机会等于1-?。

如何构造总体均值的置信区间?
实际问题中,每次只取一个样本,而且不可能知道 总体目标量的值,因而不可能象前例那样确定置信 区间。
由Th1, Th2 可知, SRS中,y 大致是围绕着总体 在 均值Y 波动的,因而考虑通过 y 来构造 Y 的置信区间。 为构造 Y 的置信区间,需要了解 y 的抽样分布。 但对于有限总体的不放回抽样,一般不可能获得 y 的 精确分布,故通常考察其渐近分布。

渐近正态分布
Ha?jek(1960) 证明了: 对于有限总体的 SRS , N , n 及 N ? n 均足够大时, 当 有 y ~ N (Y , V ( y )) 。 ?

n 需要多大?
很多总体分布偏斜严重,比如个人收入、企业的销售收入等。 此时若 n 较小, y 的分布往往也有些偏斜。Cochran(1977) 则 发现,当 n ? 25G 2 时,y 近似正态较好,其中 1 G? N (Yi ? Y )3 ? 3 (即总体偏度系数)。 ?
i ?1 N

Cochran (1977) 给出的 例子:

样本均值分布的模拟(例)

对y 分布的 随机模拟

例 模拟研究
总体:1992年,美国3059个县的耕地面积。agpop3059.mtw 1. 比较 n=30、200、600时,样本观测值的分布。

例 模拟研究

2. n=30, 200, 600时,样本均值的分布。

总体均值、总和的近似置信区间
y ?Y ~ N (0, 1), ? 1? f 2 S n

假如总体方差S 已知,那么由
2

? 1? f 1? f ? ? ? 1 ? ?, 知 Pr ? y ? u1?? 2 S ? Y ? y ? u1?? 2 S ? n n ? ? ? ? 1? f 1? f ? ?为 Y 的置信度近似 故 ? y ? u1?? 2 S , y ? u1?? 2 S ? n n ? ? ? 为1 ? ?的置信区间。

总体均值、总和的近似置信区间
一般,总体方差S 2 不知道。但若有P( s 2 ? S 2 ) ? 1, y ?Y 则 ~ N (0,1) 。相应地有, ? se y

?y ? u

1?? 2

? se y , y ? u1?? 2 ? se y ? 是 Y 的置信度近似为1 ? ?

的置信区间。

同理可知,

?Ny ? u

1?? 2

? seY? , Ny ? u1?? 2 ? seY? ? 是 Y 的置信度近似为 1 ? ?

的置信区间。

更精细地说明估计的误差
? 因 | y ? Y | 不超过 d ? u1?? 2 V ( y ) 、d ? u1?? 2 se y ? 的可能性近似为 ? ? , 故称 d 或 d 为用y估计 Y 时的 1 的最 大 绝 对 误 差 (置信度近似为 ? ?)。 1 se y V ( y) ? 称 r ? u1?? 2 或 r ? u1?? 2 为 用y估计 Y 时 Y Y 的最 大 相 对 误 差 (置信度近似为 ? ?)。 1

常用的标准正态分布的分位点
?
0.01 0.05 0.10 0.15

u1-?/2
2.58 1.96 1.645 1.44

0.20

1.28

例 3.5:P46

§3.3 比例的估计
调查中常会遇到需要调查具有某种属性的单元数 在总体单元数中所占比例的问题。
例如,支持与否,合格、不合格,男、女等等 总体单元分为两类 具有某种属性 不具有该属性 单元数 A N-A

需要估计的是: A 或比例 P=A/N

方法一
引进一个指标,第i个总体单元的取值为 ?1, 第i个单元具有某属性 yi ? ? , ? 1,? , N i 否则 ?0, 此时, A ? Y ? ? Yi , P ? A N ? Y 。
i ?1 N

故对P、A的估计问题完全可转化为对 Y 、Y的估计问题, 仅是前一节的一种特例。

记样本观测值为( y1 ,?, yn ), yi也都取0或1, ? 记 a ? ? yi , P ? a n ? y 。
i ?1 n

比例的估计

方法一

? Th 3.4.1 对于SRS , 是 P 的无偏估计, P ? ) ? PQ N ? n ,其中Q ? 1 ? P。 且V ( P n N ?1
证明: 1) ( P ) ? E ( y ) ? Y ? P ; E ? ? ) ? V ( y ) ? N ? n S 2, 2) V ( P Nn 1 ? N 2 1 N 2 2? 2 ?NP ? NP ? ? N ? 1 PQ, 而S ? ? ? yi ? NY ? ? N ? 1 ? i ?1 ? N ?1 ? ) ? PQ N ? n 。 ? V (P n N ?1

注:
? V ( P) 与 P 的关系
? V (P)

0

1

P

比例的估计
? ) ? 1 ? f P(1 ? P) ? ? Th3.4.2 对于SRS ,v( P n ?1 ? 是 V ( P) 的无偏估计。

方法一

1? f 2 ? 证明:( y ) ? v s 是 V ( y ) 的U.E. ,也即V ( P) 的U.E. , n 1 ? n 2 1 2 2? ? ? 而s ? nP ? nP 2 , ? ? yi ? ny ? ? n ? 1 ? i ?1 ? n ?1 ? ? 故 v( P ) ? v( y ) 是 V ( P ) 的U.E. 。

?

?

比例的估计
推论: ? ? A ? NP 是 A 的U.E.;

方法一

? ) ? N ( N ? n ) PQ ; V(A N ?1 n ? ) ? N ( N ? n ) P(1 ? P ) 。 ? ? v( A n ?1
2

方法二
可以看出, 是 P 或 A 的充分统计量,且a 服从超几何分布, a 其概率密度为: ? A ?? N ? A ? ? N ? P r{ ? k} ? ? ?? a ? k ?? n ? k ? ? n ? , ? ? ? ? ?? ? ? ? 其中 k ? max{ , n ? ( N ? A)}, ?, min{A, n} 0
样本( y1 ,?, yn )的似然函数为: ? A ?? N ? A ? L( A; y1 ,? yn ) ? c ? ? ?? ? a ?? n ? a ? ? ? ?? ? 或 ?N ? ? ?, ?n? ? ? A ? a, a ? 1,?, N ? ( n ? a ),

? NP ?? N (1 ? P ) ? L( P; y1 ,?, yn ) ? c ? ? ? a ?? n ? a ? ?? ? ? ?? ?

?N ? a N ? (n ? a ) 。 ? ? , P ? , ?, ?n? N N ? ?

比例的估计

方法二

由此可获得 1) A、P的MLE; 2) A、P精确的置信区间 (但计算比较复杂); 3) A、P近似的置信区间。
当 N 充分大、且 f 接近于 0 (约 n ? 0.1N) 时,有 a ~ B ( n, P ) ; ? ? ? 当 N , n 充分大、f 接近于 0 时,有 P ~ N ( P, PQ n ) ; ? ?? P 知 再由 P ?
P

? P?P ~ N (0,1) 。 ? 1? f ? ? P (1 ? P ) n ?1

比例的估计
由此构造的P 的近似1 ? ?置信区间为:

方法二

?? 1? f ? ? ) , P ? u1?? 2 1 ? f P(1 ? P ) ? 。 ? ? ? P(1 ? P ? ? P ? u1?? 2 n ?1 n ?1 ? ? 考虑连续性修正,则 的置信区间为: P ?? 1? f ? ? ) ? 1 ), P ? (u1?? 2 1 ? f P (1 ? P ) ? 1 )? 。 ? ? ? P(1 ? P ? P ? (u1?? 2 ? n ?1 2n n ?1 2n ? ?

§3.4 样本量的确定
样本量的确定(抽多少)问题是抽样设计中的重 要内容。
主要考虑的因素:
1.

2.

精度。一般来说,n越大,抽样误差越小,估计量 的精度越高。 费用。n越大,费用越大。

原则:
在精度与费用之间作折衷。

一、SRS中,n与费用及精度的关系
费用函数: Ct=c0+c1n
其中 Ct 表示总费用; c0是与样本容量无关的固定费用,包括组织、宣传、问 卷设计、必要设备、对总体的初步了解等固定支出; c1是平均调查一个单元的费用,包括问卷印刷、调查员 酬金及旅费、以及调查(测试)本身的费用。

一般,c0、c1 事先可以给定。如果规定了总费用 Ct 的上限,那么就确定了 n 的上限。

一、SRS中,n与费用及精度的关系
精度:
前面我们已经讨论了在概率意义下估计量的最大绝对误 差、最大相对误差:

? d ? u1?? 2 S (? ) ,

? ? r ? u1?? 2 S (? ) ? ? u1?? 2CV (? )
其中? 指待估计的总体目标量 ,可以是Y , Y , P 或 A。 ??是?的估计量。 ? 对? 的精度要求,可以以规 d , r 或以规定标准差、变异 定 系数 的形式提出。 ? ? V (? )、CV (? ) 都与样本容量 n 有关。故对给定的精度 要求, 可求出所需的最小样本 容量。

二、估计总体均值或总和时,如何确定n
N ?n 2 由 d ? u1?? 2 S 可解得 Nn u12?? 2 S 2 d 2 n? 。 1 2 1 ? (u1?? 2 S 2 d 2 ) N 2 2 2 记 n0 ? u1?? 2 S d , n0 若 n0 ?? N,则取 n ? n0;否则 n ? 。 1 ? n0 N

以“估计Y 时按规定的最大绝对误 d来确定 n ”为例。 差

n, n0关于总体方差 S2 单调增。

二、估计总体均值或总和时,如何确定n

以“估计 Y 时按规定的最大相对误差 d来确定 n ”为例。
d ? rY , n0 ? u12?? 2 S 2 r 2Y 2

n0 若 n0 ?? N,则取 n ? n0;否则 n ? 。 1 ? n0 N

二、估计总体均值或总和时,如何确定n
以估计 量y的精度的要求是以变异系数 上限C给出的,来确定 n 。

? ? r ? u1?? 2 S (? ) ? ? u1?? 2CV (? ) n0 ? u12?? 2 S 2 r 2Y 2
2 u12?? 2 S 2 S ? ? 2 2 2 2 ? CY (u1?? 2CV (? )) Y

n0 若 n0 ?? N,则取 n ? n0;否则 n ? 。 1 ? n0 N

三、估计总体均值或总和时,如何确定n

事先对S2作粗略的估计: 1)根据以往资料、相关资料、经验或相关知 识; 2)试点调查; 3)实在没有任何信息时,可作合理的假定或 猜测。 由规定总体均值估计量的标准差,来确定样 本容量的方法与此类似。

三、估计总体均值或总和时,如何确定n
由规定总体均值估计量的相对误差限、或变异系 数,来确定样本容量: ?方法也类似。 ?所需的信息为相应指标的总体变异系数CV=S/Y。 ?与S相比,对于同一个指标,CV随时间、地理区 域的变化而变的幅度相对小些,稳定些。
由对总体总和的估计规定最大绝对、相对误差限, 或标准差、变异系数,来确定样本容量可类似地 讨论。

三、估计总体均值或总和时,如何确定n 例:在例3.5中要求人均消费件数的估计的 d=0.2,而人均消费支出金额的估计的 r=0.05,试求样本量n。置信度为95%, 成衣消费件数总体的标准差估计为4, 消费金额总体的变异系数为0.9(根据 ex3.5中的样本数据估计)。

对于人均消费件数的估计 d=0.2,u1?? 2 ? 1.96, S x ? 4 u1?? 2 S x ? ? 1.96 ? 4 ? 2 ? n0 x ? ? ? ?? ? ? 1536.84 ? 1537 ? d ? ? 0.2 ? ? u1?? 2C ? ? 1.96 ? 0.9 ? n0 y ? ? ? ?? ? ? 1244.6784 ? 1245 ? r ? ? 0.05 ? n0 ? 1537
2 2 2

n0 1537 n? ? ? 1199 1 ? n0 N 1 ? 1537 5443

三、估计 P、A 时,如何确定n
1. 规定P的最大绝对误差为d,确定n。
PQ N ? n d ? u1?? 2 n N ?1 n( N ? 1)d 2 ? u12?? 2 PQN ? u12?? 2 PQn u12?? 2 PQ 2 u12?? 2 PQN d n? 2 ? 2 u1?? 2 PQ ? ( N ? 1)d 2 1 ? u1?? 2 PQ ? 1? ? ? 1? 2 ? N? d ? ?

三、估计 P、A 时,如何确定n

(1) 是否可由上面的公式直接确定n?
还不行!公式中含有未知的总体参数P。 似乎是个矛盾,怎么解决?

根据历史、经验或其他资料,事先给出P的粗略 估计p0,由此计算 n ;或者给出估计P的范围, 比如[p1,p2],在这区间上计算 n 的最大值,以 该最大值来定样本容量。

三、估计 P、A 时,如何确定n

(2) n 与 P 的关系
n 关于 PQ 单调增,而 PQ 是 P 的二次函数。 当 P=0.5 时,PQ 达到最大,为0.25,此时n也最大。 当 P未知时,此 n 可作为最保守的样本容量。 若已知 P 的范围为[0.05,0.10],则取 p0=0.10 对应 的 n 作为样本容量。 若已知 P 的范围为[0.7,0.9],则取 p0=0.7 对应的 n 作为样本容量。

三、估计 P、A 时,如何确定n

(3) n 的计算可近似 u12?? 2 S 2 u12?? 2 p0 q0 取 n0 ? ? ,则 2 2 d d n0 n0 n? ? ; 1 ? (n0 ? 1) N 1 ? n0 N
当 n0 ?? N 时,可取 n ? n0 。

三、估计 P、A 时,如何确定n
例:某厂有一批产品共3200件,希望通过SRS估计 其中优等品的比例P。该厂希望对此比例的估计误 差最多不超过4%。据以往经验,P约在45%左右。 试确定样本容量n。
首先,应该明确4%只能是概率意义下的最大绝对误差,一 般默认?=0.05,则
u1?? 2 ? 1.96, 1.962 ? 0.45 ? (1 ? 0.45) n0 ? ? 594。 2 0.04 因 n0 N ? 0.19 不太小,不能忽略,故 取 n? n0 594 ? ? 501。 1 ? n0 N 1.19

在实际设计抽样方案 时,往往需要反复在 精度与样本容量之间 作平衡。

三、估计 P、A 时,如何确定n
2. 规定P的最大相对误差为r,确定n。
PQ N ? n 由 r ? u1?? 2 P 可得下面的计算公式: n N ?1 u12?? 2 p0 q0 u12?? 2 q0 取 P 的初步估计 p0,计算 n0 ? ? 2 , 2 d r p0 n0 若 n0 ?? N,取 n ? n0;否则 n ? 。 1 ? n0 N
注意:规定同样的相对误差,n, n0 随 P增大而减小; 当 P 较小时,对 P作初步估计要小心,例:P=0.01时, Q/P=99,而当 P=0.1时,Q/P=9,样本容量之比为11:1 !

三、估计 P、A 时,如何确定n
当 N很大,但 P 很小时,要保证一定的相对误差 的要求,SRS需要的样本容量很大。书上建议 了一种“逆抽样”的方法。

3. 若规定 P 的标准差(方差)或变异系数, 来确定n。 4. 若规定 A 的精度要求,那么可将其转换 为P的精度要求,再定样本容量。

四、估计多个目标量时,样本容量如何定?

1. 根据对每个目标量的精度要求,分别计
算所需的最小样本容量,取其中最大的 一个。 2. 根据最重要的目标量的精度确定容量。

五、最小化综合损失定样本容量
有时候,抽样误差导致的损失可量化,例如
1)某厂对某一产品市场需求量?的估计误差带来的损 失可量化。 2)对某批产品不合格P的估计,误差损失也可量化。

这时,可综合考虑调查费用和误差损失,确定样 本容量。

注意:
确定样本容量没有万能的公式! 各种方法、公式都只是给出一个可供参 考的尺度。 样本容量究竟需要多少,事实上往往只 能在调查之后才能比较精确地知道。 需要经验的积累。

3.5 放回简单随机抽样

一、估计量及其性质
估计目标量Y , 1 n 样本均值:y ? ? yi n i ?1 ti : 总体中第i个单元出现的次数,ti ? 0,1, 2,? ti ~ B (n,1 N ) n n? 1? E (ti ) ? ,V (ti ) ? ?1 ? ? , N N? N? n Cov(ti , t j ) ? ? 2 N

1 N 样本均值:y ? ? tiYi n i ?1 1 N 1 n E ( y ) ? E ( ? tiYi ) ? n i ?1 nN V (y) ?

?Y ? Y ,
i ?1 i N 2

N

?

2

n

,

1 2 ? ? N

N ?1 2 ? (Yi ? Y ) ? N S i ?1

1 n s2 ? ( yi ? y ) 2 ? n ? 1 i ?1 s v( y ) ? 是V ( y )的无偏估计。 n
2

二、设计效应与样本量的确定
1、设计效应的定义 设计效应(design effect , deff ) ? 一个特定的抽样设计估计量的方差V (?1 )对相同样本量下 ? 不放回SRS的估计量的方差V (? )之比,即
0

? V (?1 ) deff ? ? V (? 0 ) 2、设计效应的作用 (1)比较不同抽样设计方案的效率; (2)有助于复杂抽样设计的样本量的确定。 n ? n0 ? deff


推荐相关:

市场调查与分析题库1(含答案)

户居民从l—4000编号,在1—100号中随机 抽取l个号码,结果为3号,则3.103....A.简单随机抽样 C.整群随机抽样 B.系统随机抽样 D.分层随机抽样 83.当(D)...


实验课程三 简单随机抽样(二)

实验(实训)报告 项目名称 所属课程名称 项目类型 实验(实训)日期 简单随机抽样...[9,] 15.53450 18.04094 16.22386 13.87803 18.13349 14.42493 18....


统计学课后答案第七八章

7.4 从总体中抽取一个 n=100 的简单随机样本,得到...=(79.03,82.97) (2)构建 ? 的 95%的置信...现从某天生产 的一批产品中按重复抽样随机抽取 50 ...


抽样方法有哪些?

时间:2014-3-03 关键词:抽样 抽样是应用 SPC 软件进行过程控制的重要环节之一...抽样的方法有以下三种:简单随机抽样、系统抽样和分层抽样。 1、简单随机抽样 ...


统计学第6章习题答案

样本均值的抽样标准差与样本量无关 23、抽取一个样本量为 100 的随机样本,其...要求估计 误差不超过 0.03,置信水平为 90%,应抽取的样本量为(C) A、552 ...


应用抽样技术答案

? 0.03276 n 30 y ? 1682 / 30 ? 56.067 s2 ? 1 n 1 ? n 2 ?...0.4 1 样本量为 100 的简单随机抽样估计方差: 1? f 2 1 N 1 V? S ...


练习题答案03

5.什么是随机抽样,它有哪些抽样方法? 6.什么是横断面研究?它的主要目的和用途...对于传染病或一些病因简单的非传染病,联系的特异 性不难发现,但是,对于大多数...


常见的随机抽样方法介绍

式总体内的各个个体 被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样。 ...文档贡献者 liangbing9355 贡献于2015-03-13 专题推荐 2014下半年教师资格......


抽样

抽样_生产/经营管理_经管营销_专业资料。简单随机抽样 1、为了合理调配电力资源,...文档贡献者 baby谢春燕123 贡献于2014-03-11 专题推荐 2014下半年教师资格.....


本科模拟考试

户居民从 l—4000 编号,在 1—100 号中随机抽取 l 个号码 3,则 3.103....3903 构成抽样调查样本,这样的抽样方法为( )。(1.0 分) A. 简单随机抽样 ...

网站首页 | 网站地图
All rights reserved Powered by 简单学习网 www.tceic.com
copyright ©right 2010-2021。
文档资料库内容来自网络,如有侵犯请联系客服。zhit325@126.com