tceic.com
简单学习网 让学习变简单
相关标签
当前位置:首页 >> 数学 >>

z-CH6不等概抽样-第1、2、3节


CH6 不等概抽样
2-3课时

sampling with unequal probabilities

2013-7-4

统计学专业必修课3学分

1

不等概抽样在抽样方法体系中的地位
等概率抽样 概率抽样 广义的抽 样调查
? ?

>
不等概率抽样

非概率抽样

?

入样概率是概率抽样中的一个重要概念 等概率抽样,每个单元的入样概率相等 问题:典型的等概率抽样包括? 不等概抽样,每个单元的入样概率不完全相等 入样概率都是已知或是可以计算出来的

2013-7-4

统计学专业必修课3学分

2

概率抽样的特点之一 ——入样概率已知或可计算出来
? ?

比如,简单随机抽样srs,1000个单元中抽100个 比如,分层随机抽样str 被抽中的概率 nh Nh 大型企业 中型企业 小型企业 100 1000 10000 50 1/2 1/10 1/20 入样概率 2/3 1/3
3

100 500

?

又如,PPS抽样,2个企业中取1个 净利润 甲 1000万元 乙
2013-7-4

扩展

500万元
统计学专业必修课3学分

CH6内容体系
?

§6.1 问题的提出
介绍不等概抽样的概念、特点、适用性、种类等

?

§6.2 放回不等概抽样(PPS抽样)(Sampling with Probability proportional to size)
介绍与单元大小成比例的放回的不等概抽样,主要说明PPS 抽样的含义、抽选方法、以及H-H估计量形式及其性质

?

§6.3 不放回不等概抽样(πPS抽样)
介绍与单元大小成比例的不放回不等概抽样,主要说明πPS 抽样的含义、采用的估计量形式及其方差,并介绍在n不同 的情况下严格的πPS抽样以及几种非严格的πPS抽样

2013-7-4

统计学专业必修课3学分

4

§6.1 问题的提出
一、不等概抽样的必要性 (一)等概率抽样的特点及缺陷 (二)不等概抽样的含义、适用性、优点、条件等
?

二、不等概抽样的分类 (一)放回不等概率抽样 (二)不放回不等概抽样
?

2013-7-4

统计学专业必修课3学分

5

一、不等概抽样的必要性
(一)等概率抽样的特点及缺陷 ? srs是典型的等概率抽样,从三个层次上理解(?) ? str的等概率性可以从两个方面来理解 ? 每一层内的抽样是按简单随机抽样进行的,因此层内 的抽样是等概率的 ? Propst是典型的等概率抽样,各单元的入样概率都是 相等的 ? 等概率抽样的基本点是将总体(或层)中的每一个单元看 作是平等的,不“偏向”也不“疏远”某些特定的单元, 在抽样时对每个单元采取“不偏不倚”的态度 ? 评价:如果各总体单元间的差异不大,这种处理方法既 简单又合理
2013-7-4 统计学专业必修课3学分 6

等概率抽样的缺陷
?

但是,在一些调研问题下,等概率抽样存在明显的缺陷。 比如,各总体单元间相差较大,也即总体方差大的情况, 等概率抽样的效果就不一定好,例如: ? 居民住户调查中,以家庭为抽样单元,调查家庭的食品 消费支出或者调查家庭的娱乐消费支出,如何设计抽样
?

?

食品消费支出,由于各个家庭的规模相差不大,同时食品 消费支出的价格和收入弹性也不大,实施等概率抽样是可 以也是有效地 娱乐/保健品/奢侈品等消费支出,价格和收入弹性较高, 同时各家庭的成员结构不同,一视同仁的做法欠妥

?

? ? ?

为了估计一个城市的商业销售总额,对各商业网点进行 调查 以船舶为抽样单元,对船舶运输量进行调查 以个人储户为抽样单元,调查储户对银行服务的满意度 以个人用户为抽样单元,调查移动业务用户的满意度
统计学专业必修课3学分 7

2013-7-4

(二)处理方法
当出现总体单元差异特别大的情况时,通常是牺牲“简 单”来提高抽样效率 ? 对此有两种处理方法: 1、将总体单元按规模大小分成若干层进行st,比如: ? 对商业网点的调查,按资金总额或营业面积或员工总 数等规模变量分成大、中、小型等几层,大型商场的 抽样比可以高些,小型商店的抽样比可以低些,少数 特大型商场甚至可以进行100%抽样(目录抽样) ? 这时每层有一个抽样比,各层抽样比不同,总的来说 也属于不等概率抽样 ? St是等概率抽样向不等概抽样的过渡形式
?

2013-7-4

统计学专业必修课3学分

8

2、不等概抽样
? ?

? ? ?

St给各层的单元一个不同的入样概率 更进一步地,考虑得更细一点,给每个单元一个不同的 入样概率,即,在抽样时将总体各单元被抽中的概率与 其规模大小联系起来:入样概率与规模成比例,大单元 抽到的概率大,小单元抽到的概率小 这就是典型的不等概(率)抽样 st实际上是不等概抽样的粗略方式 比如:按PPS抽样,2个企业中取1个 净利润 甲 乙
2013-7-4

入样概率 2/3 1/3
9

1000万元 500万元
统计学专业必修课3学分

扩展

(三)不等概抽样的一般问题
? ? ? ?

1、含义 2、作用/适用性 3、主要优点 4、要求/前提条件

2013-7-4

统计学专业必修课3学分

10

1、含义
所谓不等概抽样,即总体中各单元被抽中的概率不相等。 这个概率通常与各单元的某个辅助变量大小成正比例 ①各单元被抽中的概率称为“入样概率”。设总体含有N 个单元,那么各单元入样概率用Zi(i=1,2,…,N)表示。 在不等概抽样下,Zi是不完全相同的 ②“Zi与某一辅助变量Xi大小成正比例”。如果某一单元 的辅助变量越大,则该单元被抽中的概率越大。所以, 辅助变量也称为入样指标 Zi=Xi/∑Xi,(i=1,2,…,N) ∑Zi=1 ? 是否需要入样指标来确定入样概率,成为不等概率抽样 和等概率抽样的本质区别
?
2013-7-4 统计学专业必修课3学分 11

1、含义(续)
③最重要、也是最常用的入样指标是规模变量(size),即, 抽样是严格按照与单元大小成比例的概率来进行。此时, 不等概抽样称为PPS抽样(Sampling with probability proportional to size) ④不等概抽样可分为放回的和不放回的。放回的不等概抽样 简称为PPS抽样,不放回的简称为πPS抽样
广义的 PPS抽样 狭义的PPS抽样,简称PPS抽样 πPS抽样 第三节 第二节

2013-7-4

统计学专业必修课3学分

12

2、作用或适用性
①各抽样单元在总体中所占的地位不一致 ? 居民住户调查中,调查家庭的日常消费支出或娱乐/保 健品等奢侈消费支出,会采用不同的抽样设计 ? 为估计一城市的商业销售总额,对各商业网点进行调 查 ? 以船舶为抽样单元,对船舶运输量进行调查 ? 以个人储户为抽样单元,调查储户对银行服务的满意 度 ? 以个人用户为抽样单元,调查移动业务用户的满意度 ②调查的总体单元与抽样总体的单元不一致的情况,比如: ? 大型企业对职工家庭情况进行调查 ? 某小学对在校生家庭情况进行调查 ③改善估计量
2013-7-4 统计学专业必修课3学分 13

③改善估计量
?

不等概抽样还广泛应用于由于种种原因不能或不需要 对基本单元(BU: Base Unit)直接抽样的情形,比如 ? 整群抽样(CL: cluster sampling) 中,若群大小 (用群内包含的BU数Mi表示) 相差较大,常采用对 群的不等概抽样 ? 多阶段抽样(MS: Multi-Stage sampling)中,若 初级单元大小(用所包含的次级单元数目表示)相差 较大,则常采用对初级单元的不等概抽样 ? 比率估计中消除小样本比率估计量偏倚的方法—— 水野法
统计学专业必修课3学分 14

2013-7-4

3、主要优点
? ?

?

主要优点:可以大大提高估计的精度,减少抽样误差 这一点可弥补其他方法的局限性,比如 2 ? 采用srs,虽然简单估计量是无偏的,但如果S 较大, srs估计效果不好;而要提高估计精度,需要增加n, 从而增大费用,影响经济效果 ? 比率估计量可有效地提高估计精度,但是有偏 ? 可以利用st,提高抽样估计精度,但这种抽样的估计 效果很大程度上取决于层内方差Sw2,有时层是客观存 在、而非人为划分的,因此有可能层内方差还较大 ? 而CL当各群的大小差别较大时,每个群对总体的影响 是不同的,此时在等概率抽样时推断总体均值需采用 加权的方法从而增加了估计的难度。MS也是如此 上述情况下,若采用不等概抽样,就有可能改善估计量, 减少偏差或抽样误差,从而得到较好的抽样估计效果

2013-7-4

统计学专业必修课3学分

15

4、要求
基本要求:必须获得各单元的某辅助变量Xi用以确定其Zi ? 这不仅在抽样时是必需的,在估计推断中也是必要的 ①选择合适的辅助变量 ? 一般是规模变量 ? 表示单元规模的标志有很多,如:以企业为抽样单元, 企业的职工人数、注册资本金、产品销售收入、增加值、 利润等都可用来表示企业的大小。哪个最优? ? 如果目标量为Y的总体总值或总体均值,则 ? 应选择与Y成比例的规模变量作为计量单位大小的尺度, 此时抽样效果更好 ②事先确知各单元辅助变量Xi的数值
?
2013-7-4 统计学专业必修课3学分 16

二、不等概抽样的分类
(一)放回不等概抽样 (二)不放回不等概抽样

2013-7-4

统计学专业必修课3学分

18

1、放回不等概抽样
? ? ?

对总体各单元按入样概率进行抽样,每次只抽1个 抽出来的单元记录后再放回总体,再进行下一次抽取 因此,每次抽样过程都是从同一总体中独立进行的 优点:放回不等概抽样的实施及估计过程比不放回的 相对要简单 缺点:但是由于抽样是放回的,因此,某单元可能在 样本中出现多次。出现这种情况时,对这个单元只调 查一次,但计算时,抽中几次就参与计算几次 与单元大小(Size)成比例的放回不等概抽样即狭义的 PPS抽样,简称PPS抽样
2013-7-4 19

? ?

?

统计学专业必修课3学分

2、不放回不等概抽样(了解)
(1)逐个抽取法 ? 逐个抽取,但后面的抽取与前面的抽样结果不独立,各 单元的入样概率受前面抽取结果的影响 (2)重抽法 ? 逐个进行放回抽样,如果有重复,则放弃所有抽到的单 元,重新抽取,直到所有n个单元均不重复为止 (3)全样本抽取法 ? 确定入样概率的一定界限,入样概率高于此标准的单元 入样 ? 所以,样本量是一个随机变量 (4)系统抽样法 ? 类似于系统抽样,与放回PPS抽样的代码法也类似
2013-7-4 统计学专业必修课3学分 20

§6.1小结
? ?

不等概抽样在现实中的意义/作用/优点 PPS抽样的含义

§6.1结束
2013-7-4 统计学专业必修课3学分 21

§6.2 放回的不等概抽样(重点)
PPS抽样:sampling with Probability Proportional to Size

2013-7-4

统计学专业必修课3学分

22

§6.2的内容体系
一、多项抽样与PPS抽样 ? (一)多项抽样 ? (二)PPS抽样 二、实施方法/样本抽选方法 ? (一)代码法 ? (二)拉希里(Lahiri)法 三、汉森——赫维茨估计量 ? (一)估计量的形式 ? (二)估计量的性质:无偏性、方差、方差的估计 ? 典型例题:P130 例[6.2]
2013-7-4 统计学专业必修课3学分 23

一、多项抽样与PPS抽样
(一)多项抽样(multi-nomial sampling) ? PPS抽样是一种多项抽样 ? 设Zl,Z2,…,ZN是一组概率,其和为1,按这组概率 对总体中的N个单元进行放回抽样,每次抽中第i个单 元的概率为Zi,独立地进行这样的抽样n次,则这种不 等概抽样为多项抽样 共抽到n个单元, ? 问题:为何称为多项抽样呢? 有可能重复 这种抽样方式的结果,其联合分布为多项式分布

n重贝努里试验
2013-7-4 统计学专业必修课3学分

二项式分布
24

n重贝努里试验
贝努里试验产生于有放回的抽样,是在相同条件下重复进 行试验n次 ? 每次试验有两个可能的结果 A A ? 每次试验,两个结果出现 p 1? p 的概率分别为 ? 现在独立地进行这样的试验n n1 n ? n1 次,两种结果出现的次数为
?

?

则n1服从参数为n和p的二项式分布
n P(n1 , n2 ; n, p) ? CN p n1 (1 ? p) n?n1 ?

n1~B(n,p)

n! p n1 (1 ? p) n?n1 n1!(n ? n1 )!

?二项式分布的数字特征

E(n1 ) ? np V(n1 ) ? np(1-p)
统计学专业必修课3学分 25

2013-7-4

将二项式分布扩展到多项式分布(P125
?

6.1~6.2)

如果每次试验有N个可能的结果

A1
每次试验,N个结果出现 的概率分别为
?

A2

A3 ...... AN

Z1
t1

Z2
t2

Z3 ......Z N
t3 ...... t N

现在独立地进行这样的试验 n次,N种结果出现的次数为 ? 则ti服从多项式分布
?

n! t t t P(t1 , t2 ,...,t N ; n, Z1 , Z 2 ,...,Z N ) ? Z1 1 Z 2 2 ...Z N N t1!t2!... N ! t
?

这个多项式分布的数字特征
i ? 1,2,..., N
2013-7-4

E(ti ) ? nZi V(ti ) ? nZi( 1-Zi ) cov(ti , t j ) ? ?nZi Z j

统计学专业必修课3学分

26

(二)PPS抽样
?

特别地,在多项抽样中,如果每个单元有说明其大小或规 模的度量Mi,则Zi可取 M M
Zi ?
i

? Mi
i ?1

N

?

i

M0

?这时,每个单元在每次抽选中入样的概率与其单元规模的大

小成比例
?此时,多项抽样称为放回的与单元规模大小成比例的概率抽

样(sampling with probability proportional to size),简称PPS抽 样

2013-7-4

统计学专业必修课3学分

27

关于规模的度量
?

实际问题中总体单元大小的度量往往不止一个, 比如
?

? ?

? ?

企业的员工数量、产值、销售量、利润等都可以度 量企业规模的大小 商业网点或超市等,营业面积也是不错的选择 对于运输企业或运输工具的度量,运载能力或载重 吨位等 居民小区的居民户数 ……
统计学专业必修课3学分 28

2013-7-4

二、实施方法(PPS抽样的抽选方法)
(一)代码法(累计总和法) ? Hansen和 Hurwitz于1943年提出的,所以也称汉 森——赫维茨方法 ? 做法 1、首先,赋予每个单元与Mi相等的代码数 2、然后,将代码数累加得到M0 3、最后进行抽样,每次抽样都产生一个[1,M0]之间的 随机数m,则代码m所属的总体单元被抽中 4、重复以上做法n次,则得到由n个单元构成的PPS样本 ? 在累加时要注意:抽选随机数通常抽选的是整数,所 以,如果Mi是整数,则直接累加;如果Mi不是整数, 则需要乘以某个倍数转化为整数
2013-7-4 统计学专业必修课3学分 29

P126[例6.1]说明
?

累计Mi很重要
? ?

借助累计Mi给每个单元赋一个代码范围 如果Mi不是整数,需要乘以某个倍数转化为整数

? ?

?

取样的过程转化为取[1,M0]中的一个随机数的过程 这样做,确实能够保证各单元被抽中的概率与Mi成比 例 现实应用时,取样的过程可以灵活处理

2013-7-4

统计学专业必修课3学分

30

[补例6.1]
?

i 1 2

Mi 0.6 14.5 1.5 13.7 7.8 15 10 3.6 6

Mi×10

累计 Mi×10

代码范围 1~6 7~151 152~166 167~303 304~381 382~531 532~631 632~667 668~727

6 145 15 137 78 150 100 36 60

6 151 166 303 381 531 631 667 727

设某个总体有 3 N=10个单元, 4 试用PPS抽样 5 抽取一个n=3 的样本 6 ?在[1,738]中 7 取随机数3个 8 ?随机数落到了 9 哪个单元的代 M 10 0 码范围内,哪 合计 个单元入样
2013-7-4

1.1
73.8

11
738

738
——

728~738
——
31

统计学专业必修课3学分

(二)拉希里法
? ?

?

?

印度统计学家拉希里(D.B.Lahiri)1951年提出的 做法 * * ? 令M =Max(Mi),即M 为诸Mi中最大的一个 ? 抽取[1,N]中一个随机整数i * ? 再抽取[1,M ]内一个随机整数m ? 判断:如果m≤Mi,则第i个单元入样; 如果m>Mi,则放弃,再重抽(i,m) ? 直到抽满n个单元为止 抽取n个样本单元的过程实际上是抽取n组(也可能多 于n组)随机数(i,m)的过程 [例6.1] ,比如: M*=260,(3,58),(6,236)
统计学专业必修课3学分 32

2013-7-4

三、Hansen-Hurwitz估计量
(P128 6.4~6.5)
第i个样本单元单位规模 的平均目标量大小

(一)H-H估计量的定义
? YHH

mi zi ? M0

M 1 n yi ? ? ? 0 n i ?1 zi n

yi 1 n ? m ? M 0 n ? yi i ?1 i ?1 i

n

说明: 1. 不等概抽样下,总值估计更有意义 理由:不等概抽样往往应用于总体单元规模相差较大 的情况 2. HH估计量的意义,体现了自加权的性质(P128)
2013-7-4 统计学专业必修课3学分 33

n yi ? ? ? 1 YHH ? M 0 1 YHH N ? N n i ?1 mi

(二)性质(P128 6.7~6.8)
? YHH
1. 2. 3.

M 1 n yi ? ? ? 0 n i ?1 zi n

M yi ? 0 ?m n i ?1 i

n

?y
i ?1

n

i

? M0 y

无偏性 方差 方差的无偏估计

? E(YHH ) ? Y
Y 1 N ? V (YHH ) ? ? Z i ( i ? Y ) 2 n i ?1 Zi

1 1 n yi ? 2 ? v(YHH ) ? ? ( z ? YHH ) n n ? 1 i ?1 i

mi zi ? M0

2 2 n ? M 0 n yi YHH 2 M0 ? ( ? ) ? ( yi ? y )2 ? ? n( n ? 1 ) i ?1 n(n ? 1) i ?1 mi M 0

2013-7-4

统计学专业必修课3学分

34

无偏性的证明
证明的基本思路:变量转换 设
Di ? Yi Zi

? YHH

1 n yi ? ? n i ?1 zi ? d



PPS抽样的过程就相当于: 总体各单元目标量D1, D2, …, DN 入样概率分别为 Z1, Z2, …, ZN N N N Yi D ? ? Di Z i ? ? Zi ? ?Yi ? Y 则,D变量的总体均值为 i ?1 Z i i ?1 i ?1

? E(YHH )
2013-7-4

1 n E (d ) ? ? E (d i ) ? D ? Y n i ?1
统计学专业必修课3学分 35

方差的证明
1 n 1 n yi ? ) ? V ( ? ) ? ?V ( yi ) V (YHH n 2 i ?1 zi n i ?1 zi

?
?

1 nV ( d i ) 2 n
1 E ( Di ? EDi ) 2 n

Y 1 N ? ? Zi ( i ? Y )2 n i ?1 Zi
2013-7-4 统计学专业必修课3学分

总体 方差

36

方差的无偏估计
Y 1 N ? V (YHH ) ? ? Z i ( i ? Y ) 2 n i ?1 Zi

1 1 n yi ? 2 ? v(YHH ) ? ? ( z ? YHH ) n n ? 1 i ?1 i

2013-7-4

统计学专业必修课3学分

37

H-H估计量的性质证明
?

(P129)

利用的是多项分布的数学性质 (P125 6.2)

E(ti ) ? nZi V(ti ) ? nZi( 1-Zi ) cov(ti , t j ) ? ?nZi Z j
i ? 1,2,..., N

2013-7-4

统计学专业必修课3学分

38

H-H估计的特点
? ?

? ?

无偏估计 在不等概抽样的过程中完成了加权,具有自加权的性 质,因此估计量形式及其方差都很简洁 引入了辅助变量,所以估计效果也不错 P126【例6.2】

2013-7-4

统计学专业必修课3学分

39

[补例6.2]——典型例题
? ? ? ?

? ? ? ?

研究目的:某部门要了解所属8500家生产企业当月完成 的利润 该部门手头已有一份各企业去年完成产量的报告,将其汇 总得到所属企业去年完成产量为3676万吨 考虑到时间紧,拟采用抽样调查来推断当月完成利润 根据经验,企业的产量和利润相关性较强,且企业的特点 是规模和管理水平差异比较大,通常大企业的管理水平较 高,因此采用与去年产量成比例的PPS抽样,从所属企业 中抽出一个样本量为30的样本,调查结果如下表 要求: (1)根据调查结果估计该部门所属企业当月完成的利润 (2)给出95%置信度下,估计的相对误差 (3)若要求在相同条件下相对误差达到20%,则所需的样 本量应该是多少?
统计学专业必修课3学分 40

2013-7-4

作业
? ?

思考:P144 6.1、6.2 作业:P145 6.3、6.4、6.6

§6.2结束
2013-7-4 统计学专业必修课3学分 41

案例介绍
中国公众科学素养抽样调查

2013-7-4

统计学专业必修课3学分

42

中国公众科学素养抽样调查的问卷题目
?

?
? ? ?

“父亲的基因是否决定孩子的性别?” “宇宙产生于大爆炸吗?” “DNA是什么?” “你是否相信占星术?” “……”

2013-7-4

统计学专业必修课3学分

43

关于公众科学素养抽样调查
?

?

? ?

作为一项基础性工作,公众科学素养抽样调查受到了 许多国家和地区的高度重视 美国从1972年起每2年进行一次,其调查结果在《科 学和工程学指标》中公布 日本、加拿大、欧盟成员国也定期开展调查 中国自1992年起,也陆续实施了八次公众科学素养抽 样调查,调查的时间分别为:
?

1992、1994、1996、2001、2003、2005、2007、 2010

2013-7-4

统计学专业必修课3学分

44

调查目的
总的来说:为制定科普规划和科普政策提供科学依据 ? 具体地: 1、把握人们对科学知识、科学方法和过程的了解程度 2、把握人们对科学对个人和社会的影响的了解程度 3、了解公众获取科学技术信息的渠道和方法 4、探究人们对科学技术的态度 5、……
?

2013-7-4

统计学专业必修课3学分

45

调查内容
第六次调查从公众的不同性别、不同年龄段、不同文 化程度、不同职业以及城乡的差异上反映基础数据 ? 其中,有关“中国公众对科技信息的感兴趣程度和获 取科技信息的渠道”调查是公众科学素养调查的重要 组成部分,主要内容包括: 1、我国公众对科技信息的感兴趣程度 2、公众获得科技发展信息的主要渠道和方法 3、公众对科普活动的参与度和知晓度 4、公众利用科普设施的情况等
?

2013-7-4

统计学专业必修课3学分

46

方法
?

?

? ?

调查对象:中国大陆18~69岁成年公民 (不含港、澳、台) 抽样方法:与人口规模成比例的分层四阶 段不等概抽样 调查方法:派员入户调查 样本容量:8570人(第六次)

2013-7-4

统计学专业必修课3学分

47

调查结果中的一些有意思的结论
? ?

2001年调查结果显示: ——中国大陆有一半以上的父母希望子女未来的职业是医生 2005年调查结果显示: ——男性公众、低年龄段公众、受教育程度较高的公众以及职业为国 家机关、党群组织负责人的,对各种科技信息感兴趣的比例排在前列 ——在正规的学校教育之外,大众媒体是科技信息的主要传播途径 ——电视是我国公众科技信息的最主要来源,比例高达91.0%;其 次是“报纸杂志”,比例为44.9%;通过“广播”获得信息的比例 为22.4%;通过“图书”、“科学期刊”和“其他”途径的比例依 次为10.2%、9.5%和7.9%;通过“因特网”获得信息的比例仍最 低(7.4%),但比2003年提高了1.5个百分点 ——另外,有48. 7%的公众还通过“与人交谈”的方式获取信息。 相比而言,女性(51.4%)、50-59岁年龄段(54.3%)、小学文化程 度(60.3%)、农林牧渔水利业生产人员(61.0%)和乡村居民 (57.5%) ,利用“与人交谈”的比例相对较高 ——影响科普设施利用的因素中,“交通不便”对离退休人员的影响 最大(3.9%);“门票太贵”对失业人员及下岗人员的影响最大 (2.8%);商业及服务业人员“不感兴趣”的比例最高(23.5%); 16.7%的家务劳动者因 “不知道”而未利用这些设施
2013-7-4 统计学专业必修课3学分 48

§6.3 不放回不等概抽样
不要求

2013-7-4

统计学专业必修课3学分

49

CH6小结
?

掌握: ? 什么是不等概抽样?有哪些优点?适用性?条件? ? 什么是PPS抽样?PPS抽样的方法有哪些? ? 掌握PPS抽样的HH估计方法
?

(典型例题:例和补例[6.2])

?

理解: ? PPS抽样与多项抽样之间的关系

2013-7-4

统计学专业必修课3学分

50

补充思考题

2013-7-4

统计学专业必修课3学分

51

思考题1
? ?

?

某大型企业集团欲对总部及子公司各部门工作情况进 行抽查,根据时间要求,准备抽出n个部门进行调查 调查人员从人事部门的计算机里获得了集团全体职工 的名单,这份名单注明了每个职工工作的部门。调查 人员在计算机上顺序给每位职工编号,最大为N,并 利用计算机分别从1~N中产生了n个伪随机数,根据 这n个随机数所对应的号码,找到了对应的职工,于是 将这n个职工所在的部门记录下来,然后调查者分别对 这些部门进行了调查访问 有人认为:“这不是抽部门,而是抽职工,而且抽到 某个职工则这个部门的所有(可以看作抽样框中与之相 邻的)职工均被抽中,这显然违反了随机原则,而且操 作费事,应该直接抽部门。”对此,你有何评论?
统计学专业必修课3学分 52

2013-7-4

思考题2
?

?
?

某个调查人员从总体中抽出了一个样本量为n的简单随机样 本,调查开始之前,他又获得了一份总体单元的详细名单, 这份名单很不错,除了单元的名录,还有每个单元的其他相 关指标,因此他在调查每个样本单元的时候注明了它们的其 他相关指标 调查完成后,调查人员发现每个单元的目标量yi差异非常大, 但目标量除以某个相关指标后,差异非常小 因此,为了提高估计的精度,他决定采用下述公式进行推算

X ? ? Xi
i ?1

N

1 n yi ? Y?X? ? n i ?1 xi ? 1 n yi Y 2 2 ? v(Y ) ? X ? ?( x ? X ) n ? 1 i ?1 i

名单目录中有
?
?

根据上述公式推算得到的结果,精度相当高,给调查人员非 常满意 你认为该调查人员的工作有需要改进的地方吗?

2013-7-4

统计学专业必修课3学分

53

思考题3
?

比较PPS抽样Hansen-Hurwitz估计量 与简单随机抽样比率估计量的差别

2013-7-4

统计学专业必修课3学分

54

比率估计与不等概抽样估计的差异
?
?

?

?

? ?

二者所属的方法体系不同 比率估计是估计方法体系的成员,与简单估计、回归 估计、差值估计、乘积估计等并列 不等概抽样相对于等概率抽样,与等概率抽样同属概 率抽样方法体系,不等概抽样估计是针对不等概抽样 所提出的估计方法,主要应用的是Hansen-Hurvitz估 计和Hurvitz-Thompson估计,前者用于放回的不等 概抽样,后者用于不放回的不等概抽样。放回的不等 概抽样现实中用的较多,H-H估计量简单且讨论的也 比较清楚,在此,不等概抽样估计以H-H为代表来说 明 二者都要使用辅助变量,选择辅助变量的标准也类似(可 以列举),但辅助变量起的作用不同 比率估计辅助变量是帮助提高估计精度的 不等概抽样的辅助变量决定了各单元的入样概率,此 入样概率在估计中起到权重的作用
统计学专业必修课3学分 55

2013-7-4

比率估计与不等概抽样估计的差异
?

二者估计量的计算方式不同
? ? ?

H-H估计是先对比后平均 比率估计是先平均后对比 这与统计学中很多内容的思想相吻合,比如,统计综合指数 和平均数指数 比率估计有偏,偏差随着样本量的增大趋近于0,所以是渐近 无偏的;比率估计量的方差是近似形式,只能得到方差的近 似估计 不等概抽样估计是无偏估计,表面上看起来是各样本单元观 测值以入样概率的倒数为权重的加权算术平均数,其实是自 加权的,其估计量形式及方差的形式都很简单,可以得到方 差的无偏估计 所以,虽然不等概HH估计在抽样实施时比简单随机抽样要复 杂一点,但是它能得到无偏的估计,方差形式也很简单。
统计学专业必修课3学分

?

两个估计量的无偏性不同
?

?

?

2013-7-4

CH6结束

56


推荐相关:
网站首页 | 网站地图
All rights reserved Powered by 简单学习网 www.tceic.com
copyright ©right 2010-2021。
文档资料库内容来自网络,如有侵犯请联系客服。zhit325@126.com