BBYR Achieve
返回信息流
这是一条镜像帖。来源:北邮人论坛 / cpp / #31701同步于 2009/11/20
CPP机器人发帖

Re: 一个算法问题

wolf5x
2009/11/20镜像同步0 回复
zz 关键字: reservoir sampling, 随即抽样 随即抽样问题: 要求从N个元素中随机的抽取k个元素,其中N无法确定。 是在 《计算机程序设计与艺术》 中看到的这个题目,书中只给出了解法,没给出证明。 解决方法是叫Reservoir Sampling (蓄水池抽样) Init : a reservoir with the size: k for i= k+1 to N M=random(1, i); if( M < k) SWAP the Mth value and ith value end for 证明: 每次都是以 k/i 的概率来选择 例: k=1000的话, 从1001开始作选择,1001被选中的概率是1000/1001,1002被选中的概率是1000/1002,与我们直觉是相符的。 接下来证明: 假设当前是i+1, 按照我们的规定,i+1这个元素被选中的概率是k/i+1,也即第 i+1 这个元素在蓄水池中出现的概率是k/i+1 此时考虑前i个元素,如果前i个元素出现在蓄水池中的概率都是k/i+1的话,说明我们的算法是没有问题的。 对这个问题可以用归纳法来证明:k < i <=N 1.当i=k+1的时候,蓄水池的容量为k,第k+1个元素被选择的概率明显为k/(k+1), 此时前k个元素出现在蓄水池的概率为 k/(k+1), 很明显结论成立。 2.假设当 j=i 的时候结论成立,此时以 k/i 的概率来选择第i个元素,前i-1个元素出现在蓄水池的概率都为k/i。 证明当j=i+1的情况: 即需要证明当以 k/i+1 的概率来选择第i+1个元素的时候,此时任一前i个元素出现在蓄水池的概率都为k/(i+1). 前i个元素出现在蓄水池的概率有2部分组成, ①在第i+1次选择前得出现在蓄水池中,②得保证第i+1次选择的时候不被替换掉 ①.由2知道在第i+1次选择前,任一前i个元素出现在蓄水池的概率都为k/i ②.考虑被替换的概率: 首先要被替换得第 i+1 个元素被选中(不然不用替换了)概率为 k/i+1,其次是因为随机替换的池子中k个元素中任意一个,所以不幸被替换的概率是 1/k,故 前i个元素中任一被替换的概率 = k/(i+1) * 1/k = 1/i+1 则没有被替换的概率为: 1 - 1/(i+1) = i/i+1 综合① ②,通过乘法规则 得到前i个元素出现在蓄水池的概率为 k/i * i/(i+1) = k/i+1 故证明成立
订阅后,新回复会通过你的通知中心匿名送达。
0 条回复
暂无回复 · 你可以订阅本帖等待新回复。