请在下方留言参与讨论,问一个新问题或搜索我们的档案超过46300年的问题和280500年从2004年1月开始,在“诀窍交流”上公布的答案。
让我签到
使用您首选的帐户登录,如下所示。
在350000年营销人员每天都依赖于营销教授的B2B知识。不要错过最新的营销技巧和技巧,直接发送到您的收件箱。今天就订阅…它是免费的!
组# 1:
总数:30万
样品:30,000
样本量占总数的百分比:10.0%
类似地,第2组和第3组的布局也相同:
组2:
5000(总)
2000(样本)
40.0%(样本%)
第三组:
40000年
10000年
25.0%
总计
345000年
42000年
12.2%
接下来,我使用个人名称来计算每个组中的重复数,得到如下数字:
组1:
暗金物品:24000
一次性样本:20000
双重用途样本:3000
3+使用样本:1000
对其他组使用相同的布局:
组2:
1150(独立)
1000 (1 x)
100 (2 x)
50 (3 + x)
第三组:
7100年
6000年
1000年
One hundred.
跨组相加,提供了一个不正确的“相加总数”,如下所示:
“添加剂”:
32250年
27000年
4100年
1150年
如果我真的把这三组原始的个人名字数据结合起来,我可能会得到真实的、扣除的总数,比如:
30900年
25000年
4400年
1500年
您将注意到,当组合三个不同的组时,由于不同组中存在一些相同的用户,多用途人员的发生率增加了(而不是“相加总数”)。这反过来又减少了一次性使用人员和相对于“相加总数”数字的唯一性。
我指出这一点是因为下一步和最终目标是单独估计每个群体的单一、双重和3+用途:在这里,我不能使用直线数学来得到总数,因为当用户数量增加时,单一和单一用途的人数将减少,而不是线性估计的总数。
举个例子:我不能在第一组样本中选取24000个唯一的人,然后除以10%的样本容量,得到估计的24000个唯一的人,因为如果我们实际上有30万第一组人的完整名册,许多抽样的唯一的人会再次出现;来自完整数据集的真实惟一值可能是180,000或210,000。
类似地,当组合不同组的样本时,我不能将12%的因子应用于组合的总样本unique(30,900),以得到估计的总数为253,821,因为多用途计数将增加,减少了unique和一次性使用的个体。
所以这是一个很长的,但(希望)说明性的方法,来解决这个问题,“什么Excel公式可以应用于单个样本组,以及组合样本总数,来估计整个数据集的值?”
值得注意的是,我需要比较的不同用户组的样本量可能在10-100%之间变化。底线是,我需要这组组的估计值,以及其他几个不同的组的估计值,这样我就可以比较绝对值,估计值,1、2和3+数。
谢谢你的帮助!