
数据与抽样分布
|
43
图 2-3:准星偏离的枪的射击散点图
偏差有多种形式,有的可以观测,有的不可观测。当一个结果确实表现出偏差时(例如,
通过参考某个基准或实际的值),通常说明统计模型或机器学习模型存在着错误设定,或
者丢掉了某个重要变量。
2.1.2
随机选择
样本偏差导致《文学文摘》得出兰登会战胜罗斯福的预测结果。为了避免这种问题,乔
治
•
盖洛普(见图
2-4
)使用了更加科学的选择方法,以获取一个能代表美国大选投票人的
样本。现在有各种各样的方法可以保证样本的代表性,但所有方法的核心都是
随机抽样
。
图 2-4:乔治
•
盖洛普,因为《文学文摘》的“大数据”失败事件而一战成名
随机抽样并非总是轻而易举,对可用总体的正确定义是关键。如果我们想生成一份有代表
性的客户档案,就需要进行一次试验性的客户调查。这种调查必须是有代表性的,但需要
大量的人力。
首先,需要定义目标客户。我们可以选出所有购买金额大于
0
的客
户记录,但需要包括以
前的所有客户吗?需要包括那些已退款的客户吗?代理商呢?收款代理人也算客户吗?