第6章 混合模型

“……父亲是狮子,母亲是蚂蚁;父亲吃肉,母亲吃草。它们繁殖了蚂蚁狮子……”

——博尔赫斯,《想象的动物》作者

拉普拉塔河是地球上最宽的河流,它是阿根廷和乌拉圭的天然分界线。在19世纪晚期,这条河沿岸的港口地区混居着当地人、非洲人和欧洲移民。这次混居的结果促进了欧洲音乐的融合,如华尔兹和玛祖卡,以及非洲的坎多姆和阿根廷的米隆加(这是一种舞蹈和音乐相结合的形式,是探戈的源头)。

混合已有的元素是创造新事物的好办法,不仅限于音乐。在统计学中,混合模型是一种常用的建模方法。这些模型是通过混合更简单的分布来建立的,目的是获得更复杂的分布。例如,我们可以组合两个高斯分布来描述一个双峰分布,或者混合多个高斯分布来描述任意分布。除了常见的高斯分布,原则上,我们可以混合任何分布。混合模型有多种用途,例如直接为子群体建模,或者用来处理那些不能用简单的分布来描述的复杂分布。

在本章中,我们将介绍以下主题。

有限混合模型。

非有限混合模型。

连续混合模型。

6.1 简介

当总群体由不同子群体组成时,混合模型天然就存在。一个常见的例子是,给定成年人口的身高分布,可以将其描述为女性身高分布和男性身高分布的混合分布。另一个经典的例子是手写数字的聚类。在这个例子中,期望得到10个子群体是非常合理的,至少在十进制中是这样!如果我们知道每个观测值属于哪个子群,最好使用这些信息将每个子群建模为一个单独的组。然而,当我们无法直接获得这些信息时,混合模型就派上了用场。

提示:很多数据集不能用一个单一的概率分布来正确描述,但可以把它们描述为这些分布的混合分布。假设模型的数据来自混合分布,我们称这样的模型为 ...

Get Python贝叶斯分析(第2版) now with the O’Reilly learning platform.

O’Reilly members experience books, live events, courses curated by job role, and more from O’Reilly and nearly 200 top publishers.