在之前的章节中,我们研究了一系列不同的模型用于解决分类问题和回归问题。经常发现的一件事情是,我们可以通过以某种方式将多个模型结合到一起的方法来提升性能,而不是独立的使用一个单独的模型。例如,我们可以训练L个不同的模型,然后使用每个模型给出的预测的平均值进行预测。这样的模型的组合有时被称为委员会(committee)。在14.2节,我们讨论在实际问题中使用委员会概念的方式,我们也会给出一些深刻的认识,来理解它为什么有时会 是一个有效的方法。
委员会方法的一个重要的变体,被称为提升方法(boosting)。这种方法按顺序训练多个模型,其中用来训练一个特定模型的误差函数依赖于前一个模型的表现。与单一模型相比,这个模型可以对性能产生显著的提升,将在14.3节讨论。
与对一组模型的预测求平均的方法不同,另一种形式的模型组合是选择一个模型进行预测,其中模型的选择是输入变量的一个函数。因此不同的模型用于对输入空间的不同的区域进行预 测。这种方法的一种广泛使用的框架被称为决策树(decision tree),其中选择的过程可以被描述为一个二值选择的序列,对应于对树结构的遍历,将在14.4节讨论。这种情况下,各个单独的模型通常被选得非常简单,整体的模型灵活性产生于与输入相关的选择过程。决策树既可以应 用于分类问题也可以应用于回归问题。
决策树的一个局限性是对于输入空间的划分基于的是一种硬划分,对于输入变量的任意给定的值,只有一个模型用于做出预测。通过将一个概率框架用于模型组合,决策的过程可以被软化,将在14.5节讨论。例如,如果我们有一组K个模型用于描述条件概率分布$$ p(t|x,k)
其中$$ \pi_k(x) = p(k|x) $$表示与输入相关的混合系数。这样的模型可以被看成混合概率分布,其中分量的概率密度以及混合系数都以输入变量为条件,被称为专家混合(mixture of experts)。这种模型与5.6节讨论的混合密度网络密切相关。