数字化企业

提升机器学习

Boosting是一种集成建模技术,它试图从弱分类器的数量中构建一个强分类器。它是通过使用串联的弱模型构建模型来完成的。首先,根据训练数据建立模型。然后构建第二个模型,试图纠正第一个模型中存在的错误。继续此过程并添加模型,直到正确预测了完整的训练数据集或添加了最大数量的模型。 


AdaBoost是第一个为二元分类而开发的真正成功的 boosting 算法。AdaBoost是Adaptive Boosting 的缩写,是一种非常流行的提升技术,它将多个“弱分类器”组合成一个“强分类器”。它是由 Yoav Freund 和 Robert Schapire 制定的。他们还因其工作获得了 2003 年哥德尔奖。 


算法: 

 


初始化数据集并为每个数据点分配相等的权重。

将此作为模型的输入并识别错误分类的数据点。

增加错误分类的数据点的权重。

如果(得到所需的结果) 

  转到第 5 步 

else 

  转到第 2 步 

 

结尾



说明: 

上图以非常简单的方式解释了AdaBoost算法。让我们试着分步理解它: 


B1由 10 个数据点组成,包括加(+)和减(-)两种类型,其中 5 个是加(+),另外 5 个是减(-),并且每个数据点最初都被分配了相等的权重。第一个模型尝试对数据点进行分类并生成垂直分隔线,但它错误地将 3 plus(+) 分类为减号 (-)。

B2由来自先前模型的 10 个数据点组成,其中 3 个错误分类的 plus(+) 的权重更大,因此当前模型尝试更多地正确分类这些 plus(+)。该模型生成了一条垂直分隔线,可以正确分类之前错误分类的加号(+),但在此尝试中,它错误地分类了两个减号(-)。

B3包含来自先前模型的 10 个数据点,其中 3 个错误分类的减号 (-) 的权重更大,以便当前模型尝试更多地正确分类这些减号 (-)。该模型生成一条水平分隔线,可以正确分类之前错误分类的减号 (-)。

B4将 B1、B2 和 B3 结合在一起,以构建一个强大的预测模型,该模型比使用的任何单个模型都要好得多。


    服务热线

    18215660330

    邮 箱

    179001057@qq.com

关注
官方微信