一、随机森林是什么？

随机森林是一种由 决策树 构成的 集成算法 ，他在很多情况下都能有不错的表现。

要深入理解上面这句话，请阅读我的另外两篇文章：

1. 随机森林是一种集成学习算法

随机森林属于 集成学习 中的 Bagging（Bootstrap AGgregation 的简称）方法。用图来表示他们之间的关系如下：

决策树：

决策树是一种很简单的基于 if-then-else 规则的有监督学习算法，上面的图片可以直观的表达决策树的逻辑。

随机森林：

随机森林是由很多决策树构成的，不同决策树之间没有关联。

当我们进行分类任务时，新的输入样本进入，就让森林中的每一棵决策树分别进行判断和分类，每个决策树会得到一个自己的分类结果，决策树的分类结果中哪一个分类最多，那么随机森林就会把这个结果当做最终的结果。

抽取 N 个样本：一个样本容量为 N 的样本，有放回的抽取 N 次，每次抽取 1 个，最终形成了 N 个样本。这选择好了的 N 个样本用来训练一个决策树，作为决策树根节点处的样本。
选择 m 个属性：当每个样本有 M 个属性时，在决策树的每个节点需要分裂时，随机从这 M 个属性中选取出 m 个属性，满足条件 m << M 。然后从这 m 个属性中采用某种策略（比如说信息增益）来选择 1 个属性作为该节点的分裂属性。
构造决策树：决策树形成过程中每个节点都要按照步骤 2 来分裂（很容易理解，如果下一次该节点选出来的那一个属性是刚刚其父节点分裂时用过的属性，则该节点已经达到了叶子节点，无须继续分裂了）。一直到不能够再分裂为止。注意整个决策树形成过程中没有进行剪枝。
形成森林：按照步骤1~3建立大量的决策树，这样就构成了随机森林了。