Sklearn中随机森林算法参数详解

一、代码怎么写

1
2
3
4
5
6
7
class sklearn.ensemble.RandomForestClassifier(n_estimators=10, crite-rion=’gini’, max_depth=None,  
min_samples_split=2, min_samples_leaf=1,
min_weight_fraction_leaf=0.0,
max_features=’auto’,
max_leaf_nodes=None, bootstrap=True,
oob_score=False, n_jobs=1, ran-dom_state=None, verbose=0,
warm_start=False, class_weight=None)

二、关于参数

其中关于决策树的参数:

criterion: ”gini” or “entropy”(default=”gini”) 是计算属性的 gini(基尼不纯度) 还是 entropy(信息增益),来选择最合适的节点。

splitter: ”best” or “random”(default=”best”) 随机选择属性还是选择不纯度最大的属性,建议用默认。

max_features: 选择最适属性时划分的特征不能超过此值。

当为整数时,即最大特征数;当为小数时,训练集特征数 * 小数;

if “auto”, then max_features=sqrt(n_features).

If “sqrt”, thenmax_features=sqrt(n_features).

If “log2”, thenmax_features=log2(n_features).

If None, then max_features=n_features.

max_depth: (default=None) 设置树的最大深度,默认为 None,这样建树时,会使每一个叶节点只有一个类别,或是达到 min_samples_split。

min_samples_split: 根据属性划分节点时,每个划分最少的样本数。

min_samples_leaf: 叶子节点最少的样本数。

max_leaf_nodes: (default=None) 叶子树的最大样本数。

min_weight_fraction_leaf: (default=0) 叶子节点所需要的最小权值

verbose:(default=0) 是否显示任务进程

关于随机森林特有的参数:

n_estimators=10:决策树的个数,越多越好,但是性能就会越差,至少 100 左右(具体数字忘记从哪里来的了)可以达到可接受的性能和误差率。

bootstrap=True:是否有放回的采样。

oob_score=False:oob(out of band,带外)数据,即:在某次决策树训练中没有被 bootstrap 选中的数据。多单个模型的参数训练,我们知道可以用 cross validation(cv)来进行,但是特别消耗时间,而且对于随机森林这种情况也没有大的必要,所以就用这个数据对决策树模型进行验证,算是一个简单的交叉验证。性能消耗小,但是效果不错。

n_jobs=1:并行 job 个数。这个在 ensemble 算法中非常重要,尤其是 bagging(而非 boosting,因为 boosting 的每次迭代之间有影响,所以很难进行并行化),因为可以并行从而提高性能。1 = 不并行;n:n 个并行;-1:CPU 有多少 core,就启动多少 job

warm_start=False:热启动,决定是否使用上次调用该类的结果然后增加新的。

class_weight=None:各个 label 的权重。

进行预测可以有几种形式:

predict_proba(x):给出带有概率值的结果。每个点在所有 label 的概率和为 1.

predict(x):直接给出预测结果。内部还是调用的 predict_proba(),根据概率的结果看哪个类型的预测值最高就是哪个类型。

predict_log_proba(x):和 predict_proba 基本上一样,只是把结果给做了 log() 处理。