xgboost

发表于 2020-02-19 | 更新于 2020-03-04 | 分类于机器学习

xgboost与GBDT类似都是一种boosting方法，在之前写GBDT的时候有介绍过一点xgboost的思想，这里认真研究一下。 1. 1. xgboost原理 Adaboost算法是模型为加法模型的、损失函数为指数函数的、学习方法为前向分布算法的二分类问题。— from本站《Adaboost》 ...

阅读全文 »

ROC, PR曲线

发表于 2020-02-15 | 更新于 2020-02-18 | 分类于机器学习

纪念武汉疫情，从2月3日返沪至今，一直在家隔离，向医护人员致敬 ROC和PR曲线都是处理样本imbalanced label时候实用的评价指标，如果一条ROC（或PR）曲线被另一条完全“包住”，则后者优于前者；若两者出现交叉，则很难判断，可使用AUC来求曲线下的面积，通过一个数值的大小来判断。 ...

阅读全文 »

Feature Selection 2

发表于 2019-04-25 | 分类于特征工程

1. Feature importance1.1. RF feature importanceAll tree-based models have feature_importances_, like RandomForestClassifier (xgboost, lightgbm). For c ...

阅读全文 »

Feature Selection 1

发表于 2019-04-25 | 分类于特征工程

特征选择是特征工程里的一个重要问题，目的是找到最优特征子集。减少特征个数，减少运行时间，提高模型精确度；更好的理解特征，及其与label之间的相关性。 Filter（过滤法）：按照发散性或者相关性对各个特征进行评分，设定阈值或者待选择阈值的个数，选择特征。注意，过滤法不能减弱特征间的共线性。 Wr ...

阅读全文 »

梯度爆炸&梯度弥散

发表于 2019-03-17 | 分类于深度学习

1. 梯度爆炸&梯度弥散梯度爆炸和梯度弥散都是由训练时的反向传播引起的。上图是做预测时，前向传播梯度的影响；训练时是反向传播，从后向前，前面层的梯度越来越小。靠近输出层的hidden layer 梯度大，参数更新快，所以很快就会收敛；而靠近输入层的hidden layer 梯度小，参数 ...

阅读全文 »

Batch Normalization & Dropout

发表于 2019-03-17 | 分类于深度学习

1. Batch Normalization & Dropoutfrom [1] Batch Normalization Batch Normalization layer can be used in between two convolution layers, or between ...

阅读全文 »

Unbalanced Label

发表于 2019-03-17 | 分类于机器学习

1. Samples with Unbalanced Labelfrom [1] 在两类比例非常不均衡的情况下，就不能再用「分类正确率」（accuracy）来衡量模型性能，而要用少数类的「准确率」（precision）和「召回率」（recall），或者二者的综合（F1, equal error ra ...

阅读全文 »

决策树

发表于 2019-03-06 | 分类于机器学习

0.1. ID3熵：随机变量的不确定性，越不确定的事物，它的熵就越大。H(X) = -\sum\limits_{i=1}^{n}p_i logp_i 条件熵：H(X|Y) = -\sum\limits_{i=1}^{n}p(x_i,y_i)logp(x_i|y_i) = \sum\limits_{j ...

阅读全文 »

GBDT

发表于 2018-11-18 | 更新于 2020-03-04 | 分类于机器学习

提升树也是boosting家族的成员，意味着提升树也采用加法模型（基学习器线性组合）和前向分步算法。参考资料里面把Gradient Boosting，以及GBDT都解释的很透彻！ 1. Gradient Boosting 算法Gradient Boosting: 初始化：f_0(x) = \arg ...

阅读全文 »

Adaboost

发表于 2018-11-04 | 更新于 2018-11-18 | 分类于机器学习

讲到Ensemble Learning的boosting，肯定会讲Adaboost，它是boosting思想最重要的算法之一，另外一个是GBDT。本文主要内容是参考《李书》和一篇博客（见参考资料1，2）. 1. Adaboost算法二分类问题，训练数据集{$(x_1,y_1), (x_2,y_2), ...

阅读全文 »