Hardcore Coder

  • 首页

  • 关于

  • 标签

  • 分类

  • 归档

xgboost

发表于 2020-02-19 | 更新于 2020-03-04 | 分类于 机器学习
xgboost与GBDT类似都是一种boosting方法,在之前写GBDT的时候有介绍过一点xgboost的思想,这里认真研究一下。 1. 1. xgboost原理 Adaboost算法是模型为加法模型的、损失函数为指数函数的、学习方法为前向分布算法的二分类问题。— from本站《Adaboost》 ...
阅读全文 »

ROC, PR曲线

发表于 2020-02-15 | 更新于 2020-02-18 | 分类于 机器学习
纪念武汉疫情,从2月3日返沪至今,一直在家隔离,向医护人员致敬 ROC和PR曲线都是处理样本imbalanced label时候实用的评价指标,如果一条ROC(或PR)曲线被另一条完全“包住”,则后者优于前者;若两者出现交叉,则很难判断,可使用AUC来求曲线下的面积,通过一个数值的大小来判断。 ...
阅读全文 »

Feature Selection 2

发表于 2019-04-25 | 分类于 特征工程
1. Feature importance1.1. RF feature importanceAll tree-based models have feature_importances_, like RandomForestClassifier (xgboost, lightgbm). For c ...
阅读全文 »

Feature Selection 1

发表于 2019-04-25 | 分类于 特征工程
特征选择是特征工程里的一个重要问题,目的是找到最优特征子集。减少特征个数,减少运行时间,提高模型精确度;更好的理解特征,及其与label之间的相关性。 Filter(过滤法):按照发散性或者相关性对各个特征进行评分,设定阈值或者待选择阈值的个数,选择特征。注意,过滤法不能减弱特征间的共线性。 Wr ...
阅读全文 »

梯度爆炸&梯度弥散

发表于 2019-03-17 | 分类于 深度学习
1. 梯度爆炸&梯度弥散梯度爆炸和梯度弥散都是由训练时的反向传播引起的。 上图是做预测时,前向传播梯度的影响;训练时是反向传播,从后向前,前面层的梯度越来越小。 靠近输出层的hidden layer 梯度大,参数更新快,所以很快就会收敛;而靠近输入层的hidden layer 梯度小,参数 ...
阅读全文 »

Batch Normalization & Dropout

发表于 2019-03-17 | 分类于 深度学习
1. Batch Normalization & Dropoutfrom [1] Batch Normalization Batch Normalization layer can be used in between two convolution layers, or between ...
阅读全文 »

Unbalanced Label

发表于 2019-03-17 | 分类于 机器学习
1. Samples with Unbalanced Labelfrom [1] 在两类比例非常不均衡的情况下,就不能再用「分类正确率」(accuracy)来衡量模型性能,而要用少数类的「准确率」(precision)和「召回率」(recall),或者二者的综合(F1, equal error ra ...
阅读全文 »

决策树

发表于 2019-03-06 | 分类于 机器学习
0.1. ID3熵:随机变量的不确定性,越不确定的事物,它的熵就越大。H(X) = -\sum\limits_{i=1}^{n}p_i logp_i 条件熵:H(X|Y) = -\sum\limits_{i=1}^{n}p(x_i,y_i)logp(x_i|y_i) = \sum\limits_{j ...
阅读全文 »

GBDT

发表于 2018-11-18 | 更新于 2020-03-04 | 分类于 机器学习
提升树也是boosting家族的成员,意味着提升树也采用加法模型(基学习器线性组合)和前向分步算法。参考资料里面把Gradient Boosting,以及GBDT都解释的很透彻! 1. Gradient Boosting 算法Gradient Boosting: 初始化:f_0(x) = \arg ...
阅读全文 »

Adaboost

发表于 2018-11-04 | 更新于 2018-11-18 | 分类于 机器学习
讲到Ensemble Learning的boosting,肯定会讲Adaboost,它是boosting思想最重要的算法之一,另外一个是GBDT。本文主要内容是参考《李书》和一篇博客(见参考资料1,2). 1. Adaboost算法二分类问题,训练数据集{$(x_1,y_1), (x_2,y_2), ...
阅读全文 »
<i class="fa fa-angle-left" aria-label="上一页"></i>123<i class="fa fa-angle-right" aria-label="下一页"></i>

骚炼

我爱七月

27 日志
6 分类
25 标签
GitHub E-Mail
© 2018 – 2021 骚炼
由 Hexo 强力驱动 v4.2.0
|
主题 – NexT.Mist v6.4.1
博客全站共59.6k字