决策树算法中处理噪音点
创始人
2024-03-23 15:45:25
0

目录

如何解决?——采用剪枝的方法。

预剪枝

后剪枝


如果训练集中存在噪音点,模型在学习的过程总会将噪音与标签的关系也学习进去,这样就会造成模型的过拟合化,也就是模型在训练集的分类效果很好,在未知数据上处理效果不好。

如何解决?——采用剪枝的方法。

一般存在“预剪枝”“后剪枝”两种策略。

预剪枝

预剪枝即为在决策树生成过程中,对当前节点的划分结果进行评价,如果该划分不能带来决策树泛化能力(即处理未见过示例的能力)的提升,则停止划分,将当前结点标记为叶节点;

后剪枝

先生成一颗完整的决策树,然后自底向上的对非叶节点进行评价,如果剪掉该枝可以使得泛化性能提升,则将该子树替换为叶子节点。预先剪枝可能会过早的终止决策树的生长,后剪枝一般能够产生更好的效果。但后剪枝在子树被剪掉后,决策树生长的一部分计算就被浪费了。

这里简单介绍一个剪枝算法,首先我们要明确,剪枝的目的是为了减小过拟合带来的不良影响,降低决策树模型的复杂度,但是同时也要保证其对于训练数据有较好的分类效果。因此,定义一个损失函数,如下:

C_{\alpha }(T)=C(T)+\alpha|T|

其中,\alpha \geq 0为参数,C(T)表示模型对于训练数据的预测误差。|T|表示叶子节点的个数,可用于表示模型的复杂度。可以看出,参数\alpha控制着模型复杂度和对训练数据拟合程度两者之间的影响。较大的\alpha促使我们选择一个较简单的树,而较小的\alpha则偏向于对训练数据有更好的拟合效果。

因此可以利用上面的损失函数进行剪枝操作,这样得到的决策树既考虑到对训练数据的拟合,又增强了泛化能力

其他一些剪枝算法借助验证集实现,有的算法通过设置信息赠益的阈值来作为剪枝判断标准,具体的算法过程可以参考相关文献。


相关内容

热门资讯

原创 打... 打完乌克兰就收手,俄方拍着胸脯承诺北约和欧盟,可以立字据为证。 (俄方向北约承诺,打完乌克兰就收手...
政策纾困与转型升级并举 中国乳... 新华社北京12月27日电 题:政策纾困与转型升级并举 中国乳业迎来破局窗口期 新华社记者谢希瑶 乳制...
男子将女子约至酒店后杀害,女子... 12月27日,南都N视频记者从山东省聊城市中级人民法院获悉,山东男子董某与女子陶某曾是恋人关系,后分...
杨伟民:刺激消费政策应该逐步转... 12月27日,中国财富管理50人论坛2025年会在京举行,第十三届全国政协经济委员会副主任杨伟民在会...
从KS直播异常事件切入,湖南芙... 12月22日晚,针对网络平台直播异常引发的社会关注事件,湖南芙蓉律师事务所围绕“黑灰产攻击、平台责任...
出行观 | 智驾出关“水土不服... (文/观察者网 高莘)据香港《南华早报》12月26日报道,香港有关部门将要调查一名违反“粤车南下”政...
全国人大常委会关于《中华人民共... 全国人民代表大会常务委员会关于 《中华人民共和国刑事诉讼法》 第二百九十二条的解释 (2025年12...
渊亭信息科技申请基于检索增强生... 国家知识产权局信息显示,厦门渊亭信息科技有限公司申请一项名为“基于检索增强生成的智能政策问答方法、系...
政策纾困与转型升级并举,中国乳... 乳制品行业是一二三产业深度融合的重要行业。近日,商务部一则公告引发外界对于这一行业发展形势的关注。 ...
重庆荣豪律师事务所:医疗纠纷处... 推荐指数:★★★★★ 在医疗纠纷频发的当下,如何高效、专业地处理医疗纠纷成为众多患者及其家属、医疗机...