随机森林与支持向量机

随机森林

  • 目的

随机森林是一个用随机方式建立的,包含多个决策树的分类器。其随机性主要体现在两个方面:(1)训练每棵树时,从全部训练样本(样本数为N)中选取一个可能有重复的大小同样为N的数据集进行训练(即BootStrap取样);(2)在每个节点,随机选取所有特征的一个子集,用来计算最佳的分割方式。

  • 优点

能够处理高维(即特征很多)的数据,并且不用进行特征选择,是随机选择的。
训练结束后,能够给出哪些特征比较重要。
模型的泛化能力较强。
训练速度快,容易做成并行化方法,训练时树与树之间是相互独立的。
在训练过程中,能够检测到特征间的相互影响。
对于不平衡的数据集来说,可以平衡误差。
具有鲁棒性,即使有特征遗失,仍可以维持准确度。

  • 缺点

在噪音较大的分类或回归问题上会出现过拟合。
对于有不同取值的属性的数据,取值划分较多的属性会对随机森林产生很大的影响,因此随机森林在这种数据上产生的属性权值是不可信的。

SVM

  • 目的

支持向量机是一种经典的二分类模型,基本模型定义为特征空间中最大间隔的线性分类器,其学习的优化目标就是间隔最大化,即基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开。当超平面的距离与它最近的数据点的间隔越大,分类的鲁棒性就越好,

RDKit | 基于RF和SVM的溶解度预测模型比较相关推荐

  1. RDKit | 基于支持向量机(SVM)的二分类活性预测模型

    基于结构-活性相互作用数据,使用SVM(支持向量机),尝试判断测试化合物的活性. SVM SVM:(Support Vector Machine, 支持向量机)是一种二分类模型,它的基本模型是定义在特 ...

  2. ML之mlxtend:基于iris鸢尾花数据集利用逻辑回归LoR/随机森林RF/支持向量机SVM/集成学习算法结合mlxtend库实现模型可解释性(决策边界可视化)

    ML之mlxtend:基于iris鸢尾花数据集利用逻辑回归LoR/随机森林RF/支持向量机SVM/集成学习算法结合mlxtend库实现模型可解释性(决策边界可视化) 目录 相关文章 ML之mlxten ...

  3. 基于机器学习的电力系统故障分类预测模型

    电力系统是发电.输电.配电和利用系统的组合.简而言之,电力系统是任何电气系统的心脏.在电力系统中,故障或故障电流是任何异常电流.由于此类故障,整个系统可能会损坏并最终崩溃.这项工作的目的是将故障自动分 ...

  4. RDKit | 基于RDKit和Cytoscape绘制分子相似图

    化学信息学中有许多网络结构化数据.例如分子,分子相似图和MMP等. Cytoscape是一款图形化显示网络并进行分析和编辑的软件 基于RDKit和Cytoscape绘制分子的相似图. py2cytos ...

  5. 第十九课.基于sklearn的SVM人脸识别

    目录 数据集 确定人脸的类别标记 划分训练集和测试集与训练 实验为基于sklearn的SVM人脸识别,使用 SVM 算法对戴眼镜的人脸和不戴眼镜的人脸进行分类,从而完成 识别戴眼镜的人脸 的任务:实验 ...

  6. 5.7 程序示例--基于 SMO 的 SVM 模型-机器学习笔记-斯坦福吴恩达教授

    程序示例–基于 SMO 的 SVM 模型 在这里,我们会实现一个基于 SMO 的 SVM 模型,在其中,提供了简化版 SMO 和 完整版 SMO 的实现. 简化版 SMO:不使用启发式方法选择 (α( ...

  7. ML之RFXGBoost:基于RF/XGBoost(均+5f-CrVa)算法对Titanic(泰坦尼克号)数据集进行二分类预测(乘客是否生还)

    ML之RF&XGBoost:基于RF/XGBoost(均+5f-CrVa)算法对Titanic(泰坦尼克号)数据集进行二分类预测(乘客是否生还) 目录 输出结果 比赛结果 设计思路 核心代码 ...

  8. ML之RFXGBoost:分别基于RF随机森林、XGBoost算法对Titanic(泰坦尼克号)数据集进行二分类预测(乘客是否生还)

    ML之RF&XGBoost:分别基于RF随机森林.XGBoost算法对Titanic(泰坦尼克号)数据集进行二分类预测(乘客是否生还) 目录 输出结果 设计思路 核心代码 输出结果 设计思路 ...

  9. ML之SVM(三种):基于三种SVM(linearSVR、polySVR、RBFSVR)对Boston(波士顿房价)数据集(506,13+1)进行价格回归预测并对比各自性能

    ML之SVM(三种):基于三种SVM(linearSVR.polySVR.RBFSVR)对Boston(波士顿房价)数据集(506,13+1)进行价格回归预测并对比各自性能 目录 输出结果 设计思路 ...

最新文章

  1. Android startActivityForResult()的用法
  2. 车辆计数--FCN-rLSTM: Deep Spatio-Temporal Neural Networks for Vehicle Counting in City Cameras
  3. 如何修改git已提交记录的邮箱?
  4. 为什么文件上传不了服务器上,文件上传存在服务器还是数据库
  5. BUAA-OO-第三单元总结
  6. HDOJ 4699-Editor[栈]
  7. python深度优先算法 八皇后_八皇后问题——DFS(深度优先搜索)
  8. sentinel的@SentinelResource注解使用
  9. mysql5.7.24怎么打开_mysql-5.7.24-winx64安装教程
  10. mysql 视图 数据相加_MySQL
  11. 软件设计师习题笔记-重点习题六
  12. WordPress主题 WebStack导航主题
  13. 天猫HTML练手项目,GitHub - txz1220/tianmao: 一个模仿天猫网页的项目
  14. html5 网页宽度100,HTML5 Canvas 100%视口宽度?
  15. 最好用的mysql密码忘记的解决方法
  16. 1621: [Usaco2008 Open]Roads Around The Farm分岔路口(记忆化搜索)
  17. 浙大研究生hadoop工作分享
  18. 遗传算法解决车辆调度问题
  19. python写入文件报错解决方法
  20. 计算机怎么接入外接键盘,无线键盘怎么连接电脑 享受无线惬意生活【图文】...

热门文章

  1. ISA SERVER日志存放SQL SERVER中
  2. Kafka、ActiveMQ、RabbitMQ、RocketMQ 都有什么优点和缺点?
  3. 阿里某程序员爆料:面试一个重庆小伙子,却被对方微信调戏!
  4. 程序员出身,身价340亿!没有他,可能我们刷不了B站
  5. 因为一次 Kafka 宕机,终于搞透了 Kafka 高可用原理!
  6. 图解 | 搞定分布式,程序员进阶之路
  7. 百度离职员工吐槽:整天除了工作还要演好戏,拍马屁,心太累!
  8. 爱奇艺效果广告的个性化探索与实践
  9. 29岁,从不学无术到技术Leader:这几个学习资源,决定你5年后的技术提升!
  10. 漫画:你真的懂Github吗?