1.前言

这篇文章主要是总结简单机器学习系统的构建,简单的误差分析,特别的,对于不对称性分类的误差评估做了介绍,并对这种情况做了性能指标的规定。
关键词:机器学习系统 不对称性分类 查准率 召回率

目录

  • 1.前言
  • 2.内容介绍
    • 2.1构建机器学习系统的简单例子
    • 2.2不对称性分类的误差评估
      • 2.2.1不对称性类的介绍
      • 2.2.2新的误差评估方法
      • 2.2.3查准率和召回率的权衡
      • 2.2.4评价指标
  • 3.reference

2.内容介绍

2.1构建机器学习系统的简单例子

假设我们需要做一个垃圾邮件屏蔽器,要怎么开始做呢?

  1. 首先快速设计一个简单的算法,并且在交叉验证集上使用和测试它
  2. 画出学习曲线决定是否需要更多的数据,更多的特征等等
  3. 误差分析,在交叉验证集分析你的错误,看能否分析出错误的一些趋势

例子:
mCVm_{CV}mCV​=500个例子在交叉验证集上,算法错误分类了100个例子,检查这100个例子,用这两个标准分类这些错误:

  1. 这些邮件是什么类型的
  2. 那些特征你觉得可以让算法更正确的分类它们
错误拼写 5
不寻常的邮件名 16
不寻常的标点符号 32

用一个数值评价算法的效果后,我们可以针对错误最多的不寻常的标点符号来改进算法,改进算法的办法上篇博文有提到。

2.2不对称性分类的误差评估

2.2.1不对称性类的介绍

假设有这样一种情况:在交叉验证集上运行算法,发现会有5%的错误概率,可是在样本集中只有3%的错误样本,也就是说,我们设计一个算法:

function y=predict(x)
y=0;
return

运行这样的算法我们也能得到3%的错误概率,可是显而易见的,这并不是一个好的算法。
所谓不对称性类是指在样本中占的比例很小的类
既然占的比例很小,那么我们会有一个问题:假设我们的预测算法将准确率熊95%提升到了97%,我们的算法是进步了还是退步了呢?因为不知道算法是否是朝着y=0去拟合。鉴于此,针对不对称类,我们提出了一个新的评估方法

2.2.2新的误差评估方法


我们定义查准率(precision)为 precision=truepositivetruepostive+falsepositiveprecision=\frac{true\ positive}{true\ postive+false\ positive}precision=true postive+false positivetrue positive​定义召回率(recall)为recall=truepositivetruepositive+falsenegetiverecall=\frac{true\ positive}{true\ positive+false\ negetive}recall=true positive+false negetivetrue positive​

2.2.3查准率和召回率的权衡

看一个例子:
对于逻辑回归,假设我们改变门限,即
predict={1h(θ)>=0.70h(θ)<0.7predict=\begin{cases} 1& h(\theta)>=0.7 \\ 0& h(\theta)<0.7 \end{cases}predict={10​h(θ)>=0.7h(θ)<0.7​即只有很高的把握才会预测为1,这样会提高查准率,但是召回率会降低,同样的,如果我们将门限改为0.3,即predict={1h(θ)>=0.30h(θ)<0.3predict=\begin{cases} 1& h(\theta)>=0.3 \\ 0& h(\theta)<0.3 \end{cases}predict={10​h(θ)>=0.3h(θ)<0.3​很少会预测错的出来,召回率会提高,但是查准率会降低。

2.2.4评价指标

怎么来评价什么系统好呢?是查准率高的系统好,还是召回率高的系统好呢?在这里给出一个评价指标
F1=2PRP+RF_1=\frac{2PR}{P+R}F1​=P+R2PR​至于恰好在[0,1].
这样的评价指标对于我们提出的问题有没有解决呢?
给出一个例子:

可以发现若是所有的数都取0,即Recall等于1,我们会发现F1F_1F1​依然很小,用F1F_1F1​可以很好地评价不对称性系统。

3.reference

吴恩达机器学习

简单机器学习系统的构建以及对于不对称性的分类介绍和性能评价相关推荐

  1. 直播预告 | 端云协同的淘宝机器学习系统

    2022年7月,被誉为「系统界的奥斯卡」国际顶会OSDI首次收录淘宝系统论文,自研端云协同机器学习系统Walle(瓦力)获得大会主旨发言者推荐. 8月25日,19:00-20:30,DataFun与大 ...

  2. 3.2 实战项目二(手工分析错误、错误标签及其修正、快速地构建一个简单的系统(快速原型模型)、训练集与验证集-来源不一致的情况(异源问题)、迁移学习、多任务学习、端到端学习)

    手工分析错误 手工分析错误的大多数是什么 猫猫识别,准确率90%,想提升,就继续猛加材料,猛调优?     --应该先做错误分析,再调优! 把识别出错的100张拿出来, 如果发现50%是"把 ...

  3. MLOps:构建生产机器学习系统的最佳实践

    你可能已经听过很多次了,但只有一小部分机器学习模型投入生产.部署和运行机器学习模型对于大多数已经开始将ML应用于用例的行业来说都是一个挑战.在这篇文章中,我将分享一些MLOps的最佳实践和技巧,它们将 ...

  4. 高效构建机器学习系统

    高效构建机器学习系统 介绍--机器学习策略是什么? 1. 构建机器学习系统 训练效果不好的时候: 获得更多数据 数据集多样性不够 训练更长时间 使用Adam而非梯度下降 尝试更大的网络 尝试更小的网络 ...

  5. 构建机器学习系统步骤

    构建机器学习系统 我们使用机器学习预测模型的工作流程讲解机器学习系统整套处理过程. 整个过程包括了数据预处理.模型学习.模型验证及模型预测.其中数据预处理包含了对数据的基本处理,包括特征抽取及缩放.特 ...

  6. 专访CMU邢波教授:机器学习与医疗大数据,及大规模机器学习系统的开发

    随着大数据的深入应用,机器学习已经进入医疗领域.卡耐基梅隆大学(Carnegie Mellon University,CMU)计算机科学学院教授邢波(Eric Xing)正在主持CMU的一个机器学习和 ...

  7. 观点 | AI 的偏差,取决于人们如何使用机器学习系统

    https://mp.weixin.qq.com/s?__biz=MzI5NTIxNTg0OA==&mid=2247495153&idx=3&sn=c6c94c270ee859 ...

  8. Paper:《Hidden Technical Debt in Machine Learning Systems—机器学习系统中隐藏的技术债》翻译与解读

    Paper:<Hidden Technical Debt in Machine Learning Systems-机器学习系统中隐藏的技术债>翻译与解读 导读:机器学习系统中,隐藏多少技术 ...

  9. 机器学习系统:设计与实现 计算图

    机器学习系统:设计与实现 计算图 转自:https://openmlsys.github.io/chapter_computational_graph/index.html 在上一章节中,我们展示了用 ...

  10. 入门机器学习(十一)--机器学习系统的设计

    1. 误差分析(Error Analysis) 当研究机器学习时,最好的方法不是使用复杂的系统,而是用简单的算法,最快得到结果.即便运行不完美,但是也要运行一遍,最后通过交叉验证来验证数据.一旦做完, ...

最新文章

  1. 程序员绩效总结_闲聊程序员的绩效考核
  2. 最常用的13条mysql语句
  3. 在 windows 命令行下快速检测与排除网络故障
  4. 怎么查看自己linux实验环境,Linux实验
  5. bzoj 2142 礼物
  6. 小括号教学设计导入_【教资面试】语文政治历史地理教学设计答题技巧!
  7. 使用IAR开发CC2530遇到的两个问题
  8. 如何系统的自学python-如何系统地自学Python?
  9. layui循环遍历数据_Layui之动态循环遍历出的富文本编辑器显示
  10. JavaScript设计模式----策略模式
  11. Win7如何利用系统放大镜工具更改用户密码
  12. SpringBoot + Spring Cloud +Vue 管理系统前端搭建(二、visual studio code开发前端项目
  13. 中医知识分享之《养生十八伤》
  14. python如何问问题_学会正确的提问
  15. 关于高通CAMX架构下的AE调试的总结
  16. 提名卡斯卡迪亚的免费软件社区贡献者
  17. C语言例题——求一元二次方程的实数根
  18. iphone ios 如何制作越狱ipa安装文件
  19. scrapy学习之爬取顶点小说数据(转)
  20. 华为eNSP中交换机设备无法正常启动

热门文章

  1. 《C语言程序设计:问题与求解方法》——2.15节算术表达式
  2. 虹膜识别应用多样化 6亿美元市场待挖掘
  3. Struts2升级版本至2.5.10,高危漏洞又来了
  4. OSChina 周一乱弹 ——我后悔让爸妈用微信了!
  5. CentOS上安装多版本Python问题
  6. Java Collection Framework View
  7. 四、ip classless与默认路由
  8. STC学习:可切换内容的电子音乐
  9. python调用程序压缩文件_Python在后台自动解压各种压缩文件的实现方法
  10. 苹果屏幕旋转怎么设置_iPhone12屏幕供应商是谁 苹果12屏幕怎么查看是哪家