2019独角兽企业重金招聘Python工程师标准>>>

课程来自Coursera上的国立台湾大学《机器学习基石》(Machine Learning Foundations),由林轩田老师讲授。

  • 从人类学习到机器学习 - 机器学习模型

    人类通过【观察】积累知识,如果运用所掌握的知识完成一个目标,就是【技能】,一个小白从观察开始到获取技能的过程,就是【学习(Learning)】:

    同理,机器通过【数据】输入积累知识,如果运用其学到的知识完成指定的目标,并且在一定的标准下完成的更好(例如精确度更高、速度更快等),就是【技能】,一个初始程序从大量数据中获得技能的过程就是【机器学习(Machine Learniing)】:

  • 机器学习精髓 - 什么时候用?解决什么问题?

    1    该问题有一个【潜在的模式】需要学习

    对这个模式的判断越准确就说明机器的【技能】越NB。例如,刚出生的婴儿不知道什么是“树”,后来在大人的帮助下通过大量观察,他发现树通常有粗粗的树干,树干向上分裂成很多树枝,树枝上大多都长着绿色的叶子,这时在小孩的脑中形成了对“树”的模式的初步判断,以后看到类似物体他会说:“爸比爸比,这是树!”。

    但是有一天,小孩看到了一个物体,有着较粗的树干,上面分开成树枝,但是却长着红色的叶子,他疑惑了,这与他理解的“树”的模式匹配不上啊?直到爸爸告诉他正确答案,他明白了这也是一种树叫“枫树”,这时他脑中的“树”模式更加接近现实中的树模式,他识别树的技能提升了!

    2    该问题很难用数学或程序的方式定义

    如何用程序来定义一棵树?或者树有哪些属性?

    树有叶子?很多树冬天叶子会掉光。。。树叶有几种颜色?绿色,黄色,红色,褐色。。。树枝都是硬的?柳树树枝能编织成帽子。。。树是有生命的?死去的胡杨木算不算。。。树冠很大?水杉活生生像插在地上的一根大葱。。。

    根本无法用确定的描述来定义“树”。所以,让机器慢慢学吧,多喂给它一些树的图片,见多识广了就分得清树和鸡毛掸子了。。。

    3    有足够的有效数据

    小孩子需要在大人帮助下看过很多树以后才能知道秋天的红色枫树和沙漠中枯死的胡杨木都是树,它们与杨树,杉树本质上是相同的。同理,机器也要在用大量的数据训练之后才能具有某方面的智能,例如:    ===》 柳树

        ===》 枫树

    大量这样形式的数据作为输入,成为机器建立“树”模式的初始学习材料。

  • 机器学习的应用场景

    太多了,举有限的几个例子:

    衣 - 【数据】:衣物销售数据,客户调查数据;【技能】:对特定的客户提出针对性的时尚建议。

    食 - 【数据】:社交网络数据(文本和地理位置信息);【技能】:给出餐馆的食物中毒概率。

    住 - 【数据】:建筑的工程参数和能耗;【技能】:给出相似建筑的能耗预测。

    行 - 【数据】:交通信号灯的图片和意义;【技能】:在实际场景下立即识别出信号灯的信息。

    教育 - 【数据】:学生在某门课程的历史考试成绩;【技能】:预测学生在下一次考试中的成绩水平。

    娱乐 - 【数据】:用户对大量电影的打分;【技能】:给定一个电影,预测不同用户会打多少分。

    最后一个例子来自于2006年Netflix举办的一个有奖竞赛,一共有480,189个用户对17,770部电影的100,480,507条评论作为初始数据,来预测用户未来的评论行为,如果预测精确度较之前提高10%以上,就能获得100万美刀的奖励。6年后Netflix基于大数据制作了大热美剧《纸牌屋》。

    课程针对这个问题给出了一个可行的解决方法:

    把用户和电影划分成若干维度,例如:

    用户 - 是否喜欢动作片?多喜欢?是否喜欢喜剧片?多喜欢?是不是小李子的粉丝?粉到什么程度?等。。。

    影片 - 有没有动作元素?有多少?有没有喜剧元素?有多少?有没有小李子出演?等。。。

    用户与影片的维度可以一一对应上,这样用户和影片就是两个维度相同的向量,每个元素的值代表了该属性的权重,比如某用户是小李子的脑残粉,那么用户向量中对应小李子的元素值就相对更大(对应图中的圆圈就更大)。

    将两个向量点乘,得到他们的内积,就是对该用户对该影片平价水平的预测。如果该影片没有小李子出演,影片向量中的小李子元素值为零,乘了一个很大的权重以后还是零,可能会显著降低脑残粉对该影片的评价。

  • 将机器学习符号化

    教程中使用的是“形式化”(Formalize),我个人更愿意理解为“符号化”(Symbolize)。

    只有符号化的理论才能用逻辑严谨的数学语言表述。还是举例描述。

    一个人向一家银行申请办理信用卡。银行需要根据用户资料判断是否发卡,用户数据有以下几个维度:

    用符号化的机器学习理论表述这个问题:

    作些解释,输入数据包括了过去与未来所有可能的用户数据,每个用户的数据是一个向量;输出结果{η}就是发卡和不发卡两种(可以用1,0或+1,-1代表);目标函数 f 是所有用户数据{χ}到结果集{η}的映射,这个函数我们不知道(知道就不用学习了);训练数据 D 是手头已有的用户数据,是用户数据集合{χ}的子集;通过训练得到一个训练数据D 到结果集{η}的映射 g ,这个g就是对f的近似,以后有用户申请信用卡就用g来算就行啦。

    教程用图表解释了该方法:

    机器学习的核心是“学习算法 ”(Learning Algorithm),它根据训练数据从近似目标函数集 中挑选出最接近 f 的函数,也就是 g。

  • 机器学习与其他研究领域的关系

    本节课最后简要讨论了机器学习与数据挖掘、人工智能及统计学之间的关系。

转载于:https://my.oschina.net/findbill/blog/205449

1 - 什么是机器学习?怎么用?相关推荐

  1. 机器学习分类指标:精确率、准确率、召回率详解

    混淆矩阵 在介绍具体的定义之前先了解一些混淆矩阵(confusion matrix): 一种 NxN 表格,用于总结分类模型的预测效果:即标签和模型预测的分类之间的关联.在混淆矩阵中,一个轴表示模型预 ...

  2. 【机器学习】RNN循环神经网络

    循环神经网络归属: 领域:机器学习 方向:自然语言处理 贡献:自动文本生成 循环神经网络实际应用: 生活中因为原始数据都是序列化的,比如自然语言,语音处理,时间序列问题(股票价格)等问题, 这个时候需 ...

  3. 开源自动化机器学习框架

    20211101 在 Airbnb 使用机器学习预测房源的价格 https://blog.csdn.net/weixin_33735077/article/details/87976278?spm=1 ...

  4. 机器学习常用术语词汇表

    EOF是一个计算机术语,为End Of File的缩写 ,在操作系统中表示资料源无更多的资料可读取. 刚接触机器学习框架 TensorFlow 的新手们,这篇由 Google 官方出品的常用术语词汇表 ...

  5. 预见未来丨机器学习:未来十年研究热点

    <h2 class="subheader">机器学习:未来十年研究热点 </h2><div class="gray-d1-c margin- ...

  6. SMOTE算法代码实现-机器学习

    类别不平衡问题 类别不平衡问题,顾名思义,即数据集中存在某一类样本,其数量远多于或远少于其他类样本,从而导致一些机器学习模型失效的问题.例如逻辑回归即不适合处理类别不平衡问题,例如逻辑回归在欺诈检测问 ...

  7. LARS 算法简介-机器学习

    https://cosx.org/2011/04/modified-lars-and-lasso/ 查看全文 http://www.taodudu.cc/news/show-64111.html 相关 ...

  8. 1-1 机器学习和深度学习综述-paddle

    课程>我的课程>百度架构师手把手教深度学习>1-1 机器学习和深度学习综述> 1-1 机器学习和深度学习综述 paddle初级课程 王然(学生) Notebook 教育 初级深 ...

  9. 机器学习——标准化/归一化的目的、作用和场景

    对每个特征进行归一化处理,使得每个特征的取值缩放到0~1之间.这样做有两个好处: 模型训练更高效. 特征前的权重大小可代表该变量对预测结果的贡献度(因为每个特征值本身的范围相同). (一)归一化的作用 ...

  10. 使用Apache TVM将机器学习编译为WASM和WebGPU

    使用Apache TVM将机器学习编译为WASM和WebGPU TLDR 在Apache TVM深度学习编译器中引入了对WASM和WebGPU的支持.实验表明,在将模型部署到Web时,TVM的WebG ...

最新文章

  1. linux安装硬盘命令,硬盘安装linux的两条命令
  2. 以AI制作AI,当AutoML加入AI研究员内卷大潮
  3. pytorch中Schedule与warmup_steps的用法
  4. linux 定时任务 crontab 报错 service command not found 解决方法
  5. Horseshoe prior的R package介绍:HS.normal.mean函数
  6. centos mysql 互为主从_centos7 mysql互为主从+keepalived
  7. 2月第3周国内域名商TOP10:爱名网排名升至第八
  8. iPhone SDK开发基础之UIPageControl编程
  9. webpack如何全局引入jquery和echarts?
  10. sysV init服务脚本(入门级)
  11. Listary的使用
  12. 恒强制版系统980_恒强制版软件操作答疑
  13. 我的世界服务器logo在线制作软件,[树形图制作者]Chestcommands and BossShop首家支持图标显示的编辑器...
  14. 5-6月份线上可靠性、软件测试、信息安全培训
  15. [视频相关2]网址解析接口
  16. 图像工作回顾之五:视频检索
  17. Sqlalchemy 使用add_columns函数
  18. 更改计算机的主题和桌面背景,禁止更改电脑主题背景的技巧
  19. 使用dynamic_cast报错source type is not polymorphic
  20. 计算机考英语一数学二,这所院校初试科目调整为数一英一!又有专业计划停招!这些信息21考研人一定要知道!...

热门文章

  1. Matplotlib轮廓图
  2. 中文word2vec的python实现_利用Python实现wiki中文语料的word2vec模型构建
  3. layui中使用clipboard.js
  4. ITRS 与 GCRS 之间的坐标转换
  5. vue项目seo优化-预渲染prerender-spa-plugin配置
  6. scrt如何切换成英文版_SecureCRT 简介,中英文对照
  7. 王通:当下的SEO从业者该如何升级
  8. java程序设计基础 期末试卷_(程序设计基础JAVA)期末考试试卷.doc
  9. 理解LUA的C API的最好的学习方法。
  10. 一起学CC3200之软件延时