刊首语

这里记录ML自学者群体,每周分享优秀的学习心得与资料。由于微信不允许外部链接,需要点击文末的「阅读原文」,才能访问文中的链接。


前几天看到一则新闻,AI界的网红老师Siraj,遭吃瓜群众大规模打假。

Siraj原本是靠在视频网站上传AI教学视频的博主,被称为AI界的最强Rapper,吸粉百万。

当然,他是为了最终能够通过粉丝的支持来进行盈利,这无可厚非。但有件事他做错了,而且是原则性错误。

首先,他的教学代码一般是从Github开源项目复制而来,而且删除了原作者的信息。更过分的事情是,他发表的论文,也是大段不加改动的,从其他论文处复制粘贴,甚至直接截图过来。

于是成了千夫所指,人设一夜崩塌。

这个悲惨的故事,告诉我们,想要成名,还得靠脚踏实地的好好学习。来,看看大家本周都学了什么。


本期内容

心得分享

  • 骨骼动作识别模型:AGC-LSTM

  • 对FM模型的学习

  • 多任务学习概述

  • 机器人在对话中推荐物品

  • 分水岭分割方法

学习周记

  • Mr.WR

  • 君君

  • 千禧

资料分享

  • 超轻量级人脸检测模型

  • 中文自然语言处理语料


自学心得

骨骼动作识别新模型:AGC-LSTM

本周写了一个软件著作权,并将其邮寄到中国版权保护中心。阅读动作识别综述论文,和再次阅读CVPR论文,

该篇论文首次提出AGC-LSTM网络。不仅能够分别的提取数据在时间和空间上的特征,而且还能查出两者之间的共现联系。在AGC-LSTM顶层,提出了一个时间分层结构,该结构不仅可以提高学习高等级表示的能力,而且还能显著的减少计算代价。

论文名称: An attention enhanced graph convolutional LSTM Network for Skeleton-Based Action Recognition

论文地址

对FM模型的学习

这周学习FM模型,FM在计算广告和推荐系统中十分常用,主要优点在于考虑了特征交叉,并且算法的时间复杂度仍然还是线行的。

实际业务中,对于离散型的特征经常使用one-hot编码,传统的特征交叉方法使得特征维度扩张较为迅速,而且二阶项的系数很容易训练不充分,而在 FM 中,对于每个特征都学习了一个Embedding二阶项的系数就转化成了特征Embedding之间的内积。

在FM的论文中,比较了SVM和FM之间的优劣和FM与MF的联系,SVM 中的多项式核也可以完成特征交叉,但是并不适合高维稀疏的数据。

MF可以理解为,在评分任务中,把用户对于物品的评分,分解为用户 Embedding 和物品 Embedding 的内积;

FM 的重点在于二阶项的计算方式的改写(改写成线性时间),在这里附上论文和一些其他看过的博客。

论文:

  • FM算法详解

  • FM模型理论和实践

  • Factorization Machines

  • 推荐系统召回四模型之:全能的FM模型

  • 前深度学习时代CTR预估模型的演化之路

多任务学习概述

今天介绍一下这几天看的一篇多任务概述,发表在arxiv,引用次数393。

多任务学习的直观定义是只要优化多个loss就被称之为多任务学习。为什么关注多任务,是因为我们往往只聚焦于单任务想要优化的目标,但是往往会失去一些关联信息。

从人类学习的角度来讲,在学习复杂任务之前往往会先学习一些简单的任务。从机器学习的视角来看,与主任务相关的辅助任务可以引入一些额外的信息,这些信息被称为inductive bias,我个人理解是引入了一些先验。这些先验会导致模型会更加关注能够解释多个任务的共同部分,而不是只关注解释单单一个任务,这也会使得泛化能力提高。

多任务有效的原因:

  1. 同时学习多个任务会平衡在各自任务上的噪声,使得模型能够学到更好的表征;

  2. 辅助任务可以引入额外信息。

如何设计辅助任务:作者在这里并没有给出一些方法论,而是给出了一些示例。如目标检测中常常同时输出目标类别和位置,情感分析中有设置预测输入句是否存在正向或负向情感词的辅助任务。

论文名称:An Overview of Multi-Task Learning in Deep Neural Networks论文地址

分水岭分割方法

最近在尝试看论文的代码,不知不觉就研究上了分水岭分割方法。并了解了一下同在scikitimage库中的随机漫步分割方法。在腾讯云上有翻译的中文文档,地址链接。

分水岭算法:对于没有噪声的图像效果很好。即使是有重叠。随机漫步算法:随机Walker分割基于各向异性扩散的分割算法,通常比分水岭慢,但对噪声数据和孔洞边界具有良好结果。

自己体验下来,感觉分水岭确实是一个很好的传统分割算法,而随机漫步算法进行分割感觉太消耗内存了。在图片没什么噪声的情况下两者相比应该优先选择分水岭

机器人在对话中推荐物品

分享SIGIR2018的一篇文章,个性化的聊天机器人在电商领域,有着可观的前景。目前的多轮对话中,机器人通常仅仅利用到了用户的历史输入信息,忽略了用户长期的偏好,从而给出一些不受欢迎的回复。而推荐系统,能够从用户历史购买的物品或者给出的评分中,学习到更多的用户喜好信息。

这篇文章,将对话和推荐两种看起来有所差异的分支结合到一起,利用深度强化学习框架,建立个性化的对话推荐机器人,从而能够优化对话体验,完成对话目标。这里所说的对话目标,是在电商场景下,成功的推荐商品给用户。

系统主要由三个部分组成:Belief Tracker, Policy Network, Recommender。

论文名称:Conversational Recommender System论文地址


学习周记

Mr.WR

这周把吴恩达的机器学习看完了,麻省理工的stang教授的线代也看完了。机器学习的视频就是入了个门,以后还有很多东西要学,正在最后面的编程练习,感觉好多都看不懂。

接下来这周要好好研究研究,然后同时看Python深度学习这本书和林轩田的机器学习技法,争取在这周看完

这周忙于找工作,没有太多的时间去学习,主要看了一下网易云课堂上厦门大学林子雨老师的大数据原理和应用课程的前十一章,觉得比较适合想要入门大数据以及对大数据有大致的了解的同学,这门免费课程还有配套的教程和相应的资料,确实还不错。

君君

在复现论文过程中,为了生成对应数据集试过的方法之一,虽然最终没有采用该方法生成数据集,不过我觉得这种勇于创新的思路值得记录下来(狗头保命)。

具体背景情况、实验图像、实现代码都详细在下面链接里面有说明,这边就不重复陈述了。链接地址

千禧

最近重温了sklearn的调用,从中学习到最新版本的sklearn的细节操作,从案例中积累超参数调整的经验。这里推荐B站视频:链接地址


优质资料

超轻量级人脸检测模型

一款超轻量级通用人脸检测模型,模型文件大小仅1MB,320x240输入下计算量仅90MFlops,适用于边缘计算设备、移动端设备以及PC。项目地址

中文自然语言处理语料

大规模中文自然语言处理语料,包括维基百科,新闻语料,百科问答,社区问答,翻译语料。项目地址


加入我们

扫描加微信:

验证信息:「自学」,即可加入ML自学者俱乐部社群。可以投稿每周学习心得或者看到的优质学习资料,助力团体共同学习进步。


参考来源

  • ML自学者俱乐部投稿

  • 黄博的机器学习圈子

  • 知乎机器学习话题

点击阅读上一期内容

ML 自学者周刊:第 3 期相关推荐

  1. ML 自学者周刊:第 4 期

    刊首语 这里记录ML自学者群体,每周优秀的学习心得与资料.由于微信不允许外部链接,需要点击文末的「阅读原文」,才能访问文中的链接. 本期内容 论文速递 •CVPR2019:细粒度图像识别新论文•基于元 ...

  2. ML 自学者周刊:第 1 期

    这里记录自学者的学习内容,欢迎留言投稿你的自学内容. 刊首语 创刊第 1 期,会一直坚持下去,希望能够做到 100 期.一直以来,同学们都在坚持分享.好的自学内容,还是放出来让大家多看看.多交流为好. ...

  3. ML 自学者周刊:第 5 期

    刊首语 这里记录ML自学者群体,每周分享优秀的学习心得与资料.由于微信不允许外部链接,需要点击文末的「阅读原文」,才能访问文中的链接. 本期内容 论文阅读 •ACL2018:多语义词向量的编码•阿里电 ...

  4. ML 自学者周刊:第 2 期

    刊首语 这里记录ML自学者群体,每周分享优秀的学习心得与资料.由于微信不允许外部链接,需要点击文末的「阅读原文」,才能访问文中的链接. 本期内容 目录 一.学习心得分享 图像超分辨和图像高分辨的区别 ...

  5. CSDN开发者周刊第 21期:Wi-Fi 之父辞世,谷歌服务器再次全球宕机;Windows 10 将支持安卓应用

    CSDN开发者周刊:只为传递"有趣/有用"的开发者内容,点击 Star(CodeChina)! 本周热门项目 1.GTK 4.0开源工具包正式发布 赶在周五的发布会之前,GTK 开 ...

  6. 移动周刊第 184 期:Android 开发终极指南

    写在前面 本期移动周刊第 184 期如约而至,聚焦 Android.iOS.VR/AR/MR.直播等前沿移动开发技术,收录一周最热点,解读开发技巧,我们希望从中能够让你有一些收获,如果你有好的文章以及 ...

  7. 【码云周刊第 68 期】数据可视化:商业智能的未来!

    为什么80%的码农都做不了架构师?>>>    码云项目推荐 随着我们进入大数据时代的步伐越来越快,海量数据深度分析的重要性与日俱增,许多应用程序积累了大量消费者的行为数据,急需将这 ...

  8. 开源大数据周刊-第49期

    摘要: 开源大数据周刊-第49期 资讯 实时流数据分析--2017 年的 27 个预测 概述:根据Markets & Markets的预测,流数据分析市场将从 2016 年的 30 8 亿美元 ...

  9. 6款实用开源报表工具 | 码云周刊第 83 期

    大数据时代,从海量数据中挖掘出有用的数据,并以较人性化.直观的方式展示这些数据,变得尤为重要.今天小编为大家介绍6款实用的开源报表工具,你可以使用这些工具做出高效,且符合企业需求的报表. 1.项目名称 ...

最新文章

  1. SQL Server中使用自定义指定顺序排序
  2. Android Glide图片加载框架(四)回调与监听
  3. 计算机二级c语言公共基础题,计算机二级C语言笔试公共基础知识课后习题及答案...
  4. JS学习笔记 等于和包装对象
  5. 【重点】程序员面试金典——4.6寻找下一个结点
  6. 分组卷积计算量_轻量级卷积神经网络的设计技巧
  7. Latex转word的一款软件-Pandoc
  8. c语言如何找一个数的因数,如何用C语言找完数并显示因数?(编译器为Dev-c)
  9. 电脑重置,win10怎么重置此电脑 重置电脑的方法和后果
  10. java零基础风清扬黑马笔记
  11. linux基础知识总结(二)
  12. 致歉信:拖更两天抱歉了
  13. Linux 学习资料
  14. 基于tesseract_ocr实现图片中汉字辨识
  15. 轻量级程序编辑器的选择:EmEditor、Editplus等---Web开发系列之工具篇
  16. 用python庆祝生日_雷吉娜用搞笑的歌曲庆祝自己50岁的生日:“今天一个婊子老了”...
  17. 检查两个单词是否为变位词(Anagram)
  18. Nginx:12---反向代理之(代理模块,代理单个上游服务器)
  19. 手动挡你会开吗 八招教你开好手动挡车型
  20. VMware-重要设置-虚拟网络编辑器

热门文章

  1. 牛客网 桂林电子科技大学第三届ACM程序设计竞赛 D.寻找-树上LCA(树上a到b的路径上离c最近的点)...
  2. BCB 串口控件的使用 TComm
  3. mysqldump 和 sql命令导入sql文件
  4. python字符串,列表,字典的常用方法
  5. JAVA多线程学习(一)
  6. LoadRunner界面分析(二)
  7. 6.2 基本操作与存储
  8. Windows下安装Object C开发环境,及Hello Word(转)
  9. 趣文:程序员/开发人员的真实生活
  10. web前端试题和答案