刊首语

这里记录ML自学者群体,每周分享优秀的学习心得与资料。由于微信不允许外部链接,需要点击文末的「阅读原文」,才能访问文中的链接。

本期内容

论文阅读

•ACL2018:多语义词向量的编码•阿里电商诉讼预测多任务模型•EMNLP2019: 短文本分类的异质图注意力网络

学习心得

•小强:Encoder-Decoder•君君:YOLO 框架学习•昨夜星辰:词向量学习•君君:研究图像模态转换模型•奔腾:科大讯飞比赛总结•曲奇:优化理论的多目标规划问题

疑问解答

•特征工程中的归一化有什么作用•如何解释准确率、召回率和F值•特征抽取、特征选择、变化组合区别

论文阅读

ACL2018:多语义词向量的编码

阅读论文 ACL2018 上的: Probabilistic FastText for Multi-Sense Word Embeddings

已有方法不能很好的应对稀有词与词汇表没有的词的语义问题,文章提出来一种概率词模型,将高斯混合概率与FastText模型结合,具有灵活的子词结构。

高斯分量可以得到多义词意义上的分离,FastText子词结构获取到更多字符级信息与不确定的信息,从而提供了高质量的语义表达。文章模型在一些词相似度数据集上的表现优于之前的模型,在罕见词数据集和其他语言数据集上也有较好的效果。本文工作首次利用多模态嵌入来解决罕见词的问题。

论文地址[1]

阿里电商诉讼预测多任务模型

今天给大家分享一篇阿里使用多任务模型做电商诉讼预测的论文。论文地址:Legal Intelligence for E-commerce。

首先介绍一下文章背景,一般来说会先有电商纠纷(一般是在线的,所以此过程也称为ODR,online dispute resolution),如果买卖双方对纠纷处理结果不满意的话一般会通过律法途径将纠纷问题转为诉讼问题。而诉讼需要请律师(高额的费用),同时法官也需要收集各方面的信息(包括买卖方的历史数据及平台聊天记录等),这些都给诉讼处理带来了很大的困难。

那么诉讼预测会面临什么问题呢?

LDJ(legal dispute judgement)任务在NLP领域做得相对较为成熟,但是电商纠纷/诉讼预测与LDJ还是有一定的区别,所以不能直接套用LDJ预测的方法来解决电商纠纷/诉讼预测任务,但是作者表示这两者有一定的相似度。

相对于纠纷数据来说,电商诉讼数据更为稀疏,也就是训练数据少。

总体上来说,作者使用了多任务网络的模型,纠纷数据训练底层表示,使用诉讼数据微调更上层的网络。

这篇文章会介绍好几次,这次先讲个大概吧。

论文地址[2]

EMNLP2019: 短文本分类的异质图注意力网络

短文本分类在新闻及微博等领域得到了广泛的应用。但是,目前的文本分类算法主要集中于长文本分类并且无法直接应用于短文本分类。这是由于短文本分类的两个独有挑战:数据的稀疏和歧义、标签数量较少。

针对上述两个挑战,本文创新地将短文本建模为异质图,通过图数据的复杂交互来解决数据稀疏和歧义带来的挑战。同时,本文提出了一种异质图注意力 HGAT 来学习短文本的表示并进行分类。HGAT 是一种半监督学习算法可以更好的适用于标签数量较少的场景,如短文本的分类。

论文地址[3]

学习心得

小强:Encoder-Decoder

本周在看 encoder–decoder,seq2seq,attention 相关的东西。

由于时间不够,先简单说几点收获,过几天发成文。

encoder–decoder 是一个很大的范畴,不论编码和解码用的什么算法,只要是『编码–解码』的结构都算这个范畴。

seq2seq 和 encoder–decoder很像。也是编码和解码的过程,不过范围更小,基本限定在了nlp和语音这种序列特征很强的。

如果说encoder–decoder是一种『有损压缩』,在把长文本转化为固定向量的过程会损失一些信息。那么attention就更倾向于无损压缩,更好的保留了信息。

君君:YOLO 框架学习

这周看了R-CNN,fast R-CNN,SPP,YOLOv1,YOLOv2的框架结构。觉得YOLO这么简单地模型能有这么高的精确率以及效率是真的厉害。

另外在darknet上跑了下YOLO的预测模型,好奇darknet是怎么用yolo.cfg构造tensorflow模型,就去一行一行看darknet源代码,看得人脑壳疼。看过之后莫名觉得代码能力level+1。

为了高效刷leetcode,找了本算法书籍补补算法代码基础(纯数学系毕业工作才接触的Python+深度学习,觉得硬算法方面太欠缺了),看得比较零散暂时没有总结。

昨夜星辰:词向量学习

最近在学词向量的发展史及代码实战。从 one-hot,词袋,tf-idf到分布式表示,如NNLM,以及后来的 word2vec,fasttext,glove,elmo,gpt。

在看到bert时,还是避免不了之前transformer等基础。因此在代码实战上阅读paper原文,掌握原理。希望将当前的基本打牢。

君君:研究图像模态转换模型

最近在研究图像模态转换的模型。从改进的condition cycle GAN ,到cycle GAN,再到Wasserstein cycle GAN。condition cycle GAN被放弃的原因正是因为condition,condition模块的存在使得预测(模态转换)过程必须具备当前图像的label,导致切图转换再还原这个流程走不通。

cycle GAN训练过程中loss_D起伏波动无法很好收敛(尽管大多数类别图像模态转换已经很逼真,但还有少数类别无法完美转换),网上查找之后发现这个原因很有可能是因为GAN本身难收敛的原因,并且为了缓解这种情况已经有人提出了Wasserstein GAN(WGAN)以及WGAN_GP。打算试试Wasserstein cycle GAN这条路能不能走通。

中间为了改进cycle GAN,在github上找了好多基于基础GAN改进的condition GAN、Wasserstein GAN的相关实现代码。参考然后嫁接到自己模型上面,发现GAN的玩法真的是太多了。下面附上两个我觉得总结很到位的GAN链接。有兴趣的可以尝试参考第一个链接[4]中的变种GAN,在第二个链接[5]中改进cycle GAN。

曲奇:优化理论的多目标规划问题

天津大学强化学习实验室同网易伏羲人工智能实验室、NTU 合作的 ASE 2019 论文《Wuji: Automatic Online Combat Game Testing Using Evolutionary Deep Reinforcement Learning》。

该论文主要融合了进化算法与深度强化学习算法,从多目标优化的角度,旨在解决大规模商业游戏的自动化智能测试问题,并荣获 ASE 2019 的最佳论文奖 (Distinguished Paper Award)。

奔腾:科大讯飞比赛总结

科大讯飞四个比赛总结

•AD分类决赛总结[6]•工业寿命预测[7]•大数据应用分类[8]•移动反欺诈[9]

疑问解答

特征工程中的归一化有什么作用[10]

引入归一化,是由于在不同评价指标中,其量纲或者是量纲单位往往不同,变化区间处于不同的数量级,若不进行归一化,可能导致某些指标被忽视,影响到数据分析的结果。

所以,为了消除特征数据之间的量纲影响,需要进行归一化处理,已解决特征指标之间的可比性。原始数据经过归一化处理后,各指标处于同一数量级,以便进行综合对比评价。

如何解释准确率、召回率和F值[11]

准确率和召回率是广泛用于信息检索和统计学分类领域的两个度量值,用来评价结果的质量。其中精度是检索出相关文档数与检索出的文档总数的比率,衡量的是检索系统的查准率;召回率是指检索出的相关文档数和文档库中所有的相关文档数的比率,衡量的是检索系统的查全率。

一般来说,Precision就是检索出来的条目(比如:文档、网页等)有多少是准确的,Recall就是所有准确的条目有多少被检索出来了。

正确率、召回率和 F 值是在鱼龙混杂的环境中,选出目标的重要评价指标。不妨看看这些指标的定义先:

•正确率 = 提取出的正确信息条数 / 提取出的信息条数•召回率 = 提取出的正确信息条数 / 样本中的信息条数

两者取值在0和1之间,数值越接近1,查准率或查全率就越高。

•F 值 = 正确率 * 召回率 * 2 / (正确率 + 召回率) (F 值即为正确率和召回率的调和平均值)

特征抽取、特征选择、变化组合区别[12]

特征抽取,一般是从原始数据中通过计算得到一些特征,如计算用户的购买力区间,平均每个月的购买次数。特征选择:假设你抽取了100个特征,通过信息增益、互信息等等指标选择了最重要的30个用于建模;特征变换:如有个特征是用户的年薪,但是这个年薪的区间太大,我们做了一个函数变换,如log(年薪)。特征组合:如年龄区间+年薪区间做组合。

加入我们

公众号内回复「自学」,即可加入ML自学者俱乐部社群。可以投稿每周学习心得或者优质学习资料,助力团体共同学习进步。

上期精彩内容

References

[1] 论文地址: https://www.aclweb.org/anthology/P18-1001/
[2] 论文地址: https://dl.acm.org/citation.cfm?id=3331212
[3] 论文地址: http://www.shichuan.org/doc/74.pdf
[4] 第一个链接: https://github.com/MASILab/SynSeg-Net
[5] 第二个链接: https://github.com/znxlwm/pytorch-generative-model-collections
[6] AD分类决赛总结: https://blog.csdn.net/herosunly/article/details/102708654
[7] 工业寿命预测: https://blog.csdn.net/herosunly/article/details/102711266
[8] 大数据应用分类: https://blog.csdn.net/herosunly/article/details/102711596
[9] 移动反欺诈: https://blog.csdn.net/herosunly/article/details/102713094
[10] 特征工程中的归一化有什么作用: https://www.zhihu.com/question/20455227/answer/325347915
[11] 如何解释准确率、召回率和F值: http://bookshadow.com/weblog/2014/06/10/precision-recall-f-measure/
[12] 特征抽取、特征选择、变化组合区别: https://www.zhihu.com/question/20716506/answer/45658573

ML 自学者周刊:第 5 期相关推荐

  1. ML 自学者周刊:第 4 期

    刊首语 这里记录ML自学者群体,每周优秀的学习心得与资料.由于微信不允许外部链接,需要点击文末的「阅读原文」,才能访问文中的链接. 本期内容 论文速递 •CVPR2019:细粒度图像识别新论文•基于元 ...

  2. ML 自学者周刊:第 1 期

    这里记录自学者的学习内容,欢迎留言投稿你的自学内容. 刊首语 创刊第 1 期,会一直坚持下去,希望能够做到 100 期.一直以来,同学们都在坚持分享.好的自学内容,还是放出来让大家多看看.多交流为好. ...

  3. ML 自学者周刊:第 2 期

    刊首语 这里记录ML自学者群体,每周分享优秀的学习心得与资料.由于微信不允许外部链接,需要点击文末的「阅读原文」,才能访问文中的链接. 本期内容 目录 一.学习心得分享 图像超分辨和图像高分辨的区别 ...

  4. ML 自学者周刊:第 3 期

    刊首语 这里记录ML自学者群体,每周分享优秀的学习心得与资料.由于微信不允许外部链接,需要点击文末的「阅读原文」,才能访问文中的链接. 前几天看到一则新闻,AI界的网红老师Siraj,遭吃瓜群众大规模 ...

  5. CSDN开发者周刊第 21期:Wi-Fi 之父辞世,谷歌服务器再次全球宕机;Windows 10 将支持安卓应用

    CSDN开发者周刊:只为传递"有趣/有用"的开发者内容,点击 Star(CodeChina)! 本周热门项目 1.GTK 4.0开源工具包正式发布 赶在周五的发布会之前,GTK 开 ...

  6. 移动周刊第 184 期:Android 开发终极指南

    写在前面 本期移动周刊第 184 期如约而至,聚焦 Android.iOS.VR/AR/MR.直播等前沿移动开发技术,收录一周最热点,解读开发技巧,我们希望从中能够让你有一些收获,如果你有好的文章以及 ...

  7. 【码云周刊第 68 期】数据可视化:商业智能的未来!

    为什么80%的码农都做不了架构师?>>>    码云项目推荐 随着我们进入大数据时代的步伐越来越快,海量数据深度分析的重要性与日俱增,许多应用程序积累了大量消费者的行为数据,急需将这 ...

  8. 开源大数据周刊-第49期

    摘要: 开源大数据周刊-第49期 资讯 实时流数据分析--2017 年的 27 个预测 概述:根据Markets & Markets的预测,流数据分析市场将从 2016 年的 30 8 亿美元 ...

  9. 6款实用开源报表工具 | 码云周刊第 83 期

    大数据时代,从海量数据中挖掘出有用的数据,并以较人性化.直观的方式展示这些数据,变得尤为重要.今天小编为大家介绍6款实用的开源报表工具,你可以使用这些工具做出高效,且符合企业需求的报表. 1.项目名称 ...

最新文章

  1. 新一代服务器和解决方案齐发力 推动虚拟化进程(一)
  2. 用WMI修改计算机名和IP
  3. IA-32 Intel手册学习笔记(一)系统架构概述
  4. WebSocket入门
  5. python中的异步与同步
  6. goahead上传文件【原创】
  7. 宇宙大爆炸是不是一个黑洞的大爆炸?
  8. 企业级软件协作,没有数据怎么人工智能?
  9. cmd移动文件到另一个文件夹_Java 如何获得一个文件或文件夹的大小
  10. idea项目工程里面自动生成的.iml文件无法删除的解决方法
  11. 使用phpQuery获取数组
  12. RK3399外设驱动之MIPI显示-panel配置
  13. 正则表达式汇总--小鱼儿
  14. RankWarning: Polyfit may be poorly conditioned问题的解决
  15. 8大常见的服务器管理小工具
  16. java 分布式缓存 开源_Java开源分布式键-值缓存系统Voldemort
  17. 【Matlab学习笔记】报错——检查对函数‘Link’的调用中是否缺失参数或参数数据类型不正确。
  18. LTE 各频段对应频点以及频率,频点号与频率之间的转换关系
  19. 模糊数学简介与模糊综合评价法
  20. java csv下载_java实现csv文件下载

热门文章

  1. apache工作模式
  2. Visual Subst - 简单将任意文件夹挂载模拟成驱动器盘符硬盘分区的小工具
  3. Insert intervals
  4. 续流二极管原理及应用
  5. 【分享】【养生】消灭小肚腩
  6. jsp怎么连接mysql_jsp如何连接数据库!
  7. 电脑故障检测_检测电脑故障的简单方法
  8. MacOS Big Sur软件打开“您没有权限打开应用程序”解决办法
  9. Allegro如何导入导出DXF
  10. 北斗导航 | 完全自主研发国产高端三维激光雷达助力中国测绘技术发展