6.11-6.13 下载数据集+基本概念疑惑解答+相似度计算之Jaccard系数学习

关于数据集

最初的ACM论文数据集中,包含的数据有论文的ID、标题、摘要、关键字、引用关系、CCS分类,以及论文摘要中句子级别的子空间标记(研究背景、研究问题、贡献、方法、实验)。但是没有论文的year,venue属性,即论文发表的年份和发表的期刊或会议信息,所以需要再去爬取或者直接搜集数据。
第一个想法是直接搜集论文数据集,然后找到两个数据集之间的论文匹配关系。我们选择添加链接描述作为数据来源。该数据集包含了 Microsoft Academic Graph (MAG) 的 1.66192182 亿篇论文及 AMiner 的 1.54771162 亿篇论文。研究者生成了两个学术图表646万个链接关系(matching),并表示在未来会呈现包括作者在内的更多链接结果。这个数据集可以用于进行引用网络(citation network)、论文内容等多种数据集成研究。整个数据集包括以下三个方面:



即链接关系、MAG 论文集及 AMiner 论文集。
在链接关系中,两个数据集的论文会以 ID 的形式呈现,例:
{
“mid”: “xxxx”,
“aid”: “yyyy”
}
其中,mid 指的是 MAG 的论文 ID,而 aid 则是 AMiner 的论文 ID。
对于数据集 MAG 论文和 AMiner 论文而言,每篇论文都是一个 JSON 对象。其数据模式是:

由于ACM数据集中论文id的表示方法(只有数字)与OAG数据集中论文id的表示方法(数字和小写字母组成的字符串)不同,所以不能根据论文id进行查找和匹配。我们只能根据paper title在OAG数据集汇中来查找对应的论文,并且取出venue和year信息。
思路如下:对于OAG数据集的处理,把每一篇论文对应的title、year、venue取出来形成一个新的json数据,title数据要全部处理成小写。对于ACM中的每一篇论文,用论文题目去OAG数据集中找到对应的论文,提取出year和venue信息。生成对应的txt文件,每一行对应一篇论文。
代码还没有写,因为数据集太大,前期下载花了很多时间…

基本概念疑惑解答

1.机器学习中,什么是基于子空间的学习,为什么用子空间学习?

子空间学习大意是指通过投影,实现高维特征向低维空间的映射,是一种经典的降维思想。
例如人脸图像,如果每幅图像提取出来的特征是1000维,则每幅图像对应着1000维空间中的一个点。维数太高给计算带来很多问题,且很多人认为真实有效的人脸图像特征并没有那么高维,可能只有100维,即每幅人脸只是100维空间中的一个点。将特征从1000维压缩到100维,就是子空间学习问题。在模式识别中,可能绝大多数的维数约简(降维,投影)算法都算是子空间学习,如PCA, LDA, LPP, LLE等等。
子空间学习的主要问题,就是如何将特征从高维空间压缩到低维空间,需要保留什么样的信息,设定什么样的准则,低维空间的特征具有哪些特征等问题。
作者:Jason Gu
链接:https://www.zhihu.com/question/26908926/answer/35314770
来源:知乎
A sub-field within machine learning that is based on algorithms for learning multiple levels of representation in order to model complex relationships among data.Higher-level features and concepts are thus defined in terms of lower-level ones,and such a hierarchy of features is called a deep architecture.Most of these models are based on unsupervised learning of representations.

CCS分类

“中国标准文献分类法” CCS(Chinese Classification for Standards)简称中标分类。“中国标准文献分类法”的类目设置以专业划分为主,适当结合科学分类。序列采取从总到分,从一般到具体的逻辑系统。本分类法采用二级分类,一级主类的设置主要以专业划分为主,二级类目设置采取非严格等级制的列类方法;一级分类由二十四个大类组成,每个大类有100个二级类目;一级分类由单个拉丁字母组成,二类分类由双数字组成。

3. 子空间标记模型中#content

表示该语义嵌入向量的内容,有点不太理解。

4.数据集:

ACM数据集中IndexTerms是指论文的CCS分类,有层次结构的分类吗?GeneralTerms表示论文的大类标签吗?sessions表示论文发表在某会议上,而session代表会议主题或者论文的主题?

相似度计算之Jaccard系数学习

一、定义

给定两个集合A,B,Jaccard 系数定义为A与B交集的大小与A与B并集的大小的比值,定义如下:

当集合A,B都为空时,J(A,B)定义为1。
与Jaccard 系数相关的指标叫做Jaccard 距离,用于描述集合之间的不相似度。Jaccard 距离越大,样本相似度越低。公式定义如下:

其中对参差(symmetric difference):

二、性质

三、实例

主要用于计算符号度量或布尔值度量的个体间的相似度,因为个体的特征属性都是由符号度量或者布尔值标识,因此无法衡量差异具体值的大小,只能获得“是否相同”这个结果,所以Jaccard系数只关心个体间共同具有的特征是否一致这个问题。
1、如果比较X与Y的Jaccard相似系数,只比较xn和yn中相同的个数,公式如下:
如集合A={1,2,3,4};B={3,4,5,6};
那么他们的J(X,Y)=1{3,4}/1{1,2,3,4,5,6}=1/3;
2、样本A与样本B是两个n维向量,而且所有维度的取值都是0或1。例如:A(0111)和B(1011)。我们将样本看成是一个集合,1表示集合包含该元素,0表示集合不包含该元素。
概念浅析:假设A是坚果Pro2 , B是 苹果8x。 为了比较两个手机,给出了n个评价指标,即n维特征,也就是n维向量:1-是国产、2-有刘海、3-价格高于5000。那么对于A=(100),B=(011)。所以,n维向量指样本的N维特征,组成一个集合。而集合是由元素组成的,在对应的特征位置,如果样本有该特征,这个位置集合值取1,表示包含该元素;否则,取0,表示不包含该元素。可见,元素=特征。
P:样本A与B都是1的维度的个数
q:样本A是1,样本B是0的维度的个数
r:样本A是0,样本B是1的维度的个数
s:样本A与B都是0的维度的个数
那么样本A与B的杰卡德相似系数可以表示为:
这里p+q+r可理解为A与B的并集的元素个数,而p是A与B的交集的元素个数。
而样本A与B的杰卡德系数表示为:

原文链接:添加链接描述

四、主要应用场景

jaccard相似系数(Jaccard similarity coefficient)主要应用场景为数据聚类、比较文本的相似度,用于文本的查重与去重,计算对象间的距离。
Jaccard的应用很广,最常见的应用就是求两个文档的文本相似度,通过一定的办法(比如shinging)对文档进行分词,构成词语的集合,再计算Jaccard相似度即可。当然,用途还有很多,不过大多需要结合其他的技术。比如:①过滤相似度很高的新闻,或者网页去重②考试防作弊系统③论文查重系统④计算对象间距离,用于数据聚类等。

五、在实训中的应用

在相同子空间中论文之间的相似性与三种特征相关:
① CCS分类的相似度;
② reference的相似程度;
③ 在该子空间上的文本中关键词的相似度。
其中,特征②③可以使用Jaccard相似系数来计算。
Reference为参考文献,或许我们可以假定参考文献也都在我们的数据集中,每一篇论文都有一个id。我们如果想要计算论文A,论文B在reference上的相似程度,可以把他们的参考文献id当做集合,即Sa={id1,id2,…,idn},Sb={id1,id2,…,idm},然后针对这两个集合计算Jaccard相似系数。
在该子空间上的文本中关键词的相似度,我们假定前期对数据预处理的时候,对于每篇论文摘要中的每个句子都提取出了关键词。把关键词想成符号度量,Jaccard系数为两篇论文中相同关键词的个数/两篇论文总的关键词个数(去重)。

基于规则嵌入的论文比对系统——创新实训记录2相关推荐

  1. (个人)AR电子书系统创新实训第四周(1)

    (个人)AR电子书系统创新实训第四周(1) 宣传册设计周记07 01宣传册目录 ①拷贝封面底层的云纹. ②设计印象济宁方形框,包括文字的创意与排版,方框的位置摆放,印章的位置摆放. ③目录的设计,包括 ...

  2. (个人)AR电子书系统创新实训第四周(2)

    (个人)AR电子书系统创新实训第四周(2) 宣传册设计周记08 01五与六页 该页的主要内容是介绍济宁的几个代表性文化,分别是孔孟文化,运河文化,水浒文化,佛教文化,梁祝文化,和师祖文化. 这一页面主 ...

  3. (个人)太极拳学习系统创新实训第一周(一)

    一.项目背景: 太极拳作为国家非物质文化遗产,集颐养性情.强身健体.技击对抗等多种功能为一体.为了能够更好的帮助人们学习和传承太极拳,我们想要开发出一种可以实时校准用户动作并且能够对用户动作评估的太极 ...

  4. (个人)VR实时交互的太极拳学习系统创新实训第一周(2)

    这周主要进行了人物模型和示例动画的制作和利用动捕进行舞蹈学习的论文的学习. 使用Neuron和Motion Builder进行了太极拳动作的采集和处理.以下是我使用Motion Buileder导出模 ...

  5. (个人)VR太极拳学习系统-创新实训第一周(1)

    项目简述 我们预计开发一个基于虚幻4引擎的帮助用户学习太极拳的实时系统,该系统会使用到当前比较热门的人机交互技术来实现功能,例如虚拟现实.动作捕捉.语音控制等.我们预计当该系统开发完毕后,它应该能够为 ...

  6. (个人)AR电子书系统创新实训第三周(2)

    上一篇我介绍了相关控件的搭建以及sprite的处理,在这一篇我将介绍各个控件的组织以及相关的实现代码. 1."设置"弹窗及按钮实现 在上篇博文中我已经介绍了如何建立"弹窗 ...

  7. (个人)AR电子书系统创新实训第一周(1)

    -我们小组五人在选定了实训的课题之后就开始仔细讨论整个项目的设计.在产品展示上我们分为两部分,一块是纸媒,一块是APP. - 纸媒的展示效果就是,在我们做的宣传册上扫图片就可以获得二维甚至三维的视觉体 ...

  8. (个人)太极拳学习系统创新实训第四周

    一.上周工作问题的解决 a) 观看模式已经成功合并到主项目当中,统一了一些公用变量. b) 给用户一个准备的时间,准备动作做好之后说出开始指令后再开始学习. c) 创建一个UserCharacter作 ...

  9. (个人)AR电子书系统创新实训第五周(2)

    设计桌面端应用的工作流程&实现资源导入,管理系统 根据需要,我再次整理了一下桌面端程序的功能,该程序具有配对(映射)资源.打包资源.上传资源.以及生成二维码的功能,具体流程图如下: 据此,我首 ...

最新文章

  1. c# 对象json互相转换_C#匿名对象(转JSON)互转、动态添加属性
  2. 如何将zipoutputstream返回_性能问题|如何正确使用“缓存”?
  3. 【Centos 7】【Docker】 安装 redis
  4. SpringSecurity 权限控制之异常处理流程图
  5. Storm的BaseBasicBolt源码解析ack机制
  6. 作者:石在辉(1983-),男,中移(苏州)软件技术有限公司大数据产品部方案架构师。...
  7. centOS 7镜像文件下载
  8. Ubuntu 磁盘自动挂载解决
  9. vue中html没引入js文件,vue.js如何引入非模块化的js文件并调用里面的方法和类。...
  10. ichat模块schedule模块运行遇到的错误
  11. 可口可乐中国联袂青年志发布《中国青年「在乎力」报告》
  12. C语言——设置flag的优点
  13. coalesce函数的用法
  14. this的指向问题总结
  15. 简单介绍API分类接口
  16. 读书笔记009:《伤寒论》- 足太阳膀胱经
  17. 基于FPGA的数字频率计(设计全过程)
  18. 06-HTML5新增元素
  19. 物流英语与计算机操作,物流英语与计算机模拟题及正确答案[精选].doc
  20. oracle vitu,Oracle Cloud Infrastructure | Oracle Česká Republika

热门文章

  1. Hive 插入数据时遇到Return Code 2问题的解决
  2. 3dsmaxC4DbodypainterPS画贴图七、3dsmaxC4DbodypainterPS联动画贴图。
  3. java如何得到项目的webRoot 路径?system.root
  4. 自动应答API memo
  5. 计算机科学与技术 是紧缺专业吗,华为最紧缺的四大专业人才,没毕业就被“抢走”...
  6. JAVA知识体系之多线程篇
  7. 数据结构——快速掌握LL旋转LR旋转以及RL旋转RR旋转
  8. 微信支付签名---利用TreeMap实现对参数ASCII升序排序
  9. 无胁科技-TVD每日漏洞情报-2022-10-8
  10. char *arr与char a[ ]