主要参考论文:《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》WSDM 2018

概述

本文的任务是异构符号网络上的情感链接预测。综合情感网络(sentiment network)、社交网络(social network)和用户属性网络(profile network),通过深度自编码器得到的用户表征,经过融合后进行情感链接预测。

背景

Signed Networks (符号网络)

符号网络是指边具有正或负符号属性的网络,其中,正边和负边分别表示积极的关系和消极的关系。真实世界的许多复杂网络中都存在对立的关系,尤其是在信息、生物和社会领域.利用边的符号属性去分析、理解和预测这些复杂网络的拓扑结构、功能、动力学行为具有十分重要的理论意义,并且对个性化推荐、态度预测、用户特征分析与聚类等都具有重要的应用价值。

情感链接

本文针对的是普通用户对于名人的情感(态度),可以是正面的,也可以负面的。情感值的取值范围为[-1,1]。

动机

之前的研究主要集中在文本内容的情感分析,却忽略了社交网络、用户属性等信息。所以在没有文本内容可以使用的时候,这些方法就无法工作,巧妇难为无米之炊。所以本文探究了融合社交网络、用户属性等副信息时,如何进行情感链接预测。

挑战

  1. 第一个挑战是社交网络中往往没有显示的情感链接,所以缺少这样的数据集。
  2. 第二个挑战是如何充分利用已有的各种信息,达到较好的预测效果。

构建数据集

为了应对第一个挑战,本文收集了从2009年8月14日到2014年5月23日的29.9亿条微博,自己构建了一个数据集。

提取名人的属性信息

  1. 使用“Microsoft Satori”知识库;
  2. 选出“person”类型的实体;
  3. 通过知识库的编辑频率以及微博上的曝光率来筛选出流行的名人,形成名人库;
  4. 抽取9种属性:place of birth(出生地),date of birth(生日), ethnicity(种族),nationality(国籍),specialization(专业、职业),gender(性别),height(身高),weight(体重)和astrological sign(星座)。

提取普通用户的属性信息

  1. 抽取了用户的性别和地点作为用户的属性。

提取普通用户的社交信息

  1. 从微博中抽取用户的社交信息,构成(a,b)形式的数据,a为follower(粉丝),b为followee(关注对象)。

提取用户对名人的情感

  1. 使用Jieba对每条微博中的词进行词性标注;
  2. 选择带有名人库中名人的微博;
  3. 对这些微博计算对于提及的名人的情感值(-1 ~ 1);
    下面详细介绍第3步:

构建“表情-情感”的映射表

手工构建一个“表情-情感”的映射表,将每条微博映射到positive或negative

比如,“I love Kobe! [kiss]”,因为包含[kiss]这边表情,所以映射到positive。

但是仅仅根据表情的类别是不能直接决定用户对名人的情感类别。比如“Miss you Taylor Swift[cry][cry]”就表达的是用户对泰勒的正向情感。

计算词的SO(sentiment orientation)值

为数据集中词频为2,000到10,000,000的词计算一个SO值,作为这个词的情感倾向。

SO(word)=PMI(word,pos)−PMI(word,neg)SO\left ( word\right )=PMI\left ( word, pos\right )-PMI\left ( word, neg\right )SO(word)=PMI(word,pos)PMI(word,neg)

其中,PMI(x,y)=logp(x,y)p(x)p(y)PMI\left ( x,y\right )=log\frac{p\left ( x,y\right )}{p\left ( x\right )p\left ( y\right )}PMI(x,y)=logp(x)p(y)p(x,y),表示x和y间的互信息。

计算用户对名人的情感值

给定一个名人ccc和一条微博,构建以ccc为原点的极坐标系,坐标系中的点为微博中的词tit_iti,极径为ccctit_iti在句法依存图中的距离的倒数,极角为θi=SO(ti)⋅π\theta _{i}=SO\left ( t_{i}\right )\cdot \piθi=SO(ti)π。将这些点在y轴上的投影值求和,即可得到用户对名人的情感值。

SHINE

提取用户表征

由于node2vec和deepwalk等方法对于符号网络不适用,本文选择了深度自编码器。

情感网络表征(Sentiment Network Embedding)

给定输入xix_ixi,第kkk层的表征为:

xik=σ(Wskxik−1+bsk),k=1,2,⋅⋅⋅,Ksx_{i}^{k}=\sigma \left ( W_{s}^{k}x_{i}^{k-1}+b_{s}^{k}\right ),k=1,2,\cdot \cdot \cdot ,K_{s}xik=σ(Wskxik1+bsk),k=1,2,,Ks

损失函数为:

Ls=∑i∈V∥(xi−xi′)⊙li∥22L_{s}=\sum_{i\in V}^{}\left \| \left ( x_{i}-{x}'_{i}\right )\odot l_{i}\right \|_{2}^{2}Ls=iV(xixi)li22

其中,
li,j={α>1if sij=±11if sij=0l_{i,j}=\begin{cases} \alpha > 1 & \text{if}\ s_{ij}=\pm 1 \\ 1& \text{if}\ s_{ij}=0 \end{cases}li,j={α>11ifsij=±1ifsij=0
是为了给矩阵中的已有值更大的惩罚,而对未知值更小的惩罚。

社交网络表征(Social Network Embedding)

同上,损失函数为:

Lr=∑i∈V∥(yi−yi′)⊙mi∥22L_{r}=\sum_{i\in V}^{}\left \| \left ( y_{i}-{y}'_{i}\right )\odot m_{i}\right \|_{2}^{2}Lr=iV(yiyi)mi22

用户属性网络表征(Profile Network Embedding)

同上, 损失函数为:

Lp=∑i∈V∥(zi−zi′)⊙ni∥22L_{p}=\sum_{i\in V}^{}\left \| \left ( z_{i}-{z}'_{i}\right )\odot n_{i}\right \|_{2}^{2}Lp=iV(zizi)ni22

表征融合

本文提供了三种融合方式:

1)求和(Summation)

ei=x^i+y^i+z^ie_{i}=\hat{x}_{i}+\hat{y}_{i}+\hat{z}_{i}ei=x^i+y^i+z^i

2)最大池化(Max pooling)

ei=element−wise−max(x^i,y^i,z^i)e_{i}=element-wise-max\left ( \hat{x}_{i},\hat{y}_{i},\hat{z}_{i}\right )ei=elementwisemax(x^i,y^i,z^i)

3)拼接(Concatenation)

ei=⟨x^i,y^i,z^i⟩e_{i}= \left \langle \hat{x}_{i},\hat{y}_{i},\hat{z}_{i}\right \rangleei=x^i,y^i,z^i

情感链接预测

本文提供了三种预测方式:

1)内积(Inner product)

sijˉ=eiTej+b\bar{s_{ij}}=e_{i}^{T}e_{j}+bsijˉ=eiTej+b

2)欧式距离(Euclidean distance)

sijˉ=−∥ei−ej∥2+b\bar{s_{ij}}=-\left \| e_{i}-e_{j}\right \|_{2}+bsijˉ=eiej2+b

3)逻辑回归(Logistic regression)

sijˉ=WT⟨ei,ej⟩+b\bar{s_{ij}}=W^{T}\left \langle e_{i},e_{j}\right \rangle+bsijˉ=WTei,ej+b

损失函数

将三种网络的深度自编码器的损失相加,再加上情感链接预测的MSE损失以及正则化项即可。

L=Ls+λ1Lr+λ2Lp+λ3∑sij=±1(f(ei,ej)−sij)2+λ4LregL=L_{s}+\lambda _{1}L_{r}+\lambda _{2}L_{p}+\lambda _{3}\sum_{s_{ij}=\pm 1}^{}\left ( f\left ( e_{i},e_{j}\right )-s_{ij}\right )^{2}+\lambda _{4}L_{reg}L=Ls+λ1Lr+λ2Lp+λ3sij=±1(f(ei,ej)sij)2+λ4Lreg

参考链接

  1. 《SHINE: Signed Heterogeneous Information Network Embedding for Sentiment Link Prediction》
  2. http://www.jos.org.cn/html/2014/1/4503.htm

异构符号网络上的情感链接预测——SHINE相关推荐

  1. linux 网络部分,在 Linux(或异构)网络上共享计算机,第 1 部分

    级别: 初级 David Mertz,博士 (mertz@gnosis.cx), 程序员和作家, Gnosis Software,Inc. 2001 年 12 月 01 日 在 这两篇文章的第一篇中, ...

  2. 【AAAI2022】TLogic:时序知识图谱上可解释链接预测的时间逻辑规则

    清华大数据软件团队官方微信公众号来源:专知 本文附论文,建议阅读5分钟我们解决了时序知识图谱上的链接预测任务. 传统的静态知识图谱将关系数据中的实体作为节点,由特定关系类型的边连接.然而,信息和知识不 ...

  3. linux 连接两个异构网,如何在Linux(或异构)网络上共享计算机?

    在有关共享计算机的这两篇文章中的第 1 部分中,我描述了我的异构本地网络以及如何使用它来比较和测试不同操作系统和体系结构上的应用程序.有几种技术使一台工作站上的用户可以运行位于另一台工作站上的应用程序 ...

  4. linux 异构 计算_在Linux(或异构)网络上共享计算机,第1部分

    linux 异构 计算 为了有效地测试和编写各种软件程序,我在本地网络上保留了相当多的计算机. 这些机器运行各种操作系统,并使用各种硬件配置. 有时我正在评估各种平台上的工具: 其他时候我正在测试和调 ...

  5. 获取网络上歌曲下载链接

    最近做了一个demo,可以根据百度mp3接口获取歌曲的链接.在做的过程中,参考了以下两篇博文,写的很不错. http://mrasong.com/a/baidu-mp3-api百度mp3接口 http ...

  6. 复杂网络上的博弈及其演化动力学读书笔记

    读书笔记DAY 1 - 复杂网络上的博弈及其演化动力学 我是一个时间戳 2021/4/30 14:55:46 这是我开始的日子嘻嘻 Hello,朋友们又见面啦,自从这个月13号接到导师的任务,我也不知 ...

  7. 【论文翻译】基于图关注网络的异构网络类型感知锚链路预测

    基于图关注网络的异构网络类型感知锚链路预测 摘要 跨异构网络的锚定链路预测在跨网络应用中起着举足轻重的作用.异构网络锚链路预测的难点在于如何综合考虑影响节点对齐的因素.近年来,基于网络嵌入的锚链预测已 ...

  8. 基于语义规则的胶囊网络跨域情感分类:Cross-Domain Sentiment Classification by Capsule Network With Semantic Rules

    基于语义规则的胶囊网络跨域情感分类 论文 ABSTRACT I. INTRODUCTION II. RELATED WORK A. CROSS-DOMAIN SENTIMENT CLASSIFICAT ...

  9. 我是如何用JSP在网络上架构一个网上招标系统,以推进网站无纸化,过程电子化,管理智能化的发展

    声明:部分代码参考与网络,如有侵权请联系博主删除,博主本着学习的态度和大家一起成长. 项目github地址:https://github.com/sunmenglei/sunmengleiwangsh ...

  10. 基于链接预测和卷积学习的Web服务网络嵌入

    Web Service Network Embedding based on Link Prediction and Convolutional Learning 这是我读研的第一篇论文,也是花了好几 ...

最新文章

  1. (转载)macOS 解决apue.h不存在的问题
  2. 小白学python,零基础学Python难不难?
  3. c语言向文件中写入字符串_C语言中定义字符串的两种方式及其比较
  4. Typecho Theme Aria书写自己的篇章
  5. 浅谈面向对象编程与面向过程编程
  6. 纯新手DSP编程--5.16--目标和主机设置
  7. css 布局什么时候用百分比_用手机拍视频学会这个布局方法,拍什么都好看
  8. 摄氏度和开氏度的换算_k与摄氏度的换算(摄氏度与开氏度换算)
  9. ong拼音汉字_拼音ong到底怎么读?
  10. 依靠语言和依靠图书馆
  11. 微信公众号平搜索排名,如何让公众号搜索排名靠前,公众号文章关键词排名规则
  12. python 爬陌生人qq空间_Python爬取qq空间说说
  13. 2022.03.23绝世武功
  14. java 写日志步骤
  15. 百度首页打不开_百度快照如何更新|如何删除百度快照
  16. 文章标题 CoderForces 298A: Snow Footprints(水)
  17. 最详细的系统漏洞扫描并对靶机进行利用攻击演练(模拟一次黑客白帽子操作)
  18. WPF随笔(六)--查看网络图片
  19. 神经网络(luogu 1038 答案错误,出题人语体教)
  20. 使用CloudFlareSpeedTest优选出适合自己的CF IP

热门文章

  1. debian10将系统软件包和docker的软件源改成国内源
  2. 项目管理到底是一个什么样的职位,具体都做些什么事情?
  3. 土地购买(bzoj 1597)
  4. spring boot 报 http 406多种原因问题解决的总结
  5. 决定人生的三种成本:机会成本,沉没成本,边际成本
  6. mysql导入 .myd_mysql数据库是.frm,.myd,myi备份如何导入mysql
  7. wps文件没有保存怎么恢复,学这一招就够了!
  8. ANOVA,T检验,秩和检验
  9. if 语句嵌套注意事项1
  10. python求残差_在python中如何计算点过程的残差