看题目就知道做什么工作:Topic-specific Retweet Count Ranking for Weibo

摘要:

In this paper, we study \emph{topic-specific} retweet count ranking problem in Weibo. Two challenges make this task nontrivial. Firstly, traditional methods cannot derive effective feature for tweets, because in topic-specific setting, tweets usually have too many shared contents to distinguish them. We propose a LSTM-embedded autoencoder to generate tweet features with the insight that any different prefixes of tweet text is a possible distinctive feature. Secondly, it is critical to fully catch the meaning of topic in topic-specific setting, but Weibo can provide little information about topic. We leverage real-time news information from Toutiao to enrich the meaning of topic, as more than 85\% topics are headline news. We evaluate the proposed components based on ablation methods, and compare the overall solution with a recently-proposed tensor factorization model. Extensive experiments on real Weibo data show the effectiveness and flexibility of our methods.

可以看出来,本文主要共享在于提取topic、tweet、user特征的方法。其中user特征天然存在,不需要多做处理;关于topic特征,由于微博本身提供的topic信息比较少,本文从今日头条这样的新闻网站上提取相关topic的信息(因为有研究证明,微博上85%的信息都是news,和今日头条的属性比较贴近),然后用DAE提取topic特征;关于tweet特征,主要问题是,同一个topic下的tweets基本上都是相同的(包括大量原封不动的转发、少数添加了几句个人意见的评论、短文本等等难点),本文采取LSTM-embedded autoencoder,和机器翻译中的autoencoder的区别主要在于本文关注特征提取(encoder的输出)而不是两种语言的映射(decoder的输出):

而整个文章用到的排序方法,word embedding方法都是现成的,并没有太大共享。

总结这篇文章的共享有三点:第一,做的是topic-specific的ranking工作,这个之前很少有人做;第二,提出了提取tweet、topic的方法,虽然都很直观,但可以使用的场景也比较多;第三,提出的方法效果还不错。

找到一篇PAKDD2017的介绍文章:

http://data-mining.philippe-fournier-viger.com/pakdd-2017-conference-brief-report/

2) The number of accepted long and short papers at PAKDD forthe last six years is presented below.PAKDD accepted papers

5) The acceptance rate of long and short papers at PAKDD during the last six yearsPAKDD acceptance rate

水了一篇PAKDD2018的文章:Topic-specific Retweet Count Ranking for Weibo相关推荐

  1. 花了 6 个月整理了 100 篇 Android 干货文章

    距上次「花了 4 个月整理了 50 篇 Android 干货文章」已经2个月了,在这2个月中新增了50篇精选文章. 接下来再来整理一波. 热门技术 巧用Android多进程,微信,微博等主流App都在 ...

  2. NBT-19年2月刊4篇35分文章聚焦宏基因组研究

    新年4篇35分文章聚焦宏基因组研究 Nature Biotechnology (NBT,自然生物技术,IF 35.7)在2019年2月刊(https://www.nature.com/nbt/volu ...

  3. NBT-新年4篇35分文章聚焦宏基因组研究

    文章目录 新年4篇35分文章聚焦宏基因组研究 1. 超高速细菌基因组检索技术 摘要 序列搜索方法 2. 宏基因组中设计全面可扩展探针捕获序列多样性 摘要 CATCH设计探针 3. 1520个人类肠道可 ...

  4. 深度学习概述:从感知机到深度网络(找到一篇大牛的文章快围观)

    https://www.toutiao.com/i6652554938519912968/ 2019-01-31 15:10:48 前言 别说我不宠粉,分享一篇大佬的文章,没办法书读得少不知道怎么去形 ...

  5. 学习笔记:The Log(我所读过的最好的一篇分布式技术文章

     学习笔记:The Log(我所读过的最好的一篇分布式技术文章)         前言 这是一篇学习笔记. 学习的材料来自Jay Kreps的一篇讲Log的博文. 原文很长,但是我坚持看完了,收获 ...

  6. 我历时3年才写了10余篇源码文章,但收获了100w+阅读

    你好,我是若川.最近来了一些读者朋友,在这里简单介绍自己的经历,也许对你有些启发.之前发过这篇文章,现在修改下声明原创,方便保护版权. 最近组织了源码共读活动1个月,200+人,一起读了4周源码,很多 ...

  7. 对微软的敌视何时休? 从一篇语言评论文章对C#的评价说起

    看到一篇公众号文章<2020年什么编程语言最受欢迎,待遇最高?>,其中对C#的描述如下: 点击阅读原文,看到这是一篇翻译文章:https://codinginfinite.com/top- ...

  8. 【十万个编程篇】写文章与“写项目”的差别

    自古暨今,世间陆续诞生出"现象级"的文学作品,如<左传>.<桃花源记>.<背影>等文章,又如<咏鹅>.<将进酒>.< ...

  9. 送给前端的你,推荐几篇前端汇总文章。(来自知乎专栏)

    送给前端的你,推荐几篇前端汇总文章.(来自知乎专栏) 来源:https://zhuanlan.zhihu.com/p/22229868 作者:路人甲 链接:https://zhuanlan.zhihu ...

最新文章

  1. python不用编译吗_windows编译xgboost-python,不用vs编译
  2. zabbis监控mysql数据库
  3. 有状态会话Bean(SLSB)和无状态会话Bean(SFSB)的区别
  4. Sersync实现触发式文件同步
  5. flask tutorial = make a blog :) flask 搭建博客系统从零开始!
  6. 4月02日 提取汉字首字母,并大写的类
  7. MySQL通过添加索引解决线上数据库服务器压力大问题
  8. 在vc++里面进行图像处理的时候应该把图形放哪_图形找朋友小班教案
  9. 比亚迪2021年上半年营收908.85亿元 同比增长50.22%
  10. ldaptemplate 分页_UI设计干货分享:设计语言 - 侧边导航栏/分页
  11. JavaScript学习笔记
  12. navicat连接mysql2003错误_navicat连接失败出现2003怎么办
  13. 【Java_Spring详解】
  14. 机器学习系列(8)_回归算法,支持向量机
  15. Input.mousePosition
  16. lm393 过零检测 功率因数检测
  17. ya的意思_请问ya是你的意思吗,为什么不写成yo – 手机爱问
  18. WannaCry席卷全球 软件作者到底赚了多少钱?
  19. 20 个设计模式和软件设计面试问题(转)
  20. SharePoint 2013 的硬件和软件要求

热门文章

  1. Dell R910报错E1234的处理方法
  2. dbavear 连接hive
  3. 阿里云、腾讯云----域名DDNS云解析到动态IP
  4. 信息架构的设计思路 .
  5. 镜头眩光如何避免 镜头眩光避免方法
  6. Maxwell和Simplorer联合仿真设置注意事项
  7. 我的世界 为何用java开发?
  8. 数据结构:顺序表的就地逆置
  9. 微信小程序添加插屏广告并设置显示频率(一天一次)
  10. java开发爱恩斯坦棋,爱恩斯坦棋计算机博弈系统的研究与实现