利用概率主题模型的微博热点话题发现方法-计算机系统应用

2014 年 第 23 卷 第 8 期 计 算 机 系 统 应 用

利用概率主题模型的微博热点话题发现方法

1 2

米文丽 , 孙曰昕

1(陇东学院 信息工程学院, 庆阳 745000)

2(西北师范大学 计算机科学与工程学院, 兰州 730070)

摘 要: 微博具有长度短、实时传播、结构复杂以及变形词多等特点, 传统的向量空间模型(VSM)文本表示方法

和隐含语义分析(LSA)无法很好的对其进行建模. 提出了一种基于概率潜在语义分析(pLSA)和 K 均值聚类

(Kmeans) 的二阶段聚类算法, 此外通过定义微博热度分析和排序, 有效地支持微博热点话题发现. 实验表明, 此

方法能有效地进行话题聚类并检测出热点话题.

关键词: 概率潜在语义分析; 话题发现; 微博; Kmeans

Microblog Hot Topics Discovery Method Based on Probabilistic Topic Model

1 2

MI Wen-Li , SUN Yue-Xin

1(College of Information Engineering, Longdong University, Qingyang 745000, China)

2(College of Computer Science & Engineering, Northwest Normal University, Lanzhou 730070, China)

Abstract: Microblog has the characteristic of short length, complex structure and words deformation. Therefore,

traditional vector space model (VSM) and latent semantic analysis (LSA) are not suitable for modeling them. In this

paper, a two stage clustering algorithm based on probabilistic latent semantic analysis (pLSA) and Kmeans clustering

(Kmeans) is proposed. Besides, this paper also presents the definition of popularity and mechanism of sorting the topics.

Experiments show that our method can effectively cluster topics and be applied to microblog hot topic detection.

Key words: probabilistic latent semantic analysis; topic detection; microblog; Kmeans

近年来,在互联网上蓬勃发展的微博客(微博)越来 的 Twitter 上的检索日志和传统搜索引擎上的检索日

越多地引起了人们的关注. 微博从传统的社交网络中 志, 对微博上的搜索和传统的 Web 搜索做了一个完善

脱胎而出,在拥有了独立的服务平台后逐渐演化为一 而全面的对比, 发现 Twitter 用户倾向于去搜索时间相

种新的信息发布形式. 关的信息, 比如爆炸性的新闻和一些当前的流行趋势;

然而, 微博数据主要由普通用户产生, 无论是用 Neil[6]认为 Twitter 是对整个社会事实的反应,可以从中

词、形式还是具

如何利用计算机做主题模型,利用概率主题模型的微博热点话题发现方法-计算机系统应用.PDF...相关推荐

  1. 计算机毕业设计 K-means 算法的校园微博热点话题发现系统(源码+论文)

    文章目录 0 前言 1 项目说明 2 开发环境 3 系统架构 4 研究结果 5 论文目录 0 前言 基于 K-means 算法的校园微博热点话题发现系统 提示:适合用于课程设计或毕业设计,工作量达标, ...

  2. 如何利用计算机做图像,什么是图像识别?图像识别是如何实现的?

    原标题:什么是图像识别?图像识别是如何实现的? 图像识别是人工智能的一个重要领域,是指利用计算机对图像进行处理.分析和理解,以识别各种不同模式的目标和对像的技术 ,并对质量不佳的图像进行一系列的增强与 ...

  3. 学前教育怎么利用计算机思维,论如何利用多媒体技术培养幼儿的创造性思维

    论如何利用多媒体技术培养幼儿的创造性思维 时间: 2007-04-01 栏目: 论如何利用多媒体技术培养幼儿的创造性思维 欧阳艳    兴国县保育院 [内容提要]  基于幼儿思维的灵泛性特点,利用计算 ...

  4. 利用计算机辅助设计,一种利用计算机辅助设计和制作手工栽绒毯的方法

    一种利用计算机辅助设计和制作手工栽绒毯的方法 [技术领域] [0001]本发明属于手工栽绒毯的设计制作领域,特别涉及一种利用计算机辅助设计和制作手工栽绒毯的方法. [背景技术] [0002]手工栽绒毯 ...

  5. 虚拟现实是利用计算机,虚拟现实技术就是利用计算机生成一种模拟环境

    虚拟现实(Virtual Reality,简称VR,)是利用电脑模拟产生一个三维空间的虚拟世界,提供使用者关于视觉.听觉.触觉等感官的模拟,让使用者如同身历其境一般,可以及时.没有限制地观察三度空间内 ...

  6. 酒店管理可以利用计算机做哪些工作,做好酒店管理的五步骤

    观念方面的走向对酒店管理者是非常重要的,它决定着一个管理者的综合素质和专业水平.在市场经济完善的国家,业主决不会将几千万.几个亿的资产去交给一个非专业人士去管理.因为一个非专业人士管理会带来一系列严重 ...

  7. 利用计算机做过什么,旧电脑零件千万别扔 重新利用竟还能做出这么多新设备...

    描述 步骤1:将ATX电源转换为台式电源 这是我多年前在中学时做的第一个项目. 项目很容易做到.只需切断连接器并识别电线: - 黑线接地(负极) - 红线为+ 5V - 橙色为+3.3 V - 黄色为 ...

  8. 如何利用计算机做备课,如何用电脑进行电子教案的制作

    如何用电脑进行电子教案的制作 1.样式的使用 从已经做好的教案中我们可以看到,教案的章.节的文字都有统一的格式,整个教案看起来条理清楚,结构井然.这是因为章节的标题都使用了样式,也就是规定各标题行的段 ...

  9. 利用mysql做信息管理_利用MySql实现学生信息管理系统的后台数据管理

    Vol.28No.4 Apr.2012 赤峰学院学报(自然科学版)Journal of Chifeng University (Natural Science Edition )第28卷第4期(下) ...

最新文章

  1. windows10下,from skimage import morphology 报错的解决办法
  2. win10 ndk hello_world
  3. Python+selenium 自动化-获取当前页面的url地址,打开指定的url地址
  4. 关于 href=javascript:; 到底做了什么
  5. Android之MVP 模式:简单易懂的介绍方式
  6. 数论 —— 整数分解
  7. DefaultMessageListenerContainer
  8. 【转载】Weka入门教程
  9. python的for语句要用冒号吗_python中循环的写法 for
  10. 罗佳琪的第三次预备作业——虚拟机的安装及Linux的初步学习
  11. 【ROS】机器人编程实践
  12. java 防御编程_用Java编程。实现两个人对决。有血量有防御。有攻击力
  13. 电力拖动自动控制系统matlab,基于Matlab的《电力拖动自动控制系统》课程教学改革...
  14. 【转】用万兆网卡测试超五类网线传输速度,颠覆你的认知
  15. 30ea什么意思_阿玛尼ga是什么意思、和ea的区别
  16. ireport+Jasper 动态改变字体大小
  17. 第五章:3ds max UV展开和BP贴图绘制(上)
  18. day0---docker容器的dockerfile知识(5)
  19. 05.17 佘山踏青“徒步爬山” 活动回顾
  20. Java(web)项目安全漏洞及解决方式【面试+工作】

热门文章

  1. ABAP数字类型合法性检查函数NUMERIC_CHECK
  2. BW事务代码SXMB_ADM、 SICF、SMICM简介
  3. 下沉市场消费升级静悄悄?
  4. “五心”知“五感”,平安打造有温度的智慧城市
  5. mvc php session,PHP Session入门教程
  6. python接口测试框架设计_Python3简易接口自动化测试框架设计与实现(中)
  7. linux挂载一个文件夹,linux挂载一个文件夹到另一个文件夹
  8. Python爬虫 教程: re正则表达式解析html页面
  9. python进行两个大数相加
  10. python中sorted()函数的用法