采集新浪微博数据建设网络舆情监测系统
为什么80%的码农都做不了架构师?>>>
相对于其他社会性媒体,微博虽然很年轻,但是发展十分迅猛,近期接连发生的重大事件,例如华为接班人事件和蒙牛诽谤门事件都是由微博引爆的。因此凡是忽视微博采集和跟踪的网络舆情监测系统都有全面性缺陷。
SliceProfile网络舆情监测平台采用MetaSeeker网络采集软件工具包,具有全面的微博监测覆盖能力。微博监测已经广泛应用于海信家电舆情监测和竞品分析、奇瑞汽车舆情监测和危机信息预警和中信信用卡网络危机信息监测分析系统中。
微博网站同早期的社会性媒体有很大的不同,更像一个综合应用软件,而不像传统的网站,也就是所谓的胖客户端或富媒体系统,上述特征有赖于 Javascript/AJAX技术。但是,Javascript/AJAX向来是网络数据采集和网络爬虫的克星,除非数据采集系统具有AJAX解析能 力,普通的网络爬虫和全文搜索引擎难于获得AJAX管理的数据。本文将以采集新浪微博为例说明MetaSeeker怎样使用自动滚屏方法克服AJAX数据采集困难。注意:因为AJAX网站数据采集情形很多,请在GooSeeker网站搜索“AJAX”查阅各种采集案例。
SliceProfile的核心是中文文本分类器,除此之外,SliceProfile强调对网络信息进行深度挖掘,例如,危机度趋势跟踪和分析, 因而需要精确抓取评论数、点击数或者转发数。在新浪微博网页上,一条消息的转发数和评论数采用AJAX异步加载技术,在HTML文档加载完后加载,在微博 网页上,一般有50条消息,所有消息的转发数和评论数不是一次性加载好,如果浏览器窗口一开始就最小化,可能一条都不加载。用户在浏览微博消息时,需要滚 屏才能看到更多消息,滚动到哪,评论数和转发数就加载到哪。采集这类数据是很有难度的。
MetaSeeker网络数据采集工具包可以自动滚屏,以便激发网页上的AJAX程序将所有消息的转发数和评论数加载上,从DataScraper V4.11.1开始,用户可以使用菜单或者周期性数据采集调度文件微 调滚屏参数,以便达到最佳的性能和准确度。需要微调的参数是:额外滚屏次数和滚屏时延。这两个参数都影响到数据采集效率,为了等待转发数和评论数完整加载 好,需要时延,时延过长,造成采集效率下降,时延太短,可能来不及发送数据加载请求。设置额外滚屏次数也是为了增加一段时延,确保所有评论数和转发数都加 载上。实际滚屏次数是DataScraper计算得到的,再加上这个额外滚屏次数,就是总滚屏次数。如果不设置额外滚屏次数,则不进行滚屏。这两个参数的 推荐值分别是:10和2
转载于:https://my.oschina.net/fuller/blog/10466
采集新浪微博数据建设网络舆情监测系统相关推荐
- 舆情监测系统功能简介,网络舆情监测系统平台有哪些?
一般来说,互联网舆情监测服务平台具有及时.全面.准确的特点,对维护社会稳定发展具有重要的现实意义.那么,哪些TOOM舆情监测小编带您了解舆情监测系统功能简介,网络舆情监测系统平台有哪些? 一.什么是舆 ...
- 网上舆情如何早发现?网络舆情监测系统解决办法
网络信息传播速度.时间快,传播空间广泛以及传播数量多,所以,网上舆情信息的传播也具备此特性.因此,对于网络舆情信息监测专员们来说,怎么及时发现准确搜集统计网上舆情是个大难题. 毕竟网上舆情变动大,再加 ...
- 舆情监控系统计算机 书籍,网络舆情监测系统方案建议书.doc
STYLEREF 标题 \* MERGEFORMAT 目 录 xx省网络舆情监测系统方案建议书 目 录 TOC \o "1-3" \h \z \u HYPERLINK \l &qu ...
- 浅谈网络舆情监测系统中爬虫的设计及系统架构
前言 说到网络舆情监测想必很多人都不陌生.可以跟大家这么说吧.爬虫所能带来的商业价值适用并深存于所有小-中-大企业中,尤其做网络舆情的大数据公司所有的业务基本都必须依托于爬虫来开展它的战略布局,毕 ...
- 大数据毕业设计 网络舆情热点分析系统 - 情感分析 Python
文章目录 0 前言 1 课题背景 2 数据处理 3 文本情感分析 3.1 情感分析-词库搭建 3.2 文本情感分析实现 3.3 建立情感倾向性分析模型 4 数据可视化工具 4.1 django框架介绍 ...
- 浅析大数据时代的网络舆情监测及服务
近年来大数据不断地向社会各行各业***,为每一个领域带来变革性影响,并且正在成为各行业创新的原动力和助推器.这一时期,互联网社交互动技术的不断发展创新,人们越来越习惯于通过微博.微信.博客.论坛等社交 ...
- 什么是舆情监测系统,如何选择舆情监测系统?
网络舆情监测工具有很多产品,我们以鸿蒙舆情系统为例,介绍什么是舆情监测系统,该如何选择舆情监测系统. 一.什么是舆情监测系统 舆情监测系统利用互联网信息采集技术.智能信息处理技术和全文检索技术,结合网 ...
- 网络舆情监测是什么工作,网络舆情监测工作方案?
网络舆情监测是通过收集和分析互联网上的信息来了解社会舆论的工作.这些信息可能包括新闻.社交媒体帖子.论坛贴子等.监测这些信息可以帮助公司.政府机构和其他组织了解公众对他们的看法和反应,并帮助他们做出更 ...
- TOOM解析如何搭建一套适合自己的舆情监测系统?完整的实战指南
随着互联网的普及和社交媒体的盛行,人们在网络上的活动越来越多,同时也涌现出大量的信息和舆情.这些信息和舆情在一定程度上会影响社会和个人的发展和进步.因此,舆情监测逐渐成为一项重要的任务.在本篇文章中, ...
- 舆情监测系统适用哪些行业,如何选择舆情监测系统?
当前,去网上搜索第三方舆情监测工具可以看到很多家不同公司的产品,比如TOOM舆情监测系统,那我们该如何选择舆情监测系统?舆情监测系统到底适用什么行业,带着这些疑问,接下来我们简单了解一下. 一.舆情 ...
最新文章
- [uart]stty命令使用
- (已解决)module ‘tensorflow‘ has no attribute ‘app‘
- flex java 全局拦截_flex + java 过滤敏感词
- JZOJ 1598. 文件修复
- macos 安装python3.8 版本_用python安装cutadapt程序
- python学习-元组tuple(定义、删除、长度、复制、查找、遍历、operator,和列表的区别)
- Spring中Bean的定义继承
- Python变量类型
- mvc ajax返回整个页面跳转,在springmvc中的ajax发布调用之后,有什么方法可以将我的页面(jsp)重定向到另一个页面(jsp)...
- Python数据分析:pandas玩转Excel(二)
- 机器学习面试问题大概梳理(转)
- OpenShift 4.10 不可变新特性 - 利用 MachineConfig 发现节点配置漂移
- Vue、J2ee - 001 : Vue项目的创建过程
- centen os7安装maven
- noip_最后一遍_2-图论部分
- 更改qt复选框大小_Qt编写控件属性设计器5-属性中文
- 阿里云datav看板然后设置密码
- 全民投资人游戏服务器维护,欢乐园《全民仙战》2月3日14时合服公告
- 只需四步,让你成为朋友圈的焦点----Python制作微信好友头像墙
- 使用绝热演化/量子退火算法求解矩阵本征态
热门文章
- python如何处理inp文件_python文件处理之fileinput
- go 语言随机数的生成
- 帆软分组合并字符串、提取字符串中的数字、判断多项字符串至少一项被包含
- FR复选框批量删除(填报)
- java rfid 写入_RFID读写器函数JAVA调用示例
- python中的math.floor可以用于整数吗_为什么Python的math.ceil()和math.floor()操作返回浮点数而不是整数?...
- java树遍历算法_Java递归算法实现目录树的遍历
- mme设备内部错误_低压配电设备常见故障分析,处理办法介绍
- python上机实验报告读取文件_Python程序设计实验报告八:文件
- 优雅地修改多模块maven项目中的版本号