基于

Python

的新浪微博爬虫研究

吴剑兰

(江苏警官学院,江苏

南京

210031

)

【摘

要】

要:对比新浪提供的

API

及传统的爬虫方式获取微博的优缺点,

采用模拟登陆和网页解析技术,将获取的信息存入数据库中并进行分析。基于

Python

设计实现了新浪微博爬虫程序,可以根据指定的关键词获取相应的微

博内容及用户信息。

【期刊名称】

无线互联科技

【年

(

),

期】

2015(000)006

【总页数】

2

【关键词】

新浪微博;

Python

;爬虫

以新浪官方的搜索平台为搜索入口,输

入后,构造相应

url

。分析网页源代码,可以发现页面上的所有微博内容都在以

&&

STK.pageletM

&&

STK.

pageletM.view({"pid":"plweibodirect",

开头的行中。源代码中大多为反斜线

(“

\

”)

,而中文则以

UTF-8

的格式表示,即“

\

uXXXX”(

X

为数字或字母)

一眼望上去很凌乱。但是如果查看经过处理后的源代码,可以发现每条微博都

有相似的格式,而且是以一种“树”的形式展现的。

4

的提取

这个爬虫程序还

有一个可以对爬取到的微博内容进行分析,提取的功能。使用

TF-IDF

算法来

实现。

TF-IDF

算法的思想如下:为了提取关键词,一个容易想到的思路就是找

到出现次数最多的词。如果某个词很重要,它应该在其中多次出现,于是,进

行“词频”(

TF

)统计。但是,出现次数最多的词是“的”“是”“在”这一

类词,这些词叫做“停用词”,对结果没有帮助,需要过滤掉。

根据这一算法

思想,爬虫程序可以根据爬取的一系列微博条目,获得这些条目的。

[3]

python微博爬虫分析_基于Python的新浪微博爬虫研究相关推荐

  1. python微博文本分析_基于Python的微博情感分析系统设计

    基于 Python 的微博情感分析系统设计 王欣 ; 周文龙 [期刊名称] < <信息与电脑> > [年 ( 卷 ), 期] 2019(000)006 [摘要] 微博是当今公众 ...

  2. python微信好友分析_基于python实现微信好友数据分析(简单)

    一.功能介绍 本文主要介绍利用网页端微信获取数据,实现个人微信好友数据的获取,并进行一些简单的数据分析,功能包括: 1.爬取好友列表,显示好友昵称.性别和地域和签名, 文件保存为 xlsx 格式 2. ...

  3. 基于python的可视化分析_基于Python 的数据分析与可视化平台研究

    基于 Python 的数据分析与可视化平台研究 宋永生 ; 黄蓉美 ; 王军 [期刊名称] <现代信息科技> [年 ( 卷 ), 期] 2019(003)021 [摘要] 数据分析与可视化 ...

  4. python日本 老龄化分析_基于Python关于世界自杀率影响因素的分析以及机器学习预测...

    基于Python关于世界自杀率影响因素的分析以及机器学习 预测 文/刘子桦 马若炎 [摘 要]摘 要 [期刊名称]<电子技术与软件工程> [年(卷),期]2019(000)017 [总页数 ...

  5. python微博评论情感分析_基于Python的微博情感分析系统设计

    2019 年第 6 期 信息与电脑 China Computer & Communication 软件开发与应用 基于 Python 的微博情感分析系统设计 王 欣 周文龙 (武汉工程大学邮电 ...

  6. python爬虫现状_基于Python的微博爬虫系统研究

    基于 Python 的微博爬虫系统研究 陈政伊 袁云静 贺月锦 武瑞轩 [摘 要] [摘 要]随着大数据时代到来,爬虫的需求呈爆炸式增长,以新浪微 博为代表的一系列社交应用蕴含着巨大的数据资源.以新浪 ...

  7. python爬取微博用户正文_基于Python的新浪微博用户信息爬取与分析

    基于 Python 的新浪微博用户信息爬取与分析 邓文萍 [摘 要] 摘要:本文设计并实现了一个微博用户信息爬取与分析系统 , 利用 Cookie 实现了用户的模拟登录 , 使用 Python 语言的 ...

  8. 基于python爬虫数据处理_基于Python爬虫的校园数据获取

    苏艺航 徐海蛟 何佳蕾 杨振宇 王佳鹏 摘要:随着移动时代的到来,只适配了电脑网页.性能羸弱的校园教务系统,已经不能满足学生们的移动查询需求.为此,设计了一种基于网络爬虫的高实用性查询系統.它首先通过 ...

  9. 基于python的影评数据分析_基于Python聚焦型网络爬虫的影评获取技术

    龙源期刊网 http://www.qikan.com.cn 基于 Python 聚焦型网络爬虫的影评获取技 术 作者:郭向向 郑嘉慧 苗学芹 来源:<时代金融> 2019 年第 11 期 ...

最新文章

  1. 如何删除/删除Python不为空的文件夹?
  2. C/C++ 电子书推荐
  3. html笔记(三)html5+css3(html5、css3、文字相关)
  4. 489个学位点被撤销,2018撤销和增列学位授权点名单公布
  5. 令Django 视图有默认 login_required
  6. 51单片机学习1-8
  7. 酒店IPTV数字电视系统解决方案
  8. 湿化学清洗过程中晶片污染控制方法
  9. GPS之MTK平台代码小结以及gps协议注释
  10. Javascript中最常用的55个经典技巧
  11. AcWing-算法提高课【合集】
  12. FCHD: A fast and accurate head detector快速准确的人头检测代码预测出来的边界框位置不准确的解决方法
  13. 解决 还原SqlServer时提示文件正在使用
  14. 织梦网站定时审核,定时发布织梦插件
  15. 字符串与16进制的转换
  16. 信息管理系统的登录注册
  17. Drynx: 基于区块链的去中心化隐私保护机器学习系统
  18. 毕业设计 课程设计 毕业论文 图纸 分享/机械设备毕业设计/模具毕业设计/数控毕业设计/夹具毕业设计……
  19. 11【虚拟语气】Subjunctive mood
  20. 测试环境修改数据保存到数据库就乱码情况解决

热门文章

  1. css mix-blend-mode 颜色滤镜混合模式
  2. F5 Advanced WAF(API安全-新一代WAF)——防御DDoS攻击的利器
  3. SimpleDateFormat小坑
  4. 程序员的出路在哪里?一个33岁程序员的思考
  5. 在pads layout中如何导入png和bmp
  6. Cortex-M3(NXP LPC 1788) 启动代码
  7. 附件上传大小限制处理办法
  8. 支付沙箱测试 NATAPP使用
  9. java set遍历方式_java中的Set的使用以及各种遍历方法(较为全面)
  10. TVS瞬态抑制二极管的特性及应用(SMBJ、SMAJ)