python爬取豆瓣电影并分析_Python爬取豆瓣电影的短评数据并进行词云分析处理
前言
对于爬虫很不陌生,而爬虫最为经典的案例就是爬取豆瓣上面的电影数据了,今天小编就介绍一下如果爬取豆瓣上面电影影评,以《我不是药神》为例。
基本环境配置
版本:Python3.6
相关模块:
(1)requests:用来简单数据请求。
(2)lxml:比BeautiSoup更快更强的解析库。
(3)pandas:数据处理神器。
(4)time:设置爬虫访问间隔。
(5)random:生成随机数,配合time使用。
(6)tqdm:显示程序运行进度。
以上模块如果你没有安装可以在cmd命令提示符里进行pip install + 模块名 进行安装。
主要思路步骤
1、打开豆瓣电影《我不是药神》的短评网页,右键检查或者按F12,然后选择用户名和评论就会显示出对应的代码部分
正在上传...取消
2、通过requests模块发送一个get请求,并以utf-8重新编码;
3、添加一个交互,判断是否成功获取到资源(状态码为200),输出获取状态。
对于爬取下来《我不是药神》的短评内容,我们用lxml来进行解析。在步骤1中找到对应部分的代码,然后右键选择Copy,再选择Copy XPath,就能获取其路径了。
注意:
爬取下来的短评首尾可能有多余的空格,我们就需要使用字符串中的strip()方法来去掉这些多余的空格。
4、获取到数据之后,我们通过list构造dictionary,然后通过dictionary构造dataframe,并通过pandas模块将数据输出为csv文件
实现代码
运行结果
正在上传...取消
当然了,如果你想要用这些数据做成词云图,进行数据展示也是可以的。
词云实现代码
python爬取豆瓣电影并分析_Python爬取豆瓣电影的短评数据并进行词云分析处理相关推荐
- python对三国演义,水浒传,红楼梦人物关系与出场频率进行文本分析,数据可视化,词云分析
python对文本进行分析和数据可视化,主要运用到了jieba,worldcloudmatplotlib,nxwworkx,pandas库,其他库在代码中给出. 1.首先准备好这三本名著 2.准备好停 ...
- 微信聊天记录词云分析
步骤 - 获取对象聊天记录加密数据 - 解码 - 对csv数据进行筛选 -词云分析 获取微信聊天记录加密数据 安卓手机获取微信导出微信聊天记录需要先获取root权限,这个风险比较大,而且我这个手机比较 ...
- python爬取数据分析淘宝商品_python爬取并分析淘宝商品信息
python爬取并分析淘宝商品信息 Tip:本文仅供学习与交流,切勿用于非法用途!!! 背景介绍 有个同学问我:"XXX,有没有办法搜集一下淘宝的商品信息啊,我想要做个统计".于是 ...
- python词云代码手机_【云计算】爬取淘宝手机品牌词云分析(python)
本文主要向大家介绍了[云计算]爬取淘宝手机品牌词云分析(python),通过具体的内容向大家展现,希望对大家学习云计算有所帮助. 淘宝手机信息的爬取,请看这边博客(点击这里),然后我们利用其中保存的文 ...
- python爬虫:词云分析最热门电影《后来的我们》
跟闺蜜周末去看了电影<后来的我们>,被感动的一塌糊涂,回来后心血来潮,写了这么个词云分析工具~ 1 模块库使用说明 1.1 requests库 requests 是用Python语言编写, ...
- python爬虫——词云分析最热门电影《后来的我们》
1 模块库使用说明 1.1 requests库 requests 是用Python语言编写,基于 urllib,采用 Apache2 Licensed 开源协议的 HTTP 库.它比 urllib 更 ...
- NO.16——Pathon爬取杨超越新浪微博数据做词云分析
看到网上充斥着很多词云分析的资料,今天心血来潮,也尝试下词云分析.最近热火的<创造101>,杨超越小姐姐一直在风口浪尖,因此这里借用小姐姐的微博数据做分析. 一.准备工具 作词云分析主要用 ...
- python歌词分析_Python 词云分析周杰伦新歌《说好不哭》
周杰伦难得出新歌 ,最近终于推出了单曲<说好不哭>,然后直接把QQ音乐服务器干崩了,天王的实力可见一斑,QQ音乐还把这个当作 今天过年 看我公众号头像就知道是杰伦粉了 ,高中的时候开始喜欢 ...
- Python 词云分析周杰伦新歌《说好不哭》
周杰伦难得出新歌 ,最近终于推出了单曲<说好不哭>,然后直接把QQ音乐服务器干崩了,天王的实力可见一斑,QQ音乐还把这个当作 看我公众号头像就知道是杰伦粉了 ,高中的时候开始喜欢上了他的歌 ...
最新文章
- ios java aes128_iOS AES128加密解密的两种模式(CBC和ECB)
- matlab 注意事项
- 清华开源ResRep:剪枝SOTA!用结构重参数化实现CNN无损压缩 | ICCV 2021
- MongoDB导出场景查询优化 #1
- [深度学习-原理]浅谈Attention Model
- Visual Studio IDE下载地址
- Bean的自动装配Autowiring
- 完美解决Win8声卡爆音破音、卡顿
- sklearn中的naive bayes算法
- 通过脚本找到对应的物体
- SSM+MySQL实现在线考试系统(含源码、MySQL、文档,包运行)
- matlab 角速度,从您的移动设备获取并绘制角速度和方向数据
- ML之LIME:可解释性之LIME/SP-LIME的简介、原理、使用方法、经典案例之详细攻略
- 飞塔防火墙VOIP ALG参数导致SIP外呼无声音的坑
- 并发编程的艺术 读书笔记
- Unable to set custom 'dev_loss_tmo' value in RHEL7
- db2 reorg详解
- uni-app:小程序开发总结
- plink做SNP筛选和GWAS
- c语言中终止线程的方法,终止线程优雅不使用TerminateThread()
热门文章
- 语音通话框架_普通话考试得高分的方法
- matlab dividend,[原创]基于(Matlab/R/C++)的方差Gamma模型(Hull期权期货)随机抽样[by fantuanxiaot]...
- php生成extjs下拉树json数据格式
- 机械制图及计算机绘图技能实训,机械制图测绘与CAD技能实训(二)
- 数字图像处理之图像边缘
- XXXXX CodeForces - 1364A(思维)
- 同事操作两个数据源保持事务一致_「微服务架构」微服务架构中的数据一致性...
- awr报告分析 mysql_4个MySQL优化工具,帮你准确定位数据库瓶颈!
- ap协议java_AP计算机科学A:Java编程类和对象
- 如何把ajax改成同步请求,如何将Ajax请求从异步改为同步