python爬猫眼电影影评,Python系列爬虫之爬取并简单分析猫眼电影影评
前言
今天给大家介绍利用Python爬取并简单分析猫眼电影影评。让我们愉快地开始吧~
开发工具
Python版本:3.6.4
相关模块:
requests模块;
pyecharts模块;
jieba模块;
scipy模块;
wordcloud模块;
以及一些Python自带的模块。
环境搭建
安装Python并添加到环境变量,pip安装需要的相关模块即可。
数据爬取
我们想要爬取的数据是猫眼电影中某部电影下方的评论信息:
image.png
由于PC端每部电影的评论数据只显示几条而已,因此我们选择爬取移动端的影评数据,这里以电影“狗十三”为例,移动端地址为:
注:78480为电影编号,可根据你自己的需求修改。
它大概长这样:
图片
简单抓包可得:
图片
即对其添加页码和时间信息即可获得对应的影评数据,于是我们就可以开始写代码了:
image.png
在cmd窗口运行maoyan.py文件测试一下代码,效果如下图所示:
图片
爬取结果保存在comments_data.pkl文件中。
All Done!完整源代码详见主页获取相关文件。
数据分析
这里以爬取到的电影“狗十三”的影评数据为例,时间关系只爬了几千条数据,不过也足够用来做做简单的数据分析了~
首先,让我们来看看发布影评的网友在全国范围内的分布情况吧:
图片
再来看看发布影评的网友男女比例呗:
图片
再来看看电影的评分分布呗:
图片
把影评做成词云玩一哈?
图片
看看评论数量随日期的变化?
图片
为了帮助学习Python进步慢的伙伴们,在这里为大家准备了丰富的学习大礼包
image
python爬猫眼电影影评,Python系列爬虫之爬取并简单分析猫眼电影影评相关推荐
- python爬取豆瓣短评_爬取并简单分析豆瓣电影短评
导语 利用Python爬取并简单分析豆瓣电影短评. 说起来挺逗的,去年爬豆瓣短评的时候还是可以爬个几万条数据的,昨天我还想着终于可以起个唬人的标题了,什么爬取了xxx电影的xxx万条数据. 于是昨晚写 ...
- python爬取股票评论_Python爬虫股票评论,snowNLP简单分析股民用户情绪
原标题:Python爬虫股票评论,snowNLP简单分析股民用户情绪 一.背景 股民是网络用户的一大群体,他们的网络情绪在一定程度上反映了该股票的情况,也反映了股市市场的波动情况.作为一只时间充裕的研 ...
- 京东爬取评论简单分析
京东爬取评论简单分析 1.定义一个获取所有评论的函数 def get_comment(url): """ 获取评论函数 """ i = 0 ...
- python爬虫爬取豆瓣电影信息城市_python爬虫,爬取豆瓣电影信息
hhhhh开心,搞了一整天,查了不少python基础资料,终于完成了第一个最简单的爬虫:爬取了豆瓣top250电影的名字.评分.评分人数以及短评. 代码实现如下:#第一个最简单的爬虫 #爬取了豆瓣to ...
- Python爬虫实现抓取腾讯视频所有电影-源码【实战必学】
用python实现的抓取腾讯视频所有电影的爬虫 1. # -*- coding: utf-8 -*-2. import re3. import urllib24. from bs4 import Be ...
- python爬取bilibili数据_BiliBili爬取数据简单分析
爬虫介绍:从1号直播间爬取发弹幕人账号,当时在线人数有五万左右,但到8000多时每3s发弹幕的新用户已经很少了,所以我就以这8000多人为起始点,将其放入队列中,取出一个,获得其关注人数,粉丝数,并将 ...
- 使用python爬虫对京东文胸销量简单分析
为何会有这么一个想法呢?很久之前,在微信公众号中看到过一片文章,关于分析文胸cup和颜色的文章.许久过去了,大概都忘记了.前几天又正好找点时间学一下python的爬虫,于是乎就想找一个小项目练练手,就 ...
- 自如房源爬取及简单分析——python语言实现
背景及任务简介 自如作为在长租公寓行业的头部公司,目前已覆盖国内一线城市和部分新一线城市,因其在租房间种类丰富,装修美观,有大量的"管家"形成了线上线下闭环,且租户具有极高粘性.本 ...
- 爬虫入门-京东评论爬取和简单分析[学习笔记]
随便点击一个商品,我点的是"https://item.jd.com/3533885.html" 查看评论是否动态数据:点击改变评论页数(图中1处),网址(图中2处)不会变,说明是动 ...
最新文章
- 【网络基础】Mime Type
- Ciruy英雄谭 Chapter 3 杂谈
- python源代码不需要编译成什么-python需要编译么
- 用Scikit-learn和TensorFlow进行机器学习(一)
- [html] html元素哪些标签是不可替换元素?哪些是可替换元素?
- 基于深度学习的FAQ问答系统
- java洗牌_java语言实现简单的洗牌,发牌
- MySQL基础篇(02):从五个维度出发,审视表结构设计
- 值对于 int32 太大或太小。_失效值处理
- java 内存情况_Java代码中获取运行时内存情况
- 【Vue2.0】—Vue与Component的关系(十二)
- Linux 命令(106)—— chkconfig 命令
- 阿里云移动端播放器高级功能---画面控制
- java for 变量赋值_Java 如何引用变量赋值?
- Java 实例变量 和 实例方法 以及调用
- linux格式化ext4分区工具,硬盘格式化ext4软件 硬盘格式化ext4
- 2112731-59-4,N-(Azido-PEG2)-N-Biotin-PEG3-acid末端羧酸可在活化剂(例如EDC或HATU)存在下与伯氨基反应
- css 背景渐变 图像_交叉渐变背景图像
- 体寒是不是天生的 体寒四个基本常识须知
- Linux通过wine运行QQ,Ubuntu安装wine运行QQ和微信