前言

今天给大家介绍利用Python爬取并简单分析猫眼电影影评。让我们愉快地开始吧~

开发工具

Python版本:3.6.4

相关模块:

requests模块;

pyecharts模块;

jieba模块;

scipy模块;

wordcloud模块;

以及一些Python自带的模块。

环境搭建

安装Python并添加到环境变量,pip安装需要的相关模块即可。

数据爬取

我们想要爬取的数据是猫眼电影中某部电影下方的评论信息:

image.png

由于PC端每部电影的评论数据只显示几条而已,因此我们选择爬取移动端的影评数据,这里以电影“狗十三”为例,移动端地址为:

注:78480为电影编号,可根据你自己的需求修改。

它大概长这样:

图片

简单抓包可得:

图片

即对其添加页码和时间信息即可获得对应的影评数据,于是我们就可以开始写代码了:

image.png

在cmd窗口运行maoyan.py文件测试一下代码,效果如下图所示:

图片

爬取结果保存在comments_data.pkl文件中。

All Done!完整源代码详见主页获取相关文件。

数据分析

这里以爬取到的电影“狗十三”的影评数据为例,时间关系只爬了几千条数据,不过也足够用来做做简单的数据分析了~

首先,让我们来看看发布影评的网友在全国范围内的分布情况吧:

图片

再来看看发布影评的网友男女比例呗:

图片

再来看看电影的评分分布呗:

图片

把影评做成词云玩一哈?

图片

看看评论数量随日期的变化?

图片

为了帮助学习Python进步慢的伙伴们,在这里为大家准备了丰富的学习大礼包

image

python爬猫眼电影影评,Python系列爬虫之爬取并简单分析猫眼电影影评相关推荐

  1. python爬取豆瓣短评_爬取并简单分析豆瓣电影短评

    导语 利用Python爬取并简单分析豆瓣电影短评. 说起来挺逗的,去年爬豆瓣短评的时候还是可以爬个几万条数据的,昨天我还想着终于可以起个唬人的标题了,什么爬取了xxx电影的xxx万条数据. 于是昨晚写 ...

  2. python爬取股票评论_Python爬虫股票评论,snowNLP简单分析股民用户情绪

    原标题:Python爬虫股票评论,snowNLP简单分析股民用户情绪 一.背景 股民是网络用户的一大群体,他们的网络情绪在一定程度上反映了该股票的情况,也反映了股市市场的波动情况.作为一只时间充裕的研 ...

  3. 京东爬取评论简单分析

    京东爬取评论简单分析 1.定义一个获取所有评论的函数 def get_comment(url): """ 获取评论函数 """ i = 0 ...

  4. python爬虫爬取豆瓣电影信息城市_python爬虫,爬取豆瓣电影信息

    hhhhh开心,搞了一整天,查了不少python基础资料,终于完成了第一个最简单的爬虫:爬取了豆瓣top250电影的名字.评分.评分人数以及短评. 代码实现如下:#第一个最简单的爬虫 #爬取了豆瓣to ...

  5. Python爬虫实现抓取腾讯视频所有电影-源码【实战必学】

    用python实现的抓取腾讯视频所有电影的爬虫 1. # -*- coding: utf-8 -*-2. import re3. import urllib24. from bs4 import Be ...

  6. python爬取bilibili数据_BiliBili爬取数据简单分析

    爬虫介绍:从1号直播间爬取发弹幕人账号,当时在线人数有五万左右,但到8000多时每3s发弹幕的新用户已经很少了,所以我就以这8000多人为起始点,将其放入队列中,取出一个,获得其关注人数,粉丝数,并将 ...

  7. 使用python爬虫对京东文胸销量简单分析

    为何会有这么一个想法呢?很久之前,在微信公众号中看到过一片文章,关于分析文胸cup和颜色的文章.许久过去了,大概都忘记了.前几天又正好找点时间学一下python的爬虫,于是乎就想找一个小项目练练手,就 ...

  8. 自如房源爬取及简单分析——python语言实现

    背景及任务简介 自如作为在长租公寓行业的头部公司,目前已覆盖国内一线城市和部分新一线城市,因其在租房间种类丰富,装修美观,有大量的"管家"形成了线上线下闭环,且租户具有极高粘性.本 ...

  9. 爬虫入门-京东评论爬取和简单分析[学习笔记]

    随便点击一个商品,我点的是"https://item.jd.com/3533885.html" 查看评论是否动态数据:点击改变评论页数(图中1处),网址(图中2处)不会变,说明是动 ...

最新文章

  1. 【网络基础】Mime Type
  2. Ciruy英雄谭 Chapter 3 杂谈
  3. python源代码不需要编译成什么-python需要编译么
  4. 用Scikit-learn和TensorFlow进行机器学习(一)
  5. [html] html元素哪些标签是不可替换元素?哪些是可替换元素?
  6. 基于深度学习的FAQ问答系统
  7. java洗牌_java语言实现简单的洗牌,发牌
  8. MySQL基础篇(02):从五个维度出发,审视表结构设计
  9. 值对于 int32 太大或太小。_失效值处理
  10. java 内存情况_Java代码中获取运行时内存情况
  11. 【Vue2.0】—Vue与Component的关系(十二)
  12. Linux 命令(106)—— chkconfig 命令
  13. 阿里云移动端播放器高级功能---画面控制
  14. java for 变量赋值_Java 如何引用变量赋值?
  15. Java 实例变量 和 实例方法 以及调用
  16. linux格式化ext4分区工具,硬盘格式化ext4软件 硬盘格式化ext4
  17. 2112731-59-4,N-(Azido-PEG2)-N-Biotin-PEG3-acid末端羧酸可在活化剂(例如EDC或HATU)存在下与伯氨基反应
  18. css 背景渐变 图像_交叉渐变背景图像
  19. 体寒是不是天生的 体寒四个基本常识须知
  20. Linux通过wine运行QQ,Ubuntu安装wine运行QQ和微信

热门文章

  1. linux 升级补丁
  2. 在线评测系统设计与实现
  3. 产品基础能力研习:CRM系统
  4. 基于java的CRM客户关系管理系统的设计与实现
  5. can和could的用法_can 和 could 用法异同
  6. CAS票据之ST与TGT过期策略详细说明
  7. STM32 Not a genuine ST Device! Abort connection 错误解决方案
  8. C#版 - 小红书后台开发面试题: 二维数组中的查找
  9. 网络分布式文件系统-MFS搭建以及部署详解
  10. 夫妻之间赠与房产,没过户前可以反悔