实现目标

昨天晚上看完碟中谍后,有点小激动,然后就有了这片文章。
我们将猫眼上碟中谍的全部评论保存下来,用于后期分析~
总共评论3W条左右。

逻辑梳理

  • 猫眼PC网页只能查看热门评论,只有在手机端页面才能查看全部评论。我们用chrome手机模式打开碟中谍6的页面,然后找到了全部评论入口:

  • 当我们将评论页面向上拖,后台请求中变看到了我们想要的接口地址:http://m.maoyan.com/mmdb/comments/movie/341737.json?_v_=yes&offset=15&startTime=2018-09-02%2013%3A33%3A14

  • 请求地址中的参数:

    • offset偏移量
    • startTime查询起始时间
    • 341737:电影_ID_
    • 还有一个_V_不知道啥意思,不过没啥影响
  • 其实正常来说到这儿就差不多了,按照以往的套路循环传入***offset***参数就好了,不过当我爬到第67页的时候,就已经不返回值了,为啥是67,67$\times$15=1005,猫眼应该是控制了每个***startTime***只能往前取1000条评论,所以只能换个思路,将每页最早一条评论的时间作为***startTime***传入,***offset***固定15就好了。

  • 最后效果

代码部分

  • Talk is cheap. Show me the code.
# -*- coding:utf-8 -*-
import requests
import json
from datetime import datetime
import time
from tqdm import tqdm
from random import randomclass MaoYan():"""docstring for ClassName"""def __init__(self, movie_id):print '*******MaoYan_spider******'print 'Author :     Awesome_Tang'print 'Date   :       2018-09-01'print 'Version:        Python2.7'print '**************************\n'self.movie_id = movie_idself.starttime = datetime.now().strftime('%Y-%m-%d %H:%M:%S')self.starturl = 'http://m.maoyan.com/mmdb/comments/movie/%s.json?_v_=yes&offset=0&startTime=%s'%(movie_id,self.starttime)self.headers = {'User-Agent': "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"}def GetCommentNum(self):'''查询总评论数用于建立循环'''response = requests.get(self.starturl,headers = self.headers)text = response.json()num = text['total']print '>>>>查询时间:%s\n>>>>评论数量:%s'%(self.starttime,num)return numdef FormatUrl(self,starttime):url = 'http://m.maoyan.com/mmdb/comments/movie/%s.json?_v_=yes&offset=15&startTime=%s'%(self.movie_id,starttime)return urldef QueryComent(self,url):'''评论请求部分nickName:用户昵称cityName:城市content:评论内容score:用户评分												

Python爬取猫眼「碟中谍」全部评论~相关推荐

  1. Python爬取猫眼「碟中谍」全部评论

    实现目标 昨天晚上看完碟中谍后,有点小激动,然后就有了这片文章. 我们将猫眼上碟中谍的全部评论保存下来,用于后期分析- 总共评论3W条左右. 逻辑梳理 猫眼PC网页只能查看热门评论,只有在手机端页面才 ...

  2. Python爬取猫眼电影榜单评分,以及评论

    猫眼电影评论爬取 [目标] (1)爬取榜单电影名称以及评分,简单的数据可视化. (2)爬取< 你好,李焕英>的评论,用词云显示 第一步:了解反爬机制: 1.请求过多,ip地址会被封掉24h ...

  3. (伪)Python爬取猫眼电影(反反爬虫过程中遇到的坑)

    Python爬取猫眼电影 1.打开一个猫眼电影的URL,例如本月的较火的电影<毒液:致命守护者>http://maoyan.com/films/42964 直接F12,查看审核元素,发现上 ...

  4. python爬取电影评分_用Python爬取猫眼上的top100评分电影

    代码如下: # 注意encoding = 'utf-8'和ensure_ascii = False,不写的话不能输出汉字 import requests from requests.exception ...

  5. python实战(一)Python爬取猫眼评分排行前100电影及简单数据分析可视化python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化

    python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化 一.抓取数据 需要的库 request库 响应http请求 json库 将文本保存成json形式 pyquery 类似JQ ...

  6. python实战(一)Python爬取猫眼评分排行前100电影及简单数据分析可视化

    python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化 一.抓取数据 需要的库 request库 响应http请求 json库 将文本保存成json形式 pyquery 类似JQ ...

  7. python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》

    前言 作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...

  8. 利用python爬取猫眼电影,分析《大侦探皮卡丘》|凹凸数读

    利用python爬取猫眼电影,分析<大侦探皮卡丘>,看看当皮卡丘长出绒毛,"丑拒"还是"真香"都在猫眼短评里了. 本文首发于微信公众号<凹凸数 ...

  9. Python爬取猫眼电影TOP100榜

    Python爬取猫眼电影TOP100榜 兴趣点: 这个没什么特别的兴趣,只是单纯爬猫眼练手的人太多了,所以我也打算加入他们,对猫眼员工说一声不好意思了,哈哈哈! 爬取网址: 传送门:https://m ...

最新文章

  1. cssbefore图片大小_两小时学会CSS-before after 伪元素
  2. 无需u盘和光盘安装linux
  3. oracle对查询结果求和_某国企Oracle数据库误truncate table恢复案例
  4. Zookeeper简介/快速入门——特别详细
  5. mysql 基础选择题_mysql基础12(mysql练习题)
  6. JavaScript数据结构与算法——栈详解
  7. 利用PyCaret的力量
  8. 基于sklearn的LogisticRegression二分类实践
  9. 柴油机制造商QMD谈System Center 2012实践
  10. java servlet 3.1,Servlet 3.1规范学习小记
  11. python中分支语句elif与else的区别_浅谈对python中if、elif、else的误解
  12. 2021-08-20JSP内置对象及作用域
  13. 和平精英怎么玩?智能找图、鼠标滚轮宏按键玩吃鸡还能匹配手机?
  14. matlab 读取文件夹图像合成视频
  15. 用python爬虫,pyinstaller写一个属于自己的彩虹屁生成器!(链接在文末自取)
  16. Linux基础知识介绍
  17. 机器人资和迅_《机器人与智能系统》-工业机器人与智能机器人杂志-工业自动化领域时尚先锋传媒!...
  18. Linux+v4l2自动设置相机曝光时间
  19. 垃圾收集器GC中parallel scavenge收集器为什么不能CMS配合使用?
  20. 视频压缩软件,视频压缩软件哪个最好用?

热门文章

  1. 如何撰写论文的研究现状
  2. 谷歌浏览器驱动国内镜像下载地址
  3. 蔡氏电路混沌同步Multisim实现
  4. 如何进行团队建设以保持团队稳定?
  5. 如何培养新人总结_新手总结3----剑客角色培养篇
  6. 衡水二中2021年高考成绩查询,2020衡水二中高考喜报
  7. JDBC连接Sql Server 2005(Express)
  8. c语言看门狗指令pic,PIC指令介绍
  9. 华住有效承接环球影城开业客流;Collinson科领盛任命戴旻Colin Dai为中国区总经理 | 全球旅报...
  10. ESP32 使用 MicroPython 实现温度数据上报MQTT服务器