Python爬取猫眼「碟中谍」全部评论~
实现目标
昨天晚上看完碟中谍后,有点小激动,然后就有了这片文章。
我们将猫眼上碟中谍的全部评论保存下来,用于后期分析~
总共评论3W条左右。
逻辑梳理
猫眼PC网页只能查看热门评论,只有在手机端页面才能查看全部评论。我们用chrome手机模式打开碟中谍6的页面,然后找到了全部评论入口:
当我们将评论页面向上拖,后台请求中变看到了我们想要的接口地址:
http://m.maoyan.com/mmdb/comments/movie/341737.json?_v_=yes&offset=15&startTime=2018-09-02%2013%3A33%3A14
请求地址中的参数:
- offset:偏移量
- startTime:查询起始时间
- 341737:电影_ID_
- 还有一个_V_不知道啥意思,不过没啥影响
其实正常来说到这儿就差不多了,按照以往的套路循环传入***offset***参数就好了,不过当我爬到第67页的时候,就已经不返回值了,为啥是67,67$\times$15=1005,猫眼应该是控制了每个***startTime***只能往前取1000条评论,所以只能换个思路,将每页最早一条评论的时间作为***startTime***传入,***offset***固定15就好了。
最后效果
代码部分
- Talk is cheap. Show me the code.
# -*- coding:utf-8 -*-
import requests
import json
from datetime import datetime
import time
from tqdm import tqdm
from random import randomclass MaoYan():"""docstring for ClassName"""def __init__(self, movie_id):print '*******MaoYan_spider******'print 'Author : Awesome_Tang'print 'Date : 2018-09-01'print 'Version: Python2.7'print '**************************\n'self.movie_id = movie_idself.starttime = datetime.now().strftime('%Y-%m-%d %H:%M:%S')self.starturl = 'http://m.maoyan.com/mmdb/comments/movie/%s.json?_v_=yes&offset=0&startTime=%s'%(movie_id,self.starttime)self.headers = {'User-Agent': "Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1"}def GetCommentNum(self):'''查询总评论数用于建立循环'''response = requests.get(self.starturl,headers = self.headers)text = response.json()num = text['total']print '>>>>查询时间:%s\n>>>>评论数量:%s'%(self.starttime,num)return numdef FormatUrl(self,starttime):url = 'http://m.maoyan.com/mmdb/comments/movie/%s.json?_v_=yes&offset=15&startTime=%s'%(self.movie_id,starttime)return urldef QueryComent(self,url):'''评论请求部分nickName:用户昵称cityName:城市content:评论内容score:用户评分
Python爬取猫眼「碟中谍」全部评论~相关推荐
- Python爬取猫眼「碟中谍」全部评论
实现目标 昨天晚上看完碟中谍后,有点小激动,然后就有了这片文章. 我们将猫眼上碟中谍的全部评论保存下来,用于后期分析- 总共评论3W条左右. 逻辑梳理 猫眼PC网页只能查看热门评论,只有在手机端页面才 ...
- Python爬取猫眼电影榜单评分,以及评论
猫眼电影评论爬取 [目标] (1)爬取榜单电影名称以及评分,简单的数据可视化. (2)爬取< 你好,李焕英>的评论,用词云显示 第一步:了解反爬机制: 1.请求过多,ip地址会被封掉24h ...
- (伪)Python爬取猫眼电影(反反爬虫过程中遇到的坑)
Python爬取猫眼电影 1.打开一个猫眼电影的URL,例如本月的较火的电影<毒液:致命守护者>http://maoyan.com/films/42964 直接F12,查看审核元素,发现上 ...
- python爬取电影评分_用Python爬取猫眼上的top100评分电影
代码如下: # 注意encoding = 'utf-8'和ensure_ascii = False,不写的话不能输出汉字 import requests from requests.exception ...
- python实战(一)Python爬取猫眼评分排行前100电影及简单数据分析可视化python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化
python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化 一.抓取数据 需要的库 request库 响应http请求 json库 将文本保存成json形式 pyquery 类似JQ ...
- python实战(一)Python爬取猫眼评分排行前100电影及简单数据分析可视化
python实战(一)Python爬取猫眼排行前一百电影及简单数据分析可视化 一.抓取数据 需要的库 request库 响应http请求 json库 将文本保存成json形式 pyquery 类似JQ ...
- python猫眼电影分析_用Python 爬取猫眼电影数据分析《无名之辈》
前言 作者: 罗昭成 PS:如有需要Python学习资料的小伙伴可以加点击下方链接自行获取 http://note.youdao.com/noteshare?id=3054cce4add8a909e7 ...
- 利用python爬取猫眼电影,分析《大侦探皮卡丘》|凹凸数读
利用python爬取猫眼电影,分析<大侦探皮卡丘>,看看当皮卡丘长出绒毛,"丑拒"还是"真香"都在猫眼短评里了. 本文首发于微信公众号<凹凸数 ...
- Python爬取猫眼电影TOP100榜
Python爬取猫眼电影TOP100榜 兴趣点: 这个没什么特别的兴趣,只是单纯爬猫眼练手的人太多了,所以我也打算加入他们,对猫眼员工说一声不好意思了,哈哈哈! 爬取网址: 传送门:https://m ...
最新文章
- cssbefore图片大小_两小时学会CSS-before after 伪元素
- 无需u盘和光盘安装linux
- oracle对查询结果求和_某国企Oracle数据库误truncate table恢复案例
- Zookeeper简介/快速入门——特别详细
- mysql 基础选择题_mysql基础12(mysql练习题)
- JavaScript数据结构与算法——栈详解
- 利用PyCaret的力量
- 基于sklearn的LogisticRegression二分类实践
- 柴油机制造商QMD谈System Center 2012实践
- java servlet 3.1,Servlet 3.1规范学习小记
- python中分支语句elif与else的区别_浅谈对python中if、elif、else的误解
- 2021-08-20JSP内置对象及作用域
- 和平精英怎么玩?智能找图、鼠标滚轮宏按键玩吃鸡还能匹配手机?
- matlab 读取文件夹图像合成视频
- 用python爬虫,pyinstaller写一个属于自己的彩虹屁生成器!(链接在文末自取)
- Linux基础知识介绍
- 机器人资和迅_《机器人与智能系统》-工业机器人与智能机器人杂志-工业自动化领域时尚先锋传媒!...
- Linux+v4l2自动设置相机曝光时间
- 垃圾收集器GC中parallel scavenge收集器为什么不能CMS配合使用?
- 视频压缩软件,视频压缩软件哪个最好用?
热门文章
- 如何撰写论文的研究现状
- 谷歌浏览器驱动国内镜像下载地址
- 蔡氏电路混沌同步Multisim实现
- 如何进行团队建设以保持团队稳定?
- 如何培养新人总结_新手总结3----剑客角色培养篇
- 衡水二中2021年高考成绩查询,2020衡水二中高考喜报
- JDBC连接Sql Server 2005(Express)
- c语言看门狗指令pic,PIC指令介绍
- 华住有效承接环球影城开业客流;Collinson科领盛任命戴旻Colin Dai为中国区总经理 | 全球旅报...
- ESP32 使用 MicroPython 实现温度数据上报MQTT服务器