转载请附上博文链接!
https://blog.csdn.net/qq_41562377/article/details/89791216

第一篇的猫眼电影爬取的整合性不是很强,而且整个的爬取速度较慢。
现在来一篇全猫眼电影都能爬取的,而且速度还不慢。

主要是今天在网上看到评论的一个接口,话不多说,嘿嘿嘿~~

复联四的URL
http://m.maoyan.com/mmdb/comments/movie/248172.json?
毒液的URL
http://m.maoyan.com/mmdb/comments/movie/42964.json?
大鱼
http://m.maoyan.com/mmdb/comments/movie/1202.json?

这里我要强烈推荐电影《大鱼》,真的太棒了,我敢保证,你绝对不会后悔。
提取码:mmxn

所以这次我就以《大鱼》为题,爬取它的全部评论。具体的分析之后会做,现在只是爬。

单条数据如下,和之前的所有差别,这里有cityName

 {"approve": 5,"approved": false,"assistAwardInfo": {"avatar": "","celebrityId": 0,"celebrityName": "","rank": 0,"title": ""},"authInfo": "","avatarurl": "https://img.meituan.net/avatar/36ad06a40e9b70e4611cb630f9b0d5b673707.jpg","content": "《大鱼》:为了叙述一个真实感动的故事,男主人公添加了奇幻的元素作修饰,增添了童话的色彩,也一语双关地道破了儿子的对父亲的不了解!蒂姆伯顿一反过去的哥特式风格,主角也不再是德普,但是故事的衔接以及所要表达的主旨很明确:从“父亲”的身上“我”不仅学会了如何经营幸福美好的生活,而且还理解了“父亲”的苦衷以及为人处世之道的法则!在表观而言,虽是一部充满冒险的奇幻剧,而在经过了蒂姆伯顿的包装之后升华了主旨,是本片的最大亮点,也是最大的泪点,通过“父亲”每一段故事的阐述,都无时不刻不在激励每个人都应该拥有奋发图强的心态,乐观待人,冷静处事,自然会招纳更多的知心朋友!蒂姆伯顿也有煽动人心的一面,9.5分!!","filmView": false,"gender": 1,"id": 19335483,"isMajor": false,"juryLevel": 0,"majorType": 0,"movieId": 1202,"nick": "Alex_24","nickName": "Alex","oppose": 0,"pro": false,"reply": 0,"score": 4.5,"spoiler": 0,"startTime": "2015-06-26 13:08:42","supportComment": true,"supportLike": true,"sureViewed": 0,"time": "2015-06-26 13:08","userId": 162402474,"userLevel": 4,"videoDuration": 0,"vipInfo": "","vipType": 0
}

好了,我已经迫不及待了。

maoyan.py

import requests
import random
import json
from datetime import datetime, timedelta
import timeclass MaoYan():def __init__(self):#定义浏览器,让爬虫伪装成不同的浏览器,可有效降低被反爬user_agent = ['Mozilla/5.0 (Windows NT 6.1; rv:50.0) Gecko/20100101 Firefox/50.0','Mozilla/5.0 (Windows NT 6.3; WOW64; rv:50.0) Gecko/20100101 Firefox/50.0','Mozilla/5.0 (X11; Linux x86_64; rv:50.0) Gecko/20100101 Firefox/50.0','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_11_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.98 Safari/537.36','Mozilla/5.0 (compatible; MSIE 9.0; Windows NT 6.1; Trident/5.0;  Trident/5.0)','Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5) AppleWebKit/602.2.14 (KHTML, like Gecko) Version/10.0.1 Safari/602.2.14','Mozilla/5.0 (Windows NT 6.3; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.71 Safari/537.36','Mozilla/5.0 (iPad; CPU OS 10_1_1 like Mac OS X) AppleWebKit/602.2.14 (KHTML, like Gecko) Version/10.0 Mobile/14B100 Safari/602.1','Mozilla/5.0 (Macintosh; Intel Mac OS X 10.11; rv:49.0) Gecko/20100101 Firefox/49.0','Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:50.0) Gecko/20100101 Firefox/50.0','Mozilla/5.0 (Windows NT 6.1; WOW64; rv:45.0) Gecko/20100101 Firefox/45.0','Mozilla/5.0 (iPhone; CPU iPhone OS 11_0 like Mac OS X) AppleWebKit/604.1.38 (KHTML, like Gecko) Version/11.0 Mobile/15A372 Safari/604.1']##定义随机函数抽取浏览器访问num = random.randint(0, 9)user_agent = user_agent[num]self.headers = {'user_agent': user_agent, #伪装'Connection': 'keep - alive', #保持连接不断'Host': 'm.maoyan.com' #增加伪装}self.fp=open('maoyan.txt','a',encoding='utf-8')def req_data(self, url):response=requests.get(url=url, headers=self.headers,timeout=5) #5秒还没请求成功就跳过try:if response.status_code==200:return response.textelse:time.sleep(3)self.req_data(url=url)except ConnectionRefusedError:passdef get_data(self, data):cmts=json.loads(data)['cmts']comments = []try:for item in cmts:comment = {'userId': item.get('userId'),  # 用户ID'nick': item.get('nick'),  # 用户昵称'cityName': item.get('cityName'),  #城市'gender': item.get('gender'),  # 用户性别'content': item.get('content'),  # 用户评论'score': item.get('score'),  # 用户评分'startTime': item.get('startTime'),  # 时间'userLevel': item.get('userLevel')  # 用户等级}comments.append(comment)return commentsexcept Exception as e:print(e)passdef save_data(self, info):infos=json.dumps(info,ensure_ascii=False)self.fp.write(infos)self.fp.write('\n')def main(self):start_time = datetime.now().strftime('%Y-%m-%d %H:%M:%S')end_time = '2003-4-25 00:00:00'while start_time > end_time:url='http://m.maoyan.com/mmdb/comments/movie/1202.json?_v_=yes&offset=15&startTime=' + start_time.replace(' ', '%20')print(url)try:response=self.req_data(url=url)except ConnectionRefusedError or Exception or ConnectionError:time.sleep(2)response=self.req_data(url=url)else:time.sleep(0.1)try:comments=self.get_data(response)start_time = comments[14]['startTime']print(start_time)start_time = datetime.strptime(start_time, '%Y-%m-%d %H:%M:%S') + timedelta(seconds=-1)start_time = datetime.strftime(start_time, '%Y-%m-%d %H:%M:%S')for item in comments:print(item)self.save_data(item)except IndexError:time.sleep(2)start_time = datetime.strptime(start_time, '%Y-%m-%d %H:%M:%S') + timedelta(seconds=-2)start_time = datetime.strftime(start_time, '%Y-%m-%d %H:%M:%S')if __name__ == '__main__':MY = MaoYan()MY.main()

代码是写好了,但是只爬到159条数据看了整个猫眼

差点自闭,就差一点,那么好的电影,咋地没人评论咧。
分析原因是年代久远,大鱼是2003年上映的,这时还没有猫眼吧,我猜的。

那就变一个,来个小可爱 毒液的。
变化的地方

0)self.fp=open('maoyan.txt','a',encoding='utf-8') #这里你可能要更改文件名
1)end_time = '2018-11-09 00:00:00'
2)url='http://m.maoyan.com/mmdb/comments/movie/42964.json?_v_=yes&offset=15&startTime=' + start_time.replace(' ', '%20')
3)可能要变  while start_time > end_time 里面的 大于号 转成 小于号

爬取成功,能爬9W多条,足够分析了。

谢谢大家观看。
注:只做学习使用,商业用途等自行负责。

我的大数据之路 -- 猫眼电影再战相关推荐

  1. 2018年贺岁档电影票房大数据报告!国产电影的黄金时代已经到来?

    要说春节期间哪里人最多,电影院若是第二,估计没人敢说第一.尤其在2018年春节档(2月16日--2月21日)更是创下了近57亿的票房,较2017年的33.4亿增长了70%,成为了内地史上最强贺岁档! ...

  2. 阿里巴巴大数据之路——数据模型篇

    阿里巴巴大数据之路--数据模型篇 一.概述 1.什么是数据模型? 数据模型就是数据的组织和存储方法.主要关注的是从业务.数据存取和使用角度合理存储数据. 2.典型数据仓库建模方法论 ER模型 纬度模型 ...

  3. 大数据之路:阿里巴巴大数据实践,附339页PPT下载

    7份关于大数据的资料都整理好了,需要的自取,获取方式:转发+私信我回复:大数据 1.<大数据之路:阿里巴巴大数据实践> 2014年,马云提出,"人类正从IT时代走向DT时代&qu ...

  4. 品《阿里巴巴大数据实践-大数据之路》一书(上)

    7月有人推荐阿里巴巴刚出的这本书<阿里巴巴大数据实践-大数据之路>,到亚马逊一看才是预售状态,拍下直到8月才拿到. 翻看目录一看,欢喜的很,正好出差两天就带在身边,由于在机场滞留超过12个 ...

  5. 阿里大数据之路 总述

    大数据之路 一.总述 1. 数据采集 2. 数据计算 3. 数据服务 4. 数据应用 一.总述 数据有序.有结构地分类和存储,从而产生价值. ​ 实时:数据量大,要实时.准确 ​ 离线:采集.存储.计 ...

  6. 《大数据之路:阿里巴巴大数据实践》-第3篇 数据管理篇 -第15章 数据质量

    <大数据之路:阿里巴巴大数据实践>系列丛书  第1章 总述 第1篇 数据技术篇  第2章 日志釆集  第3章 数据同步  第4章 离线数据开发  第5章 实时技术  第6章 数据服务  第 ...

  7. 淘宝走过的大数据之路

    回顾丨13年来,淘宝走过的大数据之路 来源:CSDN大数据 时间:2016-11-07 10:19:15 作者: - 淘宝大数据之路 - 2003年至今淘宝网从零开始飞速发展,走过了13个年头,支撑淘 ...

  8. 大数据之路读书笔记-16数据应用

    大数据之路读书笔记-16数据应用 全球知名咨询公司麦肯锡称:"数据,已经 透到当今每一个行业和业务职能领域,成为重要的生产要素.人们对于海量数据的挖掘和运用,预示着新一波生产率增长和消费者盈 ...

  9. 数据库仓工具箱及阿里大数据之路--阅读总结

    一.数据仓库工具箱 1.主要内容 结合业务场景,阐述 1.维度建模以及事实表的基本及相关概念. 2.根据业务主题的总线矩阵图,梳理业务流程.指标以及对应的维度. 3.关于事实表的阐述. 4.企业层面的 ...

  10. 大数据之路系列之Linux命令(01)

    大数据之路系列之Linux命令(01) 提示:常用Linux命令合集 第一章 Linux命令 Linux命令 大数据之路系列之Linux命令(01) 一.文件查看 1.查看当前目录 2.列出所有文件 ...

最新文章

  1. R语言ggplot2可视化:可视化饼图分面图并在图中添加数据标签
  2. java derby 用户安全_Java 7u51安全权限变化,运行derby server被拒,解决方法
  3. TP5:异常处理封装——3
  4. JAVA如何取得空list成员类型_String 类型的List作为一个成员变量保存,保存成功后取对象时报空指针...
  5. 数据库---事务的隔离级别
  6. python语句print(type([1、2、3、4))_Python 学习第一天
  7. caffe loss层
  8. BZOJ4358: permu(带撤销并查集 不删除莫队)
  9. Mybatis中Mapper.xml文件sql中动态获取----#{}和${}区别
  10. 怎么查看raid0或者raid5_海康监控磁盘阵列怎么配置?一文了解清楚
  11. 用C#读取数码相片的EXIF信息(一)
  12. wincc与第三方软件opc通讯_运用OPC实现WinCC与西门子SIMOTION的通讯
  13. 如何删除ppt自带背景音乐_ppt模板里自带的背景乐怎么去掉?
  14. 关于自定View的ViewGroup (嵌套View)
  15. 机器视觉:工业相机专业词汇中英文详解
  16. android ptp 源码分析,ptp增加豆瓣评分
  17. el-form和el-col响应式布局
  18. 新纪元财务、进销存一体化软件 v4.0 官方
  19. 微信小程序瀑布流的实现
  20. Rust学习第九天——控制测试运行

热门文章

  1. 基于STM32单片机的精彩设计实例合集
  2. jsMind 实现复制粘贴
  3. Linux 十四 修改文件操作权限 用户文件权限详解
  4. 隐藏软键盘与弹窗总结
  5. 什么是TCP粘包?怎么解决TCP粘包问题?
  6. max30102c语言程序,MAX30102基于STM32F103C8T6的程序源码
  7. php劳务派遣系统,劳务派遣系统搭建
  8. STM32 电机PWM控制
  9. java 打包加密_java打包、加密、发布(源代码保护)
  10. java打包文件生成zip压缩包