利用Requests库爬取豆瓣喜剧电影排行榜 前两百部电影的相关信息

  • 首先附上豆瓣电影的网站链接:
  • 思考步骤:
  • 最后附上本文的代码:
  • 前200部电影结果展示:

首先附上豆瓣电影的网站链接:

链接: link.

思考步骤:

右键网页 + 点击检查:

当我们下拉到第20部电影(蓝色圈)的时候 可以发现右边 network里面出现了请求
可以观察到 页面请求是get 并且 内容的格式(Content-Type) 为json

get() 请求里是不是可以添加params 参数呢
所以我们自定义params参数 通过get请求 返回给网页

param = {'type': '24','interval_id': '100:90','action': '','start': 0,'limit': '20'}

通过返回这样的参数 我们可以获取前20部电影的相关信息

在抓取到页面的资源后 利用json格式获取数据:

如何获取json里面的数据?
easy: 我们通过取字典里面内容的方式就可以了

print(response.json()[0].get('title'))
print(response.json()[0].get('score'))
print(response.json()[0].get('regions'))

最后附上本文的代码:

#  在下拉的过程中 页面ajax动态刷新页面 利用抓包工具查看返回内容类型 get请求 返回特定的参数即可
import requests
import json
import pandas as pdif __name__ =="__main__":# 爬取豆瓣喜剧电影排行榜前200步电影的相关信息df = pd.DataFrame(columns=['电影名','评分','地区','地址','发布日期','评论人数'])url = 'https://movie.douban.com/j/chart/top_list'  # 豆瓣电影地址headers =  {"User-Agent" :"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/89.0.4389.90 Safari/537.36"}  # 利用 headers进行伪装for num in range(0,181,20):   # 页面是ajax动态刷新的 每下拉到二十部 就刷新一次页面  所以181的下标 包含了前200部param = {'type': '24','interval_id': '100:90','action': '','start': num,'limit': '20'}response = requests.get(url=url,params=param,headers=headers)   # 页面为get请求 可以在网站的headers中看到content=response.json()  # Content-Type 为 json格式的数据 length=len(content)for i in range(0,length):s = pd.Series({'电影名':content[i].get('title'),'评分':eval(content[i].get('score')), '地区':content[i].get('regions')[0] , '地址':content[i].get('url'),'发布日期':content[i].get('release_date'),'评论人数':content[i].get('vote_count')})df = df.append(s, ignore_index=True)# 这里必须选择ignore_index=True 或者给 Series 一个index值df.to_csv('./douban_movie.csv',encoding='utf-8',index=False,index_label=None)

前200部电影结果展示:

爬虫获取豆瓣喜剧电影相关信息相关推荐

  1. 微博数据爬虫——获取用户微博相关信息(四)

    任务:给定u_id,获取用户每条微博的mid.发布时间.照片数.@数.链接数 1.获取微博信息 查看网页源代码,发现数据保存在js中 利用正则匹配可以实现获取单条微博全部信息 add = urllib ...

  2. python爬虫获取豆瓣图书Top250

    在上一篇博客<python爬虫获取豆瓣电影TOP250>中,小菌为大家带来了如何将豆瓣电影Top250的数据存入MySQL数据库的方法.这次的分享,小菌决定再带着大家去研究如何爬取豆瓣图片 ...

  3. Java爬虫获取豆瓣的短评数据

    Java爬虫获取豆瓣的短评数据 打开豆瓣的选电影页面的链接,可以看到该网页的下面分为热门,最新,经典等栏目分类,网页每次显示20部电影,通过几部电影的查看,可以发现电影的短评页https://movi ...

  4. 某投诉网站爬虫-获取对应的投诉信息

    某投诉网站爬虫-获取对应的投诉信息 此爬虫原本是一道面试题,说难不难,说简单也不简单:因为站点的反爬机制,我现在也没摸清楚,不过目前看来应该是你在一段时间内访问数据超过对应的数量就会封ip 5-10分 ...

  5. 使用Python爬虫获取豆瓣影评,并用词云显示

    使用Python爬虫获取豆瓣影评,并用词云显示 Python语言流行到现在,目前最受开发者喜爱的功能莫过于它的爬虫功能,以至于很多人以为Python的英语发音也是"爬虫",其实它是 ...

  6. Scrapy 框架获取豆瓣电影的信息(包括图片)和电影评论-1

    文章目录 一.项目目录 二.定义爬取结果存储的数据结构(items.py) 电影信息 评论信息 三.爬取到结果后的处理类(spiders 文件夹) 电影信息(movieInfo.py) 评论信息(co ...

  7. 获取Java系统相关信息

    1 package com.test; 2 3 import java.util.Properties; 4 import java.util.Map.Entry; 5 6 import org.ju ...

  8. mysql 获取操作系统信息_php获取服务器操作系统相关信息的方法

    这篇文章主要介绍了php获取服务器操作系统相关信息的方法,涉及php针对服务器端预定义变量及系统函数的使用技巧,需要的朋友可以参考下 本文实例讲述了php获取服务器操作系统相关信息的方法.分享给大家供 ...

  9. python爬虫获取肯德基门店信息

    python爬虫获取肯德基门店信息 1.在谷歌浏览器中打开肯德基官网,进入餐厅查询页面 2.在搜索框中输入地区并按f12打开开发者工具 发现已经抓取到了一条Ajax请求,可以从中获取请求的url,以及 ...

最新文章

  1. 今天说说OPPO——OPPO 实时数仓揭秘:从顶层设计实现离线与实时的平滑迁移
  2. webpackJsonp is not defined?
  3. leetcode 121
  4. 可视化model 参数
  5. java程序与数据库连接_将Java程序与数据库进行连接的操作方法
  6. 计算机科学与技术专业考研方向有哪些,计算机科学与技术专业考研方向有哪些?...
  7. 【SIGGRAPH】用【有说服力的照片真实】技术实现最终幻想15的视觉特效
  8. 华为防火墙VRRP双机热备的配置
  9. 化工专业和计算机专业哪个好就业前景,2019化学工程与工艺专业就业前景和就业方向分析...
  10. Thymeleaf 是个什么?
  11. 贝叶斯例题(一)先验分布与后验分布
  12. 线性回归的理解与公式推导
  13. 计算机网络--错题集
  14. 计算机全屏显示快捷键,最全电脑快捷键,电脑全屏按哪个键 原来是这样的
  15. mysql是串行还是并行的_sql执行的作业是串行还是并行的?
  16. 编程世界,我的世界。
  17. python爬虫案例——东方财富股票数据采集
  18. HyperWorks高级应用培训
  19. SVG排版公众号文章『两次互动,展开长图』模板代码
  20. 哔哩大学计算机学院:如何学好C语言

热门文章

  1. POJ3096-Surprising Strings
  2. 【兼容】些许移动端浏览器不支持es6
  3. 打开matlab的规则,matlab的函数和运算规则
  4. HTML表格、表单及其美化
  5. 使用weixin-java-mp-demo-springboot-master框架微信公众号开发
  6. 低功耗蓝牙如何实现低功耗
  7. 关于前端将一个集合传递到后端
  8. 一分钟搞懂WebWorker
  9. 挑战阿里社招:20道Java工程师面试必问题,真香
  10. 【系统分析师之路】2017年系统分析师下午案例分析真题