一开始的代码是

import requests
url = "https://movie.douban.com/top250"
r = requests.get(url)
r.status_code

显示的是418,这爬取失败;200才是爬取成功
这里我们先看一下我们的headers

r.request.headers
显示如下:
{'User-Agent': 'python-requests/2.25.1', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}

这里我的 user-agentpython-requests/2.25.1 ,所以很可能是被网站检测 headersuser-agent 后发现是不是浏览器的 user-agent 给拒绝了
所以我们可以改一下 user-agent

import requests
url = "https://movie.douban.com/top250"
kv = {'user-agent' : 'Mozilla/5.0'} #因为很多浏览器的user-agent都是Mozilla/5.0,所以就用它
r = requests.get(url,headers = kv)
r.status_code

改了之后显示 200,说明爬取成功

针对爬取豆瓣top250电影失败的问题相关推荐

  1. 【实战2】爬取豆瓣Top250电影的海报

    [实战2]爬取豆瓣Top250电影的海报 一. 项目目标分析 二. 完整代码 参考链接: https://www.bilibili.com/video/BV1ZJ411N7Fq?p=4 一. 项目目标 ...

  2. Python爬取豆瓣Top250电影中2000年后上映的影片信息

    Python爬取豆瓣Top250电影中2000年后上映的影片信息 前言 双十一前加在京东购物车的一个东西,价格330,Plus会员用券后差不多310.双十一当天打开看了下399,还得去抢满300减10 ...

  3. [python爬虫] BeautifulSoup和Selenium对比爬取豆瓣Top250电影信息

    这篇文章主要对比BeautifulSoup和Selenium爬取豆瓣Top250电影信息,两种方法从本质上都是一样的,都是通过分析网页的DOM树结构进行元素定位,再定向爬取具体的电影信息,通过代码的对 ...

  4. 爬取豆瓣top250电影并分析

    爬取豆瓣top250电影,提取评论关键词,然后将同一国家的关键词做成一个词云,轮廓是每个国家的地图轮廓 爬取数据 需要爬取电影名称.导演.年份.地区和前10个评论除了地区,其他的都没什么问题,我们来研 ...

  5. scrapy爬取豆瓣top250电影数据

    scrapy爬取豆瓣top250电影数据 scrapy框架 Scrapy是一个为了爬取网站数据,提取结构性数据而编写的应用框架. 可以应用在包括数据挖掘,信息处理或存储历史数据等一系列的程序中. sc ...

  6. 【实战1】用BeatuifulSoup解析器爬取豆瓣Top250电影的名称

    [实战1]用BeatuifulSoup解析器爬取豆瓣Top250电影的名称 一. 爬虫的普遍步骤 二. 项目目标分析 三.完整爬取代码 参考链接: https://www.bilibili.com/v ...

  7. python采用requests+bs4爬取豆瓣top250电影信息

    爬取豆瓣top250电影说明 (链接:https://movie.douban.com/top250,可爬取一页或者多页(输出电影的正标题(肖申克的救赎),副标题( The Shawshank Red ...

  8. 爬取豆瓣TOP250电影的评分、评价人数、短评等信息,并在其保存在sql数据库中。

    爬取目标 爬取豆瓣TOP250电影的评分.评价人数.短评等信息,并在其保存在sql数据库中. 最终实现效果如图: 确定爬取的URL 爬取的网页地址为:https://movie.douban.com/ ...

  9. Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除)

    Python爬虫菜鸟入门,爬取豆瓣top250电影 (自己学习,如有侵权,请联系我删除) import requests from bs4 import BeautifulSoup import ti ...

  10. Python爬取豆瓣Top250电影可见资料并保存为excel形式

    Python爬取豆瓣Top250电影可见资料并保存为excel形式 利用requests第三方库实现网页的元素爬取,再使用openpyxl库进行信息的录入. 具体思路 1.分析网页的headers. ...

最新文章

  1. 是什么轮胎_为什么现在的车轮胎轮毂尺寸越来越大
  2. 在2019年比较云计算服务时需要问的6个问题
  3. R,Python,Scala,Go,Julia
  4. HihoCoder - 1591 锦标赛(最大费用最大流)
  5. C#lock语句用法(lock到底有什么用?)
  6. JS页面跳转的各种形式
  7. Eclipse中JDK从1.8换到1.7程序运行报错解决
  8. 一个前端博客(9)——浏览器检测和加载
  9. ubuntu更新显卡驱动到460.84,升级cuda版本到11.2
  10. IDEA社区版下载安装
  11. excel自动调整列宽_Excel入门:如何设置excel的列宽和行高?
  12. 如何设计SaaS商业模式
  13. Cocos2d-x下Lua调用自定义C++类和函数的最佳实践
  14. 雅西高速交警列16处危险路段 司机需小心行驶
  15. 计算机计算性能,计算机计算能力的关键特点
  16. Java 独占锁ReentrantLock、读(悲观读)写锁ReentrantReadWriteLock、读(乐观读/悲观读)写锁StampedLock
  17. textarea在IE浏览器下只显示一行
  18. 【深度学习BookNote】多层感知器(multi-layer perceptron)
  19. ESXI虚拟机搭建华三vFW2000虚拟防火墙
  20. BeautifulSoup实战

热门文章

  1. Linux中gcc的常用命令
  2. Python Tox 使用笔记
  3. 风控模型开发的特征选择与常用数据源介绍
  4. 数据处理 | 一些野路子
  5. React高级(五)
  6. Python常用英文单词
  7. 织梦DedeCMS使用教程:留言簿模块
  8. Autosar DCM 诊断(Diagnostic Communication Manager)
  9. 移动端touch拖动事件和click事件冲突问题解决
  10. 微信小程序——婚礼邀请函页面