Python爬虫的urllib.error.HTTPError: HTTP Error 418错误

在家办公无聊，最近开始研究了下Python,刚了解了下爬虫，想自己尝试下，一上来就来了一个418的错误。

from urllib.request import urlopenurl = 'https://movie.douban.com/top250?start=%s&filter='
ret = urlopen(url)
aa = ret.read().decode('utf-8')
print(aa)

看到这个错误，以前是玩java的就想到可能有反爬虫机制，多半要模拟浏览器访问，直接爬取会被拦截。
于是打开浏览器按f12，随便访问一个网站，选中连接，找Headers,往下拉找到其中User-Agent代表用的哪个请求的浏览器

代码修改如下：

from urllib.request import urlopen, Requesturl = 'https://movie.douban.com/top250?start=%s&filter='
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
ret = Request(url, headers=headers)
res = urlopen(ret)
aa = res.read().decode('utf-8')
print(aa)

就能爬取到你想要的信息了

获取User-Agent的进阶

Python爬虫的urllib.error.HTTPError: HTTP Error 418错误相关推荐

Python爬虫HTTP异常：rllib.error.HTTPError: HTTP Error 418，伪装User-Agent以及fake-useragent插件的妙用
前言刚开始学习 Python 的时候,一般都会遇到这个问题,因为我们只是简单的想要打开一个 url 爬取返回的 Html,没有考虑太多,却没有想到会被浏览器的反爬虫手段识别出来,最终请求什么也没获取 ...
urllib.error.HTTPError: HTTP Error 403: Forbidden
问题: urllib.request.urlopen() 方法经常会被用来打开一个网页的源代码,然后会去分析这个页面源代码,但是对于有的网站使用这种方法时会抛出"HTTP Error 403 ...
downloading Olivetti faces from urllib.error.HTTPError: HTTP Error 403: Forbidden
最近在学Tensorflow和Sklearn,一个原因是想搞机器视觉,另外一个原因是想探索深入了解一下AI等等方面的知识,例如神经网络等等. 遇到的第一个问题是有些包用不了,一个可能是因为墙墙,另外一 ...
成功解决urllib.error.HTTPError: HTTP Error 403: Forbidden
成功解决urllib.error.HTTPError: HTTP Error 403: Forbidden 目录解决问题解决思路解决方法解决问题 urllib.error.HTTPError: ...
Python爬虫之urllib.request的使用
需要的模块 urllib.request 获取get一个请求这里以百度为例 r = urllib.request.urlopen("http://www.baidu.com") ...
python爬虫之urllib库详解
python爬虫之urllib库详解前言一.urllib库是什么? 二.urllib库的使用 urllib.request模块 urllib.parse模块利用try-except,进行超时处理 ...
Python爬虫之urllib模块2
Python爬虫之urllib模块2 本文来自网友投稿作者:PG-55,一个待毕业待就业的二流大学生. 看了一下上一节的反馈,有些同学认为这个没什么意义,也有的同学觉得太简单,关于Beautiful ...
python爬虫用urllib还是reques,python爬虫中urllib.request和requests有什么区别？
在学习python爬虫,想要检索request相关内容时,往往会出现urllib.request和requests这两个词,urllib.request和requests都是python爬虫的模块,其 ...
Python爬虫进阶——urllib模块使用案例【淘宝】
Python爬虫基础--HTML.CSS.JavaScript.JQuery网页前端技术 Python爬虫基础--正则表达式 Python爬虫基础--re模块的提取.匹配和替换 Python爬虫基础- ...
python urllib.request 爬虫数据处理-python 爬虫之 urllib库
文章更新于:2020-03-02 注:代码来自老师授课用样例. 一.初识 urllib 库在 python2.x 版本,urllib 与urllib2 是两个库,在 python3.x 版本,二者合 ...

Python爬虫的urllib.error.HTTPError: HTTP Error 418错误

Python爬虫的urllib.error.HTTPError: HTTP Error 418错误相关推荐

最新文章

热门文章