Python爬虫的urllib.error.HTTPError: HTTP Error 418错误
在家办公无聊,最近开始研究了下Python,刚了解了下爬虫,想自己尝试下,一上来就来了一个418的错误。
from urllib.request import urlopenurl = 'https://movie.douban.com/top250?start=%s&filter='
ret = urlopen(url)
aa = ret.read().decode('utf-8')
print(aa)
看到这个错误,以前是玩java的就想到可能有反爬虫机制,多半要模拟浏览器访问,直接爬取会被拦截。
于是打开浏览器按f12,随便访问一个网站,选中连接,找Headers,往下拉找到其中User-Agent
代表用的哪个请求的浏览器
代码修改如下:
from urllib.request import urlopen, Requesturl = 'https://movie.douban.com/top250?start=%s&filter='
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
ret = Request(url, headers=headers)
res = urlopen(ret)
aa = res.read().decode('utf-8')
print(aa)
就能爬取到你想要的信息了
获取User-Agent
的进阶
Python爬虫的urllib.error.HTTPError: HTTP Error 418错误相关推荐
- Python爬虫HTTP异常:rllib.error.HTTPError: HTTP Error 418,伪装User-Agent以及fake-useragent插件的妙用
前言 刚开始学习 Python 的时候,一般都会遇到这个问题,因为我们只是简单的想要打开一个 url 爬取返回的 Html,没有考虑太多,却没有想到会被浏览器的反爬虫手段识别出来,最终请求什么也没获取 ...
- urllib.error.HTTPError: HTTP Error 403: Forbidden
问题: urllib.request.urlopen() 方法经常会被用来打开一个网页的源代码,然后会去分析这个页面源代码,但是对于有的网站使用这种方法时会抛出"HTTP Error 403 ...
- downloading Olivetti faces from urllib.error.HTTPError: HTTP Error 403: Forbidden
最近在学Tensorflow和Sklearn,一个原因是想搞机器视觉,另外一个原因是想探索深入了解一下AI等等方面的知识,例如神经网络等等. 遇到的第一个问题是有些包用不了,一个可能是因为墙墙,另外一 ...
- 成功解决urllib.error.HTTPError: HTTP Error 403: Forbidden
成功解决urllib.error.HTTPError: HTTP Error 403: Forbidden 目录 解决问题 解决思路 解决方法 解决问题 urllib.error.HTTPError: ...
- Python爬虫之urllib.request的使用
需要的模块 urllib.request 获取get一个请求 这里以百度为例 r = urllib.request.urlopen("http://www.baidu.com") ...
- python爬虫之urllib库详解
python爬虫之urllib库详解 前言 一.urllib库是什么? 二.urllib库的使用 urllib.request模块 urllib.parse模块 利用try-except,进行超时处理 ...
- Python爬虫之urllib模块2
Python爬虫之urllib模块2 本文来自网友投稿 作者:PG-55,一个待毕业待就业的二流大学生. 看了一下上一节的反馈,有些同学认为这个没什么意义,也有的同学觉得太简单,关于Beautiful ...
- python爬虫用urllib还是reques,python爬虫中urllib.request和requests有什么区别?
在学习python爬虫,想要检索request相关内容时,往往会出现urllib.request和requests这两个词,urllib.request和requests都是python爬虫的模块,其 ...
- Python爬虫进阶——urllib模块使用案例【淘宝】
Python爬虫基础--HTML.CSS.JavaScript.JQuery网页前端技术 Python爬虫基础--正则表达式 Python爬虫基础--re模块的提取.匹配和替换 Python爬虫基础- ...
- python urllib.request 爬虫 数据处理-python 爬虫之 urllib库
文章更新于:2020-03-02 注:代码来自老师授课用样例. 一.初识 urllib 库 在 python2.x 版本,urllib 与urllib2 是两个库,在 python3.x 版本,二者合 ...
最新文章
- 实战 用户登录、session校验、分布式存储session
- 记一次修复被篡改的IE首页
- Linux虚拟文件系统简介
- PL0编译器TurboPascal版再现时间:2009-07-20 17:24:49来源:网络 作者:未知 点击:52次
- LeetCode刷题知识总结
- caffe 在 windows 使用
- win7 php redis 扩展,Windows中安装Redis及php redis扩展
- IPC-----消息队列
- oracle 大页配置,【Oracle】Oracle如何开启大页
- Win7 64有点找不到MSVCP71.DLL和MSVCR71.dll
- DCGAN:生成动漫头像
- sh 脚本 访问 路径 权限不够_IC设计之脚本语言介绍
- Go jsonrpc
- Mixly(米思齐)图形化编程工具
- 已知基因名,如何在genbank中查询基因序列?
- 基于Fuzzy Logic的人群疏散模型(考虑攻击者的情况)
- Monte Carlo Tree Search (MCTS) 蒙特·卡罗尔树搜索
- win7 搜索文件内容
- python提取身份证信息_Python selenium 身份证信息在线解析爬取
- 用R语言理解洛必达法则
热门文章
- VLAN和交换机接口模式:access、trunk、hybrid
- 试题六(java+设计模式)
- 关于自定义View的drawText字体测量
- 「案例」如何解决公司采购与财务之间的工作矛盾?
- 二进制SCA指纹提取黑科技:Go语言逆向技术
- 十五、机器学习中的决策树和随机森林算法
- ros构建机器人运动学模型_ROS环境下机器人仿真模型构建方法研究.doc
- 超详细 redis入门教程
- Best Fitting Hyperplanes for Classification(用于分类的最佳拟合超平面)
- 嵌入式linux与ARM开发板的入门建议