在家办公无聊,最近开始研究了下Python,刚了解了下爬虫,想自己尝试下,一上来就来了一个418的错误。

from urllib.request import urlopenurl = 'https://movie.douban.com/top250?start=%s&filter='
ret = urlopen(url)
aa = ret.read().decode('utf-8')
print(aa)


看到这个错误,以前是玩java的就想到可能有反爬虫机制,多半要模拟浏览器访问,直接爬取会被拦截。
于是打开浏览器按f12,随便访问一个网站,选中连接,找Headers,往下拉找到其中User-Agent代表用的哪个请求的浏览器

代码修改如下:

from urllib.request import urlopen, Requesturl = 'https://movie.douban.com/top250?start=%s&filter='
headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/67.0.3396.99 Safari/537.36'}
ret = Request(url, headers=headers)
res = urlopen(ret)
aa = res.read().decode('utf-8')
print(aa)

就能爬取到你想要的信息了

获取User-Agent的进阶

Python爬虫的urllib.error.HTTPError: HTTP Error 418错误相关推荐

  1. Python爬虫HTTP异常:rllib.error.HTTPError: HTTP Error 418,伪装User-Agent以及fake-useragent插件的妙用

    前言 刚开始学习 Python 的时候,一般都会遇到这个问题,因为我们只是简单的想要打开一个 url 爬取返回的 Html,没有考虑太多,却没有想到会被浏览器的反爬虫手段识别出来,最终请求什么也没获取 ...

  2. urllib.error.HTTPError: HTTP Error 403: Forbidden

    问题: urllib.request.urlopen() 方法经常会被用来打开一个网页的源代码,然后会去分析这个页面源代码,但是对于有的网站使用这种方法时会抛出"HTTP Error 403 ...

  3. downloading Olivetti faces from urllib.error.HTTPError: HTTP Error 403: Forbidden

    最近在学Tensorflow和Sklearn,一个原因是想搞机器视觉,另外一个原因是想探索深入了解一下AI等等方面的知识,例如神经网络等等. 遇到的第一个问题是有些包用不了,一个可能是因为墙墙,另外一 ...

  4. 成功解决urllib.error.HTTPError: HTTP Error 403: Forbidden

    成功解决urllib.error.HTTPError: HTTP Error 403: Forbidden 目录 解决问题 解决思路 解决方法 解决问题 urllib.error.HTTPError: ...

  5. Python爬虫之urllib.request的使用

    需要的模块 urllib.request 获取get一个请求 这里以百度为例 r = urllib.request.urlopen("http://www.baidu.com") ...

  6. python爬虫之urllib库详解

    python爬虫之urllib库详解 前言 一.urllib库是什么? 二.urllib库的使用 urllib.request模块 urllib.parse模块 利用try-except,进行超时处理 ...

  7. Python爬虫之urllib模块2

    Python爬虫之urllib模块2 本文来自网友投稿 作者:PG-55,一个待毕业待就业的二流大学生. 看了一下上一节的反馈,有些同学认为这个没什么意义,也有的同学觉得太简单,关于Beautiful ...

  8. python爬虫用urllib还是reques,python爬虫中urllib.request和requests有什么区别?

    在学习python爬虫,想要检索request相关内容时,往往会出现urllib.request和requests这两个词,urllib.request和requests都是python爬虫的模块,其 ...

  9. Python爬虫进阶——urllib模块使用案例【淘宝】

    Python爬虫基础--HTML.CSS.JavaScript.JQuery网页前端技术 Python爬虫基础--正则表达式 Python爬虫基础--re模块的提取.匹配和替换 Python爬虫基础- ...

  10. python urllib.request 爬虫 数据处理-python 爬虫之 urllib库

    文章更新于:2020-03-02 注:代码来自老师授课用样例. 一.初识 urllib 库 在 python2.x 版本,urllib 与urllib2 是两个库,在 python3.x 版本,二者合 ...

最新文章

  1. 实战 用户登录、session校验、分布式存储session
  2. 记一次修复被篡改的IE首页
  3. Linux虚拟文件系统简介
  4. PL0编译器TurboPascal版再现时间:2009-07-20 17:24:49来源:网络 作者:未知 点击:52次
  5. LeetCode刷题知识总结
  6. caffe 在 windows 使用
  7. win7 php redis 扩展,Windows中安装Redis及php redis扩展
  8. IPC-----消息队列
  9. oracle 大页配置,【Oracle】Oracle如何开启大页
  10. Win7 64有点找不到MSVCP71.DLL和MSVCR71.dll
  11. DCGAN:生成动漫头像
  12. sh 脚本 访问 路径 权限不够_IC设计之脚本语言介绍
  13. Go jsonrpc
  14. Mixly(米思齐)图形化编程工具
  15. 已知基因名,如何在genbank中查询基因序列?
  16. 基于Fuzzy Logic的人群疏散模型(考虑攻击者的情况)
  17. Monte Carlo Tree Search (MCTS) 蒙特·卡罗尔树搜索
  18. win7 搜索文件内容
  19. python提取身份证信息_Python selenium 身份证信息在线解析爬取
  20. 用R语言理解洛必达法则

热门文章

  1. VLAN和交换机接口模式:access、trunk、hybrid
  2. 试题六(java+设计模式)
  3. 关于自定义View的drawText字体测量
  4. 「案例」如何解决公司采购与财务之间的工作矛盾?
  5. 二进制SCA指纹提取黑科技:Go语言逆向技术
  6. 十五、机器学习中的决策树和随机森林算法
  7. ros构建机器人运动学模型_ROS环境下机器人仿真模型构建方法研究.doc
  8. 超详细 redis入门教程
  9. Best Fitting Hyperplanes for Classification(用于分类的最佳拟合超平面)
  10. 嵌入式linux与ARM开发板的入门建议