新版的 pythonurllib2 改成了 urllib.request,所以直接导入 urllib2 会报错。
这是我通过 chrome92 版本的浏览器发送请求的时候抓到的头部信息,只要我在发送请求时引用一个 User-Agent 信息就可以了。

Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,/;q=0.8,application/signed-exchange;v=b3;q=0.9
Accept-Encoding: gzip, deflate
Accept-Language: zh-CN,zh;q=0.9

访问的是 淘宝的 python 安装包镜像。
没有伪装浏览器,在访问一定次数后就访问不了了,伪装后就没有限制了。

import urllib.request as urllib2headers = {'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/92.0.4515.131 Safari/537.36'
}
url = "http://npm.taobao.org/mirrors/python/"
request = urllib2.Request(url, headers=headers)
html_content = urllib2.urlopen(request).readlines()for i in html_content:i = str(i)if("href=" in i and ">" in i):a = i.index("href=");b = i.index(">");i = i[a+6:b-1]print(i)

爬取所有的 a 元素,并提取 href 里面的内容。

效果图如下:

喜欢的点个赞❤吧!

Python 爬虫篇 - 通过urllib.request伪装成浏览器绕过反爬虫爬取网页所有连接实例演示,urllib2库的安装相关推荐

  1. Python 爬虫进阶篇-利用beautifulsoup库爬取网页文章内容实战演示

    我们以 fox新闻 网的文章来举例子,把整篇文章爬取出来. 首先是标题,通过结构可以看出来 class 为 article-header 的节点下的 h1 里的内容即是标题,通过 string 可以获 ...

  2. 小白学Python之爬虫篇(二)——隐式资源链接查找与爬取

    说明 在上一篇文章中,我们对PPT网站的模板进行了爬取,该网站中,每个模板的详情网页直接包含目标资源的链接,因此只需遍历列表中的模板,依次提取链接即可,是一种十分简单的爬虫程序.对于某些稍微复杂些的网 ...

  3. Java 爬虫:是时候 Get 新技能了,使用 Java 爬取网页信息

    如果你想利用自己的技术做出一点有意思的产品来,那么爬虫.算法和 AI 等技术可能是一个不错的突破口.今天,我们就来介绍下使用 Java 爬取页面信息的几种思路. 说起爬虫,自从 Python 兴起之后 ...

  4. python爬虫爬网站数据登录_使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)...

    urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...

  5. 上手快!!福利局!新手如何使用python爬虫爬取网页图片(使用正则进行数据解析)当然这个新手是我自己

    作为一个python新入门小白,突然就想发个博客,一方面为了记录学习历程,一方面能分享给新入门的同学经验,更多的是想和大家一起学习和交流.以下是我以小白的角度分享的爬虫的相关知识和一个简单的爬取网页图 ...

  6. 如何用python爬取网页数据,python爬取网页详细教程

    大家好,本文将围绕python怎么爬取网站所有网页展开说明,如何用python爬取网页数据是一个很多人都想弄明白的事情,想搞清楚python如何爬取网页数据需要先了解以下几个事情. 1.如何用Pyth ...

  7. 使用webdriver+urllib爬取网页数据(模拟登陆,过验证码)

    urilib是python的标准库,当我们使用Python爬取网页数据时,往往用的是urllib模块,通过调用urllib模块的urlopen(url)方法返回网页对象,并使用read()方法获得ur ...

  8. 网络爬虫学习2 - 爬取网页的通用代码框架、HTTP协议、Requests库的各种方法

    网络爬虫MOOC学习打卡 - 第二天 文章目录 网络爬虫MOOC学习打卡 - 第二天 一.爬取网页的通用代码框架 1.理解requests库的异常 2.Respones类提供了一个方法 -- r.ra ...

  9. python批量请求url_使用Python Requests伪装成浏览器请求百度360获取关键词批量排名...

    使用Python Requests伪装成浏览器请求百度360获取关键词批量排名 #!/usr/local/python/bin/python3.7 import requests,re,time,ra ...

最新文章

  1. 云计算软件生态圈:摸到一把大牌
  2. java gps 距离计算_java计算两个GPS经纬度之间的距离(转)
  3. 青龙羊毛——梅川衣服俩小孩(搬)
  4. TCP、UDP和HTTP
  5. 【Linux 内核】Linux 操作系统结构 ( Linux 内核在操作系统中的层级 | Linux 内核子系统及关系 | 进程调度 | 内存管理 | 虚拟文件系统 | 网络管理 | 进程间通信 )
  6. 从mongodb中查询数据
  7. 线程的局部变量ThreadLocal概念
  8. 关于tcp网络通讯的几个场景的小测试
  9. HTML+CSS+JS实现 ❤️canvas手机刮刮乐女朋友效果❤️
  10. 史上最详细 VUE2.0 全套 demo 讲解 基础4(条件渲染)
  11. css3 呼吸的莲花_CSS3制作莲花盛开动画
  12. java 正则表达式学习
  13. [na]锐起无盘机并发部署多台windows
  14. java voip 的sip服务器搭建_SIP协议开源SIP服务器搭建和客户端安装
  15. 万能视频格式转换器 v 2018 全能版
  16. 从选课系统看软件开发周期
  17. Mac M1解决mach-o, but wrong architecture
  18. SpringCloud(13)之微服务的现状和未来
  19. flash游戏教程集锦~~
  20. android view 曝光,Android 曝光采集(商品view曝光量的统计)第二弹

热门文章

  1. Linear Algebra lecture6 note
  2. int.TryParse的使用
  3. Android中网络编程出错
  4. cocos2d-x游戏实例(8)-A星算法(4)
  5. [《孔雀》观后]聪明的孩子提着易碎的灯笼
  6. 电量检测芯片BQ27510使用心得
  7. 一个简单的freemark输入输出的案例(一)
  8. spring集成kafka
  9. 309. Best Time to Buy and Sell Stock with Cooldown
  10. 【Go语言】【4】GO语言类型和为类型增加方法