python爬虫实现爬取网页主页信息（html代码）

1.爬取网站源码

urllib整体介绍：
urllib是一个包,收集几个模块来处理网址
urllib.request打开和浏览url中内容
urllib.error包含从 urllib.request发生的错误或异常
urllib.parse解析url
urllib.robotparser解析 robots.txt文件

import urllib.requestclass GetHtml(object):              #创建类，object表示主类（写不写都可）def __init__(self, URL):  #def __init__将类实例化、self：类本身self.url = URL        #为url赋值=URLdef get_index(self):      #定义方法self.response = urllib.request.urlopen(self.url) return self.response.read()html = GetHtml("http://product.yesky.com/keyboard/")
print(html.get_index())

运行结果：（获取到网站源码）

但是在服务器日志信息中会显示访问采用python脚本，容易被网站管理员ban掉ip，所以需要修改其user-agent信息

import urllib.requestclass GetHtml(object):def __init__(self, URL, HEAD):self.url = URLself.head = HEADdef get_index(self):self.request = urllib.request.Request(self.url)   #进行请求self.request.add_header("user-agent", self.head)  #添加头部信息self.response = urllib.request.urlopen(self.request)return self.response.read()html = GetHtml("http://product.yesky.com/keyboard/", "Mozilla/5.0 (Windows NT 8.1; Win32; x32; rv:65.0) Gecko/20100101 Firefox/65.0")                               #将服务器显示信息进行修改
print(html.get_index())

运行结果：

服务器端显示结果：
·
成功修改user-agent信息，并且获取到了网站源代码信息。

python爬虫实现爬取网页主页信息（html代码）相关推荐

python爬虫之爬取网页基础知识及环境配置概括
记:python爬虫是爬取网页数据.统计数据必备的知识体系,当我们想统计某个网页的部分数据时,就需要python爬虫进行网络数据的爬取,英文翻译为 spider 爬虫的核心 1.爬取网页:爬取整个网页 ...
【Python爬虫】爬取企业专利信息
本来是个美好的周末的,但是周五晚上领导给了一个公司名称的Excel,让把这些公司的专利信息爬取下来.本文记录了爬取企业专利信息的心酸过程.码字不易,喜欢请点赞!!! 一.找寻目标网页在接到这个任务之 ...
Python爬虫基础爬取网页访问网页
前段时间又被人问了会不会爬虫,然后感觉现在爬取数据好像还是挺有用的,所以就在网上找了课程学习了一下,利用Python对网站进行爬取和解析等等.原来使用过八爪鱼这个软件,不太需要有什么编程基础,但是也已 ...
利用python爬虫大量爬取网页图片
最近要进行一类图片的识别,因此需要大量图片,所以我用了python爬虫实现一.爬取某一图片网站主要参考:https://www.cnblogs.com/franklv/p/6829387.html ...
python 爬虫（爬取网页的img并下载）
from urllib.request import urlopen # 引用第三方库 import requests #引用requests/用于访问网站(没安装需要安装) from pyquery ...
python爬虫正则表达式爬取网页标签_Python爬虫实例（4）-用urllib、re和正则表达式爬取网页图片...
文章目录简介正则爬虫Demo本例知识点简介 python的第三方包极多种,尽量多看多用,对开发者来说是很好的.在爬虫领域,请求网页,除了requests包之外,还有urllib.request模块: ...
Python爬虫：爬取网页图片
目录开始: 分析与步骤: 第一步第二步第三步第四步最后: 开始: 最近在自学爬虫,自己也做了一些实例,(自认为)写的比较好的就是对整个网站的爬取了.接下来我将会说一说我使用的工具及方法. 注 ...
python爬虫实验——爬取网页图片+网页源代码
爬虫图片本实验将利用python程序抓取网络图片,完成可以批量下载一个网站的照片.所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 原理 1.网络爬虫即Web Spi ...
python爬虫：爬取全国航班信息
目标网站携程:https://flights.ctrip.com/domestic/schedule/ 思路分析获取到所有的地方航班打开网址,可以看到如下内容: 这一步目的是获取到这里显示的所有 ...

python爬虫实现爬取网页主页信息（html代码）

python爬虫实现爬取网页主页信息（html代码）

python爬虫实现爬取网页主页信息（html代码）相关推荐

最新文章

热门文章