python爬虫实现爬取网页主页信息(html代码)

1.爬取网站源码

urllib整体介绍:
urllib是一个包,收集几个模块来处理网址
urllib.request打开和浏览url中内容
urllib.error包含从 urllib.request发生的错误或异常
urllib.parse解析url
urllib.robotparser解析 robots.txt文件
import urllib.requestclass GetHtml(object):              #创建类,object表示主类(写不写都可)def __init__(self, URL):  #def __init__将类实例化、self:类本身self.url = URL        #为url赋值=URLdef get_index(self):      #定义方法self.response = urllib.request.urlopen(self.url) return self.response.read()html = GetHtml("http://product.yesky.com/keyboard/")
print(html.get_index())

运行结果:(获取到网站源码)

但是在服务器日志信息中会显示访问采用python脚本,容易被网站管理员ban掉ip,所以需要修改其user-agent信息

import urllib.requestclass GetHtml(object):def __init__(self, URL, HEAD):self.url = URLself.head = HEADdef get_index(self):self.request = urllib.request.Request(self.url)   #进行请求self.request.add_header("user-agent", self.head)  #添加头部信息self.response = urllib.request.urlopen(self.request)return self.response.read()html = GetHtml("http://product.yesky.com/keyboard/", "Mozilla/5.0 (Windows NT 8.1; Win32; x32; rv:65.0) Gecko/20100101 Firefox/65.0")                               #将服务器显示信息进行修改
print(html.get_index())

运行结果:

服务器端显示结果:
·
成功修改user-agent信息,并且获取到了网站源代码信息。

python爬虫实现爬取网页主页信息(html代码)相关推荐

  1. python爬虫之爬取网页基础知识及环境配置概括

    记:python爬虫是爬取网页数据.统计数据必备的知识体系,当我们想统计某个网页的部分数据时,就需要python爬虫进行网络数据的爬取,英文翻译为 spider 爬虫的核心 1.爬取网页:爬取整个网页 ...

  2. 【Python爬虫】爬取企业专利信息

    本来是个美好的周末的,但是周五晚上领导给了一个公司名称的Excel,让把这些公司的专利信息爬取下来.本文记录了爬取企业专利信息的心酸过程.码字不易,喜欢请点赞!!! 一.找寻目标网页 在接到这个任务之 ...

  3. Python爬虫基础 爬取网页 访问网页

    前段时间又被人问了会不会爬虫,然后感觉现在爬取数据好像还是挺有用的,所以就在网上找了课程学习了一下,利用Python对网站进行爬取和解析等等.原来使用过八爪鱼这个软件,不太需要有什么编程基础,但是也已 ...

  4. 利用python爬虫大量爬取网页图片

    最近要进行一类图片的识别,因此需要大量图片,所以我用了python爬虫实现 一.爬取某一图片网站 主要参考:https://www.cnblogs.com/franklv/p/6829387.html ...

  5. python 爬虫(爬取网页的img并下载)

    from urllib.request import urlopen # 引用第三方库 import requests #引用requests/用于访问网站(没安装需要安装) from pyquery ...

  6. python爬虫正则表达式爬取网页标签_Python爬虫实例(4)-用urllib、re和正则表达式爬取网页图片...

    文章目录简介正则爬虫Demo本例知识点 简介 python的第三方包极多种,尽量多看多用,对开发者来说是很好的.在爬虫领域,请求网页,除了requests包之外,还有urllib.request模块: ...

  7. Python爬虫:爬取网页图片

    目录 开始: 分析与步骤: 第一步 第二步 第三步 第四步 最后: 开始: 最近在自学爬虫,自己也做了一些实例,(自认为)写的比较好的就是对整个网站的爬取了.接下来我将会说一说我使用的工具及方法. 注 ...

  8. python爬虫实验——爬取网页图片+网页源代码

    爬虫图片 本实验将利用python程序抓取网络图片,完成可以批量下载一个网站的照片.所谓网页抓取,就是把URL地址中指定的网络资源从网络流中读取出来,保存到本地. 原理 1.网络爬虫 即Web Spi ...

  9. python爬虫:爬取全国航班信息

    目标网站 携程:https://flights.ctrip.com/domestic/schedule/ 思路分析 获取到所有的地方航班 打开网址,可以看到如下内容: 这一步目的是获取到这里显示的所有 ...

最新文章

  1. 在Java中使用final关键字可以提高性能吗?
  2. 对传入的值,转成整数
  3. C# 8的新提案:new关键字类型推断
  4. 计算机机房门内开还是外开,卫生间的门是朝内开还是朝外开好?原来这样开,入住才方便!...
  5. java advance_JavaAdvance
  6. 利用os模块生成 文件夹和文件
  7. python静态方法和类方法的区别_python中类的静态方法和类的类方法
  8. python之argmax
  9. spring注解原理解析
  10. python条件判断天气_Python小课—条件判断—学习笔记(4)
  11. html里怎么计算梯形周长公式是什么,梯形的周长怎么计算 梯形周长计算公式
  12. Numpy-如何对数组进行切割
  13. perf: interrupt took too long
  14. 连小白都能看懂的微信开发之测试账号申请
  15. java.security.cert.CertPathValidatorException: Trust anchor for certification path not found.
  16. [转] Real-World Concurrency
  17. 抓包工具Charles--出现unknown情况解决办法
  18. 神舟电脑装linux双系统,神舟战神肿么装双系统
  19. nvidia linux ubuntu 显卡驱动持久化
  20. 总结——STL 常用数据结构及用法

热门文章

  1. python 深圳找工作_讲讲自己来深圳后找工作的经验吧!
  2. c语言blackjack设计思路,Veriog——简易的BlackJack(21点)程序
  3. 剪辑视频,在视频背景上随机添加图片
  4. RESTful风格API详解
  5. Android 检查当前wifi是否可以有网,可以访问网络
  6. GTX960M搭建《深度学习图像识别技术》所需的环境
  7. centos7限制cpu使用_CentOS7中CPU频率调整问题
  8. 百度OCR文字识别教程(有demo)
  9. 基于OpenPose的坐姿识别
  10. Qt中Label标签的使用