一、概念理解

爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者。

传统爬虫就是经常用到的各种搜索引擎，浏览器。参考浏览器命令

聚焦爬虫的工作流程较为复杂，需要根据一定的网页分析算法过滤与主题无关的链接，保留有用的链接并将其放入等待抓取的URL队列。然后，它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL，并重复上述过程，直到达到系统的某一条件时停止。

二、基本思路

1.构造首页请求

目标网址：url

伪装浏览器：headers（User-agent、cookies、referrer）

发送请求：request（GET / POST）

返回内容：response

2.数据解析

Html数据：正则表达式

Json数据：json库(ajax网页数据获取)

二进制数据：以wb的方式写入文件

3.保存本地

目标格式：拼接

保存本地：excel、word、图片

三、提升速度

多线程

四、案例：爬取知识产权网站的公司名称和类别

#http://dlbzsl.hizhuanli.cn:8888/Logo/Search地理标志处分别搜阳澄湖大闸蟹、五常大米、浏阳花炮import urllib.request
from urllib import parse#构造首页请求
url='http://dlbzsl.hizhuanli.cn:8888/Logo/ChangePage/'
headers={'Cookie':'ASP.NET_SessionId=d5k3mu1y0vkfxl3lqgtd2if4',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36 Edg/86.0.622.61',
'Referer':'http://dlbzsl.hizhuanli.cn:8888/Logo/Result?cpmc=%E4%BA%94%E5%B8%B8%E5%A4%A7%E7%B1%B3&company=&creditcode=',
}#数据解析
formdata = {'pageSize': '2'}data = parse.urlencode(formdata).encode(encoding='UTF8')request = urllib.request.Request(url, data=data, headers=headers)#返回结果
response = urllib.request.urlopen(request).read()
# utf-8解码
s = response.decode('utf-8', 'ignore')
#保存本地
print(s)

参考链接：

https://live.csdn.net/v/148375?depth_1-spm=1000.2115.3001.4128

https://ityard.blog.csdn.net/article/details/106606158

【Python网络爬虫】基本原理相关推荐

精通python网络爬虫-精通python网络爬虫
广告关闭腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 作者:韦玮转载请注明出处随着大数据时代的到来,人们对数据资源的需求越来越多, ...
精通python网络爬虫-精通Python网络爬虫 PDF 高清版
给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.网络爬虫.核心技术.框架.项目实战方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小108.6 MB,韦玮编写 ...
精通python网络爬虫-精通Python网络爬虫：核心技术、框架与项目实战 PDF
给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.Python网络爬虫.Python核心技术.Python框架.Python项目实战方面的内容,本书是由机械工业出版社出版, ...
python网络爬虫的基本步骤-python爬虫入门需要哪些基础/python 网络爬虫教程
如何入门 Python 爬虫入门个吊,放弃 python爬虫入门需要哪些基础现在之所以有多的小伙伴热衷于爬虫技术,无外乎是因为爬我们做很多事情,比如搜索引擎.采集数据.广告过滤等,以Python为 ...
Python网络爬虫（一）：爬虫基础
Python网络爬虫(一)爬虫基础一.爬虫基础 1.HTTP基本原理 1.1URI和URL URI,全称:Uniform Resource Identifier,即统一资源标志符:URL,全称:Un ...
小猿学python_小猿圈详解小白如何学习Python网络爬虫
人工智能发展的今天,现在很多企业也都在学习python技术开发,但是真正会的却不是很多,特别是很多都喜欢爬虫,因为可以爬取一些自己喜欢的内容,那么对于小白的话该如何学习python爬虫呢?下面小猿圈P ...
人生苦短，我用 Python，如何学习 Python 网络爬虫？
人生苦短,我用 Python Python 网络爬虫上手很快,能够尽早入门,可是想精通确实是需求些时间,需求达到爬虫工程师的级别更是需求煞费苦心了,接下来共享的学习道路是针对小白或许学习 Python ...
python基础实例韦玮 pdf_精通Python网络爬虫核心技术、框架与项目实战作者:韦玮PDF...
文件目录: 书本介绍: 书名精通Python网络爬虫:核心技术.框架与项目实战作者韦玮著出版社机械工业出版社出版日期 2017 内容简介本书从系统化的视角,为那些想学习Python网络爬 ...
精通Python网络爬虫：核心技术、框架与项目实战(韦玮)pdf
下载地址:网盘下载为什么写这本书网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引擎中,主要使用通用网络爬虫对网页进行爬取及存储. 随着大数据时代的到来,我们经常需要在海量 ...
精通Python网络爬虫_核心技术框架与项目实战_韦玮.pdf
精通Python网络爬虫_核心技术框架与项目实战_韦玮编辑推荐从技术.工具.实战3个维度讲透Python网络爬虫各项核心技术和主流框架,深度讲解网络爬虫的抓取技术与反爬攻关技巧内容简介随着大数 ...

【Python网络爬虫】基本原理