【Python网络爬虫】基本原理
目录
一、概念理解
二、基本思路
1.构造首页请求
2.数据解析
3.保存本地
三、提升速度
四、案例:爬取知识产权网站的公司名称和类别
一、概念理解
爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者。
传统爬虫就是经常用到的各种搜索引擎,浏览器。参考浏览器命令
聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。
二、基本思路
1.构造首页请求
目标网址:url
伪装浏览器:headers(User-agent、cookies、referrer)
发送请求:request(GET / POST)
返回内容:response
2.数据解析
Html数据:正则表达式
Json数据:json库(ajax网页数据获取)
二进制数据:以wb的方式写入文件
3.保存本地
目标格式:拼接
保存本地:excel、word、图片
三、提升速度
多线程
四、案例:爬取知识产权网站的公司名称和类别
#http://dlbzsl.hizhuanli.cn:8888/Logo/Search地理标志处分别搜阳澄湖大闸蟹、五常大米、浏阳花炮import urllib.request
from urllib import parse#构造首页请求
url='http://dlbzsl.hizhuanli.cn:8888/Logo/ChangePage/'
headers={'Cookie':'ASP.NET_SessionId=d5k3mu1y0vkfxl3lqgtd2if4',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36 Edg/86.0.622.61',
'Referer':'http://dlbzsl.hizhuanli.cn:8888/Logo/Result?cpmc=%E4%BA%94%E5%B8%B8%E5%A4%A7%E7%B1%B3&company=&creditcode=',
}#数据解析
formdata = {'pageSize': '2'}data = parse.urlencode(formdata).encode(encoding='UTF8')request = urllib.request.Request(url, data=data, headers=headers)#返回结果
response = urllib.request.urlopen(request).read()
# utf-8解码
s = response.decode('utf-8', 'ignore')
#保存本地
print(s)
参考链接:
https://live.csdn.net/v/148375?depth_1-spm=1000.2115.3001.4128
https://ityard.blog.csdn.net/article/details/106606158
【Python网络爬虫】基本原理相关推荐
- 精通python网络爬虫-精通python网络爬虫
广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 作者:韦玮 转载请注明出处 随着大数据时代的到来,人们对数据资源的需求越来越多, ...
- 精通python网络爬虫-精通Python网络爬虫 PDF 高清版
给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.网络爬虫.核心技术.框架.项目实战方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小108.6 MB,韦玮编写 ...
- 精通python网络爬虫-精通Python网络爬虫:核心技术、框架与项目实战 PDF
给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.Python网络爬虫.Python核心技术.Python框架.Python项目实战方面的内容,本书是由机械工业出版社出版, ...
- python网络爬虫的基本步骤-python爬虫入门需要哪些基础/python 网络爬虫教程
如何入门 Python 爬虫 入门个吊,放弃 python爬虫入门需要哪些基础 现在之所以有多的小伙伴热衷于爬虫技术,无外乎是因为爬我们做很多事情,比如搜索引擎.采集数据.广告过滤等,以Python为 ...
- Python网络爬虫(一):爬虫基础
Python网络爬虫(一)爬虫基础 一.爬虫基础 1.HTTP基本原理 1.1URI和URL URI,全称:Uniform Resource Identifier,即统一资源标志符:URL,全称:Un ...
- 小猿学python_小猿圈详解小白如何学习Python网络爬虫
人工智能发展的今天,现在很多企业也都在学习python技术开发,但是真正会的却不是很多,特别是很多都喜欢爬虫,因为可以爬取一些自己喜欢的内容,那么对于小白的话该如何学习python爬虫呢?下面小猿圈P ...
- 人生苦短,我用 Python,如何学习 Python 网络爬虫?
人生苦短,我用 Python Python 网络爬虫上手很快,能够尽早入门,可是想精通确实是需求些时间,需求达到爬虫工程师的级别更是需求煞费苦心了,接下来共享的学习道路是针对小白或许学习 Python ...
- python基础实例 韦玮 pdf_精通Python网络爬虫 核心技术、框架与项目实战 作者:韦玮PDF...
文件目录: 书本介绍: 书名 精通Python网络爬虫:核心技术.框架与项目实战 作者 韦玮著 出版社 机械工业出版社 出版日期 2017 内容简介 本书从系统化的视角,为那些想学习Python网络爬 ...
- 精通Python网络爬虫:核心技术、框架与项目实战(韦玮)pdf
下载地址:网盘下载 为什么写这本书 网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引擎中,主要使用通用网络爬虫对网页进行爬取及存储. 随着大数据时代的到来,我们经常需要在海量 ...
- 精通Python网络爬虫_核心技术框架与项目实战_韦玮.pdf
精通Python网络爬虫_核心技术框架与项目实战_韦玮 编辑推荐 从技术.工具.实战3个维度讲透Python网络爬虫各项核心技术和主流框架,深度讲解网络爬虫的抓取技术与反爬攻关技巧 内容简介 随着大数 ...
最新文章
- c语言-01背包问题
- MathJax 支持的 Latex 符号总结(各种数学字体)
- Xcode SVN配置
- Android之View的绘制流程解析
- 【Python基础】在pandas中使用数据透视表
- 联合国隐私监督机构:大规模信息监控并非行之有效
- 求数组中的最小子数组,时间复杂度o(n),java
- ubuntu怎么安装python3操作系统32_ubuntu系统下安装python3
- git创建分支合并到master分支步骤
- sublime ctrl b突然不能用解决方法
- BigDecimal舍入模式(Rounding Modes)
- oracle监控数据库工具,Oracle轻量级实时监控工具-oratop
- 嘉环科技IT管培生面试
- docker 安装redmine
- 基于MATLAB的批量3度带高斯正算(LB--xy)
- [转]常用网络协议分析工具
- 【C++基础系列】Vector容器
- dx绘制2d图像_在DirectX 中进行2D渲染
- 私有云大展拳脚 云计算发展趋势已明朗
- 深入Vue2.x的虚拟DOM diff原理
热门文章
- for循环的执行顺序(案例+详解)
- 看点直播抓取视频回放链接
- 我的第一篇博文——简单的C/S模型
- 数据库 表空间详解以及其使用方法 (Oracle)
- android 电池电量广播,Android查看电池电量的方法(基于BroadcastReceiver)
- Git 使用cherry-pick摘取提交
- CrowdHuman数据集介绍
- linux debian vi,debian系统中常用的vi命令使用和讲解
- 用python发邮件便利之处_第18课 python 发送邮件
- 人工智能方面有什么创业项目_人工智能创业有哪些项目,其商机前景介绍