目录

一、概念理解

二、基本思路

1.构造首页请求

2.数据解析

3.保存本地

三、提升速度

四、案例:爬取知识产权网站的公司名称和类别


一、概念理解

爬虫是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者。

传统爬虫就是经常用到的各种搜索引擎,浏览器。参考浏览器命令

聚焦爬虫的工作流程较为复杂,需要根据一定的网页分析算法过滤与主题无关的链接,保留有用的链接并将其放入等待抓取的URL队列。然后,它将根据一定的搜索策略从队列中选择下一步要抓取的网页URL,并重复上述过程,直到达到系统的某一条件时停止。

二、基本思路

1.构造首页请求

目标网址:url

伪装浏览器:headers(User-agent、cookies、referrer)

发送请求:request(GET / POST)

返回内容:response

2.数据解析

Html数据:正则表达式

Json数据:json库(ajax网页数据获取)

二进制数据:以wb的方式写入文件

3.保存本地

目标格式:拼接

保存本地:excel、word、图片

三、提升速度

多线程

四、案例:爬取知识产权网站的公司名称和类别

#http://dlbzsl.hizhuanli.cn:8888/Logo/Search地理标志处分别搜阳澄湖大闸蟹、五常大米、浏阳花炮import urllib.request
from urllib import parse#构造首页请求
url='http://dlbzsl.hizhuanli.cn:8888/Logo/ChangePage/'
headers={'Cookie':'ASP.NET_SessionId=d5k3mu1y0vkfxl3lqgtd2if4',
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.111 Safari/537.36 Edg/86.0.622.61',
'Referer':'http://dlbzsl.hizhuanli.cn:8888/Logo/Result?cpmc=%E4%BA%94%E5%B8%B8%E5%A4%A7%E7%B1%B3&company=&creditcode=',
}#数据解析
formdata = {'pageSize': '2'}data = parse.urlencode(formdata).encode(encoding='UTF8')request = urllib.request.Request(url, data=data, headers=headers)#返回结果
response = urllib.request.urlopen(request).read()
# utf-8解码
s = response.decode('utf-8', 'ignore')
#保存本地
print(s)

参考链接:

https://live.csdn.net/v/148375?depth_1-spm=1000.2115.3001.4128

https://ityard.blog.csdn.net/article/details/106606158

【Python网络爬虫】基本原理相关推荐

  1. 精通python网络爬虫-精通python网络爬虫

    广告关闭 腾讯云11.11云上盛惠 ,精选热门产品助力上云,云服务器首年88元起,买的越多返的越多,最高返5000元! 作者:韦玮 转载请注明出处 随着大数据时代的到来,人们对数据资源的需求越来越多, ...

  2. 精通python网络爬虫-精通Python网络爬虫 PDF 高清版

    给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.网络爬虫.核心技术.框架.项目实战方面的内容,本书是由机械工业出版社出版,格式为PDF,资源大小108.6 MB,韦玮编写 ...

  3. 精通python网络爬虫-精通Python网络爬虫:核心技术、框架与项目实战 PDF

    给大家带来的一篇关于Python爬虫相关的电子书资源,介绍了关于Python.Python网络爬虫.Python核心技术.Python框架.Python项目实战方面的内容,本书是由机械工业出版社出版, ...

  4. python网络爬虫的基本步骤-python爬虫入门需要哪些基础/python 网络爬虫教程

    如何入门 Python 爬虫 入门个吊,放弃 python爬虫入门需要哪些基础 现在之所以有多的小伙伴热衷于爬虫技术,无外乎是因为爬我们做很多事情,比如搜索引擎.采集数据.广告过滤等,以Python为 ...

  5. Python网络爬虫(一):爬虫基础

    Python网络爬虫(一)爬虫基础 一.爬虫基础 1.HTTP基本原理 1.1URI和URL URI,全称:Uniform Resource Identifier,即统一资源标志符:URL,全称:Un ...

  6. 小猿学python_小猿圈详解小白如何学习Python网络爬虫

    人工智能发展的今天,现在很多企业也都在学习python技术开发,但是真正会的却不是很多,特别是很多都喜欢爬虫,因为可以爬取一些自己喜欢的内容,那么对于小白的话该如何学习python爬虫呢?下面小猿圈P ...

  7. 人生苦短,我用 Python,如何学习 Python 网络爬虫?

    人生苦短,我用 Python Python 网络爬虫上手很快,能够尽早入门,可是想精通确实是需求些时间,需求达到爬虫工程师的级别更是需求煞费苦心了,接下来共享的学习道路是针对小白或许学习 Python ...

  8. python基础实例 韦玮 pdf_精通Python网络爬虫 核心技术、框架与项目实战 作者:韦玮PDF...

    文件目录: 书本介绍: 书名 精通Python网络爬虫:核心技术.框架与项目实战 作者 韦玮著 出版社 机械工业出版社 出版日期 2017 内容简介 本书从系统化的视角,为那些想学习Python网络爬 ...

  9. 精通Python网络爬虫:核心技术、框架与项目实战(韦玮)pdf

    下载地址:网盘下载 为什么写这本书 网络爬虫其实很早就出现了,最开始网络爬虫主要应用在各种搜索引擎中.在搜索引擎中,主要使用通用网络爬虫对网页进行爬取及存储. 随着大数据时代的到来,我们经常需要在海量 ...

  10. 精通Python网络爬虫_核心技术框架与项目实战_韦玮.pdf

    精通Python网络爬虫_核心技术框架与项目实战_韦玮 编辑推荐 从技术.工具.实战3个维度讲透Python网络爬虫各项核心技术和主流框架,深度讲解网络爬虫的抓取技术与反爬攻关技巧 内容简介 随着大数 ...

最新文章

  1. c语言-01背包问题
  2. MathJax 支持的 Latex 符号总结(各种数学字体)
  3. Xcode SVN配置
  4. Android之View的绘制流程解析
  5. 【Python基础】在pandas中使用数据透视表
  6. 联合国隐私监督机构:大规模信息监控并非行之有效
  7. 求数组中的最小子数组,时间复杂度o(n),java
  8. ubuntu怎么安装python3操作系统32_ubuntu系统下安装python3
  9. git创建分支合并到master分支步骤
  10. sublime ctrl b突然不能用解决方法
  11. BigDecimal舍入模式(Rounding Modes)
  12. oracle监控数据库工具,Oracle轻量级实时监控工具-oratop
  13. 嘉环科技IT管培生面试
  14. docker 安装redmine
  15. 基于MATLAB的批量3度带高斯正算(LB--xy)
  16. [转]常用网络协议分析工具
  17. 【C++基础系列】Vector容器
  18. dx绘制2d图像_在DirectX 中进行2D渲染
  19. 私有云大展拳脚 云计算发展趋势已明朗
  20. 深入Vue2.x的虚拟DOM diff原理

热门文章

  1. for循环的执行顺序(案例+详解)
  2. 看点直播抓取视频回放链接
  3. 我的第一篇博文——简单的C/S模型
  4. 数据库 表空间详解以及其使用方法 (Oracle)
  5. android 电池电量广播,Android查看电池电量的方法(基于BroadcastReceiver)
  6. Git 使用cherry-pick摘取提交
  7. CrowdHuman数据集介绍
  8. linux debian vi,debian系统中常用的vi命令使用和讲解
  9. 用python发邮件便利之处_第18课 python 发送邮件
  10. 人工智能方面有什么创业项目_人工智能创业有哪些项目,其商机前景介绍