什么是爬虫?

实践来源于理论,做爬虫前肯定要先了解相关的规则和原理,要知道互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就…

首先,咱先看下爬虫的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOAF社区中间,更经常的称为网页追逐者),是一种按照一定的规则,自动地抓取万维网信息的程序或者脚本。一句话概括就是网上信息搬运工。

我们再来看下爬虫应该遵循的规则:robots协议是一种存放于网站根目录下的ASCII编码的文本文件,它通常告诉网络搜索引擎的漫游器(又称网络蜘蛛),此网站中的哪些内容是不应被搜索引擎的漫游器获取的,哪些是可以被漫游器获取的。一句话概括就是告诉你哪些东西能爬哪些不能爬。

了解了定义和规则,最后就是熟悉爬虫的基本原理了,很简单,作为一名灵魂画手,我画个示意图给你看下就明白了。

(⊙o⊙)…尴尬,鼠标写字咋这么丑,都不好意思说自己学过书法,好一个脸字打得呱呱响。

项目背景

理论部分差不多讲完了,有些小朋友估计要嫌我啰嗦了,那就不废话,直接讲实操部分。本次爬虫小项目是应朋友需求,爬取中国木材价格指数网中的红木价格数据,方便撰写红木研究报告。网站长这样:

所需字段已用红框标记,数据量粗略看了下,1751页共5万多条记录,如果你妄想复制粘贴的话,都不知道粘到猴年马月了。而python只要运行几分钟就能把所有数据保存到你的excel里,是不是很舒服?

项目实战

工具:PyCharm

Python版本:Python 3.7

浏览器:Chrome (推荐)

对于第一次写爬虫的朋友可能觉得很麻烦,咱不慌,由浅入深,先爬一页数据试试嘛。

一、爬取一页

首先,我们需要简单分析下网页结构,鼠标右键点击检查,然后点击Network,刷新网页,继续点击Name列表中的第一个。我们发现此网站的请求方式为GET,请求头Headers反映用户电脑系统、浏览器版本等信息。

接着,把爬虫所需的库都pip安装一下并导入,所有库的功能都有注释。

import csv  #用于把爬取的数据存储为csv格式,可以excel直接打开的
import time  #用于对请求加延时,爬取速度太快容易被反爬
from time import sleep #同上
import random  #用于对延时设置随机数,尽量模拟人的行为
import requests  #用于向网站发送请求
from lxml import etree    #lxml为第三方网页解析库,强大且速度快

构造请求url,添加头部信息headers即复制前文标记的User-Agent,通过requests.get方法向服务器发送请求,返回html文本。添加headers目的在于告诉服务器,你是真实的人在访问其网站。如果你不添加headers直接访服务器,会在对方服务器显示python在访问,那么,你很可能会被反爬,常见的反爬就是封你ip。

url = 'http://yz.yuzhuprice.com:8003/findPriceByName.jspx?page.curPage=1&priceName=%E7%BA%A2%E6%9C%A8%E7%B1%BB'
headers = {'User-Agent': "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/81.0.4044.129 Safari/537.36",
}
response = requests.get(url, headers=headers, timeout=10)
html = response.text
print(html)

我们运行下以上代码,看下效果:

看到这个,第一次接触爬虫的朋友可能会有点懵。

其实这就是网页源代码,咱们右键打开下源代码看一哈。

长这样:

而我们需要提取的数据,就潜藏在这网页源代码中,我们要用lxml库中的etree方法解析下网页。

parse = etree.HTML(html)  #解析网页

解析完之后,就可以开开心心的提取我们所需要的数据了。方法很多,比如xpath、select、beautiful soup,还有最难的re(正则表达式)。本文爬取的数据结构较为简单,就直接用xpath玩一下吧。

我们发现,每一行数据对应源码里的一个id=173200的tr,那就先把这些tr都提取下来。

all_tr = parse.xpath('//*[@id="173200"]')

有些小伙伴不会写xpath。

那就找个简单办法,直接copy所需的xpath。

所有tr都提取下来了,接下来就得依次从tr里面提取具体字段了。比如提取商品名称字段,点开第一个tr,选中商品,copy其xpath。其他字段同理。

以下要注意几点,tr={key1 : value1, key2 : value2 }是python的字典数据类型(你也可以根据自己兴趣或需要存为列表或元组类型)。‘’.join是指把获取到的列表转为字符串。./是指继承前面的//*[@id=“173200”],strip()表示对提取的数据进行简单的格式清洗。

for tr in all_tr:tr = {'name': ''.join(tr.xpath('./td[1]/text()')).strip(),'price': ''.join(tr.xpath('./td[2]/text()')).strip(),'unit': ''.join(tr.xpath('./td[3]/text()')).strip(),'supermaket': ''.join(tr.xpath('./td[4]/text()')).strip(),'time': ''.join(tr.xpath('./td[5]/text()')).strip()}

咱们打印一下print(tr),看下效果。

此时,你的心情也许是这样的:

但还没完,数据有了,咱们还得保存csv格式到本地,这一步比较简单,直接贴代码。

with open('wood.csv', 'a', encoding='utf_8_sig', newline='') as fp:# 'a'为追加模式(添加)# utf_8_sig格式导出csv不乱码fieldnames = ['name', 'price', 'unit', 'supermaket', 'time']writer = csv.DictWriter(fp, fieldnames)writer.writerow(tr)

打开下刚生成的wood.csv,长这样:

二、爬取多页

别开心的太早,你还仅仅是爬了一页数据,人家复制粘贴都比你快。咱们的志向可不在这,在诗和远方,哦不,是秒速爬海量数据。

那么,怎么才能爬取多页数据呢?没错,for循环。

我们再回过头来分析下url:

http://yz.yuzhuprice.com:8003/findPriceByName.jspx?page.curPage=1&priceName=%E7%BA%A2%E6%9C%A8%E7%B1%BB

我们把里面的page.curPage改成2试试,如下:

你也许发现玄机,只要改变page.curPage就可以实现翻页。OK,那我们直接在url前面加个循环就好啦。format(x)是一种格式化字符串的函数,可以接受不限个数的参数。

for x in range(1,3):url = 'http://yz.yuzhuprice.com:8003/findPriceByName.jspx?page.curPage={}&priceName=%E7%BA%A2%E6%9C%A8%E7%B1%BB'.format(x)

至此,你只要改变range想爬多少页就爬多少页,开不开心?意不意外?

三、完善爬虫

如果仅仅按照以上代码爬虫,很有可能爬了十几页程序就崩了。我就多次遇到过中途报错,导致爬虫失败的情况。好不容易写出的爬虫,怎么说崩就崩呢。

报错原因就很多了,玩爬虫的都知道,调试bug是很麻烦的,需要不断试错。这个爬虫的主要bug是TimeoutError。因此,我们需要进一步完善代码。

首先,要将以上代码封装成函数,因为不用函数有以下缺点:

1、复杂度增大

2、组织结构不够清晰

3、可读性差

4、代码冗余

5、可扩展性差

其次,在可能出现报错的地方都加上异常处理。即try…except。

 完善之后,截取部分,如上图,限于篇幅,我就不贴所有代码了,需要完整代码的朋友可以点击下面的链接前往免费获取!

点击免费领取《CSDN大礼包》:

最新全套【Python入门到进阶资料 & 实战源码 & 安装工具】https://mp.weixin.qq.com/s/9IuSexhanYZ1TMAF1MZIhw

Python学习资源及经验总结

如果你也喜欢编程,想通过学习Python转行、做副业或者提升工作效率,我也为大家整理了一份【最新全套Python学习资料】一定对你有用!

对于0基础小白入门:

如果你是零基础小白,想快速入门Python是可以考虑的!

1、学习时间相对较短,学习内容更全面更集中

2、可以找到适合自己的学习方案

这份资料包含:Python安装包+激活码、Python web开发,Python爬虫,Python数据分析,人工智能、机器学习等教程,带你从零开始系统性的学好Python!

一、Python所有方向的学习路线

Python所有方向路线就是把Python常用的技术点做整理,形成各个领域的知识点汇总,它的用处就在于,你可以按照上面的知识点去找对应的学习资源,保证自己学得较为全面。

二、Python课程视频

我们在看视频学习的时候,不能光动眼动脑不动手,比较科学的学习方法是在理解之后运用它们,这时候练手项目就很适合了。

三、全套PDF电子书

书籍的好处就在于权威和体系健全,刚开始学习的时候你可以只看视频或者听某个人讲课,但等你学完之后,你觉得你掌握了,这时候建议还是得去看一下书籍,看权威技术书籍也是每个程序员必经之路。

四、清华编程大佬出品《漫画看学Python》

用通俗易懂的漫画,来教你学习Python,让你更容易记住,并且不会枯燥乏味。

五、Python实战案例

光学理论是没用的,要学会跟着一起敲,要动手实操,才能将自己的所学运用到实际当中去,这时候可以搞点实战案例来学习。

六、互联网企业面试真题

我们学习Python必然是为了找到高薪的工作,下面这些面试题是来自阿里、腾讯、字节等一线互联网大厂最新的面试资料,并且有阿里大佬给出了权威的解答,刷完这一套面试资料相信大家都能找到满意的工作。

这份完整版的Python全套学习资料已经上传至CSDN官方,朋友们如果需要可以点击下方链接费获取【保证100%免费】

点击免费领取《CSDN大礼包》:

最新全套【Python入门到进阶资料 & 实战源码 & 安装工具】https://mp.weixin.qq.com/s/9IuSexhanYZ1TMAF1MZIhw

以上全套资料已经为大家打包准备好了,希望对正在学习Python的你有所帮助!


如果你觉得这篇文章有帮助,可以点个赞呀~

我会坚持每天更新Python相关干货,分享自己的学习经验帮助想学习Python的朋友们少走弯路!

最详细的爬虫实战 | 手把手教你用Python爬虫(附详细源码)相关推荐

  1. 爬虫实战|手把手教你用Python爬虫(附详细源码)

    什么是爬虫? 实践来源于理论,做爬虫前肯定要先了解相关的规则和原理,要知道互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就- 首先,咱先看下爬虫的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOA ...

  2. python爬虫技术源码_实战|手把手教你用Python爬虫(附详细源码)

    大家好,我是J哥,专注原创,致力于用浅显易懂的语言分享爬虫.数据分析及可视化等干货,希望人人都能学到新知识.最近J哥做了个爬虫小项目,感觉还挺适合新手入门的,于是迫不及待想分享给大家. 什么是爬虫? ...

  3. 实战|手把手教你用Python爬虫(附详细源码)

    什么是爬虫? 实践来源于理论,做爬虫前肯定要先了解相关的规则和原理,要知道互联网可不是法外之地,你一顿爬虫骚操作搞不好哪天就- 首先,咱先看下爬虫的定义:网络爬虫(又称为网页蜘蛛,网络机器人,在FOA ...

  4. 手把手教你利用 python 爬虫分析基金、股票

    手把手教你利用 python 爬虫分析基金.股票 文章目录 手把手教你利用 python 爬虫分析基金.股票 第一步:基金数据爬取 第二步:股票增持计算 第三步:好股基金选取 桌面程序 exe 从前大 ...

  5. 手把手教你入门Python爬虫(二)

    手把手教你入门Python爬虫 前言   在上一篇文章中,我们讲解到了基础的计算机网络知识,并完成了"爬取豆瓣Top250电影信息"的项目.那么这一次,作者将带领大家完成" ...

  6. 从原理到实现丨手把手教你写一个线程池丨源码分析丨线程池内部组成及优化

    人人都能学会的线程池 手写完整版 1. 线程池的使用场景 2. 线程池的内部组成 3. 线程池优化 [项目实战]从原理到实现丨手把手教你写一个线程池丨源码分析丨线程池内部组成及优化 内容包括:C/C+ ...

  7. 手把手教你搭建查题网站 附带源码

    手把手教你搭建查题网站 附带源码 准备服务器/主机,域名 ,源码 下载源码:https://boo.lanzous.com/iLx2cg0oyhg 搭建步骤:默认已拥有服务器(空间)及域名 整个压缩包 ...

  8. 实战|手把手教你利用Python网络爬虫获取新房数据

    一.项目背景 大家好,我是J哥. 新房数据,对于房地产置业者来说是买房的重要参考依据,对于房地产开发商来说,也是分析竞争对手项目的绝佳途径,对于房地产代理来说,是踩盘前的重要准备. 今天J哥以惠民之家 ...

  9. python链家网爬虫_手把手教你利用Python网络爬虫获取链家网的房产信息

    点击上方" Python爬虫与数据挖掘 ",进行关注 回复"书籍"即可获赠Python从入门到进阶共10本电子书 今 日 鸡 汤 夜阑卧听风吹雨,铁马冰河入梦来 ...

最新文章

  1. 抖音开放平台 php-sdk 注意事项
  2. Win docker 桌面版报错error during connect: This error may indicate that the docker daemon is not running
  3. 单点登录实现(spring session+redis完成session共享)
  4. HDU多校6 - 6831 Fragrant numbers(dfs爆搜+打表)
  5. 搜狗输入法错误推送地震信息,但其背后的真正价值值得思考
  6. java读取图片缩略方法_java 图片缩略图的两种方法
  7. 手把手教我班小姐姐学java之多态
  8. 『中级篇』Docker-cloud介绍(54)
  9. vrrp协议_虚拟路由冗余协议VRRP原理介绍
  10. apache2.4.18中启用h2c
  11. 选择软件测试作为你的职业,一个无经验的大学毕业生,可以转行做软件测试吗?
  12. Linux:VMware Tools安装方法及共享文件夹设置方法
  13. ReportServer中,要配置远程可登录帐号
  14. html5 restore,HTML5 canvas save和restore方法讲解
  15. 四叶草关闭啰嗦模式_教你如何解决 Win7 64位卡LOGO(四叶草)
  16. 计算机科学导论教学大纲,lbrack;机器人学导论rsqb;课程教学大纲
  17. 通过session实现通用爬虫--爬取到开心网账户的首页界面
  18. 机器学习入门概念--心血总结--史上最强--入门必读--回味无穷
  19. Git命令提交项目代码
  20. 2022圣诞节用canvas实现流星雨

热门文章

  1. 隐藏式摄像机探测器金(futureapps Pro 14.0)
  2. 通过学习Python+request,爬取《雪中悍刀行》小说
  3. vue列表类型数据展示图片
  4. 腾讯云账号怎么注销?教程来了
  5. php+mysql用户管理系统毕业设计(源代码+毕业论文)
  6. MFC打包exe文件
  7. element的Loading 加载设置“加载“的位置始终居中
  8. 在 Virtual Box 安装 Mac Os 并安装 Qt 开发应用
  9. 考研OR工作----计算机操作系统简答题及疑难知识点总结(第二章 进程的描述与控制)
  10. Android修行手册 - 自定义Switch