java抓取网页数据_Golang丨Java丨Python爬虫实战

我们分别通过Golang、Python、Java三门语言，分别实现对Boss直聘网站的招聘数据进行爬取。

首先打开Boss直聘网站：

然后我们在职位类型中输入Go或者Golang关键字：

然后我们可以看到一个列表，和Go语言相关的各种招聘职位，还可以不停的下一页。。

那我们现在就来爬取这些数据：我们比较关心这里的职位名称，薪资待遇，工作地点，对于工作经验的要求，学历的要求，公司名称，公司类型，公司发展阶段，公司规模等等。。

一、分析页面

我们通过分析页面的结构发现，页面的职位列表，其实都位于一个ul中的li里，每个页面有30个职位，所以有30个li标签：

打开这个li标签后，里面是div标签嵌套，包括了招聘信息和公司信息：

接下来我们就可以通过代码来爬取这些数据了，首先我们要确定要爬取的第一个url：

https://www.zhipin.com/c101010100/?query=Go&page=1

一共有10页数据，分别通过page=1、2、3。。。来实现，

所以接下来要爬取的url：

https://www.zhipin.com/c101010100/?query=Go&page=2

https://www.zhipin.com/c101010100/?query=Go&page=3

。。。

https://www.zhipin.com/c101010100/?query=Go&page=10

爬取到的数据，我们也不需要处理，打印输出即可。。因为我们只是想看一下几门语言爬取数据在实现上有什么不同。。

好了，现在让我们来开开心心的撸代码吧。。

二、Golang语言实现

使用Go语言来爬取这个页面，github里搜了下，发现goquery这个爬虫包用的人还挺多的，7000多个star，而且是BSD开源协议，于是毫不犹豫的拿来用了。

goquery的使用还是比较简单，按照文档说明一步一步来就可以了：

首先：需要安装

localhost:~ ruby$ go get github.com/PuerkitoBio/goquery

其次：就是去看看goquery的API，先了解一下常用的方法：

https://godoc.org/github.com/PuerkitoBio/goquery

然后就可以开始写代码了：

打开Goland，新建一个go文件:

package

一共也就这些代码，加上注释78行。

然后可以运行：（注：由于执行结果过长，为增加可阅读性部分执行结果已经删除处理）

GOROOT=/usr/local/go #gosetup
GOPATH=/Users/ruby/go #gosetup
/usr/local/go/bin/go build -i -o /private/var/folders/kt/nlhsnpgn6lgd_q16f8j83sbh0000gn/T/___go_build_boss_go /Users/ruby/go/src/boss/boss.go #gosetup
/private/var/folders/kt/nlhsnpgn6lgd_q16f8j83sbh0000gn/T/___go_build_boss_go #gosetup
============== 千锋教育Go语言开发教学部 职位信息分析 ================
第 0 页的数据：
职位序号：第1个职位
职位名称：Golang
职位薪酬：25k-50k
工作地点：北京
职位所需工作经历：5-10年
学历要求：本科
公司名称：京东集团
公司类型：电子商务
公司发展阶段：已上市
公司规模：10000人以上
================================================================职位序号：第2个职位
职位名称：Golang
职位薪酬：20k-35k
工作地点：北京 朝阳区 亮马桥
职位所需工作经历：3-5年
学历要求：本科
公司名称：平安科技
公司类型：互联网
公司发展阶段：不需要融资
公司规模：1000-9999人
================================================================职位序号：第3个职位
职位名称：Golang
职位薪酬：20k-30k
工作地点：北京 海淀区 知春路
职位所需工作经历：3-5年
学历要求：本科
公司名称：腾讯科技(北京)公司
公司类型：移动互联网
公司发展阶段：已上市
公司规模：10000人以上
================================================================职位序号：第4个职位
职位名称：Golang
职位薪酬：20k-40k
工作地点：北京 海淀区 中关村
职位所需工作经历：3-5年
学历要求：本科
公司名称：旷视科技
公司类型：移动互联网
公司发展阶段：C轮
公司规模：1000-9999人
================================================================职位序号：第5个职位
职位名称：Golang
职位薪酬：20k-40k
工作地点：北京 海淀区 上地
职位所需工作经历：3-5年
学历要求：本科
公司名称：Aibee
公司类型：互联网
公司发展阶段：A轮
公司规模：100-499人
================================================================
.
省略
.
注：由于执行结果过长，为增加可阅读性部分执行结果已经删除处理
.
省略
.
================================================================
职位序号：第25个职位
职位名称：Golang
职位薪酬：20k-35k
工作地点：北京 海淀区 上地
职位所需工作经历：3-5年
学历要求：本科
公司名称：滴滴出行
公司类型：移动互联网
公司发展阶段：D轮及以上
公司规模：1000-9999人
================================================================职位序号：第26个职位
职位名称：高级软件工程师(Golang)
职位薪酬：30k-50k
工作地点：北京 海淀区 五道口
职位所需工作经历：3-5年
学历要求：学历不限
公司名称：魔门塔科技
公司类型：计算机软件
公司发展阶段：B轮
公司规模：500-999人
================================================================职位序号：第27个职位
职位名称：京东云golang后端开发工程师
职位薪酬：20k-40k
工作地点：北京 朝阳区 小营
职位所需工作经历：5-10年
学历要求：本科
公司名称：京东集团
公司类型：电子商务
公司发展阶段：已上市
公司规模：10000人以上
================================================================职位序号：第28个职位
职位名称：Golang开发工程师
职位薪酬：15k-25k
工作地点：北京 海淀区 航天桥
职位所需工作经历：1-3年
学历要求：本科
公司名称：央视网
公司类型：互联网
公司发展阶段：不需要融资
公司规模：1000-9999人
================================================================职位序号：第29个职位
职位名称：Golang开发工程师
职位薪酬：5k-9k
工作地点：北京 海淀区 大钟寺
职位所需工作经历：1年以内
学历要求：本科
公司名称：卿烨科技
公司类型：互联网
公司发展阶段：A轮
公司规模：100-499人
================================================================职位序号：第30个职位
职位名称：Golang开发工程师
职位薪酬：30k-60k
工作地点：北京 海淀区 万柳
职位所需工作经历：3-5年
学历要求：本科
公司名称：费曼咨询
公司类型：互联网
公司发展阶段：未融资
公司规模：0-20人
================================================================app elapsed: 11.074699684sProcess finished with exit code 0

我们可以看到一共花费了11s的时间，但是我们为了防止boss反爬，在程序中设置了，每隔1s中再爬取下个页面，所以减掉9s，真正的爬数据的时间也就2s：

三、Python语言实现

python在爬虫方面还是比较强大的，我选了一个最时髦的框架：scrapy

这个框架虽然说功能很强大，但是用起来还稍微有点麻烦的，不说别的，创建项目就得用终端的scrapy命令创建，而不是IDE直接创建。

所以打开终端，进入python的workspace，输入以下命令：

localhost:~ ruby$ scrapy startproject bossspider

然后通过Pycharm打开这个项目：

先编写items.py文件，就是我们要爬取的数据，需要先在此处定义，然后每一条数据就是一个item：

# -*- coding: utf-8 -*-

然后我们打开spiders目录：新建一个py文件：bossspider.py，这里写爬取数据的代码：

# -*- coding: utf-8 -*-

然后修改setting.py文件，设置请求头等等：

# -*- coding: utf-8 -*-

为了能够在爬取数据的时候，统计程序耗时，我们还可以修改scrapy的包文件：corestats.py

def

然后运行一下程序，打开终端，输入以下命令：

hanru-3:bossspider ruby$ scrapy crawl bossspider

或者：

hanru-3:bossspider ruby$ scrapy crawl bossspider -o boss.json

表示把爬取的数据导出到boss.json文件中。

共耗时12s，同样也是减掉9s的睡眠时间，耗时3s。

四、Java语言实现

Java的爬虫，我们可以通过Jsoup库来辅助我们实现Java语言的编程实现）。

先创建Java工程，然后下载Jsoup.jar源码库并添加到Java工程中的libs中，并添加成为library。

接着创建Item类，因为Java是面向对象的语言，所以我们先创建一个类，用于封装下载后的数据：

package

然后我们创建一个带main()的java文件，来编写爬虫的代码：

package

因为我们对数据没有什么处理，所以边封装就边打印查看了。

这个速度还是有点意思的。。

五、对比

从代码量上可以看得出来Go语言是最少的，尤其的简洁。。

从运行速度上可以看出来Go语言是执行最快的，耗时最短。。

然后每个语言也都有着不同的优缺点，所以也有着各自的发展领域。