爬虫实例6 爬取联英人才网147页招聘信息，并导入数据库

爬虫基本流程：
一、导包
二、伪装浏览器
三、请求数据
四、分析网页
五、持久化储存

目标网站链接：
http://www.hrm.cn/

源代码：

import requests
from lxml import etree   #xpath库
import re
import pymysql
#建立数据库连接
conn=pymysql.connect(host="localhost",user="用户名",db="数据库名字",passwd="数据库密码")
#定义游标
curser=conn.cursor()
#正则解析
pat='\w+'
#伪装浏览器
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36"
}
#遍历爬取147页所有数据
for p in range(1,147):url="http://www.hrm.cn/jobs?keyType=0&keyWord=&jobTypeId=&jobType=&industry=&industryname=&workId=&workPlace=&salary=&entType=&experience=&education=&entSize=&benefits=&reftime=&workTypeId=&sortField=&pageNo="+str(p)res=requests.get(url=url,headers=headers).text#把获取的html转换成标准的HTML格式tree=etree.HTML(res)job_name=tree.xpath('//div[@class="list_jobs_box list clearfix"]/ul/li[@class="list_jobs_name mouseListen"]/a/span[@class="jobs_name_list_name"]/text()')company=tree.xpath('//div[@class="list_jobs_box list clearfix"]/ul/li[@class="list_com_name"]/a/text()')gongzi=tree.xpath('//div[@class="list_jobs_box list clearfix"]/ul/li[@class="list_jobs_salary"]/text()')adress=tree.xpath('//div[@class="list_jobs_box list clearfix"]/ul/li[@class="list_jobs_city"]/text()')for i in range(0,len(job_name)):gw=job_name[i]gs=company[i]gz=gongzi[i]dz=adress[i]ret=re.search(pat,gz)[0]if(ret=="面议"):ret=0#定义sql语句sql="insert into jobs(job_name,company,gongzi,adress) values ('"+gw+"','"+gs+"','"+str(ret)+"','"+dz+"')"curser.execute(sql)conn.commit()#提交数据
conn.close()#关闭数据库连接

代码解析：

导入需要的库

import requests
from lxml import etree   #xpath库
import re
import pymysql

伪装浏览器：

headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36"
}

解析数据：

for p in range(1,147):url="http://www.hrm.cn/jobs?keyType=0&keyWord=&jobTypeId=&jobType=&industry=&industryname=&workId=&workPlace=&salary=&entType=&experience=&education=&entSize=&benefits=&reftime=&workTypeId=&sortField=&pageNo="+str(p)res=requests.get(url=url,headers=headers).text#把获取的html转换成标准的HTML格式tree=etree.HTML(res)job_name=tree.xpath('//div[@class="list_jobs_box list clearfix"]/ul/li[@class="list_jobs_name mouseListen"]/a/span[@class="jobs_name_list_name"]/text()')company=tree.xpath('//div[@class="list_jobs_box list clearfix"]/ul/li[@class="list_com_name"]/a/text()')gongzi=tree.xpath('//div[@class="list_jobs_box list clearfix"]/ul/li[@class="list_jobs_salary"]/text()')adress=tree.xpath('//div[@class="list_jobs_box list clearfix"]/ul/li[@class="list_jobs_city"]/text()')for i in range(0,len(job_name)):gw=job_name[i]gs=company[i]gz=gongzi[i]dz=adress[i]ret=re.search(pat,gz)[0]if(ret=="面议"):ret=0

首先来分析前三页链接的差别

url="http://www.hrm.cn/jobs?keyType=0&keyWord=&jobTypeId=&jobType=&industry=&industryname=&workId=&workPlace=&salary=&entType=&experience=&education=&entSize=&benefits=&reftime=&workTypeId=&sortField=&pageNo="+str(p)

这样就能遍历147页了

解析数据：
其余都是一样的写法。

持久化储存就不说了，在前面专门有关于导入数据库的方法。

新手博主，请前辈批评指正———丁一

爬虫实例6 爬取联英人才网147页招聘信息，并导入数据库相关推荐

Python爬虫实例：爬取 viveport 上 1406 款VR游戏信息
这次我们准备爬取 HTC VIVE 的VR内容平台--Viveport,上面有 1406 款优质的 VR 游戏/应用,本次我们的目标就是把这些游戏的详细信息爬取下来. 首先我们去该网站看一下(http ...
2021-02-27爬虫实例（爬取照片）以虎牙为例
爬虫实例(爬取照片)以虎牙为例开始之前点赞,投币加关注哦开发环境:Python3.7 开发软件:PyCharm Edu 第一步:导入第三方库(模块) # 导入第三方库 import request ...
Python爬虫实例：爬取“最好大学网”大学排名
实例2 爬取大学排名上海交通大学设计了一个"最好大学网",上面列出了当前的大学排名.我们要设计爬虫程序,爬取大学排名信息. 爬虫功能要求: 输入:大学排名URL链接输出:大学排 ...
Python爬虫之路-爬取北、上、广租房信息
链家网在实现爬取北.上.广租房信息时,需要使用fake_useragent.asyncio.aiohttp.requests.lxml以及pandas模块. 各模块关键技术如下: 1.fake_us ...
爬虫小案例-爬取当当网TOP500的图书并将数据存入数据库
在这里分享一个刚刚学习爬虫时自己做的一个小案例,爬取了当当网TOP500的图书信息,包括图书名称.作者名称和出版社的名称. 1.分析网页 url:http://bang.dangdang.com/bo ...
初试python爬虫（简单爬取站长之家第一页图片）
爬取站长之家第一页图片爬虫 ----需要借助第三方库 requests beautifulsoup4 html5lib 1.模拟浏览器发送请求并且接收服务器的响应数据 requests 2.解析并 ...
python爬虫实例之爬取智联招聘数据
这是作者的处女作,轻点喷.... 实习在公司时领导要求学习python,python的爬虫作为入门来说是十分友好的,话不多说,开始进入正题. 主要是爬去智联的岗位信息进行对比分析出java和pytho ...
Python爬虫与信息提取（五）爬虫实例：爬取新浪微博热搜排名
经过一段时间的Python网络爬虫学习,今天自己摸索制作了一个能够爬取新浪微博实时热搜排名的小爬虫 1.效果: 2.制作过程中遇到的问题: (1)一开始研究微博热搜页面的源代码时忽略了<tbod ...
Python爬虫（前言）：有趣的一个爬虫实例（爬取段子，笑话，情感句子）
这次准备介绍Python爬虫爬取网页数据.解析并应用于实践,打算写几篇文章,从最基础的Python爬虫语法开始介绍爬虫,步步深入,最终实现一个较完整的实例. 这一系列文章包括: request库介绍及 ...
python view函数_Python爬虫实例(二)——爬取新馆疫情每日新增人数
python是世界上最美的语言. 大家好,我是Henry! 疫情以来,相信大家每天都关注着疫情的实时动态,许多网站上也post了疫情的相关资料. 百香园百度各个网站都会统计每日新增,刚学了Matp ...

爬虫实例6 爬取联英人才网147页招聘信息，并导入数据库

爬虫实例6 爬取联英人才网147页招聘信息，并导入数据库相关推荐

最新文章

热门文章