爬虫基本流程:
一、导包
二、伪装浏览器
三、请求数据
四、分析网页
五、持久化储存

目标网站链接:
http://www.hrm.cn/

源代码:

import requests
from lxml import etree   #xpath库
import re
import pymysql
#建立数据库连接
conn=pymysql.connect(host="localhost",user="用户名",db="数据库名字",passwd="数据库密码")
#定义游标
curser=conn.cursor()
#正则解析
pat='\w+'
#伪装浏览器
headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36"
}
#遍历爬取147页所有数据
for p in range(1,147):url="http://www.hrm.cn/jobs?keyType=0&keyWord=&jobTypeId=&jobType=&industry=&industryname=&workId=&workPlace=&salary=&entType=&experience=&education=&entSize=&benefits=&reftime=&workTypeId=&sortField=&pageNo="+str(p)res=requests.get(url=url,headers=headers).text#把获取的html转换成标准的HTML格式tree=etree.HTML(res)job_name=tree.xpath('//div[@class="list_jobs_box list clearfix"]/ul/li[@class="list_jobs_name mouseListen"]/a/span[@class="jobs_name_list_name"]/text()')company=tree.xpath('//div[@class="list_jobs_box list clearfix"]/ul/li[@class="list_com_name"]/a/text()')gongzi=tree.xpath('//div[@class="list_jobs_box list clearfix"]/ul/li[@class="list_jobs_salary"]/text()')adress=tree.xpath('//div[@class="list_jobs_box list clearfix"]/ul/li[@class="list_jobs_city"]/text()')for i in range(0,len(job_name)):gw=job_name[i]gs=company[i]gz=gongzi[i]dz=adress[i]ret=re.search(pat,gz)[0]if(ret=="面议"):ret=0#定义sql语句sql="insert into jobs(job_name,company,gongzi,adress) values ('"+gw+"','"+gs+"','"+str(ret)+"','"+dz+"')"curser.execute(sql)conn.commit()#提交数据
conn.close()#关闭数据库连接

代码解析:

导入需要的库

import requests
from lxml import etree   #xpath库
import re
import pymysql

伪装浏览器:

headers={"User-Agent":"Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/68.0.3440.75 Safari/537.36"
}


解析数据:

for p in range(1,147):url="http://www.hrm.cn/jobs?keyType=0&keyWord=&jobTypeId=&jobType=&industry=&industryname=&workId=&workPlace=&salary=&entType=&experience=&education=&entSize=&benefits=&reftime=&workTypeId=&sortField=&pageNo="+str(p)res=requests.get(url=url,headers=headers).text#把获取的html转换成标准的HTML格式tree=etree.HTML(res)job_name=tree.xpath('//div[@class="list_jobs_box list clearfix"]/ul/li[@class="list_jobs_name mouseListen"]/a/span[@class="jobs_name_list_name"]/text()')company=tree.xpath('//div[@class="list_jobs_box list clearfix"]/ul/li[@class="list_com_name"]/a/text()')gongzi=tree.xpath('//div[@class="list_jobs_box list clearfix"]/ul/li[@class="list_jobs_salary"]/text()')adress=tree.xpath('//div[@class="list_jobs_box list clearfix"]/ul/li[@class="list_jobs_city"]/text()')for i in range(0,len(job_name)):gw=job_name[i]gs=company[i]gz=gongzi[i]dz=adress[i]ret=re.search(pat,gz)[0]if(ret=="面议"):ret=0

首先来分析前三页链接的差别

url="http://www.hrm.cn/jobs?keyType=0&keyWord=&jobTypeId=&jobType=&industry=&industryname=&workId=&workPlace=&salary=&entType=&experience=&education=&entSize=&benefits=&reftime=&workTypeId=&sortField=&pageNo="+str(p)

这样就能遍历147页了

解析数据:
其余都是一样的写法。


持久化储存就不说了,在前面专门有关于导入数据库的方法。

新手博主,请前辈批评指正———丁一

爬虫实例6 爬取联英人才网147页招聘信息,并导入数据库相关推荐

  1. Python爬虫实例:爬取 viveport 上 1406 款VR游戏信息

    这次我们准备爬取 HTC VIVE 的VR内容平台--Viveport,上面有 1406 款优质的 VR 游戏/应用,本次我们的目标就是把这些游戏的详细信息爬取下来. 首先我们去该网站看一下(http ...

  2. 2021-02-27爬虫实例(爬取照片)以虎牙为例

    爬虫实例(爬取照片)以虎牙为例 开始之前点赞,投币加关注哦 开发环境:Python3.7 开发软件:PyCharm Edu 第一步:导入第三方库(模块) # 导入第三方库 import request ...

  3. Python爬虫实例: 爬取“最好大学网”大学排名

    实例2 爬取大学排名 上海交通大学设计了一个"最好大学网",上面列出了当前的大学排名.我们要设计爬虫程序,爬取大学排名信息. 爬虫功能要求: 输入:大学排名URL链接 输出:大学排 ...

  4. Python爬虫之路-爬取北、上、广租房信息

    链家网 在实现爬取北.上.广租房信息时,需要使用fake_useragent.asyncio.aiohttp.requests.lxml以及pandas模块. 各模块关键技术如下: 1.fake_us ...

  5. 爬虫小案例-爬取当当网TOP500的图书并将数据存入数据库

    在这里分享一个刚刚学习爬虫时自己做的一个小案例,爬取了当当网TOP500的图书信息,包括图书名称.作者名称和出版社的名称. 1.分析网页 url:http://bang.dangdang.com/bo ...

  6. 初试python爬虫(简单爬取站长之家第一页图片)

    爬取站长之家第一页图片 爬虫 ----需要借助第三方库 requests beautifulsoup4 html5lib 1.模拟浏览器发送请求 并且接收服务器的响应数据 requests 2.解析并 ...

  7. python爬虫实例之爬取智联招聘数据

    这是作者的处女作,轻点喷.... 实习在公司时领导要求学习python,python的爬虫作为入门来说是十分友好的,话不多说,开始进入正题. 主要是爬去智联的岗位信息进行对比分析出java和pytho ...

  8. Python爬虫与信息提取(五)爬虫实例:爬取新浪微博热搜排名

    经过一段时间的Python网络爬虫学习,今天自己摸索制作了一个能够爬取新浪微博实时热搜排名的小爬虫 1.效果: 2.制作过程中遇到的问题: (1)一开始研究微博热搜页面的源代码时忽略了<tbod ...

  9. Python爬虫(前言):有趣的一个爬虫实例(爬取段子,笑话,情感句子)

    这次准备介绍Python爬虫爬取网页数据.解析并应用于实践,打算写几篇文章,从最基础的Python爬虫语法开始介绍爬虫,步步深入,最终实现一个较完整的实例. 这一系列文章包括: request库介绍及 ...

  10. python view函数_Python爬虫实例(二)——爬取新馆疫情每日新增人数

    python是世界上最美的语言. 大家好,我是Henry! 疫情以来,相信大家每天都关注着疫情的实时动态,许多网站上也post了疫情的相关资料. 百香园 百度 各个网站都会统计每日新增,刚学了Matp ...

最新文章

  1. js关于正则的前后关联约束(前后预查)
  2. 【洛谷P3846】【TJOI2007】—可爱的质数(BSGS模板)
  3. python数据分析第七章实训3_《利用Python进行数据分析·第2版》第7章 数据清洗和准备7.1 处理缺失数据7.2 数据转换7.3 字符串操作7.4 总结...
  4. python录入学生信息网_干货满满 | Python趣味编程教学实践
  5. hadoop:could only be replicated to 0 nodes, instead of 1
  6. 删不干净_“我劝你别删前任微信”
  7. UML之用例图(use case)箭头方向
  8. AS 2.0新功能 Instant Run
  9. python获取列表长度方法_python - 在Pandas df列中获取有关列表长度(平均长度,最大长度等)的统计信息的大多数pandas-onic方法 - 堆栈内存溢出...
  10. 波卡生态跨链隐私中间件协议Raze Network与社区DeFi平台MANTRA DAO达成合作
  11. html语言应用规则,html所选标签没有应用CSS规则是什么意 – 手机爱问
  12. 一个开发周期为6个月的中小型软件开发项目成本预算大致表,不足之处请指点...
  13. 基于ARP协议获取局域网内主机MAC地址
  14. NOIP2013 复盘
  15. 离心泵水力设计——0设计参数
  16. 解决Git使用出现git@githubcom Permission denied (publickey)
  17. 命令行实现URL编解码
  18. 计算机图形学--实时光线追踪
  19. 数据透视表的发明历史
  20. 加拿大:国家资助研究项目IRAP已自主研发区块链浏览器

热门文章

  1. android ui机制的学习笔记
  2. SAP 以工序为基准进行发料 机加工行业 Goods Issue to Routing
  3. oracle三个配置文件详叙
  4. [转]使用C#开发一个简单的P2P应用
  5. 面向站长和网站管理员的Web缓存加速指南[翻译]
  6. 14.go build
  7. 11.UNIX 环境高级编程--线程
  8. 1. Composer 简介
  9. QAliber - 介绍一款开源的GUI自动化测试工具
  10. maven中引用JDK中的tools jar