python爬取智联招聘网_python爬取智联招聘工作岗位信息
1 # coding:utf-8
2 # auth:xiaomozi
3 #date:2018.4.19
4 #爬取智联招聘职位信息
5
6
7 import urllib
8 from lxml import etree
9 import time
10 import random
11 import pdb
12
13 def downloader(kw,pages):
14 '''下载器
15 :param kw: 搜索关键字
16 :param pages: 搜索的页码,数组
17 :return: 返回爬取到的HTML集合
18 '''
19 for page in pages:
20 print("the {}page is downloading".format(page))
21 infourl = 'https://sou.zhaopin.com/jobs/searchresult.ashx?jl=%E6%B7%B1%E5%9C%B3&kw={}&sm=0&p={}'.format(kw, str(page))
22 time.sleep(random.uniform(0.5, 2.1))
23 info = urllib.urlopen(infourl).read()
24 yield info
25
26 def extractor(html):
27 '''
28 提取工作岗位信息,返回一个yield
29 :param html: html字符串
30 :return: 生成器
31 '''
32 et=etree.HTML(html)
33 tablerows = et.xpath('//div[@class="newlist_list_content"]/table[@class="newlist"]/tr[1]')
34 item = {}
35 for tr in tablerows:
36 tr = etree.HTML(etree.tostring(tr))
37 item['job'] = tr.xpath('//td[@class="zwmc"]//a[1]/text()')
38 item['com_name'] = tr.xpath('//td[@class="gsmc"]/a[1]/text()')
39 item['salary'] = tr.xpath('//td[@class="zwyx"]/text()')
40 item['address'] = tr.xpath('//td[@class="gzdd"]/text()')
41 yield item
42
43 def saveInfo(items):
44 '''
45 保存到本地或打印到控制台
46 :param items: 工资岗位信息,类型为生成器
47 :return: 返回处理结果状态
48 '''
49 for i in items:
50 print(i)
51 return('finished')
52
53 #调用
54 infohtmls= downloader(kw='GIS',pages=range(1,5))
55 for html in infohtmls:
56 myitems=extractor(html)
57 saveInfo(myitems)
执行结果截图如下:爬取到了满满的3页哦。
版权所有,请多指教 >_*
如您对本文有疑问或者有任何想说的,请点击进行留言回复,万千网友为您解惑!
python爬取智联招聘网_python爬取智联招聘工作岗位信息相关推荐
- python爬去智联招聘网_Python爬虫爬取智联招聘(进阶版)
点击上方"程序人生",选择"置顶公众号" 第一时间关注程序猿(媛)身边的故事 图片:Westworld Season 2 作者 王强 简介 Python追随者, ...
- python抓取招聘数据_Python爬取招聘网站数据并做数据可视化处理
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于青灯编程 ,作者:清风 前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有 ...
- python爬取淘宝商品信息_python爬取淘宝商品信息并加入购物车
先说一下最终要达到的效果:谷歌浏览器登陆淘宝后,运行python项目,将任意任意淘宝商品的链接传入,并手动选择商品属性,输出其价格与剩余库存,然后选择购买数,自动加入购物车. 在开始爬取淘宝链接之前, ...
- python可以爬取的内容有什么_Python爬取视频(其实是一篇福利)过程解析 Python爬虫可以爬取什么...
如何用python爬取视频网站的数据 如何用python爬取js渲染加载的视频文件不是每个人都有资格说喜欢,也不是每个人都能选择伴你一生! 有哪位大神指导下,有些视频网站上的视频文件是通过 js 加载 ...
- Python爬虫实战三 | 蓝奏网盘抓取网盘链接信息
今天在使用蓝奏网盘的时候发现有一个文件夹加密分享,然后我就尝试了加密文件夹,但是文件夹下的文件还是可以直接通过访问该文件链接得到,所以对于文件夹加密是否显得有点鸡肋了呐? 如此,我们便简单的使用Pyt ...
- python爬取千图网_python爬取lol官网英雄图片代码
python爬取lol官网英雄图片代码可以帮助用户对英雄联盟官网平台的皮肤图片进行抓取,有很多喜欢lol的玩家们想要官方的英雄图片当作自己的背景或者头像,可以使用这款软件为你爬取图片资源,操作很简单, ...
- python爬取招聘信息_python 爬取boss直聘招聘信息实现
原标题:python 爬取boss直聘招聘信息实现 1.一些公共方法的准备 获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求 ...
- python爬取boss直聘招聘信息_Python 爬取boss直聘招聘信息!
原标题:Python 爬取boss直聘招聘信息! 1.一些公共方法的准备 获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求, ...
- [python爬虫]selenium模拟登录京东招聘网,爬取研发类,数据清洗,数据存储,终数据分析和可视化
目录 引入包 模拟登陆京东网 利用XPath对网页源代码进行解析 数据清洗 每页数据以追加形式保存至csv文件 保存数据到MongoDB数据库,参数为字典组成的列表 数据分析与可视化 总函数 引入包 ...
最新文章
- 能写出HTML语言框架结构,HTML语言—框架最新.ppt
- Mysql 分页语句Limit用法
- PP部分主数据导出SQVI设置
- spring事务管理-Transaction模板(了解)
- 控制台 - 网络管理之华为交换机 S系列端口限速
- asp.net core监控—引入Prometheus(二)
- LeetCode 375. 猜数字大小 II
- nginx+lua+redis deny ip
- IOS工作笔记002---windows给VmWare虚拟机OS系统安装VMTools
- 如何使用sp_send_dbmail存储过程将SQL查询结果通过电子邮件发送到智能手机
- python百万并发压测_100W高并发(转载) - 橙子柠檬's Blog
- python图像切面numpy_NumPy做图像处理不香吗?我用Python把秋日里最美的景色做成了这种效果~...
- Java学习系列(十九)Java面向对象之数据库编程
- libcurl 发送邮件_libcurl smtp发送邮件附件大小限制问题
- 如何实现伸缩 (折叠) 报表?
- java设计模式,百度网盘
- 计算机中华五岳说课稿,关于说课稿集合6篇
- 联想笔记本卸载McAfee
- 使用nslookup查看邮箱信息
- Unix-Center.Net需要你的帮助
热门文章
- java计算机毕业设计springboot+vue学生宿舍管理系统
- mysql备份与还原心得体会_MySQL数据恢复心得体会
- 达梦数据库安装方法以及注意事项
- SQL Server 使用DATEADD()函数实现秒、分钟、小时、日、周、月份、季度、年份加减
- 自律是一种虚伪的力量,成就感才是真实的力量
- oracle异构迁移mysql方案实施(含原理)——已迁移成功
- ps3slim安装linux,PS3 Slim配置详解 新旧款真机对比
- antd table分页,关于react的antd表格分页的问题
- 一座适合躺尸的低房价、慢节奏小城
- java点击按钮发出声音_java – 按下按钮时播放声音-android