python爬取智联招聘网_Python-爬取智联招聘

import urllib.request

import urllib.parse

from bs4 import BeautifulSoup

import json

import time

class ZhiLianSpider(object):

#url中不变的内容，要和参数进行拼接组成完整的url#

url='http://sou.zhaopin.com/jobs/searchresult.ashx?'

def init(self,jl,kw,start_page,end_page):

#将上面的参数都保存为自己的成员属性#

self.jl=jl

self.kw=kw

self.start_page=start_page

self.end_page=end_page

#定义一个空列表，用来存放所有的工作信息#

self.items=[]

#根据page拼接指定的url，然后生成请求对象#

def handle_request(self,page):

data={

'jl':self.jl,

'kw':self.kw,

'p':page

}

url_now=self.url+urllib.parse.urlencode(data)#拼接get参数

print(url_now)

#构建请求对象#

headers={

"User-Agnet":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_13_6) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"

}

request=urllib.request.Request(url=url_now,headers=headers)

return request

#解析内容函数#

def parse_content(self,content):

#生成对象#

soup=BeautifulSoup(content,'lxml')

#思路：先找到所有的table，因为一个工作岗位就是一个table，遍历这个table的列表，然后通过table对象的select、find方法去找每一条记录的具体信息#

table_list=soup.select('#newlist_list_content_table>table')[1:]

#遍历这个table_list,依次获取每一个数据#

print(table_list)

print(len(table_list))

for table in table_list:

#获取职位名称#

zwmc=table.select('.zwmc > div > a')[0].text

print(zwmc)#选择器返回是一个列表，需要通过下标访问 #

#获取公司名称#

gsmc=table.select('.gsmc > a')[0].text

#获取职位月薪#

zwyx=table.select('.zwyx')[0].text

#获取工作地点#

gzdd=table.select('.gzdd')[0].text

#获取发布时间#

gxsj=table.select('.gxsj > span')[0].text

#存放到字典中#

item={

'职位名称':zwmc,

'公司名称':gsmc,

'职位月薪':zwyx,

'工作地点':gzdd,

'更新时间':gxsj,

}

#再存放到列表中#

self.items.append(item)

#爬取程序#

def run(self):

#循环爬取每一页#

for page in range(self.start_page,self.end_page+1):

print('开始爬取第%s页'%page)

request=self.handle_request(page)

#发送请求，获取内容#

content=urllib.request.urlopen(request).read().decode()

#解析内容#

self.parse_content(content)

print('结束爬取第%s页'%page)

time.sleep(2)

#将列表数据保存在文件中#

string=json.dumps(self.items,ensure_ascii=False) #将字典形式的数据转化成字符串,想要输出中文需要指定ensure_ascii=False#

with open(r'/Users/marine/Desktop/python/zhilian.txt','w',encoding='utf8')as fp:

fp.write(string)

def main():

jl=input('请输入工作地点：')

kw=input('请输入工作关键字：')

start_page=int(input('请输入起始页码：'))

end_page=int(input('请输入结束页码：'))

#创建对象，启动爬取程序#

spider=ZhiLianSpider(jl,kw,start_page,end_page)

spider.run()

if name=='main':

main()

python爬取智联招聘网_Python-爬取智联招聘相关推荐

python爬取智联招聘网_python爬取智联招聘工作岗位信息
1 # coding:utf-8 2 # auth:xiaomozi 3 #date:2018.4.19 4 #爬取智联招聘职位信息 5 6 7 import urllib 8 from lxml i ...
python抓取招聘数据_Python爬取招聘网站数据并做数据可视化处理
本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于青灯编程 ,作者:清风前言本文的文字及图片来源于网络,仅供学习.交流使用,不具有 ...
python爬取淘宝商品信息_python爬取淘宝商品信息并加入购物车
先说一下最终要达到的效果:谷歌浏览器登陆淘宝后,运行python项目,将任意任意淘宝商品的链接传入,并手动选择商品属性,输出其价格与剩余库存,然后选择购买数,自动加入购物车. 在开始爬取淘宝链接之前, ...
python可以爬取的内容有什么_Python爬取视频(其实是一篇福利)过程解析 Python爬虫可以爬取什么...
如何用python爬取视频网站的数据如何用python爬取js渲染加载的视频文件不是每个人都有资格说喜欢,也不是每个人都能选择伴你一生! 有哪位大神指导下,有些视频网站上的视频文件是通过 js 加载 ...
Python爬虫实战三 | 蓝奏网盘抓取网盘链接信息
今天在使用蓝奏网盘的时候发现有一个文件夹加密分享,然后我就尝试了加密文件夹,但是文件夹下的文件还是可以直接通过访问该文件链接得到,所以对于文件夹加密是否显得有点鸡肋了呐? 如此,我们便简单的使用Pyt ...
python爬去智联招聘网_Python爬虫爬取智联招聘（进阶版）
点击上方"程序人生",选择"置顶公众号" 第一时间关注程序猿(媛)身边的故事图片:Westworld Season 2 作者王强简介 Python追随者, ...
python爬取千图网_python爬取lol官网英雄图片代码
python爬取lol官网英雄图片代码可以帮助用户对英雄联盟官网平台的皮肤图片进行抓取,有很多喜欢lol的玩家们想要官方的英雄图片当作自己的背景或者头像,可以使用这款软件为你爬取图片资源,操作很简单, ...
python爬取招聘信息_python 爬取boss直聘招聘信息实现
原标题:python 爬取boss直聘招聘信息实现 1.一些公共方法的准备获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求 ...
python爬取boss直聘招聘信息_Python 爬取boss直聘招聘信息！
原标题:Python 爬取boss直聘招聘信息! 1.一些公共方法的准备获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求, ...
[python爬虫]selenium模拟登录京东招聘网，爬取研发类，数据清洗，数据存储，终数据分析和可视化
目录引入包模拟登陆京东网利用XPath对网页源代码进行解析数据清洗每页数据以追加形式保存至csv文件保存数据到MongoDB数据库,参数为字典组成的列表数据分析与可视化总函数引入包 ...

python爬取智联招聘网_Python-爬取智联招聘

python爬取智联招聘网_Python-爬取智联招聘相关推荐

最新文章

热门文章