python boss直聘爬取2019-09

之前求职数据分析师岗位爬取的boss直聘代码分享给大家

将爬取的数据直接存在mysql数据库中以便后续分析

import requests
from lxml import etree
import pandas as pd
from sqlalchemy import create_engine
import pymysql
import time
import sysdef get_data(res):html = etree.HTML(res)job_primary = html.xpath('//div[@class="job-primary"]//div[@class="job-title"]/text()')company_name = html.xpath('//div[@class="job-primary"]//div[@class="company-text"]//a/text()')hr = html.xpath('//div[@class="job-primary"]//div[@class="info-publis"]/h3/text()')publish_time = html.xpath('//div[@class="job-primary"]//div[@class="info-publis"]/p/text()')job_type = html.xpath('//div[@class="job-primary"]//div[@class="company-text"]/p/text()')city = html.xpath('//div[@class="job-primary"]//div[@class="info-primary"]/p/text()[1]')ex = html.xpath('//div[@class="job-primary"]//div[@class="info-primary"]/p/text()[2]')recode = html.xpath('//div[@class="job-primary"]//div[@class="info-primary"]/p/text()[last()]')hr_name = hr[::2]hr_jobtype = hr[1::2]job1 = html.xpath('//div[@class="job-primary"]//div[@class="company-text"]/p/text()[1]')# job2 = html.xpath('//div[@class="job-primary"]//div[@class="company-text"]/p/text()[2]')job2 = html.xpath('//div[@class="job-primary"]//div[@class="company-text"]/p/text()[last()]')boss_info = {}boss_info['job_primary'] = job_primaryboss_info['company_name'] = company_nameboss_info['hr_name'] = hr_nameboss_info['hr_jobtype'] = hr_jobtypeboss_info['ex'] = exboss_info['recode'] = recodeboss_info['city'] = cityboss_info['job1'] = job1boss_info['job2'] = job2boss_info['publish_time'] = publish_timedf_boss = pd.DataFrame(boss_info)if len(df_boss) < 0:print('已退出，数据长度为'+ str(len(df_boss)))sys.exit()df_boss.to_sql('boss_info', engine, if_exists='append', index=False)engine = create_engine('mysql+pymysql://root:password@ip/databasename',encoding='utf8')url = 'https://www.zhipin.com/job_detail/?query=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&city=101020100&industry=&position='headers = {}
headers['path'] = '/job_detail/?query=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&city=101020100&industry=&position=100199'
headers['referer'] = 'https://www.zhipin.com/c101020100-p100199/?ka=search_100199'
headers['user-agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
headers['accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3'
headers['authority'] = 'www.zhipin.com'ck ={}
ck['cookie'] = '这里填写您自己的cookies'
res = requests.get(url,cookies=ck,headers=headers)
res = res.textget_data(res)page = 2while(page<10):url = 'https://www.zhipin.com/c101020100/?query=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&page='+str(page)+'&ka=page-'+str(page)res = requests.get(url,cookies=ck,headers=headers)res = res.textget_data(res)page += 1print('即将抓取第'+str(page)+'页》》》》》》》》》》》》》》》》\n')time.sleep(5)

python boss直聘爬取2019-09相关推荐

爬虫系列---scrapy post请求、框架组件和下载中间件+boss直聘爬取
一 Post 请求在爬虫文件中重写父类的start_requests(self)方法父类方法源码(Request): def start_requests(self):for url in sel ...
boss直聘python_爬Boss直聘，分析2019下半年Python工作现状
引子要说在当今的编程圈,找10位程序猿询问下当前世界上最好的语言是哪个,那必须是 PHP(强迫症)!但是如果你询问当今最火爆的语言是哪个,那么80%的小伙伴儿会毫不犹豫的告诉你,是 Python! ...
2020最新BOOS直聘爬取保姆式教程，你值得拥有！
前言来到BOOS直聘搜索python 打开控制台,查看请求发现,页面数据不是动态加载所以直接复制当前页面链接进行爬取,经过多次的爬取之后 ....... 失策失策,以前爬取别的网站从没有这么严格 ...
python：使用selenium爬取51job（前程无忧）并将爬取数据存储到MySql数据库中的代码实例
自己捣鼓了几天写的代码,基本上把51job的岗位相关的数据都爬下来了,可以视要求自行增减,代码虽然有些简陋,不过我爬取的时候没报什么错.代码适合初学者学习使用,废话不多说,代码如下: from sel ...
Python爬取Boss直聘，帮你获取全国各类职业薪酬榜
今天想和大家聊聊Python与爬虫 python之所以能迅速风靡全国,和大街小巷各种的培训机构脱不开关系. 一会pythonAI未来以来,一会儿4个月培养人工智能与机器学习顶尖人才,更有甚者什么一周成 ...
Python爬取Boss直聘，获取全国Python薪酬榜
深感抱歉本来这篇文章应该是在昨天发的,可是电脑出了问题蓝屏了.晚上回来重装了系统,结果还是搞到了现在. 今天想和大家聊聊Python与爬虫 python之所以能迅速风靡全国,和大街小巷各种的培训机构 ...
杭州python爬虫招聘_python爬取招聘网站（智联，拉钩，Boss直聘）
刚好最近有这需求,动手写了几个就贴上代码算了 1.智联将结果保存为python的一个数据框中 import requests from requests.exceptions import Req ...
python爬取招聘信息_python 爬取boss直聘招聘信息实现
原标题:python 爬取boss直聘招聘信息实现 1.一些公共方法的准备获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求 ...
python爬取boss直聘招聘信息_Python 爬取boss直聘招聘信息！
原标题:Python 爬取boss直聘招聘信息! 1.一些公共方法的准备获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求, ...

python boss直聘爬取2019-09

python boss直聘爬取2019-09相关推荐

最新文章

热门文章