python boss直聘爬取2019-09
之前求职 数据分析师岗位 爬取的boss直聘代码 分享给大家
将爬取的数据直接存在mysql数据库中 以便后续分析
import requests
from lxml import etree
import pandas as pd
from sqlalchemy import create_engine
import pymysql
import time
import sysdef get_data(res):html = etree.HTML(res)job_primary = html.xpath('//div[@class="job-primary"]//div[@class="job-title"]/text()')company_name = html.xpath('//div[@class="job-primary"]//div[@class="company-text"]//a/text()')hr = html.xpath('//div[@class="job-primary"]//div[@class="info-publis"]/h3/text()')publish_time = html.xpath('//div[@class="job-primary"]//div[@class="info-publis"]/p/text()')job_type = html.xpath('//div[@class="job-primary"]//div[@class="company-text"]/p/text()')city = html.xpath('//div[@class="job-primary"]//div[@class="info-primary"]/p/text()[1]')ex = html.xpath('//div[@class="job-primary"]//div[@class="info-primary"]/p/text()[2]')recode = html.xpath('//div[@class="job-primary"]//div[@class="info-primary"]/p/text()[last()]')hr_name = hr[::2]hr_jobtype = hr[1::2]job1 = html.xpath('//div[@class="job-primary"]//div[@class="company-text"]/p/text()[1]')# job2 = html.xpath('//div[@class="job-primary"]//div[@class="company-text"]/p/text()[2]')job2 = html.xpath('//div[@class="job-primary"]//div[@class="company-text"]/p/text()[last()]')boss_info = {}boss_info['job_primary'] = job_primaryboss_info['company_name'] = company_nameboss_info['hr_name'] = hr_nameboss_info['hr_jobtype'] = hr_jobtypeboss_info['ex'] = exboss_info['recode'] = recodeboss_info['city'] = cityboss_info['job1'] = job1boss_info['job2'] = job2boss_info['publish_time'] = publish_timedf_boss = pd.DataFrame(boss_info)if len(df_boss) < 0:print('已退出,数据长度为'+ str(len(df_boss)))sys.exit()df_boss.to_sql('boss_info', engine, if_exists='append', index=False)engine = create_engine('mysql+pymysql://root:password@ip/databasename',encoding='utf8')url = 'https://www.zhipin.com/job_detail/?query=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&city=101020100&industry=&position='headers = {}
headers['path'] = '/job_detail/?query=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&city=101020100&industry=&position=100199'
headers['referer'] = 'https://www.zhipin.com/c101020100-p100199/?ka=search_100199'
headers['user-agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
headers['accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3'
headers['authority'] = 'www.zhipin.com'ck ={}
ck['cookie'] = '这里填写您自己的cookies'
res = requests.get(url,cookies=ck,headers=headers)
res = res.textget_data(res)page = 2while(page<10):url = 'https://www.zhipin.com/c101020100/?query=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&page='+str(page)+'&ka=page-'+str(page)res = requests.get(url,cookies=ck,headers=headers)res = res.textget_data(res)page += 1print('即将抓取第'+str(page)+'页》》》》》》》》》》》》》》》》\n')time.sleep(5)
python boss直聘爬取2019-09相关推荐
- 爬虫系列---scrapy post请求、框架组件和下载中间件+boss直聘爬取
一 Post 请求 在爬虫文件中重写父类的start_requests(self)方法 父类方法源码(Request): def start_requests(self):for url in sel ...
- boss直聘python_爬Boss直聘,分析2019下半年Python工作现状
引子 要说在当今的编程圈,找10位程序猿询问下当前世界上最好的语言是哪个,那必须是 PHP(强迫症)!但是如果你询问当今最火爆的语言是哪个,那么80%的小伙伴儿会毫不犹豫的告诉你,是 Python! ...
- 2020最新BOOS直聘爬取保姆式教程,你值得拥有!
前言 来到BOOS直聘 搜索python 打开控制台,查看请求发现,页面数据不是动态加载 所以直接复制当前页面链接进行爬取,经过多次的爬取之后 ....... 失策失策,以前爬取别的网站从没有这么严格 ...
- python:使用selenium爬取51job(前程无忧)并将爬取数据存储到MySql数据库中的代码实例
自己捣鼓了几天写的代码,基本上把51job的岗位相关的数据都爬下来了,可以视要求自行增减,代码虽然有些简陋,不过我爬取的时候没报什么错.代码适合初学者学习使用,废话不多说,代码如下: from sel ...
- Python爬取Boss直聘,帮你获取全国各类职业薪酬榜
今天想和大家聊聊Python与爬虫 python之所以能迅速风靡全国,和大街小巷各种的培训机构脱不开关系. 一会pythonAI未来以来,一会儿4个月培养人工智能与机器学习顶尖人才,更有甚者什么一周成 ...
- Python爬取Boss直聘,获取全国Python薪酬榜
深感抱歉 本来这篇文章应该是在昨天发的,可是电脑出了问题蓝屏了.晚上回来重装了系统,结果还是搞到了现在. 今天想和大家聊聊Python与爬虫 python之所以能迅速风靡全国,和大街小巷各种的培训机构 ...
- 杭州python爬虫招聘_python爬取招聘网站(智联,拉钩,Boss直聘)
刚好最近有这需求,动手写了几个 就贴上代码算了 1.智联 将结果保存为python的一个数据框中 import requests from requests.exceptions import Req ...
- python爬取招聘信息_python 爬取boss直聘招聘信息实现
原标题:python 爬取boss直聘招聘信息实现 1.一些公共方法的准备 获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求 ...
- python爬取boss直聘招聘信息_Python 爬取boss直聘招聘信息!
原标题:Python 爬取boss直聘招聘信息! 1.一些公共方法的准备 获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求, ...
最新文章
- 微信小程序import和include
- C语言的32个关键字
- MySQL导入导出数据和结构
- Discuz代码分析——index.php
- pytorch.forward()方法
- Promise从入门到精通
- 新建表维护程序SM30
- 实习第二弹——交换机的配置与统计
- Win10网卡驱动异常代码56的问题
- unpack python_python数据处理之 ddt,@data, @unpack
- MathType 运行时错误‘53’:文件未找到:MathPage.WLL
- 某音热门---图片转字符SpringBoot版
- Java面试——消息队列
- 老扎克伯格的四位儿女全是人生赢家,到底是怎么教的?
- 给学妹写C程——中国海洋大学C语言程序设计课作业(一)
- [转]量子力学与心灵的探讨_我是亲民_新浪博客
- Arduino KY-024线性磁力霍尔传感器
- HyperloopTT将在中国打造首个Hyperloop超级高铁系统
- matlab等高图填色,[转载]matlab学习——area填色图
- 如何查看Adobe illustrator链接了哪里的资源,查看文件路径