之前求职 数据分析师岗位 爬取的boss直聘代码 分享给大家

将爬取的数据直接存在mysql数据库中 以便后续分析

import requests
from lxml import etree
import pandas as pd
from sqlalchemy import create_engine
import pymysql
import time
import sysdef get_data(res):html = etree.HTML(res)job_primary = html.xpath('//div[@class="job-primary"]//div[@class="job-title"]/text()')company_name = html.xpath('//div[@class="job-primary"]//div[@class="company-text"]//a/text()')hr = html.xpath('//div[@class="job-primary"]//div[@class="info-publis"]/h3/text()')publish_time = html.xpath('//div[@class="job-primary"]//div[@class="info-publis"]/p/text()')job_type = html.xpath('//div[@class="job-primary"]//div[@class="company-text"]/p/text()')city = html.xpath('//div[@class="job-primary"]//div[@class="info-primary"]/p/text()[1]')ex = html.xpath('//div[@class="job-primary"]//div[@class="info-primary"]/p/text()[2]')recode = html.xpath('//div[@class="job-primary"]//div[@class="info-primary"]/p/text()[last()]')hr_name = hr[::2]hr_jobtype = hr[1::2]job1 = html.xpath('//div[@class="job-primary"]//div[@class="company-text"]/p/text()[1]')# job2 = html.xpath('//div[@class="job-primary"]//div[@class="company-text"]/p/text()[2]')job2 = html.xpath('//div[@class="job-primary"]//div[@class="company-text"]/p/text()[last()]')boss_info = {}boss_info['job_primary'] = job_primaryboss_info['company_name'] = company_nameboss_info['hr_name'] = hr_nameboss_info['hr_jobtype'] = hr_jobtypeboss_info['ex'] = exboss_info['recode'] = recodeboss_info['city'] = cityboss_info['job1'] = job1boss_info['job2'] = job2boss_info['publish_time'] = publish_timedf_boss = pd.DataFrame(boss_info)if len(df_boss) < 0:print('已退出,数据长度为'+ str(len(df_boss)))sys.exit()df_boss.to_sql('boss_info', engine, if_exists='append', index=False)engine = create_engine('mysql+pymysql://root:password@ip/databasename',encoding='utf8')url = 'https://www.zhipin.com/job_detail/?query=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&city=101020100&industry=&position='headers = {}
headers['path'] = '/job_detail/?query=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&city=101020100&industry=&position=100199'
headers['referer'] = 'https://www.zhipin.com/c101020100-p100199/?ka=search_100199'
headers['user-agent'] = 'Mozilla/5.0 (Macintosh; Intel Mac OS X 10_14_5) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'
headers['accept'] = 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3'
headers['authority'] = 'www.zhipin.com'ck ={}
ck['cookie'] = '这里填写您自己的cookies'
res = requests.get(url,cookies=ck,headers=headers)
res = res.textget_data(res)page = 2while(page<10):url = 'https://www.zhipin.com/c101020100/?query=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&page='+str(page)+'&ka=page-'+str(page)res = requests.get(url,cookies=ck,headers=headers)res = res.textget_data(res)page += 1print('即将抓取第'+str(page)+'页》》》》》》》》》》》》》》》》\n')time.sleep(5)

python boss直聘爬取2019-09相关推荐

  1. 爬虫系列---scrapy post请求、框架组件和下载中间件+boss直聘爬取

    一 Post 请求 在爬虫文件中重写父类的start_requests(self)方法 父类方法源码(Request): def start_requests(self):for url in sel ...

  2. boss直聘python_爬Boss直聘,分析2019下半年Python工作现状

    引子 要说在当今的编程圈,找10位程序猿询问下当前世界上最好的语言是哪个,那必须是 PHP(强迫症)!但是如果你询问当今最火爆的语言是哪个,那么80%的小伙伴儿会毫不犹豫的告诉你,是 Python! ...

  3. 2020最新BOOS直聘爬取保姆式教程,你值得拥有!

    前言 来到BOOS直聘 搜索python 打开控制台,查看请求发现,页面数据不是动态加载 所以直接复制当前页面链接进行爬取,经过多次的爬取之后 ....... 失策失策,以前爬取别的网站从没有这么严格 ...

  4. python:使用selenium爬取51job(前程无忧)并将爬取数据存储到MySql数据库中的代码实例

    自己捣鼓了几天写的代码,基本上把51job的岗位相关的数据都爬下来了,可以视要求自行增减,代码虽然有些简陋,不过我爬取的时候没报什么错.代码适合初学者学习使用,废话不多说,代码如下: from sel ...

  5. Python爬取Boss直聘,帮你获取全国各类职业薪酬榜

    今天想和大家聊聊Python与爬虫 python之所以能迅速风靡全国,和大街小巷各种的培训机构脱不开关系. 一会pythonAI未来以来,一会儿4个月培养人工智能与机器学习顶尖人才,更有甚者什么一周成 ...

  6. Python爬取Boss直聘,获取全国Python薪酬榜

    深感抱歉 本来这篇文章应该是在昨天发的,可是电脑出了问题蓝屏了.晚上回来重装了系统,结果还是搞到了现在. 今天想和大家聊聊Python与爬虫 python之所以能迅速风靡全国,和大街小巷各种的培训机构 ...

  7. 杭州python爬虫招聘_python爬取招聘网站(智联,拉钩,Boss直聘)

    刚好最近有这需求,动手写了几个 就贴上代码算了 1.智联 将结果保存为python的一个数据框中 import requests from requests.exceptions import Req ...

  8. python爬取招聘信息_python 爬取boss直聘招聘信息实现

    原标题:python 爬取boss直聘招聘信息实现 1.一些公共方法的准备 获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求 ...

  9. python爬取boss直聘招聘信息_Python 爬取boss直聘招聘信息!

    原标题:Python 爬取boss直聘招聘信息! 1.一些公共方法的准备 获取数据库链接: importpymysql ''' 遇到不懂的问题?Python学习交流群:821460695满足你的需求, ...

最新文章

  1. 微信小程序import和include
  2. C语言的32个关键字
  3. MySQL导入导出数据和结构
  4. Discuz代码分析——index.php
  5. pytorch.forward()方法
  6. Promise从入门到精通
  7. 新建表维护程序SM30
  8. 实习第二弹——交换机的配置与统计
  9. Win10网卡驱动异常代码56的问题
  10. unpack python_python数据处理之 ddt,@data, @unpack
  11. MathType 运行时错误‘53’:文件未找到:MathPage.WLL
  12. 某音热门---图片转字符SpringBoot版
  13. Java面试——消息队列
  14. 老扎克伯格的四位儿女全是人生赢家,到底是怎么教的?
  15. 给学妹写C程——中国海洋大学C语言程序设计课作业(一)
  16. [转]量子力学与心灵的探讨_我是亲民_新浪博客
  17. Arduino KY-024线性磁力霍尔传感器
  18. HyperloopTT将在中国打造首个Hyperloop超级高铁系统
  19. matlab等高图填色,[转载]matlab学习——area填色图
  20. 如何查看Adobe illustrator链接了哪里的资源,查看文件路径

热门文章

  1. jquery.flexslider-min.js实现banner轮播图效果
  2. 聚甲基丙烯酸甲酯(PMMA)微球PMMA Beads
  3. python下载英雄联盟皮肤
  4. EasyDarwin框架学习记录
  5. 疫情之后,企业经营模式将发生重大变化
  6. 第三方(网页/小程序)唤醒微信app小结
  7. Linux学习-条件执行
  8. tenable公司B轮融资
  9. 初玩ADS-B接收——Dump1090
  10. 【亚马逊】一个公司股票背后本质的价值,是它能产生的自由现金流