实习僧——数据分析岗招聘信息爬取源代码

利用scrapy爬取实习僧网站中数据分析实习岗的所有招聘信息

scrapy框架中的spider代码

import scrapy
from shixiseng.items import ShixisengItem
from bs4 import BeautifulSoup# 实习僧存在字体反爬，需要进行转换
def replace_response(response):replace_dict = {'&#xe9da': '0','&#xed48': '1','&#xe0cb': '2','&#xe994': '3','&#xe4a0': '4','&#xf7bf': '5','&#xe3df': '6','&#xf81d': '7','&#xeb00': '8','&#xe622': '9'}text = response.textfor key, value in replace_dict.items():text = text.replace(key, value)soup = BeautifulSoup(text)return soupclass shixisengspider(scrapy.Spider):name = 'shixiseng' # 爬虫名称allowed_domains = ['shixiseng.com'] # 允许的域名start_urls = ['https://www.shixiseng.com/interns?page={}&keyword=%E6%95%B0%E6%8D%AE%E5%88%86%E6%9E%90&type=intern&area=&months=&days=&degree=&official=&enterprise=&salary=-0&publishTime=&sortType=&city=%E5%85%A8%E5%9B%BD&internExtend='.format(i) for i in range(1,24)]def parse(self,response):# 字体转换soup = replace_response(response)# 岗位列表页信息爬取 jobs = soup.select('div.intern-wrap') for i in jobs:job_url = i.div.div.p.a.get('href')com_name = i.div.find_all('div')[1].p.a.textcom_type = i.div.find_all('div')[1].find_all('p')[1].span.textcom_size = i.div.find_all('div')[1].find_all('p')[1].find_all('span')[2].textitem = ShixisengItem(job_url=job_url,com_name=com_name,com_type=com_type,com_size=com_size)request = scrapy.Request(url=job_url,callback=self.parse_body)request.meta['item'] = itemyield request# 岗位详情页信息爬取def parse_body(self,response):item = response.meta['item']soup = replace_response(response)job_name = soup.select('.new_job_name')[0].get('title')job_money = soup.select('.job_money')[0].textjob_position = soup.select('.job_position')[0].get('title')job_academic = soup.select('.job_academic')[0].textjob_week = soup.select('.job_week')[0].textjob_month = soup.find_all('span',class_='job_time')[0].textjob_good_list = [i.string for i in soup.select('.job_good_list > span')]job_detail = soup.select('div.job_detail:nth-child(1)')[0].text.replace('\n\n','\n').replace('\t','')com_position = soup.select('.com_position')[0].textitem['job_name'] = job_nameitem['job_money'] = job_moneyitem['job_position'] = job_positionitem['job_academic'] = job_academicitem['job_week'] = job_weekitem['job_month'] = job_monthitem['job_good_list'] = job_good_listitem['job_detail'] = job_detailitem['com_position'] = com_positionyield item

实习僧——数据分析岗招聘信息爬取源代码相关推荐

实习僧——数据分析岗招聘信息分析源代码
爬取实习僧网站所有数据分析实习相关的岗位信息,对其做数据分析 import pandas as pd import matplotlib.pyplot as plt import seaborn as ...
【2020-10-27】 scrapy爬虫之猎聘招聘信息爬取
声明:本文只作学习研究,禁止用于非法用途,否则后果自负,如有侵权,请告知删除,谢谢! scrapy爬虫之猎聘招聘信息爬取 1.项目场景目标网址:https://www.liepin.com/zhao ...
python拉勾网招聘信息爬取（单线程，最新）
一.任务描述爬取拉勾网发布的关于"会计"岗位的招聘信息,通过查询相关文章发现,普遍都是使用单线程对网站信息进行爬取,且拉勾网经过多次维护更新,对简单的爬取代码有反爬虫机制,例如不 ...
前程无忧招聘信息爬取
爬取前程无忧招聘信息本文是关于招聘数据爬取,我们选取的网站是前程无忧. 百度直接搜索前程无忧,或者51job.我们将看到搜索栏,在搜索栏中输入"数据分析师"将可以看到工作信息. ...
某招聘网站“数据分析”相关岗位招聘信息爬取并分析
确定目标简单分析数据分析相关岗位的薪酬状况及技能要求: 尝试数据分析从数据获取到数据分析报告撰写的整个数据分析流程,学习爬虫.数据清洗.数据分析相关技巧. 数据获取获取的岗位数据来源于某招聘网站, ...
Scrapy项目 - 数据简析 - 实现腾讯网站社会招聘信息爬取的爬虫设计
一.数据分析截图本例实验,使用Weka 3.7对腾讯招聘官网中网页上所罗列的招聘信息,如:其中的职位名称.链接.职位类别.人数.地点和发布时间等信息进行数据分析,详见如下图: 图1-1 Weka 3 ...
拉钩招聘信息爬取以及可视化
本篇文章主要向读者介绍如何爬取像lagou这样具有反爬虫网站上面的招聘信息,以及对于以获取的数据进行可视化处理,如果,我们对于获取的数据不进行可视化处理,那我们获取到的数据就没有发挥它应有的作用.对于 ...
腾讯招聘信息爬取案例
前段时间看了了scrapy,有一个案例是爬取腾讯招聘信息的,当时看了腾讯网站,已经更新换代了,于是自己看了看,写下一个实际可行的demo 首先是观察腾讯招聘首页不在页面element内,但是依旧很容易 ...
区块链招聘信息爬取与分析
最近在研究区块链,闲来无事抓取了拉勾网上450条区块链相关的招聘信息.过程及结果如下. 拉勾网爬取首先是从拉勾网爬取数据,用的requests库.拉勾网的反爬虫做的还是比较好的,毕竟自己也知道这种做 ...
Boss直聘招聘信息爬取
利用selenium进行爬取,数据为CSV文件编写时间:2020年03月16日(若爬取失败,应该是网站更新造成的.) from selenium import webdriver from sele ...

实习僧——数据分析岗招聘信息爬取源代码

实习僧——数据分析岗招聘信息爬取源代码相关推荐

最新文章

热门文章

实习僧——数据分析岗招聘信息爬取 源代码

实习僧——数据分析岗招聘信息爬取 源代码相关推荐

最新文章

热门文章

实习僧——数据分析岗招聘信息爬取源代码

实习僧——数据分析岗招聘信息爬取源代码相关推荐