一,大致流程

首先,利用requests的包对我们要爬取的网站进行get请求
其次,本文是利用xpath进行的爬取,所以需要导入lxml包
最后,我们要将数据存储在excel中,所以也要加载openpyxl包

二,具体操作

封装三个函数
1,send_requests()函数用于发送请求
2,parse_html(data)函数用于解析数据,传入的data参数就是send_requests()函数中return的返回值
3,save(lst)对数据进行存储

# 加载爬虫所需要的包
import requests
from lxml import etree
import openpyxlheaders={'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.100 Safari/537.36'}#定义网址请求函数
def send_requests():url = 'https://www.shixiseng.com/interns?keyword=%E5%88%86%E6%9E%90' #寻找分析实习职位的urlresp=requests.get(url=url,headers=headers)return resp.text#定义解析数据函数
def parse_html(data):tree = etree.HTML(data)div_list=tree.xpath('//div[@class="result-list clearfix"]//div[@class="f-l intern-detail__job"]')url_lst = []for di in div_list:new_url = di.xpath('.//a/@href')#得到了每一个实习页面的urlnew_url = ''.join(new_url)#进行格式的转换,将列表转换为字符串格式url_lst.append(new_url)# print(url_lst)lst = []for i in range(len(url_lst)):#对新的url进行解析,爬取我们需要的薪水,公司的信息resp = requests.get(url=url_lst[i], headers=headers)tree = etree.HTML(resp.text)job_name = tree.xpath('//div[@class="new_job_name"]/span/text()')job_name = ''.join(job_name)job_address = tree.xpath('//div[@class="job_msg"]/span[@class="job_position"]/text()')job_address = ''.join(job_address)job_money = tree.xpath('//div[@class="job_msg"]/span[@class="job_money cutom_font"]/text()')job_money = ''.join(job_money)lst.append([job_name, job_address, job_money])save(lst)def save(lst):#用于数据的存储wb = openpyxl.Workbook()ws = wb.activefor row in lst:ws.append(row)wb.save('./实习工作职位表.xlsx')if __name__ == '__main__':data = send_requests()parse_html(data)

三,结果展示

将数据存储成功后,会显示一个.xlsx文件


打开excel就能看到我们爬取的数据信息

爬取实习僧工作岗位信息相关推荐

  1. 使用requests爬取实习僧网站数据

    任务要求: 爬取实习僧网站的招聘公司信息和职位信息,并存储到数据库中,对应的数据库表和需要爬取的字段见下面表一和表二(注意:爬取存在的字段) 代码以上传带github上:使用requests爬取实习僧 ...

  2. python爬虫爬取实习僧岗位信息并存入excel数据表中

    欢迎访问我的个人网站http://liubofeng.com 网页分析 博主在本博客中爬取的是数据分析岗位. 进入网站首页https://www.shixiseng.com/搜索数据分析,F12审查元 ...

  3. python爬取实习僧招聘信息字体反爬

    参考博客:http://www.cnblogs.com/eastonliu/p/9925652.html 实习僧招聘的网站采用了字体反爬,在页面上显示正常,查看源码关键信息乱码,如下图所示: 查看网页 ...

  4. 利用python爬取实习僧网站上的数据

    最近在找实习,就顺便想到用python爬取一些职位信息看看,有哪些岗位比较缺人. #_*_coding:utf-8_*_import requests from bs4 import Beautifu ...

  5. 爬取实习吧与python相关的招聘信息及分析与数据可视化

    大数据时代,计算机行业蓬勃发展,越来越多的人投身计算机事业养家糊口.所以该如何选择工作,现在社会需要怎么样的计算机人才,我们该如何对应的提升自己的本领都是尤为重要的.这篇文章就是对实习吧招聘网站有关p ...

  6. 爬取《政府工作报告》词云展示并做词频统计

    爬取<政府工作报告>词云展示并做词频统计 爬取<政府工作报告内容代码: from requests import * from bs4 import BeautifulSoup r= ...

  7. python3 爬虫 爬取智联招聘岗位信息

    这套程序基于python3 ,使用requests和re正则表达式,只需要将程序保存为.py文件后,即可将抓取到的数据保存到指定路径的Excel文件中.程序在终端中启动,启动命令: #python3 ...

  8. Python3爬取前程无忧数据分析工作并存储到MySQL

    1.导入包 import requests #取数 from lxml import etree #用xpath解析 import pymysql #连接数据库 import chardet #自动获 ...

  9. 使用java网络爬虫爬取BOSS直聘岗位信息

    一.目的 得到招聘网站中自己想要的相关数据 对HTML进行清洗,保留想要的数据并导出到Excel 二.java实现过程 导入相关架包 <dependency><groupId> ...

  10. python爬取网页停止工作_python人员api停止工作

    我有一个python(2.7.10)代码,它基于位于https://developers.google.com/people/quickstart/python的"快速入门"示例, ...

最新文章

  1. FaceNet: A Unified Embedding for Face Recognition and Clustering
  2. matlab中如何求零极点,Matlab中绘制零极点
  3. 小马智行L4无人车今日量产下线,这比融资更具里程碑意义
  4. nyoj1047欧几里得
  5. [CF446C]DZY Loves Fibonacci Numbers
  6. Azure认知服务之使用墨迹识别功能识别手写汉字
  7. 万张图片,流畅体验——记一次 Vue 列表渲染
  8. 红黑树结构完整实现与详解
  9. python错误异常处理try except Error
  10. linux fortran 大数组,fortran动态数组大小分配问题(allocatable)? - 程序语言 - 小木虫 - 学术 科研 互动社区...
  11. 最新的windows xp sp3序列号(绝对可通过正版验证)
  12. VS Qt 项目 “fatal error C1083: ”无法打开包括文件
  13. 背单词App开发日记3
  14. 3dmax中格式批量互转obj批量转fbx等等
  15. android友盟微信授权登录清除,Android 微信,友盟授权;
  16. 阿里云面经之实习二面
  17. 06-树(tree)
  18. NameError: name ‘d2l‘ is not defined
  19. java的nullpoint_java.lang.NullPointerException
  20. 【第二届青训营-寒假前端场】- 「WebGL基础」笔记

热门文章

  1. excel怎么设置密码?加密文件这么做!
  2. *Unity程序报错“缺少根元素msbuild\current\bin\microsoft.common.currentversion.targets“
  3. 淘宝双11大数据分析(数据可视化)
  4. win11/ win10 C盘扩容教程
  5. Caused by: java.util.concurrent.ExecutionException: java.util.concurrent.ExecutionException: com.and
  6. JS修改链接地址实现页面动态跳转的方法
  7. InfoPath 2007 添加 access 2007 数据库方法
  8. java毕业设计共享充电宝系统mybatis+源码+调试部署+系统+数据库+lw
  9. Beacon技术相关介绍及应用
  10. “霜降”,“农历”,“二十四节气”,英语怎么说?