目录

1 案例描述

2 爬虫

2.1 爬虫的概念

2.2 爬虫的工作原理

2.3 爬虫的基本流程

3 基本操作

3.1 安装第三方库

3.2 库的作用及其使用

4 Python代码实现


1 案例描述

当大家想了解某个学校相关的就业招聘等信息时,一般的操作都是先进入学校的官网,找到我们需要的关键字点击进入浏览,每个学校的信息不一样,数据也是相当多。于是我也想知道本校的就业服务相关信息,接下来我就用所学的爬虫知识以我们学校为案例完成这个项目。这也是我第一次发文,肯定不完美,希望大家多多鼓励,我会继续努力的,以后也会在这里和你们一起学习。

这是我想要得到的数据

2 爬虫

2.1 爬虫的概念

又称网络蜘蛛,就是通过编写程序,模拟浏览器上网,然后让其去互联网上抓取数据的过程。

2.2 爬虫的工作原理

爬虫的四个步骤:

(1)获取数据:爬虫程序会根据我们提供的网址,向服务器发起请求,然后给予相应的数据;

(2)  解析数据:爬虫程序会把服务器返回的数据解析成我们能读懂的格式;

(3)提取数据:爬虫程序从中再次提取出我们需要的数据;

(4)储存数据:爬虫程序会把我们最终需要的数据保存或下载下来;

2.3 爬虫的基本流程

(1)  请求网页:  通过 HTTP 库向目标网站发起请求,即发送一个 Request,请求可以包含额外的  headers 等信息,等待服务器响应!
  (2)  获得相应内容:  如果服务器能正常响应,会得到一个 Response,Response 的内容便是所要获取的页面内容,类型可能有 HTML,Json 字符串,二进制数据(如图片视频)等类型。
  (3)  解析内容:  得到的内容可能是 HTML,可以用正则表达式、网页解析库进行解析。可能是 Json,可以直接转为 Json 对象解析,可能是二进制数据,可以做保存或者进一步的处理。
  (4)  存储解析的数据:  数据存储格式有很多,可以存为txt,csv,excel或者直接存为数据库。

3 基本操作

3.1 安装第三方库

Python有很多第三方库,包括我们使用的爬虫、数据分析,还有机器学习之类,Python提供的安装方式多种多样,常用语法为 pip install 库名,或者也可以把第三方库下载到本地,然后安装到如下所示(python文件夹)目录:

下图以jieba安装为例

图1 安装到文件夹

注:此处是python的库存储位置(当pip安装失败(在引用中显示没有该模块)时,可以尝试使用此法)

引用:

图2 查看安装成功

安装成功。这样,就可以安装我们所要用到的库。

3.2 库的作用及其使用

此次实战我们需要用到的第三方库有:

# 导入相关模块
from selenium import webdriver
import time
from lxml import etree
import pandas as pd

(1)selenium库作用:用来操控浏览器,模拟人自动化做一些行为动作,主要因为测试直接运行在浏览器中,就可以像用户平常的在操作一样,支持多种浏览器。

selenium库的使用:

from selenium import webdriver # 导入库
br = webdriver.浏览器(传入浏览器的驱动程序) # 声明浏览器

实例化一个浏览器,这样就可以打开一个浏览器对象

br.get("") #引号里面放入你想要打开的网站地址

让浏览器发起一个指定url对应请求

(2)time模块的作用:是系统中自带的模块,让程序暂停执行指定的秒数,适当停留,有一个休眠的过程,看爬取效果。

time模块的使用:

import time # 导包
time.sleep(2) # 让程序睡2秒

每一步操作都可以使用time模块,让模拟更真实

(3)lxml库的作用:解析和提取XML和HTML中的数据,支持Xpath解析方式,利用语法,来定位特定元素及节点信息,效率很高。

lxml库的使用:

from lxml import etree #导入Xpath(将html中的数据进行提取)
tree = etree.HTML(page_text) #实例化一个对象,接收传入的页面源码数据
txt=tree.xpath("") #获取标签

获取标签有两种方法,绝对路径和相对路径。

(4)pandas库的作用:基于numpy的一种工具,为解决数据分析任务而创建的,可以处理csv,excel,html文本等文件。

pandas库的使用:

import pandas as pd #导入已经安装的包
pd.Series(data,index=index,dtype=dtype) #series对象的创建

data:数据,可以是列表,字典或Numpy数组
index:索引,为可选参数
dtype: 数据类型(支持多种类型),为可选参数

import numpy as np

用一维数组创建

dic = {"key1":value1,"key2":value2,.....}
fal = pd.Series(dic)

用字典创建,默认以键为index值为data

pd.DataFrame(data,index=index,columns=columns)

data:数据,可以是列表,字典或Numpy数组
index:索引,为可选参数
columns: 列标签,为可选参数

知识当然是无止境的呀,所以小菜鸟所展示的也只是冰山一角,还有很多需要补充的哦。

4 Python代码实现

# 导入相关模块
from selenium import webdriver
import time
from lxml import etree
import pandas as pd
# 定义两个列表,一个存信息,一个存时间
list1=[]
list2=[]
# 封装
def gettxt(page_text):# 解析数据tree=etree.HTML(page_text)# 遍历第一页的信息for i in range(1,21): #获取第一页所有招聘信息txt=tree.xpath('/html/body/div/div[5]/div[2]/ul/li['+str(i)+']/span[1]/a/text()')#获取第一页所有招聘信息的时间txt1=tree.xpath('/html/body/div/div[5]/div[2]/ul/li['+str(i)+']/span[2]/text()')# 列表转字符串,使用str()强转会把[]转进去,所以使用jointxt = "".join(txt)#替换转义字符for i in "\t\n":txt=txt.replace(i,"")# 使用空列表添加值list1.append(txt)list2.append("".join(txt1))
# 利用驱动打开一个网页
bro=webdriver.Edge(executable_path="D:\\vs code\\项目\\msedgedriver")
# 访问页面页数,每次访问一页
for i in range(1,90):# 向网站发起请求bro.get("http://www.gzmdrw.cn/rw/welcome/1288759137383718")# 用page_text属性获取当前页面所对应的源码数据page_text=bro.page_sourcegettxt(page_text)
#字典
data={'信息':list1,'时间':list2}
#DataFrame()函数将字典转换
df=pd.DataFrame(data)
# 存储格式为csv并保存在本地
df.to_csv("就业数据.csv")
# 休眠
time.sleep(2)
#爬取结束退出
bro.quit

得到的运行结果

格式化后的效果

爬取公布的招聘信息(selenium实现)相关推荐

  1. python+selenium爬取智联招聘信息

    python+selenium爬取智联招聘信息 需求 准备 代码 结果 需求 老板给了我一份公司名单(大概几百家如下图),让我到网上看看这些公司分别在招聘哪些岗位,通过分析他们的招聘需求大致能推断出我 ...

  2. 爬虫项目 | 爬取XX网站招聘信息

    /***本人代码小白 ,第一次做爬虫,代码仅供参考,欢迎大神指点,***/ 项目背景和功能 毕业将近,身为大三的我们,面临找工作的压力,如何快速的找到自己心仪的岗位并且及时投递简历成为同学们关心的问题 ...

  3. (转)python爬虫实例——爬取智联招聘信息

    受友人所托,写了一个爬取智联招聘信息的爬虫,与大家分享. 本文将介绍如何实现该爬虫. 目录 网页分析 实现代码分析 结果 总结 github代码地址 网页分析 以https://xiaoyuan.zh ...

  4. python爬虫实例——爬取智联招聘信息

    受友人所托,写了一个爬取智联招聘信息的爬虫,与大家分享. 本文将介绍如何实现该爬虫. 目录 网页分析 实现代码分析 结果 总结 github代码地址 网页分析 以https://xiaoyuan.zh ...

  5. 【Python】Scrapy爬虫框架小试牛刀:爬取某论坛招聘信息

    Scrapy爬虫框架小试牛刀:爬取某论坛招聘信息 背景 Scrapy工作原理 创建项目 创建爬虫 确定数据爬取思路 编写对象:item.py 制作爬虫:muchongrecruit.py 存储内容:p ...

  6. 利用Scrapy框架爬取前途无忧招聘信息

    利用Scrapy框架爬取前途无忧招聘信息 关于安装和命令使用可参考:https://docs.scrapy.org/en/1.7/intro/install.html 先创建项目和爬虫文件 分析网站 ...

  7. [Selenium+Pyecharts]爬取建筑设计师招聘信息,数据清洗并可视化

    前言: 8个小时内完成爬虫,数据清洗并可视化.因为自己也是小白,做的时候时间还挺赶的.很多地方没有做到完美,比如一些数据清洗的步骤走了捷径.有不足的地方,欢迎大神们留言指教. selenium :3. ...

  8. 爬取淘宝商品信息selenium+pyquery+mongodb

    ''' 爬取淘宝商品信息,通过selenium获得渲染后的源码,pyquery解析,mongodb存储 '''from selenium import webdriver from selenium. ...

  9. 爬取智联招聘信息并存储

    #-*- coding: utf-8 -*- import urllib.request import os,time from bs4 import BeautifulSoup #爬取智联招聘网站的 ...

最新文章

  1. android网络请求框架_2020,最新APP重构:网络请求框架
  2. hashtable、hashmap、ConcurrentHashMap、treemap的区别
  3. 如何利用CIC滤波器、CIC补偿滤波器和半带滤波器设计一个高频数字抽取滤波器
  4. 多态部分作业 3..创建Rodent(啮齿动物):Mnouse(老鼠),Gerbil(鼹鼠),Hamster(大颊鼠)
  5. nutsdb与mysql_分享下 nutsdb 单机 1 亿、10 亿数据实测
  6. Java笔记-解决Required long parameter 'XXX' is not present
  7. 矩阵的特征向量和特征值
  8. 如何在 Web 开发中找到第一份工作?
  9. 5G 浪潮来袭!程序员在风口中有何机遇?
  10. kettle转换JavaScript获取命令行参数
  11. Python基础学习3——集合、文件、函数
  12. aspxgridview将所选项导出ASPxGridViewExporter1
  13. 学校为什么要单位接收函_学校让我签三方,居然是因为···
  14. Google桌面搜索和百度硬盘搜索索引停滞的原因
  15. Unity 使用Excel 读取文件 所碰到的坑 使用Excel.dll读取
  16. Oracle 12c CDB和PDB的切换
  17. 数据库 蚂蚁_华东师范大学与蚂蚁集团OceanBase成立联合实验室,助推自研数据库创新发展...
  18. 扫福活动开始,你的公众号图文排版也要“福”气满满
  19. 数据结构物理存储方式
  20. 全球14个典型区域的total runof 泰勒图比较

热门文章

  1. 传奇称号添加教程,传奇称号系统
  2. 考研 研究生 什么是考研 考研的第一课 全面了解考研 研究生
  3. 数字孪生数字工厂 数字孪生工厂解决方案
  4. Pytest和unittest的对比
  5. PHP论坛开发技术总结
  6. 知乎上40个有趣回复,很精辟
  7. java毕业生设计学术会议论文稿件管理系统计算机源码+系统+mysql+调试部署+lw
  8. 人大金仓数据库安装与配置
  9. 【风控系列】2. 如何构建一个有效的风控系统
  10. 关于版权声明的写法 (转)