python 爬虫 51job简历 存储历史

  • 效果展示
  • 脚本实现
  • linux 定时任务
  • 查看定时任务是否添加成功
  • 查看定时任务日志
  • 运行常见问题
    • 1、No module named requests
      • 解决方法
    • 2、No module named bs4
      • 解决方法

51job网站只显示最近一个简历查看信息,如果需要查看多个需要付费,通过脚本定时抓取信息存入本地文件中,以实现查看全部信息。

效果展示

脚本实现

创建脚本getinfo.py
内容如下:

import requests,io
from bs4 import BeautifulSoupclass getinfo(object):def __init__(self):self.url = "https://i.51job.com/userset/resume_browsed.php?lang=c"self.headers = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.102 Safari/537.36"}self.cookies = "你的cookie信息"def get_url(self,url):cookies_dict = {}for i in self.cookies.split("; "):cookies_dict[i.split("=")[0]] = i.split("=")[1]response = requests.get(url=url,headers=self.headers,cookies=cookies_dict)return response.content.decode('gbk')def soup(self,data):soup_data = BeautifulSoup(data,'lxml')company = soup_data.select("body > div.content > div.exrt > div.lmsg > div.e > div.txt > div.li.l1 > p > a")[0].get_text()companyurl = soup_data.select("body > div.content > div.exrt > div.lmsg > div.e > div.txt > div.li.l1 > p > a")[0].get('href')care_time = soup_data.select("body > div.content > div.exrt > div.lmsg > div.e > div.txt > div.li.l3 > div.f12 > span")[0].get_text()return company +' '+ companyurl+' '+care_timedef save_file(self,company_caretime):with io.open('/home/51job.txt','a+',encoding='utf-8') as f:f.seek(0)lines = f.readlines()try:if lines[-1] != company_caretime+'\n':f.write(company_caretime + '\n')except IndexError:f.write(company_caretime+'\n')        def run(self):response = self.get_url(self.url)result = self.soup(response)self.save_file(result)if __name__ == '__main__':personal_center = getinfo()personal_center.run()

linux 定时任务

添加定时任务
crontab -e 每隔一分钟运行一次

*/1 * * * * python /home/getinfo.py

查看定时任务是否添加成功

crontab -l

查看定时任务日志

tail -200f /var/log/cron

运行常见问题

1、No module named requests

[root@localhost home]# python testpy.py
Traceback (most recent call last):File "testpy.py", line 1, in <module>import requests,io
ImportError: No module named requests

解决方法

该问题是由于缺少requests,center中采用yum进行安装

yum install python-requests -y

2、No module named bs4

[root@localhost home]# python testpy.py
Traceback (most recent call last):File "testpy.py", line 2, in <module>from bs4 import BeautifulSoup
ImportError: No module named bs4

解决方法

python爬取51job简历查看信息相关推荐

  1. 使用Python爬取51job招聘网的数据

    使用Python爬取51job招聘网的数据 进行网站分析 获取职位信息 存储信息 最终代码 进行网站分析 进入https://www.51job.com/这个网站 我在这就以python为例搜索职位跳 ...

  2. Python 爬取拉勾招聘信息

    Python 爬取拉勾招聘信息 故事背景 最近有个好哥们啊浪迫于家里工资太低,准备从北方老家那边来深圳这边找工作,啊浪是学平面设计的知道我在深圳这边于是向我打听深圳这边平面设计薪资水平,当时我有点懵逼 ...

  3. python关于二手房的课程论文_基于python爬取链家二手房信息代码示例

    基本环境配置 python 3.6 pycharm requests parsel time 相关模块pip安装即可 确定目标网页数据 哦豁,这个价格..................看到都觉得脑阔 ...

  4. Python爬取安居客经纪人信息

    Python爬取安居客经纪人信息 Python2.7.15 今天我们来爬取安居客经纪人的信息.这次我们不再使用正则,我们使用beautifulsoup.不了解的可以先看一下这个文档,便于理解.http ...

  5. Python爬取药监局化妆品管理信息发现的问题

    Python爬取药监局化妆品管理信息 **1.json格式本质上是字符串!!! 今天在爬取国家药监局化妆品管理信息的时候,发现"json数据本质上是字符串",以前我还以为json本 ...

  6. 运用Python爬取二手房价格与信息的两种常用方法

    最近房地产市场进一步收紧,多地地方政府出台各种收紧政策,以保证房地产健康发展,因此云朵君就想到运用Python网络爬虫,抓取部分房产信息,了解下最近房地产的情况. 接下来以房天下二手房信息,以获取某个 ...

  7. python爬取b站用户_用Python爬取bilibili全站用户信息

    教你用Python爬取哔哩哔哩全站用户信息 运行 下载 git clone https://github.com/cexll/bili_user_Spider.git 复制代码 运行环境 Window ...

  8. python爬取58同城租房信息_分页爬取58同城租房信息.py

    import requests,re,openpyxl,os headers = { 'User-Agent':'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleW ...

  9. 用python爬取交大图书馆图书信息

    由于到图书馆中查找数据的时候,每个网页都需要一张一张的翻转,而同时因为每张网页中的内容十分有限,故写此爬虫,方便查找之用 # -*- coding=utf-8 -*- #@author: .Edgar ...

最新文章

  1. SQL Server 2008 :安装
  2. php异步方案,PHP的异步实现方式
  3. 【原创 HadoopSpark 动手实践 6】Spark 编程实例与案例演示
  4. ajax 偶尔302,关于Ajax 中response出现302的一点见解
  5. leetcode 2 --- 两数相加
  6. python中列表、元组、字符串都属于有序序列_列表、元组、字符串是Python的有序序列。...
  7. 计算机系第一学期电脑,公共课第一学期《计算机基础》.doc
  8. kaggle数据集下载
  9. 硬盘序列号更改工具 v0.1 下载
  10. 如何获得更多表情包_从资产商店获得更多
  11. HTTP请求头headers
  12. vant swipe点击切换
  13. python全栈测试开发_用于全栈自动化测试的最佳Python工具
  14. 微服务 弹性伸缩_如何构建弹性微服务
  15. python交换数组中的两个元素_Python 交换数组元素
  16. mysql安装 张宴_Linux_centos5 源码安装Nginx + mysql + apache + php的方法,主要依照的是张宴的一篇博文 - phpStudy...
  17. 我平时整理的一个生成机器码的类(转载)
  18. VBA-循环语句总结
  19. Swin-Transformer-Object-Detection V2.11.0 训练visdrone数据(二)
  20. 戴尔笔记本连接无线网络不能上网的解决方法

热门文章

  1. 【数据库】Py之lmdb:lmdb的简介、安装、使用方法之详细攻略
  2. subclipse 的下载地址
  3. CCNA回顾以及思维导图
  4. 基于uniapp开发 微信小程序登陆页面一
  5. 典型相关分析python实现_CCA典型关联分析原理与Python案例
  6. [数据分析与可视化] 数据绘图要点6-数据组过多
  7. 比较multiprocessing和subprocess模块
  8. 忠诚和勤奋是你成就事业的唯一机会
  9. VS Code【插件与主题】推荐
  10. HTML的上标标签与下标标签