Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息

目录

输出结果

1、上海区块链职位

2、北京区块链职位

设计思路

核心代码


输出结果

1、上海区块链职位

国内某知名招聘网上海关于区块链职位的求职信息分析图

2、北京区块链职位

国内某知名招聘网北京关于区块链职位的求职信息分析图

设计思路

Python实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息

核心代码


from https import Http
from parse import Parse
from setting import headers
from setting import cookies
import time
import logging
import codecs#logging.basicConfig函数为日志系统做基本配置:Python写比较大型的程序,用日志系统会方便发现错误。
logging.basicConfig(level=logging.ERROR,format='%(asctime)s Process%(process)d:%(thread)d %(message)s',datefmt='%Y-%m-%d %H:%M:%S',filename='diary.log',filemode='a')def getInfo(url, para): #输入网址、参数实现获取网页上的内容generalHttp = Http()  htmlCode = generalHttp.post(url, para=para, headers=headers, cookies=cookies) generalParse = Parse(htmlCode) pageCount = generalParse.parsePage()  info = []  def getInfoDetail(generalParse): info = generalParse.parseInfo()return infodef processInfo(info, para): #实现将爬取的网页内容存入到xls表格文件logging.error('Process start') try: title = '公司名称\t公司类型\t融资阶段\t标签\t公司规模\t公司所在地\t职位类型\t学历要求\t福利\t薪资\t工作经验\t发布时间\n'file = codecs.open('%s市有关区块链的职位信息表.xls' % para['city'], 'w', 'utf-8')file.write(title) #file.write函数先将xls表格的列名写入xls文件内for p in info: #for循环依次将十二个字段的内容写入xls文件line = str(p['companyName']) + '\t' + str(p['companyType']) + '\t' + str(p['companyStage']) + '\t' + \str(p['companyLabel']) + '\t' + str(p['companySize']) + '\t' + str(p['companyDistrict']) + '\t' + \str(p['positionType']) + '\t' + str(p['positionEducation']) + '\t' + str(p['positionAdvantage']) + '\t' + \str(p['positionSalary']) + '\t' + str(p['positionWorkYear']) + '\t' + str(p['createTime'])+'\n'file.write(line) #最后将line写入xls文件file.close() #file.close()关闭xls文件return Trueexcept Exception as e:print(e)return Nonedef main(url, para): #函数开始进行爬取网址logging.error('Main start') if url:info = getInfo(url, para)  flag = processInfo(info, para) return flagelse:return Noneif __name__ == '__main__':kdList = [u'区块链']  cityList = [u'上海', u'北京']  url = 'https://www.lagou.com/jobs/positionAjax.json' for city in cityList:print('现在开始爬取%s' % city)para = {'first': 'true', 'pn': '1', 'kd': kdList[0], 'city': city} #{,页数,城市}flag = main(url, para) if flag: #if人性化输出是否爬取成功print('%s爬取成功!' % city)else:print('%s爬取失败!' % city)

Crawler:爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息相关推荐

  1. Crawler:基于splinter.browser库实现爬取12306网站来实现快速抢票

    Python之Crawler:爬取12306网站来实现快速抢票 目录 实现结果 实现代码 实现结果 实现代码 # -*- coding: utf-8 -*- from splinter.browser ...

  2. Crawler/ML:爬虫技术(基于urllib.request库从网页获取图片)+HierarchicalClustering层次聚类算法,实现自动从网页获取图片然后根据图片色调自动分类

    Crawler/ML:爬虫技术(基于urllib.request库从网页获取图片)+HierarchicalClustering层次聚类算法,实现自动从网页获取图片然后根据图片色调自动分类 目录 一. ...

  3. Crawler:基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站,上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内

    Crawler:基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站,上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内 目录 输出结果 设计思路 核心 ...

  4. Crawler:基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评

    Crawler:基于BeautifulSoup库+requests库实现爬取2018最新电影<后来的我们>热门短评 目录 输出结果 实现代码 输出结果 实现代码 # -*- coding: ...

  5. Py之Crawler:基于requests库+json库实现爬取刘若英2018导演电影《后来的我们》的插曲《再见》张震岳的几十万热评+词云:发现“再见”亦是再也不见

    Py之Crawler:基于requests库+json库实现爬取刘若英2018导演电影<后来的我们>的插曲<再见>张震岳的几十万热评+词云:发现"再见"亦是 ...

  6. python3爬虫实战:requests库+正则表达式爬取头像

    python3爬虫实战:requests库+正则表达式爬取头像 网站url:https://www.woyaogexing.com/touxiang/qinglv/new/ 浏览网页:可以发现每个图片 ...

  7. Python爬虫系列之抖音热门视频爬取

    Python爬虫系列之抖音热门视频爬取 主要使用requests库以及手机抓包工具去分析接口 该demo仅供参考,已经失效,需要抖音2019年5月最新所有接口请点击这里获取 抖音资源获取接口文档请点击 ...

  8. python爬虫今日头条_python爬虫—分析Ajax请求对json文件爬取今日头条街拍美图

    python爬虫-分析Ajax请求对json文件爬取今日头条街拍美图 前言 本次抓取目标是今日头条的街拍美图,爬取完成之后,将每组图片下载到本地并保存到不同文件夹下.下面通过抓取今日头条街拍美图讲解一 ...

  9. python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取

    python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取 前言 本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...

最新文章

  1. SAP WM中阶为多个TR创建了Group后将TR从Group里删除?
  2. Spark配置高可用(HA)
  3. PowerShell: 详解Windows10常用的PowerShell高级任务
  4. Hadoop 部署实例
  5. java json格式字符串转为map_json格式的字符串序列化和反序列化的一些高级用法...
  6. SQL LIKE 通配符随笔
  7. 文献学习(part11)--基于知识图谱的推荐系统研究综述
  8. JS 中对数组按照数组中某个对象的属性值进行排序
  9. 【BZOJ2115】Xor,第一次的线性基
  10. 千元优品vivo U3上架:骁龙675处理器+5000mAh超大电池
  11. ACM--素数距离问题
  12. 文字识别成语音_广东人专属!微信语音转文字可以识别粤语了!
  13. MT4红绿柱黄白线双线MACD指标
  14. 运筹优化算法工程师面试问题汇总
  15. 手写SSH2服务器连接池
  16. HCNE复习参考(中)
  17. flashfxp中文下载,5步掌握flashfxp中文下载软件的使用技巧
  18. 显示当前时间(C语言)
  19. 安装纯净版win10系统
  20. 【Android-Broadcast】广播的权限

热门文章

  1. c#中的模态对话框和非模态对话框
  2. Fragment 退出动画导致fragment退出失败问题(罕见问题)
  3. ant编译重设property的值
  4. Leaflet中获取两个地理坐标点之间的距离
  5. 小教活动总结-VB即时通讯小程序
  6. 8 种最坑的 SQL 错误用法,你有没有踩过坑?
  7. 吴军:区块链催生了新的生产关系
  8. Docker实战:Docker安装部署RabbitMQ
  9. Android开发,Error: Failed to find Build Tools revision 24.0.2
  10. Spring核心技术原理-(1)-通过Web开发演进过程了解一下为什么要有Spring?