Crawler：爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息

输出结果

1、上海区块链职位

2、北京区块链职位

设计思路

核心代码

输出结果

1、上海区块链职位

国内某知名招聘网上海关于区块链职位的求职信息分析图

2、北京区块链职位

国内某知名招聘网北京关于区块链职位的求职信息分析图

设计思路

Python实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息

核心代码


from https import Http
from parse import Parse
from setting import headers
from setting import cookies
import time
import logging
import codecs#logging.basicConfig函数为日志系统做基本配置：Python写比较大型的程序，用日志系统会方便发现错误。
logging.basicConfig(level=logging.ERROR,format='%(asctime)s Process%(process)d:%(thread)d %(message)s',datefmt='%Y-%m-%d %H:%M:%S',filename='diary.log',filemode='a')def getInfo(url, para): #输入网址、参数实现获取网页上的内容generalHttp = Http()  htmlCode = generalHttp.post(url, para=para, headers=headers, cookies=cookies) generalParse = Parse(htmlCode) pageCount = generalParse.parsePage()  info = []  def getInfoDetail(generalParse): info = generalParse.parseInfo()return infodef processInfo(info, para): #实现将爬取的网页内容存入到xls表格文件logging.error('Process start') try: title = '公司名称\t公司类型\t融资阶段\t标签\t公司规模\t公司所在地\t职位类型\t学历要求\t福利\t薪资\t工作经验\t发布时间\n'file = codecs.open('%s市有关区块链的职位信息表.xls' % para['city'], 'w', 'utf-8')file.write(title) #file.write函数先将xls表格的列名写入xls文件内for p in info: #for循环依次将十二个字段的内容写入xls文件line = str(p['companyName']) + '\t' + str(p['companyType']) + '\t' + str(p['companyStage']) + '\t' + \str(p['companyLabel']) + '\t' + str(p['companySize']) + '\t' + str(p['companyDistrict']) + '\t' + \str(p['positionType']) + '\t' + str(p['positionEducation']) + '\t' + str(p['positionAdvantage']) + '\t' + \str(p['positionSalary']) + '\t' + str(p['positionWorkYear']) + '\t' + str(p['createTime'])+'\n'file.write(line) #最后将line写入xls文件file.close() #file.close()关闭xls文件return Trueexcept Exception as e:print(e)return Nonedef main(url, para): #函数开始进行爬取网址logging.error('Main start') if url:info = getInfo(url, para)  flag = processInfo(info, para) return flagelse:return Noneif __name__ == '__main__':kdList = [u'区块链']  cityList = [u'上海', u'北京']  url = 'https://www.lagou.com/jobs/positionAjax.json' for city in cityList:print('现在开始爬取%s' % city)para = {'first': 'true', 'pn': '1', 'kd': kdList[0], 'city': city} #{，页数，城市}flag = main(url, para) if flag: #if人性化输出是否爬取成功print('%s爬取成功！' % city)else:print('%s爬取失败！' % city)

Crawler：爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息相关推荐

Crawler：基于splinter.browser库实现爬取12306网站来实现快速抢票
Python之Crawler:爬取12306网站来实现快速抢票目录实现结果实现代码实现结果实现代码 # -*- coding: utf-8 -*- from splinter.browser ...
Crawler/ML：爬虫技术(基于urllib.request库从网页获取图片)+HierarchicalClustering层次聚类算法，实现自动从网页获取图片然后根据图片色调自动分类
Crawler/ML:爬虫技术(基于urllib.request库从网页获取图片)+HierarchicalClustering层次聚类算法,实现自动从网页获取图片然后根据图片色调自动分类目录一. ...
Crawler：基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站，上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内
Crawler:基于urllib+requests库+伪装浏览器实现爬取国内知名招聘网站,上海地区与机器学习有关的招聘信息(2018.4.30之前)并保存在csv文件内目录输出结果设计思路核心 ...
Crawler：基于BeautifulSoup库+requests库实现爬取2018最新电影《后来的我们》热门短评
Crawler:基于BeautifulSoup库+requests库实现爬取2018最新电影<后来的我们>热门短评目录输出结果实现代码输出结果实现代码 # -*- coding: ...
Py之Crawler：基于requests库+json库实现爬取刘若英2018导演电影《后来的我们》的插曲《再见》张震岳的几十万热评+词云：发现“再见”亦是再也不见
Py之Crawler:基于requests库+json库实现爬取刘若英2018导演电影<后来的我们>的插曲<再见>张震岳的几十万热评+词云:发现"再见"亦是 ...
python3爬虫实战：requests库+正则表达式爬取头像
python3爬虫实战:requests库+正则表达式爬取头像网站url:https://www.woyaogexing.com/touxiang/qinglv/new/ 浏览网页:可以发现每个图片 ...
Python爬虫系列之抖音热门视频爬取
Python爬虫系列之抖音热门视频爬取主要使用requests库以及手机抓包工具去分析接口该demo仅供参考,已经失效,需要抖音2019年5月最新所有接口请点击这里获取抖音资源获取接口文档请点击 ...
python爬虫今日头条_python爬虫—分析Ajax请求对json文件爬取今日头条街拍美图
python爬虫-分析Ajax请求对json文件爬取今日头条街拍美图前言本次抓取目标是今日头条的街拍美图,爬取完成之后,将每组图片下载到本地并保存到不同文件夹下.下面通过抓取今日头条街拍美图讲解一 ...
python爬虫--Scrapy框架--Scrapy+selenium实现动态爬取
python爬虫–Scrapy框架–Scrapy+selenium实现动态爬取前言本文基于数据分析竞赛爬虫阶段,对使用scrapy + selenium进行政策文本爬虫进行记录.用于个人爬虫学习记 ...

Crawler：爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息

输出结果

1、上海区块链职位

2、北京区块链职位

设计思路

核心代码

Crawler：爬虫之基于https+parse库实现爬取国内某知名招聘网上海、北京关于区块链职位的求职信息相关推荐

最新文章

热门文章