本文旨在总结记录自己在学习基于Python语言的可视化分析研究成果,数据源为拉勾网杭州市人工智能岗位。
关于大致内容我做了个简单的PPT做简要概述,分为四个部分进行讲解,其中可视化分析部分对Python抓取到的图形进行可进一步的优化,使得整体更加协调美观。

————————————————

简要概述














抓取数据代码

import json
import time
import requests
import csv# 1. 创建文件对象
f = open('lgposition_hz_shenduxuexi_4.7.1.。1.1.csv', 'w', encoding='utf-8', newline='')       #文件名记得每爬取一个职业修改一次~# 2. 基于文件对象构建 csv写入对象
csv_writer = csv.writer(f)# 3. 构建列表头
csv_writer.writerow(["公司", "职位名称", "公司简称", "公司规模", "公司行业", "融资", "福利", "职位类型", "第二职位", "第三职位", "技能", "职位发布时间", "城市", "区域","薪水", "工作年限", "学历", "职位优势"])def extractPositionData(results):    #提取职位信息if len(results):        #?? 表示什么意思for result in results:companyLabelList = result['companyLabelList'] #单个的招聘信息中所包含的公司标签信息(含有多个)提取companyLabelLists = ''#初始化if len(companyLabelList):  #一条招聘信息中的公司标签有好几个标签for i in companyLabelList:companyLabelLists += i + ',' #转换成一个字符串skillLable = result['skillLables']  #技能需要  同公司标签skillLables = ''if len(skillLable):for i in skillLable:skillLables += i + ','# 4. 写入csv文件内容csv_writer.writerow([result['companyFullName'],result['positionName'],result['companyShortName'],result['companySize'],result['industryField'],  #公司行业result['financeStage'],companyLabelLists,   #福利result['firstType'],  #职位类型result['secondType'],  #第二职位result['thirdType'],  #第三职位skillLables,     #技能result['createTime'], #职位发布时间result['city'],result['district'],  #区域result['salary'],   result['workYear'],   #工作年限result['education'],result['positionAdvantage']])    #职位优势def main(pages,position,city):# 主urlurl1 = 'https://www.lagou.com/jobs/list_'+ position+ '?city='+city+'&fromSearch=true&labelWords=&suginput='   #网页链接,不管第几页都是该url【异步加载】# ajax请求print (url1)url = "https://www.lagou.com/jobs/positionAjax.json?city="+city+"&needAddtionalResult=false"     #F12里面的请求链接# 请求头headers = {'Connection': 'keep-alive','Accept': 'application/json, text/javascript, */*; q=0.01','X-Anit-Forge-Code': '0','X-Requested-With': 'XMLHttpRequest','X-Anit-Forge-Token': 'None','User-Agent': 'Mozilla/5.0 (Windows NT 6.1; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36','Content-Type': 'application/x-www-form-urlencoded; charset=UTF-8','Origin': 'https://www.lagou.com','Sec-Fetch-Site': 'same-origin','Sec-Fetch-Mode': 'cors','Referer': 'https://www.lagou.com/jobs/list_%E6%B7%B1%E5%BA%A6%E5%AD%A6%E4%B9%A0?city=%E6%9D%AD%E5%B7%9E&fromSearch=true&labelWords=&suginput=','Accept-Encoding': 'gzip, deflate, br','Accept-Language': 'zh-CN,zh;q=0.9',}# 通过data来控制翻页pages1 = pages+1for page in range(1, pages1):data = {'first': 'false','pn': page,'kd': position}s = requests.Session()  s.get(url=url1, headers=headers, timeout=3)    #获取html信息 ,从中提取cookie传递给请求链接 respon使用cookie = s.cookies respon = s.post(url=url, headers=headers, data=data, cookies=cookie, timeout=3)            #f12里发送的请求链接的信息(请求翻页)#time.sleep(3)      #反爬虫,每爬取一次休眠3秒钟total = respon.text    #r.textresults = json.loads(respon.text)['content']['positionResult']['result']       #将r.text文件转换为json格式,再将json内容放入字典中,可以看做是二维列表,每一行代表一个招聘信息,一共有n行。result[0]表示第一个招聘数据。print ("正在爬取第"+ str(page) +"页...")extractPositionData(results)            #运用定义函数print ("————已爬取完第"+ str(page) +"页————")print("已爬取完毕"+city+"这个城市的"+position+"岗位前"+str(pages1)+"页信息")if __name__ == '__main__':main(3,'运营',"%E6%9D%AD%E5%B7%9E")    #通过F12查看代码 ,%E6%9D%AD%E5%B7%9E表示杭州。传入main函数# 5. 关闭文件f.close()

新手操作容易出现的问题

tip1:利用python官方的pip通过cmd进行库的安装速度很慢,这是由于国外的官方源经常被墙,导致安装不上。我们可以更换pip源——使用国内的python镜像源来解决Python安装不上库的问题。

pip install SomePackage -i https://pypi.tuna.tsinghua.edu.cn/simple

基于Python的招聘信息可视化分析研究相关推荐

  1. 基于 Python 的招聘信息可视化分析系统

    温馨提示:文末有 CSDN 平台官方提供的博主 Wechat / QQ 名片 :) 1. 项目简介 本项目利用 Python 从某招聘网站抓取海量招聘数据,进行数据清洗和格式化后存储到关系型数据库中( ...

  2. 基于python的可视化分析_基于Python 的数据分析与可视化平台研究

    基于 Python 的数据分析与可视化平台研究 宋永生 ; 黄蓉美 ; 王军 [期刊名称] <现代信息科技> [年 ( 卷 ), 期] 2019(003)021 [摘要] 数据分析与可视化 ...

  3. 基于flask徐州市天气信息可视化分析系统-计算机毕设 附源码 04600

    基于flask徐州市天气信息可视化分析系统 摘 要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最 ...

  4. python毕业设计开题报告-基于python爬虫的影评情感分析研究开题报告

    论文(设计)题目 基于python爬虫的影评情感分析研究开题报告 选题的背景.意义及研究现状: 研究现状: 文本情感分析又称倾向性分析.情感挖掘,主观分析或评论挖掘,是对带有情感色彩的评论文本内容进行 ...

  5. python气象绘图速成_基于Python气象数据处理与可视化分析

    基于 Python 气象数据处理与可视化分析 张鑫 ; 曹蕾 ; 韩基良 [期刊名称] <气象灾害防御> [年 ( 卷 ), 期] 2020(027)001 [摘要] 全国综合气象信息共享 ...

  6. 基于python的电影数据可视化分析与推荐系统

    温馨提示:文末有 CSDN 平台官方提供的博主 Wechat / QQ 名片 :) 1. 项目简介 本项目利用网络爬虫技术从国外某电影网站和国内某电影评论网站采集电影数据,并对电影数据进行可视化分析, ...

  7. 基于flask徐州市天气信息可视化分析系统 毕设源码04600

    摘 要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题.针对天气信息等问题,对天气 ...

  8. 基于flask徐州市天气信息可视化分析系统【纯干货分享,附源码04600】

    摘 要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题.针对天气信息等问题,对天气 ...

  9. 基于flask徐州市天气信息可视化分析系统 计算机毕设源码15114

    摘 要 信息化社会内需要与之针对性的信息获取途径,但是途径的扩展基本上为人们所努力的方向,由于站在的角度存在偏差,人们经常能够获得不同类型信息,这也是技术最为难以攻克的课题.针对天气信息等问题,对天气 ...

  10. 基于Python的招聘信息的大数据可视化分析系统

    1. 项目背景 互联网时代,网络已经完完全全渗透到我们的生活当中,成为我们生活当中的一部分,其中很多求职.找工作也不例外,因此,很多招聘平台,例如像赶集网.58同城.英才网.智联招聘.前程无忧等求职网 ...

最新文章

  1. 自贡市职称计算机考试,四川省自贡市2012年职称计算机考试时间
  2. 时序数据-LSTM模型-实现用电量预测
  3. Flume监听文件夹中的文件变化,并把文件下沉到hdfs
  4. “羊贵妃”没走“牛魔王”又来?牛肉价格屡创新高
  5. Android开发面试题之Android四大组件
  6. python中列表实现去重使用_Python实现嵌套列表去重方法示例
  7. Linux内核的裁剪和移植
  8. ASP.NET的分页方法(一)
  9. canvas 绘制直线 并选中_在画布中使用路径-Canvas的基本操作
  10. 近期面试了三个人之感想
  11. MySql in子句 效率低下优化
  12. 线粒体和叶绿体的基因组特点_线粒体基因组有什么特点?
  13. iOS之Block报错:capturing 'self' strongly in this block is likely to lead to a retain cycle
  14. python 限定数据范围_python取值范围
  15. 记录origin画图遇到的问题及其软件bug解决
  16. nginx 404 图片均衡
  17. pycharm运行异常 UnicodeDecodeError: ‘utf-8‘ codec can‘t decode bytes in position 600-601: invalid contin
  18. html mebed高度问题,高中英语中最易犯的100个错误,看看你有多少?
  19. 查看临时表空间的使用情况(以此为准)
  20. 5.8架构设计原则案例分析

热门文章

  1. MC74HC595驱动
  2. 异步编排-CompletableFuture
  3. 串口通信 数据采集软件 上位机 数据采集软件,可以采集plc,串口通信设备,tcp通信设备的数据
  4. 添加企业微信免验证设置
  5. 页面加载缓冲的login
  6. Scratch编程与游戏:大鱼吃小鱼!
  7. 百度旋转验证码识别平台接口文档
  8. 2017年高教社杯全国大学生数学建模竞赛(A题)
  9. 在保护继承中基类的共有成员_鸡啄米:C++编程入门系列之三十八(继承与派生:派生类对基类成员的访问控制之保护继承与私有继承)...
  10. TCP 的四次挥手,可以变成三次挥手吗?