作者

徐麟

作者介绍

目前就职于上海唯品会产品技术中心,哥大统计数据狗,从事数据挖掘&分析工作,喜欢用R&Python玩一些不一样的数据

已获原作者授权,如需转载,请联系原作者。

前言:

随着互联网行业的日益兴盛,吸引力越来越多的牛人加入其中,也有许多小伙伴跃跃欲试,想要在互联网的浪潮中大展身手。今天我们通过看准网的数据,帮助大家对各大互联网公司有一个比较概括的了解。

01

数据来源

看准网提供了许多员工对于公司的评价,我们从中提取需要的数据,包括整体评分、面试难度、推荐率、前景看好情况、CEO支持率,代码如下:

## 获得信息
def get_company_info(num,headers):## 获得评价数据url = 'https://www.kanzhun.com/gsr'+str(num)+'.html?ka=com-blocker1-review'js='window.open("'+url+'")'driver.execute_script(js)time.sleep(5)driver.close() driver.switch_to_window(driver.window_handles[0])bsObj=BeautifulSoup(driver.page_source,"html.parser")tag=bsObj.find('div',attrs={'class':'all_item'}).text.replace('\t','').replace('\n','').replace('(',' ').replace(')',' ').split(' ')tag=tag[0:len(tag)-1]this_tag = {tag[i*2]:tag[i*2+1] for i in np.arange(int(len(tag)/2-1))}this_name = bsObj.find('div',attrs={'class':'co_name t_center'}).textthis_overal = float(bsObj.find('div',attrs={'class':'res_box_star f_right'}).find('em').text)points = bsObj.find('ul',attrs={'class':'score_rate clearfix'}).text.replace('\n',' ').split()this_recommend = float(points[0][0:2])/100*5this_future = float(points[2][0:2])/100*5this_ceo = float(points[4][0:2])/100*5## 获得CEO头像和公司logoceo_pic = bsObj.find('div',attrs={'class':'ceo_info'}).find('div').find('img').attrs['src']ceo_name = bsObj.find('div',attrs={'class':'ceo_info'}).find('p').texthead_logo = bsObj.find('div',attrs={'class':'com_logo f_left'}).find('img').attrs['src']head_loc = 'D:/爬虫/看准/公司logo/'+this_name+'.jpg'ceo_loc = 'D:/爬虫/看准/CEOlogo/'+this_name+'.jpg'request.urlretrieve(head_logo,head_loc)request.urlretrieve(ceo_pic,ceo_loc)## 获得面试难度url = 'https://www.kanzhun.com/gsm'+str(num)+'.html?ka=com-floater-interview'js='window.open("'+url+'")'driver.execute_script(js)time.sleep(5)driver.close() driver.switch_to_window(driver.window_handles[0])bsObj=BeautifulSoup(driver.page_source,"html.parser")req=request.Request(url,headers=headers)  html=urlopen(req)  bsObj=BeautifulSoup(html.read(),"html.parser")    this_difficulty = float(bsObj.find('section',attrs={'class':'interview_feel'}).find('em').text)this_feeling = bsObj.find('ul',attrs={'class':'score_list'}).find_all('span',attrs={'class':'percent'})this_feeling = [float(k.text.replace('%','')) for k in this_feeling]this_feeling = (this_feeling[0]*5+this_feeling[1]*3+this_feeling[2]*1)/100## 整合数据成为字典this_company ={'name':this_name,'overal':this_overal,'comments':tag[1],'recommend':this_recommend,'future':this_future,'ceo':this_ceo,'difficulty':this_difficulty,'feeling':this_feeling}    return this_company,this_tag,this_name

02

整体对比

我们最终选取了50家互联网公司作为样本进行对比,选取来源主要是结合2018年互联网公司百强榜单和看准网上的实际评价数量,选取的公司logo拼图如下,我们会在第4部分讲解如何将图片进行拼接:

首先对比各项评价指标的TOP15:

可以看到,榜单中BAT在各项排名中都处于十分靠前的位置,网易也占据了多个榜单的靠前位置,腾讯霸占了所有排名的TOP1。下面我们再来看一下面试难度,我们选取了面试难度评分的TOP15和BOTTOM15,该数据仅供参考,根据小编的经验,同一个公司的不同部门不同岗位之间的难度差异也非常大。

在面试难度偏低的一些公司中,有许多非常不错的公司,该数据仅仅是一个参考,真正的面试还是要取决于求职者的实际能力,所谓会者不难,难者不会。真正的大牛无论是面对多么困难的面试,依然可以slay全场。

## 整体评分top15柱形图
company=pd.read_excel('company_info.xlsx')
company_overal = company.sort_values('overal',ascending=False)[0:15]
attr = company_overal['name']
v1=round(company_overal['overal'],2)
bar = Bar("整体评分TOP15",title_pos='center')
bar.use_theme('essos')
bar.add("", attr, v1, is_stack=False,xaxis_rotate=30,yaxis_min=3.7,is_label_show=True,xaxis_interval =0,is_splitline_show=False)
bar.render('整体评分TOP15.html')

03

雷达图

前面我们看的都是各个公司之间的对比,下面我们看一下同一个公司不同维度的情况,我们选取了BAT和TMD作为数据,其他的公司也可以按照同样的方式进行对比,首先看一下BAT:

BAT真的是名副其实的业界标杆,各项指标都slay整个行业,下面我们看一下此前发展势头迅猛的TMD三家公司:

TMD三家公司和行业整体水平相比,也是出于领先地位,可见其还不错的发展势头,最后放上和小编息息相关的三家公司,具体是哪三家,相信了解小编的朋友一定是可以猜出来的:

value_avg = [list(company.iloc[:,[1,3,4,5,6]].mean())]
value_company0 = [list(company.iloc[0,[1,3,4,5,6]])]
value_company1 = [list(company.iloc[1,[1,3,4,5,6]])]
value_company2 = [list(company.iloc[2,[1,3,4,5,6]])]
c_schema= [{"name": "总体评价", "max": 4.4, "min": 3.2},{"name": "推荐度", "max": 4.75, "min": 2.4},{"name": "前景看好", "max": 4.25, "min": 1},{"name": "CEO/董事长认可度", "max": 4.8,"min":3},{"name": "面试难度", "max": 3.4,"min":2.3}]
radar = Radar()
radar.use_theme('essos')
radar.config(c_schema=c_schema, shape='circle')
radar.add(company['name'][0], value_company0, item_color="blue", symbol=None,linewidht=5)
radar.add(company['name'][1], value_company1, item_color="orange", symbol=None,linewidht=5)
radar.add(company['name'][2], value_company2, item_color="red", symbol=None,linewidht=5)
radar.add("整体水平", value_avg, item_color="purple", symbol=None,linewidth=5,legend_selectedmode='multiple')
radar.render('bat.html')

04

图片拼接

看准网提供了各个公司的logo和各位公司大佬的头像,我们冒昧地利用这些数据进行简单的图片拼接,制作成一副大的合成图。主要原理是利用numpy中的多维数组进行拼接,由于图像本身就可以看做是一个三维数组(彩色)或者一位数组(黑白),所以我们只需利用数组的拼接方法,就可以达到我们的目的。

代码如下:

## 拼接公司logo成为5*10的拼图
i = 0
for filename in os.listdir("./公司logo"):file_loc = "D:/爬虫/看准/公司logo/"+filenameimg = mpimg.imread(file_loc)[:,:,0:3]img = cv2.resize(img, (180,180),interpolation=cv2.INTER_AREA)if i % 10 == 0:row_img=imgelif i == 9:row_img=np.hstack((row_img,img))all_img = row_imgelif i % 10 == 9:row_img=np.hstack((row_img,img))all_img = np.vstack((all_img,row_img))else:row_img=np.hstack((row_img,img))i = i+1
plt.imshow(all_img)
plt.axis('off')     ## 拼接大佬头像成为7*7的拼图
i = 0
for filename in os.listdir("./CEOlogo"):file_loc = "D:/爬虫/看准/CEOlogo/"+filenameimg = mpimg.imread(file_loc)[:,:,0:3]img = cv2.resize(img, (500,500),interpolation=cv2.INTER_CUBIC)if i % 7 == 0:row_img=imgelif i == 6:row_img=np.hstack((row_img,img))all_img = row_imgelif i % 7 == 6:row_img=np.hstack((row_img,img))all_img = np.vstack((all_img,row_img))else:row_img=np.hstack((row_img,img))i = i+1
plt.imshow(all_img)
plt.axis('off')

下面就是我们的效果图,不知道大家是否能一眼就把所有的logo都认全

最后是各位大佬的拼图,不知道大家第一眼看到的是哪位大佬,第一眼看到的大佬,或许就是你未来的老板

欢迎各位读者在留言区与我们互动,聊聊你所了解的互联网公司,或者是你最想去的公司。

- The End -

「若你有原创文章想与大家分享,欢迎投稿。」

加编辑微信ID,备注#投稿#:

程序 丨 druidlost

小七 丨 duoshangshuang

来源:https://blog.csdn.net/csdnsevenn/article/details/82975936

揭开互联网公司的神秘面纱,数据解读那些slay整个行业的互联网公司相关推荐

  1. 揭开Spark Streaming神秘面纱② - ReceiverTracker 与数据导入

    问题导读: 1.streaming application 如何兼容众多数据源? 2.receivers 是如何分发并启动的? 3.receiver 接收到的数据是如何流转的? Spark Strea ...

  2. 未来已来?揭开量子计算机的神秘面纱

    从第一台现代计算机ENIAC的诞生到个人PC时代的降临,从互联网概念的提出到移动互联的疾跑,在这个信息年代里,变革正以前所未有的速度改变着我们熟悉的世界.熟悉的生活. 作为个人,我们早已习惯于智能计算 ...

  3. ASP.NET 运行时详解 揭开请求过程神秘面纱

    对于ASP.NET开发,排在前五的话题离不开请求生命周期.像什么Cache.身份认证.Role管理.Routing映射,微软到底在请求过程中干了哪些隐秘的事,现在是时候揭晓了.抛开乌云见晴天,接下来就 ...

  4. 冰河浅析 - 揭开木马的神秘面纱(下)

    冰河浅析   -   揭开木马的神秘面纱(下)     作者:·   shotgun·yesky 四.破解篇(魔高一尺.道高一丈)         本文主要是探讨木马的基本原理,   木马的破解并非是 ...

  5. 揭开木马的神秘面纱 2

    揭开木马的神秘面纱zz 2 离冰河二的问世已经快一年了,大家对于木马这种远程控制软件也有了一定的认 识,比如:他会改注册表,他会监听端口等等,和一年前几乎没有人懂得木马是什么东   西相比,这是一个质 ...

  6. 【翻译】揭开HTML5的神秘面纱

    写在前面的话: 这篇文章摘自Mozilla官网,主要针对HTML5和本地应用发表了一些.没有设计到技术,所以基本是逐字翻译,但愿我蹩脚的英语水平能把大师的 Chris Heilmann的思想整理明白. ...

  7. Azure Stack技术深入浅出系列6:Azure Stack一体机探究 — 揭开黑盒子的神秘面纱

    Azure Stack是微软公有云平台的延伸,为客户环境里提供接口和相关的功能.微软的Azure Stack安装在指定的合作伙伴的一体机中,并以一体机的形式部署到客户的混合云应用环境里的.2017年7 ...

  8. 揭开POJO的神秘面纱

    众所周知,Struts2中的Action编写有三种方式,分别是:(1)POJO(Plain Old Java Object):(2)实现Action接口,重写execute()方法:(3)继承Acti ...

  9. 揭开木马的神秘面纱 1

    揭开木马的神秘面纱 1 前言 在网上,大家最关心的事情之一就是木马:最近出了新的木马吗?木马究竟能实现 哪些功能?木马如何防治?木马究竟是如何工作的?本文试图以我国最著名的木马之  - 冰河为例,向大 ...

最新文章

  1. SegmentFault 技术周刊 Vol.17 - 听说你还没用上 AngularJS
  2. sklearn数据预处理-scale
  3. Unity3dShader_边缘发光效果
  4. 奇异值与特征值什么时候相等-matlab代码验证
  5. P5659-[CSP-S2019]树上的数【贪心】
  6. 如何做一名优秀的电子工程师[zz]
  7. TextView 单行显示长文本
  8. Android doc译文|Building Apps with Content Sharing|Sharing Simple Data
  9. C语言插件开发模式与分析
  10. Sphinx/Coreseek 4.1 跑 buildconf.sh 一个错误,无法生成configure档
  11. android 判断service是否开启
  12. CentOS 7.5安装部署Jewel版本Ceph集群
  13. 新建的邮件服务器只能发件不能收件_49. Django 2.1.7 使用内置函数发送邮件
  14. javascript : spket 视频教程
  15. H7-TOOL发布固件V2.12,正式发布脱机烧录1拖16支持,脱机烧录增加NXP的MKL系列支持,更新串口助手,CAN助手等(2022-01-09)
  16. 如何批量删除Word中向下箭头的符号
  17. Tukey‘s test方法 异常值
  18. 2017杭州云栖大会参会体验
  19. WiFi遥控小车(四):简单直流电机驱动及UDP通信程序
  20. Maven读书笔记之六(仓库)

热门文章

  1. C++11新特性decltype
  2. html纵向文本,html – 垂直对齐CSS圈中多行的文本
  3. 和qc哪个发展更好_城西公司举办2020年度QC成果推广交流发布会
  4. 01_NumPy介绍,什么是NumPy,Python应用、(NumPy、SciPy、Matplotlib相关网址)--来自菜鸟和NumPy中文网
  5. 史上最简单的SpringCloud教程 | 第三篇: 服务消费者(Feign)
  6. 3.QT中的debug相关的函数,以及文件锁的使用
  7. JTable设置列宽、自动调整
  8. python连接各种数据库数据_Python连接各种数据库
  9. 《C#编程风格》还记得多少
  10. 「独家」五面阿里P6:Java开发面试题及答案