我爬取了猪八戒网站的信息,发现了程序员做威客不得不进的坑
猪八戒威客网是一个比较成熟的威客社区,雇主和威客们双向选择,既方便了中小雇主,又方便广大程序员兼职挣外快,早日实现财务自由。
我在爬取了猪八戒网站近段时间的任务信息(约3000条)后,利用这些为数不多的样本数据,简单的模拟了一次数据分析。属于菜鸟级的数据分析,没有什么技术含量。
数据分析中最重要的是数据分析的思维、逻辑思考的方式,数据的获取、清洗、处理只能算是最初级、最基本的操作。
一、数据获取
使用万能的python语言,利用爬虫获取猪八戒网站上的任务信息,保存在本地。
二、数据清洗
对文件中的数据进行简单的清洗、去除垃圾数据,比如在地址栏中,正常地址山东济南历下,如果遇到直辖市会出现北京北京朝阳,为了后面处理方便,这里就需要把北京等直辖市的地名做一步处理。
三、数据分析
词云比较简单、直观、明了,在这里我主要进行了词云表示。
1、 雇主需求分析
图1 发布任务的词云图,对应于上面表格的标题,是雇主发布任务时的标题。可以看出,在这里软件开发、APP、Logo设计、微信开发、网站设计等需求比较多。
图2 需求类别词云。对应于上面表格中的任务类别,这个类别是在雇主发布任务时,给任务细分的类别,从中可以看出,Logo设计、网站开发、微信开发、APP开发依旧是热点。
2、 雇主地域分析
图3地域分布词云其实这一个如果以地图的形式显示出来效果可能更好,猪八戒网站是重庆的公司,当地的雇主占了很大一部分,其次就是北上广深这些一线城市。
3、 任务价钱分析
图4 任务价钱词云。可以看出,价格主要在1000以内,这也说明了威客平台主要针对中小企业的雇主发布任务。
4、 雇主关心的事
图5 任务详情词云。这个词云对应的是上面表格中的内容一栏,是雇主发布任务时的具体要求,我们可以看到,雇主关心的就是需求、预算和周期。简单地说,一是要满足雇主提出的要求、二是要尽可能控制成本,三是要按时间完成。这在我们线下做项目其实道理是一样的。
四、总结
一是猪八戒网主要面向的还是传统的互联网行业,比如微信开发、软件开发、logo设计等,因为面向的是中小企业可个人开发者,近年来新兴的技术和产业涉及的较少。
二是任务预算主要在1000以下,单个开发者要从事威客工作,还是应该以兼职的方式进行,如果是团队形式,那么只要分工明确,就可以全职接单,收入也会不菲。
我爬取了猪八戒网站的信息,发现了程序员做威客不得不进的坑相关推荐
- Java爬虫 爬取某招聘网站招聘信息
Java爬虫 爬取某招聘网站招聘信息 一.系统介绍 二.功能展示 1.需求爬取的网站内容 2.实现流程 2.1数据采集 2.2页面解析 2.3数据存储 三.获取源码 一.系统介绍 系统主要功能:本项目 ...
- 简单的爬取某租房网站租房信息并存入MySQL数据库
这是我第一个爬虫项目,因为我有一些其他语言的基础,所以在入坑python十来天后终于完成了一个小项目,其间的辛酸不足为外人道也...说了这么多,那就让我们开始吧. 1.先看看使用的库: import ...
- 手把手教你用python爬取人人贷网站借款人信息
P2P是近年来很热的一个行业,由于这个行业在国内兴起才不久,国内的很多学者对这个行业都兴趣盎然,在大学研究互联网金融的学者更是有一大群.小编是学金融出身,深知数据在做学术研究的重要性,之前有不少学互联 ...
- python:爬取天气预报+美女网站数据信息
一.爬取湛江天气预报信息 url:http://www.weather.com.cn/weather/10128100101A.shtml 1.思路分析: ①先爬取网页所有数据,div/ul/li,获 ...
- 【Python】爬取国外购物网站商品信息实战
1.项目目录 ----Project ------venv --------main.py --------brickseek.py --------database.py 2.main.py imp ...
- 爬虫实战-爬取房天下网站全国所有城市的新房和二手房信息(最新)
看到https://www.cnblogs.com/derek1184405959/p/9446544.html项目:爬取房天下网站全国所有城市的新房和二手房信息和其他博客的代码,因为网站的更新或者其 ...
- Python爬虫:输入公司名称,爬取企查查网站中的公司信息
前言 本文的文字及图片来源于网络,仅供学习.交流使用,不具有任何商业用途,如有问题请及时联系我们以作处理. 以下文章来源于Python爬虫数据分析挖掘 ,作者:李运辰 根据输入的公司名称来爬取企查查网 ...
- 爬取链家网站的北京租房信息
本来准备这个暑假好好复习,但学校安排暑期实践,既然学校安排这个,而且我自己也觉得需要提高一下自己的能力,所以静下心来做点事吧.我们要做到项目是分析北京地区的租房的信息分析. 我们需要做的是爬取链家网站 ...
- Python爬取斗鱼直播网站信息
一.需求 爬取斗鱼直播网站信息,如直播名字.主播名字.热度.图片和房间网址,将这些数据保存到csv文件中,并单独创建文件夹保存图片. 斗鱼直播网址:https://www.douyu.com/g_LO ...
最新文章
- Python数据挖掘:绘制直方图,设置上下限和步长,绘制子图
- Oracle的口令文件(passwordfile)的讲解(摘录)
- ASP.NET MVC如何实现自定义验证(服务端验证+客户端验证)
- Windows XP Mode
- 15.2 java中迭代器的注意事项
- 【误区】技术部经理vs技术经理 —— 一字之差谬以千里
- 1.10 理解人的表现
- Red Gate系列之四 SQL Data Compare 10.2.0.885 Edition 数据比较同步工具 完全破解+使用教程...
- 泰克吉时利Keithley数据采集器自动计量校准软件NSAT-3070
- 32位电脑和64位电脑
- 线性回归(线性拟合)与非线性回归(非线性拟合)原理、推导与算法实现(一)
- 读书之《别做正常的傻瓜》
- 联盛德 HLK-W806 (十二): Makefile组织结构和编译流程说明
- sql简介香气和sql简介_香气和SQL简介
- 彻底解决连上了网却不能上网问题:未连接到互联网
- 1. MyBatis框架介绍
- asp.net英语四六级考试报名系统
- [Netty]pipeline(二)
- git clone 使用代理加速
- ubuntu更新源修改更新源
热门文章
- java httpclient 采集_使用java HttpClient 与Web服务器交互 - elliott - 博客园
- python实现循环注册登录_Python入门案例-用户注册和登录
- DTO、QO、PO、BO分别是什么意思
- 就业技术书文件表格_《就业规划书》模板
- 云表WMS仓储管理系统助力公司业务增长
- VS2015快捷键 修改
- 借助onenet平台,温湿度远端采集
- c语言s10 是什么意思啊,【S10】A.FortunatelyB.ComparativelyC.ConsequentlyD.Conversely - 试题答案网问答...
- STM32使用OLED显示一个简单的计数器
- 【重识云原生】第六章容器6.1.8节——Docker核心技术UnionFS