目标:深圳租房信息

数据获取

需要爬取的信息 ---->

分析该网站的html结构,获取这些字段

使用requests,BeautifulSoup,,,各种包爬取数据

得到的csv如下:

数据清理

合并由于反爬虫而多次爬的csv数据

去重(drop)&&数据列的拆分(正则)&&整理列的顺序

处理完以后的表格结构,把位置,房间大小,出租的形式以每一列的形式展现:

数据分析

初步观察数据的特征值的缺失情况 ,表示没有缺失值,初步验证发布58租房信息时这些消息都是必填选项。(sz_rent.describe())

统计特征值是数值的的统计值(sz_rent.describe()),包括平均数,中位数,标准差,最小值,最大值,四分位数,75%分位数。这些结果简单直接,初步了解一个特征值非常有用,比如我们观察到size的最大值140平方米,最小是9平方米。

接下来用可视化来清晰的展示各个数据的关系。

新建一个房子的每平方米的出租价格perPrice插入表格,如下

可视化分析

region特征分析

使用了pandas的网络透视功能groupby分组排序。区域特征可视化直接采用seaborn完成,颜色使用调色板palette参数,颜色渐变,越浅说明越少,反之越多。

如上可以得出观察到:

每平米租金:福田>南山>罗湖>宝安>龙华>龙岗>盐田>光明>坪山基本符合我们广大租房群众的租房常识。

出租房的数量:龙华>宝安>罗湖~福田~南山 >坪山。关外房子数量多啊,关外啥都好,房价便宜,吃的便宜,但是就是交通不便。总总优势,所以还是选择关外的租房的人会多一些把。

通过箱型图看到,各大区域房屋总价每平米中位数都都在200以下,且房屋总价离散值较高,最高的点是在大冲,第二高点在福田,科技园和金融的大佬居住的地方,离公司近,无所谓房租。

size特征值分析

Size 与 Price 的关系:

通过 regplot 绘制了 Size 和 Price 之间的散点图,发现 Size 特征基本与Price呈现线性关系,符合基本常识,面积越大,价格越高。但是有两组明显的异常点:1. 面积120左右的租金价格在12000。2. 一个点面积140平米左右,价格偏低,需要查看是什么情况。

猜测应该是位置的原因把。

1.

2.

南山地铁口的房子,靠近腾讯大厦,三条地铁线,科技园的中心,所以租金。

公明,还没开发的光明新区,没有通地铁,所以租金那么低。

选择租房地址,不仅仅要考虑租金,交通也是很重要的。

====符合大家租房常识。

layout 分析

单间出租比较多,一室一厅,一室0厅都是单间出租。反向推理,大部分人也还是比较愿意一个人住。

出租房间类型与价格分析

整租的数量多一些,然后单间的每平米价格会更高,观察数据得知单间的大都时候是整套里面所谓的一间出租,自然面积会小很多,导致单间每平米的租金会高一些。然后添加月租金和出租类型的关系得证。

遇到的坑:

1.问:安装pip3及各种package

答:折腾了很久,然后发现是网络的问题。

--添加代理 pip3 install -i pypi.doubanio.com/simple/ IPytho

2.问:58的反爬虫-登陆机制

答:没有gg到对应方法,采取了多次分批爬虫;

3.问:58的反爬虫-数字采用加密的方法

答:找到对应的密文转化成二进制保存到woff字体中并转为xml文件

观察字体文件,一一变为正常字体

4.问:数据可视化中文字体显示为方块

答:下载SimHei.ttf拷贝并安装到本地,修改配置项,重启python'

总结

这是一篇很鸡肋的分析文章,都是在我们可以推理得到的基础上,当然这篇主要是为了学习用python进行爬虫,数据清理,然后学会用各种工具对数据进行分析。

学习的过程中当然也存在一些问题:

爬虫的数据不够多,--好好学习一些反爬虫的技巧

分析的比较浅显 慢慢积累多挖掘

需要做更多的特征工程工作,数据清洗,特征选择和筛选

使用统计模型建立回归模型进行价格预测最后:github地址:

github.com/heavy-snowy…

python租房_爬虫深圳租房网站租房分析(python)相关推荐

  1. kettle大于0的转换成1_第一期实训周:基于Python+MySQL+Kettle+R的某网站数据采集分析...

    ↓ 基于Python+MySQL+Kettle+R的 某网站数据采集分析 哈喽!各位学员们 咱们第一期课程就要开始了 下面划重点! 一 高校院系 齐鲁工业大学数学与统计学院应用统计系 二 实训日期 2 ...

  2. python 比价_爬虫+网站开发实例:电影票比价网

    注:一篇去年的旧文,发现没在知乎发过,过来补个档.有个小问题是项目中淘票票的网页反爬提升且变动较多,目前暂不可用了. 时常有同学会问我类似的问题:我已经学完了 Python 基础,也照着例子写过一点爬 ...

  3. python微博评论爬虫_详解用python写网络爬虫-爬取新浪微博评论 基于Python的新浪微博爬虫研究...

    怎样爬取新浪微博的评论信息 针对八爪鱼在微博的应用上,除了用户信息之外还包括话题内容方面的采集,目前绝大多数企业均在微博设有官方微博,八爪鱼可以协助企业快速及时的抓取与企业产品相关联的话题信息,规则市 ...

  4. Python博文_爬虫工程师是干什么的

    程序员有时候很难和外行人讲明白自己的工作是什么,甚至有些时候,跟同行的人讲清楚"你是干什么的"也很困难.比如我自己,就对Daivd在搞的语义网一头雾水.所以我打算写一篇博客,讲一下 ...

  5. 贴吧python登录_爬虫:利用python完成百度贴吧数据采集

    前言:本文主要是分享下利用python爬取百度指定贴吧的全部帖子以及帖子回复内容,主要是利用python的request库获取网页信息,通过正则等方式解析我们需要的数据并存储到数据库中,并且后续可以用 ...

  6. python报名_(招募结束,停止报名)『Python爬虫小分队』群招募公告

    一.『Python爬虫小分队』群说明 『Python爬虫小分队』(以下简称学习群)是 付费学习群,包括微信群和QQ群. 日常任务布置,学习交流,主要用微信群,QQ群用于演示讲解.远程辅助协助. 参加学 ...

  7. 用python写网络爬虫 第2版 pd_用Python写网络爬虫(第2版)

    用Python写网络爬虫(第2版)电子书 畅销的Python网络爬虫发实战图书全新升级版,上一版年销量近40000册. 针对Python 3.6版本编写. 提供示例完整源码和实例网站搭建源码,确保用户 ...

  8. python 脑洞_从说韩语到写Python,这个数据媛的脑洞有毒吧

    你好,Hello,안녕하세요, こんにちは,我是会说四门语言,但是日语可以忽略,韩语也差不多已经忘记,转而写R和Python的语言学迷妹聂大哥. 我要说的脑洞有毒的数据媛就是我计己,哈哈.正式入坑数据 ...

  9. python 快速排序_小白入门知识详解:Python实现快速排序的方法(含实例代码)...

    前言: 今天为大家带来的内容是:小白入门知识详解:Python实现快速排序的方法(含实例代码)希望通过本文的内容能够对各位有所帮助,喜欢的话记得点赞转发收藏不迷路哦!!! 提示: 这篇文章主要介绍了P ...

最新文章

  1. 跨域cookie传递
  2. 数组 ——求出一组数的最大值(用数组实现)
  3. adb shell 命令详解,android, adb logcat
  4. 转发:Datawhale第七期组队学习计划
  5. Scala数组元素的增加(:+)方法
  6. 解决MyBatis的报错 There is no getter for property named ‘*‘ in ‘class java.lang.String‘
  7. linux禁用ssh弱加密算法,SSHSSL弱加密算法漏洞修复
  8. 程序员在服务器安“炸弹”格式化原公司内部资料!
  9. Java配置环境变量
  10. Linux下C语言开发(多任务编程之任务、进程、线程)
  11. matlab机器人工具箱puma560模型学习
  12. 无需支付688苹果开发者账号,xcode打包导出ipa,提供他人进行内测
  13. 操作系统--磁盘存储器篇
  14. 软件工程:编码和测试
  15. Java 8 新特性——实践篇
  16. 学习阿里代码规范笔记
  17. 人工智能中的线性代数:如何理解并更好地应用它
  18. 如何对列表/元组进行排序(列表/元组)?
  19. python tableview没有数据时的占位处理_iOS造轮子系列-TableView空数据显示占位图片 runtime实现...
  20. c语言程序 存款利息的计算,【c语言】存款利息的计算

热门文章

  1. 基于adams与simulink的七自由度机械臂模型与控制仿真
  2. css持续淡入淡出,在CSS中连续的淡入淡出效果
  3. 从壹开始前后端分离 [ Vue2.0+.NET Core2.1] 十七 ║Vue基础:使用Vue.js 来画博客首页(一)...
  4. oppor17山寨机的特点_oppor17怎么样优缺点
  5. java时间戳 1970_java之时间戳处理
  6. 《中国教育报》投稿邮箱编辑部征稿
  7. js 全国城市3级联动
  8. FB主页被下架,个人账号被封,申诉链接
  9. *#OpenFOAM安装后的第一个案例的理解与运行(pitzDaily)
  10. MySQL读写锁总结