载入数据:

import pandas as pd
lj_data = pd.read_csv('../data/excel_data/LJdata.csv')
lj_data

把列名替换成英文:

#原始列名
print(lj_data.columns)
#Index(['区域', '地址', '标题', '户型', '面积', '价格', '楼层', '建造时间', '朝向', '更新时间', '看房人数','备注', '链接地址'],dtype='object')
lj_data.columns = ['district', 'address', 'title', 'house_type', 'area', 'price', 'floor', 'build_time', 'direction', 'update_time', 'view_num', 'extra_info', 'link']
lj_data.columns

查看数据基本情况:

最贵和最便宜的房子:

lj_data.loc[lj_data['price']==210000]
lj_data.loc[lj_data['price']==1300]
lj_data[lj_data['price']==lj_data['price'].min()]
lj_data[lj_data['price']==lj_data['price'].max()]
lj_data.sort_values(by='price').head(1)
lj_data.sort_values(by='price').tail(1)

找到最近新上的10套房子:

lj_data.sort_values(by='update_time', ascending=False).head(10)
#查看所有更新时间
lj_data['update_time'].unique()

看房人数:

lj_data['view_num'].mean() #平均值
lj_data['view_num'].median() #中位数
# 不同看房人数的房源数量
tmp_df =lj_data['view_num'].value_counts().to_frame().reset_index()
tmp_df.columns = ['view_num', 'count']
tmp_df.sort_values(by='view_num', inplace=True)
tmp_df.head()
#画图
%matplotlib inline
tmp_df['count'].plot(kind='bar',figsize=(20,10))

房龄最小的10套房子的平均看房人数、平均面积  :

def get_front_4_num(x):try:return int(x[:4])except:return -1lj_data.loc[:,'house_age'] = 2019-lj_data['build_time'].apply(get_front_4_num)#面积空值判断
lj_data = lj_data[lj_data['area'].notnull()]
#截取面积数值部分
lj_data.loc[:,'area'] = lj_data['area'].apply(lambda x: x[:-2]).apply(lambda x:float(x))
#计算平均值

房子价格的分布:

import numpy as np
print(lj_data['price'].mean())   #平均值
print(lj_data['price'].std())    #方差
print(lj_data['price'].median())  #中位数

看房人数最多的朝向:

popular_direction = lj_data.groupby('direction')[['view_num']].sum()
popular_direction = popular_direction.reset_index()
popular_direction[popular_direction['view_num']==popular_direction['view_num'].max()]

房型分布情况:

house_type_dis = lj_data.groupby(['house_type']).count()
%matplotlib inline
house_type_dis['district'].plot(kind='pie') #饼图
house_type_dis['district'].plot(kind='bar') #柱状图

最受欢迎的房型:

tmp = lj_data.groupby('house_type').agg({'view_num':'sum'})
tmp = tmp.reset_index()
tmp[tmp['view_num']==tmp['view_num'].max()]

房子的平均租房价格 (元/平米):

lj_data.loc[:,'price_per_m2'] = lj_data['price']/lj_data['area']
lj_data['price_per_m2'].mean()

热门小区:

address_df = lj_data[['address','view_num']].groupby(['address']).sum()
address_df = address_df.reset_index()
address_df.sort_values(by='view_num', ascending=False)

出租房源最多的小区:

tmp_df2 = lj_data[['address','view_num']].groupby(['address']).count()
tmp_df2 = tmp_df2.reset_index()
tmp_df2.columns =  ['address','count']
tmp_df2.nlargest(columns='count', n=1)

集中供暖 平均价格:

不同房型的平均/最大/最小面积:

house_type_info = lj_data[['house_type','area']].groupby("house_type")\
.agg({"area":{'mean','max', 'min'}})

哪个地铁口附近房源最多:

import re
#距离14号线(东段)东湖渠站731米 随时看房 精装修 集中供暖
def find_sub_station(x):try:return re.search(pattern="(.+号线)(.+站)([0-9]+)米", string=x).group(2)except:return None
lj_data.loc[:,'sub_station'] = lj_data['extra_info'].apply(find_sub_station)
#统计
lj_data[['sub_station','link']].groupby('sub_station').count()

是否有地铁 价格比较:

def has_sub_station(x):return 1 if "距离" in x else 0lj_data.loc[:,'has_sub_station'] = lj_data['extra_info'].apply(has_sub_station)lj_data[['has_sub_station','price']].groupby('has_sub_station').agg('mean')

地铁附近房源距离地铁平均距离:

#距离14号线(东段)东湖渠站731米 随时看房 精装修 集中供暖
def cal_sub_station_distance(x):try:return int(re.search(pattern="(.+号线)(.+站)([0-9]+)米", string=x).group(3))except:return Nonelj_data.loc[:,'distance'] = lj_data['extra_info'].apply(cal_sub_station_distance)lj_data['distance'].mean()

在租房源楼层情况:

def get_floor(x):if '低楼层' in x:return '低楼层'elif '中楼层' in x:return '中楼层'else:return '高楼层'lj_data.loc[:,'floor'] = lj_data['floor'].apply(get_floor)

链家租房信息案例数据分析相关推荐

  1. python爬虫--爬取链家租房信息

    python 爬虫-链家租房信息 爬虫,其实就是爬取web页面上的信息. 链家租房信息页面如下: https://gz.lianjia.com/zufang/ ## python库 Python库 1 ...

  2. 爬取南京链家租房信息

    爬取南京链家租房信息 代码如下 代码片. import requests from lxml import etree if name == "main": #设置一个通用URL模 ...

  3. 爬取广州链家租房信息,并用tableau进行数据分析

    在外工作,难免需要租房子,而链家是现在比较火的一个租房网站,本文章主要是爬取链家在广州的租房信息,并且进行简单的数据分析. 数据采集 如图所示,我们需要的信息主要是存放在这个标签里面,我们把信息采集下 ...

  4. 50 行代码爬取链家租房信息

    最近自己开始学习数据分析的技术,但数据分析最重要的就是数据.没有数据怎么办?那就自己爬一些数据.大家一定要记得爬虫只是获取数据的一种手段,但如果不用一系列科学的方式去分析这些数据,那么爬去下来的数据是 ...

  5. 链家网开源java_异步协程爬取链家租房信息

    异步协程抓取链家数据+pandas写入csv import asyncio import aiohttp import pandas from bs4 import BeautifulSoup fro ...

  6. python爬取链家租房信息_Python爬取链家网上海市租房信息

    使用Python进行上海市租房信息爬取,通过requests + Beautifulsoup对网页内容进行抓取和数据提取. import requests from bs4 import Beauti ...

  7. python爬取链家租房信息_python爬取链家租房之获取房屋的链接和页面的详细信息...

    因为期末考试的缘故,本打算一个星期结束的爬虫,拖了很久,不过,也有好处:之前写的时候总是被反爬,这几天复习之余写了些反爬取的py code 下面发出来和大家探讨 做了些反爬取的手段 随机获取一个hea ...

  8. PYTHON链家租房数据分析:岭回归、LASSO、随机森林、XGBOOST、KERAS神经网络、KMEANS聚类、地理可视化...

    全文下载链接:http://tecdat.cn/?p=29480 作者:Xingsheng Yang 1 利用 python 爬取链家网公开的租房数据: 2 对租房信息进行分析,主要对房租相关特征进行 ...

  9. 数据挖掘与数据分析项目链家租房数据(一)数据爬虫

    数据挖掘与数据分析项目链家租房数据(一)数据爬虫 今日无聊将一个过去做的链家数据分析项目弄上来,当时是某面试,三天时间完成,主要是供大家抄代码和分享一下思考点,这一章是爬虫部分. 网站原图 结果截图 ...

最新文章

  1. 整理的一点MD5资料(第一部分)
  2. 人工智能的发展与障碍 | 麦肯锡
  3. VTK:可视化之KochSnowflake
  4. C#sharp 必须扩展的知识点
  5. linux multipath.log,Linux Multipath配置
  6. python偶数列表_使用条件偶数列表创建带有地图的元组 - python
  7. python使用t-sne算法降维,方便可视化
  8. 纵坐标范围_探索频率范围与频响的奥秘
  9. centos7.5 安装apidoc全过程实测
  10. 为了搞懂什么是区块链,我都快抑郁了(转)
  11. JSON.toJSONString 出现 {$ref: “$.deduceGridCellVoSet[0].stateFlightsBasic[0]“}
  12. Linux笔记19.postfix邮件服务器配置安装
  13. linux 网络监控 邮件,一种基于Linux的邮件监控方法与流程
  14. apache ii评分怎么评_APACHE-II评分表.doc
  15. Trucksim车辆动力学模型
  16. 图片质量与ISO 光圈 快门 测光 曝光与曝光补偿 焦距和焦距转换系数 景深与光圈优先 白平衡与RAW
  17. 根据ip查经纬度软件_根据地址查询经纬度IP(百度地图)
  18. 吴恩达-deep learning 02.改善深层神经网络:超参数调试、正则化以及优化Week1
  19. Java Server Faces_JSF ( JavaServer Faces ) 介绍
  20. 解决 git 文件夹不显示绿色图标和红色图标的问题

热门文章

  1. 链接产业 聚变未来 | 移动云区块链开发者论坛来了
  2. WAIC剪影:AI的未来,关乎星辰大海
  3. 装上后这 14 个插件后,PyCharm 真的是无敌的存在
  4. Google提出移动端新SOTA模型MixNets:用混合深度卷积核提升精度
  5. 李沐亲授加州大学伯克利分校深度学习课程移师中国,现场资料新鲜出炉
  6. Python程序员Debug利器,和Print说再见 | 技术头条
  7. 如何构建优质的推荐系统服务?| 技术头条
  8. 00后的AI开发者进阶之道:从入门到鏖战MIT编程大赛 | 人物志
  9. 算力超英伟达?华为推出两款“昇腾”芯片;五大AI战略正式公布
  10. AI一分钟 | 华米发布全球首款可穿戴AI芯片;亚马逊年底上线至少8款Alexa设备