项目实战!Python分析广州房地产市场,房价还会再涨吗?
今天给分析一个项目实操案例,结合房地产业务,针对广州这一城市,运用Python来进行数据分析,希望能为大家提供一点分析思路。
分析背景
为什么要分析房地产市场?房地产行业具有鲜明的地域特征,从房地产企业角度来讲,城市的选择在一定程度上决定了投资的成败。因此,对一个城市的市场研判就显得至关重要。早在几年前,同样的资金配置到南京和长沙两个城市,获得的投资回报差别是巨大的。
2017年至2019年南京和长沙二手房(元/㎡)
分析思路
那么,我们该如何分析房地产市场?我从数据分析的角度,归纳梳理了一下思路,我认为一个城市的房地产市场分析应该包括城市经济、相关政策、土地市场和房产市场四个方面。城市经济反映了一个城市的经济实力和潜能,可以细分出以下几个指标:人均GDP和单位面积GDP、人均财政收入和单位面积财政收入、高净值人群规模、人口净流入、第三产业占比、产业互补、房地产投资依赖度、城市友好度等。政府制定的政策对房地产市场影响也是巨大的,相关性较高的政策有金融政策、人口政策、土地政策和购房政策等。最后就是城市土地市场和房产市场分析,这也是整个分析最核心的部分。
房地产市场分析框架
接下来,我将结合Python,以广州为例,尝试着分析广州的土地市场和房产市场,城市经济和相关政策的分析将留在以后的文章中叙述。
广州土地市场分析
土地市场包括一级市场和二级市场,一级市场是土地使用权出让的市场,即国家通过其指定的政府部门将城镇国有土地或将农村集体土地征收为国有土地后出让给使用者的市场,出让的土地,可以是生地,也可以是经过开发达到“七通一平”的熟地。二级市场即土地使用权出让后的再交易,土地使用者将达到规定、可以交易的土地使用权,进入流通领域进行交易的市场。限于篇幅,本文仅从土地一级市场着手进行数据分析。
获取土地数据
土地市场数据一般会公示在当地的公共资源交易中心,但经常会出现只公示当周或当月数据的情况,因此,我们可以去找专业的土地网站获取交易数据。
本文以土流网为例,这个网站结构简单,简单的url翻页构造,然后用xpath解析数据即可。限于篇幅,爬虫代码不做赘述,仅提供核心代码。
def main():for page in range(1,46): #这里设置页数url = 'https://www.tudinet.com/market-213-0-0-0/list-o1ctime-pg{}.html'.format(page)print(url)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',}response = requests.request("GET", url, headers = headers)#print(response.status_code)if response.status_code == 200:re = response.content.decode('utf-8')print("正在提取第" + str(page) + "页")time.sleep(random.uniform(1,2))print("-" * 80)# print(re)parse = etree.HTML(re) #解析网页items = parse.xpath('.//div[@class="land-l-cont"]/dl')parse_page(items)if len(items) < 10: print('获取完成')breakif __name__ == '__main__':time.sleep(random.uniform(1,2))main()
运行爬虫代码,提取到广州1238块土地数据
分析土地数据
1、土地成交状态
近10年广州土地招拍挂成交情况
2011年至2020年,广州土地招拍挂未成交和流拍土地规模占到一半,成交土地占比仅为49.71%,整体成交率并不高。未成交的原因主要集中在没有意向竞拍人、出价未达到规定的底价等。
2、土地成交面积
近10年广州土地招拍挂成交面积(万㎡)
2011年至2016年广州市土地招拍挂成交土地较少,2016年成交规划建筑面积仅为77.30万㎡。2017年以后成交规模开始步入高潮,2018年成交规划建筑面积达到1635.50万㎡。
2019年以来广州土地招拍挂成交面积(万㎡)
从各月份土地成交来看,广州2019年前半年土拍市场相对沉寂,年中以后开始恢复正常,2019年年底土拍市场进入火热状态。2019年11月和12月分别成交宗地21块和38块。
土地成交结构
近10年广州土地招拍挂成交土地类型占比(%)
近10年来广州成交土地主要以工业用地、其他用地和住宅用地为主,工业用地占比高达41.19%,这也是广州工业企业发达的重要动因。
3、土地成交区域
近10年广州各区土地招拍挂成交面积(万㎡)
从成交区域来看,南沙区和番禺区各年都有一定土地成交,越秀区和天河区成交土地较少。2020年以来,南沙区土地市场火热,成交面积远高于广州其他地区。
广州房产市场分析
房产市场分析主要包括新房和二手房交易市场,由于一般的房产信息发布平台二手房数量远大于新房,为尽可能获取更大样本数据,提高分析的准确性,本文以广州二手房成交数据进行房产市场分析。
1、获取二手房数据
本文通过Python获取房天下公布的广州二手房成交数据。房天下的爬虫也较为简单,爬虫逻辑类似贝壳找房,唯一需要注意的是当遍历完一个子地区后跳转下一个子地区的处理。以下给出核心代码:
def main():#增城a080;番禺a078;南沙a084;花都a0639;白云a076;海珠a074;越秀a072;荔湾a071;天河a073;从化a079;黄埔a075district_list = ['a084', 'a078','a080', 'a0639','a076', 'a074','a072', 'a071','a073', 'a079','a075'] #地区for district in district_list:for page in range(1,101): #这里设置页数url = 'https://gz.esf.fang.com/chengjiao-{0}/i3{1}/'.format(district, page)print(url)headers = {'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/70.0.3538.77 Safari/537.36',}response = requests.request("GET", url, headers = headers)if response.status_code == 200:re = response.content.decode('utf-8')print("正在提取" + district +'第' + str(page) + "页")time.sleep(random.uniform(1,2))print("-" * 80)# print(re)parse = etree.HTML(re) # 解析网页items = parse.xpath('.//div[@name="div_houselist"]/dl')parse_page(items)if len(items) < 30: #遍历完子地区后跳转print('获取完成')breakif __name__ == '__main__':time.sleep(random.uniform(1,2))main()
代码运行几分钟就提取下22170套广州二手房数据,简单清洗后部分数据展示如下:
分析二手房数据
1、量价走势
近5年广州二手房量价走势
从广州近几年二手房的量价走势来看,自2015年以来房价一直在上涨,2018年二手房均价达到35000元/㎡。2019年房价有所回落,但成交二手房数量达到近几年峰值,全年成交8940套。
2020年1月至6月广州二手房量价走势
2020年1月至6月,广州二手房均价与2019年基本持平。从成交量来看,2月份受疫情影响仅成交70套二手房,3月份以来,疫情逐渐得到控制,房产市场向好,6月份成交二手房1337套。
2、房价分布
2020年上半年广州各区二手房均价(元/㎡)
从房价分布来看,2020年1月至6月二手房均价最高的地区为越秀区和天河区,均价分别为46767.52元/㎡和46433.89元/㎡。从化区房价最低,仅为12190.67元/㎡。
3、楼盘成交TOP20
2020年1月至6月广州二手房成交TOP20楼盘
从楼盘成交来看,2020年1月至6月广州二手房成交数量最多的楼盘为位于增城区的锦绣天伦花园,共计成交78套,成交均价为18565.40元/㎡。
4、相关性分析
import pandas as pd
import matplotlib.pyplot as plt
import matplotlib as mpl
import seaborn as sns
%matplotlib inline
sns.set_style('white') #设置图形背景样式为白色
df = pd.read_excel("D:\data\地产数据分析\广州二手房.xlsx")
df = df[['室','厅','面积(㎡)','层数','成交单价(元/㎡)']] #选择需要的列
df.rename(columns={'室': 'room', '厅': 'hall', '面积(㎡)': 'area', '层数': 'floor', '成交单价(元/㎡)': 'price'}, inplace=True)
fig,axes=plt.subplots(1,2,figsize=(12,5))
sns.regplot(x= 'room',y='price',data=df,color='r',marker='+',ax=axes[0])
sns.regplot(x='hall',y='price',data=df,color='g',marker='*',ax=axes[1])
近5年广州二手房居室、面积、楼层与房价的关系
通过绘制广州二手房回归图,我们发现,广州二手房居室数、面积与房价相关性并不大。房屋楼层与房价看似具有较强的正相关,其实是受三个异常值影响,并不具有相关性。
广州房地产市场小节
从广州土地市场来看,近年来土地市场有所回暖,尤其是南沙区和番禺区土地市场成交稳定,未来仍具有发展潜力。从房产市场来看,广州二手房自2019年来价格变动幅度不大,维持30000元/㎡左右。疫情下二手房交易受挫,部分房企尝试以价换量争取更大去化量。疫情逐渐得到控制后,二手房交易明显恢复。城中心房价维持高位,广州以北的从化和增城房价较低,仍具有上升空间。
项目实战!Python分析广州房地产市场,房价还会再涨吗?相关推荐
- 用Python分析广州房地产市场
大家好,我是查理.有一阵时间没有更文了,在此向关注我的朋友道个歉.这次我想结合房地产业务,针对广州这一城市,运用Python来进行数据分析,以期能为大家提供一点分析思路.为什么要分析房地产市场?房地产 ...
- 项目实战-----Python编写疫苗信息管理系统
版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明. 本文链接: https://blog.csdn.net/weixin_43425784/art ...
- 视频教程-Python疫情监控完整项目实战-Python
Python疫情监控完整项目实战 数据产品讲师,人工智能探索者,15年一线IT研发经验,国内顶级互联网行业工作背景,社区达人,著有长篇连载<胖子哥的大数据之路>,<数据实践之美> ...
- 视频教程-Python+Vue+Django前后端分离项目实战-Python
Python+Vue+Django前后端分离项目实战 教学风格独特,以学员视角出发设计课程,难易适度,重点突出,架构清晰,将实战经验融合到教学中.讲授技术同时传递方法.得到广大学员的高度认可. 王进 ...
- 笨办法学Python(第四版)最新版+Python爬虫开发与项目实战+Python网络数据采集+精通Scrapy网络爬虫
笨办法学Python(第四版)最新版+Python爬虫开发与项目实战+Python网络数据采集+精通Scrapy网络爬虫 本资料为最新整理高清带目录pdf,百度网盘下载~~~ 本资料为最新整理高清带目 ...
- 联想ERP项目实施案例分析(10):回到最初再反思IT价值
联想ERP项目实施案例分析(10):回到最初再反思IT价值 投入上千万(未来每年的维护费也很高),投入一年实施时间,高级副总裁亲自挂帅,各级业务部门管理者亲自负责.骨干业务人员充当区域IT实施者/推进 ...
- 五年企稳上升的阿里,还能再涨吗?
北京时间今天凌晨,CNBC名嘴吉姆·克莱默在Mad Money中称,纳斯达克综合指数创历史新高,从股价走势来看,Alphabet.Snapchat和阿里巴巴可能有更大的上涨空间. 现在在美国资本市场上 ...
- 用Python分析波士顿的房价,酸爽!!!
这个是Kaggle专栏的第二篇,赛题名是:House Prices - Advanced Regression Techniques.在本文中你将会学习到: 单.多变量分析 相关性分析 缺失值和异常值 ...
- Android性能优化——腾讯、字节、阿里、百度、网易等互联网公司项目实战+案例分析(附PDF)
前言 当我们还在用按键.滑盖.翻盖手机的时候,全触屏手机来了; 当我们觉得二维码这项发明没有意义的时候,支付宝和微信等狠狠地给了我们响亮的耳光; 当我们以为扫码支付只有支付宝的时候,微信支付来了; 当 ...
最新文章
- Spring MVC【入门】就这一篇
- 面试 排序 java_面试 12:玩转 Java 快速排序
- 良心之作!超过 10000+ 的互联网团队正在使用的在线 API 文档、技术文档工具
- Android Studio下载、安装、配置及连接真机开发第一个App ——入门选手快进
- 中文网页重设与排版:TYPO.CSS
- IE每打开一个网页跳出网页处理
- pytorch学习笔记(三十七):RMSProp
- Luogu2216 [HAOI2007]理想的正方形
- 金融风控实战——可解释人工智能技术
- Windows:Win10商店找回
- 火盈云库浅谈新老版本的对比和发展过程
- matlab短均线滞后项,如何解决均线理论时间滞后性? 方法其实很简单!
- 共饮维港夜色,TUV南德香港啤酒节精彩落幕
- Chartboost-x新鲜出炉: C++ Wrapper of Chartboost for Cocos2d-x
- jQuery TagsInput
- python降低图像分辨率_python如何更改图像像素
- ps怎样新建渐变|自定义渐变
- FOC控制原理学习(一)
- HTTP状态码常见的状态码!
- 如何激励“躺平”员工?