02-02成都二手房分析项目
一、分析目的
1、2020年成都二手房整体挂牌量及均价走势如何?
2、目前成都二手房价位、房源有何特点?
3、成都各区县的挂牌情况,找出抛压最大的区域?
二、主要工作
1、数据挖掘:
从链家网爬取成都二手房在售房源新信息,并持久化存储
1-1 模块导入
import requests
from lxml import etree
import pandas as pd
import xlwtheaders={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'}
1-2 url模板构造
# url通用模板的构造
def allurl(target_page):url=url='https://cd.lianjia.com/ershoufang/pg{}/'for page in range(1,int(target_page)+1):yield url.format(page)if __name__=="__main__":target_page=input("输入想要爬取的页数:")print(target_page)
1-3 每套房子详情页的获取
# 详情页的获取:
all_url='https://cd.lianjia.com/ershoufang/pg1/'
def get_detailpage_url(allurl):resp=requests.get(allurl,headers=headers)
# if resp.status.code()==200:tree=etree.HTML(resp.text)li_list=tree.xpath('//ul[@class="sellListContent"]/li')urls=[]for li in li_list:
# print(li)detail_url=li.xpath('.//a[@class="noresultRecommend img LOGCLICKDATA"]/@href')[0]
# print(detail_url)urls.append(detail_url)return urls
get_detailpage_url(all_url)
1-4 所需内容得解析
def open_url(urls):info={}for url in urls:response=requests.get(url,headers=headers).texttree=etree.HTML(response)info['标题']=tree.xpath('.//div[@class="title"]/h1/text()')[0]price_list=tree.xpath('/html/body/div[5]/div[2]/div[3]/span//text()')info['总价']=price_list[0]+price_list[1]info['单价']=tree.xpath('/html/body/div[5]/div[2]/div[3]/div[1]/div[1]/span//text()')[0]info['建筑时间']=tree.xpath('/html/body/div[5]/div[2]/div[4]/div[3]/div[2]/text()')[0]info['小区名称']=tree.xpath('/html/body/div[5]/div[2]/div[5]/div[1]/a[1]/text()')[0]area=tree.xpath('/html/body/div[5]/div[2]/div[5]/div[2]/span[2]//text()')info['所在区域']=area[0]+area[2]+area[3]info['链家编号']=tree.xpath('/html/body/div[5]/div[2]/div[5]/div[4]/span[2]/text()')[0]info['户型']=tree.xpath('.//div[@class="content"]/ul/li[1]//text()')[1]info['楼层']=tree.xpath('.//div[@class="content"]/ul/li[2]//text()')[1]info['建筑面积']=tree.xpath('.//div[@class="content"]/ul/li[3]//text()')[1] info['户型结构']=tree.xpath('.//div[@class="content"]/ul/li[4]//text()')[1]info['套内面积']=tree.xpath('.//div[@class="content"]/ul/li[5]//text()')[1]info['建筑类型']=tree.xpath('.//div[@class="content"]/ul/li[6]//text()')[1]info['朝向']=tree.xpath('.//div[@class="content"]/ul/li[7]//text()')[1]info['装修情况']=tree.xpath('.//div[@class="content"]/ul/li[9]//text()')[1]info['梯户比']=tree.xpath('.//div[@class="content"]/ul/li[10]//text()')[1]info['电梯']=tree.xpath('.//div[@class="content"]/ul/li[11]//text()')[1]info['挂牌时间']=tree.xpath('.//div[@class="transaction"]/div/ul/li[1]/span[2]/text()')[0]info['房屋年限']=tree.xpath('.//div[@class="transaction"]/div/ul/li[5]/span[2]/text()')[0]info['产权所属']=tree.xpath('.//div[@class="transaction"]/div/ul/li[6]/span[2]/text()')[0]info['抵押信息']=tree.xpath('.//div[@class="transaction"]/div/ul/li[7]/span[2]/text()')[0]print(info)return info
1-5 抓取数据的持久化存储
info_list={'单价': '11078', '所在区域': '锦江红星路\xa0一环内', '链家编号': '106107268028'}
def save_as_xls(info):workbook=xlwt.Workbook(encoding='utf-8')worksheet=workbook.add_sheet('sheet1')titles=['标题','总价','单价']keys=['title','price','sales']for index,title in enumerate(titles):worksheet.write(0,index,title)for i ,info in enumerate(info_list):for j,key in enumerate(keys):worksheet.write(i+1,'j',info[int(key)])workbook.save('info.xls')
save_as_xls(info_list)
02-02成都二手房分析项目相关推荐
- 大数据分析02——成都二手房(热度)
背景 本文是<大数据分析01--成都二手房(平均价格)>的续集,前一篇文章中我们学习了如何使用爬虫获取数据,以及查看各个区域的平均价格做个大概的了解. 但是存在2个问题: (1)爬虫爬取了 ...
- [ScyllaHide] 02 InjectorCLI源码分析
[ScyllaHide] 文章列表-看雪地址: 00 简单介绍和使用 01 项目概览 02 InjectorCLI源码分析 03 PEB相关反调试 04 ScyllaHide配置报错原因定位 05 S ...
- 成都二手房房价分析-数据挖掘
PricesDataAnalysis 本项目使用jupyter notebook开发,主要目的是分析成都二手房房价,项目地址. 数据:爬取二手房交易网站近期数据,成都各个区域交易热度较高的房屋信息. ...
- 基于R语言的关联规则分析项目
转自http://blog.163.com/dm_team/blog/static/2379750132014891084989/ 摘要 抱着成为一名优秀的数据分析师/数据挖掘师的理想,我们组成了一个 ...
- 拼多多用户优惠券使用行为预测分析项目
拼多多用户优惠券使用行为预测分析项目 一.项目分析背景 二.项目分析目标 三.项目分析内容 1. 数据预处理 (1)导入所需库及数据集信息 (2)了解数据基本情况 1)观察数据类型和数据量 2)观察数 ...
- 网站用户行为分析项目之会话切割(一)
文章目录 0x00 教程内容 0x01 项目分析 1. 项目背景 2. 学习收获 3. 数据源介绍 4. 项目总体流程 5. 最终数据结构 0x02 编程实现 1. 构建Maven项目 2. 编码前准 ...
- 2020年链家网成都二手房销售情况可视化总结
功课 前端框架: python web微框架--flask,https://dormousehole.readthedocs.io/en/latest/# python web应用框架--Django ...
- 大数据分析01——成都二手房(平均价格)
背景 前段时间很多成都的朋友准备买房,遇到了各种问题.有的交了订金,房东发现还有机会涨价,宁愿交2w的违约金,也要再等一等房价涨起来:有的没有2年社保或户口买房:现在人才落户放宽后,有机会买房了,却又 ...
- 成都二手房长啥样 —— 基于链家数据
下面的分析的源数据是从链家网上抓取的成都二手房数据,截至时间2019年1月16日.目的也简单,一个想买房的人关注一下所在城市的房价情况. 需要注意的问题: 只含普通住房, 不含公寓.别墅 链家网上只有 ...
最新文章
- 认识与设计Serverless(二)
- Spark技术内幕: Task向Executor提交的源代码解析
- [工具库]JFileDownloader工具类——多线程下载网络文件,并保存在本地
- 扫描服务器用户,服务器安全工具(自动扫描后门路径)
- 通过一个对数据的存储和分析的简单实例初识Hadoop
- redis 内存管理分析
- c语言万年历查询程序代码,C语言实现万年历程序
- PPT过大怎么压缩?这种方法务必收藏
- 计算机锁屏如何取消密码,Win10锁屏密码怎么取消?Win10系统取消锁屏密码的方法教程...
- 通过PS把素色的旗袍换成青花瓷样式的旗袍
- 小姐姐让我帮忙修照片
- 名词介绍 CAPEX OPEX
- 企业计算机培训目的是什么意思,企业进行员工培训的目的是什么?
- JAVA诊所信息管理系统计算机毕业设计Mybatis+系统+数据库+调试部署
- IEEE引用格式规则及示例
- Elastic 今日在纽交所上市,股价最高暴涨122%。
- 智能小车红外循迹原理
- html怎么让div换行,如何强制div换行
- 响铃:重拾经典设计,见了真章的15如何带领魅族突围?
- 瑞萨单片机使用的内核
热门文章
- MDG NWBC设置默认值
- ZALO LINE facebook翻译 聊天即时翻译 WhatsApp 自动翻译
- 简单方便Zalo营销群控
- NSA的攻击,可以做什么?
- 超全SAP ABAP / 4 基础知识学习
- douphp mysql版本_【公众号+小程序】DouPHP模块化企业网站管理系统版本号v1.6 – 最新版本 无后门 亲测...
- 《炬丰科技-半导体工艺》纳米柱 GaN-LED的制备
- 2021年中国企业裁员浪潮,究竟需不需要被道德“审判”?
- PHP将上传的文件移动至指定位置
- Web3——基础概念知识