一、分析目的

1、2020年成都二手房整体挂牌量及均价走势如何?
2、目前成都二手房价位、房源有何特点?
3、成都各区县的挂牌情况,找出抛压最大的区域?

二、主要工作

1、数据挖掘:

从链家网爬取成都二手房在售房源新信息,并持久化存储

1-1 模块导入

import requests
from lxml import etree
import pandas as pd
import xlwtheaders={'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/88.0.4324.150 Safari/537.36'}

1-2 url模板构造

# url通用模板的构造
def allurl(target_page):url=url='https://cd.lianjia.com/ershoufang/pg{}/'for page in range(1,int(target_page)+1):yield url.format(page)if __name__=="__main__":target_page=input("输入想要爬取的页数:")print(target_page)

1-3 每套房子详情页的获取

# 详情页的获取:
all_url='https://cd.lianjia.com/ershoufang/pg1/'
def get_detailpage_url(allurl):resp=requests.get(allurl,headers=headers)
#     if resp.status.code()==200:tree=etree.HTML(resp.text)li_list=tree.xpath('//ul[@class="sellListContent"]/li')urls=[]for li in li_list:
#         print(li)detail_url=li.xpath('.//a[@class="noresultRecommend img LOGCLICKDATA"]/@href')[0]
#         print(detail_url)urls.append(detail_url)return urls
get_detailpage_url(all_url)

1-4 所需内容得解析

def open_url(urls):info={}for url in urls:response=requests.get(url,headers=headers).texttree=etree.HTML(response)info['标题']=tree.xpath('.//div[@class="title"]/h1/text()')[0]price_list=tree.xpath('/html/body/div[5]/div[2]/div[3]/span//text()')info['总价']=price_list[0]+price_list[1]info['单价']=tree.xpath('/html/body/div[5]/div[2]/div[3]/div[1]/div[1]/span//text()')[0]info['建筑时间']=tree.xpath('/html/body/div[5]/div[2]/div[4]/div[3]/div[2]/text()')[0]info['小区名称']=tree.xpath('/html/body/div[5]/div[2]/div[5]/div[1]/a[1]/text()')[0]area=tree.xpath('/html/body/div[5]/div[2]/div[5]/div[2]/span[2]//text()')info['所在区域']=area[0]+area[2]+area[3]info['链家编号']=tree.xpath('/html/body/div[5]/div[2]/div[5]/div[4]/span[2]/text()')[0]info['户型']=tree.xpath('.//div[@class="content"]/ul/li[1]//text()')[1]info['楼层']=tree.xpath('.//div[@class="content"]/ul/li[2]//text()')[1]info['建筑面积']=tree.xpath('.//div[@class="content"]/ul/li[3]//text()')[1]       info['户型结构']=tree.xpath('.//div[@class="content"]/ul/li[4]//text()')[1]info['套内面积']=tree.xpath('.//div[@class="content"]/ul/li[5]//text()')[1]info['建筑类型']=tree.xpath('.//div[@class="content"]/ul/li[6]//text()')[1]info['朝向']=tree.xpath('.//div[@class="content"]/ul/li[7]//text()')[1]info['装修情况']=tree.xpath('.//div[@class="content"]/ul/li[9]//text()')[1]info['梯户比']=tree.xpath('.//div[@class="content"]/ul/li[10]//text()')[1]info['电梯']=tree.xpath('.//div[@class="content"]/ul/li[11]//text()')[1]info['挂牌时间']=tree.xpath('.//div[@class="transaction"]/div/ul/li[1]/span[2]/text()')[0]info['房屋年限']=tree.xpath('.//div[@class="transaction"]/div/ul/li[5]/span[2]/text()')[0]info['产权所属']=tree.xpath('.//div[@class="transaction"]/div/ul/li[6]/span[2]/text()')[0]info['抵押信息']=tree.xpath('.//div[@class="transaction"]/div/ul/li[7]/span[2]/text()')[0]print(info)return info

1-5 抓取数据的持久化存储

info_list={'单价': '11078', '所在区域': '锦江红星路\xa0一环内', '链家编号': '106107268028'}
def save_as_xls(info):workbook=xlwt.Workbook(encoding='utf-8')worksheet=workbook.add_sheet('sheet1')titles=['标题','总价','单价']keys=['title','price','sales']for index,title in enumerate(titles):worksheet.write(0,index,title)for i ,info in enumerate(info_list):for j,key in enumerate(keys):worksheet.write(i+1,'j',info[int(key)])workbook.save('info.xls')
save_as_xls(info_list)

02-02成都二手房分析项目相关推荐

  1. 大数据分析02——成都二手房(热度)

    背景 本文是<大数据分析01--成都二手房(平均价格)>的续集,前一篇文章中我们学习了如何使用爬虫获取数据,以及查看各个区域的平均价格做个大概的了解. 但是存在2个问题: (1)爬虫爬取了 ...

  2. [ScyllaHide] 02 InjectorCLI源码分析

    [ScyllaHide] 文章列表-看雪地址: 00 简单介绍和使用 01 项目概览 02 InjectorCLI源码分析 03 PEB相关反调试 04 ScyllaHide配置报错原因定位 05 S ...

  3. 成都二手房房价分析-数据挖掘

    PricesDataAnalysis 本项目使用jupyter notebook开发,主要目的是分析成都二手房房价,项目地址. 数据:爬取二手房交易网站近期数据,成都各个区域交易热度较高的房屋信息. ...

  4. 基于R语言的关联规则分析项目

    转自http://blog.163.com/dm_team/blog/static/2379750132014891084989/ 摘要 抱着成为一名优秀的数据分析师/数据挖掘师的理想,我们组成了一个 ...

  5. 拼多多用户优惠券使用行为预测分析项目

    拼多多用户优惠券使用行为预测分析项目 一.项目分析背景 二.项目分析目标 三.项目分析内容 1. 数据预处理 (1)导入所需库及数据集信息 (2)了解数据基本情况 1)观察数据类型和数据量 2)观察数 ...

  6. 网站用户行为分析项目之会话切割(一)

    文章目录 0x00 教程内容 0x01 项目分析 1. 项目背景 2. 学习收获 3. 数据源介绍 4. 项目总体流程 5. 最终数据结构 0x02 编程实现 1. 构建Maven项目 2. 编码前准 ...

  7. 2020年链家网成都二手房销售情况可视化总结

    功课 前端框架: python web微框架--flask,https://dormousehole.readthedocs.io/en/latest/# python web应用框架--Django ...

  8. 大数据分析01——成都二手房(平均价格)

    背景 前段时间很多成都的朋友准备买房,遇到了各种问题.有的交了订金,房东发现还有机会涨价,宁愿交2w的违约金,也要再等一等房价涨起来:有的没有2年社保或户口买房:现在人才落户放宽后,有机会买房了,却又 ...

  9. 成都二手房长啥样 —— 基于链家数据

    下面的分析的源数据是从链家网上抓取的成都二手房数据,截至时间2019年1月16日.目的也简单,一个想买房的人关注一下所在城市的房价情况. 需要注意的问题: 只含普通住房, 不含公寓.别墅 链家网上只有 ...

最新文章

  1. 认识与设计Serverless(二)
  2. Spark技术内幕: Task向Executor提交的源代码解析
  3. [工具库]JFileDownloader工具类——多线程下载网络文件,并保存在本地
  4. 扫描服务器用户,服务器安全工具(自动扫描后门路径)
  5. 通过一个对数据的存储和分析的简单实例初识Hadoop
  6. redis 内存管理分析
  7. c语言万年历查询程序代码,C语言实现万年历程序
  8. PPT过大怎么压缩?这种方法务必收藏
  9. 计算机锁屏如何取消密码,Win10锁屏密码怎么取消?Win10系统取消锁屏密码的方法教程...
  10. 通过PS把素色的旗袍换成青花瓷样式的旗袍
  11. 小姐姐让我帮忙修照片
  12. 名词介绍 CAPEX OPEX
  13. 企业计算机培训目的是什么意思,企业进行员工培训的目的是什么?
  14. JAVA诊所信息管理系统计算机毕业设计Mybatis+系统+数据库+调试部署
  15. IEEE引用格式规则及示例
  16. Elastic 今日在纽交所上市,股价最高暴涨122%。
  17. 智能小车红外循迹原理
  18. html怎么让div换行,如何强制div换行
  19. 响铃:重拾经典设计,见了真章的15如何带领魅族突围?
  20. 瑞萨单片机使用的内核

热门文章

  1. MDG NWBC设置默认值
  2. ZALO LINE facebook翻译 聊天即时翻译 WhatsApp 自动翻译
  3. 简单方便Zalo营销群控
  4. NSA的攻击,可以做什么?
  5. 超全SAP ABAP / 4 基础知识学习
  6. douphp mysql版本_【公众号+小程序】DouPHP模块化企业网站管理系统版本号v1.6 – 最新版本 无后门 亲测...
  7. 《炬丰科技-半导体工艺》纳米柱 GaN-LED的制备
  8. 2021年中国企业裁员浪潮,究竟需不需要被道德“审判”?
  9. PHP将上传的文件移动至指定位置
  10. Web3——基础概念知识