坑DIE的住建局再一次不限富豪限刚需,公布了深圳市住宅小区二手住房成交参考价格,买房更难,首付更难凑。。。
数据挖掘基础之数据清理:用python把深圳二手房参考价PDF保存为EXCEL,以便其他分析工具可以基于此excel做统计分析和画图,比如tableau。

文章目录

  • 前言
  • 一、明确目标
  • 二、使用步骤
    • 1.事前处理
    • 2.读入数据
  • 总结

前言

机器学习的基础内容:数据清洗。结合实际生活场景,提升学习乐趣。
深圳住建局再一次不限富豪限刚需,公布了深圳市住宅小区二手住房成交参考价格,该价格以PDF的形式发布于官网。
我们很多分析和统计工具无法读取pdf文件,绝大部分支持读取excel。因此我们本次就把pdf转化成excel供后续分析使用。


一、明确目标

把pdf转化成excel。
pdf的格式如下:

excel格式如下:

pandas 是基于NumPy 的一种工具,该工具是为了解决数据的分析问题。

二、使用步骤

1.事前处理

pdf肯定无法被python读取,python可以读取txt,因此,我们先打开pdf文件,然后使用快捷键ctrl+A全选, 然后复制ctrl +C,新建一个txt文件,粘贴ctrl+V,就把pdf文件粘贴到了txt中,此时数据还没有固定的格式,如下:

我们删除表头,剩下的数据就比较规整了,就可以用python进行读取和处理了。我们保存编辑后的txt为:深圳参考价 python处理.txt。下载地址和提取码:1234

2.读入数据

代码如下:

import pandas as pd
import numpy as np
import sys
import string# 先把深圳二手房房价PDF拷贝到TXT中,去掉标题
# read txt method
f = open("./深圳参考价 python处理.txt")
line = f.readline()
xuhao,quyu,jiedao,xiangmumingchen,danjia = [],[],[],[],[]  #定义:序号、行政区、街道、项目名称、单价数组i = 0   #记录有效项目的行数
while line:i = i + 1print(i, line)if line.startswith('- '):  #跳过页数的文字 ,如第17页:- 17 -i = i - 1line = f.readline()continueline = line.replace('\n', '')   #替换换行符if i % 5 == 1:xuhao.append(line)elif i % 5 == 2:quyu.append(line)elif i % 5 == 3:jiedao.append(line)elif i % 5 == 4:xiangmumingchen.append(line)elif i % 5 == 0:danjia.append(line)else:print('culculate is wrong!')line = f.readline()
f.close()mydict = {'序号': xuhao, '行政区': quyu, '街道': jiedao, '项目名称': xiangmumingchen, '成交参考价格 (元/平方米)': danjia}
df = pd.DataFrame(mydict)   #转换成datafreme,以便输出excel
print(df)
df.to_excel('./深圳市住宅小区二手住房成交参考价格表.xlsx')

然后运行,就能得到如下的excel了:下载地址和提取码:1234。


总结

数据清洗是机器学习的基础,本文仅仅简单介绍了pandas清洗数据的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。

数据挖掘基础之数据清洗:用python把“深圳二手房参考价”PDF保存为EXCEL相关推荐

  1. 数据分析工具:使用tableau工具画深圳二手房参考价的统计图

    目标: 学习使用tableau进行一些常规图的绘制.数据是商品通过python转换得到的深圳市二手房官方指导价,下载链接:下载链接和提取码1234 学习内容: 进行常规的统计信息的揭示,操作table ...

  2. Python爬取售房信息并保存至CSV文件

    Python爬取售房信息并保存至CSV文件 在上一篇文章: Python爬取租房信息并保存至Excel文件,介绍了如何使用Python爬取租房信息并保存至Excel文件,在本案例中则是使用Python ...

  3. 《Python数据分析与挖掘实战》一第1章 数据挖掘基础1.1 某知名连锁餐饮企业的困惑...

    本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第1章,第1.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...

  4. 数据挖掘基础学习一:VMware虚拟机Ubuntu上安装Python和IPython Notebook(Jupyter Notebook)完整步骤及需要注意的问题(以ubuntu-18.04.3为例)

    数据挖掘基础学习一:VMware虚拟机Ubuntu上安装Python和IPython Notebook(Jupyter Notebook)完整步骤及需要注意的问题 (以ubuntu-18.04.3-d ...

  5. 视频教程-数据挖掘基础:零基础学Python数据分析-大数据

    数据挖掘基础:零基础学Python数据分析 辽宁师范大学教师,特聘教授,硕士生导师.大数据与商务智能实验室主任. 李洪磊 ¥198.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+技术 ...

  6. python矩阵运算法则_0基础4天掌握Python数据挖掘2-12-矩阵运算

    0基础4天掌握Python数据挖掘2-12-矩阵运算 传智播客博学谷 2020/12/10 10:21 介绍: 课程简介 该阶段主要是介绍一些数据科学领域用Python语言实现的基础库,如简洁.轻便的 ...

  7. Python爬取20778套深圳二手房并数据分析

    白岩松曾说:"高房价正在毁掉无数年轻人的爱情,毁灭了年轻人的想象力."尤其是北上广深这类一线城市,对于一般的工薪阶层,买房更是难上加难.前不久,DT财经写了一篇文章<我只有3 ...

  8. 自学必看篇:从零基础到精通的Python学习路线(附加教程)

    近几年Python的受欢迎程度可谓是扶摇直上,当然了学习的人也是愈来愈多.一些学习Python的小白在学习初期,总希望能够得到一份Python学习路线图.我经过多方汇总为大家汇总了一份Python学习 ...

  9. python基础教程书籍推荐-Python大神推荐给小白的36本入门书籍

    Python大神推荐给小白的36本入门书籍 如果看我喜欢可以找我领取Python电子书和学习资料 1.Python编程:从入门到实践 我自己最初看的这本书,觉得非常适合入门 2.python入门经典- ...

最新文章

  1. 一个“蝇量级” C 语言协程库
  2. java学习笔记-4.7
  3. IOS APP 国际化 程序内切换语言实现 不重新启动系统(支持项目中stroyboard 、xib 混用。完美解决方案)
  4. python3 异步错误 asyncio.Semaphore RuntimeError: Task got Future attached to a different loop
  5. ‘聪明的搜索算法’ A*算法
  6. Node.js使用supervisor
  7. 批量迁移oracle表存储
  8. 9大方法为云安全保驾护航
  9. 如何设计一个 A/B test?
  10. SVN的配置与使用方法
  11. form请求导出表格_程序员:java导出Excel,附带依赖、后端代码和前端JS
  12. Yandex安装第三方crx插件的方法
  13. 好工具推荐系列:Feem和Send-anywhere,跨平台局域网传输工具,文件共享工具
  14. (转)文件名后缀大全
  15. VirtualBox简单使用
  16. 飞机的纵•横向运动简化数学模型及控制系统设计
  17. Mifare UltraLight
  18. 有点儿累了,最近特别能吃
  19. 订阅号消息 服务号 信息推送
  20. iPhone 13分辨率,屏幕尺寸,PPI 详细数据对比 iPhone 13 Pro、iPhone 13 Pro Max、iPhone 13 mini

热门文章

  1. 现代计算机基本工作原理,计算机基本原理
  2. 2022iqvia药品公司排名
  3. 爬取网易云音乐某一个人的评论
  4. 你好重庆!2021全国人工智能师资培训飞桨暑期高校行走进重庆大学
  5. linux检查网络命令总结
  6. YUTU魔改的b_game,饼干原创
  7. 区分IE6、IE7、IE8及标准浏览器的最佳方法
  8. 强制浏览器以IE8版本运行
  9. 【59MB】金融求职宝典 玩转金融业的正确姿势 增订版.PDF
  10. 天龙手游角色删除服务器还有显示,天龙八部手游怎么删除角色_角色删除方法详解_玩游戏网...