数据挖掘基础之数据清洗:用python把“深圳二手房参考价”PDF保存为EXCEL
坑DIE的住建局再一次不限富豪限刚需,公布了深圳市住宅小区二手住房成交参考价格,买房更难,首付更难凑。。。
数据挖掘基础之数据清理:用python把深圳二手房参考价PDF保存为EXCEL,以便其他分析工具可以基于此excel做统计分析和画图,比如tableau。
文章目录
- 前言
- 一、明确目标
- 二、使用步骤
- 1.事前处理
- 2.读入数据
- 总结
前言
机器学习的基础内容:数据清洗。结合实际生活场景,提升学习乐趣。
深圳住建局再一次不限富豪限刚需,公布了深圳市住宅小区二手住房成交参考价格,该价格以PDF的形式发布于官网。
我们很多分析和统计工具无法读取pdf文件,绝大部分支持读取excel。因此我们本次就把pdf转化成excel供后续分析使用。
一、明确目标
把pdf转化成excel。
pdf的格式如下:
excel格式如下:
pandas 是基于NumPy 的一种工具,该工具是为了解决数据的分析问题。
二、使用步骤
1.事前处理
pdf肯定无法被python读取,python可以读取txt,因此,我们先打开pdf文件,然后使用快捷键ctrl+A全选, 然后复制ctrl +C,新建一个txt文件,粘贴ctrl+V,就把pdf文件粘贴到了txt中,此时数据还没有固定的格式,如下:
我们删除表头,剩下的数据就比较规整了,就可以用python进行读取和处理了。我们保存编辑后的txt为:深圳参考价 python处理.txt。下载地址和提取码:1234
2.读入数据
代码如下:
import pandas as pd
import numpy as np
import sys
import string# 先把深圳二手房房价PDF拷贝到TXT中,去掉标题
# read txt method
f = open("./深圳参考价 python处理.txt")
line = f.readline()
xuhao,quyu,jiedao,xiangmumingchen,danjia = [],[],[],[],[] #定义:序号、行政区、街道、项目名称、单价数组i = 0 #记录有效项目的行数
while line:i = i + 1print(i, line)if line.startswith('- '): #跳过页数的文字 ,如第17页:- 17 -i = i - 1line = f.readline()continueline = line.replace('\n', '') #替换换行符if i % 5 == 1:xuhao.append(line)elif i % 5 == 2:quyu.append(line)elif i % 5 == 3:jiedao.append(line)elif i % 5 == 4:xiangmumingchen.append(line)elif i % 5 == 0:danjia.append(line)else:print('culculate is wrong!')line = f.readline()
f.close()mydict = {'序号': xuhao, '行政区': quyu, '街道': jiedao, '项目名称': xiangmumingchen, '成交参考价格 (元/平方米)': danjia}
df = pd.DataFrame(mydict) #转换成datafreme,以便输出excel
print(df)
df.to_excel('./深圳市住宅小区二手住房成交参考价格表.xlsx')
然后运行,就能得到如下的excel了:下载地址和提取码:1234。
总结
数据清洗是机器学习的基础,本文仅仅简单介绍了pandas清洗数据的使用,而pandas提供了大量能使我们快速便捷地处理数据的函数和方法。
数据挖掘基础之数据清洗:用python把“深圳二手房参考价”PDF保存为EXCEL相关推荐
- 数据分析工具:使用tableau工具画深圳二手房参考价的统计图
目标: 学习使用tableau进行一些常规图的绘制.数据是商品通过python转换得到的深圳市二手房官方指导价,下载链接:下载链接和提取码1234 学习内容: 进行常规的统计信息的揭示,操作table ...
- Python爬取售房信息并保存至CSV文件
Python爬取售房信息并保存至CSV文件 在上一篇文章: Python爬取租房信息并保存至Excel文件,介绍了如何使用Python爬取租房信息并保存至Excel文件,在本案例中则是使用Python ...
- 《Python数据分析与挖掘实战》一第1章 数据挖掘基础1.1 某知名连锁餐饮企业的困惑...
本节书摘来自华章出版社<Python数据分析与挖掘实战>一书中的第1章,第1.1节,作者 张良均 王路 谭立云 苏剑林,更多章节内容可以访问云栖社区"华章计算机"公众号 ...
- 数据挖掘基础学习一:VMware虚拟机Ubuntu上安装Python和IPython Notebook(Jupyter Notebook)完整步骤及需要注意的问题(以ubuntu-18.04.3为例)
数据挖掘基础学习一:VMware虚拟机Ubuntu上安装Python和IPython Notebook(Jupyter Notebook)完整步骤及需要注意的问题 (以ubuntu-18.04.3-d ...
- 视频教程-数据挖掘基础:零基础学Python数据分析-大数据
数据挖掘基础:零基础学Python数据分析 辽宁师范大学教师,特聘教授,硕士生导师.大数据与商务智能实验室主任. 李洪磊 ¥198.00 立即订阅 扫码下载「CSDN程序员学院APP」,1000+技术 ...
- python矩阵运算法则_0基础4天掌握Python数据挖掘2-12-矩阵运算
0基础4天掌握Python数据挖掘2-12-矩阵运算 传智播客博学谷 2020/12/10 10:21 介绍: 课程简介 该阶段主要是介绍一些数据科学领域用Python语言实现的基础库,如简洁.轻便的 ...
- Python爬取20778套深圳二手房并数据分析
白岩松曾说:"高房价正在毁掉无数年轻人的爱情,毁灭了年轻人的想象力."尤其是北上广深这类一线城市,对于一般的工薪阶层,买房更是难上加难.前不久,DT财经写了一篇文章<我只有3 ...
- 自学必看篇:从零基础到精通的Python学习路线(附加教程)
近几年Python的受欢迎程度可谓是扶摇直上,当然了学习的人也是愈来愈多.一些学习Python的小白在学习初期,总希望能够得到一份Python学习路线图.我经过多方汇总为大家汇总了一份Python学习 ...
- python基础教程书籍推荐-Python大神推荐给小白的36本入门书籍
Python大神推荐给小白的36本入门书籍 如果看我喜欢可以找我领取Python电子书和学习资料 1.Python编程:从入门到实践 我自己最初看的这本书,觉得非常适合入门 2.python入门经典- ...
最新文章
- 一个“蝇量级” C 语言协程库
- java学习笔记-4.7
- IOS APP 国际化 程序内切换语言实现 不重新启动系统(支持项目中stroyboard 、xib 混用。完美解决方案)
- python3 异步错误 asyncio.Semaphore RuntimeError: Task got Future attached to a different loop
- ‘聪明的搜索算法’ A*算法
- Node.js使用supervisor
- 批量迁移oracle表存储
- 9大方法为云安全保驾护航
- 如何设计一个 A/B test?
- SVN的配置与使用方法
- form请求导出表格_程序员:java导出Excel,附带依赖、后端代码和前端JS
- Yandex安装第三方crx插件的方法
- 好工具推荐系列:Feem和Send-anywhere,跨平台局域网传输工具,文件共享工具
- (转)文件名后缀大全
- VirtualBox简单使用
- 飞机的纵•横向运动简化数学模型及控制系统设计
- Mifare UltraLight
- 有点儿累了,最近特别能吃
- 订阅号消息 服务号 信息推送
- iPhone 13分辨率,屏幕尺寸,PPI 详细数据对比 iPhone 13 Pro、iPhone 13 Pro Max、iPhone 13 mini