pandas-hw4
拼接多个csv文件
import numpy as np
import pandas as pd
bj = pd.read_csv('guazi_bj.csv')
gz = pd.read_csv('guazi_gz.csv')
sh = pd.read_csv('guazi_sh.csv')
sz = pd.read_csv('guazi_sz.csv')
#guazi_bj.csv
#guazi_gz.csv
#guazi_sh.csv
#guazi_sz.csv
df1 = pd.merge(bj,gz,how='outer').merge(sh,how='outer').merge(sz,how='outer')
df1title brand buy_time km speedbox displacement es_price new_price city year_type level suv horsepower fuel length width height owners drive
0 大众 宝来 2014款 1.6L 自动时尚型 一汽-大众 2014-08 3.82 自动 1.6L 8.00 13.0 北京 2014款 紧凑型 0 105马力 汽油 4523 1775 1467 NaN 前置前驱
1 福特 福睿斯 2015款 1.5L 自动时尚型 长安福特 2015-12 2.35 自动 1.5L 7.80 13.0 北京 2015款 紧凑型 0 113马力 汽油 4587 1825 1490 NaN 前置前驱
2 大众 速腾 2012款 1.6L 自动舒适型 一汽-大众 2012-05 6.67 自动 1.6L 7.00 16.4 北京 2012款 紧凑型 0 105马力 汽油 4644 1778 1482 NaN 前置前驱
3 奔驰C级 2011款 C 200 CGI 时尚型 北京奔驰 2013-01 11.83 自动 1.8T 15.00 42.1 北京 2011款 中型 0 184马力 汽油 4591 1770 1444 NaN 前置后驱
4 大众 帕萨特 2013款 2.0TSI DSG御尊版 上汽大众 2013-11 8.95 自动 2.0T 13.00 27.7 北京 2013款 中型 0 200马力 汽油 4870 1834 1472 NaN 前置前驱
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
7022 别克 君威 2015款 GS 2.0T 豪情运动版 上汽通用别克 2016-03 4.21 自动 2.0T 11.49 25.0 深圳 2015款 中型 0 254马力 汽油 4834 1856 1494 NaN 前置前驱
7023 雪佛兰 迈锐宝 2018款 530T 自动舒适版 上汽通用雪佛兰 2017-10 0.09 自动 1.5T 11.00 17.9 深圳 2018款 中型 0 170马力 汽油 4855 1854 1476 NaN 前置前驱
7024 丰田 锐志 2013款 2.5S 菁锐版 一汽丰田 2013-10 3.95 自动 2.5L 14.00 22.8 深圳 2013款 中型 0 193马力 汽油 4750 1795 1450 NaN 前置后驱
7025 日产 逍客 2011款 1.6XE 风 5MT 2WD 东风日产 2012-01 7.26 手动 1.6L 5.30 15.2 深圳 2011款 紧凑型 1 121马力 汽油 4315 1783 1606 NaN 前置前驱
7026 丰田 卡罗拉 2014款 1.6L CVT GL-i 一汽丰田 2015-10 3.67 自动 1.6L 9.50 13.9 深圳 2014款 紧凑型 0 122马力 汽油 4630 1775 1480 NaN 前置前驱
7027 rows × 19 columns
去除重复数据,重新索引
df2=df1
df2=df2.drop_duplicates()
df2.reset_index()index title brand buy_time km speedbox displacement es_price new_price city year_type level suv horsepower fuel length width height owners drive
0 0 大众 宝来 2014款 1.6L 自动时尚型 一汽-大众 2014-08 3.82 自动 1.6L 8.00 13.0 北京 2014款 紧凑型 0 105马力 汽油 4523 1775 1467 NaN 前置前驱
1 1 福特 福睿斯 2015款 1.5L 自动时尚型 长安福特 2015-12 2.35 自动 1.5L 7.80 13.0 北京 2015款 紧凑型 0 113马力 汽油 4587 1825 1490 NaN 前置前驱
2 2 大众 速腾 2012款 1.6L 自动舒适型 一汽-大众 2012-05 6.67 自动 1.6L 7.00 16.4 北京 2012款 紧凑型 0 105马力 汽油 4644 1778 1482 NaN 前置前驱
3 3 奔驰C级 2011款 C 200 CGI 时尚型 北京奔驰 2013-01 11.83 自动 1.8T 15.00 42.1 北京 2011款 中型 0 184马力 汽油 4591 1770 1444 NaN 前置后驱
4 4 大众 帕萨特 2013款 2.0TSI DSG御尊版 上汽大众 2013-11 8.95 自动 2.0T 13.00 27.7 北京 2013款 中型 0 200马力 汽油 4870 1834 1472 NaN 前置前驱
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
7011 7022 别克 君威 2015款 GS 2.0T 豪情运动版 上汽通用别克 2016-03 4.21 自动 2.0T 11.49 25.0 深圳 2015款 中型 0 254马力 汽油 4834 1856 1494 NaN 前置前驱
7012 7023 雪佛兰 迈锐宝 2018款 530T 自动舒适版 上汽通用雪佛兰 2017-10 0.09 自动 1.5T 11.00 17.9 深圳 2018款 中型 0 170马力 汽油 4855 1854 1476 NaN 前置前驱
7013 7024 丰田 锐志 2013款 2.5S 菁锐版 一汽丰田 2013-10 3.95 自动 2.5L 14.00 22.8 深圳 2013款 中型 0 193马力 汽油 4750 1795 1450 NaN 前置后驱
7014 7025 日产 逍客 2011款 1.6XE 风 5MT 2WD 东风日产 2012-01 7.26 手动 1.6L 5.30 15.2 深圳 2011款 紧凑型 1 121马力 汽油 4315 1783 1606 NaN 前置前驱
7015 7026 丰田 卡罗拉 2014款 1.6L CVT GL-i 一汽丰田 2015-10 3.67 自动 1.6L 9.50 13.9 深圳 2014款 紧凑型 0 122马力 汽油 4630 1775 1480 NaN 前置前驱
7016 rows × 20 columns
自动挡和手动挡数目
df3=pd.merge(bj,gz,how='outer').merge(sh,how='outer').merge(sz,how='outer')
df3.speedbox.value_counts()自动 5634
手动 1393
Name: speedbox, dtype: int64
计算每个城市二手车数量
df4=df2
df4.city.value_counts()广州 2007
上海 1973
北京 1539
深圳 1497
Name: city, dtype: int64
统计每个汽车品牌平均售价价格(不是原价)
`df5=pd.merge(bj,gz,how='outer').merge(sh,how='outer').merge(sz,how='outer')
df5.groupby(by='brand')['es_price'].mean()brand
Jeep(进口) 11.243636
MINI 12.167931
smart 5.290000
一汽-大众 8.265396
一汽-大众奥迪 19.902073...
陆风汽车 7.400000
雪佛兰(进口) 7.125000
雷克萨斯 23.558929
雷诺(进口) 8.763000
马自达(进口) 9.355000
Name: es_price, Length: 101, dtype: float64
pandas-hw4相关推荐
- Pandas 使用入门
Pandas 简介 运行环境 jupyter notebook python 3.6 pandas '0.20.3' matplotlib '2.1.0' 学习目标: * 大致了解 pandas 库的 ...
- modin pandas 加速
20211203 https://blog.csdn.net/BF02jgtRS00XKtCx/article/details/108988757 利用swifter加速apply Modin是一个P ...
- 利用pandas读写HDF5文件
一.简介 HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式,文件后缀名为h5,存储读取速度非常快,且可在文件内部按照明确的层次存储数据,同一个H ...
- pandas dataframe 删除带空值的行 各种空值 (dropna()、isna()、isnull()、fillna())
假设拿到一个10万行的数据后,通过isnull我们发现某列有几个空值,要把该列空值所在行删除怎么操作?用dropna()会删除所有有空值的行,请看下面实例. 区分 None,null,NULL,nan ...
- pandas以前笔记
# -*- coding: utf-8 -*- """ Created on Sat Jul 21 20:06:20 2018@author: heimi "& ...
- pandas dataframe 字符映射为数字
在机器学习中对于有序的类别型变量可以不采用onehot编码,直接使用有序数字代替即可,这个目的可以在pandas中使用map方法实现. import pandas as pd 创建数据框 raw_da ...
- pandas如何读取一个文件夹下的所有文件
from os import walk import pandas as pd dataframe_list = [] #walk会返回3个参数,分别是路径,目录list,文件list,你可以按需修改 ...
- python pandas 如何找到NaN、缺失值或者某些元素的索引名称以及位置,np.where的使用
我们在处理数据的时候,经常需要检查数据的质量,也需要知道出问题的数据在哪个位置.我找了很久,也尝试了很多办法,都没能找到一种非常直接的函数,本文所要介绍的是一种我认为比较方便的方法:np.where( ...
- pandas数据框,统计某列或者某行数据元素的个数
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/sinat_38893241/artic ...
- Pandas库常用函数和操作
目录 1. DataFrame 处理缺失值 dropna() 2. 根据某维度计算重复的行 duplicated().value_counts() 3. 去重 drop_duplicates( ...
最新文章
- 集成学习——Adaboost分类
- tensorflow 对csv数据进行批量获取
- xa 全局锁_fescar锁设计和隔离级别的理解
- 云耀服务器切换系统,云耀云服务器重装操作系统
- arm--ldm、stm指令解析
- activiti高亮显示图片_第 09 篇:让博客支持 Markdown 语法和代码高亮
- 开源服务器Tornado的初步了解
- asp.net 6中的mini api和mvc api性能对比
- LeetCode 3. 无重复字符的最长子串(滑动窗口+哈希)
- javascript 等待指定时间_javascript的单线程和任务队列
- proxmox超融合自动迁移
- 惠普服务器硬件检测软件吗,惠普 PROLIANT 服务器硬件检测工具使用方法
- keil C51代码优化等级介绍
- 百度智能云-文字识别SDK-识别验证码Demo
- 如何实现微信扫码登录--OAuth2
- WebView加载淘宝,天猫链接失败
- 手把手教你下载XShell免费版(超详细)
- 中国·乌镇互联网产业园项目总投资约100亿元
- correl函数相关系数大小意义_用Correl函数返回相关系数,以确定属性关系
- wangeditor v5 在vue中的使用