pandas-hw4

拼接多个csv文件

import numpy as np
import pandas as pd
bj = pd.read_csv('guazi_bj.csv')
gz = pd.read_csv('guazi_gz.csv')
sh = pd.read_csv('guazi_sh.csv')
sz = pd.read_csv('guazi_sz.csv')
#guazi_bj.csv
#guazi_gz.csv
#guazi_sh.csv
#guazi_sz.csv
df1 = pd.merge(bj,gz,how='outer').merge(sh,how='outer').merge(sz,how='outer')
df1title    brand   buy_time    km  speedbox    displacement    es_price    new_price   city    year_type   level   suv horsepower  fuel    length  width   height  owners  drive
0   大众 宝来 2014款 1.6L 自动时尚型  一汽-大众   2014-08 3.82    自动  1.6L    8.00    13.0    北京  2014款   紧凑型 0   105马力   汽油  4523    1775    1467    NaN 前置前驱
1   福特 福睿斯 2015款 1.5L 自动时尚型 长安福特    2015-12 2.35    自动  1.5L    7.80    13.0    北京  2015款   紧凑型 0   113马力   汽油  4587    1825    1490    NaN 前置前驱
2   大众 速腾 2012款 1.6L 自动舒适型  一汽-大众   2012-05 6.67    自动  1.6L    7.00    16.4    北京  2012款   紧凑型 0   105马力   汽油  4644    1778    1482    NaN 前置前驱
3   奔驰C级 2011款 C 200 CGI 时尚型    北京奔驰    2013-01 11.83   自动  1.8T    15.00   42.1    北京  2011款   中型  0   184马力   汽油  4591    1770    1444    NaN 前置后驱
4   大众 帕萨特 2013款 2.0TSI DSG御尊版  上汽大众    2013-11 8.95    自动  2.0T    13.00   27.7    北京  2013款   中型  0   200马力   汽油  4870    1834    1472    NaN 前置前驱
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
7022    别克 君威 2015款 GS 2.0T 豪情运动版   上汽通用别克  2016-03 4.21    自动  2.0T    11.49   25.0    深圳  2015款   中型  0   254马力   汽油  4834    1856    1494    NaN 前置前驱
7023    雪佛兰 迈锐宝 2018款 530T 自动舒适版    上汽通用雪佛兰 2017-10 0.09    自动  1.5T    11.00   17.9    深圳  2018款   中型  0   170马力   汽油  4855    1854    1476    NaN 前置前驱
7024    丰田 锐志 2013款 2.5S 菁锐版    一汽丰田    2013-10 3.95    自动  2.5L    14.00   22.8    深圳  2013款   中型  0   193马力   汽油  4750    1795    1450    NaN 前置后驱
7025    日产 逍客 2011款 1.6XE 风 5MT 2WD 东风日产    2012-01 7.26    手动  1.6L    5.30    15.2    深圳  2011款   紧凑型 1   121马力   汽油  4315    1783    1606    NaN 前置前驱
7026    丰田 卡罗拉 2014款 1.6L CVT GL-i  一汽丰田    2015-10 3.67    自动  1.6L    9.50    13.9    深圳  2014款   紧凑型 0   122马力   汽油  4630    1775    1480    NaN 前置前驱
7027 rows × 19 columns

去除重复数据，重新索引

df2=df1
df2=df2.drop_duplicates()
df2.reset_index()index  title   brand   buy_time    km  speedbox    displacement    es_price    new_price   city    year_type   level   suv horsepower  fuel    length  width   height  owners  drive
0   0   大众 宝来 2014款 1.6L 自动时尚型  一汽-大众   2014-08 3.82    自动  1.6L    8.00    13.0    北京  2014款   紧凑型 0   105马力   汽油  4523    1775    1467    NaN 前置前驱
1   1   福特 福睿斯 2015款 1.5L 自动时尚型 长安福特    2015-12 2.35    自动  1.5L    7.80    13.0    北京  2015款   紧凑型 0   113马力   汽油  4587    1825    1490    NaN 前置前驱
2   2   大众 速腾 2012款 1.6L 自动舒适型  一汽-大众   2012-05 6.67    自动  1.6L    7.00    16.4    北京  2012款   紧凑型 0   105马力   汽油  4644    1778    1482    NaN 前置前驱
3   3   奔驰C级 2011款 C 200 CGI 时尚型    北京奔驰    2013-01 11.83   自动  1.8T    15.00   42.1    北京  2011款   中型  0   184马力   汽油  4591    1770    1444    NaN 前置后驱
4   4   大众 帕萨特 2013款 2.0TSI DSG御尊版  上汽大众    2013-11 8.95    自动  2.0T    13.00   27.7    北京  2013款   中型  0   200马力   汽油  4870    1834    1472    NaN 前置前驱
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
7011    7022    别克 君威 2015款 GS 2.0T 豪情运动版   上汽通用别克  2016-03 4.21    自动  2.0T    11.49   25.0    深圳  2015款   中型  0   254马力   汽油  4834    1856    1494    NaN 前置前驱
7012    7023    雪佛兰 迈锐宝 2018款 530T 自动舒适版    上汽通用雪佛兰 2017-10 0.09    自动  1.5T    11.00   17.9    深圳  2018款   中型  0   170马力   汽油  4855    1854    1476    NaN 前置前驱
7013    7024    丰田 锐志 2013款 2.5S 菁锐版    一汽丰田    2013-10 3.95    自动  2.5L    14.00   22.8    深圳  2013款   中型  0   193马力   汽油  4750    1795    1450    NaN 前置后驱
7014    7025    日产 逍客 2011款 1.6XE 风 5MT 2WD 东风日产    2012-01 7.26    手动  1.6L    5.30    15.2    深圳  2011款   紧凑型 1   121马力   汽油  4315    1783    1606    NaN 前置前驱
7015    7026    丰田 卡罗拉 2014款 1.6L CVT GL-i  一汽丰田    2015-10 3.67    自动  1.6L    9.50    13.9    深圳  2014款   紧凑型 0   122马力   汽油  4630    1775    1480    NaN 前置前驱
7016 rows × 20 columns

自动挡和手动挡数目

df3=pd.merge(bj,gz,how='outer').merge(sh,how='outer').merge(sz,how='outer')
df3.speedbox.value_counts()自动    5634
手动    1393
Name: speedbox, dtype: int64

计算每个城市二手车数量

df4=df2
df4.city.value_counts()广州    2007
上海    1973
北京    1539
深圳    1497
Name: city, dtype: int64

统计每个汽车品牌平均售价价格(不是原价)

`df5=pd.merge(bj,gz,how='outer').merge(sh,how='outer').merge(sz,how='outer')
df5.groupby(by='brand')['es_price'].mean()brand
Jeep(进口)    11.243636
MINI        12.167931
smart        5.290000
一汽-大众        8.265396
一汽-大众奥迪     19.902073...
陆风汽车         7.400000
雪佛兰(进口)      7.125000
雷克萨斯        23.558929
雷诺(进口)       8.763000
马自达(进口)      9.355000
Name: es_price, Length: 101, dtype: float64

pandas-hw4相关推荐

Pandas 使用入门
Pandas 简介运行环境 jupyter notebook python 3.6 pandas '0.20.3' matplotlib '2.1.0' 学习目标: * 大致了解 pandas 库的 ...
modin pandas 加速
20211203 https://blog.csdn.net/BF02jgtRS00XKtCx/article/details/108988757 利用swifter加速apply Modin是一个P ...
利用pandas读写HDF5文件
一.简介 HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式,文件后缀名为h5,存储读取速度非常快,且可在文件内部按照明确的层次存储数据,同一个H ...
pandas dataframe 删除带空值的行各种空值 (dropna()、isna()、isnull()、fillna())
假设拿到一个10万行的数据后,通过isnull我们发现某列有几个空值,要把该列空值所在行删除怎么操作?用dropna()会删除所有有空值的行,请看下面实例. 区分 None,null,NULL,nan ...
pandas以前笔记
# -*- coding: utf-8 -*- """ Created on Sat Jul 21 20:06:20 2018@author: heimi "& ...
pandas dataframe 字符映射为数字
在机器学习中对于有序的类别型变量可以不采用onehot编码,直接使用有序数字代替即可,这个目的可以在pandas中使用map方法实现. import pandas as pd 创建数据框 raw_da ...
pandas如何读取一个文件夹下的所有文件
from os import walk import pandas as pd dataframe_list = [] #walk会返回3个参数,分别是路径,目录list,文件list,你可以按需修改 ...
python pandas 如何找到NaN、缺失值或者某些元素的索引名称以及位置，np.where的使用
我们在处理数据的时候,经常需要检查数据的质量,也需要知道出问题的数据在哪个位置.我找了很久,也尝试了很多办法,都没能找到一种非常直接的函数,本文所要介绍的是一种我认为比较方便的方法:np.where( ...
pandas数据框，统计某列或者某行数据元素的个数
版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/sinat_38893241/artic ...
Pandas库常用函数和操作
目录 1. DataFrame 处理缺失值 dropna() 2. 根据某维度计算重复的行 duplicated().value_counts() 3. 去重 drop_duplicates( ...

pandas-hw4

拼接多个csv文件

去除重复数据，重新索引

自动挡和手动挡数目

计算每个城市二手车数量

统计每个汽车品牌平均售价价格(不是原价)

pandas-hw4相关推荐

最新文章

热门文章