拼接多个csv文件

import numpy as np
import pandas as pd
bj = pd.read_csv('guazi_bj.csv')
gz = pd.read_csv('guazi_gz.csv')
sh = pd.read_csv('guazi_sh.csv')
sz = pd.read_csv('guazi_sz.csv')
#guazi_bj.csv
#guazi_gz.csv
#guazi_sh.csv
#guazi_sz.csv
df1 = pd.merge(bj,gz,how='outer').merge(sh,how='outer').merge(sz,how='outer')
df1title    brand   buy_time    km  speedbox    displacement    es_price    new_price   city    year_type   level   suv horsepower  fuel    length  width   height  owners  drive
0   大众 宝来 2014款 1.6L 自动时尚型  一汽-大众   2014-08 3.82    自动  1.6L    8.00    13.0    北京  2014款   紧凑型 0   105马力   汽油  4523    1775    1467    NaN 前置前驱
1   福特 福睿斯 2015款 1.5L 自动时尚型 长安福特    2015-12 2.35    自动  1.5L    7.80    13.0    北京  2015款   紧凑型 0   113马力   汽油  4587    1825    1490    NaN 前置前驱
2   大众 速腾 2012款 1.6L 自动舒适型  一汽-大众   2012-05 6.67    自动  1.6L    7.00    16.4    北京  2012款   紧凑型 0   105马力   汽油  4644    1778    1482    NaN 前置前驱
3   奔驰C级 2011款 C 200 CGI 时尚型    北京奔驰    2013-01 11.83   自动  1.8T    15.00   42.1    北京  2011款   中型  0   184马力   汽油  4591    1770    1444    NaN 前置后驱
4   大众 帕萨特 2013款 2.0TSI DSG御尊版  上汽大众    2013-11 8.95    自动  2.0T    13.00   27.7    北京  2013款   中型  0   200马力   汽油  4870    1834    1472    NaN 前置前驱
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
7022    别克 君威 2015款 GS 2.0T 豪情运动版   上汽通用别克  2016-03 4.21    自动  2.0T    11.49   25.0    深圳  2015款   中型  0   254马力   汽油  4834    1856    1494    NaN 前置前驱
7023    雪佛兰 迈锐宝 2018款 530T 自动舒适版    上汽通用雪佛兰 2017-10 0.09    自动  1.5T    11.00   17.9    深圳  2018款   中型  0   170马力   汽油  4855    1854    1476    NaN 前置前驱
7024    丰田 锐志 2013款 2.5S 菁锐版    一汽丰田    2013-10 3.95    自动  2.5L    14.00   22.8    深圳  2013款   中型  0   193马力   汽油  4750    1795    1450    NaN 前置后驱
7025    日产 逍客 2011款 1.6XE 风 5MT 2WD 东风日产    2012-01 7.26    手动  1.6L    5.30    15.2    深圳  2011款   紧凑型 1   121马力   汽油  4315    1783    1606    NaN 前置前驱
7026    丰田 卡罗拉 2014款 1.6L CVT GL-i  一汽丰田    2015-10 3.67    自动  1.6L    9.50    13.9    深圳  2014款   紧凑型 0   122马力   汽油  4630    1775    1480    NaN 前置前驱
7027 rows × 19 columns

去除重复数据,重新索引

df2=df1
df2=df2.drop_duplicates()
df2.reset_index()index  title   brand   buy_time    km  speedbox    displacement    es_price    new_price   city    year_type   level   suv horsepower  fuel    length  width   height  owners  drive
0   0   大众 宝来 2014款 1.6L 自动时尚型  一汽-大众   2014-08 3.82    自动  1.6L    8.00    13.0    北京  2014款   紧凑型 0   105马力   汽油  4523    1775    1467    NaN 前置前驱
1   1   福特 福睿斯 2015款 1.5L 自动时尚型 长安福特    2015-12 2.35    自动  1.5L    7.80    13.0    北京  2015款   紧凑型 0   113马力   汽油  4587    1825    1490    NaN 前置前驱
2   2   大众 速腾 2012款 1.6L 自动舒适型  一汽-大众   2012-05 6.67    自动  1.6L    7.00    16.4    北京  2012款   紧凑型 0   105马力   汽油  4644    1778    1482    NaN 前置前驱
3   3   奔驰C级 2011款 C 200 CGI 时尚型    北京奔驰    2013-01 11.83   自动  1.8T    15.00   42.1    北京  2011款   中型  0   184马力   汽油  4591    1770    1444    NaN 前置后驱
4   4   大众 帕萨特 2013款 2.0TSI DSG御尊版  上汽大众    2013-11 8.95    自动  2.0T    13.00   27.7    北京  2013款   中型  0   200马力   汽油  4870    1834    1472    NaN 前置前驱
... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ... ...
7011    7022    别克 君威 2015款 GS 2.0T 豪情运动版   上汽通用别克  2016-03 4.21    自动  2.0T    11.49   25.0    深圳  2015款   中型  0   254马力   汽油  4834    1856    1494    NaN 前置前驱
7012    7023    雪佛兰 迈锐宝 2018款 530T 自动舒适版    上汽通用雪佛兰 2017-10 0.09    自动  1.5T    11.00   17.9    深圳  2018款   中型  0   170马力   汽油  4855    1854    1476    NaN 前置前驱
7013    7024    丰田 锐志 2013款 2.5S 菁锐版    一汽丰田    2013-10 3.95    自动  2.5L    14.00   22.8    深圳  2013款   中型  0   193马力   汽油  4750    1795    1450    NaN 前置后驱
7014    7025    日产 逍客 2011款 1.6XE 风 5MT 2WD 东风日产    2012-01 7.26    手动  1.6L    5.30    15.2    深圳  2011款   紧凑型 1   121马力   汽油  4315    1783    1606    NaN 前置前驱
7015    7026    丰田 卡罗拉 2014款 1.6L CVT GL-i  一汽丰田    2015-10 3.67    自动  1.6L    9.50    13.9    深圳  2014款   紧凑型 0   122马力   汽油  4630    1775    1480    NaN 前置前驱
7016 rows × 20 columns

自动挡和手动挡数目

df3=pd.merge(bj,gz,how='outer').merge(sh,how='outer').merge(sz,how='outer')
df3.speedbox.value_counts()自动    5634
手动    1393
Name: speedbox, dtype: int64

计算每个城市二手车数量

df4=df2
df4.city.value_counts()广州    2007
上海    1973
北京    1539
深圳    1497
Name: city, dtype: int64

统计每个汽车品牌平均售价价格(不是原价)

`df5=pd.merge(bj,gz,how='outer').merge(sh,how='outer').merge(sz,how='outer')
df5.groupby(by='brand')['es_price'].mean()brand
Jeep(进口)    11.243636
MINI        12.167931
smart        5.290000
一汽-大众        8.265396
一汽-大众奥迪     19.902073...
陆风汽车         7.400000
雪佛兰(进口)      7.125000
雷克萨斯        23.558929
雷诺(进口)       8.763000
马自达(进口)      9.355000
Name: es_price, Length: 101, dtype: float64

pandas-hw4相关推荐

  1. Pandas 使用入门

    Pandas 简介 运行环境 jupyter notebook python 3.6 pandas '0.20.3' matplotlib '2.1.0' 学习目标: * 大致了解 pandas 库的 ...

  2. modin pandas 加速

    20211203 https://blog.csdn.net/BF02jgtRS00XKtCx/article/details/108988757 利用swifter加速apply Modin是一个P ...

  3. 利用pandas读写HDF5文件

    一.简介 HDF5(Hierarchical Data Formal)是用于存储大规模数值数据的较为理想的存储格式,文件后缀名为h5,存储读取速度非常快,且可在文件内部按照明确的层次存储数据,同一个H ...

  4. pandas dataframe 删除带空值的行 各种空值 (dropna()、isna()、isnull()、fillna())

    假设拿到一个10万行的数据后,通过isnull我们发现某列有几个空值,要把该列空值所在行删除怎么操作?用dropna()会删除所有有空值的行,请看下面实例. 区分 None,null,NULL,nan ...

  5. pandas以前笔记

    # -*- coding: utf-8 -*- """ Created on Sat Jul 21 20:06:20 2018@author: heimi "& ...

  6. pandas dataframe 字符映射为数字

    在机器学习中对于有序的类别型变量可以不采用onehot编码,直接使用有序数字代替即可,这个目的可以在pandas中使用map方法实现. import pandas as pd 创建数据框 raw_da ...

  7. pandas如何读取一个文件夹下的所有文件

    from os import walk import pandas as pd dataframe_list = [] #walk会返回3个参数,分别是路径,目录list,文件list,你可以按需修改 ...

  8. python pandas 如何找到NaN、缺失值或者某些元素的索引名称以及位置,np.where的使用

    我们在处理数据的时候,经常需要检查数据的质量,也需要知道出问题的数据在哪个位置.我找了很久,也尝试了很多办法,都没能找到一种非常直接的函数,本文所要介绍的是一种我认为比较方便的方法:np.where( ...

  9. pandas数据框,统计某列或者某行数据元素的个数

    版权声明:本文为博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明. 本文链接:https://blog.csdn.net/sinat_38893241/artic ...

  10. Pandas库常用函数和操作

    目录 1. DataFrame 处理缺失值  dropna() 2. 根据某维度计算重复的行   duplicated().value_counts() 3. 去重  drop_duplicates( ...

最新文章

  1. 集成学习——Adaboost分类
  2. tensorflow 对csv数据进行批量获取
  3. xa 全局锁_fescar锁设计和隔离级别的理解
  4. 云耀服务器切换系统,云耀云服务器重装操作系统
  5. arm--ldm、stm指令解析
  6. activiti高亮显示图片_第 09 篇:让博客支持 Markdown 语法和代码高亮
  7. 开源服务器Tornado的初步了解
  8. asp.net 6中的mini api和mvc api性能对比
  9. LeetCode 3. 无重复字符的最长子串(滑动窗口+哈希)
  10. javascript 等待指定时间_javascript的单线程和任务队列
  11. proxmox超融合自动迁移
  12. 惠普服务器硬件检测软件吗,惠普 PROLIANT 服务器硬件检测工具使用方法
  13. keil C51代码优化等级介绍
  14. 百度智能云-文字识别SDK-识别验证码Demo
  15. 如何实现微信扫码登录--OAuth2
  16. WebView加载淘宝,天猫链接失败
  17. 手把手教你下载XShell免费版(超详细)
  18. 中国·乌镇互联网产业园项目总投资约100亿元
  19. correl函数相关系数大小意义_用Correl函数返回相关系数,以确定属性关系
  20. wangeditor v5 在vue中的使用

热门文章

  1. thinkphp lang命令执行(QVD-2022-46174)漏洞复现
  2. 【SQL】 使用SQL语句在表中添加数据(一条 / 多条)
  3. 寒假python培训
  4. echarts+ajax 入门教程
  5. 用break还是continue?
  6. 易观分析:三大协会发声NFT,未来监管走向几何?
  7. vue目录树组件(树状结构列表)
  8. 基于PMO的企业项目管理组织结构
  9. java计算机毕业设计汽车美容管理源码+mysql数据库+系统+lw文档+部署
  10. js获取当日前30天全部日期