pandas是数据处理最常用的分析库之一，可以读取各种各样格式的数据文件，一般输出dataframe格式。
如：txt、csv、excel、json、剪切板、数据库、html、hdf、parquet、pickled文件、sas、stata等等。

对于结构化的、探索性数据统计和分析场景，使用pandas方法进行读取，因为其提供了数据框，对数据进行任意翻转、切片、关联都很方便。

一.读取文件的方法

1.read_csv方法

read_csv方法用来读取csv格式文件，输出dataframe格式。

1.1 filepath_or_buffer（读取csv文件）

#filepath_or_buffer读取csv文件，可以是文件路径，也可以是一个URL，如果访问该URL会返回一个文件的话，那么pandas的read_csv函数会自动将该文件进行读取。

import pandas as pd
file_path=r'D:\pythonProject\数学建模\data\1\附件1 弱覆盖栅格数据(筛选).csv'#'test.csv'# 可以设置set_option展现完整数据，不设置的话就会省略。。。
pd.set_option("display.width",None)
pd.set_option("display.max_rows",None)content=pd.read_csv(file_path)
print(content)

1.2 header和names（列名称和列索引、从第几行开始）

#header设置导入 DataFrame 的列名称，默认为 "infer"
#names:当names没被赋值时，header会变成0，即选取数据文件的第一行作为列名。
#当 names 被赋值，header 没被赋值时，那么header会变成None。如果都赋值，就会实现两个参数的组合功能。

content=pd.read_csv(file_path, header=1)#从第2行开始
content=pd.read_csv(file_path, header=None)
#认为原始文件数据没有列索引,为其自动加上列索引{从0开始}
content=pd.read_csv(file_path, names=["1", "2", "3"])#在原csv上面加上names数据这1行
content=pd.read_csv(file_path, names=range(1,4), header=0)
#从第1行开始，并把第1行替换成names数组

1.3 usecols（提取需要的列）

#usecols选择想要提取的列，选择列名的长度大于 4 的列：usecols=lambda x: len(x) > 4

content=pd.read_csv(file_path, usecols=["x", "y"])

1.4 index_col（选择哪一列作为索引）

content=pd.read_csv(file_path, index_col=2)#将第一列作为索引index

# index_col='y',将"y"这一列作为索引即行索引后，"y"这列即不在属于列名这类，即不能使用df['y']获取列值
# read_csv()方法中header参数和index_col参数不能混用，因为header指定列索引，index_col指定行索引，一个DataFrame对象只有一种索引

1.5 dtype（列类型）

#dtype来指定某个列的类型

content=pd.read_csv(file_path, dtype={"x": str,'y':str})#dtype来指定某个列的类型
content["x"] = content["x"] * 3

1.6 converters（列数据变换）

#converters可以在读取的时候对列数据进行变换,好像也可以指定数据类型
#使用converters参数时，解析器默认所有列的类型为 str，所以需要显式类型转换

content=pd.read_csv(file_path, converters={"id": lambda x: int(x) + 10})

1.7 true_values和false_values （数据清洗）

# true_values和false_value指定哪些值应该被清洗为True，哪些值被清洗为False
# 只有当某一列的数据全部出现在true_values + false_values里面，才会被替换

content=pd.read_csv(file_path, true_values=["对"], false_values=["错"])
content=pd.read_csv(file_path, false_values=["错", "对"])

1.8 skiprows（过滤行）

# skiprows 表示过滤行，想过滤掉哪些行，先过滤，然后再确定表头

content=pd.read_csv(file_path,skiprows=[0])
content=pd.read_csv(file_path, skiprows=lambda x: x > 0 and x % 2 == 0)

1.9 skipfooter（过滤结尾）

# skipfooter:接收整型，表示从结尾往上过滤掉指定数量的行，解析引擎退化为 Python。这是因为 C 解析引擎没有这个特性。

content=pd.read_csv(file_path, skipfooter=3, encoding="utf-8", engine="python")

1.10 nrows（一次性读入行数）

#nrows 设置一次性读入的文件行数
# 它在读入大文件时很有用，比如 16G 内存的PC无法容纳几百 G 的大文件。很多时候我们只是想看看大文件内部的字段长什么样子

content=pd.read_csv(file_path, nrows=1)

1.11 na_values（处理成NaN）

# na_values 参数可以配置哪些值需要处理成 NaN,针对整个csv中的全部数据,下面是只对指定的列进行替换

content=pd.read_csv(file_path, na_values=["对", "古明地觉"])
content=pd.read_csv(file_path, sep="\t", na_values={"x": ["古明地觉", "博丽灵梦"], "y": ["对"]})

1.12 keep_default_na（默认转换为NaN的值不转换）

# 除了 na_values 指定的值之外，还有一些默认的值也会在读取的时候被替换成空值，这些值有：
# "-1.#IND"、"1.#QNAN"、"1.#IND"、"-1.#QNAN"、"#N/A N/A"、"#N/A"、"N/A"、"NA"、"#NA"、"NULL"、"NaN"、"-NaN"、"nan"、"-nan"、""
# 尽管这些值在 CSV 中的表现形式是字符串，但是 pandas 在读取的时候会替换成空值（真正意义上的 NaN）。
# 不过有些时候我们不希望这么做，比如有一个具有业务含义的字符串恰好就叫 "NA"，那么再将它替换成空值就不对了。
# 这个时候就可以将 keep_default_na 指定为 False，默认为 True，如果指定为 False，那么 pandas 在读取时就不会擅自将那些默认的值转成空值了
# 但是na_values 参数指定的不受此影响，还是会转换成NAN

content=pd.read_csv(file_path, na_values=["", "NULL"],keep_default_na=False)

1.13 na_filter和skip_blank_lines（空值监测、过滤空行）

# na_filter指定为 False，那么 pandas 在读取 CSV 的时候不会进行任何空值的判断和检测，所有的值都会保留原样。
# 因此，如果你能确保一个 CSV 肯定没有空值，则不妨指定 na_filter 为 False，因为避免了空值检测，可以提高大型文件的读取速度。
# 另外，该参数会屏蔽 keep_default_na 和 na_values，也就是说，当 na_filter 为 False 的时候，这两个参数会失效。# skip_blank_lines 默认为 True，表示过滤掉空行，如为 False 则解析为 NaN。
# 也可以指定 keep_default_na 为 False 来改变这一点

content=pd.read_csv(file_path, na_filter=False,skip_blank_lines=False)

1.14 parse_dates和date_parser和infer_datetime_format（和keep_date_col 和dayfirst）（时间转换）

# parse_dates，指定某些列为时间类型，这个参数一般搭配下面的date_parser使用。
# date_parser是用来配合parse_dates参数的，因为有的列虽然是日期，但没办法直接转化，需要我们指定一个解析格式：
# infer_datetime_format 参数默认为 False。如果设定为 True 并且 parse_dates 可用，
# 那么 pandas 将尝试转换为日期类型，如果可以转换，转换方法并解析，在某些情况下会快 5~10 倍。

from datetime import datetime
content=pd.read_csv(file_path, sep="\t", parse_dates=["date"], date_parser=lambda x: datetime.strptime(x, "%Y年%m月%d日"))

# keep_date_col : boolean, default False
# 如果连接多列解析日期，则保持参与连接的列。默认为False。
#
# date_parser : function, default None
# 用于解析日期的函数，默认使用dateutil.parser.parser来做转换。Pandas尝试使用三种不同的方式解析，如果遇到问题则使用下一种方式。
# 1.使用一个或者多个arrays（由parse_dates指定）作为参数；
# 2.连接指定多列字符串作为一个列作为参数；
# 3.每行调用一次date_parser函数来解析一个或者多个字符串（由parse_dates指定）作为参数。# dayfirst : boolean, default False
# DD/MM格式的日期类型

1.15 iterator（处理大文件）

# 分块读入内存，尤其单机处理大文件时会很有用。
# iterator 为 bool类型，默认为False。如果为True，那么返回一个 TextFileReader 对象，以便逐块处理文件。
# 这个在文件很大、内存无法容纳所有数据文件时，可以分批读入，依次处理。

chunk = pd.read_csv(file_path, iterator=True)
print(chunk)  # <pandas.io.parsers.TextFileReader object at 0x000002550189C0A0>print(chunk.get_chunk(1))#依次从剩余的数据中读取前1行
print(chunk.get_chunk(2))#依次从剩余的数据中读取前2行
# 文件还剩下三行，但是我们指定读取100，那么也不会报错，不够指定的行数，那么有多少返回多少
print(chunk.get_chunk(100))
try:# 但是在读取完毕之后，再读的话就会报错了chunk.get_chunk(5)
except StopIteration as e:print("读取完毕")
# 读取完毕

1.16 chunksize（文件块）

# chunksize 整型，默认为 None，设置读取文件块的大小。

chunk = pd.read_csv(file_path, chunksize=2)
# 还是返回一个类似于迭代器的对象
print(chunk)  # <pandas.io.parsers.TextFileReader object at 0x0000025501143AF0>
# 调用get_chunk，如果不指定行数，那么就是默认的chunksize
print(chunk.get_chunk())
# 但也可以指定
print(chunk.get_chunk(100))
try:chunk.get_chunk(5)
except StopIteration as e:print("读取完毕")
# 读取完毕

1.17 compression（读取压缩文件等）

# compression 参数取值为 {'infer', 'gzip', 'bz2', 'zip', 'xz', None}，默认 'infer'，这个参数直接支持我们使用磁盘上的压缩文件。

# 直接将上面的girl.csv添加到压缩文件，打包成girl.zip
content=pd.read_csv('girl.zip', sep="\t", compression="zip")

1.18 error_bad_lines和warn_bad_lines（处理某一行多一个数据）

# error_bad_lines和warn_bad_lines 两参数只能在C解析引擎下使用。
# 如果一行包含过多的列，假设csv的数据有5列，但是某一行却有6个数据，数据有问题。那么默认情况下不会返回DataFrame，而是会报错。
# 这时,我们就可以将error_bad_lines设置为False(默认为True)，遇到这种情况，直接把这一行扔掉。同时会设置 warn_bad_lines 设置为True，打印剔除的这行。

content=pd.read_csv(file_path, error_bad_lines=False, warn_bad_lines=True)

1.19 sep、delimiter、delim_whitespace（分隔符）

# sep读取csv文件时指定的分隔符，默认为逗号
# sep : str , default','分隔符长于一个字符并且不是‘\s+’,将使用python的语法分析器。并且忽略数据中的逗号。正则表达式例子：'\r\t'
# **这里补充说明一下‘\s+’
# 正则表达式中\s匹配任何空白字符，包括空格、制表符、换页符等等, 等价于[ \f\n\r\t\v]
#     \f -> 匹配一个换页
#     \n -> 匹配一个换行符
#     \r -> 匹配一个回车符
#     \t -> 匹配一个制表符
#     \v -> 匹配一个垂直制表符
#     而“\s+”则表示匹配任意多个上面的字符。# delimiter定界符，备选分隔符，与 sep 功能相似（如果指定该参数，则sep参数失效）# delim_whitespace设置为 True 时，表示分割符为空白字符，可以是空格、"\t"等等，等效于设定sep='\s+'。不管分隔符是什么，只要是空白字符，那么可以通过delim_whitespace=True进行读取。如果这个参数设定为Ture那么delimiter 参数失效。

1.20 mangle_dupe_cols（重名列的处理）

# 实际生产用的数据会很复杂，有时导入的数据会含有重名的列。参数 mangle_dupe_cols 默认为 True，重名的列导入后面多一个 .1。如果设置为 False，会抛出不支持的异常

1.21 prefix（列名前缀）

# prefix 参数，当导入的数据没有 header 时，设置此参数会自动加一个前缀。比如：

content=pd.read_csv(file_path, header=None, prefix="x")

#生成的列的名称是x0,x1,x2...不指定prefix就是0,1,2...

1.22 squeeze（返回Series）

# squeeze参数为True的话，在只有一列的情况下，那么得到就是一个Series

1.23 engine（数据引擎）

# engine指定pandas解析数据时用的引擎，pandas 目前的解析引擎提供两种：c、python，默认为 c，因为 c 引擎解析速度更快，但是特性没有 python 引擎全。如果使用 c 引擎没有的特性时，会自动退化为 python 引擎。

1.24 low_memory

# low_memory这个看起来是和内存有关的，但更准确的说，其实它是和数据类型相关的。在解释这个原因之前，我们还要先从DataFrame的数据类型说起。
# 我们知道DataFrame的每一列都是有类型的，那么在读取csv的时候，pandas也是要根据数据来判断每一列的类型的。但pandas主要是靠"猜"的方法，因为在读取csv的时候是分块读取的，每读取一块的时候，会根据数据来判断每一列是什么类型；然后再读取下一块，会再对类型进行一个判断，得到每一列的类型，如果得到的结果和上一个块得到结果不一样，那么就会发出警告，提示有以下的列存在多种数据类型：
# DtypeWarning: Columns (1,5,8,......) have mixed types. Specify dtype option on import or set low_memory=False.
# 而为了保证正常读取，那么会把类型像大的方向兼容，比如第一个块的user_id被解析成整型，但是在解析第二个块发现user_id有的值无法解析成整型，那么类型整体就会变成字符串，于是pandas提示该列存在混合类型。
# 而一旦设置low_memory=False，那么pandas在读取csv的时候就不分块读了，而是直接将文件全部读取到内存里面，这样只需要对整体进行一次判断，就能得到每一列的类型。但是这种方式也有缺陷，一旦csv过大，就会内存溢出。
# 不过从数据库读取就不用担心了，因为数据库是规定了每一列的类型的。如果是从数据库读取得到的DataFrame，那么每一列的数据类型和数据库表中的类型是一致的。还有，我们在上面介绍了dtype，这个是我们手动规定类型，那么pandas就会按照我们规定的类型去解析指定的列，但是一旦无法解析就会报错。

1.25 memory_map

# memory_map如果你知道python的一个模块mmap，那么你肯定很好理解。如果使用的数据在内存里，那么直接进行映射即可，直接map文件使用，不会（可以避免文件）再次进行IO操作，默认为False。这个参数比较底层，我们一般用不到。

1.26 verbose

# verbose=True:打印一些额外信息

1.27 thousands

# thousands 千分位分割符，如 , 或者 .，默认为None。

1.28 encoding

# encoding 指定字符集类型，通常指定为 'utf-8'。根据情况也可能是'ISO-8859-1'

1.29 skipinitialspace

# skipinitialspace=True忽略分隔符后的空白（默认为False，即不忽略）.

1.30 补充-查看得到后的数据

print(content)
print(content.head())  # 默认返回前5行数据
print(content.head(3))  # 返回前3行数据
print(content.shape)  # 返回一个元组（总行数，总列数），总行数不包括标题行
print(content.index)    # RangeIndex(start=0, stop=182807, step=1)
# 返回索引，是一个可迭代的对象<class 'pandas.core.indexes.range.RangeIndex'>
print(content.columns)    #  返回所有的列名 Index(['x', 'y', 'traffic'], dtype='object')
print(content.dtypes)  #  返回的是每列的数据类型

2.read_excel方法

read_excel 读取excel文件，包括xlsx、xls、xlsm格式，需要下载openpyxl库

read_excel大多数的方法和read_csv相同，不同的或者特别的我用红色字体标出了。

2.1 io（读取excel文件）

#io为文件类对象，一般作为读取文件的路径,默认读取第一个表

import pandas as pd
file_path=r'D:\pythonProject\数学建模\data\a.xlsx'# 可以设置set_option展现完整数据，不设置的话就会省略。。。
pd.set_option("display.width",None)
pd.set_option("display.max_rows",None)# 为方便演示函数效果这里创建一个excel文件，其中创建了两个表格：
excel=pd.read_excel(file_path, header=None)

2.2 sheet_name（表格名）

该参数为指定读取excel的表格名。

#sheet_name默认为0，=1指定读取第2张表

excel=pd.read_excel(file_path,sheet_name=1)#sheet_name="Sheet1" sheet_name=[0,1]

2.3 header和names（列名称和列索引、从第几行开始）

excel=pd.read_excel(file_path,header=1)
#header参数为指定列表中从第2行作为列索引
excel=pd.read_excel(file_path,names=['x','y','z'])
#names:接收一个数组，将列名(第一行)重定义赋值

2.4 usecols（提取需要的列）

excel=pd.read_excel(file_path,usecols=['222q'])
#usecols选择想要提取的列，选择列名的长度大于 4 的列：usecols=lambda x: len(x) > 4
excel=pd.read_excel(file_path,usecols="A,C")
#excel中上面有A，B,C，usecols="A,C:E"表示第A列和C到E列
excel=pd.read_excel(file_path,usecols=[0,2])
#选第1列和第3列

2.5 index_col（选择哪一列作为索引）

excel=pd.read_excel(file_path,index_col=1)
#index_col：指定将第几列作为索引

2.6 dtype（列数据类型）

excel=pd.read_excel(file_path,dtype={'333q':np.float64})
#指定读取列的数据类型,可接收字典,若指定了“converters”参数，则dtype函数失效。

2.7 converters（列数据变换）

excel=pd.read_excel(file_path,dtype={"222q":np.float64},converters={"ID":str,"vaule":lambda x: x+1})
#converters指定列数据类型转换函数，包括了dtype的功能，也可以对某一列使用Lambda函数，进行某种运算

2.8 true_values和false_values （数据清洗）

excel=pd.read_excel(file_path,sheet_name=1,true_values=['female'],false_values=['male'])
#传输一个列表判断为true或是false

2.9 skiprows（过滤行）

#skiprows参数为跳过行操作,仅取偶数行：skiprows=lambda x:x%2==0

excel=pd.read_excel(file_path,skiprows=[1,3])

2.10 skipfooter（过滤结尾）

excel=pd.read_excel(file_path,skipfooter=2)
#从结尾往上过滤掉指定数量的行

2.11 nrows（一次性读入行数）

#nrow指定需要读取前多少行，通常用于较大的数据文件中

excel=pd.read_excel(file_path,nrows=3)

2.12 na_values（处理成NaN）

#na_values将指定的值或者传入中的列表中的值设置为NaN
含义：用于将某些特定的值，解析为NaN值，然后便于我们后面做缺失值的处理；
na_values=”值1“表示将所有数据中值1全部替换为NaN；
na_values=[”值1“,"值2"]表示将所有数据中值1、值2全部替换为NaN；
na_values={"列1":[”值1“,"值2"]}表示将第一列中所有的值1、值2全部替换为NaN；

excel=pd.read_excel(file_path,sheet_name=1,na_values=["", "NULL"],keep_default_na=False)
#表示将所有数据中值1、值2全部替换为NaN；
excel = pd.read_excel(file_path, na_values={"列2": ["0", " "]})
#只替换某一列中的某些值为NaN

2.13 keep_default_na（默认转换为NaN的值不转换）

#keep_default_na处理数据是否包含默认的NaN值依赖于na_values参数是否被传递，默认为True，即自动识别空值导入。

2.24 na_filter（空值监测）

# na_filter指定为 False，那么 pandas 在读取 CSV 的时候不会进行任何空值的判断和检测，所有的值都会保留原样。
# 作用：检测缺少的值标记。当数据中没有任何NA值时，na_filter设置为False可以提高处理速度，特别是处理大文件时。
# 另外，该参数会屏蔽 keep_default_na 和 na_values，也就是说，当 na_filter 为 False 的时候，这两个参数会失效。

excel=pd.read_excel(file_path, na_filter=False)

2.25 parse_dates和date_parser（日期处理）

# parse_dates# 含义：指定将哪些列，解析为日期格式；
# parse_dates=True是专门用于将行索引，解析为日期格式；
# parse_dates=[0,1,2,3,4]和parse_dates=["列名1","列名2","列名3","列名4"]，都是将指定列一起解析为日期格式；
# parse_dates=[[1,2,3]]和parse_dates=[["年","月","日"]]，都是将多个列，解析为单个日期列(列名是组合的列名)；
# parse_dates={"日期":[1,2,3]}不仅将多个日期列解析为单个日期列，同时还为这一列命名；#重新创建个表：
#   年   月   日
# 2022  4   27
# 2022  4   27

excel = pd.read_excel(file_path, parse_dates=[0, 1, 2, 3])
excel = pd.read_excel(file_path, parse_dates=[["年","月","日"]])
excel = pd.read_excel(file_path, parse_dates={"日期":[0,1,2]})

# data_parser
# 作用：设置处理日期数据的函数,利用lambda函数，将某个字符串列，解析为日期格式；一般是配合parse_dates参数，一起使用

excel=pd.read_excel(file_path,parse_dates=[0],date_parser=lambda x:pd.to_datetime(x,format='%Y年%m月%d日'))

2.26 mangle_dupe_cols（重名列的处理）

# 参数 mangle_dupe_cols 默认为 True，重名的列导入后面多一个 .1。如果设置为 False，会抛出不支持的异常：

excel=pd.read_excel(file_path,mangle_dupe_cols=False)

2.27 engine（数据引擎）

# engine参数为指定Excel处理引擎，一般Excel处理引擎为xlrd，openpyxl，odf：

excel=pd.read_excel(file_path,engine='openpyxl')

2.28 verbose

# .verbose输出放置在非数字列中NA值的数目

excel=pd.read_excel(file_path, verbose=True)

2.29 squeeze（返回Series）

squeeze：布尔值，默认为False。如果只有一列数值，则返回一个Series。

2.30 补充-查看得到后的数据

print(content)
print(content.head())  # 默认返回前5行数据
print(content.head(3))  # 返回前3行数据
print(content.shape)  # 返回一个元组（总行数，总列数），总行数不包括标题行
print(content.index)    # RangeIndex(start=0, stop=182807, step=1)
# 返回索引，是一个可迭代的对象<class 'pandas.core.indexes.range.RangeIndex'>
print(content.columns)    #  返回所有的列名 Index(['x', 'y', 'traffic'], dtype='object')
print(content.dtypes)  #  返回的是每列的数据类型

2.31更多

# python用于读写excel文件的库有很多，除了前面提到的pandas，还有xlrd、xlwt、openpyxl、xlwings等等。
# 主要模块：
# xlrd库：从excel中读取数据，支持xls、xlsx
# xlwt库：对excel进行修改操作，不支持对xlsx格式的修改
# xlutils库：在xlw和xlrd中，对一个已存在的文件进行修改
# openpyxl：主要针对xlsx格式的excel进行读取和编辑
# xlwings：对xlsx、xls、xlsm格式文件进行读写、格式修改等操作
# xlsxwriter：用来生成excel表格，插入数据、插入图标等表格操作，不支持读取
# Microsoft Excel API：需安装pywin32，直接与Excel进程通信，可以做任何在Excel里可以做的事情，但比较慢

3.read_sql(sql语句,数据库连接对象)

# 操作数据库（pymysql、cx_Oracle等）
# python几乎支持对所有数据库的交互，连接数据库后，可以使用sql语句进行增删改查。
# 主要模块：
# pymysql：用于和mysql数据库的交互
# sqlalchemy：用于和mysql数据库的交互
# cx_Oracle：用于和oracle数据库的交互
# sqlite3：内置库，用于和sqlite数据库的交互
# pymssql：用于和sql server数据库的交互
# pymongo：用于和mongodb非关系型数据库的交互
# redis、pyredis：用于和redis非关系型数据库的交互

数据库表格读取、数据对象的创建，可以根据pymysql,cx_oracle等模块连接mysql或者oracle。

1.sql:sql语句。

2.con：mysql连接。

3.index_col：指定索引列，默认为None。

4.coerce_float：尝试将非字符型，非数值型转换为浮点数，默认为True。

5.params：列表，元组，字典，默认为None。传递参数到sql语句。

6.parse_datas:列表或字典，默认为None。

7.columns：指定列名，list类型。

8.chunksize：可以返回一个迭代器，默认为None。

import pymysql
import pandas as pddef select_Tab(table):# mysql配置参数mysql_conf = {'host': '127.0.0.1','port': 3306,'user': 'root','passwd': '123456','db': 'test','charset': 'utf8'}mysql_conn = pymysql.connect(host=mysql_conf['host'], port=mysql_conf['port'],user=mysql_conf['user'], passwd=mysql_conf['passwd'],db=mysql_conf['db'], charset=mysql_conf['charset'])sql = "select * from " + tablerc = pd.read_sql(sql, mysql_conn)#    cursor = mysql_conn.cursor()#    try:#        cursor.execute(sql)#        rc = cursor.fetchall()#        #    except Exception as e:#        print(e)#        mysql_conn.rollback()#        #    cursor.close()mysql_conn.close()return rca = select_Tab('sc')

可以看到使用pd.read_sql()函数可以保留列名，而如果使用pymysql库读取则不会保留列名。

4.read_table

读取通用分隔符分割的数据文件到数据框。参数与read_csv完全相同。

5.Pandas其他数据读取方法

# read_json           读取json格式文件 将json对象转换为Pandas对象
# read_html方法        读取html表格
# read_clipboard方法   读取剪切板内容
# read_pickle方法      读取plckled持久化文件
# read_sql方法         读取数据库数据，连接好数据库后，传入sql语句即可
## read_dhf方法        读取hdf5文件，适合大文件读取
# read_parquet方法     读取parquet文件
# read_sas方法         读取sas文件
# read_stata方法       读取stata文件
# read_gbq方法         读取google bigquery数据

二.操作数据

numpy创建的数组中元素要求是同种数据类型，对数据分析、挖掘有较大的局限性.
pandas基于Numpy而创建可以处理不同的数据类型，而且有非常利于数据处理的数据结构：序列series和数据框dataframe.序列由两部分组成，一部分是索引，一部分是对应的值

2.1Series序列

import pandas as pd
import numpy as npl1=(1,4,'h1')   #[1,-2,2.3,'hq']#np.array([1,7.1])
s1=pd.Series(l1)# 指定列表、元祖或数组创建默序列,索引从0开始l1 = {'red':2000,'blue':1000,'yello':500}
s1 = pd.Series(l1, dtype=float)# 通过字典创建序列,索引就是字典key
# 通过dtype可以强制改变数据类型
s1 = pd.Series([-2,-2,np.nan,'hq'],index=['a','b','c','d'])# 指定列表和索引，创建个性化序列，效果和用字典差不多
# np.nan是一个float类型的数据，什么时候numpy中出现nan，我们读取本地文件为float时，如果有缺失，或者做了不合适的计算。s1['d']='aaaa'#可以随时修改并生效
print(s1['d'])# 序列中的元素访问方式非常简单，通过索引可以访问对应的元素值
print(s1.get('a3','默认值'))#通过get方法，查找对应的索引值，找不到指定后面的默认值
print('c' in s1)#索引值在c1中返回True，不存在返回False# 序列有两个属性，分别是值和索引，通过index和values可以获得其内容
print(s1.index)#Index(['a', 'b', 'c', 'd'], dtype='object')
print(s1.values)#[-2 -2 nan 'hq']s2=s1.unique()  #去掉序列中重复的元素值
s2=s1.fillna(999)#所有空值元素填充999
s2=s1.isin([-2,'hq'])#判断元素值是否存在，返回一个bool数组，存在为true,不存在false
s2=s1.value_counts()#统计序列元素值出现的次数,索引为序列元素的值，值为出现的次数
s2=s1.isnull()#判断序列是否有空值,返回一个bool数组，是返回true,不是返回false
s2=s1.notnull()#判断序列是否有非空值,返回一个bool数组，是返回true,不是返回false
print(s1[s2])#输出非空数据
print(s1.dropna())#清洗序列中的空值,和上面一样得出非空数据s2 = s1[['a','b']]  # 取索引号为字符a,b的元素
s2 = s1[0:1]   # 索引为连续的数组
s2 = s1[[0,2,3]]  # 索引为不连续的数组
s1 = pd.Series([1,2,3,4,5])
s2 = s1[s1>2]  # 索引为逻辑数组，对应的s1数组必须都是数字，有字母会出错print(s1.sum(),s1.mean(),s1.std(),s1.max(),s1.min(),s1.median(),s1.var())
#sum 求和， mean 求平均数据， std 求标准差， max 最大值， min 最小值， median 中位数， var 方差s1 = pd.Series([1,2,3],index=['a','b','e'])
s2 = pd.Series([9,8,7,6],index=['a','b','c','d'])
print(s1+s2)#索引相同的其对应值会相加，不同的索引其内容值都为NaNs1 = pd.Series([-2,-2,np.nan,'hq'],index=['a','b','c','d'])
s1.name='Series对象name'
s1.index.name='索引列'
print(s1)#Series对象和索引都可以有一个名字，存储在属性.name中

2.2dataframe数据框

#设置输出完整、对齐的表格
pd.set_option('display.unicode.ambiguous_as_wide', True)
pd.set_option('display.unicode.east_asian_width', True)# 通过Series对象字典创建
population_dict = {"BeiJing": 2154,"ShangHai": 2424,"ShenZhen": 1303,"HangZhou": 981 }
population = pd.Series(population_dict)
s1=pd.DataFrame(population, columns=["population"])
s1=pd.DataFrame({'population':population,'population2':population})
s1=pd.DataFrame({'population':population,'population2':population,"country": "China"})#数量不够的会自动补齐
df2=pd.DataFrame(np.arange(12).reshape(3,4),index=['a','c','b'],columns=[11,13,10,12])  #将二维数组转化为DataFrame类型数据
# 通过字典列表对象创建
data = [{"a": i, "b": 2*i} for i in range(3)]
print(data)#[{'a': 0, 'b': 0}, {'a': 1, 'b': 2}, {'a': 2, 'b': 4}]
s1=pd.DataFrame(data)
data = [{"a": 1, "b":1},{"b": 3, "c":4}]#不存在的键，会默认值为NaN
# 通过Numpy二维数组创建
data = np.random.randint(10, size=(3, 2))
s1=pd.DataFrame(data, columns=["foo", "bar"], index=["a", "b", "c"])data = {'a':pd.Series([1,2,3],index=['i1','i2','i3']),'b':pd.Series([9,8,7,6],index=['i1','i2','i3','i4'])}
data = {'a':[5,3,np.nan,1,6],'b':['d','c','a',np.nan,'q'],'c':[4,6,5,5,6]}
s1=pd.DataFrame(data)#其中字典的键转化为列名，字典的值转化为列值，而索引不设置则为默认值，即从0开始由大到小排列print(s1)
print(s1.columns,s1.index,s1.values,s1.shape,s1.size,s1.dtypes)#显示出列名，索引范围和列值的数组,形状,大小,返回每列数据类型
s1.replace({'a':{'A':'D','B':'E'}})#dataframe对象’upper’列中'A'修改成'D','B'修改成'E'
s2=s1.dropna()#去掉空值，原来的数据集不会发生改变,新数据集需要重新定义
s2=s1.dropna(axis=0,how='any')#axis=0表示行,axis=1表示列；how="any"表示存在任意一个或多个缺失值，how="all"表示全部为缺失值
# print(s1)
print(s2)s2 = s1.fillna('love')  # 所有空值元素填充love,也可以设置填充0等
print(s2)
s2 = s1.fillna({'a':10,'b':1})  #设置列填充，可以全部列填充也可以部分列填充
print(s2)s2=s1.fillna(method='pad',axis=1) #使用缺失值的前一个值进行填补，axis=0表示使用前一行非缺失值进行填补；axis=1表示使用前一列进行非缺失值填补
s2=s1.fillna(method='backfill',axis=0)#使用缺失值的后一个值进行填补，axis=0表示使用后一行的非缺失值进行填补，axis=1表示使用后一列的非缺失值进行填补s2=s1.sort_values('c',ascending=False)#指定按列值进行排序,默认按升序，这里设置为降序
print(s2)
s2=s1.sort_index(ascending=False)#按索引进行排序,默认按升序，这里设置为降序
print(s2)
s2=s1.head(2)#取数据集中的前n行
s2=s1.drop('b',axis=1)#删除数据集中的制定的列,需指定轴为1s2 = pd.DataFrame({'d':[1,2,3,4,5]})
s3=s1.join(s2)#实现两个数据框之间的水平连接
print(s3)n1=s1.to_numpy()#将数据框转换为numpy数组的形式
print(n1)print(s2.sum())#各列求和，含有字母列会报错
print(s2.mean())#各列求平均值,含有字母列会报错
print(s1.describe())#各列做描述性统计s2 = s1.fillna(99) # 所有空值元素填充0
print(s2)
# 利用数据框中的iloc属性进行切片
s2 = s1.iloc[1:3,2]   # 获取从0开始1,2行 从0开始第2列的数据框
s2 = s1.iloc[1:3,0:2]  # 获取从0开始1，2行，从0开始0,1列的数据框
s2 = s1.iloc[1:3,:]   # 获取从0开始 1,2行 所有列的数据框
s2 = s1.iloc[[0,2,3],[1,2]]  # 获取从0开始 0，2,3行，第1，2列数据框
TF=[True,False,False,True,True]
s2 = s1.iloc[TF,[1]]  # 获取第0、3、4行 从0开始，第1列的数据data ={'a':[2,2,np.nan,5,6],'b':['kl','kl','kl',np.nan,'kl'],'c':[4,5,6,np.nan,6],'d':[7,9,np.nan,9,8]}
s1 = pd.DataFrame(data)
# 利用loc属性进行切片
# 数据框中的loc属性，主要基于列标签进行索引，对列值进行行定位，通过指定列，从而实现数据切片操作
s2 = s1.loc[s1['b'] == 'kl',:]   # 选取所有列，且b行有由kl的元素，组成数据框
s2 = s1.loc[s1['b']== 'kl',:].head(3)   # 选取所有列，且b行有由kl的元素， 选出前三行，组成数据框
s2 = s1.loc[s1['b'] == 'kl',['a','c']].head(3)  # 选取a,c列且有kl的元素，选出前三行，组成数据框
s2 = s1.loc[s1['b'] == 'kl',['a','c']]  #  选取a,c列且有kl的元素，组成数据框
s2=s1.loc[[1,2]]#获取行
s2=s1[['a','b']]#获取列
s2=s1.a     #通过列名直接获取
#获取某一个值
s2=s1.loc[0,'a']#通过索引和列名
s2=s1.iloc[0,1]#通过索引
s2=s1.values[0][1]#通过索引
# df[‘列名’] 返回值为Series类型
# df[[‘列名’]] 返回值为DataFrame类型
s2 = pd.date_range(start='2019-01-01', periods=6)s2 = pd.DataFrame(np.random.randn(6,4), index=s2, columns=["A", "B", "C", "D"])
# 行切片
print(s2["2019-01-01": "2019-01-03"])
print(s2.loc["2019-01-01": "2019-01-03"])
# 列切片
print(s2.loc[:, "a": "c"])
# 行列切片
print(s2.loc["2019-01-02": "2019-01-03", "c":"d"])
# s2.loc["2019-01-04": "2019-01-06", ["a", "c"]]
# s2.iloc[3:, [0, 2]]
#取值
# s2.loc[["2019-01-04", "2019-01-06"], ["A", "D"]]
# s2.iloc[[1, 5], [0, 3]]print('!!!'*10)
a=pd.DataFrame(np.arange(12).reshape(3,4))
b=pd.DataFrame(np.arange(20).reshape(4,5))
print(a+b)#+‐*/符号进行的二元运算产生新的对象,空缺自动补齐NaN
print(a+3)#每个值+3
print(np.exp(a))#e的a[i]次方# 方法形式的运算
# fill_value把运算前缺省的NaN空值替换后，再参与运算，得出结果
c=b.add(a,fill_value=2)#类型间加法运算
c=b.sub(a,fill_value=2)#类型间减法运算
c=a.mul(b,fill_value=2)#类型间乘法运算
c=a.div(b,fill_value=2)#类型间除法运算
print(c)
print(a>5)#比较运算 >< >= <= == !=返回对应格式的bool数组s2=s1['b'].isin(['kl']) #相当于Series序列中查找一列中的数据返回bool数组
print(s1[s2])#根据一列的bool数组，输出对应的行数据
print(s2)
# 添加新列
s1['e']=[2,2,np.nan,5,6]
print(s1)
s1.index = [i for i in range(len(s1))]#修改index，len返回的是行数
# df.index=[‘name1’,‘name2’] 改变数组的行索引名，对原数组修改
# df.reindex=[‘name1’,‘name2’,inplace=Falese] 若指定的索引名不是原数组的索引名，则新添加一行为NaN的数据，否则不改变原数组，返回新数组，默认不在原数组修改
# df.set_index(‘列名’，drop=True，inplace=Falese) 指定某一列为行索引名替换原来的索引名，默认删除此列，且不在原数组修改
# df3 = df1.set_index(['A','B'])
# df4 = df3.swaplevel()#设置了2个索引之后，采用这个可以互换索引列s1.columns = [i for i in range(s1.shape[1])]#修改columns,s1.shape[1]指的是行数,[2]是列数print(s1.head(),s1.head(2),s1.tail(),s1.tail(3),s1.info())#默认前5行,前2行,默认后5行,前3行,查看总体信息print(s1.isnull())#判断数据是否有缺失，并返回对应的bool数组
print(np.any(s1.isnull()))#存在一个或多个空值的时候即返回True，若不存在空值则返回False
print(np.all(s1.isnull())) #当数据全部为空值时，返回为True，否则，返回为False
# df['B'].isnull()#查看某一列空值
# df['B'].unique()#查看某一列的唯一值# 数据合并
# s3=s1.join(s2)#实现两个数据框之间的水平连接
data1=pd.DataFrame(np.arange(12).reshape(4,3),columns=['a','c','d'])
data2=pd.DataFrame(np.arange(12,24).reshape(3,4),columns=['a','b','c','d'])
df9=pd.concat([data1,data2],axis=0,ignore_index=True) #将data1与data2进行纵向合并（axis=0表示纵向，axis=1表示横向），ignore_index=True表示行索引重新取值
df11=pd.concat([data1,data2],join='inner',axis=0,ignore_index=True) #纵向合并，只合data1与data2中共有的列，默认join="outer"，
print(df11)# df['city']=df['city'].str.lower()#大小写转换
# df['price'].astype('int')更改数据格式
# df.rename(columns={'category': 'category-size'})#更改列名称
# df['city'].drop_duplicates()#删除后出现的重复值
# df['city'].drop_duplicates(keep='last')#删除先出现的重复值
# df['city'].replace('sh', 'shanghai')#数据替换
df_inner=pd.merge(data1,data2,how='outer')#数据表合并，inner：交集；outer：并集，还有left、right
# result = df1.append(df2)#把2个表的内容纵向拼接起来
print(df_inner)s2=s1.groupby(by=3)#通过指定列，把该列中数值相等的划分到一类当中去
print(s1)
for t in s2:print(t)# print(t[0])# print(t[1])# df_inner['group'] = np.where(df_inner['price'] > 3000,'high','low')
# 如果prince列的值>3000，group列显示high，否则显示low
# df_inner.loc[(df_inner['city'] == 'beijing') & (df_inner['price'] >= 4000), 'sign']=1
# 对复合多个条件的数据进行分组标记

三.导出数据

3.1to_csv导出到csv

to_csv()是DataFrame类的方法，read_csv()是pandas的方法

3.1.1 path_or_buf（路径）

content.to_csv('Result.csv') #相对位置，保存在getwcd()获得的路径下
content.to_csv('C:/Users/think/Desktop/Result.csv') #绝对位置

3.1.2 sep（分隔符）

content.to_csv(file_path,sep='?')#使用?分隔需要保存的数据，如果不写，默认是,

3.1.3 na_rep（替换空值）

content.to_csv(file_path,na_rep='NA') #确实值保存为NA，如果不写，默认是空

3.1.4 float_format（格式）

content.to_csv(file_path,float_format='%.2f') #保留两位小数

3.1.5 cols（保留某列数据）

content.to_csv(file_path,columns=['name']) #保存索引列和name列

3.1.6 header（保留列名）

content.to_csv(file_path,header=0) #不保存列名

3.1.7 index（是否保留行索引）

content.to_csv(file_path,index=0) #不保存行索引

3.2to_excel导出到excel

3.2.1 excel_writer文件路径

excel.to_excel(file_path)

3.2.2 sheet_name:DataFrame 的工作表的名称默认为“Sheet1”

要将单个对象写入 Excel .xlsx 文件，只需指定目标文件名。

excel1.to_excel(file_path2,sheet_name='xxx1')

要写入多个工作表，需要使用目标文件名创建ExcelWriter 对象，并在文件中指定要写入的工作表。

with pd.ExcelWriter(file_path2) as writer:excel1.to_excel(writer, sheet_name='Sheet_name_1')excel2.to_excel(writer, sheet_name='Sheet_name_2')

3.2.3 na_rep：缺少数据表示，默认“”

excel1.to_excel(file_path,na_rep='NA') #确省值保存为NA，如果不写，默认是空

3.2.4 index：索引

excel1.index.name='最左上角空着的那个索引'
excel1.to_excel(file_path2,index=False)
#默认为True 写行名,设为False则上面设置了也没有索引

3.2.5 float_format：浮点数的格式字符串

excel1.to_excel(file_path2,float_format="%.2f")#会将 0.1234 格式化为 0.12

3.2.6 na_rep：决定将空格显示成什么

excel1.to_excel(file_path2,na_rep="空值了不起？")

3.2.7 engine：设置编写Excel文件库要使用的引擎，‘openpyxl’ or ‘xlsxwriter’等

excel1.to_excel(file_path2, engine='xlsxwriter')

3.2.其他

# columns：str 的序列或列表，可选 要写的列。
# header：bool 或 str 列表，默认 True 写出列名。如果给出字符串列表，则假定它是列名的别名。
# index_label：str 或序列，可选 如果需要，索引列的列标签。如果未指定，并且 header 和 index 为 True，则使用索引名称。如果 DataFrame 使用 MultiIndex，则应给出一个序列。
# startrow：整数，默认 0 左上角单元格行转储数据帧。
# startcol：整数，默认 0 左上角单元格列转储 DataFrame 。
# merge_cells：布尔值，默认为真 将 MultiIndex 和 Hierarchical Rows 写入合并单元格。
# encoding：str，可选 生成的 excel 文件的编码。只有 xlwt 需要，其他编写器原生支持 unicode。
# inf_rep：str，默认 ‘inf’ 无穷大的表示(Excel 中没有无穷大的本机表示)。
# verbose：布尔值，默认为真 在错误日志中显示更多信息。
# freeze_panes：int 元组(长度为 2)，可选 指定要冻结的从 1 开始的最底行和最右列。
# storage_options：字典，可选 对特定存储连接有意义的额外选项，例如主机、端口、用户名、密码等。对于 HTTP(S) URL，键值对作为标头选项转发到 urllib。对于其他 URL(例如以 “s3://” 和 “gcs://” 开头)，键值对被转发到 fsspec 。有关详细信息，请参阅fsspec 和urllib。

Pandas库的学习相关推荐

pandas库基础学习
pandas库基础学习 1.Pandas模块的数据结构 Pandas模块的数据结构主要有两种: Series DataFrame Series 是一维数组,基于Numpy的ndarray 结构 Dat ...
Python Pandas库简要学习
一.Pandas 简述 Pandas 是 Python 语言的一个扩展程序库,用于数据分析.它并不是熊猫胖达的复数,它的名字衍生自术语 "panel data"和 "Py ...
Pandas库的学习使用（一）
Pandas DataFrame基础知识本章主要讲述pandas一些Pandas DataFrame的基础知识 1.1简介 Pandas [1] 是python的一个数据分析包,最初由AQR Cap ...
python3（四）Pandas库
数据摘要pandas 目录 1 pandas库 1.1 pandas库 1.2 Series类型 1.3 Series类型的基本操作 1.4 DataFrame类型 1.5 数据类型操作 1.6 数据 ...
Python学习教程（Python学习路线）：如何正确使用Pandas库提升项目的运行速度？...
Python学习教程:如何正确使用Pandas库提升项目的运行速度? 如果你从事大数据工作,用Python的Pandas库时会发现很多惊喜.Pandas在数据科学和分析领域扮演越来越重要的角色,尤其是 ...
学习pandas库笔记（pd.read_excel）
本项目是基于pandas==1.1.5的版本.以下记录学习pandas库的笔记 def read_excel(io,sheet_name=0,header=0,names=None,index_col ...
学习 Python 之 Pandas库
学习 Python 之 Pandas库 Pandas库什么是Pandas库? DataFrame 创建和存储 1. 使用DataFrame构造函数 (1). 使用列表创建 (2). 使用字典创建 ( ...
Python学习笔记（十七）——Pandas库
数组只能存储一种类型的数据, 同时, 数组提供了许多方便统计计算的功能 (如平均值 mean .标准差 std 等) pandas与numpy的区别 pandas 是基于 numpy 数组构的, 但 ...
【python教程入门学习】Pandas库下载和安装
Python 官方标准发行版并没有自带 Pandas 库,因此需要另行安装.除了标准发行版外,还有一些第三方机构发布的 Python 免费发行版, 它们在官方版本的基础上开发而来,并有针对性的提前安装 ...

Pandas库的学习