pandas用read_csv时编码问题解决
在pandas用read_csv时,遇到编码错误的, 可带
encoding : str, default None
Encoding to use for UTF when reading/writing (ex. ‘utf-8’)
官网的标准编码类型解释,其中GBK GB2312 GB18030 UTF-8是经常遇到的问题,
https://docs.python.org/3/library/codecs.html#standard-encodings
Codec | Aliases | Languages |
---|---|---|
ascii | 646, us-ascii | English |
big5 | big5-tw, csbig5 | Traditional Chinese |
big5hkscs | big5-hkscs, hkscs | Traditional Chinese |
cp037 | IBM037, IBM039 | English |
cp273 | 273, IBM273, csIBM273 |
German New in version 3.4. |
cp424 | EBCDIC-CP-HE, IBM424 | Hebrew |
cp437 | 437, IBM437 | English |
cp500 | EBCDIC-CP-BE, EBCDIC-CP-CH, IBM500 | Western Europe |
cp720 | Arabic | |
cp737 | Greek | |
cp775 | IBM775 | Baltic languages |
cp850 | 850, IBM850 | Western Europe |
cp852 | 852, IBM852 | Central and Eastern Europe |
cp855 | 855, IBM855 | Bulgarian, Byelorussian, Macedonian, Russian, Serbian |
cp856 | Hebrew | |
cp857 | 857, IBM857 | Turkish |
cp858 | 858, IBM858 | Western Europe |
cp860 | 860, IBM860 | Portuguese |
cp861 | 861, CP-IS, IBM861 | Icelandic |
cp862 | 862, IBM862 | Hebrew |
cp863 | 863, IBM863 | Canadian |
cp864 | IBM864 | Arabic |
cp865 | 865, IBM865 | Danish, Norwegian |
cp866 | 866, IBM866 | Russian |
cp869 | 869, CP-GR, IBM869 | Greek |
cp874 | Thai | |
cp875 | Greek | |
cp932 | 932, ms932, mskanji, ms-kanji | Japanese |
cp949 | 949, ms949, uhc | Korean |
cp950 | 950, ms950 | Traditional Chinese |
cp1006 | Urdu | |
cp1026 | ibm1026 | Turkish |
cp1125 | 1125, ibm1125, cp866u, ruscii |
Ukrainian New in version 3.4. |
cp1140 | ibm1140 | Western Europe |
cp1250 | windows-1250 | Central and Eastern Europe |
cp1251 | windows-1251 | Bulgarian, Byelorussian, Macedonian, Russian, Serbian |
cp1252 | windows-1252 | Western Europe |
cp1253 | windows-1253 | Greek |
cp1254 | windows-1254 | Turkish |
cp1255 | windows-1255 | Hebrew |
cp1256 | windows-1256 | Arabic |
cp1257 | windows-1257 | Baltic languages |
cp1258 | windows-1258 | Vietnamese |
cp65001 |
Windows only: Windows UTF-8 ( New in version 3.3. |
|
euc_jp | eucjp, ujis, u-jis | Japanese |
euc_jis_2004 | jisx0213, eucjis2004 | Japanese |
euc_jisx0213 | eucjisx0213 | Japanese |
euc_kr | euckr, korean, ksc5601, ks_c-5601, ks_c-5601-1987, ksx1001, ks_x-1001 | Korean |
gb2312 | chinese, csiso58gb231280, euc- cn, euccn, eucgb2312-cn, gb2312-1980, gb2312-80, iso- ir-58 | Simplified Chinese |
gbk | 936, cp936, ms936 | Unified Chinese |
gb18030 | gb18030-2000 | Unified Chinese |
hz | hzgb, hz-gb, hz-gb-2312 | Simplified Chinese |
iso2022_jp | csiso2022jp, iso2022jp, iso-2022-jp | Japanese |
iso2022_jp_1 | iso2022jp-1, iso-2022-jp-1 | Japanese |
iso2022_jp_2 | iso2022jp-2, iso-2022-jp-2 | Japanese, Korean, Simplified Chinese, Western Europe, Greek |
iso2022_jp_2004 | iso2022jp-2004, iso-2022-jp-2004 | Japanese |
iso2022_jp_3 | iso2022jp-3, iso-2022-jp-3 | Japanese |
iso2022_jp_ext | iso2022jp-ext, iso-2022-jp-ext | Japanese |
iso2022_kr | csiso2022kr, iso2022kr, iso-2022-kr | Korean |
latin_1 | iso-8859-1, iso8859-1, 8859, cp819, latin, latin1, L1 | West Europe |
iso8859_2 | iso-8859-2, latin2, L2 | Central and Eastern Europe |
iso8859_3 | iso-8859-3, latin3, L3 | Esperanto, Maltese |
iso8859_4 | iso-8859-4, latin4, L4 | Baltic languages |
iso8859_5 | iso-8859-5, cyrillic | Bulgarian, Byelorussian, Macedonian, Russian, Serbian |
iso8859_6 | iso-8859-6, arabic | Arabic |
iso8859_7 | iso-8859-7, greek, greek8 | Greek |
iso8859_8 | iso-8859-8, hebrew | Hebrew |
iso8859_9 | iso-8859-9, latin5, L5 | Turkish |
iso8859_10 | iso-8859-10, latin6, L6 | Nordic languages |
iso8859_11 | iso-8859-11, thai | Thai languages |
iso8859_13 | iso-8859-13, latin7, L7 | Baltic languages |
iso8859_14 | iso-8859-14, latin8, L8 | Celtic languages |
iso8859_15 | iso-8859-15, latin9, L9 | Western Europe |
iso8859_16 | iso-8859-16, latin10, L10 | South-Eastern Europe |
johab | cp1361, ms1361 | Korean |
koi8_r | Russian | |
koi8_t |
Tajik New in version 3.5. |
|
koi8_u | Ukrainian | |
kz1048 | kz_1048, strk1048_2002, rk1048 |
Kazakh New in version 3.5. |
mac_cyrillic | maccyrillic | Bulgarian, Byelorussian, Macedonian, Russian, Serbian |
mac_greek | macgreek | Greek |
mac_iceland | maciceland | Icelandic |
mac_latin2 | maclatin2, maccentraleurope | Central and Eastern Europe |
mac_roman | macroman, macintosh | Western Europe |
mac_turkish | macturkish | Turkish |
ptcp154 | csptcp154, pt154, cp154, cyrillic-asian | Kazakh |
shift_jis | csshiftjis, shiftjis, sjis, s_jis | Japanese |
shift_jis_2004 | shiftjis2004, sjis_2004, sjis2004 | Japanese |
shift_jisx0213 | shiftjisx0213, sjisx0213, s_jisx0213 | Japanese |
utf_32 | U32, utf32 | all languages |
utf_32_be | UTF-32BE | all languages |
utf_32_le | UTF-32LE | all languages |
utf_16 | U16, utf16 | all languages |
utf_16_be | UTF-16BE | all languages |
utf_16_le | UTF-16LE | all languages |
utf_7 | U7, unicode-1-1-utf-7 | all languages |
utf_8 | U8, UTF, utf8 | all languages |
utf_8_sig | all languages |
转载于:https://www.cnblogs.com/stephen2016/p/6113204.html
pandas用read_csv时编码问题解决相关推荐
- pandas使用read_csv函数读取文件时指定数据列的数据类型、pandas使用read_csv函数读取文件时通过keep_default_na参数设置缺失值替换为空字符串
pandas使用read_csv函数读取文件时指定数据列的数据类型.pandas使用read_csv函数读取文件时通过keep_default_na参数设置缺失值替换为空字符串 目录
- pandas系列 read_csv 与 to_csv 方法各参数详解(全,中文版)
* 由于在做数据处理,数据分析的时候,免不了读取数据或者将数据转换为相应的处理形式,那么,pandas的read_csv和to_csv,就能给我们很大的帮助,接下来,博主,将 read_csv 和 t ...
- 数据分析与预测(二)——pandas 函数read_csv解析
一. 前言 使用pandas做数据处理的第一步就是读取数据,数据源可以来自于各种地方,csv文件便是其中之一.而读取csv文件,pandas也提供了非常强力的支持,参数有四五十个.这些参数中,有的 ...
- 详解pandas的read_csv方法
楔子 使用pandas做数据处理的第一步就是读取数据,数据源可以来自于各种地方,csv文件便是其中之一.而读取csv文件,pandas也提供了非常强力的支持,参数有四五十个.这些参数中,有的很容易被忽 ...
- 成功解决利用pandas的read_csv函数读取csv文件的时候出现中文乱码问题
成功解决利用pandas的read_csv函数读取csv文件的时候出现中文乱码问题 目录 解决问题 解决思路 解决方法 解决问题 利用pandas的read_csv函数读取csv文件的时候出现中文乱码 ...
- python socket自动重连_详解python3中socket套接字的编码问题解决
一.TCP 1.tcp服务器创建 #创建服务器 from socket import * from time import ctime #导入ctime HOST = '' #任意主机 PORT = ...
- python pandas读取excel时动态确定标题行所在行数
python pandas读取excel时动态确定标题行所在行数,动态跳过标题前空白行 利用python对excel或者csv文件进行批量操作时,除了使用xlrd库或者xlwt库进行表格的操作读与写, ...
- pandas的read_csv方法之sep参数(多个列之间没有分开,连在一起解决方法)
今天借着一个小伙伴问我的一个问题,讲一下pandas的read_csv方法. 问题:读取表单数据后多个列之间没有分开,连在一起,如下图: 因为此问题后续操作也都无法继续进行,如下图: 一.出现问题的原 ...
- pandas将列表list插入到dataframe的单元格中、pandas使用read_csv函数读取文件并设置保留数值的前置0( leading zeroes)
pandas将列表list插入到dataframe的单元格中.pandas使用read_csv函数读取文件并设置保留数值的前置0( leading zeroes) 目录
最新文章
- [JS]在ACM模式下获取输入
- 人工智能产业2018年待解的三大难题
- 计算机专业毕业生人数稳居前十,你该怎么脱颖而出?
- Linux 内存管理 | 地址映射:分段、分页、段页
- LINUX内核中的xx_initcall初始化标号
- Linux下启动tomcat报java.lang.OutOfMemoryError: PermGen space
- linux 星号 通配符,如何在bash中转义通配符/星号字符?
- Genome2D官方博客及教程
- .bash_profile和.bashrc的什么区别
- ubuntu下mysql数据库存储路径修改
- 运行VS编译的程序提示“由于应用程序配置不正确,应用程序未能启动”的问题
- C++11:lambda表达式详细介绍
- 你以为你了解Kaggle吗?| 超级干货
- 光栅渲染器(五)2d-3d坐标系
- iOS 分析MVC、MVP、MVVM、VIPER
- 超级高铁创企HTT晒最新测试轨道图 计划今年4月份开始测试
- java servlet面试题_Java面试题总结系列 Servlet
- sql语句分析是否走索引_SQL Server 索引使用分析(2)- 改善SQL语句,防止索引失效...
- Github 镜像站的使用
- 计算机tpm,无法运行Win11的罪魁祸首 TPM是什么?
热门文章
- python基础常用语句-Python语言的一些基本常用语句
- python适合做后端开发吗-Python后端开发是什么职位?
- 北京python培训班价格-北京Python启蒙班
- python能做游戏吗-python能开发游戏吗
- python操作excel-python 操作excel
- python工程师百度百科-国家认证的Python工程师有什么能力要求?
- c语言100以内加减乘除,一百以内的加减乘除法游戏....
- UVa563 - Crimewave
- [USACO09Open] Tower of Hay 干草塔
- JAVA基础-面向对象07