为实现文本去重(将前面采集的数据进行两两对比删除重复),写了以下代码。

#-*- coding: utf-8 -*-

import pandas as pd

inputfile = 'e:/data/H_KJ300F-JAC2101W.txt' #评论文件

outputfile = 'e:/data/H_KJ300F-JAC2101W_process_1.txt' #评论处理后保存路径

data = pd.read_csv(inputfile, encoding = 'utf-8', header = None)

l1 = len(data)

data = pd.DataFrame(data[0].unique())

l2 = len(data)

data.to_csv(outputfile, index = False, header = False, encoding = 'utf-8')

print(u'删除了%s条评论。' %(l1 - l2))

报错:

Traceback (most recent call last): File "", line 1, in return _read(filepath_or_buffer, kwds) File "D:\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 401, in _read data = parser.read() File "D:\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 939, in read ret = self._engine.read(nrows) File "D:\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 1508, in read data = self._reader.read(nrows) File "pandas\parser.pyx", line 848, in pandas.parser.TextReader.read (pandas\parser.c:10415) File "pandas\parser.pyx", line 870, in pandas.parser.TextReader._read_low_memory (pandas\parser.c:10691) File "pandas\parser.pyx", line 924, in pandas.parser.TextReader._read_rows (pandas\parser.c:11437) File "pandas\parser.pyx", line 911, in pandas.parser.TextReader._tokenize_rows (pandas\parser.c:11308) File "pandas\parser.pyx", line 2024, in pandas.parser.raise_parser_error (pandas\parser.c:27037)pandas.io.common.CParserError: Error tokenizing data. C error: Expected 1 fields in line 360, saw 2>>> data =pd.read_csv(inputfile,encoding ='utf-8',header = None) data = self._reader.read(nrows) File "pandas\parser.pyx", line 848, in pandas.parser.TextReader.read (pandas\parser.c:10415)>>> File "pandas\parser.pyx", line 911, in pandas.parser.TextReader._tokenize_rows (pandas\parser.c:11308) File "pandas\parser.pyx", line 2024, in pandas.parser.raise_parser_error (pandas\parser.c:27037)pandas.io.common.CParserError: Error tokenizing data. C error: Expected 1 fields in line 361, saw 2 File "pandas\parser.pyx", line 870, in pandas.parser.TextReader._read_low_memory (pandas\parser.c:10691) File "pandas\parser.pyx", line 924, in pandas.parser.TextReader._read_rows (pandas\parser.c:11437) ret = self._engine.read(nrows) File "D:\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 1508, in read data = parser.read() File "D:\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 939, in read return _read(filepath_or_buffer, kwds) File "D:\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 401, in _read File "D:\Anaconda3\lib\site-packages\pandas\io\parsers.py", line 646, in parser_fTraceback (most recent call last): File "", line 1, in

解决:把整个文件里面的半角","换成全角",“

原因:没有设定分隔符的情况下,默认使用","作为分隔条符。

python导入csv报错_Python Pandas read_csv报错相关推荐

  1. Python导入CSV短代码(pandas?),以';'分隔 和','全部

    问题引发 我需要在Windows上的Python中导入CSV文件.我的文件以';'分隔 并包含带有非英语符号和逗号(',')的字符串. 我看过帖子: 使用Python将CSV文件导入sqlite3数据 ...

  2. python读取csv最后一行_Python pandas Dataframe来自csv的第一行和最后一行

    全部 – 我期待从一个非常大的csv的第一行和最后一行创建一个pandas DataFrame.本练习的目的是能够轻松地从这些csv文件中的第一个和最后一个条目中获取一些属性.我使用以下方法抓住csv ...

  3. python读取csv内容变为nan_Python pandas read_csv 中NULL当成NaN类型问题

    1、使用read_csv读取数据null显示NaNimport pandas as pd from io import StringIO data = u'strings,numbers\nfoo,1 ...

  4. python导入csv文件-python如何导入csv文件格式

    1.通过标准的Python库导入CSV文件 Python提供了一个标准的类库CSV文件.这个类库中的reader()函数用来导入CSV文件.当CSV文件被读入后,可以利用这些数据生成一个NumPy数组 ...

  5. python导入csv文件-python如何导入csv

    1.通过标准的Python库导入CSV文件 Python提供了一个标准的类库CSV文件.这个类库中的reader()函数用来导入CSV文件.当CSV文件被读入后,可以利用这些数据生成一个NumPy数组 ...

  6. pandas.read_csv() 报错 OSError: Initializing from file failed

    Python版本:Python 3.6 pandas.read_csv() 报错 OSError: Initializing from file failed,一般由两种情况引起:一种是函数参数为路径 ...

  7. [salmon_gs]pandas.read_csv() 报错 OSError: Initializing from file failed的解决办法

    @[salmon_gs]pandas.read_csv() 报错 OSError: Initializing from file failed的解决办法 错误1 在这里插入代码片 import pan ...

  8. python导入csv报错_Python 导入csv报错的解决办法

    日常做分析导数据源进python,有时候会出现报错及显示乱码的问题,今天来梳理一下常见的报错. python 代码 import pandas as pd import numpy as np df= ...

  9. python read函数报错_python 使用read_csv读取 CSV 文件时报错

    读取csv文件时报错 df = pd.read_csv('c:/Users/NUC/Desktop/成绩.csv' ) Traceback (most recent call last): File ...

最新文章

  1. Docker学习(3)——安装部署过程及简单应用
  2. mysql 查询商品列表 显示tag_javascript - MYSQL——怎么一个sql语句查询出用户和用户商品的列表啊...
  3. 关于spring的p标签(转)
  4. MySQL调优(八):查缺补漏(mysql的锁机制,读写分离,执行计划详解,主从复制原理)
  5. vue根据url获取内容axios_vue+vuex+axios从后台获取数据存入vuex,组件之间共享数据...
  6. Zookeeper理解---ZAB协议
  7. (四)深入浅出TCPIP之TCP三次握手和四次挥手(下)的抓包分析
  8. STM32项目(三)——通用LIN控制器
  9. bat 存储过程返回值_MySQL-存储过程和函数详述
  10. 动态规划 —— 线性 DP —— 序列问题
  11. BBED for PostgreSQL
  12. 中科大计算机考研录取分数线_中科大计算机考研 | 跨考CS上岸经验分享!
  13. 请求头User-Agent作用?
  14. leap通过掌心或手指的某一关节做一条射线
  15. 20省“十四五”5G发展规划全文发布!(限时下载)
  16. CS常用文件的安装 CS脚本参数查询 控制台常用参数查询
  17. Java 批量导出PPT为图片,并合并生成PDF
  18. UG NX二次开发(C#)-装配-删除阵列矩阵
  19. Davinci的异构多核间通信基础组件SysLink 2.0
  20. Mac下安装homebrew(解决error: RPC failed; curl 56 LibreSSL SSL_read: SSL_ERROR_SYSCALL)

热门文章

  1. nginx rtmp代码架构1 hook点总结
  2. centos7安装minikube
  3. Hinton开源CapsuleNet
  4. Containerd迎来1.0通用版本
  5. 使用Math 类 和 Random类 两种方式生成 20 到30之间的随机整数---java基础
  6. leetcode 476. 数字的补数(Java版)| How to extract ‘k’ bits from a given position in a number
  7. Flink 实时计算 - 维表 Join 解读
  8. netty系列之:从零到壹,搭建一个SOCKS代理服务器
  9. JVM系列之:JIT中的Virtual Call接口
  10. YARN体系学习笔记