Python pandas在读取csv文件时(linux与windows之间传输),数据行数不一致的问题
背景
最近在处理用户评论数据时,从Linux服务器上面用pandas导出的csv文件,下载到自己的Windows电脑,再用本地pandas读取时发现数据行数不一致的情况,比如在Linux服务器上面数据一共有10行,但是用自己本地电脑pandas读取时确大于10行。
问题出现的具体场景:
公司Linux服务器上面安装的有Jupyter notebook,在自己本地电脑输入网址是可以直接访问并使用,而且很方便上传、下载文件,对于Linux服务器小白来说很方便,省去了ssh连接Linux服务器的过程。
遇到的这个问题是通过本地电脑连接到Linux服务器Jupyter notebook处理了一些数据(用户评论文本数据),然后导出到csv文件,下载到自己的Windows电脑,然后使用本地的python环境读取数据,发现数据行数不一致的问题。
问题查找
首先找出了从哪一行开始出现串行,查看具体的文本数据,发现在文本数据里面出现特殊转义字符\r
,于是豁然开朗,Linux的换行符为\n
,而Windows的换行符为\r\n
,所以在文本里面出现\r
字符时,与Windows换行符有冲突,pandas读取数据时出现数据行数不一致问题。
解决方法
在pandas读取csv数据时,可利用参数lineterminator
,明确指定该参数后,可以解决该问题
pd.read_csv('test.csv',lineterminator='\n')
具体可以看看pandas.to_csv
这个参数的解释
案例复现
Linux服务器上面的数据
下载后用Windows来读取该数据
可以看出,如果不加 lineterminator
参数的话,数据行数会不一致,加了参数后,数据行数保持一致。由于Linux与Windows两个系统的换行符不一样,因此大家在处理数据时可以利用 lineterminator
参数来避免这样的问题,分享出来供大家参考
历史相关文章
- Python pandas数据计数函数value_counts
- Python pandas 数据无法正常分列
以上是自己实践中遇到的一些问题,分享出来供大家参考学习,欢迎关注微信公众号:DataShare ,不定期分享干货
http://www.taodudu.cc/news/show-4628980.html
相关文章:
- Hive中各种日期格式转换方法总结
- 数据分析师常用的 Linux 命令总结
- Python 利用数据分布直方图来确定合适的阈值
- 利用Python计算两个地理位置之间的中点
- pandas 错误提醒:FutureWarning: elementwise comparison failed;
- Python 基于pyecharts自定义经纬度热力图可视化
- Python pandas 里面的数据类型坑,astype要慎用
- Python数据处理中 pd.concat 与 pd.merge 区别
- Python 利用聚类算法对图片进行颜色压缩
- Hive 中的各种常用set设置
- Python 利用4行代码实现图片灰度化
- Python 字符串格式化 f-string f“{}“ .format
- apollo服务器集成java_Apollo Server 集成性能监控
- SQL语句大全 作者:阿多
- MD5算法在PB中的实现(转载自 - 阿多米 - 博客园)
- E站账号cookie分享_不用输入密码无风险?扫描二维码登录QQ账号也不安全!
- E.164号码,E.214号码,E.212号码
- E码通电子凭证服务平台 通用接口接入规范
- 【论文笔记-NER综述】A Survey on Deep Learning for Named Entity Recognition
- MT-BERT在文本检索任务中的实践
- 2021-03-4:task04_NFM模型
- 美团外卖推荐智能流量分发的实践与探索
- Encoding History with Context-aware Representation Learning for Personalized Search(2020SIGIR)
- 【SIGIR22】使用反事实生成器来消除知识感知推荐中的虚假联系
- SIGIR2020|基于自注意力机制和多鉴别器的序列推荐
- 2019_SIGIR_A Neural Influence Diffusion Model for Social Recommendation
- SetRank(2020SIGIR)
- 一站式SCI投稿大全(感谢pennhmp116版主的整理)
- 风云邀请成为IT168社区Silverlight版主
- [Android实例] [版主原创]ScrollView嵌套ScrollView
Python pandas在读取csv文件时(linux与windows之间传输),数据行数不一致的问题相关推荐
- python 批量读取csv_Python Pandas批量读取csv文件到dataframe的方法
PYTHON Pandas批量读取csv文件到DATAFRAME 首先使用glob.glob获得文件路径.然后定义一个列表,读取文件后再使用concat合并读取到的数据. #读取数据 import p ...
- python 批量读取csv 文件到dataframe_python 批量读取csv_Python Pandas批量读取csv文件到dataframe的方法...
PYTHON Pandas批量读取csv文件到DATAFRAME 首先使用glob.glob获得文件路径.然后定义一个列表,读取文件后再使用concat合并读取到的数据. #读取数据 import p ...
- python读取csv文件并修改指定内容-pandas读取CSV文件时查看修改各列的数据类型格式...
下面给大家介绍下pandas读取CSV文件时查看修改各列的数据类型格式,具体内容如下所述: 我们在调bug的时候会经常查看.修改pandas列数据的数据类型,今天就总结一下: 1.查看: Numpy和 ...
- python csv文件复制时的编码问题_使用python读取CSV文件时的编码问题
尝试使用python读取CSV文件时遇到障碍. 更新:如果只想跳过字符或错误,可以打开文件,如下所示: with open(os.path.join(directory, file), 'r', en ...
- pandas读取csv写入mysql_使用python的pandas库读取csv文件保存至mysql数据库
第一:pandas.read_csv读取本地csv文件为数据框形式 data=pd.read_csv('G:\data_operation\python_book\chapter5\\sales.cs ...
- python修改csv文件中列的数据类型_pandas读取CSV文件时查看修改各列的数据类型格式...
下面给大家介绍下pandas读取CSV文件时查看修改各列的数据类型格式,具体内容如下所述: 我们在调bug的时候会经常查看.修改pandas列数据的数据类型,今天就总结一下: 1.查看: Numpy和 ...
- pythoncsv数据类型_pandas读取CSV文件时查看修改各列的数据类型格式
下面给大家介绍下pandas读取CSV文件时查看修改各列的数据类型格式,具体内容如下所述: 我们在调bug的时候会经常查看.修改pandas列数据的数据类型,今天就总结一下: 1.查看: Numpy和 ...
- 已解决Python pandas.read_excel读取Excel文件报错
已解决(Python pandas.read_excel读取Excel文件报错)io = ExcelFile(io,storage_options=storage.options, engine=en ...
- Python Pandas 通过读取txt文件内容创建DataFrame
本文主要介绍Python中,通过读取txt文件内容创建Pandas的DataFrame,创建DataFrame分别使用pd.DataFrame.from_records()和pd.read_csv() ...
最新文章
- MairDB 如何查询表
- 关于权限系统的一些思考
- 【深度学习】深度学习之LSTM
- 大漠插件 win10 绑定
- el-button 图标显示在字后边_Excel和Visio联姻,自动生成跨职能流程图,还能用图标标记状态,太牛了!...
- 工作380-js判断是否为空
- Matlab画箭头arrow.m
- 9.2.2、Libgdx的输入处理之事件处理
- FISCO BCOS源码(1)代码目录结构
- 插入排序 java实现
- 你们信不信,everyting找不全文件
- 物流管理毕业论文题目【510个】
- POKERNOSE 写字心得(汇总)
- python防撤回_一篇关于微信防撤回(文本、图片、语音、视频、名片等...)的Python学习教程...
- 2020杭电多校赛 Multi-University Training Contest
- 欢乐喜剧人宋晓峰吟诗大全
- 什么是次世代游戏建模?角色和场景建模,哪个比较容易
- 利用点赞功能提升Linkedin账号曝光率和活跃度
- 银行卡三要素实名认证接口
- 小程序webview嵌入h5兼容iphone安全区域