背景

最近在处理用户评论数据时,从Linux服务器上面用pandas导出的csv文件,下载到自己的Windows电脑,再用本地pandas读取时发现数据行数不一致的情况,比如在Linux服务器上面数据一共有10行,但是用自己本地电脑pandas读取时确大于10行。

问题出现的具体场景
公司Linux服务器上面安装的有Jupyter notebook,在自己本地电脑输入网址是可以直接访问并使用,而且很方便上传、下载文件,对于Linux服务器小白来说很方便,省去了ssh连接Linux服务器的过程。
遇到的这个问题是通过本地电脑连接到Linux服务器Jupyter notebook处理了一些数据(用户评论文本数据),然后导出到csv文件,下载到自己的Windows电脑,然后使用本地的python环境读取数据,发现数据行数不一致的问题。

问题查找

首先找出了从哪一行开始出现串行,查看具体的文本数据,发现在文本数据里面出现特殊转义字符\r,于是豁然开朗,Linux的换行符为\n,而Windows的换行符为\r\n,所以在文本里面出现\r字符时,与Windows换行符有冲突,pandas读取数据时出现数据行数不一致问题。

解决方法

在pandas读取csv数据时,可利用参数lineterminator,明确指定该参数后,可以解决该问题

pd.read_csv('test.csv',lineterminator='\n')

具体可以看看pandas.to_csv这个参数的解释

pandas.to_csv

案例复现

Linux服务器上面的数据

linux服务器上面的数据

下载后用Windows来读取该数据

windows读取数据

可以看出,如果不加 lineterminator 参数的话,数据行数会不一致,加了参数后,数据行数保持一致。由于Linux与Windows两个系统的换行符不一样,因此大家在处理数据时可以利用 lineterminator 参数来避免这样的问题,分享出来供大家参考

历史相关文章

  • Python pandas数据计数函数value_counts
  • Python pandas 数据无法正常分列

以上是自己实践中遇到的一些问题,分享出来供大家参考学习,欢迎关注微信公众号:DataShare ,不定期分享干货


http://www.taodudu.cc/news/show-4628980.html

相关文章:

  • Hive中各种日期格式转换方法总结
  • 数据分析师常用的 Linux 命令总结
  • Python 利用数据分布直方图来确定合适的阈值
  • 利用Python计算两个地理位置之间的中点
  • pandas 错误提醒:FutureWarning: elementwise comparison failed;
  • Python 基于pyecharts自定义经纬度热力图可视化
  • Python pandas 里面的数据类型坑,astype要慎用
  • Python数据处理中 pd.concat 与 pd.merge 区别
  • Python 利用聚类算法对图片进行颜色压缩
  • Hive 中的各种常用set设置
  • Python 利用4行代码实现图片灰度化
  • Python 字符串格式化 f-string f“{}“ .format
  • apollo服务器集成java_Apollo Server 集成性能监控
  • SQL语句大全 作者:阿多
  • MD5算法在PB中的实现(转载自 - 阿多米 - 博客园)
  • E站账号cookie分享_不用输入密码无风险?扫描二维码登录QQ账号也不安全!
  • E.164号码,E.214号码,E.212号码
  • E码通电子凭证服务平台 通用接口接入规范
  • 【论文笔记-NER综述】A Survey on Deep Learning for Named Entity Recognition
  • MT-BERT在文本检索任务中的实践
  • 2021-03-4:task04_NFM模型
  • 美团外卖推荐智能流量分发的实践与探索
  • Encoding History with Context-aware Representation Learning for Personalized Search(2020SIGIR)
  • 【SIGIR22】使用反事实生成器来消除知识感知推荐中的虚假联系
  • SIGIR2020|基于自注意力机制和多鉴别器的序列推荐
  • 2019_SIGIR_A Neural Influence Diffusion Model for Social Recommendation
  • SetRank(2020SIGIR)
  • 一站式SCI投稿大全(感谢pennhmp116版主的整理)
  • 风云邀请成为IT168社区Silverlight版主
  • [Android实例] [版主原创]ScrollView嵌套ScrollView

Python pandas在读取csv文件时(linux与windows之间传输),数据行数不一致的问题相关推荐

  1. python 批量读取csv_Python Pandas批量读取csv文件到dataframe的方法

    PYTHON Pandas批量读取csv文件到DATAFRAME 首先使用glob.glob获得文件路径.然后定义一个列表,读取文件后再使用concat合并读取到的数据. #读取数据 import p ...

  2. python 批量读取csv 文件到dataframe_python 批量读取csv_Python Pandas批量读取csv文件到dataframe的方法...

    PYTHON Pandas批量读取csv文件到DATAFRAME 首先使用glob.glob获得文件路径.然后定义一个列表,读取文件后再使用concat合并读取到的数据. #读取数据 import p ...

  3. python读取csv文件并修改指定内容-pandas读取CSV文件时查看修改各列的数据类型格式...

    下面给大家介绍下pandas读取CSV文件时查看修改各列的数据类型格式,具体内容如下所述: 我们在调bug的时候会经常查看.修改pandas列数据的数据类型,今天就总结一下: 1.查看: Numpy和 ...

  4. python csv文件复制时的编码问题_使用python读取CSV文件时的编码问题

    尝试使用python读取CSV文件时遇到障碍. 更新:如果只想跳过字符或错误,可以打开文件,如下所示: with open(os.path.join(directory, file), 'r', en ...

  5. pandas读取csv写入mysql_使用python的pandas库读取csv文件保存至mysql数据库

    第一:pandas.read_csv读取本地csv文件为数据框形式 data=pd.read_csv('G:\data_operation\python_book\chapter5\\sales.cs ...

  6. python修改csv文件中列的数据类型_pandas读取CSV文件时查看修改各列的数据类型格式...

    下面给大家介绍下pandas读取CSV文件时查看修改各列的数据类型格式,具体内容如下所述: 我们在调bug的时候会经常查看.修改pandas列数据的数据类型,今天就总结一下: 1.查看: Numpy和 ...

  7. pythoncsv数据类型_pandas读取CSV文件时查看修改各列的数据类型格式

    下面给大家介绍下pandas读取CSV文件时查看修改各列的数据类型格式,具体内容如下所述: 我们在调bug的时候会经常查看.修改pandas列数据的数据类型,今天就总结一下: 1.查看: Numpy和 ...

  8. 已解决Python pandas.read_excel读取Excel文件报错

    已解决(Python pandas.read_excel读取Excel文件报错)io = ExcelFile(io,storage_options=storage.options, engine=en ...

  9. Python Pandas 通过读取txt文件内容创建DataFrame

    本文主要介绍Python中,通过读取txt文件内容创建Pandas的DataFrame,创建DataFrame分别使用pd.DataFrame.from_records()和pd.read_csv() ...

最新文章

  1. MairDB 如何查询表
  2. 关于权限系统的一些思考
  3. 【深度学习】深度学习之LSTM
  4. 大漠插件 win10 绑定
  5. el-button 图标显示在字后边_Excel和Visio联姻,自动生成跨职能流程图,还能用图标标记状态,太牛了!...
  6. 工作380-js判断是否为空
  7. Matlab画箭头arrow.m
  8. 9.2.2、Libgdx的输入处理之事件处理
  9. FISCO BCOS源码(1)代码目录结构
  10. 插入排序 java实现
  11. 你们信不信,everyting找不全文件
  12. 物流管理毕业论文题目【510个】
  13. POKERNOSE 写字心得(汇总)
  14. python防撤回_一篇关于微信防撤回(文本、图片、语音、视频、名片等...)的Python学习教程...
  15. 2020杭电多校赛 Multi-University Training Contest
  16. 欢乐喜剧人宋晓峰吟诗大全
  17. 什么是次世代游戏建模?角色和场景建模,哪个比较容易
  18. 利用点赞功能提升Linkedin账号曝光率和活跃度
  19. 银行卡三要素实名认证接口
  20. 小程序webview嵌入h5兼容iphone安全区域

热门文章

  1. 26个英语单词起源(百度百科+巴士英语)
  2. 什么都不会的应届生怎么找工作?
  3. postgis+geoserver最短路径
  4. 对比这10个注意事项,你的网页文字排版达标了么?
  5. VM安装VMTool工具
  6. 学习前端如何建立自己的知识体系?工作中如何快速进阶?
  7. 安徽科技学院 信网学院网络文化节 赵涛
  8. 1. 工业大数据的内涵
  9. 阿里开源java诊端工具arthas官网介绍
  10. MySQL 索引失效的几种类型以及解决方式