在我的一篇博客中
    http://blog.csdn.net/wowotuo/article/details/46841395
 提到如何处理带中文字符的CSV文件.这期,我将继续探讨一下这个问题。在Julia中,readcsv(或更底层的readdlm)是处理CSV文件的基础性的函数。下面,我们分几种情况带中文字符的CSV来探讨应如何处理这些情况。一、仅首行有中文字符的: skipstart =1 比如,我们有一个这样的CSV文件:

  很显然,第一行有不少的中文字符。那么,我们用readcsv是否可以处理这样的文件?思路是,正常情况下,如果
      dd =readcsv(path) # 报错 invalid Substring index
  函数将会报错,无法认别其中的乱码。因此,我们调整一下,我们把无法识别的字符将其跳过,避免函数强制报错。这样,我们还是可以读出中间的内容的。 需要注意的是,在这种情况下,CSV的行数较原来文件少一行。
    path ="C:\\Users\\Administrator\\Desktop\\SH600000.csv";@time dd =readcsv(path,skipstart=1)
二、列和行中都有中文字符的
比如,有一个10行10列的CSV文件:

可以根据其中的行和列情况,
    path ="C:\\Users\\Administrator\\Desktop\\SH600000_1.csv";@time dd =readcsv(path,ignore_invalid_chars=true,skipstart=1)row,col =size(dd); # row =9,col =10 将减少一行!
这样,其中的第一行和第一列报错的问题将会被忽略掉,但是,第一列的内容仍然在,只是无法读出。
    println(dd[1,1]) # 将报错,“UnicodeError: invalid character index”aa =dd[1,1] # 只要涉及到dd[1,1]的,就会报错。

三、只有列中有中文字符CSV,

如,一个9 行10列的CSV文件:

此时,就不能用skipstart了,因为表头没有。所以path ="C:\\Users\\Administrator\\Desktop\\SH600000_2.csv";
@time dd =readcsv(path,ignore_invalid_chars=true)
row,col =size(dd); # row =9,col =10总结一下:关键性的参数选择是把skipstart =1 和ignore_invalid_chars=true。

Julia: readcsv 如何处理带中文字符的CSV文件相关推荐

  1. tinyxml 读取文本节点_在Windows下使用TinyXML-2读取UTF-8编码包含中文字符的XML文件...

    TinyXML-2 是一个用 C++ 开发的小巧.高效的 XML 解析工具,它在 GitHub 网站上的链接为: https://github.com/leethomason/tinyxml2 .它的 ...

  2. c语言将英文逗号转成中文逗号,处理csv文件,英文逗号替换成中文逗号之后就乱码...

    Python2.7,处理csv文件时,把英文逗号替换成中文逗号之后就会乱码,title变量会乱码,可是content就不会,他们都是str类型,麻烦大家,这是为啥??def main(): #初始化数 ...

  3. python导出csv不带引号的句子_不带双引号写入CSV文件

    我的输入文件格式为:K100, radioactive 126, liquid 503, pour 2014, onto 992, sealed 9876, drum 15306 K200, radi ...

  4. php导出csv带图片,PHP导出CSV文件:刚测试过,这个导出CSV可以

    PHP导出CSV文件: //****************************************请求权限**************************************** r ...

  5. python 读取csv带表头_python读csv文件时指定行为表头或无表头的方法

    pd.read_csv()方法中header参数,默认为0,标签为0(即第1行)的行为表头.若设置为-1,则无表头.示例如下: (1)不设置header参数(默认)时: df1 = pd.read_c ...

  6. python生成csv文件带水印_Python从CSV文件导入数据和生成简单图表

    我们已经完成Python的基础环境搭建工作,现在我们尝试导入CSV数据 我们准备一个csv测试数据,文件名是csv-test-data.csv数据. 我们将文件传到Linux上 准备导入的代码 我们运 ...

  7. windows 平台下 qt 用qfile 访问带中文的路径或者带中文的名字的文件的解决方法

    查过网上各种资料,全部都不行,例如setCode什么之类的,我也不知道为什么,可能还是需要多加研究,对于这类文件解决方法如下: if (QFile::exists(QString::fromLocal ...

  8. java中文字符怎么保证出现正确_JAVA中文字符编码问题详解

    JAVA中文字符编码问题详解 JAVA的中文字符乱码问题一直很让人头疼.特别是在WEB应用中.网上的分析文章和解决方案都很多,但总是针对某些特定情况的.很多次遇到乱码问题后,经过极为辛苦的调试和搜索资 ...

  9. (best!)JAVA中文字符编码问题详解

    转载自:http://blog.csdn.net/youyue/article/details/4580402 JAVA中文字符编码问题详解 JAVA的中文字符乱码问题一直很让人头疼.特别是在WEB应 ...

  10. java生成html 控制编码方式_JAVA中文字符编码问题详解 控制台输出

    JAVA的中文字符乱码问题一直很让人头疼.特别是在WEB应用中.网上的分析文章和解决方案都很多,但总是针对某些特定情况的.很多次遇到乱码问题后, 经过极为辛苦的调试和搜索资料后终于解决,满以为自己已经 ...

最新文章

  1. 在Mac上利用pip3安装pyecharts模块
  2. flutter打包的app有多大_Flutter-最近搞了个项目(常用控件,第三方基本库)-底部导航,登录,启动画面,webview等...
  3. 计算机仿真氢光谱实验,氢氘灯光谱实验报告..docx
  4. 模糊搜索时搜索结果中关键词变为不同颜色
  5. android高德地图绘制多边形_exlive1.0BS网上查车完善电子围栏:行政区域、多边形、规划线路...
  6. c语言strchr的用法,C 库函数 - strchr()
  7. 使用python制作二维码
  8. 某个网页一直不停刷新_利用浏览器做网页长截图
  9. pandas python groupby_python – pandas groupby方法实际上是如何工作的?
  10. 二叉树之自底向上递归
  11. 知识图谱之社交网络分析(SNA)之python处理
  12. 基于python的手机销售系统
  13. 微信小程序服务器被ddos攻击,网站被DDOS攻击了怎么办
  14. 程序计数器的作用--简单易懂
  15. 【SQL基础-3】SQL常用函数
  16. 读书笔记 | 自动驾驶中的雷达信号处理(第9章 汽车雷达的应用概述)
  17. Centos7 安装Nexus
  18. linux安装VNC远程桌面环境
  19. chrome pdf android,Android PDF阅读器 (基于谷歌平台的Adobe Reader)
  20. 佳能尼康新旧炮镜群比照

热门文章

  1. Linux与Windows编译器的区别
  2. RAID结构介绍以及RAID1、RAID0等各种模式的区别
  3. Coolite Toolkit学习笔记七:常用控件TreePanel
  4. poj3264 Balanced Lineup(树状数组)
  5. 7.26 4 印度旅馆阿鲁沙之家
  6. HDU 4738 无向图求桥
  7. unity3d-角色控制器续
  8. Java 通过JDBC连接Mysql数据库
  9. 七月算法机器学习 8 信息论、最大熵模型与EM算法
  10. Python + vs +Opencv