文章分为两部分内容:1.excel每一行到处为txt 2.用enca转换utf-8

excel每一行导出为txt

背景:最近在做智库项目,爬取了高校很多教师信息,经过预处理后保存为excel文件,由于要将每个老师的信息做jieba分词和去停用词,因此先将excel每一行转成一个txt文本,借助excel的VBA对每一行转成txt,参考百度经验

  1. 打开原文件:
  2. Alt+F11,(mac是option+fn+f11 )打开VBA,在左侧找到你要导的表,左键双击输入指令
  3. 复制以下代码进去就ok了
Sub txt()
Dim i, j, arr(), brr(), myRow, myCol
arr = Sheet1.UsedRange
myRow = UBound(arr, 1)
myCol = UBound(arr, 2)
For i = 1 To myRow
Open ThisWorkbook.Path & "\" & arr(i, 1) & "1.txt" For Output As #1
Print #1, Join(Application.Index(arr, 1), ",")
Print #1, Join(Application.Index(arr, i), ",")
Close #1
Next
End Sub


然后由于我的mac上excel的VBA有问题,就用同学windows导,结果是这样的txt文件:

他发给我以后,由于编码问题,在mac上打不开,提示“文本编码unicode(utf-8)不适用”

用enca转utf-8

试过了iconv、用文本编辑器转化为纯文本都没成功,最后用enca转成功了,参考Mac下文件编码修改问题

  1. 先在终端安装enca:

brew install enca

  1. 检查目标文件teacher_38的编码
    (我放在material2这个文件夹里的,对这个文件夹里的所有文件都重命名了,具体可以查看我写的Mac下对文件批量重命名)

输入:

enca -L zh_CN /Users/longhailing/Documents/test1/material2/teacher_38.txt

输出:

Simplified Chinese National Standard; GB2312

  1. 对teacher_38这个文件单独转码utf-8,其实就是在中间加了一个-x utf-8

enca -L zh_CN -x utf-8 /Users/longhailing/Documents/test1/material2/teacher_38.txt

这段代码转完是没有任何提示的,然后用步骤2的语句再查看一下teacher_38的编码,发现已经变成了utf-8

  1. 如果要对整个文件夹内的文件批量转换,先cd进入y要修改的文件夹,我这里是material2文件夹:

cd /Users/longhailing/Documents/test1/material2/


在material下输入以下命令即全部转换为utf-8:

enca -L zh_CN -x utf-8 *

输入以下命令查看文件编码:

enca -L zh_CN *

(*号代表全部的意思)

大功告成~

ps:这样转出来跑代码是没问题了,但是单独打开原文件还是打不开,仍未解决。。

Mac下utf-8编码转换问题相关推荐

  1. html转换编码格式,html编码转换 html编码设置utf gbk编码转换图文教程

    html编码转换 html编码设置utf gbk编码转换图文教程篇 常用HTML编码之urf-8编码转换为gb2312编码或者gb2312转换为utf-8编码快速转换设置,这里DIVCSS5介绍使用D ...

  2. Mac下文件的编码及修改编码

    在使用python3做NLP中文文本分类时,由于下载的搜狗语料库本身的编码有关系,本身编码是ASCII码,而我们需要以UTF-8来读取,所以就遇到如下不能显示中文文本的输出(mac下): u: {\r ...

  3. Google App Engine for Java下的URL编码转换问题

    URL编码问题 此部分参考英文资料: http://www.blooberry.com/indexdot/html/topics/urlencoding.htm http://www.w3school ...

  4. ubuntu下txt文件编码转换、查询(gbk/ISO-8859-utf-8)

    在ubuntu下运行python程序,总是报错,说编码不对不是utf-8(貌似是因为汉字部分出问题了),搜集资料后完成了转换. 1.文件编码查询 $ file 199801.txt 199801.tx ...

  5. mac mysql utf 8编码_MacOS下MySQL设置UTF8编码问题

    1,检查默认安装的MySQL的字符集 mysql> show variables like '%char%'; +--------------------------+------------- ...

  6. 【Bash】实现指定目录下的文件编码转换,以原文件名保存

    文件名: encodeExchange.sh Linux版本: #!/bin/bashfEncode=UTF-8 tEncode=GBK#fEncode=GBK #tEncode=UTF-8files ...

  7. mac下图片CR2格式转换成JPG格式

    前段时间相机拍出来的昨是 CR2格式的,一般的图片软件是无法打开的,需要转换在jpg, 很简单的,在当前目录打开终端 输入 将cr2文件转换成jpg文件 for i in *.CR2; do sips ...

  8. mac下CSV文件编码格式查看与转换

    mac 安装brew ruby -e"$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/insta ...

  9. linux 繁体中文转为简体,Linux下对文件进行编码转换(简体→繁体,繁体→简体,简体繁体→UTF-8)...

    其实说到编码转换,那就不得不说到iconv这个库了,如果已经安装了这个工具,那在命令行下直接打这个命令就行了.下面就用这个工具来实现中文系统下的常用编码转换. 首先,来了解一下iconv这个命令的使用 ...

  10. m2ts视频格式在windows及mac下的解决方案

    M2TS 是一种高清视频格式,当下应用于高清蓝光碟及其AVCHD高清摄像机中,是存放流媒体的主要视频容器.这种容器的特征是高达1080p的分辨率,高清摄像机,诸如(),可用来录制70fps的视频短片. ...

最新文章

  1. Splay ---- 文艺平衡树区间翻转的建树模式
  2. QT小例子GUI(主)线程与子线程之间的通信
  3. php和python区别-python与php比较
  4. ubuntu更改文件夹属性
  5. 恒压板框过滤实验数据处理_高考化学实验中:那些不常见的【特殊仪器】与装置,难得的资料...
  6. ubuntu 10.04 install vbox site
  7. Java基础学习总结(111)——Java虚拟机JVM总结大全
  8. 02-06 Python库-random
  9. 8年架构师针对web前端小白,作出的职业规划建议
  10. c++题目大坑:分数化小数
  11. Java中的队列API——Queue
  12. cartographer探秘第四章之代码解析(一) --- SLAM处理过程 --- 文章索引
  13. 【Linux】MySQL常用命令
  14. 美军综合电子信息系统
  15. 华为matebook14摄像头无法启动问题
  16. 【无人驾驶 | 国内篇】主要玩家介绍
  17. 惊闻广州政协做调查为广州电视台取消粤语节目做准备
  18. BAT再战二手车,哪种模式会胜出?
  19. linux查询hba卡地址,怎样查看unix和linux的HBA卡的WWN地址
  20. 基于环信视频语音通话功能

热门文章

  1. 隐马尔可夫模型(三)预测问题
  2. 什么是操作系统?操作系统的作用和主流的操作系统有哪些(详)
  3. oracle centos 7 安装教程,centos7.2安装oracle图文教程
  4. C++11后的常用容器和迭代器
  5. Python字符串截取方式
  6. macOS使用BlackHole录制系统声音
  7. macOS fio 命令
  8. 深度学习(Deep Learning)算法简介
  9. 炮兵阵地(状态压缩DP)
  10. Zabbix设置邮件告警+企业微信告警