Mac下utf-8编码转换问题
文章分为两部分内容:1.excel每一行到处为txt 2.用enca转换utf-8
excel每一行导出为txt
背景:最近在做智库项目,爬取了高校很多教师信息,经过预处理后保存为excel文件,由于要将每个老师的信息做jieba分词和去停用词,因此先将excel每一行转成一个txt文本,借助excel的VBA对每一行转成txt,参考百度经验
- 打开原文件:
- Alt+F11,(mac是option+fn+f11 )打开VBA,在左侧找到你要导的表,左键双击输入指令
- 复制以下代码进去就ok了
Sub txt()
Dim i, j, arr(), brr(), myRow, myCol
arr = Sheet1.UsedRange
myRow = UBound(arr, 1)
myCol = UBound(arr, 2)
For i = 1 To myRow
Open ThisWorkbook.Path & "\" & arr(i, 1) & "1.txt" For Output As #1
Print #1, Join(Application.Index(arr, 1), ",")
Print #1, Join(Application.Index(arr, i), ",")
Close #1
Next
End Sub
然后由于我的mac上excel的VBA有问题,就用同学windows导,结果是这样的txt文件:
他发给我以后,由于编码问题,在mac上打不开,提示“文本编码unicode(utf-8)不适用”
用enca转utf-8
试过了iconv、用文本编辑器转化为纯文本都没成功,最后用enca转成功了,参考Mac下文件编码修改问题
- 先在终端安装enca:
brew install enca
- 检查目标文件teacher_38的编码
(我放在material2这个文件夹里的,对这个文件夹里的所有文件都重命名了,具体可以查看我写的Mac下对文件批量重命名)
输入:
enca -L zh_CN /Users/longhailing/Documents/test1/material2/teacher_38.txt
输出:
Simplified Chinese National Standard; GB2312
- 对teacher_38这个文件单独转码utf-8,其实就是在中间加了一个-x utf-8
enca -L zh_CN -x utf-8 /Users/longhailing/Documents/test1/material2/teacher_38.txt
这段代码转完是没有任何提示的,然后用步骤2的语句再查看一下teacher_38的编码,发现已经变成了utf-8
- 如果要对整个文件夹内的文件批量转换,先cd进入y要修改的文件夹,我这里是material2文件夹:
cd /Users/longhailing/Documents/test1/material2/
在material下输入以下命令即全部转换为utf-8:
enca -L zh_CN -x utf-8 *
输入以下命令查看文件编码:
enca -L zh_CN *
(*号代表全部的意思)
大功告成~
ps:这样转出来跑代码是没问题了,但是单独打开原文件还是打不开,仍未解决。。
Mac下utf-8编码转换问题相关推荐
- html转换编码格式,html编码转换 html编码设置utf gbk编码转换图文教程
html编码转换 html编码设置utf gbk编码转换图文教程篇 常用HTML编码之urf-8编码转换为gb2312编码或者gb2312转换为utf-8编码快速转换设置,这里DIVCSS5介绍使用D ...
- Mac下文件的编码及修改编码
在使用python3做NLP中文文本分类时,由于下载的搜狗语料库本身的编码有关系,本身编码是ASCII码,而我们需要以UTF-8来读取,所以就遇到如下不能显示中文文本的输出(mac下): u: {\r ...
- Google App Engine for Java下的URL编码转换问题
URL编码问题 此部分参考英文资料: http://www.blooberry.com/indexdot/html/topics/urlencoding.htm http://www.w3school ...
- ubuntu下txt文件编码转换、查询(gbk/ISO-8859-utf-8)
在ubuntu下运行python程序,总是报错,说编码不对不是utf-8(貌似是因为汉字部分出问题了),搜集资料后完成了转换. 1.文件编码查询 $ file 199801.txt 199801.tx ...
- mac mysql utf 8编码_MacOS下MySQL设置UTF8编码问题
1,检查默认安装的MySQL的字符集 mysql> show variables like '%char%'; +--------------------------+------------- ...
- 【Bash】实现指定目录下的文件编码转换,以原文件名保存
文件名: encodeExchange.sh Linux版本: #!/bin/bashfEncode=UTF-8 tEncode=GBK#fEncode=GBK #tEncode=UTF-8files ...
- mac下图片CR2格式转换成JPG格式
前段时间相机拍出来的昨是 CR2格式的,一般的图片软件是无法打开的,需要转换在jpg, 很简单的,在当前目录打开终端 输入 将cr2文件转换成jpg文件 for i in *.CR2; do sips ...
- mac下CSV文件编码格式查看与转换
mac 安装brew ruby -e"$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/insta ...
- linux 繁体中文转为简体,Linux下对文件进行编码转换(简体→繁体,繁体→简体,简体繁体→UTF-8)...
其实说到编码转换,那就不得不说到iconv这个库了,如果已经安装了这个工具,那在命令行下直接打这个命令就行了.下面就用这个工具来实现中文系统下的常用编码转换. 首先,来了解一下iconv这个命令的使用 ...
- m2ts视频格式在windows及mac下的解决方案
M2TS 是一种高清视频格式,当下应用于高清蓝光碟及其AVCHD高清摄像机中,是存放流媒体的主要视频容器.这种容器的特征是高达1080p的分辨率,高清摄像机,诸如(),可用来录制70fps的视频短片. ...
最新文章
- Splay ---- 文艺平衡树区间翻转的建树模式
- QT小例子GUI(主)线程与子线程之间的通信
- php和python区别-python与php比较
- ubuntu更改文件夹属性
- 恒压板框过滤实验数据处理_高考化学实验中:那些不常见的【特殊仪器】与装置,难得的资料...
- ubuntu 10.04 install vbox site
- Java基础学习总结(111)——Java虚拟机JVM总结大全
- 02-06 Python库-random
- 8年架构师针对web前端小白,作出的职业规划建议
- c++题目大坑:分数化小数
- Java中的队列API——Queue
- cartographer探秘第四章之代码解析(一) --- SLAM处理过程 --- 文章索引
- 【Linux】MySQL常用命令
- 美军综合电子信息系统
- 华为matebook14摄像头无法启动问题
- 【无人驾驶 | 国内篇】主要玩家介绍
- 惊闻广州政协做调查为广州电视台取消粤语节目做准备
- BAT再战二手车,哪种模式会胜出?
- linux查询hba卡地址,怎样查看unix和linux的HBA卡的WWN地址
- 基于环信视频语音通话功能