From: http://edyfox.codecarver.org/html/vim_fileencodings_detection.html

在 Vim 中,有四个与编码有关的选项,它们是:fileencodingsfileencodingencodingtermencoding。在实际使用中,任何一个选项出现错误,都会导致出现乱码。因此,每一个 Vim 用户都应该明确这四个选项的含义。下面,我们详细介绍一下这四个选项的含义和作用。

1 encoding

encoding 是 Vim 内部使用的字符编码方式。当我们设置了 encoding 之后,Vim 内部所有的 buffer、寄存器、脚本中的字符串等,全都使用这个编码。Vim 在工作的时候,如果编码方式与它的内部编码不一致,它会先把编码转换成内部编码。如果工作用的编码中含有无法转换为内部编码的字符,在这些字符就会丢失。因此,在选择 Vim 的内部编码的时候,一定要使用一种表现能力足够强的编码,以免影响正常工作。

由于 encoding 选项涉及到 Vim 中所有字符的内部表示,因此只能在 Vim 启动的时候设置一次。在 Vim 工作过程中修改 encoding 会造成非常多的问题。如果没有特别的理由,请始终将 encoding 设置为 utf-8。为了避免在非 UTF-8 的系统如 Windows 下,菜单和系统提示出现乱码,可同时做这几项设置:

set encoding=utf-8
set langmenu=zh_CN.UTF-8
language message zh_CN.UTF-8

2 termencoding

termencoding 是 Vim 用于屏幕显示的编码,在显示的时候,Vim 会把内部编码转换为屏幕编码,再用于输出。内部编码中含有无法转换为屏幕编码的字符时,该字符会变成问号,但不会影响对它的编辑操作。如果 termencoding 没有设置,则直接使用 encoding 不进行转换。

举个例子,当你在 Windows 下通过 telnet 登录 Linux 工作站时,由于 Windows 的 telnet 是 GBK 编码的,而 Linux 下使用 UTF-8 编码,你在 telnet 下的 Vim 中就会乱码。此时有两种消除乱码的方式:一是把 Vim 的 encoding 改为 gbk,另一种方法是保持 encodingutf-8,把 termencoding 改为 gbk,让 Vim 在显示的时候转码。显然,使用前一种方法时,如果遇到编辑的文件中含有 GBK 无法表示的字符时,这些字符就会丢失。但如果使用后一种方法,虽然由于终端所限,这些字符无法显示,但在编辑过程中这些字符是不会丢失的。

对于图形界面下的 GVim,它的显示不依赖 TERM,因此 termencoding 对于它没有意义。在 GTK2 下的 GVim 中,termencoding 永远是 utf-8,并且不能修改。而 Windows 下的 GVim 则忽略 termencoding 的存在。

3 fileencoding

当 Vim 从磁盘上读取文件的时候,会对文件的编码进行探测。如果文件的编码方式和 Vim 的内部编码方式不同,Vim 就会对编码进行转换。转换完毕后,Vim 会将 fileencoding 选项设置为文件的编码。当 Vim 存盘的时候,如果 encodingfileencoding 不一样,Vim 就会进行编码转换。因此,通过打开文件后设置 fileencoding,我们可以将文件由一种编码转换为另一种编码。但是,由前面的介绍可以看出,fileencoding 是在打开文件的时候,由 Vim 进行探测后自动设置的。因此,如果出现乱码,我们无法通过在打开文件后重新设置 fileencoding 来纠正乱码。

4 fileencodings

编码的自动识别是通过设置 fileencodings 实现的,注意是复数形式。fileencodings 是一个用逗号分隔的列表,列表中的每一项是一种编码的名称。当我们打开文件的时候,VIM 按顺序使用 fileencodings 中的编码进行尝试解码,如果成功的话,就使用该编码方式进行解码,并将 fileencoding 设置为这个值,如果失败的话,就继续试验下一个编码。

因此,我们在设置 fileencodings 的时候,一定要把要求严格的、当文件不是这个编码的时候更容易出现解码失败的编码方式放在前面,把宽松的编码方式放在后面。

例如,latin1 是一种非常宽松的编码方式,任何一种编码方式得到的文本,用 latin1 进行解码,都不会发生解码失败——当然,解码得到的结果自然也就是理所当然的“乱码”。因此,如果你把 latin1 放到了 fileencodings 的第一位的话,打开任何中文文件都是乱码也就是理所当然的了。

以下是滇狐推荐的一个 fileencodings 设置:

set fileencodings=ucs-bom,utf-8,cp936,gb18030,big5,euc-jp,euc-kr,latin1

其中,ucs-bom 是一种非常严格的编码,非该编码的文件几乎没有可能被误判为 ucs-bom,因此放在第一位。

utf-8 也相当严格,除了很短的文件外(例如许多人津津乐道的 GBK 编码的“联通”被误判为 UTF-8 编码的经典错误),现实生活中一般文件是几乎不可能被误判的,因此放在第二位。

接下来是 cp936 和 gb18030,这两种编码相对宽松,如果放前面的话,会出现大量误判,所以就让它们靠后一些。cp936 的编码空间比 gb18030 小,所以把 cp936 放在 gb18030 前面。

至于 big5、euc-jp 和 euc-kr,它们的严格程度和 cp936 差不多,把它们放在后面,在编辑这些编码的文件的时候必然出现大量误判,但这是 Vim 内置编码探测机制没有办法解决的事。由于中国用户很少有机会编辑这些编码的文件,因此我们还是决定把 cp936 和 gb18030 前提以保证这些编码的识别。

最后就是 latin1 了。它是一种极其宽松的编码,以至于我们不得不把它放在最后一位。不过可惜的是,当你碰到一个真的 latin1 编码的文件时,绝大部分情况下,它没有机会 fall-back 到 latin1,往往在前面的编码中就被误判了。不过,正如前面所说的,中国用户没有太多机会接触这样的文件。

如果编码被误判了,解码后的结果就无法被人类识别,于是我们就说,这个文件乱码了。此时,如果你知道这个文件的正确编码的话,可以在打开文件的时候使用 ++enc=encoding 的方式来打开文件,如:

:e ++enc=utf-8 myfile.txt

5 fencview

根据前面的介绍,我们知道,通过 Vim 内置的编码识别机制,识别率是很低的,尤其是对于简体中文 (GBK/GB18030)、繁体中文 (Big5)、日文 (euc-jp) 和韩文 (euc-kr) 之间的识别。而对于普通用户而言,肉眼看出一个文件的编码方式也是很不现实的事情。因此,滇狐强烈推荐水木社区的 mbbill 开发的 fencview 插件。该插件使用词频统计的方式识别编码,正确率非常高。点击这里 下载。

VIM 文件编码识别与乱码处理相关推荐

  1. 转 :Vim文件编码识别与乱码处理

    Vim文件编码识别与乱码处理 在 Vim 中,有四个与编码有关的选项,它们是:fileencodings.fileencoding.encoding 和 termencoding.在实际使用中,任何一 ...

  2. 学习笔记整理——vim,vim文件编码,vim配置文件

    1.vim 安装包 vim-enhanced 2. 移动到行首 shift 6,移动到行尾 shfit + 4. 3. 移动到某行,nG,1G 首行,G 行尾,10G 移动到第十行 4. nx 向后删 ...

  3. 文件编码识别工具icu4j

    需求背景 PM接了个邮件预览的需求,其他项目组买了Aspose.Email for Java的服务,包装一下做了个邮件转换服务,将eml.msg格式转换为html文本,将html以流的形式返回.基于这 ...

  4. Vim的行号、语法显示等设置(.vimrc文件的配置)以及乱码解决

    在终端下使用vim进行编辑时,默认情况下,编辑的界面上是没有显示行号.语法高亮度显示.智能缩进 等功能的.为了更好的在vim下进行工作,需要手动设置一个配置文件:.vimrc. 在启动vim时,当前用 ...

  5. linux windows文件 编码_解决Linux与Windows文件显示乱码的问题

    重点:如果windows 下和虚拟机共享文件,先将文件移到其他位置使用notepad++ 改变编码模式为UTF-8,然后复制到共享目录,然后用编辑器打开中文就不是乱码了. 问题: 在Windows下用 ...

  6. python 文件编码的识别_【python】python编码方式,chardet编码识别库

    环境: python3.6 需求: 针对于打开一个文件,可以读取到文本的编码方式,根据默认的文件编码方式来获取文件,就不会出现乱码. 针对这种需求,python中有这个方式可以很好的解决: 解决策略: ...

  7. linux 下vim文件乱码 cat文件正常处理方法

    linux 下vim文件乱码 cat文件正常处理方法 服务器支持中文字符集,cat和其他查看文件命令现在正常,vim还是出现了中文乱码问题, 1.查看文件编码格式 vim 文件 :set fileen ...

  8. linux vi 打开乱码,liunx 中使用vim 打开 txt文件时 中文出现乱码的解决办法

    出现乱码,说明软件读取文件的编码方式和软件保存文件的编码方式不同,只要二者相同了,就不会出现乱码,所以,解决乱码问题,就是实现二者统一的过程: 此次系统的默认的编码方式为utf-8,而我的vim初始使 ...

  9. BOM与文件编码的识别

    如何判断一个文件是何种编码类型 我们在上一篇文章中我们说过,要保证我们识别的内容不是乱码,那么在我们对字节序列byte[],进行解码时,需要采用正确的解码方法(即与生成序列时的编码方式相同). 那么现 ...

最新文章

  1. python数据分析可视化实例_Python数据分析及可视化实例之基于Kmean分析RFM进行用户关怀...
  2. 交流继电器rc吸收电路_使用固态继电器的注意事项
  3. linux字体如何删除不了,如何彻底替换Ubuntu下Chrome字体(清除楷体字)
  4. Oracle 游标的练习
  5. Docker 操作命令 整理
  6. ISA Server 2004 企业 IT 常见应用速查
  7. Ububtu 18.04 安装 mysql 和 phpmyadmin 过程记录
  8. BAT脚本每隔30秒创建一个512兆文件(测试磁盘监控用)
  9. Atitit 找人软福利建设 技术团队建设大概流程
  10. java认证考试例题_2016年Java认证考试题(3)
  11. html文档 word文档,html文档怎么转Word文档
  12. 递归实现顺序输出整数
  13. 如何在自己电脑上设php网站,怎么在自己电脑上建网站
  14. 【微信小程序】微信小程序基础知识篇
  15. puzzle(0722)逻辑电路、蜂巢迷阵
  16. K_均值聚类算法(算法设计与C代码实现)
  17. Android9.0新特性
  18. Nginx Lua 之Shared Dict get()方法在存入字符串超长的情况下不支持高并发
  19. [原创]持续给力:jQuery实现表格隔行变色效果案例详解
  20. 【转贴】【心灵鸡汤】一个不成功的技术路线人士的总结 (长篇)

热门文章

  1. Asp.Net MVC开源CMS - Orchard
  2. PHP autoload实践
  3. 实现Parcelable接口
  4. 餐厅数据分析报告_如何使用数据科学选择理想的餐厅设计场所
  5. 供来宾访问计算机打开安全吗,计算机安全设置操作手册(22页)-原创力文档
  6. 计算机 编程 教程 pdf,计算机专业教程-第3章编程接口介绍.pdf
  7. leetcode 75. 颜色分类(双指针)
  8. redux ngrx_另一个减少Redux(NGRX)应用程序样板的指南
  9. 递归方程组解的渐进阶的求法——代入法
  10. 《构建之法》读后感 二