文本文件的编码方式及内容类型是应用层测试中文本测试关注的重点,常见的文本编码方式为UTF -8、GBK2312、GBK、BIG5、GB18030等等,常见的文本内容类型为TXT、HTML、XML、Torrent、WML、XHTML等。

下面详细介绍下文件编码格式的转变及部分文本内容的格式。

1、TXT文件:大家都非常熟悉,重点讲解下编码格式的转换。

第一步:先熟悉一个linux命令;

在linux系统下,使用iconv命令进行编码格式的转换,具体的命令使用方式如下:

[root@localhost xhtml]# iconv --help

用法: iconv [选项...] [文件...]

转换给定文件的编码。

输入/输出格式规范:

-f, --from-code=名称     原始文本编码

-t, --to-code=名称         输出编码

信息:

-l, --list                 列举所有已知的字符集

输出控制:

-c                         从输出中忽略无效的字符

-o, --output=FILE          输出文件

-s, --silent               关闭警告

--verbose              打印进度信息

-?, --help                 给出该系统求助列表

--usage                给出简要的用法信息

-V, --version              打印程序版本号

长选项的强制或可选参数对对应的短选项也是强制或可选的。

命令操作举例如下:iconv -f UTF-8 -t GB2312 文本1-UTF-8.txt -o 文本1-GB2312.txt

第二步,进行文本编码转换;

在转换之前,一定先准备一个UTF8编码格式的TXT文件,这个非常简单,linux系统一般默认的都是UFT8格式编码的文件,可以使用file -i 文件名的命令去查看,

如下所示:

[root@localhost txt]# file -i 文本1-TXT-UTF8.txt

文本1-TXT-UTF8.txt: text/plain; charset=utf-8

由于UTF8是一个汉字占用三个字节,而Big5、GBK、GB2312等基本上都是一个汉字占用两个字节,所以在编码格式转换的过程中,使用UTF8转换为GB2312之后,尽量用GB2312来转换

GBK、Big5等;直接用UTF8转换的话个别编码格式会报错。

备注:请记住文件里最好有中文汉字,如果没有的话,文本的编码格式可能会显示是US-ASCII,增加中文汉字后即可以显示为utf-8编码格式。

第三步,编码转换后的格式验证:

转换编码格式后,查询文件验证结果如下所示:

文本1-TXT-Big5.txt:   text/plain; charset=iso-8859-1

文本1-TXT-GB2312.txt: text/plain; charset=iso-8859-1

显示结果并非为对应的Big5和GB2312,这个可能是linux系统的file命令并未对我们常用的汉字编码进行识别,只要在编码转换的过程中不报错,

我们就认为转换成功了。

如果在此情况下还想验证最终的结果是否正确,还大家几个方法:

方法1、使用SSH客户端(建议是Xshell),在编码格式显示处修改为想要的格式,这样,我们打开转换后的文件就是正常显示的了。

方法2、使用逆向验证法,把转换后的GB2312再次转换为UTF8编码的格式文件,查看文件内容(客户端是UTF8编码显示),如果没有乱码或者其它异常,我们就认为文件转换成功。

方法3、可以使用od -x 加文件名的方式查看对应文件的16进制结果,如果没有乱码或者其它异常,我们就认为文件转换成功。

2、HTML/MHT文件:这两种编码格式的转换基本上在浏览器上就可以完成,大家注意的是使用IE浏览器进行转换。

转换方法如下:点击浏览器,打开网页,点击“工具”,选择“文件”,点击“另存为”,选择编码格式和要保存的文件类型即可。

编码格式支持非常多,如常见的UTF8、GB2312、Big5等;文件类型支持html、mht、txt等;可以根据需要进行选择。

如果浏览器自带的编码格式有不满足要求的,可以把文件上传到linux系统中进行转换,linux系统支持的类型非常多,操作方法参照TXT文本编码转换。

为方便大家操作,截图如下:

编码格式:

文件格式:

3、XML/WML类似,语法上非常接近。实例如下:

大家可以自行编辑,也可以直接用

XML文件,示例如下:

<?xml version="1.0"?>

<spec_rule>

<rule>

<stat>0</stat>

<count>4000</count>

<service>10</service>

</rule>

/*

软件测试的艺术

*/

</spec_rule>

备注:其中加一行汉字最主要的目的是为了使用file命令查看文件的编码时显示是utf8。

WML文件,示例如下:

<?xml version="1.0"?>

<!doctype wml public "-//wapforum//dtd wml 1.1//en" "http://www.wapforum.org/dtd/wml_1.1.xml";>

<wml>

<card>

<p align="center"><img alt=":)" src="xxx.bmp" localsrc="smileyface"/></p>

</card>

/*

软件测试的艺术

*/

</wml>

备注:其中加一行汉字最主要的目的是为了使用file命令查看文件的编码时显示是utf8。

其他编码格式的文件可以直接在linux系统中进行转换。操作方法参照TXT文本编码转换。

4、XHTML文件,其实XML和HTML文件的结合,编码上更加严格。

示例如下:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd">

<html xmlns="http://www.w3.org/1999/xhtml">

<head>

<meta http-equiv="Content-Type" content="text/html; charset=utf-8" />

<title>xhEditor初始化代码生成向导 for xhEditor 1.1.8</title>

<script type="text/javascript" src="jquery/jquery-1.4.2.min.js"></script>

<script type="text/javascript" src="xheditor-1.1.8-zh-cn.min.js"></script>

<script type="text/javascript">

$(pageInit);

function pageInit()

function toggleDisplay(id){$('#'+id).toggle(100);}

function updateAll()

</script>

</head>

<body>

<h1 class="top">xhEditor初始化代码生成向导 for xhEditor 1.1.8</h1>

<h2>1: 选择编辑器初始化模式</h2>

<div class="section"><select id="editorMode"><option value="1" selected="selected">Class初始化</option><option value="2">Javascript初始化</option></select></div>

<h2>2: 更改初始化参数</h2>

</body>

</html>

5、Torrent则为BT下载种子,网络上很多,可以自行找种子进行转换。

文本编码格式转换及文本内容类型的介绍相关推荐

  1. 图片转换成文本,和文本转换成图片的方法一级如何调用

    using System; using System.Collections.Generic; using System.IO; using System.Linq; using System.Run ...

  2. 编码格式之间进行文本内码转换的库

    iconv iconv是一个计算机程序以及一套应用程序编程接口的名称.它的作用是在多种国际编码格式之间进行文本内码的转换.目前版本为2.3.26,支持的内码包括: Unicode相关编码,如UTF-8 ...

  3. 文本编码另存为 utf-8(字幕编码格式转换

    文本编码另存为 utf-8(字幕编码格式转换 date: 2022-12-07 lastmod: 2022-12-07 起因 下载的字幕压缩包是 gbk 编码,vlc 直接导入会显示乱码,转换为 ut ...

  4. php删除文本内容,PHP删除内容类型FRM文本

    我有一些文本,例如$text ="-e89a8f234aade3345704b8477b83 Content-Type:text / plain; charset = ISO-8859-1这 ...

  5. 如何将图片文字转换成文本?

    不少小伙伴都会以图片格式记录着文字信息,比如把重要的内容拍下来.各种类型的票据或者对文档的内容截图等,而拍照无疑是可以快速记录的方法,还不容易出错,只是在后续的整理图片和文字会花比较长的时间.如果有可 ...

  6. 计算机怎样将多行文字转换成表格,用WPS文本表格转换快速合并多行文字

    腾讯视频/爱奇艺/优酷/外卖 充值4折起 从网上下载的数据格式经常是一项数据一行,而我们经常需要把一大篇文本中的内容每两行文字连接成一行,有时甚至需要把更多的行连接成一行.手工复制粘贴显然是很麻烦的, ...

  7. [Java]代码实现图像转换成文本

    一.前言 前天在B站看到一个将鬼畜视频转成文本的视频,觉得很有意思就去研究了下如何在JAVA中实现类型功能.主要使用了ffmpeg和JAVA API中的BufferedImage与ImageIO类,完 ...

  8. php+转为文本,PHP将HTML转换成文本的实现代码

    PHP将HTML转换成文本的实现代码 核心代码: // $document 应包含一个 HTML 文档. // 本例将去掉 HTML 标记,javascript 代码 // 和空白字符.还会将一些通用 ...

  9. speech api_如何使用Web Speech API构建文本语音转换应用

    speech api 介绍 (Introduction) Assuming that you've used several apps over the years, there is a very ...

最新文章

  1. 微生物所科学家建成小鼠肠道微生物资源库
  2. R语言使用ggplot2包geom_jitter()函数绘制分组(strip plot,一维散点图)带状图(颜色配置:连续色彩、离散色彩、色彩梯度)实战
  3. 提示No Launcher activity found
  4. java三板斧_Java 枚举使用三板斧
  5. 985博士妈妈辅导女儿作业被气哭:博士父母带娃真是太难了...
  6. 如何以源码安装mysql_CentOS以源码方式安装MySQL
  7. 打印机与计算机无法进行通讯,打印时电脑提示:“打印机不能与计算机进行通讯”是为什么啊?是电脑出现问题还是打印机出现问题了?...
  8. HTML基础标签与相关案例
  9. 消除input标签的自动填充 白色背景,及更改字体颜色
  10. android 自定义searchview,android自定义searchView圆角
  11. 路由器连接猫服务器未响应,路由器连接猫不能上网怎么办
  12. Linux软件包管理工具-yum
  13. 计算机杀毒有什么好处,电脑杀毒哪个最好?电脑杀毒的选择和使用
  14. 快要圣诞节啦,快去给小伙伴们分享漂亮的圣诞树吧
  15. git操作后的各种后悔情况解决
  16. python分析链家二手房信息----数据分析实战(一)
  17. cmake交叉编译mbedtls,open62541笔记
  18. 全球工业半导体市场占有率十大排名出炉
  19. untrusted Developer You can allow using these apps in settings you can allow using these apps i
  20. 【1024】写给最好的你-程序员

热门文章

  1. 培训中经常用到的经典小故事(转)
  2. Lind.DDD敏捷领域驱动框架~Lind.DDD各层介绍
  3. Vulnhub DC-2
  4. 计算机辅助设计技术有哪些优点,计算机辅助设计
  5. 前端必看的8个HTML+CSS技巧
  6. js 中的 Event Loop 以及 宏任务 与 微任务
  7. PowerDesigner16.7 安装与配置
  8. 一起学ORBSLAM2(12)结语
  9. arcgis两张图层不能同时显示_arcgis如何统一不同坐标的两个图层
  10. 计算机网络传播时延公式,计算机网络时延的四种时延类型都有哪些