关于GB与BIG5码的判别,没有100%可靠的方法。但是从两个编码系统汉字的分布来看,
还有可以作一定的判断的。
GB码的编码范围是首字节A1-F7,尾字节A1-FE,而且首字节A1-A9是符号区,AA-AF这
一段没有定义。BIG5码的编码范围是首字节A1-F9,尾字节分两段,分别是40-7E及
A1-FE,首字节A1-A3是符号区,A4-C5是常用汉字区。
这样我们可以找到几个依据:
1)尾字节40-7E是BIG5码特有的,可以以此来判别,但是现在GBK在这个码区也定义了
字符,不过这些汉字的使用频度不高,所以仍然可以作为一条依据,但无法保证100%
正确;
2)首字节A4-A9在GB中为日文假名、希腊字母、俄文字母和制表符,正常文本中很少
出现,AA-AF则根本没有定义,但这个范围却是BIG5码的常用汉字,所以如果文本中
频繁出现这个范围的码,也可以认为是BIG5码。尤其是首字节位于AA-AF之间,尾字
节位于A1-FE的,几乎100%是BIG5码无疑,因为即使在GBK中,这个范围也是没有定
义的。
为了提高识别的正确率,最好多种判据同时使用。另外还可以通过分析汉字出现的频
率,或查找某些常用的词组来判别。因为做起来比较复杂,就不多说了。
首字节C6-D7,尾字节A1-FE在GB中属于一级字库,是常用汉字,而在BIG5中,C6-C7没
有明确定义,但通常用来放日文假名和序号,C8-D7属于罕用汉字区。所以如果这个范
围的码出现较多,可以判别为GB码。 
 
 

如何区别文本是BIG5还是GB?相关推荐

  1. gb和gib的区别_KB/KiB,MB/MiB,GB/GiB,它们有区别吗?

    KB/KiB,MB/MiB,GB/GiB,它们有区别吗? 有的时候,还有有点区别的,一般要看上下文和领域. 先说KiB,MiB和GiB,这三个标志是标准的计算机领域的术语,中间的i取自binary,表 ...

  2. BIG5到GB的转换技术

    中文因为数量太多,所以与英文用ASCII码一个字节表示不同,它使用两个字节来   表示.通过计算这两个字节,我们可以得到其表示的汉字在中   文字库中的位置.读取该位置的若干字节,以获得表示这个汉字的 ...

  3. ue4字符串 区别 文本_UE4中使用富文本(RichTextBlock多格式文本块)

    前言 哈喽大家好啊~好久没有写东西了,最近闹疫情,实在是没心情!其实主要还是因为太懒了! 今天将为大家分享个不是很新的技术,但是又是在游戏开发里常出现的需求,富文本应用. 说到富文本,可能很多人并不知 ...

  4. 以文本格式和二进制格式打开文件,到底有什么区别?

    目录 以文本格式和二进制格式打开文件,到底有什么区别? 两种格式的解码区别 文本格式open()时的隐式转换 参考资料 以文本格式和二进制格式打开文件,到底有什么区别? 我们知道,open() 函数第 ...

  5. 自然语言处理——文本分类概述

    内容提要 分类概述 分类流程 数据采集 爬虫技术 页面处理 文本预处理 英文处理 中文处理 去停用词 文本表示 特征选择 分类模型 分类概述   分类(Classification)是指自动对数据进行 ...

  6. 文本打开方式和二进制打开方式的区别是什么?

    在学习了 C++ 文件流对象使用 open() 打开文件后,我们知道它的第二个参数是一个字符串,用来表示文件打开方式,即如果使用 ios::binary,则表示以二进制方式打开文件:反之,则以文本文件 ...

  7. 数据挖掘-文本特征提取方法研究

    一. 课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘.机器学习.模式识别.人工智能.统计学.计算机语言学.计算机网络技术.信息学等多个领域.文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法 ...

  8. 达观数据:文本大数据的机器学习自动分类方法

    随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类.组织和管理,已经成为一个具有重要用途的研究课题.而在这些数据中,文本数据又是数量最大的一类.文本分类是指在给定分类体系下,根据文本内容自动 ...

  9. 文本分类——特征选择概述

    内容提要 特征选择概述 常见模型 文档频率(DF) 卡方校验(CHI) 信息增益(IG) 互信息(MI) 特征选择概述   在向量空间模型中,文本可以选择字.词组.短语.甚至"概念" ...

  10. Mac打不开后缀名为txt文件,显示文本编码中文不适用的解决措施

    Mac打不开后缀名为txt文件,显示文本编码中文不适用的解决措施 问题: 未能打开文稿".txt".文本编码中文(GB 18030)不适用 解决措施: 1.打开文本编辑器的偏好设置 ...

最新文章

  1. 程序员在外面看见bug会想修吗? | 每日趣闻
  2. Python之基础知识
  3. 虚拟服务器系统一般用那种,虚拟主机 选什么系统
  4. 设计前沿:16款扁平风格 iOS 7 图标设计
  5. MainWindow::MainWindow(QWidget *parent) : QMainWindow(parent), ui(new Ui::MainWindow)的理解(即c++参数初始)
  6. linux在双系统中消失了,双系统重新安装windows后,ubuntu选项消失
  7. discuz二次元文章博客模板
  8. as运行时不报错却闪退_字典访问不存在的key 时,如何才能不报错?
  9. Hive 内置函数权威指南,操作大全
  10. LINQ Enumerable 续
  11. 使用cmd命令创建maven(web)项目+项目转换成IDEA项目+项目打包+Jetty运行Web项目
  12. 垃圾收集器分类与GC性能指标
  13. 苹果cms模板_苹果cmsv10简约模板有哪些?
  14. php做个抽签人名,怎样在excel制作一个用于抽签函数,别的工具也行(excel随机抽取人名不重复)...
  15. IDEA切换分支 工作空间变化问题设置
  16. word毕业论文页眉设置自动添加章节标题并左右对齐
  17. Android 手机灭屏流程分析详解
  18. java职业发展路线图_从程序员到CTO的Java技术路线图 JAVA职业规划 JAVA职业发展路线图 系统后台框架图、前端工程师技能图 B2C电子商务基础系统架构解析...
  19. 吕思清老师口中的小艺是何许人也
  20. 杰瑞学Perl之Hello World

热门文章

  1. 实时渲染学习(十一)渲染加速算法总结
  2. MATLAB VideoReader读取视频出错解决办法
  3. linux 下bt远程下载,在Linux服务器上配置Transmission来离线下载BT种子
  4. FabFilter Pro-R 混响效果器
  5. 游戏程序开发的工作主要包括哪些方面
  6. python+opencv+图像几何变换(图片缩放、剪切、位移、镜像,放射变换,旋转)
  7. 自己动手写网络爬虫学习笔记
  8. win10系统 DNS服务器,dns出错?Win10系统dns服务器未响应的修复方法
  9. 【简单python爬虫】爬取豆瓣电影Top250的基本信息
  10. LTspice基础教程-004.系统自带仿真库介绍