如何区别文本是BIG5还是GB?
关于GB与BIG5码的判别,没有100%可靠的方法。但是从两个编码系统汉字的分布来看, 还有可以作一定的判断的。 GB码的编码范围是首字节A1-F7,尾字节A1-FE,而且首字节A1-A9是符号区,AA-AF这 一段没有定义。BIG5码的编码范围是首字节A1-F9,尾字节分两段,分别是40-7E及 A1-FE,首字节A1-A3是符号区,A4-C5是常用汉字区。 这样我们可以找到几个依据: 1)尾字节40-7E是BIG5码特有的,可以以此来判别,但是现在GBK在这个码区也定义了 字符,不过这些汉字的使用频度不高,所以仍然可以作为一条依据,但无法保证100% 正确; 2)首字节A4-A9在GB中为日文假名、希腊字母、俄文字母和制表符,正常文本中很少 出现,AA-AF则根本没有定义,但这个范围却是BIG5码的常用汉字,所以如果文本中 频繁出现这个范围的码,也可以认为是BIG5码。尤其是首字节位于AA-AF之间,尾字 节位于A1-FE的,几乎100%是BIG5码无疑,因为即使在GBK中,这个范围也是没有定 义的。 为了提高识别的正确率,最好多种判据同时使用。另外还可以通过分析汉字出现的频 率,或查找某些常用的词组来判别。因为做起来比较复杂,就不多说了。 首字节C6-D7,尾字节A1-FE在GB中属于一级字库,是常用汉字,而在BIG5中,C6-C7没 有明确定义,但通常用来放日文假名和序号,C8-D7属于罕用汉字区。所以如果这个范 围的码出现较多,可以判别为GB码。
如何区别文本是BIG5还是GB?相关推荐
- gb和gib的区别_KB/KiB,MB/MiB,GB/GiB,它们有区别吗?
KB/KiB,MB/MiB,GB/GiB,它们有区别吗? 有的时候,还有有点区别的,一般要看上下文和领域. 先说KiB,MiB和GiB,这三个标志是标准的计算机领域的术语,中间的i取自binary,表 ...
- BIG5到GB的转换技术
中文因为数量太多,所以与英文用ASCII码一个字节表示不同,它使用两个字节来 表示.通过计算这两个字节,我们可以得到其表示的汉字在中 文字库中的位置.读取该位置的若干字节,以获得表示这个汉字的 ...
- ue4字符串 区别 文本_UE4中使用富文本(RichTextBlock多格式文本块)
前言 哈喽大家好啊~好久没有写东西了,最近闹疫情,实在是没心情!其实主要还是因为太懒了! 今天将为大家分享个不是很新的技术,但是又是在游戏开发里常出现的需求,富文本应用. 说到富文本,可能很多人并不知 ...
- 以文本格式和二进制格式打开文件,到底有什么区别?
目录 以文本格式和二进制格式打开文件,到底有什么区别? 两种格式的解码区别 文本格式open()时的隐式转换 参考资料 以文本格式和二进制格式打开文件,到底有什么区别? 我们知道,open() 函数第 ...
- 自然语言处理——文本分类概述
内容提要 分类概述 分类流程 数据采集 爬虫技术 页面处理 文本预处理 英文处理 中文处理 去停用词 文本表示 特征选择 分类模型 分类概述 分类(Classification)是指自动对数据进行 ...
- 文本打开方式和二进制打开方式的区别是什么?
在学习了 C++ 文件流对象使用 open() 打开文件后,我们知道它的第二个参数是一个字符串,用来表示文件打开方式,即如果使用 ios::binary,则表示以二进制方式打开文件:反之,则以文本文件 ...
- 数据挖掘-文本特征提取方法研究
一. 课题背景概述 文本挖掘是一门交叉性学科,涉及数据挖掘.机器学习.模式识别.人工智能.统计学.计算机语言学.计算机网络技术.信息学等多个领域.文本挖掘就是从大量的文档中发现隐含知识和模式的一种方法 ...
- 达观数据:文本大数据的机器学习自动分类方法
随着互联网技术的迅速发展与普及,如何对浩如烟海的数据进行分类.组织和管理,已经成为一个具有重要用途的研究课题.而在这些数据中,文本数据又是数量最大的一类.文本分类是指在给定分类体系下,根据文本内容自动 ...
- 文本分类——特征选择概述
内容提要 特征选择概述 常见模型 文档频率(DF) 卡方校验(CHI) 信息增益(IG) 互信息(MI) 特征选择概述 在向量空间模型中,文本可以选择字.词组.短语.甚至"概念" ...
- Mac打不开后缀名为txt文件,显示文本编码中文不适用的解决措施
Mac打不开后缀名为txt文件,显示文本编码中文不适用的解决措施 问题: 未能打开文稿".txt".文本编码中文(GB 18030)不适用 解决措施: 1.打开文本编辑器的偏好设置 ...
最新文章
- 程序员在外面看见bug会想修吗? | 每日趣闻
- Python之基础知识
- 虚拟服务器系统一般用那种,虚拟主机 选什么系统
- 设计前沿:16款扁平风格 iOS 7 图标设计
- MainWindow::MainWindow(QWidget *parent) : QMainWindow(parent), ui(new Ui::MainWindow)的理解(即c++参数初始)
- linux在双系统中消失了,双系统重新安装windows后,ubuntu选项消失
- discuz二次元文章博客模板
- as运行时不报错却闪退_字典访问不存在的key 时,如何才能不报错?
- Hive 内置函数权威指南,操作大全
- LINQ Enumerable 续
- 使用cmd命令创建maven(web)项目+项目转换成IDEA项目+项目打包+Jetty运行Web项目
- 垃圾收集器分类与GC性能指标
- 苹果cms模板_苹果cmsv10简约模板有哪些?
- php做个抽签人名,怎样在excel制作一个用于抽签函数,别的工具也行(excel随机抽取人名不重复)...
- IDEA切换分支 工作空间变化问题设置
- word毕业论文页眉设置自动添加章节标题并左右对齐
- Android 手机灭屏流程分析详解
- java职业发展路线图_从程序员到CTO的Java技术路线图 JAVA职业规划 JAVA职业发展路线图 系统后台框架图、前端工程师技能图 B2C电子商务基础系统架构解析...
- 吕思清老师口中的小艺是何许人也
- 杰瑞学Perl之Hello World
热门文章
- 实时渲染学习(十一)渲染加速算法总结
- MATLAB VideoReader读取视频出错解决办法
- linux 下bt远程下载,在Linux服务器上配置Transmission来离线下载BT种子
- FabFilter Pro-R 混响效果器
- 游戏程序开发的工作主要包括哪些方面
- python+opencv+图像几何变换(图片缩放、剪切、位移、镜像,放射变换,旋转)
- 自己动手写网络爬虫学习笔记
- win10系统 DNS服务器,dns出错?Win10系统dns服务器未响应的修复方法
- 【简单python爬虫】爬取豆瓣电影Top250的基本信息
- LTspice基础教程-004.系统自带仿真库介绍