文本与文本处理(一)
前言:
多媒体:
多媒体是融合两种或两种以上表示媒体的一种人机交互式信息交流和传播的媒体。
多媒体技术:
将多种媒体信息通过计算机进行数字化采集、编码、存储、传输、处理和再见等,使多媒体信息建立逻辑连接,并集成一个具有交互性的系统。
一、字符的编码
计算机应用=使用计算机进行信息处理
其中,文字信息处理是涉及面最广的一种计算机应用,几乎与任何领域任何人都有关。
(一)计算机文字处理的过程
- 文字信息在计算机中称为“文本”(text),文本是计算机中最常用的一种数字媒体
- 文本由一系列 “字符”(character)组成,每个字符均使用二进制编码表示
文本在计算机中的处理过程是:
(二)字符在计算机中的表示
(1)西文字符的编码——ASCII码
( 1)西文是表音文字(拼音文字),它由拉丁字母、数字、标点符号以及一些特殊符号所组成(2) ASCII 码:美国信息交换标准码①、ASCII 字符集包含 96 个可打印字符和 32 个控制字符, 一共能表示 128 个字符②、 采用 7 个二进位进行编码,是高位位置用 0 表示,共一个字节 8 位。③、 计算机中使用 1 个字节存储 1 个 ASCII 字符,单字节表示。④、常用字符的 ASCII 码: 0=48;A=65;a=97;a-A=32D=20H。 (D 为十进制,H 为十六进制数)⑤、 大写字母可以通过加 32D 得到对应的小写字母。A+32=97=a。( D 为十进制,H 为十六进制数)⑥、 小写字母可以通过减 32D 得到对应的大写字母。a-32=65=A。 (D 为十进制,H 为十六进制数)⑦、ASCII 码值排序:符号(()+-*/等)< 数字(0~9) < 符号(:;<=>?) < 大写字母(A~Z) < 小写字母(a~z)
存在问题:
- 字符集太小(只有128个字符)
- 不同国家和地区使用不同的字符集及其编码,互不兼容
- 东亚地区使用的大字符集无法编码
(2)常用的汉字编码字符集
(1)国家标准:GB2312-1980( GB2312-80):简体中文为主。( 2)汉字扩充规范:GBK:支持繁体中文。( 3)UCS/Unicode 多文种大字符集也包含汉字:UTF-8,UTF-16:多种文字符号,支持简繁中文。( 4)国家标准 GB18030-2005:繁简体中文,与 UCS/Unicode 编码标准接轨。( 5)港澳台使用的汉字编码字符集 CNS 11643(BIG 5 ,“大五码”):繁体中文
(3)GB2312汉字编码字符集(7445个)
GB2312的不足:
汉字字数太少,缺少繁体字,无法满足人名、地名、古籍整理、古典文献研究等应用的需要;与ASCII码不兼容。
(4)UCS/Unicode 多文种大字符集
(5)GB18030汉字编码标准——2005年
GB18030实质上是UCS/Unicode字符集的另一种编码方案:
- 单字节编码(128个)表示ASCII字符
- 双字节编码(23940个)表示汉字,与GBK(以及GB2312)保持向下兼容,GBK不再使用
- 四字节编码(约158万个)用于表示 UCS/Unicode中的其他字符
(6)Big 5 码 ——港澳台标准汉字字符集,只有繁体字。
(7)几种汉字编码的对比
二、文本输入方法
文本与文本处理(一)相关推荐
- R语言ggplot2在可视化图像中添加横线并在横线中添加文本、为横线中添加的文本添加文本框、自定义文本框的填充色(background color for a text annotation)
R语言ggplot2在可视化图像中添加横线并在横线中添加文本.为横线中添加的文本添加文本框.自定义文本框的填充色(background color for a text annotation) 目录
- iOS 9应用开发教程之多行读写文本ios9文本视图
iOS 9应用开发教程之多行读写文本ios9文本视图 多行读写文本--ios9文本视图 文本视图也是输入控件,与文本框不同的是,文本视图可以让用户输入多行,如图2.23所示.在此图中字符串" ...
- 用文本指导文本:基于文本的自监督可控文本生成模型
论文标题: CoCon: A Self-Supervised Approach for Controlled Text Generation 论文作者: Alvin Chan, Yew-Soon On ...
- 变压器 5g_T5:文本到文本传输变压器
变压器 5g With the burgeoning of Transfer Learning, Deep Learning has achieved many wonders. More speci ...
- 论文浅尝 | 通过文本到文本神经问题生成的机器理解
论文笔记整理:程茜雅,东南大学硕士,研究方向:自然语言处理,知识图谱. Citation: Yuan X, WangT, Gulcehre C, et al. Machine comprehensio ...
- css完整总结:第二篇(尺寸,外补白,内补白,边框,背景,颜色,字体,文本,文本装饰)
这次对CSS中所有的语法进行一次综合性的总结,后续的文章,将侧重与JavaScript和PHP,微信开发(小程序),以及Linux运维方面.css中设计到定位,布局,尺寸,外补白,内补白,边框,背景, ...
- 微信小程序界面设计入门课程-样式wxss中使用css课程-文本-direction 文本方向
样式wxss中使用css课程-文本-direction 文本方向 微信小程序交流群:111733917 | 微信小程序从0基础到就业的课程:https://edu.csdn.net/topic/hua ...
- NLP文本分析(文本分类与句子评分)
在线课堂质量评估文本分析 文本分析的任务是对一堂在线课的师生对话进行分析,得到问答.讲堂和纠错三个方面的定性评估. 更新 Apr 28, 2020 当前版本: 0.1.0, 初始版本. 目录 章节 内 ...
- 【NLP】文本数据分析文本特征处理文本数据增强
一.文本数据分析 文本数据分析的作用: 文本数据分析能够有效帮助我们理解数据语料, 快速检查出语料可能存在的问题, 并指导之后模型训练过程中一些超参数的选择. 常用的几种文本数据分析方法: 标签数量分 ...
- Unity Text富文本(文本变得多姿多彩)
Unity Text富文本(文本变得多姿多彩) 实例: 步骤如下: 1.创建一个UI Text 2.Text组件中的Rich Text要勾选上 3.写内容 html控制代码 实例: 步骤如下: 1.创 ...
最新文章
- 你知道吗?du 和 df 的统计结果为什么不一样
- A Crowdsourcing Method for Correcting Sequencing Errors for the Third-generation Sequencing Data 一种用
- C++ 不能在构造函数中调用构造函数
- 未预期的符号 `( 附近有语法错误_附近的出租钢板【鑫德利兴】现货供应
- boost::log模块测量转储二进制数据的性能
- Leetcode--174. 地下城游戏
- 强化学习Q-Learning算法及实现详解
- 在HTML中使用JavaScript
- Android Handler机制之总目录
- Windows 内核驱动开发环境 VS2019+WDK11
- 计算机地图制图算法与原理重点,计算机地图制图算法.pptx
- 大连理工大学c语言第三次上机作业答案,第一次上机作业参考答案
- 微信小程序点击按钮弹出弹窗_微信小程序弹窗,微信小程序页面跳转、弹出框...
- vue前端项目富文本应用
- 我关注的一周技术动态 2015.8.23
- 递归走楼梯or斐波那契数列
- MySQL-表的创建
- 计算机组成原理之概述篇(一)
- IObit Uninstaller pro:完全卸载程序,自动清除残余及注册表
- Redis 数据库keys 命令的模糊查询