网址URL中特殊字符转义编码

字符    -    URL编码值

空格    -    %20
"          -    %22
#         -    %23
%        -    %25
&         -    %26
(          -    %28
)          -    %29
+         -    %2B
,          -    %2C
/          -    %2F
:          -    %3A
;          -    %3B
<         -    %3C
=         -    %3D
>         -    %3E
?         -    %3F
@       -    %40
\          -    %5C
|          -    %7C

URL特殊字符转义,URL中一些字符的特殊含义,基本编码规则如下:

1、空格换成加号(+)
2、正斜杠(/)分隔目录和子目录
3、问号(?)分隔URL和查询
4、百分号(%)制定特殊字符
5、#号指定书签
6、&号分隔参数

如果需要在URL中用到,需要将这些特殊字符换成相应的十六进制的值
+     %2B
/      %2F
?     %3F
%    %25
#     %23
&    %26

如何对Url中的非法字符进行编码

Url编码通常也被称为百分号编码(Url Encoding,also known as percent-encoding),是因为它的编码方式非常简单,使用%百分号加上两位的字符——0123456789ABCDEF——代表一个字节的 十六进制形式。Url编码默认使用的字符集是US-ASCII。例如a在US-ASCII码中对应的字节是0x61,那么Url编码之后得到的就 是%61,我们在地址栏上输入http://g.cn/search?q=%61%62%63,实际上就等同于在google上搜索abc了。又如@符号 在ASCII字符集中对应的字节为0x40,经过Url编码之后得到的是%40。

常见字符的Url编码列表:

保留字符的Url编码
! * " ' ( ) ; : @ &
%21 %2A %22 %27 %28 %29 %3B %3A %40 %26
= + $ , / ? % # [ ]
%3D %2B %24 %2C %2F %3F %25 %23 %5B %5D

对于非ASCII字符,需要使用ASCII字符集的超集进行编码得到相应的字节,然后对每个字节执行百分号编码。 对于Unicode字符,RFC文档建议使用utf-8对其进行编码得到相应的字节,然后对每个字节执行百分号编码。如“中文”使用UTF-8字符集得到 的字节为0xE4 0xB8 0xAD 0xE6 0x96 0x87,经过Url编码之后得到“%E4%B8%AD%E6%96%87”。

如果某个字节对应着ASCII字符集中的某个非保留字符,则此字节无需使用百分号表示。 例如“Url编码”,使用UTF-8编码得到的字节是0x55 0x72 0x6C 0xE7 0xBC 0x96 0xE7 0xA0 0x81,由于前三个字节对应着ASCII中的非保留字符“Url”,因此这三个字节可以用非保留字符“Url”表示。最终的Url编码可以简化成 “Url%E7%BC%96%E7%A0%81” ,当然,如果你用"%55%72%6C%E7%BC%96%E7%A0%81”也是可以的。

由于历史的原因,有一些Url编码实现并不完全遵循这样的原则,下面会提到。

Javascript中的escape,encodeURI和encodeURIComponent的区别

Javascript中提供了3对函数用来对Url编码以得到合法的Url,它们分别是escape / unescape,encodeURI / decodeURI和encodeURIComponent / decodeURIComponent。由于解码和编码的过程是可逆的,因此这里只解释编码的过程。

这三个编码的函数——escape,encodeURI,encodeURIComponent——都是用于将不安全不合法的Url字符转换为合法的Url字符表示,它们有以下几个不同点。

安全字符不同

下面的表格列出了这三个函数的安全字符(即函数不会对这些字符进行编码)

安全字符
escape(69个) */@+-._0-9a-zA-Z
encodeURI(82个) !#$&'()*+,/:;=?@-._~0-9a-zA-Z
encodeURIComponent(71个) !'()*-._~0-9a-zA-Z

兼容性不同

escape函数是从Javascript1.0的时候就存在了,其他两个函数是在Javascript1.5才引入的。但是由于 Javascript1.5已经非常普及了,所以实际上使用encodeURI和encodeURIComponent并不会有什么兼容性问题。

对Unicode字符的编码方式不同

这三个函数对于ASCII字符的编码方式相同,均是使用百分号+两位十六进制字符来表示。但是对于Unicode字符,escape的编码方式是%uxxxx,其中的xxxx是用来表示unicode字符的4位十六进制字符。这种方式已经被W3C废弃了。但是在ECMA-262标准中仍然保留着escape的这种编码语法。encodeURI和encodeURIComponent则使用UTF-8对非ASCII字符进行编码,然后再进行百分号编码。这是RFC推荐的。因此建议尽可能的使用这两个函数替代escape进行编码。

适用场合不同

encodeURI被用作对一个完整的URI进行编码,而encodeURIComponent被用作对URI的一个组件进行编码。

从上面提到的安全字符范围表格来看,我们会发现,encodeURIComponent编码的字符范围要比encodeURI的大。我们上面提到 过,保留字符一般是用来分隔URI组件(一个URI可以被切割成多个组件,参考预备知识一节)或者子组件(如URI中查询参数的分隔符),如:号用于分隔 scheme和主机,?号用于分隔主机和路径。由于encodeURI操纵的对象是一个完整的的URI,这些字符在URI中本来就有特殊用途,因此这些保 留字符不会被encodeURI编码,否则意义就变了。

组件内部有自己的数据表示格式,但是这些数据内部不能包含有分隔组件的保留字符,否则就会导致整个URI中组件的分隔混乱。因此对于单个组件使用encodeURIComponent,需要编码的字符就更多了。

表单提交

当Html的表单被提交时,每个表单域都会被Url编码之后才在被发送。由于历史的原因,表单使用的Url编码实现并不符合最新的标准。例如对于空 格使用的编码并不是%20,而是+号,如果表单使用的是Post方法提交的,我们可以在HTTP头中看到有一个Content-Type的header, 值为application/x-www-form-urlencoded。大部分应用程序均能处理这种非标准实现的Url编码,但是在客户端 Javascript中,并没有一个函数能够将+号解码成空格,只能自己写转换函数。还有,对于非ASCII字符,使用的编码字符集取决于当前文档使用的 字符集。例如我们在Html头部加上

<meta http-equiv="Content-Type" content="text/html; charset=gb2312" />

这样浏览器就会使用gb2312去渲染此文档(注意,当HTML文档中没有设置此meta标签,则浏览器会根据当前用户喜好去自动选择字符集,用户也可以强制当前网站使用某个指定的字符集)。当提交表单时,Url编码使用的字符集就是gb2312。

文档字符集会影响encodeURI吗?

之前在使用Aptana(为什么专指aptana下面会提到)遇到一个很迷惑的问题,就是在使用encodeURI的时候,发现它编码得到的结果和我想的很不一样。下面是我的示例代码:

<!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "http://www.w3.org/TR/xhtml1/DTD/xhtml1-transitional.dtd"> <html xmlns="http://www.w3.org/1999/xhtml">     <head>         <meta http-equiv="Content-Type" content="text/html; charset=gb2312" />     </head>     <body>         <script type="text/javascript">             document.write(encodeURI("中文"));         </script>     </body> </html>    

运行结果输出%E6%B6%93%EE%85%9F%E6%9E%83。显然这并不是使用UTF-8字符集进行Url编码得到的结果(在Google上搜索“中文”,Url中显示的是%E4%B8%AD%E6%96%87)。

所以我当时就很质疑,难道encodeURI还跟页面编码有关,但是我发现,正常情况下,如果你使用gb2312进行Url编码也不会得到这个结果的才是。后来终于被我发现,原来是页面文件存储使用的字符集和Meta标签中指定的字符集不一致导致的问题。 Aptana的编辑器默认情况下使用UTF-8字符集。也就是说这个文件实际存储的时候使用的是UTF-8字符集。但是由于Meta标签中指定了 gb2312,这个时候,浏览器就会按照gb2312去解析这个文档,那么自然在“中文”这个字符串这里就会出错,因为“中文”字符串用UTF-8编码过 后得到的字节是0xE4 0xB8 0xAD 0xE6 0x96 0x87,这6个字节又被浏览器拿gb2312去解码,那么就会得到另外三个汉字“涓枃”(GBK中一个汉字占两个字节),这三个汉字在传入 encodeURI函数之后得到的结果就是%E6%B6%93%EE%85%9F%E6%9E%83。因此,encodeURI使用的还是UTF-8,并 不会受到页面字符集的影响。

其他和Url编码相关的问题

对于包含中文的Url的处理问题,不同浏览器有不同的表现。例如对于IE,如果你勾选了高级设置“总是以UTF-8发送Url”,那么Url中的路 径部分的中文会使用UTF-8进行Url编码之后发送给服务端,而查询参数中的中文部分使用系统默认字符集进行Url编码。为了保证最大互操作性,建议所 有放到Url中的组件全部显式指定某个字符集进行Url编码,而不依赖于浏览器的默认实现。

另外,很多HTTP监视工具或者浏览器地址栏等在显示Url的时候会自动将Url进行一次解码(使用UTF-8字符集),这就是为什么当你在 Firefox中访问Google搜索中文的时候,地址栏显示的Url包含中文的缘故。但实际上发送给服务端的原始Url还是经过编码的。你可以在地址栏 上使用Javascript访问location.href就可以看出来了。在研究Url编解码的时候千万别被这些假象给迷惑了。

网址URL中特殊字符转义编码相关推荐

  1. 浏览器URL中特殊字符转义编码

    网址URL中特殊字符转义编码 字符    -    URL编码值 空格    -    %20 "          -    %22 #         -    %23 %       ...

  2. url中传递url参数|url中特殊字符、?、=无法解析问题

    url中传递url参数|url中特殊字符&.?.=无法解析问题 1.微信小程序报错:SyntaxError: Unexpected end of JSON input 2.错误场景复现 3.错 ...

  3. nodejs处理url中的百分号编码

    nodejs处理url中的百分号编码 写网站的时候,前端表单发送数据到nodejs服务器,发送的数据会出现一些乱码,像下面这样: nickname=%E5%B0%8F%E5%88%98&gen ...

  4. 解决url中特殊字符截断参数的问题

    解决url中特殊字符截断参数的问题 参考文章: (1)解决url中特殊字符截断参数的问题 (2)https://www.cnblogs.com/yangxiong/p/6640282.html (3) ...

  5. 淘宝url中的spm编码是怎么生成的呢?

    淘宝url中的spm编码是怎么生成的?生成使用了什么技术?是怎么回事呢 越详细越好. 下面是SPM淘宝说明: SPM是淘宝社区电商业务(xTao)为外部合作伙伴(外站)提供的一套跟踪引导成交效果数据的 ...

  6. URL中特殊字符的转义

      在URL中,某些字符代表特殊的含义,所以当我们的URL中包含有这些字符时,需要对这些字符进行转义.下图是一些常用URL字符的转义规则. 特殊字符 代表含义 转义字符 ? 分隔实际URL和参数 %3 ...

  7. 033 Url中特殊字符的处理

    在url跳转页面的时候,参数值中的#不见了,一直没有处理,今天有空看了一下,后来发现后台的过滤器之类的都没有处理,就比较奇怪了,原来是特殊字符的问题. 一:Url中的特殊字符 1.说明 这里还是需要做 ...

  8. iOS字符串中特殊字符的编码与解码

    1.网络请求时url中携带@等特殊字符的解决方案 a.对url进行特殊字符编码 - ( nullable  NSString *)stringByAddingPercentEncodingWithAl ...

  9. 将网址url中的参数转化为JSON格式的两种方法

    在我们进入主题前,我先先看下获取网址URL的方法: window.location.href // 设置或获取整个URL为字符串 window.location.hash // 设置或获取href属性 ...

最新文章

  1. AI做不了“真”3D图像?试试Google的新生成模型
  2. FilteredTextBoxExtender
  3. ssm 框架配置详解
  4. 小米11和小米10至尊版纪念版哪个好
  5. 机器学习在客户管理场景中的应用
  6. bigint最大有多少位_一台 Java 服务器可以跑多少个线程?
  7. 二分查找 java代码实现
  8. flowable实战(十三):为了启动流程实例时给流程加一个标题
  9. 鸿蒙眼镜怎么样,Babiators儿童太阳镜怎么样 Babiators儿童太阳镜测评
  10. 操作系统中的用户空间和内核空间
  11. HTML怎么把文字分栏_html代码怎样优化更利于SEO排名
  12. 英特尔技术领导委员会(GTC) 专题系列之主席致辞
  13. Android自学视频百度网盘链接
  14. android expandablelistview横向,Android 的ExpandableListView使用总结--二级展开树结构
  15. 2022高频经典前端面试题(html+css+js上篇,含答案)
  16. 【PC工具】压缩包密码破解工具,暴力破解压缩包密码,解压密码获取
  17. matlab 画拉普拉斯变换的零极点
  18. leetcode-1786
  19. 100部好看的校园喜剧片(可练习英文)+美国校园青春励志电影+25部口语练习电影+20部最浪漫电影
  20. 串口TXD和RXD的线序导致不能通信的问题

热门文章

  1. 片状卷积的verilog实现
  2. 【玩转华为云】手把手教你利用ModelArts实现人脸年龄预测
  3. java阻塞队列的使用
  4. idea快捷打出一些语句
  5. 会员计费系统c语言_酒店管理与计费系统( c语言课程设计).doc
  6. 咖啡制作培训:黑芝麻生椰拿铁详细教程
  7. html .map遍历,Map遍历四种常用方法
  8. Windows 11 自动更新后无任务栏且卡顿问题解决
  9. TypeError:iteration over a 0-d tensor
  10. java优雅的非空判断