2016-12-27

对字符编码时的规则

通常如果一样东西需要编码,说明这样东西并不适合传输。原因多种多样,如Size过大,包含隐私数据。
对于Url来说,之所以要进行编码,一个是因为Url中有些字符会引起歧义。 
例如Url参数字符串中使用key=value键值对这样的形式来传参,键值对之间以&符号分隔,如/s?q=abc&ie=utf-8。如果你的value字符串中包含了=或者&,那么势必会造成接收Url的服务器解析错误,因此必须将引起歧义的&和=符号进行转义,也就是对其进行编码。
另外,Url的编码格式采用的是ASCII码,而不是Unicode(包含中文),这也就是说你不能在Url中包含任何非ASCII字符,例如中文。否则如果客户端浏览器和服务端浏览器支持的字符集不同的情况下,中文可能会造成问题。

编码时的规则:
  • 【字母】字符 "a" 到 "z"、"A" 到 "Z" 和【数字】字符 "0" 到 "9" 保持不变
  • 特殊字符【.】【-】【*】【_】保持不变
  • 空格字符 【 】转换为一个加号【+】
  • 所有其他字符都是不安全的,因此首先使用一些编码机制将它们转换为【一个或多个】字节,然后每个字节用一个包含 3 个字符的字符串【%xy】表示,其中 xy 为该字节的两位十六进制表示形式。
  • 可以指定对这些字符进行解码的编码机制,或者如果未指定的话,则使用平台的默认编码机制。
例如,使用 UTF-8 编码机制,字符串【ü@】将转换为【%C3%BC%40】,因为在 UTF-8 中,字符【ü】编码为两个字节【0xC3和0xBC】,字符【@】编码为一个字节【0x40】。

解码时的规则:
  • 将把【%xy】格式的子序列视为【一个字节】,其中 xy 为 8 位的两位十六进制表示形式。
  • 然后,所有连续包含一个或多个这些字节序列的子字符串,将被其编码可生成这些连续字节的字符所代替。

     

测试代码

public class Test {
    public static void main(String[] args) throws Exception {
        String enc = "UTF-8";
        test("aA0 .-*_", enc);//编码【aA0+.-*_】解码【aA0 .-*_】
        test("@", enc);//编码【%40】解码【@】
        test("ü", enc);//编码【%C3%BC】解码【ü】
        test("白", enc);//编码【%E7%99%BD】解码【白】
        test("白", "GBK");//编码【%B0%D7】解码【白】
    }
    /**
     * 测试编解码
     * @param str    原始字符串
     * @param enc    对字符串进行URLEncoder和URLDecoder时使用的编码规则
     * @throws UnsupportedEncodingException
     */
    public static void test(String str, String enc) throws UnsupportedEncodingException {
        String encode = URLEncoder.encode(str, enc);//推荐 UTF-8。如果未指定,则使用平台的默认编码
        String decode = URLDecoder.decode(encode, enc);//编码和解码必须使用同一套码表,否则解码时可能乱码
        System.out.println("原始字符串【" + str + "】编码后【" + encode + "】解码后【" + decode + "】");
        //获取通过UTF8码表编码的字符串的字节数组
        byte[] bytes = str.getBytes(enc);
        System.out.println("        原始字符串对应的字节数组" + Arrays.toString(bytes));
        StringBuilder sb = new StringBuilder();
        for (byte b : bytes) {
            //手动对【每个字节】都进行上面【类似URLEncoder】编码规则的算法进行编码(即使字母和数字也进行了编码)
            sb.append(Integer.toHexString(b & 0xFF).toUpperCase() + " ");
        }
        System.out.println("        对每个字节都进行编码【" + sb.toString().trim() + "】");

}


    //源码
    public static String decode(String s, String enc) throws UnsupportedEncodingException {
        boolean needToChange = false;
        int numChars = s.length();//字符数
        StringBuffer sb = new StringBuffer(numChars > 500 ? numChars / 2 : numChars);
        int i = 0;
        if (enc.length() == 0) throw new UnsupportedEncodingException("URLDecoder: empty string enc parameter");
        char c;
        byte[] bytes = null;
        while (i < numChars) {
            c = s.charAt(i);//逐个遍历所有字符
            switch (c) {
            case '+':
                sb.append(' ');
                i++;
                needToChange = true;
                break;
            case '%':
                try {
                    if (bytes == null) bytes = new byte[(numChars - i) / 3];// (numChars-i)/3 is an upper bound上线 for the number of remaining剩下的 bytes
                    int pos = 0;
                    while (((i + 2) < numChars) && (c == '%')) {
                        int v = Integer.parseInt(s.substring(i + 1, i + 3), 16);//16进制
                        if (v < 0) throw new IllegalArgumentException("URLDecoder: Illegal hex characters in escape (%) pattern - negative value");
                        bytes[pos++] = (byte) v;
                        i += 3;
                        if (i < numChars) c = s.charAt(i);
                    }
                    // A trailing, incomplete不完全的 byte encoding such as "%x" will cause an exception to be thrown
                    if ((i < numChars) && (c == '%')) throw new IllegalArgumentException("URLDecoder: Incomplete trailing escape (%) pattern");
                    sb.append(new String(bytes, 0, pos, enc));
                } catch (NumberFormatException e) {
                    throw new IllegalArgumentException("URLDecoder: Illegal hex characters in escape (%) pattern - " + e.getMessage());
                }
                needToChange = true;
                break;
            default:
                sb.append(c);
                i++;
                break;
            }
        }
        return (needToChange ? sb.toString() : s);
    }

}

null

URL编码 URLEncoder 示例相关推荐

  1. php url gb2312 utf8,php实现utf-8与gb2312的url编码转换

    在现在的网页应用中,utf-8编码和gb2312编码是并存在的,例如百度(baidu.com)和谷歌(google.com)的url编码分别是gb2312编码和utf-8编码. 由于编码并存引起的乱码 ...

  2. Google App Engine for Java下的URL编码转换问题

    URL编码问题 此部分参考英文资料: http://www.blooberry.com/indexdot/html/topics/urlencoding.htm http://www.w3school ...

  3. URL原理、URL编码、URL特殊字符

    From: http://blog.csdn.net/chenlycly/article/details/51820727 From: http://blog.csdn.net/zmx729618/a ...

  4. java url加密解密,java URL 编码解码,该如何解决

    java URL 编码解码 我写了两个接口 一个是对字符串加密 的,一个是解密的  .加密的可以通过调用接口生成加密字符串如下: Oc0PEwKrLzHqT25hYLhWP5wlk5HROPJoWC3 ...

  5. python3 url编码 空格 + 简介

    + URL 中+号表示空格 %2B 空格 URL中的空格可以用+号或者编码 %20 / 分隔目录和子目录 %2F ? 分隔实际的URL和参数 %3F % 指定特殊字符 %25 # 表示书签 %23 & ...

  6. php %3cphp用大括号表示,整理HTML5中支持的URL编码与字符编码_html5教程技巧

    URL 编码URL 编码就是将 URLs 中不宜打印的字符或者具有特殊意义的字符转换为 Web 浏览器和服务器明白且普遍接受的表示法. 这些字符包括: ASCII 控制字符 - 不宜打印的字符通常用于 ...

  7. java中http解析url,java url 编码(解析http请求汉语言地址 )

    java url 编码(解析http请求中文地址 ) 在近在做项目的过程中,由于客户那边服务器上提供的有很多中文结构目录.请求要的地址不能正常运行显示出来.下面来分享一下我对http协议处理请求中文的 ...

  8. 大数据WEB阶段(十一)Ajax、URL编码

    Ajax与使用Ajax时产生的乱码问题-URL编码 (一)Ajax 一.Ajax详解 在学习HTTP协议的时候,我们知道,HTTP协议基于请求响应模型,一次请求对应一次响应,请求只能由客户端发出,服务 ...

  9. URL编码 - Java加密与安全

    JAVA的URL编码我们先看看什么是编码?ASCII码就是一种编码,A的编码是16进制的0x41,字母B的编码是0x42,而中文的中是用Unicode编码,中就是0x4e2d,用UTF-8编码,需要3 ...

最新文章

  1. php 二维数组排序函数,php自定义二维数组排序函数array
  2. java中的类修饰符、成员变量修饰符、方法修饰符。
  3. c# oldb连接_C#使用 OleDbConnection 连接读取Excel
  4. 从指南针到北斗:中国导航系统促进世界互联互通
  5. HDFS的Secondarynamenode工作机制
  6. React state和props使用场景
  7. 从零基础入门Tensorflow2.0 ----九、44.4 签名函数转换成savedmodel
  8. android 广播 源码,广播电台APP源代码 电台APP源代码 播客APP源代码 Android源代码...
  9. 学报格式和论文格式一样吗_工大学报论文格式要求
  10. kaggle phone verify 收不到手机验证码(2021.06亲测可行)
  11. 超全 | 基于纯视觉Multi-Camera的3D感知方法汇总!
  12. CSS filter 有哪些神奇用途
  13. 设计师:设计师知识储备(设计分类、设计十种形式、设计要素、设计原则、室内设计风格流行趋势)之详细攻略
  14. MTK modem log中判断SIM卡类型__2020.07.16
  15. 数百亿次暴力破解和网络钓鱼攻击被微软去年拦截了
  16. 查询练习:YEAR 与 NOW 函数
  17. 好用软件分享,功能丰富值得了解
  18. 8.Spring security中的HttpFirewall
  19. 笔记 -- 逆变电感设计4
  20. MySQL查询sql的关键字_sql中查询命令的关键字是什么

热门文章

  1. linux 权限分割,sudo使用之实现权限分配
  2. jQuery的创建对象,动态添加、修改、删除属性和方法
  3. 20210801:AXI-Lite总线逻辑与关键源码分析
  4. 7nfs客户端没权限_cephfs: 用户态客户端lookup
  5. ug一键安装工具_UG安装出现谜之三联错误?别慌,来看看这个
  6. 加密芯片在汽车无钥匙启动行业的应用
  7. VB 设置控件边框颜色(如:List、Text、Picture)
  8. VB 将文件夹复制到指定目录
  9. xinit启动X Window System过程初探(转)
  10. CentOS 7 - 创建新用户