背景

一般涉及到数据传输, 考虑到业务方直接通过字符串传过来时会被过滤特殊字符等情况,对数据的编码必不可少。数据编码方式最常用的应该是 Base64。 Base64 编码本质上是一种将二进制数据转换成文本数据的方案。 下面会详细介绍它的原理,实现以及一些应用场景。

编码原理

Base64 编码是基于64个字符 A-Z,a-z,0-9,+,/ 的编码方式,因为2的6次方正好为64,所以就用6bit就可以表示出64个字符,比如 000000对应A,000001对应B。

流程

  1. 按字符串长度, 以每3个字符 (1Byte= 8Bit)为一组
  2. 针对每一组,对每个字符的 ASCII 编码转换为 8Bit 的二进制, 得到一组 3*8 = 24Bit 的字节
  3. 对 24Bit 划分成4个 6Bit 的字节, 在每个 6Bit 的字节前面都填两个高位0, 得到4个 8Bit 的字节
  4. 把 4 个 8Bit 字节转换成十进制, 对照 BASE64 编码表, 得到对应编码后的字符。

Base64 编码

注意

  1. 要求被编码字符是 8bit 的,所以须在 ASCII 编码范围内,\u0000-\u00ff,不允许中文。
  2. 如果被编码字符长度不是3的倍数,则用0代替,对应的输出字符为 “=”

Base64 编码本质上是将二进制数据 转成 文本数据。对于非二进制数据,是转换成二进制形式,然后每连续6比特(2^6 =64)计算其十进制值,根据该值在 A--Z,a--z,0--9,+,/ 这64个字符集中找对应的字符,串起来得到一个文本字符串

基本规则

  1. 标准Base64只有64个字符:A--Z,a--z,0--9,+,/,=
  2. Base64 把3个字节变成4个可打印字符,所以 Base64 编码后的字符串一定能被4整除 (排查用作后缀的等号)
  3. 等号一定用作后缀,且数目一定是0个、1个或2个。这是因为如果原文长度不能被3整除。Base64要在后面添加 \0 凑齐 3n 位。为了正确还原,添加了几个 \0 就加上几个等号。显然添加等号的数目只能是0、1或2
  4. Base64 只是一种编码,不是加密方案

实现

  1. 对字符串进行 Base64 编码:

     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    12
    13
    14
    15
    
    func Base64Encoding() {
    	input := []byte("Herbert Lu")
    
    	// Encoding using Base64
    	encodeString := base64.StdEncoding.EncodeToString(input)
    	fmt.Println(encodeString)
    
    	// Base64 decoding of encoding results
    	decodeBytes, err := base64.StdEncoding.DecodeString(encodeString)
    	if err != nil {
         fmt.Println("decode input string fail: ", err)
         return
    	}
    	fmt.Println(string(decodeBytes))
    }
    
  2. 在 URL 中对字符串进行 Base64 编码:

     1
     2
     3
     4
     5
     6
     7
     8
     9
    10
    11
    
    func Base64URLEncoding() {
    	// Using Base64 in URL Encoding
    	uEnc := base64.URLEncoding.EncodeToString([]byte(input))
    	fmt.Println(uEnc)
    
    	uDec, err := base64.URLEncoding.DecodeString(uEnc)
    	if err != nil {
         log.Fatalln(err)
    	}
    	fmt.Println(string(uDec))
    }
    

应用

  1. 简单的加密。 比如把一些信息简单地用 Base64 处理,防止被明文查看。
  2. 数据传输, 用于内容在各个网络节点间传输,且不丢数据。计算机中任何数据都是按 ASCII 码存储,而 ASCII 码的128~255之间值是不可见字符。而在网络上交换数据时,比如说从A地传到B地,往往要经过多个路由设备,由于不同的设备对字符的处理方式有一些不同,这样那些不可见字符就有可能被处理错误,造成数据丢失或传输失败。先把数据进行 Base64 编码,转换成可见字符后出错的可能性就大大降低

小结

Base64 作为常见的编码手段, 对软件工程师来说也是一项必知必会的技能,所以掌握它的实现原理和知道它的应用场景, 对工作是非常有帮助的。

参考