python

导航

Python3编码如何实现相互转化?

来源 :中华考试网 2020-11-14

  可以通过 Unicode 编码来进行不同编码之间的相互转化

  了解 ASCII、Unicode、UTF-8、GBK 这四种编码的相关概念

  不同的编码之间不能互相识别,不能相互转化,会报错或出现乱码

  国际通用标准:文字通过网络传输、或硬盘存储等不能使用 Unicode 编码方式,因为 Unicode 使用的是升级版 32 位的,太费流量和空间

  在 Python3 版本中,唯独 string 在内存中的编码方式是 Unicode,所以字符串不能直接进行网络传输及进行文件的存储

  bytes:也是一种数据类型,不是字节,与 string 类型就像是孪生兄弟

  为啥要有 bytes ?—— bytes 内部编码不是 Unicode 方式,因此可以进行网络传输和文件的存储

  前面提到,string 类型却是 Unicode 方式,为啥平时我们用的是 string 而不是 bytes?——因为 bytes 的中文是 16 进制方式存在

  因此,一般当需要网络传输数据或者文件存储时要考虑用 bytes 类型。

  s1 = "abc"

  s2 = b"abc"

  print(type(s1)) #

  print(type(s2)) #

  string 转化成 bytes 的方法

  填写下面表单即可预约申请免费试听java课程!害怕学不会?助教全程陪读,随时解惑!担心就业?一地学习,可全国推荐就业!

  ######## 方法一 ########

  # Unicode编码方式的 string --> GBK编码方式的 string --> GBK编码方式的 bytes

  # encode 编码

  # decode 解码

  # Python3 版本中,字符串的编码方式就是 Unicode, 所以这里等同于 s = u"中国"

  s1 = "中国"

  b = s1.encode("gbk")

  s2 = b.decode("gbk")

  print(s1) # 中国

  print(b) # b'\xd6\xd0\xb9\xfa'

  print(s2) # 中国

  print(type(s1)) #

  print(type(b)) #

  print(type(s2)) #

  # 原因解析:首先 s1 是以 Unicode 编码方式的 string

  # 然后 b 是将 Unicode 编码方式的 string 转化成 GBK 编码方式的 bytes

  # 最后 s2 是将 GBK 编码方式的 bytes 转化成 Unicode 编码方式的 string

  ######## 方法二 ########

  # Unicode编码方式的 string --> UTF-8 编码方式的 string --> GBK编码方式的 bytes

  s1 = "中国"

  b = s1.encode("utf-8")

  s2 = b.decode("utf-8")

  print(s1) # 中国

  print(b) # b'\xe4\xb8\xad\xe5\x9b\xbd'

  print(s2) # 中国

  print(type(s1)) #

  print(type(b)) #

  print(type(s2)) #

  强调一点:不同编码之间只能通过 Unicode 编码方式来相互转化

分享到

相关资讯