下面是关于“python编码总结(编码类型、格式、转码)”的详细攻略。
编码类型
编码是指将字符转换成二进制形式的过程,常见编码类型有:
-
ASCII:是一种美国标准信息交换码,用于文本的编码,只允许用7比特位来表示一个字符,可以表示128个字符,包括数字、字母、标点符号等。
-
Unicode:是一个字符集,包括了全世界几乎所有的字符,可用于显示或传输文本。
-
UTF-8:是 Unicode 的一种可变长度的字符编码方式,可以使用1~4个字节表示一个字符,使用比 ASCII 更多的位数来表示更多字符,成为现在的标准编码方式。
编码格式
编码格式是指文本在计算机内部的存储方式,常见格式有:
-
ASCII:文件中只使用了 ASCII 字符。
-
Unicode:文件中使用了 Unicode 编码方式存储字符。
-
UTF-8:是 Unicode 以字节(byte)为单位的可变长度编码方式。在存储的时候,如果字符只需要一个字节就只存储一个字节。
编码转换
在 Python 中,可以使用 encode()
方法将字符串编码为指定格式,使用 decode()
方法将指定格式的字符串解码为 Unicode 格式。
示例一:将字符串编码为 UTF-8
s = "这是一段中文字符串"
utf8_str = s.encode("utf-8")
print(utf8_str)
输出结果:
b'\xe8\xbf\x99\xe6\x98\xaf\xe4\xb8\x80\xe6\xae\xb5\xe4\xb8\xad\xe6\x96\x87\xe5\xad\x97\xe7\xac\xa6\xe4\xb8\xb2'
示例二:将字符串从 GB2312 转换为 Unicode
gb2312_str = "这是一段 GB2312 格式的字符串"
unicode_str = gb2312_str.decode("gb2312")
print(unicode_str)
输出结果:
这是一段 GB2312 格式的字符串
以上就是关于“python编码总结(编码类型、格式、转码)”的完整攻略。
本站文章如无特殊说明,均为本站原创,如若转载,请注明出处:python编码总结(编码类型、格式、转码) - Python技术站