在Python中,如果你需要将编码为UTF-8的字节串解码为Unicode字符串,你可以使用内置的str类型的decode方法,或者使用bytes.decode()方法。但通常情况下,如果你已经在Python 3中处理字符串,你可以直接将字节串(类型bytes)转换为字符串(类型str)。
例如:
python
# 假设我们有以下UTF-8编码的字节串
utf8_bytes = b'\xe4\xbd\xa0\xe5\xa5\xbd' # 这是“你好”的UTF-8编码
# 方法1: 使用内置的decode方法
unicode_str = utf8_bytes.decode('utf-8')
# 方法2: 使用bytes.decode()方法
unicode_str = bytes.decode(utf8_bytes, 'utf-8')
# 直接转换
unicode_str = str(utf8_bytes, 'utf-8')
print(unicode_str) # 输出: 你好
请注意,如果字节串不是有效的UTF-8编码,上述解码方法将抛出UnicodeDecodeError异常。
在Python脚本的开头添加UTF-8编码的标注是一种常见的做法,特别是当脚本中包含非ASCII字符(如中文、法文、日文等)时。这个标注告诉Python解释器该文件应该使用UTF-8编码来读取源代码中的字符。
在Python 2中,你需要在脚本的开头添加以下特殊注释:
python
# -*- coding: utf-8 -*-
在Python 3中,UTF-8是默认源代码编
标签:编码,UTF,python,解码,bytes,decode,Python,str From: https://blog.csdn.net/SPESEG/article/details/137465365