Python 编码出现Error的问题

课课家iOS游客发布于 2017-08-24 09:42查看:1063回复:1

UnicodeEncodeError

UnicodeEncodeError 发生在 unicode 字符串转换成 str 字节序列的时候，来看一个例子，把一串 unicode 字符串保存到文件

错误日志

UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 6-7: ordinal not in range(128)

为什么会出现 UnicodeEncodeError？

因为调用 write 方法时，Python 会先判断字符串是什么类型，如果是 str，就直接写入文件，不需要编码，因为 str 类型的字符串本身就是一串二进制的字节序列了。

如果字符串是 unicode 类型，那么它会先调用 encode 方法把 unicode 字符串转换成二进制形式的 str 类型，才保存到文件，而 encode 方法会使用 python 默认的 ascii 码来编码。

相当于：

但是，我们知道 ASCII 字符集中只包含了128个拉丁字母，不包括中文字符，因此出现了 ‘ascii’ codec can’t encode characters 的错误。要正确地使用 encode ，就必须指定一个包含了中文字符的字符集，比如：UTF-8、GBK。

所以要把 unicode 字符串正确地写入文件，就应该预先把字符串进行 UTF-8 或 GBK 编码转换。

当然，把 unicode 字符串正确地写入文件不止一种方式，但原理是一样的，这里不再介绍，把字符串写入数据库，传输到网络都是同样的原理

UnicodeDecodeError

UnicodeDecodeError 发生在 str 类型的字节序列解码成 unicode 类型的字符串时

把一个经过 UTF-8 编码后生成的字节序列 ‘\\xe7\\xa6\\x85’ 再用 GBK 解码转换成 unicode 字符串时，出现 UnicodeDecodeError，因为（对于中文字符）GBK 编码只占用两个字节，而 UTF-8 占用3个字节，用 GBK 转换时，还多出一个字节，因此它没法解析。避免 UnicodeDecodeError 的关键是保持编码和解码时用的编码类型一致。

这也回答了文章开头说的字符 “禅”，保存到文件中有可能占3个字节，有可能占2个字节，具体处决于 encode 的时候指定的编码格式是什么。

查看评分情况

全部评分

此主贴暂时没有点赞评分

总计：赞0次

回复分享

版主推荐

上一篇：Python 编码为什么那么蛋疼？
下一篇：python 线程之 Condition

精品在线课程【一线专家讲授+24小时内答疑+永久免费观看+市场1/10价格】

[换一换]

共有1条评论

634348197137
谢谢楼主分享
2017-08-25 09:45赞 (0)回复沙发

本论坛发帖,请先登录

发布新贴

版主招版主啦

IT宅男
mr jack
Mr ken
Mright
cappuccino
YUI
课课家运营团队
课课家技术团队1
酸酸~甜甜

课程推荐

[换一换]

SpringData+JPA+Redis +Solr 项目实战个人博客视频教程: 23135人学习

SpringBoot2.x源码分析之自动加载器第6季视频教程: 6216人学习

自定义MVC框架（Java企业级应用开发）视频教程: 17122人学习

VB6.0与Access数据库增删改查功能/VB6.0与Excel数据导入导出视频教程

VB6.0与Access数据库增删改查功能/VB6.0与Excel数据导入导出视频教程: 17740人学习

楼主关注

发布新贴

选择版块:
标题:
内容
验证码:

编辑帖子

标题:
内容
<h1 style="border: 0px; margin: 0px 0px 20px; padding: 0px; font-size: 26px; font-stretch: normal; line-height: 40px; font-family: "Microsoft YaHei", "Myriad Pro", Lato, "Helvetica Neue", Helvetica, Arial, sans-serif; color: rgb(46, 46, 46); white-space: normal; background-color: rgb(255, 255, 255);">     UnicodeEncodeError</h1>        UnicodeEncodeError 发生在 unicode 字符串转换成 str 字节序列的时候，来看一个例子，把一串 unicode 字符串保存到文件<img src="/Public/forum/ueditor/image/20170824/1503538582879197.jpg" alt="1503538582879197.jpg"/><p style="border: 0px; margin-top: 0px; margin-bottom: 20px; padding: 0px; font-size: 15px; color: rgb(46, 46, 46); font-family: "Microsoft YaHei", 宋体, "Myriad Pro", Lato, "Helvetica Neue", Helvetica, Arial, sans-serif; white-space: normal; background-color: rgb(255, 255, 255);">        错误日志<blockquote style="border-width: 0px 0px 0px 5px; border-top-style: initial; border-right-style: initial; border-bottom-style: initial; border-left-style: solid; border-top-color: initial; border-right-color: initial; border-bottom-color: initial; border-left-color: rgb(238, 238, 238); border-image: initial; margin: 0px 0px 10px; padding: 10px 20px; font-size: 15px; color: rgb(94, 94, 94); font-family: "Microsoft YaHei", 宋体, "Myriad Pro", Lato, "Helvetica Neue", Helvetica, Arial, sans-serif; white-space: normal; background-color: rgb(255, 255, 255);">UnicodeEncodeError: ‘ascii’ codec can’t encode characters in position 6-7: ordinal not in range(128)</blockquote><p style="border: 0px; margin-top: 0px; margin-bottom: 20px; padding: 0px; font-size: 15px; color: rgb(46, 46, 46); font-family: "Microsoft YaHei", 宋体, "Myriad Pro", Lato, "Helvetica Neue", Helvetica, Arial, sans-serif; white-space: normal; background-color: rgb(255, 255, 255);">        为什么会出现 UnicodeEncodeError？<p style="border: 0px; margin-top: 0px; margin-bottom: 20px; padding: 0px; font-size: 15px; color: rgb(46, 46, 46); font-family: "Microsoft YaHei", 宋体, "Myriad Pro", Lato, "Helvetica Neue", Helvetica, Arial, sans-serif; white-space: normal; background-color: rgb(255, 255, 255);">        因为调用 write 方法时，Python 会先判断字符串是什么类型，如果是 str，就直接写入文件，不需要编码，因为 str 类型的字符串本身就是一串二进制的字节序列了。<p style="border: 0px; margin-top: 0px; margin-bottom: 20px; padding: 0px; font-size: 15px; color: rgb(46, 46, 46); font-family: "Microsoft YaHei", 宋体, "Myriad Pro", Lato, "Helvetica Neue", Helvetica, Arial, sans-serif; white-space: normal; background-color: rgb(255, 255, 255);">        如果字符串是 unicode 类型，那么它会先调用 encode 方法把 unicode 字符串转换成二进制形式的 str 类型，才保存到文件，而 encode 方法会使用 python 默认的 ascii 码来编码。<p style="border: 0px; margin-top: 0px; margin-bottom: 20px; padding: 0px; font-size: 15px; color: rgb(46, 46, 46); font-family: "Microsoft YaHei", 宋体, "Myriad Pro", Lato, "Helvetica Neue", Helvetica, Arial, sans-serif; white-space: normal; background-color: rgb(255, 255, 255);">        相当于：<img src="/Public/forum/ueditor/image/20170824/1503538611198126.jpg" alt="1503538611198126.jpg"/>        但是，我们知道 ASCII 字符集中只包含了128个拉丁字母，不包括中文字符，因此出现了 ‘ascii’ codec can’t encode characters 的错误。要正确地使用 encode ，就必须指定一个包含了中文字符的字符集，比如：UTF-8、GBK。<img src="/Public/forum/ueditor/image/20170824/1503538880517825.jpg" alt="1503538880517825.jpg"/>        所以要把 unicode 字符串正确地写入文件，就应该预先把字符串进行 UTF-8 或 GBK 编码转换。<img src="/Public/forum/ueditor/image/20170824/1503538901795931.jpg" alt="1503538901795931.jpg"/><p style="border: 0px; margin-top: 0px; margin-bottom: 20px; padding: 0px; font-size: 15px; color: rgb(46, 46, 46); font-family: "Microsoft YaHei", 宋体, "Myriad Pro", Lato, "Helvetica Neue", Helvetica, Arial, sans-serif; white-space: normal; background-color: rgb(255, 255, 255);">        当然，把 unicode 字符串正确地写入文件不止一种方式，但原理是一样的，这里不再介绍，把字符串写入数据库，传输到网络都是同样的原理<h1 style="border: 0px; margin: 0px 0px 20px; padding: 0px; font-size: 26px; font-stretch: normal; line-height: 40px; font-family: "Microsoft YaHei", "Myriad Pro", Lato, "Helvetica Neue", Helvetica, Arial, sans-serif; color: rgb(46, 46, 46); white-space: normal; background-color: rgb(255, 255, 255);">    UnicodeDecodeError</h1><p style="border: 0px; margin-top: 0px; margin-bottom: 20px; padding: 0px; font-size: 15px; color: rgb(46, 46, 46); font-family: "Microsoft YaHei", 宋体, "Myriad Pro", Lato, "Helvetica Neue", Helvetica, Arial, sans-serif; white-space: normal; background-color: rgb(255, 255, 255);">        UnicodeDecodeError 发生在 str 类型的字节序列解码成 unicode 类型的字符串时<img src="/Public/forum/ueditor/image/20170824/1503538937232151.jpg" alt="1503538937232151.jpg"/><p style="border: 0px; margin-top: 0px; margin-bottom: 20px; padding: 0px; font-size: 15px; color: rgb(46, 46, 46); font-family: "Microsoft YaHei", 宋体, "Myriad Pro", Lato, "Helvetica Neue", Helvetica, Arial, sans-serif; white-space: normal; background-color: rgb(255, 255, 255);">        把一个经过 UTF-8 编码后生成的字节序列 ‘\\xe7\\xa6\\x85’ 再用 GBK 解码转换成 unicode 字符串时，出现 UnicodeDecodeError，因为（对于中文字符）GBK 编码只占用两个字节，而 UTF-8 占用3个字节，用 GBK 转换时，还多出一个字节，因此它没法解析。避免 UnicodeDecodeError 的关键是保持编码和解码时用的编码类型一致。<p style="border: 0px; margin-top: 0px; margin-bottom: 20px; padding: 0px; font-size: 15px; color: rgb(46, 46, 46); font-family: "Microsoft YaHei", 宋体, "Myriad Pro", Lato, "Helvetica Neue", Helvetica, Arial, sans-serif; white-space: normal; background-color: rgb(255, 255, 255);">        这也回答了文章开头说的字符 “禅”，保存到文件中有可能占3个字节，有可能占2个字节，具体处决于 encode 的时候指定的编码格式是什么。
选择版块:

关注微信公众号，可下载APP应用。

Python 编码出现Error的问题

UnicodeEncodeError

UnicodeDecodeError

版主推荐

精品在线课程【一线专家讲授+24小时内答疑+永久免费观看+市场1/10价格】

共有1条评论

明星会员

课程推荐

楼主关注

版主推荐

热门贴子

发布新贴

编辑帖子

移动帖子x

粤ICP备13047178号粤公网安备44010602001432号

广州挪贤计算机科技有限公司版权所有

Copyright @ 2013-2023 KokoJia.com Inc. All Rights Reserved.

客服热线：9:00~19:00

关注微信公众号，可下载APP应用。

Python 编码出现Error的问题

UnicodeEncodeError

UnicodeDecodeError

版主推荐

精品在线课程【一线专家讲授+24小时内答疑+永久免费观看+市场1/10价格】

共有1条评论

明星会员

课程推荐

楼主关注

版主推荐

热门贴子

发布新贴

编辑帖子

移动帖子x

粤ICP备13047178号 粤公网安备44010602001432号

广州挪贤计算机科技有限公司 版权所有

Copyright @ 2013-2023 KokoJia.com Inc. All Rights Reserved.

客服热线：9:00~19:00

粤ICP备13047178号粤公网安备44010602001432号

广州挪贤计算机科技有限公司版权所有