爬取网页数据出现中文乱码 UTF-8中文乱码

转载

在用python爬取网页数据时，获取的中文数据出现乱码情况

第一种情况：

没有声明编码格式，即没有进行 encoding = 'utf-8' 编码声明

例如下图，在获取数据中<span> 里中文出现乱码：

<li><em>00:00</em><span>±±Æ½Õ½ÓëºÍ(20)</span></li>
<li><em>00:10</em><span>±±Æ½Õ½ÓëºÍ(21)</span></li>
<li><em>00:57</em><span>±±Æ½Õ½ÓëºÍ(22)</span></li>

这类解决办法是：加上 encoding = 'utf-8' 即可

s = requests.get(url)
s.encoding = 'utf-8'

第二种情况：

已经进行编码声明 encoding = 'utf-8' 但还是出现中文乱码

解决办法：检查网页编码，更正编码声明，如：encoding = 'GBK'

出现这样的情况时，就要检查一下抓取网页页面的编码格式，网页的编码不一定是 UTF-8 格式的，也有可能是 GBK、GB2312、GB18030等格式

例如下图：

s = requests.get(url)
s.encoding = 'GBK'

声明编码为GBK格式后，数据中的中文数据恢复正常

<li><em>06:00</em><span>英雄出少年</span></li>
<li><em>07:00</em><span>大仓库</span></li>

如何查看网页编码格式

一般在网页空白处右键查看编码即可

有的浏览器不支持的可以用IE打开查看。

如果觉得文章对你有用，请随意赞赏

爬取网页数据出现中文乱码 UTF-8中文乱码

https://www.fengyege.top/archives/pa-qu-wang-ye-shu-ju-chu-xian-zhong-wen-luan-ma-2020205554462d38-zhong-wen-luan-ma

作者

枫夜求索阁

发布于

2023-12-09

更新于

2023-12-09

许可协议

CC BY 4.0

爬取网页数据出现中文乱码 UTF-8中文乱码

作者

发布于

更新于

许可协议

评论