当前位置： > 网络营销 > 搜索营销 > 文章内容

python获取网页数据中文乱码(python获取网页数据中文乱码怎么办)

http://www.itjxue.com 2023-04-09 17:19 来源:未知 点击次数:

python中requests使用中中文乱码的解决方案

中文乱码显示正常了！！

有时候，我们还会遇到通过这个操作后无法解决的情况，比如新浪首页的表现：

出现这种情况，据说是使用gzip将网页压缩了，必须先对其解码，使用r.content会自动解码：

其实吧，处理的方式有很多，大家注意一点，那就是看请求的html数据中最前面对的charset设置的是啥！！

python获取网页数据中文乱码(python获取网页数据中文乱码怎么办)

python爬虫抓取到的数据用网页打开时是乱码，怎么解决

写爬虫是经常会遇到这样的问题，这种问题很显然是编码问题，解决的方法其实也不难。

你可以用下面的两个方法来解决你的编码问题：

第一种是，通过浏览器打开你写的html之后，找到浏览器中的文字编码修改，将编码改为Unicode编码，即可修复。

第二种方法是修改你的前端代码：在你的代码output_html方法中，规定网页的文字编码即可

python爬虫抓下来的网页，中间的中文乱码怎么解决

对于python的中文编码问题可以参考下面的帖子

同时，对于网页的中文乱码，建立使用requests模块代替urllib\urllib2

requests的content方法，对中文编码，支持比较好，基本不会出现乱码。

req=requests.get(url,cookies=mecookies)

print req.content

具体用法，参见下面两个帖子，较详细：

Python+requests 爬取网站遇到中文乱码怎么办

1. 遇到的中文乱码问题

1.1 简单的开始

使用requests来拔取网站内容十分方便，一个最简单的代码段只需要2-3行代码就行。

点击(此处)折叠或打开

url?=?'http//'

req?= requests.get(url)

print(req.text)

tree?= html.fromstring(req.text)

print(tree.xpath("//h1[@class='title']/text()"))

??? 上面的代码段起作用的也就3行（2,4,5）代码就获取到我们想要的内容。当然还要导入一系列的包，比如说requests、lxml、html等。当然由于http//是英文网站，不存在中文乱码问题。

1.2 麻烦的开始

??? 本来当时的想法是写一些基础模块，方便之后开发的时候调用，减少重复性工作。为了保证代码在任何情况下都不会出现bug，所以想着用同样的代码爬取中文网站获取里面的文字

??? 修改上面代码中的两行代码：

点击(此处)折叠或打开

url?=?''

print(tree.xpath("//span[@class='sec_blk_title']/text()"))

??? 运行程序可以发现，在语句print(req.text)输出的内容中，中文字体已经是乱码了。最后的结果输出是['??????è§\x86é?\x91', '??\x80?\x9c\x9f?\x9b\x9eé??']

2 乱码解决办法

2.1 试错

??? 由于之前爬取csdn上一个网页没有出现乱码问题，但是在sina体育网站上出现了乱码，所以当时以为不是编码问题，以为是文档压缩问题。因为csdn获取的页面header里没有“Content-Encodings”属性，但是sina体育获取的页面header有“Content-Encodings”属性--“Content-Encoding: gzip”。

总结：参考上述文献，结果还是没有解决问题，但是就考虑是不是方向错了。不过这部分工作也没有白做，很多网站返回数据都会有压缩问题，之后的工作中也能用上。

2.2 乱码终极解决办法

??? 后来查阅官方文档中response-content相关内容，说明了Requests会自动解码来自服务器的内容。Requests会基于HTTP头部对响应的编码作出有根据的推测，前提是响应文档的HTTP headers里面没有相关字符集说明。官方文档还说明了，如果你创建了自己的编码，并使用codecs?模块进行注册，你就可以轻松地使用这个解码器名称作为?r.encoding?的值，然后由Requests来为你处理编码。（自己没有使用codecs模块，所以这里不贴代码了，不过按官方的说法使用codecs模块是最简单的一种方式。）

??? 另一份官方文档片段明确说了reponse编码处理方式：

??? ????Requests遵循RFC标准，编码使用ISO-8859-1 。

????????只有当HTTP头部不存在明确指定的字符集，并且?Content-Type?头部字段包含?text?值之时， Requests才不去猜测编码方式。

??? 现在直接上实验结果，在原始代码中添加以下代码片段：

点击(此处)折叠或打开

print(req.headers['content-type'])

print(req.encoding)

print(req.apparent_encoding)

print(requests.utils.get_encodings_from_content(page_content.text))

输出结果分别是：

????text/html

????ISO-8859-1#response内容的编码

??? utf-8#response headers里设置的编码

????['utf-8']#response返回的html header标签里设置的编码

??? 返回的内容是采用‘ISO-8859-1’，所以出现了乱码，而实际上我们应该采用‘utf-8’编码

????????

??? 总结：当response编码是‘ISO-8859-1’，我们应该首先查找response header设置的编码；如果此编码不存在，查看返回的Html的header设置的编码，代码如下：

点击(此处)折叠或打开

if req.encoding?==?'ISO-8859-1':

encodings?= requests.utils.get_encodings_from_content(req.text)

if encodings:

encoding?= encodings[0]

else:

encoding?= req.apparent_encoding

encode_content?= req.content.decode(encoding,?'replace').encode('utf-8',?'replace')

(责任编辑：IT教学网)

复制链接发给好友收藏本文关闭此页

上一篇：十个评委打分编程简单C语言(十个评委打分编程简单while)

下一篇：python读写csv文件方法总结(python如何读入csv)

python获取网页数据中文乱码(python获取网页数据中文乱码怎么办)

python中requests使用中中文乱码的解决方案

python爬虫抓取到的数据用网页打开时是乱码，怎么解决

python爬虫抓下来的网页，中间的中文乱码怎么解决

Python+requests 爬取网站遇到中文乱码怎么办

(责任编辑：IT教学网)

相关搜索营销文章

阅读排行

专题教程

推荐搜索营销文章

最新更新搜索营销