Requests使用时踩过的坑(一):当使用Text获取网页源代码时乱码了怎么办(requests常见的几种解码方式和常见的编码方式) | 您所在的位置:网站首页 › 网页源代码能看出什么内容呢 › Requests使用时踩过的坑(一):当使用Text获取网页源代码时乱码了怎么办(requests常见的几种解码方式和常见的编码方式) |
在很多的时候,一些朋友们都会遇到这样的情况,我们可以访问一个网页,但是却无法获取网站上面的一些内容,而且那些内容还是一些重要的信息,必须要获取,那么这种情况我们该怎么办呢? 百度实例 编写代码在我们的编辑器中输入以下的代码 Sublime显示界面
我们可以看到,我们访问不出来的内容全部都是我们的中文内容,而不是我们的英文,同时我们也可以看到我们的英文是可以正常访问的。我们通过阅读Requests的官方文档可以得知,我们的requests的编码方式默认并不是UTF-8,所以有的时候并不能很好的解码。我们可以访问之后重新编码,设置为UTF-8,然后获取我们所需要的信息 方法 更改返回值编码这就是我们上文所描述的那种方法,我们的程序会根据网站的情况自动为你解码,这也比较适合多种语言和多种方式并存然后比较想要代码简洁的程序员。如果网站不符合的话,你可以在代码前面加上这一行代码,这一行代码的意思是,将我们获取到的文件编码成为UTF-8 res.encoding="utf-8"这样子的话,我们的程序就可以正常的运行了 这一行代码就是直接更改我们的编码方式,使得文件可以解析我们的代码,那么在这里我们将我们的编码方式设置成为apparent_encoding import requests # 我们现在使用测试代码对百度进行模拟访问 res = requests.get('https://www.baidu.com') # 重新更改我们的解码方式 res.encoding = res.apparent_encoding # 输出状态码 print(res) # 输出网页源代码 print(res.text)我们同样可以看到,我们的程序成功运行了 其他编码方式我们在Python中除了经常使用UTF-8,我们还可能会使用以下的编码方式 UTF-16 GBK GBK2 ASCLL 这是一种编码方式,这一般用于小型机的信息传输 Unicode![]() 如需转载,请附上原文链接:Requests使用时踩过的坑(一):当使用Text获取网页源代码时乱码了怎么办(requests常见的几种解码方式和常见的编码方式) |
CopyRight 2018-2019 实验室设备网 版权所有 |