requests.get(url,headers = headers).text解码为中文 您所在的位置:网站首页 播放古诗江雪唐柳宗元 requests.get(url,headers = headers).text解码为中文

requests.get(url,headers = headers).text解码为中文

2023-09-28 07:53| 来源: 网络整理| 查看: 265

今天在使用python3爬虫时,遇到一个关于字符编码的问题,经过网上查找,终于解决了问题,下面记录下来。

1,用requests.get(url)爬取的到数据,中文显示则是乱码,如:提供的内容仅用于学习,测试和培训。实例可能为了更容易理解而简化。我们一直对教程,参考手册,在线实例保持修订,但是我们不能保证所有内容全部正确。通过使用本站进行学习随之而来的风险与本站无关。当使用本站时,代表您已接受了本站的使用条款和é,那么,使用content.encode(‘raw_unicode_escape’).decode()就可以用print查看汉字了。

import requests url = 'http://www.python-china.com/' headers = {         'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/74.0.3729.169 Safari/537.36'     } contents = requests.get(url,headers = headers).text cn_contents = contents.encode('raw_unicode_escape').decode() print(cn_contents) # 输出了正常的中文文字

2,爬到的数据通常是bytes类型,如requests.get的content属性。这时候,我们使用str(content, ‘utf8’)就可以把\xb7\xaf\xe5\xb8\xa6\xe9\xa3\x8e这样的内容转化成汉字了。



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有