Python爬虫

您所在的位置:网站首页 青龙之命是什么命格 Python爬虫

Python爬虫

2024-07-16 01:55:28| 来源: 网络整理| 查看: 265

网页字符乱码处理 一、查看原网页编码的方式

      1.首先呢,咱来说说如何在网页中查看编码方式,以爱奇艺为例,爱奇艺进入爱奇艺网页页面,鼠标    “右击–>检查–>点击Console–>输入document.charse   即可显示出网页的编码格式,如图: 在这里插入图片描述

二、网页编码方式为“utf-8”照样可以乱码

      由上可知爱奇艺的网页编码方式时“utf-8”,接下来,我们来爬取一下它的网页代码:

import requests url="https://www.iqiyi.com/" header = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"} html=requests.get(url,headers=header).text print(html)

显示出的结果为: 在这里插入图片描述 好吧,很明显,乱码了,那咱来转换:

import requests url = "https://www.iqiyi.com/" header = {"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.130 Safari/537.36"} html = requests.get(url,headers=header) html.encoding = "utf-8" MyHtml = html.text print(MyHtml)

运行后结果为: 在这里插入图片描述 OK,搞定 !!!那咱再来看看编码方式为“utf-8”的网易云

import requests url = "https://music.163.com/" header={"user-agent":"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"} html = requests.get(url,headers=header).text print(html)

在这里插入图片描述 啊哈,我们再来看看另一个网页——前程无忧 在这里插入图片描述 网页编码方式为"GBK" 我们来获取一下源代码

import requests url="https://search.51job.com/list/150300,000000,0000,32,9,99,%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%BC%80%E5%8F%91%E5%B7%A5%E7%A8%8B%E5%B8%88,2,1.html" header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"} html=requests.get(url,headers=header).text print(html)

结果为: 在这里插入图片描述       Ok,遇到问题我们不怕,我们继续来解决,办法总是有的,看看这种情况下我们该如何解决

import requests url="https://search.51job.com/list/150300,000000,0000,32,9,99,%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%BC%80%E5%8F%91%E5%B7%A5%E7%A8%8B%E5%B8%88,2,1.html" header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"} html=requests.get(url,headers=header) html.encoding="utf-8" MyHtml=html.text print(MyHtml)

结果为: 在这里插入图片描述 这又出现的是什么玩意,咱继续——

import requests url="https://search.51job.com/list/150300,000000,0000,32,9,99,%E5%A4%A7%E6%95%B0%E6%8D%AE%E5%BC%80%E5%8F%91%E5%B7%A5%E7%A8%8B%E5%B8%88,2,1.html" header = {"User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.122 Safari/537.36"} html=requests.get(url,headers=header) MyHtml=html.text.encode('iso-8859-1').decode('gbk') print(MyHtml)

结果为: 在这里插入图片描述

三、总结

      这篇文章主要解决的是网络爬虫的时候出现编码中文乱码问题,如果再遇到其他的编码的问题,我会继续拿小本本记下来,这都是自己学习的过程呀!!!😊



【本文地址】

公司简介

联系我们

今日新闻


点击排行

实验室常用的仪器、试剂和
说到实验室常用到的东西,主要就分为仪器、试剂和耗
不用再找了,全球10大实验
01、赛默飞世尔科技(热电)Thermo Fisher Scientif
三代水柜的量产巅峰T-72坦
作者:寞寒最近,西边闹腾挺大,本来小寞以为忙完这
通风柜跟实验室通风系统有
说到通风柜跟实验室通风,不少人都纠结二者到底是不
集消毒杀菌、烘干收纳为一
厨房是家里细菌较多的地方,潮湿的环境、没有完全密
实验室设备之全钢实验台如
全钢实验台是实验室家具中较为重要的家具之一,很多

推荐新闻


图片新闻

实验室药品柜的特性有哪些
实验室药品柜是实验室家具的重要组成部分之一,主要
小学科学实验中有哪些教学
计算机 计算器 一般 打孔器 打气筒 仪器车 显微镜
实验室各种仪器原理动图讲
1.紫外分光光谱UV分析原理:吸收紫外光能量,引起分
高中化学常见仪器及实验装
1、可加热仪器:2、计量仪器:(1)仪器A的名称:量
微生物操作主要设备和器具
今天盘点一下微生物操作主要设备和器具,别嫌我啰嗦
浅谈通风柜使用基本常识
 众所周知,通风柜功能中最主要的就是排气功能。在

专题文章

    CopyRight 2018-2019 实验室设备网 版权所有 win10的实时保护怎么永久关闭