使用python lxml库中的xpath、etree爬取网页超链接 您所在的位置:网站首页 怎么提取网页链接 使用python lxml库中的xpath、etree爬取网页超链接

使用python lxml库中的xpath、etree爬取网页超链接

2023-11-10 22:13| 来源: 网络整理| 查看: 265

python版本:3.7.3 lxml版本:4.3.3

(pip install lxml 的时候也出现了错误,最后是用 pip3 install lxml==4.3.3才下载完成的,但是感觉这俩也没有多大区别…)

因为版本原因,直接使用 from lxml import etree 导入是不可以的,所以我采用了如下:import lxml.html etree = lxml.html.etree

最后把爬取的超链接循环打印了出来

import requests import chardet import lxml.html etree = lxml.html.etree url = 'http://www.tipdm.com' #这是一个大数据企业的网站,不是打广告! res = requests.get(url) res.encoding = chardet.detect(res.content)['encoding'] #print(res.text) html = lxml.etree.HTML(res.text) h = html.xpath('//*[@id=\"menu\"]/li/a/@href') for i in h: print(i)

最后,本人还在学习与摸索当中,还请各位大神老师指点!



【本文地址】

公司简介

联系我们

今日新闻

    推荐新闻

    专题文章
      CopyRight 2018-2019 实验室设备网 版权所有