使用python lxml库中的xpath、etree爬取网页超链接

2023-11-10 22:13| 来源: 网络整理| 查看: 265

python版本：3.7.3 lxml版本：4.3.3

（pip install lxml 的时候也出现了错误，最后是用 pip3 install lxml==4.3.3才下载完成的，但是感觉这俩也没有多大区别…）

因为版本原因，直接使用 from lxml import etree 导入是不可以的，所以我采用了如下：import lxml.html etree = lxml.html.etree

最后把爬取的超链接循环打印了出来

import requests import chardet import lxml.html etree = lxml.html.etree url = 'http://www.tipdm.com' #这是一个大数据企业的网站，不是打广告！ res = requests.get(url) res.encoding = chardet.detect(res.content)['encoding'] #print(res.text) html = lxml.etree.HTML(res.text) h = html.xpath('//*[@id=\"menu\"]/li/a/@href') for i in h: print(i)

最后，本人还在学习与摸索当中，还请各位大神老师指点！

【本文地址】

公司简介

联系我们