使用python lxml库中的xpath、etree爬取网页超链接 | 您所在的位置:网站首页 › 怎么提取网页链接 › 使用python lxml库中的xpath、etree爬取网页超链接 |
python版本:3.7.3 lxml版本:4.3.3 (pip install lxml 的时候也出现了错误,最后是用 pip3 install lxml==4.3.3才下载完成的,但是感觉这俩也没有多大区别…) 因为版本原因,直接使用 from lxml import etree 导入是不可以的,所以我采用了如下:import lxml.html etree = lxml.html.etree 最后把爬取的超链接循环打印了出来 import requests import chardet import lxml.html etree = lxml.html.etree url = 'http://www.tipdm.com' #这是一个大数据企业的网站,不是打广告! res = requests.get(url) res.encoding = chardet.detect(res.content)['encoding'] #print(res.text) html = lxml.etree.HTML(res.text) h = html.xpath('//*[@id=\"menu\"]/li/a/@href') for i in h: print(i)最后,本人还在学习与摸索当中,还请各位大神老师指点! |
CopyRight 2018-2019 实验室设备网 版权所有 |