【python】爬虫笔记

#【python】爬虫笔记| 来源: 网络整理| 查看: 265

提取网页中的每个标题，成功执行，但所有内容都是一样的

tree = etree.HTML(page_text) fp = open('58.txt','w',encoding='utf-8') li_list = tree.xpath('//section[@data-bottom="250"]/ul/li[@class="item-wrap"]') for li in li_list： title = li.xpath('//div[@class="title-wrap lines2"]/span/text()')[0] fp.write(title+'\n')

回去网页查了半天，应该是xpath的定位出了问题：为了省事直接用了// 问题原因：自定义的xpath不能以//或/开头，因为这个表示了绝对定位。应该以./开头

于是第一次修改了代码：

title = li.xpath('./div[@class="content-wrap"]//span/text()')[0]

报错：

IndexError: list index out of range

回去查发现漏了一个标签a

itle = li.xpath('./a/div[@class="content-wrap"]//span/text()')[0]

不够简洁，再修改了一下：

title = li.xpath('./a//span/text()')[0]

【本文地址】

公司简介

联系我们