python内使用parsel之css选择器

2023-03-14 05:29| 来源: 网络整理| 查看: 265

parsel

parsel 比 lxml 功能强大，它内部不光集成有xpath语法，也集成了css和re语法，相比而言，css与re通用性更强，它俩的性能完全不输xpath，特别是re，速度更快，难度也高！

css与xpath专门处理标记语言格式内容，如：XML或HTML等，但不能直接处理response，必须通过parsel 或 lxml 内的特别方法把字符形式的response转换成html 形式的编码。

css语法

#发送清求，获得响应 response = httpx.get(url,headers).text #把响应体转成html 格式. html = parsel.Selector(response) #定位内容，获取所有div标鉴内容 contend = html.css(‘div’).getall()

当定位到内容时，获取内容有两个方法。 a，get(） get()方法获取第一个符合的内容，当符合内容有多个时，只返回第一个，并且以字符串形式返回标签内容。比如，要获取第一个标签 p = html.css(‘p’).get() 返回第一个标签包含所有内容，包括 和它俩之间所有内容。

b，getall()getall()方法返回所有的符合内容，以列表形式返回所有标签内容。例如，要获取所有< a >标签 a = html.css(‘a’).getall() 返回列表，包含所有< a >标签以及< /a >标签内所有内容。

解析标签内容

a，::text ::text 获取标签内容的文本。比如，获取第一个

标签的文本内容。 p = html.css(‘p::text’).get() 只返回标签的文本内容。

b，::attr() ::attr()获取标签属性内容。比如，获取第一个< a >标签的’href’内容. href = html.css('a::attr(‘href’)).get() 只返回< a >标签内’href’连接内容。

css选择器 parsel的出现，实现了在python中使用css选择器的可能，这包括标签选择器，类选择器，id选择器，复合选择器，伪选择器等等，具体css选择器用法，请参考其他的相关内容，我们下面只简聊在python中的用法。

a，标签选择器 div = html.css(‘div’).getall() 返回所有< div >标签。

b，类选择器(用 . 表示) div = html.css(‘div.contend’).get() 返回class类属性为contend的div标签。

c，id选择器(用#表示) p = html.css(‘p#contend::text’).get() 返回id为contend的的文本内容。

#其它选择器用法请参考css的具体用法

【本文地址】

公司简介

联系我们