python爬虫用bs4获取标签中间的文本内容以及标签里的属性 | 您所在的位置:网站首页 › 修女牧师找到那本书里面的内容 › python爬虫用bs4获取标签中间的文本内容以及标签里的属性 |
在爬取网页的时候,用bs4库爬取网页上想要的一块标签,但是却不知道怎么提取里面的内容,或者不知道怎么得到标签里面的各种属性值,比如a标签的href属性的值,这里有几种方法: 使用get_text()或者是.text同时取出了div标签下的文本及子标签文本。 实例如图:![]() 运行结果如图: 可以看到后面的【详细】是在p标签下的子标签里面的内容 如果已经拿到了最里层的标签的话,可以直接用.string的方法获取标签内的文字 details = dl.select('p a')[0].string运行结果: 运行结果: 运行结果: 书上用的是split方法,一个标签内的文字和他的子标签内的文字会有\n,所以可以利用这一点,将其划分为列表类型,然后再取特定的下表就行了 网页代码: 提取代码如下: musicName = tds[1].div.a.text.strip().split('\n')[0]运行结果: |
CopyRight 2018-2019 实验室设备网 版权所有 |