xpath提取 html标签的文字内容

小半 • 2022年5月28日上午11:17 • 后端开发 • 阅读 144

问题描述：

做爬虫的过程中经常需要对html标签的文字内容进行提取，有几种情况
1.提取属性的值，2.提取标签的值，3.提取段落的所有文字

本文用的是 scrapy 的框架，用 response 做响应

1.提取属性的值

<a title="这是一个标题">

response.xpath("//a/@title").get()，可以直接得到 title 的值为：这是一个标题

注：get 方法是等同于extract()[0]，getall 方法等同于extract()
官方文档1.5以后推荐使用 get 系列方法代替原来的 extract 系列方法
两种方法可以同时使用，看个人喜好

2.提取标签的值

<a title="这是一个标题">这才是标题</a>

response.xpath("//a/text()").get()，可以得到 a 标签的值：这才是标题

3.提取段落所有文字

<div class="test">
	<a>左青龙</a>
	<a>右白虎</a>
	<a>
		<span>老牛在当中</span>
	</a>
	<ul>
		<ul>
			<span>龙头在胸口</span>
		</ul>
	</ul>
</div>

response.xpath("//div[@class='test']").get()
这种方式可以得到值为 test 的 div 标签下的所有标签组，即：
	<a>左青龙</a>
	<a>右白虎</a>
	<a>
		<span>老牛在当中</span>
	</a>
	<ul>
		<ul>
			<span>龙头在胸口</span>
		</ul>
	</ul>
浏览器展示是没问题的，但是我们需要纯文字用于匹配
为了去除标签，需要加一个 string 的方法，即：
response.xpath("string(//div[@class='test'])").get()，这样可以获取纯文字：
左青龙右白虎老牛在当中龙头在胸口

4.html 类型的字符串清除 html 标签

这是对3的补充，给个栗子
某次返回直接给一个html类型的字符串，记住是字符串，不是从response获取到的
返回json

{"title": 这是标题,
"content":"<div class='test'>
	<a>左青龙</a>
	<a>右白虎</a>
	<a>
		<span>老牛在当中</span>
	</a>
	<ul>
		<ul>
			<span>龙头在胸口</span>
		</ul>
	</ul>
</div>"}

这时候response.body是一个json结构体，直接用xpath不行的，所以需要做一个转换

import json
from scrapy import Selector


json_content = json.loads(response.body)["content"]
content = Selector(text=json_content)
content_text = content.xpath("string(.)").get()

因为只有 Selector 才有xpath方法，所以需要把 html 类型的字符串做一次转换才能用 string 方法

文章由极客之音整理，本文链接：https://www.bmabk.com/index.php/post/16597.html