xpath提取 html标签的文字内容

导读:本篇文章讲解 xpath提取 html标签的文字内容,希望对大家有帮助,欢迎收藏,转发!站点地址:www.bmabk.com

问题描述:

做爬虫的过程中经常需要对html标签的文字内容进行提取,有几种情况
1.提取属性的值,2.提取标签的值,3.提取段落的所有文字

本文用的是 scrapy 的框架,用 response 做响应

1.提取属性的值
<a title="这是一个标题">

response.xpath("//a/@title").get(),可以直接得到 title 的值为:这是一个标题

注:get 方法是等同于extract()[0],getall 方法等同于extract()
官方文档1.5以后推荐使用 get 系列方法代替原来的 extract 系列方法
两种方法可以同时使用,看个人喜好
2.提取标签的值
<a title="这是一个标题">这才是标题</a>

response.xpath("//a/text()").get(),可以得到 a 标签的值:这才是标题
3.提取段落所有文字
<div class="test">
	<a>左青龙</a>
	<a>右白虎</a>
	<a>
		<span>老牛在当中</span>
	</a>
	<ul>
		<ul>
			<span>龙头在胸口</span>
		</ul>
	</ul>
</div>

response.xpath("//div[@class='test']").get()
这种方式可以得到值为 test 的 div 标签下的所有标签组,即:
	<a>左青龙</a>
	<a>右白虎</a>
	<a>
		<span>老牛在当中</span>
	</a>
	<ul>
		<ul>
			<span>龙头在胸口</span>
		</ul>
	</ul>
浏览器展示是没问题的,但是我们需要纯文字用于匹配
为了去除标签,需要加一个 string 的方法,即:
response.xpath("string(//div[@class='test'])").get(),这样可以获取纯文字:
左青龙右白虎老牛在当中龙头在胸口
4.html 类型的字符串清除 html 标签

这是对3的补充,给个栗子
某次返回直接给一个html类型的字符串,记住是字符串,不是从response获取到的
返回json

{"title": 这是标题,
"content":"<div class='test'>
	<a>左青龙</a>
	<a>右白虎</a>
	<a>
		<span>老牛在当中</span>
	</a>
	<ul>
		<ul>
			<span>龙头在胸口</span>
		</ul>
	</ul>
</div>"}

这时候response.body是一个json结构体,直接用xpath不行的,所以需要做一个转换

import json
from scrapy import Selector


json_content = json.loads(response.body)["content"]
content = Selector(text=json_content)
content_text = content.xpath("string(.)").get()

因为只有 Selector 才有xpath方法,所以需要把 html 类型的字符串做一次转换才能用 string 方法

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。

文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/16597.html

(0)
小半的头像小半

相关推荐

极客之音——专业性很强的中文编程技术网站,欢迎收藏到浏览器,订阅我们!