对元素的取值方式,可以选择默认的六种取值属性来提取不同的内容,但可能有些元素的属性名称不在以上六种之中,也可以手动输入相应的属性名来提取,比如有元素<a href="" data="xxx">测试</a>,要提取该元素自定义的data属性值,在提取属性文本框里输入data就可以提取data的属性值了。
需要注意的是,上面取值属性下拉列表里的六个选项并非全是元素html里的原始属性名,下面说一下它们的区别:
这里我们假设要提取的原始HTML如下
<div>
<p>p标签内的文本</p>
<a href="">链接a</a>
这里是Text文本
</div>
OuterHTML:提取整个元素的HTML代码,上面示例提取结果为
<div>
<p>p标签内的文本</p>
<a href="">链接a</a>
这里是Text文本
</div>
InnerHTML:提取该元素内部HTML代码,提取结果:
<p>p标签内的文本</p>
<a href="">链接a</a>
这里是Text文本
InnerText:将InnerHTML中的HTML标签去掉,即去掉html中开始和结束标签,标签内的文本保留,提取结果:
p标签内的文本
链接a
这里是Text文本
Text:将InnerHTML中的HTML标签及标签内的文本去掉,提取结果:
这里是Text文本
Href:是链接元素的原始属性href,如<a href="xxx">链接</a>中href属性值,目标元素没有改属性时提取到的值为空
Src:是图片元素的元素属性src,如<img src="xxx" />的src属性值,目标元素没有改属性时提取到的值为空