帮助文档 > 采集制作 > 第二步:⑤采集内容页等多级网页

第二步:⑤ 采集内容页等多级网页

如果我们要采集二级页面,如内容页,或采集更深一级的页面,三级、四级等,在当前页字段列表中,必须包含有一个提取链接地址的字段,也就是提取属性为Href的字段,如图

QQ截图20180505025744.png

点击该字段标题栏,选中该列后会出现“深入链接页采集”按钮

QQ截图20180506104424.png

点击该按钮后会自动创建一个配置选项卡,并自动打开之前选中那个字段的一个网址。

QQ截图20180505031224.png

而采集模式也自动显示为“单条模式”

QQ截图20180505031259.png

列表模式:用于提取某个网页列表中的数据,预览中可看到多条数据

单条模式:适用于采集内容详情页里的各项信息,如文章标题、时间、正文等


因为我们深入采集的这个页面是内容页,所有使用默认的“单条模式”


然后,我们新建一个字段,提取网页中的文章发布时间,因为文章标题在第一层列表采集里已经提取了,这里就不需要重复了,采集运行时,多个页面的字段会自动合并为一个表格数据的。

QQ截图20180505032541.png


继续新建字段提取正文

QQ截图20180505032743.png


而为了保持原文的段落格式,这里的取值属性可以选择InnerHtml,即该字段提取的数据包含Html标签

QQ截图20180505033331.png