如果我们要采集二级页面,如内容页,或采集更深一级的页面,三级、四级等,在当前页字段列表中,必须包含有一个提取链接地址的字段,也就是提取属性为Href的字段,如图
在显示文章网址的那一列上随意选择一个网址,点击鼠标右键,选择“深入采集”,此后会自动创建一个配置选项卡,并自动打开之前选中的那个网址作为内容页测试网址。
而采集模式也自动显示为“单条模式”
列表模式:用于提取某个网页列表中的数据,预览中可看到多条数据
单条模式:适用于采集内容详情页里的各项信息,如文章标题、时间、正文等
因为我们深入采集的这个页面是内容页,所有使用默认的“单条模式”
然后,我们新建一个字段,提取网页中的文章发布时间,因为文章标题在第一层列表采集里已经提取了,这里就不需要重复了,采集运行时,多个页面的字段会自动合并为一个表格数据的。
继续新建字段提取正文
而为了保持原文的段落格式,这里的取值属性可以选择InnerHtml,即该字段提取的数据包含Html标签