开始小编也是相当的纠结,因为这茫茫一片网络世界,百度,360,各大搜索搜了个昏天黑地,也没有找到教程!
后来只能自己摸索起来,
其实吧在关关10的里面是可以采集分页的因为有那两个选项
前面的规则写法就不多复述了
只讲这两项规则的写法
这两项有了,但网上一般的规则写法,都没有讲到这两项
经过电脑屋小编的不断尝试。终于明白如下
这一步很好理解,只要找出分页代码,用正则替换就好了!
其实真正把电脑屋小编难住很久的是下面一项
获取章节内容中的分页编码的正则
关键这里获取到的分页编码如何实用进去
当时源网址格式是假如是
www.dnwfb.com/小说编号-章节编号_分页号.html
开始我用正则
/d*-/d*_(/d*).html
替换后,测试采集出来内容很多了,但发现章节第二页内容和源站第二页内容不一致,
后来经研究,原来在这个分页编码的正则里获取到的数值是直接替换章节编号的,所以电脑屋小编直接把章节编号和分页号当成一个值去替换,
后来就变成了/d*-(/d*_/d*).html,经测试完美成功,采集到了小说内容页的第二页!
本文链接:https://www.dnwfb.com/1061.html,转载请注明出处。
评论0