小说内容页分页用关关采集,如何写规则?

开始小编也是相当的纠结,因为这茫茫一片网络世界,百度,360,各大搜索搜了个昏天黑地,也没有找到教程!

 

后来只能自己摸索起来,

其实吧在关关10的里面是可以采集分页的因为有那两个选项

前面的规则写法就不多复述了

只讲这两项规则的写法

小说内容页分页用关关采集,如何写规则?

这两项有了,但网上一般的规则写法,都没有讲到这两项

经过电脑屋小编的不断尝试。终于明白如下

小说内容页分页用关关采集,如何写规则?

这一步很好理解,只要找出分页代码,用正则替换就好了!

其实真正把电脑屋小编难住很久的是下面一项

获取章节内容中的分页编码的正则

关键这里获取到的分页编码如何实用进去
当时源网址格式是假如是

www.dnwfb.com/小说编号-章节编号_分页号.html

开始我用正则

/d*-/d*_(/d*).html

替换后,测试采集出来内容很多了,但发现章节第二页内容和源站第二页内容不一致,
后来经研究,原来在这个分页编码的正则里获取到的数值是直接替换章节编号的,所以电脑屋小编直接把章节编号和分页号当成一个值去替换,
后来就变成了/d*-(/d*_/d*).html,经测试完美成功,采集到了小说内容页的第二页!

 

 

本文链接:https://www.dnwfb.com/1061.html,转载请注明出处。
0

评论0

没有账号? 注册  忘记密码?