首页 随心笔记正文

小说内容页分页用关关采集,如何写规则?

admin 随心笔记 2020-01-14 20:56:35 4185 0 收藏文章
开始小编也是相当的纠结,因为这茫茫一片网络世界,百度,360,各大搜索搜了个昏天黑地,也没有找到教程!

 

后来只能自己摸索起来,

其实吧在关关10的里面是可以采集分页的因为有那两个选项

前面的规则写法就不多复述了

只讲这两项规则的写法

这两项有了,但网上一般的规则写法,都没有讲到这两项

经过电脑屋小编的不断尝试。终于明白如下

这一步很好理解,只要找出分页代码,用正则替换就好了!

其实真正把电脑屋小编难住很久的是下面一项

获取章节内容中的分页编码的正则

关键这里获取到的分页编码如何实用进去
当时源网址格式是假如是

www.dnwfb.com/小说编号-章节编号_分页号.html

开始我用正则

\d*-\d*_(\d*).html

替换后,测试采集出来内容很多了,但发现章节第二页内容和源站第二页内容不一致,
后来经研究,原来在这个分页编码的正则里获取到的数值是直接替换章节编号的,所以电脑屋小编直接把章节编号和分页号当成一个值去替换,
后来就变成了\d*-(\d*_\d*).html,经测试完美成功,采集到了小说内容页的第二页!

 

 

版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

本文链接:www.dnwfb.com/page4_1061_0.html

推荐