首页 随心笔记正文

写关关采集规则时获得目录部分关键HTML的设置,截取时用正规代替换行!

admin 随心笔记 2019-11-30 20:34:21 2539 0 收藏文章
在写关关采集时如果出现重复章节,一般情况是最新九章节和所有章节的代码是一样的,关关是不会自动排重的时候要用到
意思是要通过PubVolumeContent里去截取正文章节的范围,这样就可以直接采集所要的内容
但一般很不容易截取,所以要用到正则表达式来截取

上述为例,如果截取,只能是

<dt>.+?</dt>((.|\n)+?)</div>

但这样却不能真正截取到,因为最新九章节也是这样的规律
而且正文卷这三个字我在写规则的时候发现也在变化
所以这种网站唯一的规则是

</dd>\n+?<dt>.+?</dt>((.|\n)+?)</div>

对,用\n+?,因为直接用.+?不行,因为有换行,所以加上/n,最后终于可以采集到截取的正文章节了!
版权声明

本文仅代表作者观点,不代表本站立场。
本文系作者授权发表,未经许可,不得转载。

本文链接:www.dnwfb.com/page4_271_0.html

推荐