写关关采集规则时获得目录部分关键HTML的设置,截取时用正规代替换行!

在写关关采集时如果出现重复章节,一般情况是最新九章节和所有章节的代码是一样的,关关是不会自动排重的时候要用到
意思是要通过PubVolumeContent里去截取正文章节的范围,这样就可以直接采集所要的内容
但一般很不容易截取,所以要用到正则表达式来截取
写关关采集规则时获得目录部分关键HTML的设置,截取时用正规代替换行!
上述为例,如果截取,只能是

<dt>.+?</dt>((.|/n)+?)</div>

但这样却不能真正截取到,因为最新九章节也是这样的规律
而且正文卷这三个字我在写规则的时候发现也在变化
所以这种网站唯一的规则是

</dd>/n+?<dt>.+?</dt>((.|/n)+?)</div>

对,用/n+?,因为直接用.+?不行,因为有换行,所以加上/n,最后终于可以采集到截取的正文章节了!

本文链接:https://www.dnwfb.com/271.html,转载请注明出处。
0

评论0

没有账号? 注册  忘记密码?