1.采集失败,提示一大串采集错误的代码和链接
2.采集成功,返回主页面没得显示
3.采集成功,内容缺斤少两
以上就是我碰到过的问题,那么一个一个给大家讲讲我的处理方法,因为懒得截图了,我就不放图了,尽可能会细节性讲解
第一个问题,采集失败的原因
1.链接放置错误
我一开始没搞懂工具的使用,在规则模式中,直接就把链接放进去了,然后失败了,建议没懂规则原理的,看看工具的使用介绍:文章批量采集插件 - 支持自定义规则及批量url采集,虽然我接下来讲的也会涉及到,但还是建议大家先理清楚规则
2.采集规则没弄好
链接一定要放置正确,别放错了!!
http://www.a.com/BB/Detail/1 对应 http://www.a.com/BB/Detail/[hs_id]
http://www.a.com/BB/Detail/1.html 对应http://www.a.com/BB/Detail/[hs_id].html
有序链接使用【规则模式】 | 无序链接使用【指定模式】,其中带有[hs_id]是【规则模式】,直接是字母或数字的(1或a)是【指定模式】
注意:不论是【规则模式】还是【指定模式】,这两个模式中标题和内容两个规则是不变的,唯一有变化的就是地址规则,地址规则就是我上面写的了
第二个问题,采集成功蛋没有显示内容的原因
1.可能是插件错误
程序嘛,多多少少出点问题很正常,卸载,重新安装就好了
2.发布用户及发布板块
发布用户是你指定的用户,首先得有这个用户,而且填写的是用户id,而不是用户名,用户id找不到的,打开后台去找
发布板块也是同理,首先得有,其次id也得正确
注意:这两个规则不是随便填写的
第三个问题,采集成功内容缺少或丢失
这个问题我是研究时间最长的,总是发现采集好多东西下不来,我就各种研究,从规则到代码,然后就是正则表达式([\s\S]+?),上网各种搜索,研究正则表达式的规则,最终测试得出,数据采集会到第一个代码停止处暂停
也就是如果内容中出现了多个相同调用代码,比如该内容调用代码为:
<div>
内容
<div>
内容
</div>但采集规则到这里就会停止
内容
</div>按理应该到这里的
怎么解决问题我倒是知道了,那就是后面加两个</div>
<div class="pic-content">([\s\S]+?)</div></div>
无论其内容中出现几个<div></div>调用都没事,不过样式可能就会直接采集原版的了
这也是我讨厌的一点,这个工具没有过滤的功能,它是全部采集,包括原文样式,超链接等等
我想有一个纯文本形式的采集功能,好麻烦,每次采集完还得调整