谈谈官方的【HadSky 文章批量采集】如何使用

白小轩外链 天外飞猪 关注 四级站长 普通
发表于站长交流区版块
先说说采集容易出现的错误

1.采集失败,提示一大串采集错误的代码和链接

2.采集成功,返回主页面没得显示

3.采集成功,内容缺斤少两


以上就是我碰到过的问题,那么一个一个给大家讲讲我的处理方法,因为懒得截图了,我就不放图了,尽可能会细节性讲解


第一个问题,采集失败的原因

1.链接放置错误

我一开始没搞懂工具的使用,在规则模式中,直接就把链接放进去了,然后失败了,建议没懂规则原理的,看看工具的使用介绍:文章批量采集插件 - 支持自定义规则及批量url采集,虽然我接下来讲的也会涉及到,但还是建议大家先理清楚规则


2.采集规则没弄好

链接一定要放置正确,别放错了!!

http://www.a.com/BB/Detail/1  对应  http://www.a.com/BB/Detail/[hs_id]

http://www.a.com/BB/Detail/1.html  对应http://www.a.com/BB/Detail/[hs_id].html

有序链接使用【规则模式】 | 无序链接使用【指定模式】,其中带有[hs_id]是【规则模式】,直接是字母或数字的(1或a)是【指定模式】


注意:不论是【规则模式】还是【指定模式】,这两个模式中标题和内容两个规则是不变的,唯一有变化的就是地址规则,地址规则就是我上面写的了


第二个问题,采集成功蛋没有显示内容的原因

1.可能是插件错误

程序嘛,多多少少出点问题很正常,卸载,重新安装就好了


2.发布用户及发布板块

发布用户是你指定的用户,首先得有这个用户,而且填写的是用户id,而不是用户名,用户id找不到的,打开后台去找

发布板块也是同理,首先得有,其次id也得正确


注意:这两个规则不是随便填写的


第三个问题,采集成功内容缺少或丢失

这个问题我是研究时间最长的,总是发现采集好多东西下不来,我就各种研究,从规则到代码,然后就是正则表达式([\s\S]+?),上网各种搜索,研究正则表达式的规则,最终测试得出,数据采集会到第一个代码停止处暂停


也就是如果内容中出现了多个相同调用代码,比如该内容调用代码为:

<div>
	内容
	<div>
		内容
	</div>但采集规则到这里就会停止
	内容
</div>按理应该到这里的

怎么解决问题我倒是知道了,那就是后面加两个</div>

<div class="pic-content">([\s\S]+?)</div></div>


无论其内容中出现几个<div></div>调用都没事,不过样式可能就会直接采集原版的了


这也是我讨厌的一点,这个工具没有过滤的功能,它是全部采集,包括原文样式,超链接等等

我想有一个纯文本形式的采集功能,好麻烦,每次采集完还得调整emotion

评论列表 评论
发布评论

评论: 谈谈官方的【HadSky 文章批量采集】如何使用

已有1次打赏
乐天打赏给楼主30天豆,2022-02-09 15:00:06
(1) 分享
分享

请保存二维码或复制链接进行分享

取消