插件 
收藏文章 楼主

文章批量采集插件 - 支持自定义规则及批量url采集

版块:模板应用   类型:精华   作者:乐天   查看:32687   回复:37   获赞:25   时间:2017-05-14 12:20:03

说明:需要简单正则匹配才能正常采集。


[2.0.1.20190702更新内容]

1.修复在7版本下无法选择采集模式的问题;

2.修复无法采集https资源的问题;


v1.1.0更新说明:

添加编码设置,添加超时设置。


Image


使用教程(采集目标以官网为例,官方允许您采集但需添加出处,未经他人允许请勿擅自采集,否则后果自负):

规则模式:

地址规则的采集变量为数字类型,在规则地址中用[hs_id]代替,起始ID及终止ID为采集的范围,例如规则地址填写:http://www.hadsky.com/read-[hs_id]-1.html,起始ID填写:1,终止ID填写:5,即将采集以下网址的内容:

http://www.hadsky.com/read-1-1.html
http://www.hadsky.com/read-2-1.html
http://www.hadsky.com/read-3-1.html
http://www.hadsky.com/read-4-1.html
http://www.hadsky.com/read-5-1.html
指定模式:

采集地址为指定的地址,多个用回车分开,可以填写不同的网址,例如:

http://www.hadsky.com/read-1-1.html
http://www.hadsky.com/read-2-1.html
http://www.baidu.com/read-1-1.html
http://www.qq.com/read-1-1.html
http://www.taobao.com/read-7-1.html
PS:默认设置为5秒超时,若被采集网址超时,将自动放弃改网址的采集。


标题规则:

获取被采集的内容的标题部分,这里是正则表达式,例如:

<div class="pk-display-block pk-text-md" style="min-height: 24px;padding-top: 2px">([\s\S]+?)</div>

标题部分统一建议用([\s\S]+?)规则搜寻,将会把([\s\S]+?)搜寻到的数据作为文章的标题。


内容规则:

获取被采集的内容的正文部分,这里是正则表达式,例如:

<div class="pk-row">
<div class="readcontent pk-w-sm-12 pk-text-sm pk-padding-top-15 pk-padding-bottom-15 pk-word-break-all pk-overflow-hidden pk-img-width-max-all">([\s\S]+?)</div>
</div>
正文部分统一建议用([\s\S]+?)规则搜寻,将会把([\s\S]+?)搜寻到的数据作为文章的正文。


发布用户:

采集的数据将会以这个用户的身份被发布出去,这里填写用户的id。


发布版块:

采集的数据将会发布至这个版块下面,这里填写版块的id。


添加出处:

将会自动在正文结尾添加采集的出处源地址,采集前请征询被采集的站点的站长同意,此项询问他是否开启,建议开启。


目标编码:

被采集站点的编码,若这项设置错误将导致乱码或无法写入数据库。


采集超时:

对于待采集的url每条超时时间的设置,默认5秒。






部分站点采集规则

站长下载(down.chinaz.com)采集规则:

地址规则:http://down.chinaz.com/soft/[hs_id].htm
起始ID::37481
终止ID::37481
标题规则:<h3 class="title">([\s\S]+?)</h3>
内容规则:<div class="software-intro">([\s\S]+?)<div class="text_tag">
发布用户:1
发布版块:自己填
添加出处:开启
目标编码:GB2312
超时时间:5

其他站点规则(网友整理,不保证成功):

Android 开发
网站:http://www.androidchina.net 

标题规则<title>([\s\S]+?)</title>
内容规则<article class="article-content">([\s\S]+?)<p>转载请注明


网站https://xiaokai521.cn 

标题规则<li class="active">([\s\S]+?)</li>
内容规则<section class="context">([\s\S]+?)<div class="share_list shareBox">



网站:http://www.dir28.com/ 

标题规则
<h1 class="article-title">([\s\S]+?)</h1>
内容规则
 <div class="main-content">([\s\S]+?)<div class="article-fav">

网站:https://www.qqxbjd.com 

GB2312
标题规则
<h1>([\s\S]+?)</h1>
内容规则
<div class="post_content">([\s\S]+?)<div class="shareto">


网站:http://www.mosq.cn 

标题规则
<h2 class="post-title"><span class="fa fa-code"></span>([\s\S]+?)</h2>
内容规则
 <section class="context">([\s\S]+?)<i class="fa fa-heart-o"></i>

地址http://www.zaseo.cn 

标题规则
<h1 class="article-title">([\s\S]+?)</h1>
内容规则
<article class="article-content">([\s\S]+?)<div class="iblue">


网站:http://blog.axuo.club 

标题规则
<h1 class="article-title">([\s\S]+?)</h1>
内容规则
<span class="article_hide">([\s\S]+?)<div class="article_related">


网站:http://www.work28.com 

标题规则
<h1 style="text-align:center">([\s\S]+?)</h1>
内容规则
<div class="product_jianjie"><b>([\s\S]+?)<section style="margin:0px 10px;">

网站:http://www.xiaochouyl.com 

标题规则
<li class="last">([\s\S]+?)</li>
内容规则
<div class="art-content pt10 f16 lh200">([\s\S]+?)<div class="comment">

网站:http://iappgo.com/ 

标题规则
<title>([\s\S]+?)</title>
内容规则
<div class="pk-row">([\s\S]+?)<div class="pk-row"

阿宁资源网
网站:http://www.guoyn.com 

标题规则
<h1>([\s\S]+?)</h1>
内容规则
<div class="con-recom">([\s\S]+?)<div class="hot_tags">


果核剥壳
网站:http://www.ghboke.com 

标题规则
<title>([\s\S]+?)</title>
内容规则
<div class="single-content">([\s\S]+?)本文地址


网站:http://52op.org 

标题规则
<li class="active">([\s\S]+?)</li></ol>
内容规则
<section class="context">([\s\S]+?)<div class="newdown">
或者<section class="context">([\s\S]+?)<a class="ja_praise action action-like sharebtn abouts"  data-ja_praise="17"><i class="fa fa-heart-o">


月云网
网站:http://www.6yyw.com 

标题规则
<span id="thread_subject">([\s\S]+?)</span>
内容规则
<span class="atips_close" onclick="this.parentNode.style.display='none'">x</span>([\s\S]+?)<div class="tshare cl"





点击下载:论坛文章批量采集插件



有些梦虽然遥不可及,但并不是不可能实现。 
回复列表
默认   热门   正序   倒序
龙范字
38F
龙范字Lv66
建议增加网页cookies

因为很多网页是需要登录以后才能采集的

 0   5天前  回复
qq583455189
37F
赚豆豆
 0   2022-03-22 17:24:19  回复
Nice牛
36F
请问这个插件 现在还能用吗?@乐天
 1   2021-04-11 22:22:27  回复
同路人
35F
同路人Lv16
请求值:index.php?c=app&a=puyuetian_caiji:index&rnd=0.15708237601624897
返回值:<!DOCTYPE HTML PUBLIC "-//IETF//DTD HTML 2.0//EN">
<html><head>
<title>503 Service Unavailable</title>
</head><body>
<h1>Service Unavailable</h1>
<p>The server is temporarily unable to service your
request due to maintenance downtime or capacity
problems. Please try again later.</p>
<hr>
<address>Apache Server at tlr1.cn Port 443</address>
</body></html>

采集小刀的,只踩啦一部分 而且图片也不能搞过来

好像是


 0   2020-08-13 20:33:17  回复
guoping998
34F
赚豆豆
 0   2020-02-27 19:20:45  回复
星海大大
33F
眼睛:我会了
手&脑子:你不会

广东,中山

 0   2019-12-29 09:31:14  回复
z412317
32F
z412317Lv0
这个到底怎么用

河南,安阳

 0   2019-11-30 15:11:48  回复
妹妹哥哥进去了
31F
网站装好了,内容怎么办,这采集好像不给力!!!
 0   2019-11-13 14:32:47  回复
w254096542
30F
这个到底怎么用的啊


 0   2019-08-02 21:47:07  回复
w254096542
29F
可以采集到指定版块吗
 0   2019-08-02 14:28:07  回复

回复:文章批量采集插件 - 支持自定义规则及批量url采集

暂无用户组
退出
等级:0级
天豆:
游客:

公告

近期本站被人为恶意注册及发布垃圾帖,本站已开启普通用户发帖审核功能,VIP系列用户组不受影响,一但发现发布违法或垃圾帖的用户,该用户账号将会被永久封号,请大家共同维护互联网环境,共创美好互联网未来。

永久免费,购授权享豪礼

3年个人版授权+1940天豆仅需194元

终身个人版授权+3880天豆仅需388元

3年尊享版授权+13580天豆仅需1358元

终身尊享版授权+27160天豆仅需2716元

扫个红包吧,快乐你我他

红包

Powered by HadSky 7.12.3

©2015 - 2022 HadSky

购买产品 用户文档 授权查询 网站绑定 更新补丁 客户案例 陕ICP备13005805号

您的IP:18.208.126.232,2022-08-13 04:26:46,Processed in 0.04463 second(s).

支持原创软件,抵制盗版,共创美好明天!
头像

用户名:

粉丝数:

签名:

资料 关注 好友 消息
应用名称 文章批量采集
应用版本 v2.0.1.20190702
应用类型 插件
应用售价 140天豆
交易方式 天豆或现金余额
更新时间 2017-05-16
适用版本 4.4及以上版本
演示地址 http://hs.27ui.net/index.php?tn=puyuetian_caiji
在线下载 HS7.0.14及以上版本在线购买/下载
郑重提示 该页面最下面的下载地址为HS6.x版本,HS6.x系列版本且不与HS7.x互通,如果你是2019-04-04之后使用的HS,请点击上方的“HS7.x及以上版本在线购买/下载”进行购买/下载。
已有0次打赏
(25) 分享
分享

请保存二维码或复制链接进行分享

取消