采集规则分享

he1766275948 he1766275948 关注 六级站长 VIP
发表于站长交流区版块

豆瓣


https://movie.douban.com/subject/[hs_id]/?from=showing


35437935


标题


<h1>

        <span property="v:itemreviewed">([\s\S]+?)


</span>

    </h1>



内容


<div class="related-info" style="margin-bottom:-


10px;">([\s\S]+?)</div>




小k娱乐网


https://www.xkwo.com/article/[hs_id].html


28500


标题


<div class="inform-title-txt">([\s\S]+?)</div>


内容


<div id="contents" class="wz_nr"><p>([\s\S]+?)


</p></div>


小高娱乐网


https://www.gw54.com/meiti/[hs_id].html


标题

<h3 class="article-title">([\s\S]+?)</h3>

内容

<div class="article-content">([\s\S]+?)</div>


部分下载无法采集到,需自行添加



作文网


https://zw.liuxue86.com/z/4438208.html

标题

<h1>([\s\S]+?)</h1>

内容

<div class="main_zhengw" id="article-content">([\s


\S]+?)</div>





《推荐》

绿色文库网


http://wenku.cyjzzd.com/a/130018


http://wenku.cyjzzd.com/a/[hs_id]


标题


<h1 id="wk-tit">([\s\S]+?)</h1>


内容


<div class="js-cont">([\s\S]+?)</div>




用采集插件即可采集,https://www.hadsky.com/read-1576-1.html


全部都UTF-8编码




如果需要采集更多可以发我网站,免费帮你弄好采集规则,最近都有时间,带上网站链接,另外资源站下载类的就不要找我了,哪个由于插件有限采集不到,除非一些直接放下载链接出来的。记得采集该网站图片必须能在另外一个网站上显示的,链接没有加密的。

留言,我这边看了会帮你弄也可以。


另外反馈一下这个插件部分问题

第一太老化了

第二采集到的文章不能配合seo插件自动上词,只能默认为标题

第三没有伪原创

...................

评论列表 评论
he1766275948 he1766275948 六级站长 VIP 6#

https://fire.zhuangbi888.com/dsbj/[hs_id].html

1015643


<h1 class="news_title">([\s\S]+?)</h1>


<div class="news_con">([\s\S]+?)</div>


百万数据采集,缺内容的可以来采集的,注意一点就是采集插件有局限,不能一下子采集太大,要慢慢来,我测试过了,5000开始采集,这个插件真的承受不来

共0条回复,点击查看回复
萧十1狼 萧十1狼 五级站长 VIP 5#
安全没必要伪原创,采就对了


共0条回复,点击查看回复
可乐 小轻IP 七级站长 VIP 4#
其实这个规则二可以用在火车头采集上!

小轻论坛:
打多了一个二字

共0条回复,点击查看回复
可乐 小轻IP 七级站长 VIP 3#
优秀!
共0条回复,点击查看回复
黑衣人 简单就是美 八级站长 VIP 2#
别人隐藏的文件应该采集不了

简单就是美:
隐藏的文章

he1766275948:
隐藏的扩展就可以采集,只要在一个div标签内就可以采的到,如果是多个div结合从的一篇文章,就无法采集,他这插件只能采集一个div标签,不能多重,另外就是标题采集到的标签就无法去除,总的来说弊端还是很多的

共0条回复,点击查看回复
发布评论

评论: 采集规则分享

已有0次打赏
(7) 分享
分享

请保存二维码或复制链接进行分享

取消