胖鼠采集(Fat Rat Collect) 是一款能够帮助你网站文章自动化的采集工具. 开源作品, 支持采集所有网站列表及详情页面 它拥有微信、简书、知乎、列表、历史、详情、等多种采集方式、还有自动采集, 自动发布, 自动打标签, 等许多黑科技功能, 一次创建规则, 后续省心省力. 还有许多演示例子,一键可用。如: 微信、简书、知乎、御龙在天、寻仙、虎扑等许多例子、快去享受吧!
胖鼠采集(Fat Rat Collect) 有2个支持的版本 正式版和v5版本, 它们的区别如下:
github 地址
https://github.com/KitePig/FatRat-Collect
服务器环境要求
PHP >= 7.1
MYSQL >= 5.6
安装胖鼠采集
- 在插件库中搜索胖鼠采集,点击安装按钮即可
- 或者去Github下载 胖鼠采集
.zip
安装包,在Wordpress插件中心- 安装插件
- 上传插件
- 启用
如果安装插件遇到 504 time-out 超时,是由于国内wordpress.org网络不好,可以等等多试几次即可,或者安装国内代理插件,由于国内代理缓存的胖鼠采集版本可能非最新版,在更新插件时候会遇到
插件重复更新
问题,需关闭国内代理
版本号相关介绍
胖鼠采集的版本号分为 主版本号.子版本号.修正版本号
例: v2.1.2
第一位代表主版本号. 推荐更新 底层架构有大更新/代码改动较多
第二位代表子版本号. 推荐及时更新 代表 增加了一个新功能/或者修复了一个重要的BUG
第三位代表修正版本号. 可以暂缓更新 不升级不影响使用
学习建议
- 请学习 jQuery选择器 或 CSS选择器基础用法
胖鼠采集是基于 QueryList 的采集插件。 核心思想就是使用jQuery选择器来做采集,所以选择器语法会贯穿全文。 如果你之前从未了解过jQuery选择器,那采集时你可能就会看的一脸懵逼, 请先了解 jQuery选择器后或 Css选择器后再来,这也是使用胖鼠采集唯 一难点,请自行百度jQuery学习教程或jQuery选择器学习相关知识。
- 微信公众号文章采集 – 强大的Jquery可以处理各种版权信息, 纵享丝滑.
- 简书文章采集 – 强大的Jquery可以处理内容各种图片, 柔顺到底.
- 知乎问答采集 – 强大的Jquery可以处理各种你不想要的东西, 一键爽歪歪.
- (独家主打) 列表采集,历史采集 视频文字教程– 只需轻轻一点. 数不清的文章就来了.
- (独家主打) 详情页面文章采集 – 任何网站十秒搞定
- (独家主打) 分页爬取 – 历史数据, 也不放过. 一网打尽
- (胖鼠主打) 自动采集 – 一键启动不放过每一份数据.
- (胖鼠主打) 自动发布 – 省心省力好帮手.
- (独家主打) 调试模式 – 新建规则好帮手, 采集结果好伙伴.
- (独家主打) 体验例子 – 一键体验胖鼠.
- (主打主打) 文章自动添加, 动态内容, 自动标签, 标签内链, 优化SEO.
- (胖鼠采集) 文章滤重 – 支持.
- (胖鼠采集) 自动特色图片 – 支持.
- (胖鼠采集) 采集图片加入媒体库 – 支持.
- (胖鼠采集) 数据处理 – 完美支持Html Jquery
- (胖鼠采集) 内容关键字过滤替换 伪原创 – 支持.
- (胖鼠采集) 自定义采集任何可见网站 – 完美支持.
- (胖鼠采集) 自定义文章图片链接类型 – 支持.
- (胖鼠采集) 图片本地下载, 支持使用其他插件上传(阿里云OSS、又拍云云存储, 七牛对象存储), 并可突破图片防盗链.
- (重磅重磅) 胖鼠采集完全基于Wordpress, 安装即用, 开源作品
- (声明声明) 如你的PHP版本小于PHP71, 请移步胖鼠采集的Github下载使用胖鼠v5版本 分支名: based_php_5.6
- (声明声明) 胖鼠采集初衷为参考学习交流; 请大家遵纪守法. 抵制违法犯罪.
- (声明声明) 胖鼠采集开源可供您查阅代码, 或者二次开发使用供您使用, 但不可修改源码后用于商业行为.
技巧
必填配置介绍 | 描述 |
---|---|
采集地址 | 采集地址 |
采集范围 | 采集范围的选择,决定列表采集是否成功 |
采集规则 | Jquery一般填a 属性href 注意:如果在采集范围中已经定位到a标签这里可以留空 |
详情页采集区域 | 包含住你想要的数据块即可 |
详情页采集规则 | Title Content 两个字段为必填项 两个字段必须都获取到数据才能采集成功 |
下图中输入框后标星为必填项。
![图片[1]-胖鼠采集 v2 Wordpress 优秀文章采集插件 免费开源 - LuLunet-LuLunet](https://image.fatrat.cn/material/xj1.png)
Jquery选择器 id是#号 class是. 一定不要落下哦
我下面的例子中每个选择器都有 . 或者 # 大家放大图仔细看
寻仙例子
目标采集目标地址: 这是国内某游戏新闻列表页 //xx.qq.com/webplat/info/news_version3/154/2233/3889/m2702/list_1.shtml
![图片[2]-胖鼠采集 v2 Wordpress 优秀文章采集插件 免费开源 - LuLunet-LuLunet](https://image.fatrat.cn/material/xj2.png)
如图所画:他每页有十篇新闻
红色区域就是我们本页面所有文章所对应的数据区块,下面来采集这个区块
![图片[3]-胖鼠采集 v2 Wordpress 优秀文章采集插件 免费开源 - LuLunet-LuLunet](https://image.fatrat.cn/material/xj3.png)
列表采集范围为 .down-nr>ul>li
解释:
我们使用规则 .down-nr 定位到 ul li 的外侧
再使用.down-nr>ul>li 可以定位到每一个li,这样就达到循环采集目的
范围选择错误可能只获取到一个数据
还能怎么写?
1 .down-nr li
2 .news-list>li
3 .news-list li
4 .sub-cont>.down-nr>ul>li
5 .sub-cont>.down-nr li
.....
列表采集规则
link字段 Jquery选择器 = a:last 属性 = href
解释:
a 是选择a标签意思,但是他有两个a标签,第一个是分类列表页,第二个是我们想要的
:last 是选择最后一个
还能怎么写?
1 a:eq(1) eq等于的意思,程序从0开始
2 a[target="_blank"]
3 a[style="color:;"]
.....
写法很多,选择你喜欢的 要求能在Debug返回的结果中看到正确的数据
小提示规则范围定位的约小,采集时寻找页面的html dom节点越快
下面来采集详情页,第一步分析页面
![图片[4]-胖鼠采集 v2 Wordpress 优秀文章采集插件 免费开源 - LuLunet-LuLunet](https://image.fatrat.cn/material/xj4.png)
![图片[5]-胖鼠采集 v2 Wordpress 优秀文章采集插件 免费开源 - LuLunet-LuLunet](https://image.fatrat.cn/material/xj5.png)
![图片[6]-胖鼠采集 v2 Wordpress 优秀文章采集插件 免费开源 - LuLunet-LuLunet](https://image.fatrat.cn/material/xj6.png)
详情采集范围为 .sub-cont
解释:
因为他包括住了我们想要的 标题数据/内容数据
还能怎么写?
1 body 最大范围
2 .t-cont
3 #main
4 .right_in
.....
详情采集规则
title字段 Jquery选择器 = .n_title 属性 = text // 文本的意思
content字段 Jquery选择器 = #news_cnt 属性 = html // 顾名思义 内容没有html标签不好看
title字段还能怎么写?
1 h3
2 .right_in>h3
2 .right_in>.n_title
content字段还能怎么写?
1 .sub-nr
2 .right_in>.sub-nr
2 .right_in>#news_cnt
![图片[7]-胖鼠采集 v2 Wordpress 优秀文章采集插件 免费开源 - LuLunet-LuLunet](https://image.fatrat.cn/material/xj7.png)
规则创建完成后,在采集中心点击采集按钮,默默等待提示成功即可
![图片[8]-胖鼠采集 v2 Wordpress 优秀文章采集插件 免费开源 - LuLunet-LuLunet](https://image.fatrat.cn/material/xj9.png)
Debug调试功能在每个页面都有返回哦,列表采集,历史分页采集,微信、简书、知乎、详情采集都有返回调试信息
![图片[9]-胖鼠采集 v2 Wordpress 优秀文章采集插件 免费开源 - LuLunet-LuLunet](https://image.fatrat.cn/material/xj8.png)
内容过滤功能描述
内容过滤功能可以帮助你剔除页面上你不想要的任何数据
正文内容中包含了作者信息、广告、版权声明等这些无用信息,我们需要从正文内容中过滤掉这些内容,这些内容是变化的,每篇文章都不一样,所以是无法直接用字符串替换函数去除的,胖鼠采集提供了非常简单的去除方式
他可以帮助我们过滤任何不想要的页面属性
- img
- p
- div
- 支持 id
- 支持 class
还可以指定处理 第几个某某属性、
内容过滤选择器参数不光可以定义要移除的内容还可以定义要保留的内容,多个值之间用空格隔开
- a 去除a标签保留a中文字
- -a 去除并删除a标签
- -img:gt(-4) 去除文章底部倒数3张图片!
- -img:eq(1) 只过滤文章正文第2张图片 (程序从0开始)
- -p:first 删除第一个p
- -p 删除所有p
- -p:last 删除最后一个p
- ul>li>a:odd 只取奇数a
- -.aaa 删除class等于aaa的标签
- -#aaa 删除id等于aaa的标签
多个过滤规则使用空格隔开。下面是部分Jquery语法,鼠友请百度更多使用方式请百度 Jquery 手册喔.
![图片[10]-胖鼠采集 v2 Wordpress 优秀文章采集插件 免费开源 - LuLunet-LuLunet](https://image.fatrat.cn/material/gl1.png)
过滤规则要使用debug功能测试哦
使用debugging
每写一个规则。必须要使用debug测试列表页是否正常,标题是否正常,内容是否正常
方法
- 第一步、查看网页是否可以采集、请看这篇文档
- 第二步、分别测试 link,title,content 分别是否可以获取到正确的内容
然后保存规则就可以使用了,在采集时候打开控制台也可以看到每条数据具体的采集状态这篇文档
调试
- 如果遇到不确定想要的内容是否可以采集到的,可以使用debug测试,填写url地址,范围填写 body 或者 html Jquery选择器可以留空,属性填写html(意思是获取页面中body中的所有内容)。点击测试按钮,看是否可以获取到页面的html,以来求证是否可以正常访问到到目标页面的html数据
- 如果遇到网页看起来是可以采集的,但是内容是空的可以尝试更换编码
有些时候有些网站看起来是正常的,但是确实采集不了。采集有很多小细节太多,很多站点html结构并不规范,浏览器可以包容他,但程序是无法包容的,除非你根据目标站点为他写一些特殊的代码。一般鼠友可以选择放弃。
文章列表分页采集功能
分页采集可以帮助我们爬取目标站历史数据,必须要有页码哦,动态加载瀑布流不支持哦
![图片[11]-胖鼠采集 v2 Wordpress 优秀文章采集插件 免费开源 - LuLunet-LuLunet](https://image.fatrat.cn/material/fy1.png)
- 上一页地址为:/webplat/info/news_version3/154/2233/3889/m2702/list_1.shtml
- 当前页地址为:/webplat/info/news_version3/154/2233/3889/m2702/list_2.shtml
- 下一页地址为:/webplat/info/news_version3/154/2233/3889/m2702/list_3.shtml
- 把页码替换为
{page}
关键词,在配置中写入即可 - 所以正确的是 /webplat/info/newsversion3/154/2233/3889/m2702/list
{page}
.shtml
![图片[12]-胖鼠采集 v2 Wordpress 优秀文章采集插件 免费开源 - LuLunet-LuLunet](https://image.fatrat.cn/material/fy3.png)
然后再去采集中心采集
![图片[13]-胖鼠采集 v2 Wordpress 优秀文章采集插件 免费开源 - LuLunet-LuLunet](https://image.fatrat.cn/material/fy2.png)
就这么简单
暂无评论内容