1.1. 过滤器说明

1.2. 过滤器是什么?

比如,可能会有这样一些需求:

1: 从全网爬取网站数据,但是仅存储标题中带有“茶叶”文字的网站地址,或者是存存储标题中不包含“翻译”文字的网站地址;
2: 从全网爬取数据,但是仅存储域名后缀是".jp"与".co"的网站数据,又或者是仅存储域名后缀不是"gov.cn"的网站数据;
3: 从全网爬取数据,但是仅存储顶级域名。
4: 从全网爬取数据,但是仅存储国外网站(服务器归属地不属于中国的),或者是仅存储服务器归属地为日本的网站;
.....

那么,要实现上面的需求,就需要用到MSRAY-PLUS的过滤器功能了。

过滤器,与重复过滤不同。重复过滤是系统内置的,仅仅是为了剔除重复数据;

而过滤引擎是可以自定义配置,根据多个维度,对抓取到的结果进行筛选的引擎。

比如只想要顶级域名的结果,只存储网址对那个IP属于某个国家的结果,比如不想采集后缀为edu,gov的域名,那么都可以使用过滤引擎来实现。目前内置了6个维度的过滤功能。

**注意:如果在任务中使用了过滤引擎,会一定程度上降低运行效率,过滤条件越苛刻,采集结果越少。

1.3. 过滤方案是什么?

为了实现任务的细粒度控制,与满足用户在不同时期的需求,MSRAY-PLUS支持自定义多个过滤方案,而不是全局配置。在需要使用的时候,根据需求选择对应的方案即可。

在任务中可选择某一个方案去实现过滤效果,创建的过滤方案并不会自动运用到任务,只有创建任务的时候配置任务所属的过滤方案,才会生效!

Copyright © msray.net 2020 all right reserved,powered by Gitbook文件修订时间: 2023-08-20 22:38:20

results matching ""

    No results matching ""