1.1. 基于网页源码内容的数据过滤功能

redis start

如果想要以采集结果的网页内容为条件做过滤,启用状态必须保持开启!如果开启此选项,那么实际任务采集过程中会自动针对结果进行HTTP请求,获取网页的html源码进行内容判断。会降低效率。

启用类型,分为“包含”和“不含”;
过滤值,可以有一个或多个;点击新增按钮即可添加。

如果是包含,则只会存储采集结果的HTML内容包含“过滤值”中的文字。
如果是不含,则只会存储采集结果的HTML内容不包含“过滤值”中的文字。

比如不想要网页内容包含“立即注册”的结果,那么启用类型就选择“不含”,过滤值里面就添加"立即注册"

输入规则值后,按回车即可确认输入!
Copyright © msray.net 2020 all right reserved,powered by Gitbook文件修订时间: 2023-08-20 22:38:20

results matching ""

    No results matching ""