1. 爬虫引擎任务

1.1. 简介

MSRAY-PLUS可从用户提供的url种子地址,源源不断的自动爬取全网网站数据(无限爬取),并进行结构化数据存储与自定义过滤处理;支持存储的数据包括:

域名:如 www.msray.net
根网址: 如 http://www.msray.net
网址(url): 如 http://www.msray.net/page/1.html
IP: 如 113.123.12.123
IP所属国家: 如 美国
标题:如 这是一个网站的标题
描述:如 这是一个网站的描述内容
访问状态码:如 200

1.2. 操作视频演示

正在制作中---------------------

1.3. 使用步骤

1.3.1. 新增任务

点击左侧菜单中的【爬虫引擎任务】,在新页面的顶部,点击【参数配置】,效果如图:

创建爬虫任务

1.3.2. 自定义种子URL数据

点击【上传文件】或者【选择本地文件】按钮,选择包含url列表的文件(txt格式,一行一个url);

这里,我们可以选择默认程序示例文件,路径(testdata/外链任务-URL种子.txt);

注意:url格式是:http://xxx.xxx.xxx 而不是xxx.xxx.xxx。需要带有http或https.

1.3.3. 任务参数配置

保持默认即可,也可按服务器配置自定义;

1)如果想要采集域名,那么在【重复判断类型】选择,选择“按域名”;
2)如果想要采集URL,那么在【重复判断类型】选择,选择“按网址”;
3)线程|协程数:根据主机配置,建议保持默认,
4)在存储字段列表参数项目,我们建议只勾选域名、网址、IP地址、IP所属国家等项目。因为如果开启了标题、访问状态的字段存储的话,每个采集结果都还需要再次进行HTTP请求,会降低采集效率。


5)请求超时时间:建议3-30,根据网络状况设置,避免大批量请求造成网络堵塞,导致数据获取失败
6)过滤方案,默认即可。如果没有特殊的要求,可以选择“无”
7)种子数据扩展:根据需要选择国内,或者国外,默认不限制
8)防站群陷阱,默认即可。建议保持默认开启,开启后,就会针对泛解析域名站群进行智能识别,防止采集到同一个顶级域名下面的大量的垃圾二级域名;

9)推送方案,默认即可(无)。如果不进行二次开发或其他自定义二次处理,可以选择无(借助功能可以自行开发拓展,实现存储到mysql,以及二次处理,或者联动其他软件如sqlmap,xray等等);
10)结果切割:单位为小时,可自动根据采集时间,把结果存放在不听的文件中,无需停止任务即可分批导出结果!
11)任务备注:设置任务备注。导出的时候可以根据任务备注导出本次任务的结果

1.3.4. 保存任务与启动采集

配置好任务参数后,点击底部的【保存配置】按钮,;

在【爬虫任务总览】点击【开始任务】按钮。程序就会执行当前任务。

注意:任务启动后,无法修改。如果需要修改任务,需要先停止任务。不建议修改任务的过滤方式,如果需要修改,我们建议重新新增一个任务。因为修改任务配置,对于修改之前采集到的内容是不影响的;

1.3.5. 导出结果

在【爬虫任务总览】页面,可以实时看见采集的结果数量(几秒刷新一次)。

等待采集有结果后,我们可以实时的点击任务总览页面的【导出结果】按钮进行自定义导出了。

导出结果

注意:
按任务备注的导出,是以任务为单位的导出。

数据分批管理页面
文件,是按小时存储实时数据的。格式是txt内容。
Copyright © msray.net 2020 all right reserved,powered by Gitbook文件修订时间: 2023-08-20 22:38:20

results matching ""

    No results matching ""