1. 搜索引擎结果采集任务模块说明

2. 概述

MSRAY-PLUS可从国内外多个搜索引擎批量采集用户导入的关键词对应的搜索结果(SERP数据),并进行结构化数据存储与自定义过滤处理。支持存储与导出的数据包括:

所属引擎:如 baidu
关键词:如 招牌
域名:如 www.msray.net
根网址: 如 http://www.msray.net
网址(url): 如 http://www.msray.net/page/1.html
IP: 如 113.123.12.123
IP所属国家: 如 美国
标题:如 这是一个网站的标题
描述:如 这是一个网站的描述内容
访问状态码:如 200

目前支持、百度电脑端、必应、startpage、日本引擎、谷歌引擎接口板、神马、等等主流搜索引擎,并且不断添加中...

支持导出自动拓展出的关键词数据,并可显示拓展词的来源;

支持持续性的根据种子关键词,全自动拓展出相关词并采集(无限采集);

3. 操作视频演示

正在制作中------------


4. 参数配置说明

1)如果想要采集域名,那么在【重复判断类型】选择,选择“按域名”;
2)如果想要采集URL,那么在【重复判断类型】选择,选择“按网址”;

3)在存储字段列表参数项目,我们建议只勾选域名、网址项目。因为开的越多,使用的资源开销会越大。如果开启了标题、访问状态的字段存储的话,每个采集结果都还需要再次进行HTTP请求,会降低采集效率。如果开启了关键词自动扩展功能,每个采集结果也还需要再次进行HTTP请求;

4)过滤规则,默认即可。如果没有特殊的要求,可以选择“不使用”

5)最大页面,默认即可。建议保持默认的“8”

6)相关词自动扩展,默认即可。开启后,就相当于无限采集了,除非关键词扩展速度小于消费速度导致任务完成自动退出;

7)关键词自动扩展,开启后,每个采集结果都还需要再次进行HTTP请求,会降低采集效率。但是可以更快的进行种子关键词的自动扩展,无限采集。

8)推送方案,默认即可(无)。如果不进行二次开发或其他自定义二次处理,可以选择无(借助功能可以自行开发拓展,实现存储到mysql,以及二次处理,或者联动其他软件如sqlmap,xray等等);

9)请求超时时间,默认即可。建议3-30秒。

10)结果切割时频:单位为小时,可自动根据采集时间,把结果存放在不听的文件中,无需停止任务即可分批导出结果!
11)任务备注:添加备注后,在导出结果页面可根据任务备注导出相应任务的结果

5. 使用步骤

5.1. 一、配置参数与运行任务

5.1.1. 1、点击导航菜单,选择搜索引擎任务

5.1.2. 2、配置任务参数

我们必须选设置任务种子文件,搜索任务的种子文件,是一个包含了N行关键词的txt文件。我们可以点击【上传文件】按钮或点击【选择本地文件】按钮等方式,选择种子文件路径;

这里我们可以选择程序自带的示例种子文件(testdata/搜索任务-中文关键词.txt),里面已经包含了100个关键词。

其他参数的配置,可参考上面文档内容中的参数说明,按需配置;

配置好参数后,点击左下角【保存配置】按钮即可。

5.1.3. 3、启动任务

点击【开始任务】按钮,即可开始采集,同时,我们还可以实时查看程序运行日志!

5.2. 二、导出采集结果

5.2.1. 1、如何导出任务总结果

在搜索任务主页面,可以实时显示“当前结果数量”(几秒刷新一次)。等待结果有数量后,我们即可尝试导出数据!

注意,这里显示的结果数量,可能会小于实际采集到的数量;

点击搜索任务主界面的【导出结果】,可以导出整个任务的所有结果!导出后,可在【导出结果管理】选项卡界面进行下载与查看!

导出采集结果

5.2.2. 2、如何分批(按时间)导出结果

在参数配置时间,有一个选项叫做【结果切割时频】,默认为3也就是3小时。 如果想要分批导出,则可以点击【数据分批管理】选项卡,在该界面上,会显示所有分批数据,点击每一行对应的导出按钮,即可分批导出。

导出后,可在【导出结果管理】选项卡界面进行下载与查看!

5.2.3. 3、导出参数设置说明

存储类型:

如果选择域名,那么导出的结果中,格式如:www.msray.net;
如果选择根网址,那么导出的结果中,格式如:http://www.msray.net;
如果选择网址,那么导出的结果中,格式如:http://www.msray.net/page/1.html;
如果选择IP,那么导出的结果中,格式如:127.0.0.1;
如果选择全部,那么导出的结果中,包含所有字段内容,比如域名、根网址、网址、IP、ip所属国家、标题、描述等;

文件类型:一般选择txt。同时支持TXT\CSV\JSON格式。
按备注导出:可以填写任务备注导出对应的任务结果(需要创建任务的时候填写备注)

6. 注意事项

1)关键词种子文件的内容,需要一行一个;

2)关于HTTP代理配置

部分搜索引擎需要配置HTTP代理才能够长时间的稳定使用,否则会提示安全验证。

如果不配置HTTP代理,在使用一段时间后可能导致在一段时间内无法正常使用,但程序会自动重试,会自动恢复。

关于HTTP代理的配置,请查看 如何在软件中配置HTTP代理?

Copyright © msray.net 2020 all right reserved,powered by Gitbook文件修订时间: 2023-09-01 01:03:54

results matching ""

    No results matching ""