1. 搜索引擎任务模块

通俗来讲,就是可以批量采集与解析提取百度,谷歌,bing等等多个主流搜索引擎的关键词搜索结果,并支持过滤与储操作,支持并发采集多个用户指定的关键词的搜索结果。

比如,要通过百度引擎,采集“msray”、“chatgpt”、"golang"等等多个词的相关的搜索结果资料,则新建一个txt,按行录入所有需要搜索的关键词。

这个txt文件,就是我们所说的搜索引擎任务的"种子文件"。

备注:软件已经自带了示例种子文件。位于安装目录下的:resources\seedfile\engine_task 目录下!

然后打开软件配置搜索任务参数,启动就可以了。当然,部分引擎(比如google)需要配合隧道IP代理使用,隧道代理购买推荐,请查阅《新手上路-IP代理购买指南(官方推荐)》

如果需要过滤一些信息,比如进采集顶级域名,又比如仅采集国外网站,又比如仅采集标题中包含xxx的结果,则可以自定义配置过滤引擎,设置好过滤参数后再开始任务;

等待采集完成后,我们可以进行导出操作,并且支持按小时分割导出的采集结果,也支持按任务备注导出采集结果。

更多的使用细节说明与演示视频,请查看《软件使用说明-搜索任务引擎使用教程》

2. 爬虫引擎任务模块

通俗来讲,就是可以通过已知的一批网址域名或地址,挖掘出相关的更多网址。也可以理解为外链采集。

新建一个txt文件,里面按行写入一批网址数据,如:

https://www.mastermind.ac/ 
https://ejje.weblio.jp/
https://www.overload.co.nz/
https://ludwig.guru/
https://projectcontour.io/

这个txt文件,就是爬虫引擎任务的“种子文件”。

备注:软件已经自带了示例种子文件。位于安装目录下的:resources\seedfile\spider_task 目录下!

如果需要过滤一些信息,比如进采集顶级域名,又比如仅采集国外网站,又比如仅采集标题中包含xxx的结果,则可以自定义配置过滤引擎,设置好过滤参数后再开始任务;

等待采集完成后,我们可以进行导出操作,并且支持按小时分割导出的采集结果,也支持按任务备注导出采集结果。

更多的使用细节说明与演示视频,请查看《软件使用说明-爬虫任务引擎使用教程》

3. 联系信息采集任务模块

支持批量采集导入的URL种子文件中的每个网站的联系信息。包括电话、手机号、QQ、微信、邮箱、facebook账号、twitter账号等。并且可自定义开启与关闭需要采集的内容

新建txt文件写上要搜索的网址信息,如:

http://www.360ald.com
https://www.whois.com.cn
http://www.dabaoku.com
http://www.html.cn
https://www.wangan.com
http://www.php.cn
http://www.ijiandao.com
http://www.ejiecheng.com
https://www.chinasweet.net

可以提取的联系方式类型:网页名称,邮箱,手机,电话,qq,微信,twitter,facebook

输出格式:支持txt,csv。

whois查询:如果客户有whois辅助查询要求,可开启选项。

更多的使用细节说明与演示视频,请查看《软件使用说明-联系任务引擎使用教程》

Copyright © msray.net 2020 all right reserved,powered by Gitbook文件修订时间: 2023-08-20 22:38:20

results matching ""

    No results matching ""