1. 说明

本文档并非实时更新,实时最新版本请查看交流群或telegram频道。

2. msray-plus beta 2.1.3 【08-12】

  1. 新增国际知名搜索引擎duckduckgo,已实现反爬基础突破,可无需IP代理采集!
  2. 授权续费后,无需重启软件,续费后可点击任何一个任务引擎的开始按钮,都将自动刷新授权到期时间。
  3. 任务默认配置参数优化;

备注:duckduckgo引擎本身需要翻墙才能访问,测试线程数为1-10之间,无需代理。如需高速采集线程数增加则建议搭配隧道代理使用。

3. msray-plus beta 2.1.2 【08-06】

  1. 新增神马搜索引擎模块,已突破反爬机制无需IP代理,可多线程持续抓取,效率不错哦!
  2. 可通过修改系统配置文件,实现存储保留每次采集搜索引擎的结果的HtmL源码文件;
  3. 批量导入代理功能优化;
  4. 软件界面优化;
  5. 爬虫任务,新增参数”种子数据拓展规则“,可选”仅国内“、”仅海外“、”无限制“。(如果采集海外站点,则建议此选项设置为仅海外)
  6. 去除部分引擎(如google)的自定义线程数限制。

4. msray-plus 2.1.1 beta 【07-23】

1:过滤功能模块升级与修复;

5. 版本更新 2.1.0 beta【07-20】

  1. 搜索任务引擎模块核心升级优化,修复相关异常;
  2. 系统相关默认参数优化;
  3. 代理管理模块优化升级,支持分页管理查看,防止数据量较多时候的卡顿;
  4. 爬虫任务引擎模块核心优化;
  5. 垃圾泛二级域名过滤算法升级!并且支持自定义算法级别(基础、标准、严格、超严格);
  6. 同时支持单机与集群防重复,支持多设备共用一个重复判断数据库(需额外运行新增的重复判断核心服务端程序)

6. 版本更新 2.0.2 【 6-19】

  1. 新增谷歌引擎模块;
  2. 优化搜索任务组件核心;
  3. 界面优化,可放大与恢复软件窗口;
  4. 联系任务导出选项相关优化;

7. 版本更新 2.0.1【单机版】【06-16】

  1. 软件内,可开启与关闭实时程序运行日志显示;
  2. 新增联系任务引擎(加强与优化版);
  3. 软件初始化逻辑优化,授权后直接进入主界面,无需点击任何按钮;
  4. 程序核心优化;

8. 版本更新 2.0.0【06-10】

  1. 系统架构核心重写;
  2. 软件前端升级,运行带界面;
  3. 运行流程优化,仅需双击exe即可运行,无任何其他步骤!
  4. 无需redis环境,无需安装三方依赖!内部实现相关算法,替代了redis。
  5. 升级内部网络请求模块;
  6. 搜索任务引擎,重写已采集关键词判断算法;
  7. 搜索任务引擎,重写已采集数据数量统计算法;
  8. 搜索任务引擎,重写线程池模型,每个搜索引擎单独一个线程池并且相互独立;
  9. 搜索任务引擎,升级网页关键词自动扩展算法;
  10. 搜索任务引擎,升级存储模块,减少存储空间占用;
  11. 外链爬虫引擎,重写线程池控制模型;
  12. 重写百度引擎模块[无需代理][可多线程][可持续采集];
  13. 重写bing引擎模块[无需代理][可多线程][可持续采集];
  14. 新增startpage引擎模块;
  15. 新增日本引擎模块[无需代理][可多线程][可持续采集]; .........

备注:本版本为msray-plus 2.0.0的单机版的测试版;

9. 版本更新 1.5.1【04-27】

  1. 百度电脑版引擎大升级;

10. 版本更新 1.5.0【04-12】

  1. 联系任务引擎,将新增标题存储选项;
  2. 百度电脑版引擎升级;
  3. 新增百度精准版引擎,结果准确性百分百。无需代理;

11. 版本更新 1.4.9 【11-25】

  1. 爬虫任务前端,新增同IP站点查询选项自定义功能;
  2. 前端页面优化;

12. 版本更新 1.4.8【11-17】

  1. 搜索任务,支持百度定制搜索类型。支持网页/资讯类型。默认为网页;
  2. 爬虫任务,升级同IP站点扩展功能,增加效率;

13. 版本更新 1.4.7【10-28】

  1. 联系信息采集引擎,采集的手机号与电话号码结果数据相互独立。方便导入外部软件识别与处理。
  2. 联系信息采集引擎,单字段数据导出,解决空行问题;

14. 版本更新1.4.6版本 09-29

  1. 新增搜狗搜索引擎, 无需代理可持续稳定采集!
  2. 优化google引擎,可直接使用,无需手工配置cse_tok(自动化获取)。
  3. 优化代理功能模块;

15. 版本更新1.4.5版本 09-17

  1. 联系信息采集引擎,导出功能优化。可自定义导出某字段的单条数据或者多条数据。比如一个网站包含两个邮箱联系方式,则可以指只导出一条邮箱(方便外部软件识别)

  2. 联系信息采集引擎,前端显示优化,优化进度条功能,可实时查看进度;

16. 版本更新1.4.4版本 09-15

  1. 修复qwant引擎在特定情况下可能产生的运行异常问题;
  2. 支持本地选择种子文件,无需上传。无压力支持千万级数据导入!主要适用于大文件种子文件的选择(同时支持爬虫任务、搜索引擎任务、联系信息抓取任务)。
  3. 联系信息采集任务引擎与前端升级,新增任务进度条显示,成功采集条数显示等;
  4. 去除排队机制,所有任务支持并发执行;
  5. 自动检测,如果没有在config.yaml中配置google引擎的cse_tok参数值,则google引擎不会启动(该值的有效期一般为1天左右);

17. 版本更新 1.4.3版本 09-13

  1. 新版google引擎优化!
  2. 法国搜索引擎(QWANT)优化;

注意,如果需要使用google引擎,需要先获取cse_tok参数的值,然后写入到config.yaml配置文件中的engine-googleCseToken节点参数下,否则google会采集失败。

获取cse_tok参数值的方法: 1):使用chrome或者firefox浏览器访问 https://cse.google.com/cse?cx=b0bcb1b09813012d8 2): 打开chrome开发者工具(快捷键F12或者鼠标在页面上右键单机,选择“检查”); 3): 随便输入一个搜索词,然后在开发者工具中,查看网络请求(network选项卡界面); 4): 找到路径为“/v1?rsz=20”开头的网络请求,在右侧切换到payload界面,即可查看到"cse_tok"参数的值;

具体可查看根目录下面的help-cse.png图片。

18. 版本更新 1.4.2版本 09-08

  1. 重写谷歌采集引擎模块,对反爬机制做了突破,仅需少量HTTP代理,即可稳定持续采集!
  2. 新增法国搜索引擎(QWANT);
  3. 新增设备网络类型检测功能,可识别是否需要翻墙,实现部分国外搜索引擎的智能化初始代理条件判定;
  4. 优化联系方式抓取任务的结果格式自动清洗功能。
  5. 优化大数据导出到服务器的提示信息;

19. 版本更新 1.4.1版本 8-30

  1. 优化百度地址转码逻辑;
  2. 优化软件后台的前端界面;
  3. 新增联系信息采集任务功能模块!

联系信息采集模块,支持批量采集导入的URL种子文件中的每个网站的联系信息。包括电话、手机号、QQ、微信、邮箱、facebook账号、twitter账号等。并且可自定义开启与关闭需要采集的内容;

电话/手机号兼容多种格式,包括但不限于手机号,400电话号码,以及如000-000-0000,020-0000-000等格式; 邮箱兼容多种格式,并且支持穿插空格形式的邮箱内容! facebook账号同时兼容ID格式与账号名格式!

支持自动保存采集进度,可停止后下次接着采集; 同时支持自定义导出字段内容与自定义导出格式; 同时支持导出结果文件下载到本地,以及导出保存到服务器目录;

20. 版本更新 1.4.0版本

  1. 去除agent数据库信息。直接由txt载入到内存中;
  2. 更改logger日志信息组件;
  3. IP数据库更新;
  4. 配置文件更新;
  5. 爬虫(外链)引擎任务队列引擎,改用自研队列组件代替了redis相关操作;
  6. 爬虫(外链)引擎任务种子数据存储引擎,改用自研方案代替了redis相关存储;
  7. 任务数量统计算法重写与升级,基于内存存储任务结果数量,然后定时更新同步到数据库,提升效率并减少了大量磁盘IO操作;
  8. 数据重复判断引擎,改用自研布隆过滤器加强版实现,取代redis相关操作,性能与资源占用大量提升;
  9. 入库算法更新,循环单次入库,改为批量入库,减少大量磁盘IO操作;
  10. 新增任务对应的被方案过滤结果数量、被重复过滤数量显示;
  11. 已采集关键词判断逻辑优化;
  12. 命令行提示信息优化,授权信息格式化后显示在顶部,方便识别与查找;
  13. 优化任务执行队列,修复部分情况下导致任务排队中需要重启的问题;
  14. 重写关键词拓展引擎,改为按需拓展。无需指定线程数!当可用种子关键词不足时,自动触发。防止关键词拓展速度大于消费速度导致的资源浪费与性能降低;

优化程序算法,减少大量redis操作,避免redis占用与并发瓶颈引发的问题。

21. 版本更新 1.3.7版本 (07-22)

  1. 存储引擎升级,redis相关数据大瘦身;
  2. 初步支持集群功能。所有机器数据不重复,全局唯一。需要所有机器公用一个redis服务;
  3. 命令行语言默认为英文,防止部分操作系统中文乱码问题;
  4. 优化命令行提示信息格式;
  5. 自动拓展数量智能限制,防止redis数据量过大导致效率降低;

22. 版本更新 1.3.6版本

  1. 新增百度移动版引擎;
  2. 搜索引擎名称改动,百度定制超级版改为百度电脑版;
  3. 导出功能升级,导出全部支持显示每条结果的所属引擎、以及所属搜索关键词;
  4. 谷歌原版引擎升级;
  5. 搜索任务,支持导出自动拓展的搜索引擎相关关键词;
  6. 关键词载入与重复采集判断逻辑优化;

23. 版本更新 1.3.5版本 06-23

  1. 新增yandex引擎(俄罗斯搜索引擎),无需代理; 已破解反爬安全验证机制;

24. 版本更新 1.3.4版本 06-21

  1. 修复目录未初始化创建导致任务结果无法导出的问题,新版会自动创建;
  2. 修复导出管理模块的删除功能;
  3. google引擎优化;
  4. 其他细节优化

25. 版本更新 1.3.3版本 06-17

  1. 新增国外引擎duckduckgo,需要国外网络线路才能访问!
  2. 支持抓取与导出搜索引擎的每个返回结果的描述说明信息(概要信息);
  3. 优化存储系统,减少redis使用与redis并发操作;
  4. 内置双线路认证与初始化信息获取接口,最大化避免使用者服务器与官网接口网络不通导致运行失败的情况;
  5. 创建搜索引擎任务,取消自动创建关联外联引擎任务的默认勾选状态;
  6. 导出功能升级,支持导出带协议的域名数据(根网址,如http://www.msray.net),智能支持http和https;
  7. 每个搜索引擎任务的全部实时采集数据内容,会自动存储在data/result/engine/任务ID编号.txt文件中;
  8. 每个系统引擎任务的全部实时采集数据内容,会自动存储在data/result/extend/任务ID编号.txt文件中;
  9. 每个任务支持自定义是否全局防重复!(不开启的话,仅仅是任务中导出结果没有重复数据,如果开启,则多任务都没有重复数据!)
  10. 后台搜索引擎管理功能升级;
  11. 支持自定义数据文件自动分割时间间隔(按分钟),比如每小时自动生成一个数据文件,则在data/config.ini中配置file_split_time=60 (本功能为后台的导出管理菜单模块所服务)

26. 版本更新 1.3.2 稳定版 05-28

  1. 修复1.3.1版本中存在的BUG。
  2. 修改过滤方案,保存后不再跳转回列表页面;

27. 版本更新 1.3.1 稳定版 05-27

  1. 百度定制版引擎优化,无需HTTP代理,可突破安全验证,并支持多页搜索,每页50条数据,极速高效爬取内容(建议线程数60-200)!
  2. 谷歌镜像版引擎独立与接口更新优化,无需HTTP代理,可突破安全验证,并支持多页搜索;
  3. 相关词采集扩展功能更新;
  4. 搜索引擎管理功能优化;

28. 版本更新 1.3.0 稳定版 05-25

目前为止首发的第一个稳定版本!

  1. 新增百度定制版引擎,无需HTTP代理,可突破安全验证,极速高效爬取内容!
  2. 新增神马引擎(建议每个线程配置5-10个代理,比如10线程则配置50-100个代理);
  3. 系统稳定性升级与优化;
  4. 功能优化;
  5. 搜索引擎任务的关键词扩展引擎,支持自定义线程数;

29. 版本更新 1.2.4 测试版 05-23

  1. 过滤方案升级(不兼容老版本过滤方案数据结构)
  2. 系统稳定性升级与优化;
  3. 搜索任务与系统引擎任务,新增备注字段,可自定义标注;
  4. 功能优化:在存储字段未勾选的情况下,不影响过滤方案的使用(比如老版本存储字段如果未勾选IP归属地,则过滤方案中的归属国家判断会无效,新版本已避免此问题)。
  5. 任务结果数据导出功能升级与修复(并支持单独导出IP);
  6. 后台支持查看任务上传的初始种子文件;
  7. 重启软件后,任务状态自动重置为停止状态;

30. 版本更新 1.2.3 测试版 05-20

  1. 过滤方案的各种策略的值,支持批量编辑!
  2. 引擎镜像数据支持批量删除;
  3. 更新全球顶级域名后缀列表库,也可以自行删除部分后缀(文件路径:data/tld.data)。
  4. 站群检测算法优化

31. 版本更新 1.2.2 测试版 05-17

  1. 修复部分老操作系统由于根域名证书太老导致的HTTPS异常问题;
  2. 系统引擎内置新增同IP网站查询扩展模块(关联抓取);
  3. 优化导出功能,防止低配服务器在千万级数据导出情况下引起的内存不足异常退出;

32. 版本更新 1.2.1 测试版 05-14

  1. 系统稳定性升级与优化;
  2. 后台新增版本检测与显示功能;
  3. 导出的txt文件,新增支持windows记事本打开(解决换行显示问题);
  4. 关键词种子文件,不在需要手工转为utf8编码,系统支持自动转换;

33. 版本更新 1.2.0 测试版 05-13

  1. 支持快捷配置开启外网访问WEB功能(需要修改data/config.ini文件,详细请查看备注);
  2. 支持自定义软件后台HTTP服务端口,防止端口占用冲突(需要修改data/config.ini文件,默认为56789)
  3. 去除种子关键词的长度过滤功能,防止部分关键词较长被忽略;
  4. 使用新版自建协程池调度方案,减少大量内存与CPU占用以及提升效率;
  5. 优化多个细节,防止长时间运行导致的轻微内存泄露问题;
  6. 代理API服务优化,初始启动即可拉取一次数据,之后按自定义频率定期自动更新数据;
  7. 搜索引擎逻辑优化;
  8. goland sdk版本升级,使用最新1.18.2稳定版本;
  9. HTTP请求库算法升级;
  10. 修复上一版本http代理池轮训算法BUG(由于三方ORM库忽略updatedAt字段更新导致的问题)
  11. 新增新版本检测功能。程序启动后即可自动检测是否存在新版本,方便升级。
  12. 新增同IP网站查询功能,数据超全(免费且无限制),可在本地软件后台进行查询;

备注:

  1. data/config.ini中,可自定义msray服务端口号。防止端口冲突;
  2. data/config.ini中,可自定义IP,默认为127.0.0.1 可改为外网IP,即可开启外网访问后台的功能;
  3. data/config.ini中,可自定义初始化redis服务器链接信息。

34. 版本更新 1.1.4测试版 05-11

  1. [重要]系统引擎(外链引擎大幅度提升效率与稳定性,减少资源占用);
  2. 系统稳定性升级与优化;
  3. 修复上一版本HTTP请求库升级,导致的代理API服务接口功能异常问题;
  4. 修复编辑已存在的过滤方案的域名后缀过滤时候,无法新增的问题;
  5. 修复搜索引擎LOGO显示问题;

35. 版本更新 1.1.3测试版 05-10

  1. 对上一把本进行相关细节优化

36. 版本更新 1.1.2 测试版 05-09

  1. 修复开启后台远程访问情况下无法导出的问题;
  2. 优化网络请求模块,减少资源占用与优化内存占用;
  3. 重写外链引擎模块,提升效率与稳定性;
  4. 重写搜索引擎关联外链引擎的算法,并自动判断数量,数量太少则提示先等待搜索引擎关联更多的种子URL后再开始;
  5. 导出数据,存储类型新增"域名(带http://前缀)"模式;
  6. 新增导出模式。可支持快速导出到服务器目录(适用于大数据),也可选择导出并下载到本地!
  7. 新增一键清除全系统已采集域名数据(删除后以前的重复数据不会被过滤);
  8. 新增一键清除全系统已采集网址数据(删除后以前的重复数据不会被过滤);
  9. 新增一键全系统清除黑名单数据;
  10. redis服务端内置RDB备份文件配置和AOF备份机制配置(按需自己调整切换,详情请看说明文档)

37. 版本更新 1.1.1 测试版 05-05

  1. 修复代理模块的删除功能;
  2. 修复账户管理模块的相关BUG;
  3. 编辑搜索采集任务时,搜索引擎列表的选中状态显示实际的勾选状态(老版本会进行初始化勾选)
  4. 修复部分情况下,编辑外链引擎任务显示404的问题;

38. 版本更新 1.1.0 测试版 05-02

  1. 新增谷歌引擎;
  2. 软件后台,代理功能模块增强!支持批量删除,支持http,socks4,socke5等。同时支持外部代理数据API服务接口的自动化更新配置服务(一键导入,自动定时更新);
  3. 软件后台,新增系统资源占用与程序资源开销显示,方便用户根据指标自行调整线程数设定;
  4. 重写HTTP请求库,防止部分链接数据链过大可能导致的内存不断上涨,长期运行可能导致的"OOM"问题;
  5. 优化关键词扩展模块;
  6. 软件后台,支持外网访问(需要自行修改static/config.js中的system.baseUrl指向的值,改为自己服务器外网IP,并开启防火墙即可);
  7. 新增后台资源监控日志任务,程序运行后,会定时获取程序资源占用指标数据,并写入logs/system.log文件中;

39. 版本更新 1.0.9 测试版 04-28

修复域名级别判断的BUG;老版本会把以com.cn、net.om等类似结尾的顶级域名判断为2级域名。新版已经修复该问题,并支持全网6000+顶级域名后缀库。

40. 版本更新 1.0.8 测试版 04-27

  1. 优化默认redis服务端配置文件;防止redis快照备份时导致无法写入数据;
  2. 修复“导出管理”中,执行导出的结果每条结果重复显示两条的问题;

41. 版本更新 1.0.7 测试版 04-26

  1. 根据用户反馈,本版本把redis集成方式恢复为原来的绿色版启动方式(非服务启动);
  2. 优化泛解析域名智能识别算法(垃圾大量二级域名自动加为黑名单,防止蜘蛛陷阱);
  3. 优化Redis连接池;
  4. 优化软件内部缓存功能,减少涉及redis的相关耗时操作;
  5. 解决在部分情况下程序大量redis操作超时的BUG;
  6. 优化后台任务相关操作限制;

42. 版本更新 1.0.6 测试版 04-25

  1. 内置redis改为注册为系统服务的方式启动;
  2. 优化命令行提示信息,仅显示简略数据便于观察;
  3. 优化Redis连接池;


43. 版本更新 1.0.5 测试版 04-23

  1. 优化智能站群校验过滤功能,避免部分站群/泛域名站点未识别;
  2. 优化网络HTTP请求方案与逻辑;
  3. 优化外链引擎执行效率与稳定性,在避免瞬间占用大量资源开销的同时也兼顾执行效率;


44. 版本更新 1.0.4 测试版 04-22

  1. 新增百度引擎(建议搭配HTTP代理使用)

  2. 新增HTTP代理模块

    可在后台自行添加与管理(数据实时生效,无需重启) 只有触发搜索引擎的安全验证时,软件才需要随机载入HTTP代理,按需调用。内置轮询算法非随机抽取;

    注意,代理分为国内代理和国外代理两个类型。比如google引擎,程序就只会调用国外代理数据!而百度引擎,则可以调用两种类型都可以。


3:优化软件运行相关提示信息

4:优化初始默认配置

5:优化协程,避免瞬时的大量并发导致占用系统资源超出负载


45. 版本更新 1.0.3 测试版 04-20


1. 使用redis-x64-3.2.100版本。替换redis5.0.14版本
2. 新增推送功能的PHP例子代码文件;


46. 版本更新 1.0.2 测试版 04-20

1. 优化过滤方案逻辑与算法;
2. 修复部分BUG;


47. 版本更新 1.0.1 测试版 04-19

1. 修复过滤方案相关BUG;
2. 优化程序日志提示,对于被过滤的数据,显示详细的过滤提示,如域名级别校验未通过,域名后缀校验未通过等,防止用户以为无数据;
3. 优化管理后台创建过滤方案的前端页面显示效果;
4. 优化默认配置,Bing引擎默认线程从100改为5;
5:优化轻线程退出机制,如果线程长时间无种子数据,不再自动退出,而是进入30秒的睡眠状态。防止初始线程100,但种子数据不足导致实际线程越来越少的问题;
6:修复导出管理功能,导出数据为空的问题(存储路径导致的问题)
7: 优化重启程序后,如果程序现在运行中,但是点击手工停止任务无法更新状态的问题;
8:对于扩展关键词特增加校验,去除很长的关键词(比如一个句子)。防止部分网站关键词字段设置不合理。
9:任务支持手工停止后再次点击启动按钮!并且系统不会再次重复采集已经完成采集的关键词。
10:基于提取网页源码的关键词自动扩展引擎,改为独立引擎,提升效率。
11:优化命令行提示信息,只显示部分数据如url,防止信息过多。


48. 版本更新 1.0.0 测试版 04-17

Copyright © msray.net 2020 all right reserved,powered by Gitbook文件修订时间: 2023-08-20 22:51:14

results matching ""

    No results matching ""