msray-plus 2.1.3 发布
· 阅读需 1 分钟
新增国际知名搜索引擎duckduckgo,已实现反爬基础突破,可无需IP代理采集!
授权续费后,无需重启软件,续费后可点击任何一个任务引擎的开始按钮,都将自动刷新授权到期时间。
任务默认配置参数优化;
备注:duckduckgo引擎本身需要翻墙才能访问,测试线程数为1-10之间,无需代理。如需高速采集线程数增加则建议搭配隧道代理使用。
msray-plus
查看所有标签新增国际知名搜索引擎duckduckgo,已实现反爬基础突破,可无需IP代理采集!
授权续费后,无需重启软件,续费后可点击任何一个任务引擎的开始按钮,都将自动刷新授权到期时间。
任务默认配置参数优化;
备注:duckduckgo引擎本身需要翻墙才能访问,测试线程数为1-10之间,无需代理。如需高速采集线程数增加则建议搭配隧道代理使用。
新增神马搜索引擎模块,已突破反爬机制无需IP代理,可多线程持续抓取,效率不错哦!
可通过修改系统配置文件,实现存储保留每次采集搜索引擎的结果的HtmL源码文件;
批量导入代理功能优化;
软件界面优化;
爬虫任务,新增参数”种子数据拓展规则“,可选”仅国内“、”仅海外“、”无限制“。(如果采集海外站点,则建议此选项设置为仅海外)
去除部分引擎(如google)的自定义线程数限制。
1:过滤功能模块升级与修复;
搜索任务引擎模块核心升级优化,修复相关异常;
系统相关默认参数优化;
代理管理模块优化升级,支持分页管理查看,防止数据量较多时候的卡顿;
爬虫任务引擎模块核心优化;
垃圾泛二级域名过滤算法升级!并且支持自定义算法级别(基础、标准、严格、超严格);
同时支持单机与集群防重复,支持多设备共用一个重复判断数据库(需额外运行新增的重复判断核心服务端程序)
新增谷歌引擎模块;
优化搜索任务组件核心;
界面优化,可放大与恢复软件窗口;
联系任务导出选项相关优化;
软件内,可开启与关闭实时程序运行日志显示;
新增联系任务引擎(加强与优化版);
软件初始化逻辑优化,授权后直接进入主界面,无需点击任何按钮;
程序核心优化;
系统架构核心重写;
软件前端升级,运行带界面;
运行流程优化,仅需双击exe即可运行,无任何其他步骤!
无需redis环境,无需安装三方依赖!内部实现相关算法,替代了redis。
升级内部网络请求模块;
搜索任务引擎,重写已采集关键词判断算法;
搜索任务引擎,重写已采集数据数量统计算法;
搜索任务引擎,重写线程池模型,每个搜索引擎单独一个线程池并且相互独立;
搜索任务引擎,升级网页关键词自动扩展算法;
搜索任务引擎,升级存储模块,减少存储空间占用;
外链爬虫引擎,重写线程池控制模型;
重写百度引擎模块[无需代理][可多线程][可持续采集];
重写bing引擎模块[无需代理][可多线程][可持续采集];
新增startpage引擎模块;
新增日本引擎模块[无需代理][可多线程][可持续采集]; .........
备注:本版本为msray-plus 2.0.0的单机版的测试版;
百度电脑版引擎大升级;
联系任务引擎,将新增标题存储选项;
百度电脑版引擎升级;
新增百度精准版引擎,结果准确性百分百。无需代理;
联系信息采集引擎,导出功能优化。可自定义导出某字段的单条数据或者多条数据。比如一个网站包含两个邮箱联系方式,则可以指只导出一条邮箱(方便外部软件识别)
联系信息采集引擎,前端显示优化,优化进度条功能,可实时查看进度;
搜索任务,支持百度定制搜索类型。支持网页/资讯类型。默认为网页;
爬虫任务,升级同IP站点扩展功能,增加效率;
联系信息采集引擎,采集的手机号与电话号码结果数据相互独立。方便导入外部软件识别与处理。
联系信息采集引擎,单字段数据导出,解决空行问题;
新增搜狗搜索引擎, 无需代理可持续稳定采集!
优化google引擎,可直接使用,无需手工配置cse_tok(自动化获取)。
优化代理功能模块;
联系信息采集引擎,导出功能优化。可自定义导出某字段的单条数据或者多条数据。比如一个网站包含两个邮箱联系方式,则可以指只导出一条邮箱(方便外部软件识别)
联系信息采集引擎,前端显示优化,优化进度条功能,可实时查看进度;
修复qwant引擎在特定情况下可能产生的运行异常问题;
支持本地选择种子文件,无需上传。无压力支持千万级数据导入!主要适用于大文件种子文件的选择(同时支持爬虫任务、搜索引擎任务、联系信息抓取任务)。
联系信息采集任务引擎与前端升级,新增任务进度条显示,成功采集条数显示等;
去除排队机制,所有任务支持并发执行;
自动检测,如果没有在config.yaml中配置google引擎的cse_tok参数值,则google引擎不会启动(该值的有效期一般为1天左右);
新版google引擎优化!
法国搜索引擎(QWANT)优化;
注意,如果需要使用google引擎,需要先获取cse_tok参数的值,然后写入到config.yaml配置文件中的engine-googleCseToken节点参数下,否则google会采集失败。
获取cse_tok参数值的方法: 1):使用chrome或者firefox浏览器访问 https://cse.google.com/cse?cx=b0bcb1b09813012d8 2): 打开chrome开发者工具(快捷键F12或者鼠标在页面上右键单机,选择“检查”); 3): 随便输入一个搜索词,然后在开发者工具中,查看网络请求(network选项卡界面); 4): 找到路径为“/v1?rsz=20”开头的网络请求,在右侧切换到payload界面,即可查看到"cse_tok"参数的值;
具体可查看根目录下面的help-cse.png图片。
重写谷歌采集引擎模块,对反爬机制做了突破,仅需少量HTTP代理,即可稳定持续采集!
新增法国搜索引擎(QWANT);
新增设备网络类型检测功能,可识别是否需要翻墙,实现部分国外搜索引擎的智能化初始代理条件判定;
优化联系方式抓取任务的结果格式自动清洗功能。
优化大数据导出到服务器的提示信息;
优化百度地址转码逻辑;
优化软件后台的前端界面;
新增联系信息采集任务功能模块!
联系信息采集模块,支持批量采集导入的URL种子文件中的每个网站的联系信息。包括电话、手机号、QQ、微信、邮箱、facebook账号、twitter账号等。并且可自定义开启与关闭需要采集的内容;
电话/手机号兼容多种格式,包括但不限于手机号,400电话号码,以及如000-000-0000,020-0000-000等格式; 邮箱兼容多种格式,并且支持穿插空格形式的邮箱内容! facebook账号同时兼容ID格式与账号名格式!
支持自动保存采集进度,可停止后下次接着采集; 同时支持自定义导出字段内容与自定义导出格式; 同时支持导出结果文件下载到本地,以及导出保存到服务器目录;
去除agent数据库信息。直接由txt载入到内存中;
更改logger日志信息组件;
IP数据库更新;
配置文件更新;
爬虫(外链)引擎任务队列引擎,改用自研队列组件代替了redis相关操作;
爬虫(外链)引擎任务种子数据存储引擎,改用自研方案代替了redis相关存储;
任务数量统计算法重写与升级,基于内存存储任务结果数量,然后定时更新同步到数据库,提升效率并减少了大量磁盘IO操作;
数据重复判断引擎,改用自研布隆过滤器加强版实现,取代redis相关操作,性能与资源占用大量提升;
入库算法更新,循环单次入库,改为批量入库,减少大量磁盘IO操作;
新增任务对应的被方案过滤结果数量、被重复过滤数量显示;
已采集关键词判断逻辑优化;
命令行提示信息优化,授权信息格式化后显示在顶部,方便识别与查找;
优化任务执行队列,修复部分情况下导致任务排队中需要重启的问题;
重写关键词拓展引擎,改为按需拓展。无需指定线程数!当可用种子关键词不足时,自动触发。防止关键词拓展速度大于消费速度导致的资源浪费与性能降低;
优化程序算法,减少大量redis操作,避免redis占用与并发瓶颈引发的问题。
存储引擎升级,redis相关数据大瘦身;
初步支持集群功能。所有机器数据不重复,全局唯一。需要所有机器公用一个redis服务;
命令行语言默认为英文,防止部分操作系统中文乱码问题;
优化命令行提示信息格式;
自动拓展数量智能限制,防止redis数据量过大导致效率降低;