技术领域
[0001] 本发明涉及一种面向复杂跨域环境下的大文件快速传输方法及系统,属于数字信息传输领域。
相关背景技术
[0002] 随着全球化进程的不断加深,企业和组织之间的跨域数据传输需求日益增长。特别是在大数据时代,涉及大文件的传输变得越来越常见,这可能涉及不同地理位置、不同网络环境下的数据中心或节点之间的快速传输。目前主流的大文件传输技术方案包括迅雷、快传、Aspera、Signiant、FileCatalyst、Dropbox、Google Drive、OneDrive等云存储服务。但传统的数据传输方法在面对复杂跨域环境时往往存在一系列挑战:
[0003] 1.传输效率低下:传统的数据传输方法可能受到网络带宽、延迟等因素的限制,导致大文件传输速度慢,影响业务效率。
[0004] 2.传输可靠性不足:在复杂跨域环境下,网络条件可能不稳定,传统方法可能无法应对网络中断、丢包等问题,导致数据传输的不可靠性,甚至传输失败。
[0005] 3.路径选择困难:跨域数据传输可能涉及多条网络路径,选择最优路径成为一项挑战,传统方法往往缺乏智能的路径选择机制。
[0006] 4.影响因素预测不足:传统方法往往难以预测并适应复杂跨域环境中可能出现的传输故障,如网络拥塞、数据包丢失等,缺乏针对性的调整措施。
[0007] 因此,针对面向复杂跨域环境下的大文件快速传输需求,需要一种新型的技术来克服传统方法的局限性,提高传输效率和可靠性。
具体实施方式
[0052] 为使本发明的上述技术方案中各项技术特征和各项优点或技术效果能更明显易懂,下文配合附图进行详细说明。
[0053] 图1为一种多数据中心的架构示例,包括根数据中心和I级、II级、III级数据中心,多数据中心是层级结构连接,从第II层开始,每个节点配置了多个允许连接的上级节点,但同一时刻只能选择一个进行连接。用户可以从根节点上传一个大文件,该大文件需要从根节点依次下发到多数据中心的每个节点。为了使文件在这种多数据中心的不同节点之间能够高效且可靠的进行大文件传输,本发明实施例具体提出一种面向复杂跨域环境下的大文件快速传输方法,引入了节点健康度评估、节点间网络质量评估、最佳路径选择、故障预测与避免机制进行优化等技术手段,通过对节点进行健康度评估,对节点间进行网络质量评估,由此进行最佳路径的选择和故障的预测及避免,这些技术手段可以通过部署在每个节点上的传输优化管理模块来负责执行,组成一种面向复杂跨域环境下的大文件快速传输系统(Doris)。下面对本方法的详细处理步骤进行说明。
[0054] 1、实时监控节点的CPU、内存和磁盘的使用情况,计算节点健康度得分,具体算式如下:
[0055]
[0056] 其中,H为节点健康度得分,Uc为CPU使用率,Tc为CPU温度,Um为内存使用率,Tm为内存温度,Ud为磁盘使用率,Td为磁盘温度;w1,w2,w3为CPU、内存、磁盘的权重,均默认取1,可以根据具体环境和专家经验进行调整。
[0057] 如图2所示示例中,B1、B2、B3节点的健康度得分分别为0.141、0.299、0.712。
[0058] 2、根据实际带宽速率、最大带宽速率、丢包重传率和网络延迟情况,计算节点间网络质量得分,具体算式如下:
[0059]
[0060] 其中,Q为节点间网络质量得分,B为实际带宽速率,Bmax为最大带宽速率,R为丢包重传率,Δt为网络延迟;w4,w5,w6为带宽速率、网络延迟、丢包重传率的权重,均默认取1,可以根据具体环境和专家经验进行调整。
[0061] 如图2所示示例中,最大带宽速率为100Mbps,实际带宽速率为80Mbps,网络延迟4ms,丢包重传率1%,则通过上述式子计算得到B1‑C1节点间的网络质量得分为0.762。
[0062] 3、根据上级节点健康度得分和节点间网络质量得分选择最优路径,具体步骤如下:
[0063] a)下级节点去请求获取允许连接的上级节点的健康度得分,计算出自己节点与各上级节点的网络质量得分,若未连接过该上级节点导致数据缺失,则取已有数据中的平均值。
[0064] b)根据上级节点健康度得分和节点间网络质量得分计算路径得分,算式如下:
[0065] S=w7H+*w8Q
[0066] 其中,S为路径得分;w7,w8为上级节点健康度得分、节点间网络质量得分的权重,均默认取1,可以根据具体环境和专家经验进行调整。
[0067] d)对所有路径进行打分后,选择得分最高的路径为最优路径。如图2所示示例中,最优路径是B3‑C1节点路径。
[0068] 4、根据上级节点健康度得分、节点间网络质量得分计算路径健康度得分,根据路径健康度得分进行故障预测与避免,具体说明如下:
[0069] 下级节点与上级节点连接过程中,基于时间滑动窗口的思想,下级节点定期请求上级节点的健康度,计算当前节点间网络质量得分,进行故障预测。以图3所示示例为例,取最近10次的上级节点健康度得分和节点间网络质量得分进行计算,具体为:
[0070] a)基于时间滑动窗口计算当前时刻的上级节点健康度得分:
[0071]
[0072] 其中,Ht为当前时刻t的上级节点健康度得分,t‑1至t‑10为以t时刻开始将之前时间划分的10个时间窗口, 为距离t时刻最近的5个时间窗口的节点健康度得分总和,为距离t时刻最远的5个时间窗口的节点健康度得分总和。
[0073] b)基于时间滑动窗口计算当前时刻的节点间网络质量得分:
[0074]
[0075] 其中,Qt为当前时刻t的节点间网络质量得分,t‑1至t‑10为以t时刻开始将之前时间划分的10个时间窗口, 为距离t时刻最近的5个时间窗口的节点间网络质量得分总和, 为距离t时刻最远的5个时间窗口的节点间网络质量得分总和。
[0076] c)计算上级节点健康度得分和节点间网络质量得分的乘积,得到当前时刻的路径健康度得分:
[0077] Pt=Ht*Qt
[0078] 在图3所示的示例中,计算得到Ht=0.218,Qt=0.771,Pt=0.218*0.771=0.168。
[0079] d)当t时刻的路径健康度得分Pt小于故障阈值g时,说明该连接可能会产生故障,该阈值可根据实际情况设定。若此时无正在进行的大文件传输,则立即切换最优路径;如果此时有正在进行传输的大文件,则在大文件传输结束后切换最优路径。
[0080] 实验测试:
[0081] 1.对照测试:
[0082] 本测试将本发明提出的系统Doris与当前主流的轻量级分布式文件系统FastDFS进行对比。
[0083] 环境配置:内存15G,磁盘80G。
[0084] 测试结果:如图4所示,图4中的(a)图显示了单核CPU条件下,随着文件数据量增大,Doris的性能从慢于FastDFS 70%缩短至5%;图4中的(b)图显示了4核CPU条件下,Doris的性能从慢于FastDFS 57%提升至快于FastDFS 32%。测试结果表明,Doris的大文件上传的总体性能优于FastDFS,并随着文件数据量越大,核数越多,性能的优势越明显。
[0085] 2.压力对比测试:
[0086] 对比Doris和FastDFS在传输相同文件下的用时和硬件资源占用率的情况。本测试中,构建4级树状结构,对于不同数据量文件,计算分发至1w台机器的时间。
[0087] 环境配置:CPU4核,内存15G,磁盘80G,万兆带宽。
[0088] 测试结果:见如下表1和表2的测试数据,以及图5所示的Doris对处理器使用率和内存使用情况。
[0089] 表1测试过程中Doris和fastDFS的文件下发用时数据
[0090]
[0091]
[0092] 表2测试过程中Doris和FastDFS的CPU和内存最高使用率
[0093] CPU最高使用率 内存最高使用情况
Doris 370% 内存8GB,缓存317.8GB
FastDFS 390% 内存12GB,缓存370GB
[0094] 通过表1和表2的对比数据可知,Doris在过程中CPU使用率更低、内存占用也更低,因此性能比FastDFS更好。
[0095] 虽然本发明已以实施例公开如上,然其并非用以限定本发明,本领域的普通技术人员对本发明的技术方案进行的适当修改或者等同替换,均应涵盖于本发明的保护范围内,本发明的保护范围以权利要求所限定者为准。