技术领域
[0001] 本发明属于数据传输技术领域,具体涉及一种基于未来场景生成网络的远控抗时延视频传输方法。
相关背景技术
[0002] 随着5G通信的发展和汽车无人化的发展,稳定的视频传输系统至关重要。对于基于5G远程控制的无人驾驶而言,车辆需要实时传输高清图像和视频,以便远程控制中心或其他车辆进行分析和决策。例如:1.在某些情况下,远程操作员需要通过驾驶舱,介入无人驾驶车辆的控制;通过5G网络,远程操作员可以接收到车辆传输的实时视频流,实时了解车辆周围的环境,并进行远程操作。
[0003] 2.无人驾驶车辆之间可以通过5G网络实时共享图像和视频信息,实现车辆协同;例如,前方车辆可以将道路状况的实时视频传输给后方车辆,帮助其提前做出决策。
[0004] 3.无人驾驶车辆需要高精度地图来辅助导航,车辆可以实时捕捉道路和环境的图像,并通过5G网络传输到地图服务器,实时更新和构建高精度地图。
[0005] 然而,现有的5G网络传输存在问题如下:5G网络虽然具有较低的时延,但在远程控制无人驾驶车辆时,视频流的传输仍然存在一定的传输延迟,特别是在网络状况不稳定或距离较远的情况下;在无人驾驶车辆装载多个相机时,视频流的负载压力进一步加大;在此情况下,可能会导致远程驾驶舱的显示屏黑屏,车辆之间共享视频帧或地图服务器视频帧丢失等问题。以往的5G远控视频传输技术对于此问题没有对应的优化或补偿方法。
具体实施方式
[0024] 为了便于本领域技术人员的理解,下面结合实施例与附图对本发明作进一步的说明,实施方式提及的内容并非对本发明的限定。
[0025] 参照图1所示,一种基于未来场景生成网络的远程控制抗时延视频传输方法,应用于远程车辆控制场景中,场景中包含远控车辆、云服务器、远程驾驶舱、显示屏,所述云服务器通过网络分别与远控车辆、远端驾驶舱数据连接,远端驾驶舱与显示屏通过数据线连接;方法步骤如下:
1)将远控车辆和远程驾驶舱的时间基准进行同步;具体包括:
11)远程驾驶舱中的GPS授时设备接收导航卫星的标准时间信号,并基于通用精确时间协议(GPTP)将时间信息同步至远程驾驶舱的各个子系统;
12)远控车辆中的GPS授时设备接收导航卫星的标准时间信号,并将其转换为远控车辆系统的时间基准信号,以保证远控车辆与远程驾驶舱的时间一致性。
[0026] 2)通过多路环视摄像头采集远控车辆所处环境的原始视频流数据;具体包括:21)将多路环视摄像头均匀安装在远控车辆的车身四周,确保摄像头能够覆盖车辆周围360度的视野;根据每个摄像头的安装位置进行角度和焦距的校准,确保视频画面的清晰度和无畸变;使用激光测距仪和标定板对每个摄像头进行动态和静态校准,确保其采集到的视频流数据符合预期的视觉感知标准;
22)对各环视摄像头采集到的远控车辆所处环境的实时视频数据按照设定的帧率和分辨率进行格式处理;所述远控车辆所处环境包括:道路、交通状况(如车辆、行人、交通标志)、自然环境(如天气、光照、地形)、障碍物(如建筑、树木、路障)以及远控车辆可能面临的特殊作业场景(如工业区、城市密集地带)。
[0027] 3)将原始视频流数据中添加摄像头编号和时间戳信息,编码、加密后发送给云服务器;具体包括:31)对视频流数据进行处理时,在每一帧视频数据中嵌入相应的摄像头编号和时间戳信息;
32)使用高效视频编码(HEVC)编码器对嵌入摄像头编号和时间戳信息后的原始视频流数据进行压缩编码,原始视频流数据在压缩编码被分割为若干带有摄像头编号和时间戳的视频段,便于后续的加密和传输;
33)对压缩编码后的视频流数据进行加密,采用AES‑128加密算法对每个视频段进行加密,每个视频段在加密处理后变为密文流;
34)将加密后视频流数据通过HLS(HTTP Live Streaming)传输协议进行打包和传输给云服务器;HLS传输协议将视频流数据分割为小的文件段,通过HTTP进行顺序传输。
[0028] 4)云服务器对接收到的视频流数据进行解密、解码,并对解码后的视频流数据进行预处理,以生成多路未来场景;具体包括:41)云服务器使用AES‑128解密算法对接收到的视频流数据进行解密处理;
42)使用高效视频编码(HEVC)解码器将解密后的视频流数据恢复为原始视频帧;
解码后的每一帧都保留摄像头编号和时间戳信息;
43)将解码后的n帧视频分为n‑1组(每相邻的两帧为一组),并对每组图像进行高斯金字塔下采样,将图像尺寸调整为1024x512,再对图像像素值进行归一化处理,将其范围调整到[0,1],同时将图像数据类型转换为float32,通过将图像的像素值除以255以及相应的数据格式转换函数来实现;将图像的颜色通道顺序从RGB转换为未来场景生成所需的BGR格式,并将通道顺序调整为通道数、高、宽;根据设置好的批次大小,将每组图像打包成一个批次。
[0029] 5)生成多路未来场景视频流数据;具体包括:51)从每组图像中提取多尺度、多层次的浅层特征;通过分层的卷积层逐步处理输入图像,提取出细粒度的特征图;在每个卷积层中,逐步降低输入特征图的分辨率,并不断增加通道数,压缩数据量并保留特征信息;
52)进一步优化步骤51)中得到的特征图,通过多尺度膨胀卷积来增强特征的表达能力,使用膨胀卷积在不增加计算量的情况下扩大感受野,从而整合来自不同空间尺度的信息;通过设置不同的膨胀率(1,2,4)来处理来自不同尺度的特征图,能够获取输入图像在多个尺度上的边缘、纹理和局部形状信息;再使用线性层对特征图进行融合,生成跨尺度的外观特征,以此保留输入特征的细节信息,并增强了特征图的全局上下文信息;
53)利用transformer结构与帧间注意力机制捕捉输入两帧之间的运动信息和外观信息;通过帧间注意力机制实现运动信息和外观信息的统一提取;所述帧间注意力机制通过计算当前帧与相邻帧之间的相似度,生成用于提取运动特征的注意力图,注意力图能够捕捉帧间的运动信息,且在不丢失细节的情况下增强外观特征的表达能力,使得在生成未来视频帧时能够准确反映输入视频帧之间的运动变化,同时保留物体的细节和纹理;
54)将获得的特征信息转化为具体的光流估计,并逐步细化估计结果,最终生成准确的未来视频帧;具体为:通过线性扩展和特征融合生成初步的光流估计,初步的光流估计表示输入视频帧之间的像素运动,逐级细化初步的光流估计,使得初步的光流估计能够准确捕捉到输入视频帧中的细微运动变化;使用3层卷积层,每层卷积层都通过计算残差来不断更新和修正前一层的估计结果,结合上采样操作,使得初步的光流估计能够逐步恢复到与输入图像相同的分辨率;将生成的光流和融合图用于合成未来视频帧,确保合成帧与输入视频帧在视觉上的一致性和运动上的连贯性;
55)对步骤54)中生成的未来视频帧进行细化处理,以提升最终输出视频帧的视觉质量;具体为:利用多尺度特征和上下文信息对未来视频帧进行修复,确保输出视频帧的高质量;在细化网络中,初步生成的未来视频帧经过几次下采样,以提取多尺度的特征,特征通过卷积层处理,进一步增强纹理和细节信息;再通过上采样操作,将特征被恢复到与输入视频帧相同的分辨率,并与初始未来视频帧融合,生成最终输出未来视频帧;
56)对细化处理生成的未来视频帧进行封装,按照顺序进行视频帧的组装,得到在时域上快于原始视频流V_o={Fo_1,Fo_2,...,Fo_m}若干帧的生成视频流V_g{Fg_1,Fg_
2,...,Fg_m},其中m为总帧数,Fo_i,Fg_i分别表示原始视频流和生成视频流的第i帧。
[0030] 6)将多路未来场景视频流中添加摄像头编号以及时间戳信息;具体包括:对每一路未来场景视频流中添加与采集到的原始视频流摄像机编号相同的摄像
机编号,同时,对生成的每一路未来场景视频流的视频帧添加时间戳信息,其中原始视频帧的时间戳t_1和对应生成的未来场景视频帧t_2存在对应关系如下:
t_2=t_1 + t_p
其中,t_p表示生成的未来场景视频流在时域上快于原始视频流的时间。
[0031] 7)将原始视频流数据和未来场景视频流数据进行编码、加密后发送给远程驾驶舱;具体包括:71)使用高效视频编码(HEVC)根据设定的帧率和分辨率对原始视频流数据和未来场景视频流数据进行压缩编码;
72)采用AES‑128对称加密算法对压缩编码后的原始视频流数据和未来场景视频流数据进行加密处理,每个视频段在加密后转化为密文流,加密过程中,摄像头编号和时间戳信息同样被加密;
73)将编码、加密处理后的原始视频流数据和未来场景视频流数据通过HLS传输协议发送至远程驾驶舱。
[0032] 8)远程驾驶舱对接收到的数据解密、解码并分发;具体包括:81)使用AES‑128解密算法对接收到的原始视频流数据和未来场景视频流数据进行解密;
82)使用高效视频编码(HEVC)解码器将压缩后的原始视频流数据和未来场景视频流数据为原始视频V_o和生成视频V_g,解码过程中,从接收到的两种视频流数据中提取每一帧视频,确保视频的清晰度和完整性,解码后的每一帧生成视频帧都保留摄像头编号和时间戳信息。
[0033] 9)对原始视频流数据进行丢包和时延检测,同时对未来场景视频流数据进行视觉质量优化;其中,对原始视频流数据进行丢包和时延检测具体包括:
分析原始视频流中的视频数据包的接收时间点和序列号,检测是否存在丢包现象得到下一个显示周期需要显示但未能接收到的缺失视频帧集合M,集合M中包含所有缺失帧的序号。
[0034] 其中,对未来场景视频流数据进行视觉质量优化具体包括:91)去时延优化编码;
利用去时延编码器逐层提取生成视频帧{Fg_1,Fg_2,...,Fg_m}}的多尺度特征,将输入图像从原始的高分辨率逐步降采样,以捕捉更深层次的语义信息;通过每层的下采样操作压缩图像尺寸,并捕获更大的感受野以获取图像的全局结构信息;编码器由多个非线性激活卷积层组成,每个非线性激活卷积层包含卷积层、非线性激活层、注意力机制层、跳跃连接层以及下采样层;去时延编码器对生成视频帧进行编码,得到含有全局信息的浅层生成视频帧特征Fg_s;
92)生成视频帧深层特征提取;
对编码器提取的浅层生成视频帧特征Fg_s进行进一步处理,进行进一步的特征提取、增强重要信息并减少冗余信息,得到深层特征Fg_d;
93)去时延优化解码;
利用去时延优化解码器进行上采样,通过上采样方法 PixelShuffle进行实现;将每个像素值分配到更大的空间,从而实现图像分辨率的倍增,同时将通道数减半;去时延优化解码器将编码器、中间层提取和处理后的特征逐步恢复到原始图像的分辨率;通过逐层上采样,去时延优化解码器重建图像的空间结构和细节信息;在恢复图像分辨率的过程中,与编码器的对应层进行跳跃连接,将高分辨率特征与低分辨率特征融合,以保留更多细节;
去时延优化解码器对生成视频帧的深层特征Fg_d进行解码,输出去模糊、去延时后的生成视频帧{Fhq_1,Fhq_2,...,Fhq_m},其中m为总帧数,Fhq_i表示第i帧高质量生成视频帧;将高质量生成视频帧生成视频帧的时间戳与所述步骤82)提取的生成视频帧的时间戳对齐,以组装成高质量生成视频流V_hq。
[0035] 10)形成完整连续的视频流,具体包括:将利用优化后的高质量生成视频流V_hq进行补偿的完整视频数据传输至驾显示
屏上进行实时回显。
[0036] 本发明具体应用途径很多,以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进,这些改进也应视为本发明的保护范围。