首页 / 一种混合会议场景合成方法、系统、设备及介质

一种混合会议场景合成方法、系统、设备及介质公开 发明

技术领域

[0001] 本发明涉及视频处理技术领域,具体地,涉及一种混合会议场景合成方法、系统、设备及介质。

相关背景技术

[0002] 随着技术的发展,越来越多的会议以线上会议的形式进行。但现在的会议模式仍以简单的点对点视频的形式进行,没有会议的代入感,更无法实现线下会议的仪式感、身份展示等内容。
[0003] 线上会议场景的实现依赖于图像合成技术。视频抠图的研究已经有个较长时间的历史,传统的抠图方式有两种,绿幕抠图和AI人像抠图。
[0004] 绿幕抠图受限于场景和实时抠图效果,尤其是当前景有和绿幕背景有相近颜色的时候,抠图质量会有明显的问题。同时较高质量的绿幕抠图,对硬件要求较高,如专业的打光设备和抠图设备等,成本相对偏高。
[0005] 而AI人像抠图,抠图的目标也局限于人,对一些有人也有物的场景,如人手拿物体挥动,抠图效果不稳定,这种抠图方案应用场景也相对有限,应用效果较差。
[0006] 综上所述,现有的抠图方案,抠图范围、效果和成本都具有局限性。
[0007] 进一步地,在视频处理过程中,多帧图像之间缺乏联系,使得单张图像替换后的视频除了单张图像中存在的问题外,还容易出现连续运动不合理、位置突变等问题。
[0008] 以上背景技术内容的公开仅用于辅助理解本发明的发明构思及技术方案,其并不必然属于本专利申请的现有技术,在没有明确的证据表明上述内容在本专利申请的申请日已经公开的情况下,上述背景技术不应当用于评价本申请的新颖性和创造性。

具体实施方式

[0071] 下面结合具体实施例对本发明进行详细说明。以下实施例将有助于本领域的技术人员进一步理解本发明,但不以任何形式限制本发明。应当指出的是,对本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进。这些都属于本发明的保护范围。
[0072] 本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0073] 本发明实施例提供的一种混合会议场景合成方法,旨在解决现有技术中存在的问题。
[0074] 下面以具体地实施例对本发明的技术方案以及本申请的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图,对本发明的实施例进行描述。
[0075] 本发明在视频中获取第一帧图像,通过深度学习网络对第一RGB图像进行人像识别,得到第一人像范围,再在第一深度图像上获得第二人像范围,通过第一人像范围和第二人像范围识别得到alpha图像,获得背景图像,对人像与背景信息的处理,使得合成后的视频更加真实自然,再结合背景对多个人像置于会议位置,通过会议的组织形式使得会议中更好地呈现出会议特有的仪式感和身份认同,有利于提高会议效果。
[0076] 图1为本发明实施例中一种混合会议场景合成方法的步骤流程图。如图1所示,本发明实施例中一种混合会议场景合成方法包括:
[0077] 步骤S1:获取多个视频中的第一帧图像。
[0078] 在本步骤中,所述第一帧图像包括第一RGB图像和第一深度图像。视频由3D相机获得。3D相机获得的第一RGB图像和第一深度图像是像素级对齐的。由于后续步骤中需要对第一RGB图像和第一深度图像分别进行处理,因此本步骤中分别获取第一RGB图像和第一深度图像。第一RGB图像是RGB摄像头获得的二维图像。
[0079] 步骤S2:利用第一深度学习网络对所述第一RGB图像进行人像识别,得到第一人像范围。
[0080] 在本步骤中,第一深度学习网络是人像识别神经网络模型,可以是现有技术中的人像识别模型。本领域技术人员可以采用各类具体的人像识别模型对第一RGB图像进行处理。第一人像范围是包含人体的所有细节的区域,比如人脸、衣着、手、头发等。如图2a所示,第一深度学习网络可以识别出人像范围。
[0081] 步骤S3:在所述第一深度图像上,利用预设距离参数,得到第二人像范围。
[0082] 在本步骤中,第一深度图像上不同像素点具有唯一的深度值。将所有像素点的深度值与预设距离参数进行比较,得到深度值小于预设距离参数的所有像素点,即第二人像范围。预设距离参数可以是预设的固定值,也可以是依据环境改变的值,以实现对目标对象的自适应。比如,预设距离参数可以为1.5m,此时,在第一深度图像上所有深度值小于1.5m的像素点的集合构成第二人像范围。如图2b所示,利用预设距离参数,得到一定深度范围内的对象范围。
[0083] 步骤S4:将所述第一人像范围与所述第二人像范围叠加,再利用第二深度学习网络进行目标识别,得到目标对象的alpha图像。
[0084] 在本步骤中,将第一人像范围与第二人像范围做“或”操作,得到第一人像范围与第二人像范围的集合。如图2c所示,叠加的区域是第一人像范围与第二人像范围的集合,具有更大的范围。第二深度学习网络是不同于第一深度学习网络的神经网络。第二深度学习网络的识别对象也可以与第一深度学习网络不同。比如,第一深度学习网络识别仅人像,而第二深度学习网络可以识别人像及与其存在交互的物品,如笔、手机、钥匙等。第一深度学习网络识别出人物主体。第二深度学习网络识别出人物的全部,也可以同时识别出与人体交互的物品信息,实现更全面真实准确的对象识别。
[0085] 步骤S5:从背景素材库中获得背景,所述背景中预设多个会议位置,将多个所述人像置于所述会议位置。
[0086] 在本步骤中,所述背景素材库中的背景由3D相机采集获得。利用3D相机在预设机位采集预设背景图像。预设背景图像是多种,用于获得各类背景素材。对同一场景,可以获得不同角度的多张背景图像。背景图像为3D图像。在背景素材库中,可以以RGB图像和深度图像的方式分别存储,也可以以RGBD图像的方式进行存储。在本实施例中,背景为会议场景。背景素材库中对背景图像分类进行存储,如大型会议室、中型会议室、小型会议室、星空会议室、户外会议等。3D相机既可以与步骤S1中的3D相机相同,又可以不同。不同3D相机的参数可以不同,比如相机的FOV、分辨率、有效测量距离等。背景既可以是由3D相机直接拍摄获得的图像,也可以是经过处理的图像。比如,对于拍摄到的会议室,将会议室顶部替换为星空,则可形成星空会议室;将会议室墙壁替换为海洋,则可以形成海洋会议室。
[0087] 会议室中有多个会议位置。每个会议位置是一个座位,用于将一个人像的信息进行展示,实现人在会议室内的效果。会议室有多种形式,而与会人员也有多种身份,可以根据不同的身份对与会人员的位置进行安排。比如,主持人、最高级别领导者、普通员工等。通过对与会人员位置的安排,与会议室场景的搭配,使得会议主题更加突出,人员到场情况更加一目了然,提高会议效率。
[0088] 由于每个人的习惯及姿态不同,所以获得的人像的姿态也不同。本步骤中需要对人像进行相应的调整,以使人像可以置于会议位置上。比如,对人像尺寸进行整体的大小缩放、位置平移等操作。
[0089] 步骤S6:利用所述人像的3D信息和所述背景的3D信息,调整所述人像与所述背景合适的位置关系和图像比例。
[0090] 在本步骤中,位置关系是人像相对于背景的方位关系,比如,人像位于背景图像的中央、左侧、右侧、上部、中部或下部等。图像比例是人像相对于背景的大小。在调整图像比例时,根据人像的深度值变化进行调整。比如,在步骤S2中获得的人像的深度值是150,而在背景中调整人像位置后,其深度值为300,则根据人像在相机坐标系下的变化,计算其变化,从而得到人像区域的变大或变小的尺寸。本步骤可以使得人像与背景的位置与比例更加科学合理,避免突兀。
[0091] 图3为本发明实施例中一种得到第一人像范围的步骤流程图。如图3所示,本发明实施例中一种得到第一人像范围的步骤包括:
[0092] 步骤S21:利用第一深度学习网络对所述第一RGB图像进行人像识别,得到初始人像范围。
[0093] 在本步骤中,第一深度学习网络在识别时,可以识别出完整的头发。深度学习网络识别出的人体包括人体的各个部分的整体,包括垂下的头发、躯干等,但对于人体内部的纹理等并不显示,而是仅显示人体所在区域。本步骤中获得的人像范围包括头发区域。本步骤中识别出的头发区域可以由单独的深度学习网络进行识别,也可以由与人像范围相同的深度学习网络学习获得。
[0094] 步骤S22:在所述初始人像范围的边缘,向外拓展n个像素,得到第一人像范围。
[0095] 在本步骤中,第一人像范围的边缘可以由多种方式确定,比如通过深度值的变化速率获得、通过深度值的大小获得、通过RGB图中的颜色变化速度确定等。只要是可以获得第一人像范围的方式均可。以边缘为起始界,向内或向外拓展n个像素,得到第二人像范围。n为正整数,且与边缘像素点和相邻的背景像素点的亮度差相关,即不同边缘位置向内或向外的幅度可以是不同的。边缘像素点和相邻的背景像素点的亮度越高,n值越大;边缘像素点和相邻的背景像素点的亮度越低,n值越小。在部分实施例中,n的大小还小第一人像范围上边缘点法线方向上与另一个边缘点的距离d有关。距离d越大,n越大;距离d越小,n越小。
[0096] 本实施例通过第一深度学习网络获得初始人像范围,并通过对边缘进行拓展,获得人像的边缘及其周边信息,能够获得更加全面的人像信息。
[0097] 图4为本发明实施例中一种得到第二人像范围的步骤流程图。如图4所示,本发明实施例中一种得到第二人像范围的步骤包括:
[0098] 步骤S31:在所述第一深度图像上,获得所述第一人像范围对应的图像区域,并计算得到所述图像区域对应的平均深度值。
[0099] 在本步骤中,由于第一人像范围是在第一RGB图像上获得,第一RGB图像与第一深度图像是像素级对齐的,可以直接获得第一人像范围在第一深度图像上对应的图像区域。由于每个像素点的深度值是已知的,可以计算得到该图像区域内的平均深度值。由于人体是不规则的形状,并且受拍摄角度的影响,平均深度值只是人体朝向相机一则的表面的均值。由于第一人像范围主要是人像,因此平均深度值是位于人体内的深度值。
[0100] 步骤S32:对所述平均深度值与第一预设值相加,得到第一距离值。
[0101] 在本步骤中,第一预设值是常数。将第一预设值与平均深度值相加,得到第一距离值。第一预设值大于人体的厚度,比如第一预设值大于10cm、11cm、12cm或其他值。第一距离值可以完整地覆盖人像的深度值。
[0102] 步骤S33:在所述第一深度图像上,获得所有深度值小于所述第一距离值的像素点,得到第二人像范围。
[0103] 在本步骤中,由于第一距离值包括了所有人像,本步骤获得的像素点包括了所有的人像,即第二人像范围包括了所有的人像。
[0104] 本实施例以第一人像范围的平均深度值为基准,与第一预设值相加,得到第一距离值,从而可以得到第一深度图像上所有深度值小于第一距离值的像素点,通过识别出的第一人像范围获得了第一深度图像上所有在预期范围内的对象,实现了人像与深度值的自适应调节。
[0105] 图5为本发明实施例中另一种得到第二人像范围的步骤流程图。如图5所示,图5为本发明实施例中另一种得到第二人像范围的步骤包括:
[0106] 步骤S34:对所述第一人像范围进行目标识别,获得符合预设条件的部分人像范围。
[0107] 在本步骤中,对第一人像范围进行识别的识别,获得每个人体对象的区域。比如,当第一人像范围中有3个人时,则获得每个人的部分。预设条件可以是对多个人的比较,也可以是与第一人像范围的比较。当预设条件是对多个人的比较时,预设条件可以是多人中占比面积最大或小的一个人或两个人等。当预设条件是与第一人像范围的比较时,预设条件可以是占第一人像范围固定比例以上或以下的对象。比如第一人像范围中有3个人A、B、C,分别占比51%、24%和25%,预设条件为占比超过50%的面积,则识别出A作为部分人像范围。
[0108] 步骤S35:在所述第一深度图像上,获得所述部分人像范围对应的图像区域,并计算得到所述图像区域对应的最大深度值。
[0109] 在本步骤中,由于第一RGB图像与第一深度图像是像素级对齐的,可以获得步骤S34中确定的部分人像范围对应的图像区域,从而得到其最大深度值。
[0110] 步骤S36:对所述最大深度值与第二预设值相加,得到第二距离值。
[0111] 在本步骤中,第二预设值是常数,既可以是固定不变的数,也可以是与最大深度值相关的数。比如最大深度值为不同的值时,其深度对应的测量误差不同,此时,可以采用与测量误差相关的值,当测量误差大时,第二预设值较大,当测量误差小时,第二预设值较小。
[0112] 步骤S37:在所述第一深度图像上,获得所有深度值小于所述第一距离值的像素点,得到第二人像范围。
[0113] 本步骤与步骤S33相同,此处不再赘述。
[0114] 本实施例通过第一人像范围中的部分图像的最大深度值作为基准,与第二预设值相加,得到第二距离值,从而得到第一深度图像上所有深度值小于第一距离值的像素点,通过识别出的第一人像范围获得了第一深度图像上所有在预期范围内的对象,实现了人像与深度值的自适应调节。
[0115] 图6为本发明实施例中一种得到alpha图像的步骤流程图。如图6所示,本发明实施例中一种得到alpha图像的步骤包括:
[0116] 步骤S41:将所述第一人像范围与所述第二人像范围叠加,得到第一Trimap图像。
[0117] 在本步骤中,将第一人像范围与第二人像范围取或操作,得到第一Trimap图像。第一Trimap图像既包含了第一深度学习网络识别出的范围,又包含了深度值小于特定值的对象。
[0118] 步骤S42:结合所述第一帧图像的前或后帧图像信息,对所述第一Trimap图像做平滑滤波处理,得到第二Trimap图像。
[0119] 在本步骤中,所述前或后帧图像信息至少为两帧图像信息。当第一帧图像中视频的首帧图像时,向后获得图像信息,及对应的参考Trimap图像。当第一帧图像是视频的末帧图像时,向前获得图像信息,及对应的参考Trimap图像。其他情况下,同时向前和向后取相等数量帧的图像信息,及对应的参考Trimap图像。
[0120] 将参考Trimap图像及第一Trimap图像按时间顺序排列,并对第一Trimap图像进行平滑处理,得到第二Trimap图像。在对第一Trimap图像进行平滑处理时,可以根据图像间的时间间隔分配权重。时间间隔越长,权重越小。
[0121] 步骤S43:利用第二深度学习网络对所述第二Trimap图像进行目标识别,得到alpha图像。
[0122] 在本步骤中,第二深度学习网络不同于第一深度学习网络。第二深度图像只对第二Trimap图像进行目标识别,并且是对RGB图像和深度图像同时进行识别,可以获得更加准确的结果。第二深度学习网络在训练时,以第二Trimap图像为输入,以alpha图像为输出,经过多轮迭代后,误差值小于预设值时,完成模型训练。第二深度学习网络是针对第二Trimap专门训练的模型,具有非常高的精度,可以准确识别出各类目标对象,尤其对于人体与其他物体交互时,准确性比现有技术的优势更加明显。
[0123] 本实施例将第一人像范围与第二人像范围叠加,再利用前或后帧图像信息对第一Trimap图像做平滑滤波处理,得到第二Trimap图像,再进行目标识别,得到高质量高分辨率的alpha图像,有效地提高获得图像的质量,并且具有高鲁棒性。
[0124] 图7为本发明实施例中一种获取背景并置于会议位置的步骤流程图。如图7所示,本发明实施例中一种获取背景并置于会议位置的步骤包括:
[0125] 步骤S51:从所述背景素材库中选择背景。
[0126] 在本步骤中,背景中预设多个会议位置。背景按照不同的类型进行选择。在获取背景图像后,也获得了其类型等相关信息。根据参会人数选择会议室大小。根据会议主题选择合适的会议室背景。如图8所示,会议室的顶部、墙壁和地面、桌面均可以进行特效处理,使得会议的主题更加突出,有利于带动与会者迅速进入会议状态,提升会议效果。
[0127] 步骤S52:根据所述背景对所述人像范围进行截取,得到参会人像范围。
[0128] 在本步骤中,对人像范围进行截取,使得过多展示的部分不在会议室中展示。比如,与会人员站立在3D相机前时,3D相机将获得人像绝大部分的信息,但会议室中可能被桌子遮挡,只有胸部以上位置可以呈现,因此需要将胸部以下部分截取掉,而只在会议室中展示胸部以上部分。此时,胸部以上部分就是参会人像范围。
[0129] 步骤S53:将所述参会人像范围置于所述会议位置。
[0130] 在本步骤中,将参会人像范围置于会议位置处。比如,将人像胸部以上置于会议位置处,得到人坐在会议桌旁的效果。每个背景都会预设多个会议位置。本步骤将多人不重复地置于会议位置。本步骤还考虑与会者的身份,将与会者安排至不同的会议位置处。
[0131] 本实施例通过选取背景,对人像范围进行截取,再将参会人像范围置于会议位置,使得在不同姿态下的人像都可以以较好的姿态展现在会议室中,实现人员与会议室的配合,提升会议气氛与效果。
[0132] 图9为本发明实施例中一种调整所述人像与所述背景合适的位置关系和图像比例的步骤流程图。如图9所示,本发明实施例中一种调整所述人像与所述背景合适的位置关系和图像比例的步骤包括:
[0133] 步骤S61:根据相机坐标系下所述人像的3D信息和所述背景的3D信息,对所述人像的3D位置和形变角度进行调整。
[0134] 在本步骤中,对人像的位置和形变角度在相机坐标系下进行调整。由于人像的3D信息和背景图像均由3D相机获得,因此在相机坐标系下进行调整是最为快捷高效的方式。由于人像与背景信息是位于不同时间、时空拍摄的两张图像中的信息,因此可能存在重叠或部分重叠的情况,因此,根据重叠情况,对人像的3D位置进行调整,以使得调整后的图像更加合理。同时,由于人像的朝向在背景图像中并不总是合理,比如朝向墙壁、朝向不合适的对象(包括动物与人等),都需要对于人像的朝向进行调整,因此也需要对形变角度进行相应调整。
[0135] 步骤S62:根据相机坐标系下所述人像的3D信息和所述背景的3D信息,对所述人像的大小进行调整。
[0136] 在本步骤中,由于人像位置及形变角度的调整,人像与背景的尺寸也会出现不协调。这是由于在相机拍摄时的近大远小原理导致的。当人像在被调整时,其深度值出现变化,如从150变为300,则人像在图像上的占比会相应减小。由于相机拍摄采用小孔成像原理,人像的尺寸变化并不是与深度值的变化成线性相关,而是呈现正切函数的相关关系。
[0137] 本实施例根据人像与背景的匹配关系,背景特点,对人像的3D位置、形变角度和大小进行调整,使得合成后的图像更加真实,符合三维世界特性,具有更好的合成效果。
[0138] 图10为本发明实施例中一种混合会议场景合成系统的结构示意图。如图10所示,本发明实施例中一种混合会议场景合成系统包括:
[0139] 帧获取模块,用于获取多个视频中的第一帧图像;其中,所述第一帧图像包括第一RGB图像和第一深度图像;
[0140] 第一人像模块,用于利用第一深度学习网络对所述第一RGB图像进行人像识别,得到第一人像范围;
[0141] 第二人像模块,用于在所述第一深度图像上,利用预设距离参数,得到第二人像范围;
[0142] 识别模块,用于将所述第一人像范围与所述第二人像范围叠加,再进行目标识别,得到目标对象的alpha图像;
[0143] 合成模块,用于从背景素材库中获得背景,所述背景中预设多个会议位置,将多个所述人像置于所述会议位置;其中,所述背景素材库中的背景由3D相机采集获得;
[0144] 调整模块,用于利用所述人像的3D信息和所述背景的3D信息,调整所述人像与所述背景合适的位置关系和图像比例。
[0145] 具体地说,帧获取模块获得多个视频中的图像,从而可以实现对单帧图像的处理。帧获取模块同时获得多帧图像,并对不同帧按时间顺序进行处理。第一人像模块利用RGB图像进行人像识别得到第一人像范围,可以利用现有模型进行识别,提高应用效率。第二人像模块利用预设距离参数得到第二人像范围,可以更好地获得与人像存在交互的物品的信息。识别模块将第一人像范围与第二人像范围叠加,再识别出目标对象的alpha图像,可以获得更加全面准确的识别效果。合成模块获得背景及会议位置信息,将人像置于会议位置,实现会议主题与人像的适配。调整模块调整人像与背景的位置关系和图像比例,提高人像与背景的融合效果。
[0146] 本实施例在视频中获取第一帧图像,通过深度学习网络对第一RGB图像进行人像识别,得到第一人像范围,再在第一深度图像上获得第二人像范围,通过第一人像范围和第二人像范围识别得到alpha图像,获得背景图像,对人像与背景信息的处理,使得合成后的视频更加真实自然,再结合背景对多个人像置于会议位置,通过会议的组织形式使得会议中更好地呈现出会议特有的仪式感和身份认同,有利于提高会议效果。
[0147] 本发明实施例中还提供一种混合会议场景合成设备,包括处理器。存储器,其中存储有处理器的可执行指令。其中,处理器配置为经由执行可执行指令来执行的一种混合会议场景合成方法的步骤。
[0148] 如上,本实施例在视频中获取第一帧图像,通过深度学习网络对第一RGB图像进行人像识别,得到第一人像范围,再在第一深度图像上获得第二人像范围,通过第一人像范围和第二人像范围识别得到alpha图像,获得背景图像,对人像与背景信息的处理,使得合成后的视频更加真实自然,再结合背景对多个人像置于会议位置,通过会议的组织形式使得会议中更好地呈现出会议特有的仪式感和身份认同,有利于提高会议效果。
[0149] 所属技术领域的技术人员能够理解,本发明的各个方面可以实现为系统、方法或程序产品。因此,本发明的各个方面可以具体实现为以下形式,即:完全的硬件实施方式、完全的软件实施方式(包括固件、微代码等),或硬件和软件方面结合的实施方式,这里可以统称为“电路”、“模块”或“平台”。
[0150] 图11是本发明实施例中的一种混合会议场景合成设备的结构示意图。下面参照图11来描述根据本发明的这种实施方式的电子设备600。图11显示的电子设备600仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0151] 如图11所示,电子设备600以通用计算设备的形式表现。电子设备600的组件可以包括但不限于:至少一个处理单元610、至少一个存储单元620、连接不同平台组件(包括存储单元620和处理单元610)的总线630、显示单元640等。
[0152] 其中,存储单元存储有程序代码,程序代码可以被处理单元610执行,使得处理单元610执行本说明书上述一种混合会议场景合成方法部分中描述的根据本发明各种示例性实施方式的步骤。例如,处理单元610可以执行如图1中所示的步骤。
[0153] 存储单元620可以包括易失性存储单元形式的可读介质,例如随机存取存储单元(RAM)6201和/或高速缓存存储单元6202,还可以进一步包括只读存储单元(ROM)6203。
[0154] 存储单元620还可以包括具有一组(至少一个)程序模块6205的程序/实用工具6204,这样的程序模块6205包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0155] 总线630可以为表示几类总线结构中的一种或多种,包括存储单元总线或者存储单元控制器、外围总线、图形加速端口、处理单元或者使用多种总线结构中的任意总线结构的局域总线。
[0156] 电子设备600也可以与一个或多个外部设备700(例如键盘、指向设备、蓝牙设备等)通信,还可与一个或者多个使得用户能与该电子设备600交互的设备通信,和/或与使得该电子设备600能与一个或多个其它计算设备进行通信的任何设备(例如路由器、调制解调器等等)通信。这种通信可以通过输入/输出(I/O)接口650进行。并且,电子设备600还可以通过网络适配器660与一个或者多个网络(例如局域网(LAN),广域网(WAN)和/或公共网络,例如因特网)通信。网络适配器660可以通过总线630与电子设备600的其它模块通信。应当明白,尽管图11中未示出,可以结合电子设备600使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储平台等。
[0157] 本发明实施例中还提供一种计算机可读存储介质,用于存储程序,程序被执行时实现的一种混合会议场景合成方法的步骤。在一些可能的实施方式中,本发明的各个方面还可以实现为一种程序产品的形式,其包括程序代码,当程序产品在终端设备上运行时,程序代码用于使终端设备执行本说明书上述一种混合会议场景合成方法部分中描述的根据本发明各种示例性实施方式的步骤。
[0158] 如上所示,本实施例在视频中获取第一帧图像,通过深度学习网络对第一RGB图像进行人像识别,得到第一人像范围,再在第一深度图像上获得第二人像范围,通过第一人像范围和第二人像范围识别得到alpha图像,获得背景图像,对人像与背景信息的处理,使得合成后的视频更加真实自然,再结合背景对多个人像置于会议位置,通过会议的组织形式使得会议中更好地呈现出会议特有的仪式感和身份认同,有利于提高会议效果。
[0159] 图12是本发明实施例中的计算机可读存储介质的结构示意图。参考图12所示,描述了根据本发明的实施方式的用于实现上述方法的程序产品800,其可以采用便携式紧凑盘只读存储器(CD‑ROM)并包括程序代码,并可以在终端设备,例如个人电脑上运行。然而,本发明的程序产品不限于此,在本文件中,可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
[0160] 程序产品可以采用一个或多个可读介质的任意组合。可读介质可以是可读信号介质或者可读存储介质。可读存储介质例如可以为但不限于电、磁、光、电磁、红外线、或半导体的系统、装置或器件,或者任意以上的组合。可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑盘只读存储器(CD‑ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。
[0161] 计算机可读存储介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了可读程序代码。这种传播的数据信号可以采用多种形式,包括但不限于电磁信号、光信号或上述的任意合适的组合。可读存储介质还可以是可读存储介质以外的任何可读介质,该可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。可读存储介质上包含的程序代码可以用任何适当的介质传输,包括但不限于无线、有线、光缆、RF等等,或者上述的任意合适的组合。
[0162] 可以以一种或多种程序设计语言的任意组合来编写用于执行本发明操作的程序代码,程序设计语言包括面向对象的程序设计语言—诸如Java、C++等,还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户计算设备上部分在远程计算设备上执行、或者完全在远程计算设备或服务器上执行。在涉及远程计算设备的情形中,远程计算设备可以通过任意种类的网络,包括局域网(LAN)或广域网(WAN),连接到用户计算设备,或者,可以连接到外部计算设备(例如利用因特网服务提供商来通过因特网连接)。
[0163] 本实施例在视频中获取第一帧图像,通过深度学习网络对第一RGB图像进行人像识别,得到第一人像范围,再在第一深度图像上获得第二人像范围,通过第一人像范围和第二人像范围识别得到alpha图像,获得背景图像,对人像与背景信息的处理,使得合成后的视频更加真实自然,再结合背景对多个人像置于会议位置,通过会议的组织形式使得会议中更好地呈现出会议特有的仪式感和身份认同,有利于提高会议效果。
[0164] 本说明书中各个实施例采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似部分互相参见即可。对所公开的实施例的上述说明,使本领域专业技术人员能够实现或使用本发明。对这些实施例的多种修改对本领域的专业技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本发明的精神或范围的情况下,在其它实施例中实现。因此,本发明将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。
[0165] 以上对本发明的具体实施例进行了描述。需要理解的是,本发明并不局限于上述特定实施方式,本领域技术人员可以在权利要求的范围内做出各种变形或修改,这并不影响本发明的实质内容。

当前第1页 第1页 第2页 第3页