技术领域
[0001] 本发明涉及一种数据标注系统,尤其涉及一种基于计算机视觉识别技术的模型辅助式数据标注系统及标注方法。
相关背景技术
[0002] 近些年,基于深度学习的计算机视觉识别技术被广泛应用于各行各业。一个表现优异的深度学习模型需要大量的高质量的标注数据予以支持,而这些高质量的标注数据目前几乎全部采用人工标注方式标注而得。人工数据标注方式效率十分低下,而且标注结果是否准确很大程度上依赖于标注人员的标注水平,所以通过人工标注方式对数据进行标注的质量无法实现有效保证。
[0003] 另外比如在图像数据标注场景中,现有的数据标注系统需要对新加入的图像进行从头至尾的重新标记,而大多时候,新加入的图像中的大部分区域与已经过数据标注的旧图像的图像内容完全相同。此时若系统对新图像进行数据重新标注,无疑降低了数据标注系统的数据标注效率。
具体实施方式
[0061] 下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。
[0062] 其中,附图仅用于示例性说明,表示的仅是示意图,而非实物图,不能理解为对本专利的限制;为了更好地说明本发明的实施例,附图某些部件会有省略、放大或缩小,并不代表实际产品的尺寸;对本领域技术人员来说,附图中某些公知结构及其说明可能省略是可以理解的。
[0063] 本发明实施例的附图中相同或相似的标号对应相同或相似的部件;在本发明的描述中,需要理解的是,若出现术语“上”、“下”、“左”、“右”、“内”、“外”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或元件必须具有特定的方位、以特定的方位构造和操作,因此附图中描述位置关系的用语仅用于示例性说明,不能理解为对本专利的限制,对于本领域的普通技术人员而言,可以根据具体情况理解上述术语的具体含义。
[0064] 在本发明的描述中,除非另有明确的规定和限定,若出现术语“连接”等指示部件之间的连接关系,该术语应做广义理解,例如,可以是固定连接,也可以是可拆卸连接,或成一体;可以是机械连接,也可以是电连接;可以是直接相连,也可以通过中间媒介间接相连,可以是两个部件内部的连通或两个部件的相互作用关系。对于本领域的普通技术人员而言,可以具体情况理解上述术语在本发明中的具体含义。
[0065] 本发明实施例提供的一种基于计算机视觉识别技术的模型辅助式数据标注系统,用于对输入图像进行数据标注,请参照图1,该数据标注系统包括:
[0066] 模型辅助标注子系统10,用于基于训练形成的辅助标注模型自动对输入图像进行数据标注,并得到一模型辅助数据标注结果并存储;
[0067] 人工标注子系统20,连接模型辅助标注子系统10,用于将输入图像提供给标注人员进行人工数据标注,并得到一第一人工数据标注结果并存储;
[0068] 人工标注子系统20还用于将模型辅助标注子系统10标注的模型辅助数据标注结果提供给标注人员,以对模型辅助数据标注结果进行进一步的人工标注,得到一第二人工数据标注结果并存储;
[0069] 模型辅助标注子系统10还用于以模型辅助数据标注结果、和/或第一人工数据标注结果、和/或第二人工数据标注结果为训练样本,训练得到辅助标注模型。
[0070] 请具体参照图2,模型辅助标注子系统10中包括:
[0071] 超参策略选择模块101,用于提供给一模型训练模块选择训练辅助标注模型所需的超参数;
[0072] 网络架构选择模块102,用于提供给模型训练模块103选择训练辅助标注模型所需的网络架构;
[0073] 模型训练模块103,分别连接超参策略选择模块101和网络架构选择模块102,用于以模型辅助数据标注结果、和/或第一人工数据标注结果、和/或第二人工数据标注结果作为训练样本,并基于所选的各超参数和对应的网络架构,训练得到多个辅助标注模型;
[0074] 模型评价模块104,连接模型训练模块103,用于对各辅助标注模型进行模型评价,最终确定用于对输入图像进行数据标注的最优的辅助标注模型;
[0075] 模型推理模块105,连接模型评价模块104,用于将最优的辅助标注模块推送给一模型辅助数据标注模块;
[0076] 模型辅助数据标注模块106,连接模型推理模块105,用于基于最优的辅助标注模型自动对输入图像进行数据标注,并得到模型辅助数据标注结果并存储。
[0077] 上述技术方案中,超参策略选择模块101对于训练辅助标注模块所需的超参数的选择优选通过以下两种方式实现:
[0078] 一是算法工程师根据经验将各超参数预设于超参策略选择模块101中,在训练辅助标注模型时,模型训练模块103直接调用存储在超参策略选择模块101中的各超参数即可。
[0079] 二是为超参策略选择模块101设定搜索空间,超参策略选择模块101在该搜索空间内搜索训练辅助标注模型所需的超参数。
[0080] 另外,上述技术方案中,模型训练模块103在训练辅助标注模型前还需要选择合适的网络架构,以实现对辅助标注模型的训练。对于网络架构的选择主要通过以下两种方式进行:
[0081] 一是算法工程师将网络架构预设在网络架构选择模块102中,系统在训练辅助标注模型时,直接调用预设的网络架构对辅助标注模型进行训练即可。
[0082] 二是在根据选择的超参数,在一网络架构库中搜索处适合的网络架构,以实现对辅助标注模型的训练。
[0083] 上述的网络架构优选为现有技术中存在的卷积神经网络架构。
[0084] 另外,由于对超参数和网络架构的选择过程并非本发明要求权利保护的范围,所以对于超参数和网络架构的具体选择过程在此不作阐述。
[0085] 上述技术方案中,模型评价模块104从多个辅助标注模型中选择最优的辅助标注模型的过程为现有技术,在此不作阐述。
[0086] 请继续参照图3,人工标注子系统20中具体包括:
[0087] 图像获取模块201,用于获取输入图像、和/或模型辅助数据标记结果;
[0088] 多边形区域标注模块202,连接图像获取模块201,用于将输入图像、和/或模型辅助数据标记结果通过一人机交互界面提供给标注人员,并提示标注人员在输入图像、和/或模型辅助数据标记结果中以多边形区域标注方式标注出关联于待标注对象的多个多边形区域,得到一区域标注结果并存储;
[0089] 类别标注模块203,连接多边形区域标注模块202,用于提供给标注人员对各多边形区域进行对应的类别标注,得到一类别标注结果;
[0090] 任务分发模块204,分别连接多边形区域标注模块202和类别标注模块203,用于将区域标注结果、和/或类别标注结果分发给对应的标注人员,以提供给对应的标注人员对区域标注结果、和/或类别标注结果进行进一步的纠正标注,得到纠正标注结果并存储;
[0091] 质检审核模块205,连接任务分发模块204,用于提供给质检审核人员对纠正标注结果进行质检审核,得到一质检审核结果并存储;
[0092] 人工数据标注结果输出模块206,分别连接多边形区域标注模块202、类别标注模块203、任务分发模块204和质检审核模块205,用于将区域标注结果、和/或类别标注结果、和/或纠正标注结果、和/或质检审核结果作为人工数据标注结果并输出;
[0093] 交互模块207,分别连接图像获取模块201、多边形区域标注模块202、类别标注模块203、任务分发模块204、质检审核模块205和人工数据标注结果输出模块206,用于实现人工标注子系统与标注人员以及质检审核人员的人机交互。
[0094] 这里需要说明的是,人工数据标注结果包括上述的第一人工数据标注结果和第二人工数据标注结果。
[0095] 请参照图3,更优选地,人工标注子系统还包括:
[0096] 绩效管理模块208,分别连接多边形区域标注模块202、类别标注模块203、任务分发模块204和质检审核模块205,用于对各标注人员和各质检审核人员进行工作绩效管理。
[0097] 上述技术方案中,模型辅助标注子系统优选通过一API应用程序接口将模型辅助数据标注结果发送给人工标注子系统。
[0098] 本发明还提供了一种模型辅助式数据标注方法,通过应用上述的模型辅助式数据标注系统实现,请参照图4,具体包括如下步骤:
[0099] 步骤S1,模型辅助式数据标注系统通过模型辅助标注子系统自动对输入图像进行数据标注,得到模型辅助数据标记结果并存储;
[0100] 步骤S2,模型辅助式数据标注系统中的人工标注子系统于模型辅助标注子系统处获取模型辅助数据标记结果;
[0101] 步骤S3,人工标注子系统将模型辅助数据标注结果提供给标注人员,以对模型辅助数据标注结果进行进一步的人工标注,得到一人工数据标注结果并存储;
[0102] 步骤S4,模型辅助式数据标注系统将人工数据标注结果作为系统最终对输入图像的数据标记结果并输出。
[0103] 本发明还提供了另外一种模型辅助式数据标注方法,同样通过应用上述的模型辅助式数据标注系统实现,请参照图5,具体包括如下步骤:
[0104] 步骤L1,模型辅助式数据标注系统通过人工标注子系统对输入图像进行人工数据标注,得到第一人工数据标注结果并存储;
[0105] 步骤L2,模型辅助式数据标注系统将第一人工数据标注结果输出给模型辅助标注子系统进行进一步的数据标注,得到模型辅助数据标注结果并存储;
[0106] 步骤L3,人工标注子系统于模型辅助标注子系统处获取模型辅助数据标注结果,并将模型辅助数据标注结果提供给标注人员,以对模型辅助数据标注结果进行进一步的人工标注,得到第二人工数据标注结果;
[0107] 步骤L4,模型辅助式数据标注系统将第二人工数据标注结果作为系统最终对输入图像的数据标注结果并输出。
[0108] 上述技术方案中,步骤S1中,模型辅助标注子系统通过辅助标注模型自动对输入图像或第一人工数据标注结果进行数据标注,
[0109] 请具体参照图6,辅助标注模型的训练方法优选包括如下步骤:
[0110] 步骤M1,模型辅助标注子系统选择模型训练所需的超参数;
[0111] 步骤M2,模型辅助标注子系统选择模型训练所需的网络架构;
[0112] 步骤M3,模型辅助标注子系统以模型辅助数据标记结果、和/或人工数据标注结果为训练样本,并基于所选的各超参数和网络架构,最终训练得到辅助标注模型。
[0113] 更优选地,步骤M2中的网络架构为卷积神经网络的网络架构,该网络架构为现有的网络架构,模型辅助标注子系统基于该网络架构训练得到辅助标注模型的具体过程并非本发明要求权利保护的范围,所以在此不作详细阐述。
[0114] 请继续参照图7,步骤L1中,人工标注子系统对输入图像进行人工数据标注的方法具体包括如下步骤:
[0115] 步骤N1,人工标注子系统获取输入图像;
[0116] 步骤N2,人工标注子系统通过一人机交互界面将输入图像提供给标注人员,并提示标注人员以多边形区域标注方式在输入图像中标注出关联于待标注对象的多个多边形区域,得到一区域标注结果并存储;
[0117] 步骤N3,标注人员对各多边形区域进行对应的类别标注,得到一类别标注结果;
[0118] 步骤N4,人工标注子系统将区域标注结果、和/或类别标注结果分发给对应的标注人员,以提供给对应的标注人员对区域标注结果、和/或类别标注结果进行进一步的纠正标注,得到纠正标注结果并存储;
[0119] 步骤N5,人工标注子系统将纠正标注结果发送给对应的质检审核人员进行质检审核,得到一质检审核结果并存储;
[0120] 步骤N6,人工标注子系统将区域标注结果、和/或类别标注结果、和/或纠正标注结果、和/或质检审核结果作为人工数据标注结果并输出。
[0121] 上述技术方案中,人工标注子系统对模型辅助数据标注结果进行进一步的人工数据标注的方法过程与对输入图像的人工数据标注的方法过程完全一致,在此不再赘述。
[0122] 上述技术方案中,模型辅助式数据标注系统通过模型自动数据标注和人工数据标注两种标注方式对输入图像进行交替数据标注,并迭代训练辅助标注模型,使得通过该辅助标注模型识别输出的数据标注结果越来越精确,人工纠正的工作量越来越小,大幅提高了数据标注的速度和数据标注准确率。
[0123] 需要声明的是,上述具体实施方式仅仅为本发明的较佳实施例及所运用技术原理。本领域技术人员应该明白,还可以对本发明做各种修改、等同替换、变化等等。但是,这些变换只要未背离本发明的精神,都应在本发明的保护范围之内。另外,本申请说明书和权利要求书所使用的一些术语并不是限制,仅仅是为了便于描述。