技术领域
[0001] 本发明涉及用于操作技术系统的方法和技术系统。
相关背景技术
[0002] 神经网络通常在不提供解释的情况下预测图像上的类别。也已经表明,神经网络的预测并不鲁棒,也就是说:在域移动的情况下,性能显著恶化。
[0003] Mai,X.,Qi,G.,Chen,Y.,Li,X.,Duan,R.,Ye,S.,He,Y.,Xue,H.:Towards robust vision transformer,arXiv preprint arXiv:2105.07926(2021)公开了神经网络的一般方面。
具体实施方式
[0018] 图1示意性地描绘了技术系统100。技术系统可以是物理系统,特别是计算机控制的机器,例如机器人(优选车辆)、家用电器、电动工具、制造机器、个人助理或访问控制系统。
[0019] 技术系统100包括至少一个处理器102和至少一个存储器104。
[0020] 至少一个存储器104被配置为存储计算机可读指令,当该计算机可读指令被至少一个处理器102执行时,使得技术系统100执行参考图2解释的方法中的步骤。
[0021] 技术系统100包括用于捕获数字图像108的传感器106。
[0022] 传感器106可以是照相机、雷达传感器、激光雷达传感器、超声波传感器、运动传感器、热图像传感器。
[0023] 技术系统100可以被配置用于取决于对数字图像进行分类的类别112和/或至少一个第一属性114进行操作。
[0024] 技术系统100包括输出110,用于输出对数字图像进行分类的类别112和/或至少一个第一属性114。输出可以是用于显示对数字图像进行分类的类别112和/或至少一个第一属性114的显示。
[0025] 对数字图像进行分类的类别112和/或第一属性114可以表征交通标志、路面、行人和/或车辆。
[0026] 技术系统100可以安装到车辆116。技术系统的至少一部分可以提供在车辆116的外部,例如在主干(backbone)中。传感器106可以安装到车辆或者提供在车辆116的外部,例如在基础设施中。示例中的输出110安装到车辆116。
[0027] 根据一个示例的技术系统100包括至少一个神经网络,用于从至少一个类别y中确定对数字图像进行分类的类别y′和至少一个第一属性a′。
[0028] 在一个示例中,至少一个神经网络包括令牌到令牌模块,其被配置用于将数字图像T映射到至少一个令牌 在空间维度上对至少一个令牌 进行重整形,在保留其局部结构的同时减小至少一个令牌的长度,并且迭代地确定输出Tf:
[0029]
[0030] f为神经网络,其中在空间维度上对 迭代地重整形:
[0031]
[0032] xi+1=SoftSplit(xi)
[0033] 其中 并且 并且其中SoftSplit以重叠s和/或填充p以及跨距(k‑s)为至少一个令牌xi提供k×k个分割。
[0034] 神经网络f可以是变换器或多层感知器或残差神经网络。
[0035] 本示例中的每个分割具有大小k×k×c,并且SoftSplit的输出被给到下一迭代。在该示例中针对x1=SoftSplit(x0)执行第一次SoftSplit。
[0036] 在一个示例中,技术系统100被配置用于确定特别是固定长度的输出Tf。
[0037] 令牌到令牌模块是可用于确定输出Tf的模块的示例。该输出Tf可以用不同方式来提供。
[0038] 在一个示例中,至少一个神经网络包括编码器f,其被配置用于取决于输出Tf提供数字图像108的特征f(Tf)。取决于输出Tf提供数字图像108的特征f(Tf)的编码器.f是编码器的示例。可以以不同的方式提供数字图像108的特征。
[0039] 用于感知的至少一个神经网络的架构设计可以包括三个阶段:特征提取器/主干,例如令牌到令牌模块;编码器,例如变换器编码器;以及解码器,例如变换器解码器。解码器可以被增强以能够预测如下详述的属性。
[0040] 示例中的解码器包括属性引导网络、属性嵌入网络或自动属性网络。
[0041] 对于属性引导网络、属性嵌入网络和自动属性网络,提供至少一个属性查询a。提供至少一个属性查询a来预测每图像属性并执行类别预测。属性查询a是在下面描述的训练中学习的。属性查询a从属性引导网络、属性嵌入网络或自动属性网络内提供。
[0042] 属性引导网络包括解码器g,其被配置用于将特征f(Tf)和至少一个属性查询a映射到投影特征g(f(Tf),a)。
[0043] 属性引导网络包括第一层W,其被配置用于将投影特征g(f(Tf),a)映射到至少一个第一属性
[0044] a′=g(f(Tf),a)W
[0045] 属性引导网络包括第二层V,其被配置用于将特征f(Tf)映射到对数字图像进行分类的类别y′
[0046] y′=f(Tf)V
[0047] 属性嵌入网络包括解码器g,其被配置用于将特征f(Tf)和至少一个属性查询a映射到投影特征g(f(Tf),a)。
[0048] 属性嵌入网络包括第一层W,其被配置用于将投影特征g(f(Tf),a)映射到至少一个第一属性a′。
[0049] 属性嵌入网络被配置用于取决于至少一个第一属性a′和至少一个类别属性Φ(y)之间的点积来确定对数字图像进行分类的类别y′
[0050] y′=a′Φ(y)T
[0051] 自动属性网络包括解码器g,其被配置用于将特征f(Tf)和至少一个属性查询a映射到投影特征g(f(Tf),a)。
[0052] 自动属性网络包括第一层W,其被配置用于将投影特征g(f(Tf),a)映射到至少一个第一属性a′。
[0053] 自动属性网络包括第二层V,其被配置用于将投影特征g(f(Tf),a)映射到至少一个第二属性z′。
[0054] 自动属性网络被配置用于取决于至少一个第一属性a′和至少一个第二属性z′之间的点积来确定对数字图像进行分类的类别y′
[0055]
[0056] 用于对数字图像进行分类的方法包括步骤202。
[0057] 步骤202包括例如用照相机、雷达传感器、激光雷达传感器、超声波传感器、运动传感器、热图像传感器捕获数字图像T。
[0058] 之后,执行步骤204。
[0059] 在步骤204中,为至少一个类别y提供至少一个类别属性 至少一个类别属性包括对类别成员的描述。在该示例中,提供了K个类别y的类别属性Φ(y)。
[0060] 类别属性包括对类别成员的描述。
[0061] 之后,执行步骤206。
[0062] 在步骤206中,提供表征数字图像T的特征f(Tf)。
[0063] 在一个示例中,提供特征f(Tf)包括提供数字图像T,将数字图像T映射到至少一个令牌 在空间维度上将至少一个令牌 重整形为输出Tf,以及利用编码器。f取决于输出Tf来确定特征f(Tf)。
[0064] 步骤206可以包括接收数字图像T。
[0065] 之后,执行步骤208。
[0066] 在步骤208中,取决于特征f(Tf)确定至少一个类别中对数字图像T进行分类的类别y′。
[0067] 对于属性引导网络、属性嵌入网络和自动属性网络,确定对图像T进行分类的类别y′包括提供至少一个属性查询a。
[0068] 步骤208包括利用属性引导网络、属性嵌入网络或自动属性网络来确定至少一个类别。
[0069] 之后,执行步骤210。
[0070] 在步骤210中,取决于对数字图像T进行分类的类别y′的至少一个类别属性Φ(y),确定至少一个第一属性a′。至少一个第一属性a′包括类别y′的描述。至少一个第一属性包括用对数字图像T进行分类的类别y′对数字图像T进行分类的解释。
[0071] 至少一个第一预测属性a′是输入数字图像T的局部属性,并且由此提供对预测的解释。作为副产品,这也改进了预测的鲁棒性。
[0072] 之后,执行步骤212。
[0073] 步骤212包括取决于对数字图像T进行分类的类别y′和/或取决于至少一个第一属性a′来操作技术系统100。
[0074] 步骤212包括输出对数字图像T进行分类的类别y′和至少一个第一属性a′。
[0075] 该方法提供了基于图像的感知系统,具有增强的可解释性或鲁棒性。
[0076] 步骤212可以包括输出对数字图像T进行分类的类别y′,其表征交通标志、路面、行人和/或车辆。
[0077] 步骤212可以包括输出表征交通标志、路面、行人和/或车辆的至少一个第一属性a′。
[0078] 之后,可以执行步骤202。
[0079] 在训练中,至少一个神经网络被训练以确定对数字图像T进行分类的类别y′和至少一个第一属性a′。
[0080] 在一个示例中,训练包括最小化至少一个类别属性Φ(y)和至少一个第一属性a′之间的均方误差
[0081]
[0082] 在一个示例中,训练包括最小化取决于对数字图像T进行分类的类别y′的交叉熵损失
[0083]
[0084] 优选地,训练神经网络的总损失为
[0085] L=Lattr+Lcls
[0086] 至少一个神经网络例如取决于具有类别属性Φ(y)地面真值的测量数据来训练。
[0087] 举例来说,至少一个神经网络被训练用于识别图像中的交通标志。这是针对具有八角形、红背景色和白色文本的停车标志(即前景中的“STOP”)来解释的。在此示例中,对数字图像T进行分类的类别y′为“停车标志”,并且至少一个第一属性a′包括“八角形”、“红背景”和/或“白色文本”。
[0088] 其他交通标志可以用对数字图像T进行分类的相应类别和至少一个属性来类似地对待。
[0089] 优选地,为对数字图像T进行分类的类别y′确定若干第一属性a′。