技术领域
[0001] 本实用新型涉及人工智能技术领域,具体涉及一种人工智能加速卡和电子装置。
相关背景技术
[0002] 随着人工智能(Artificial Intelligence,AI)技术的发展,AI芯片逐渐被应用在深度学习等各种智能计算领域。包含AI芯片的AI加速卡通常可以从服务器或者计算机设备中读取数据,进行AI运算。
[0003] 然而,现有市面上的AI加速卡的运算能力有限。实用新型内容
[0004] 本实用新型实施例提供了一种人工智能加速卡和电子装置,在AI加速卡中部署多个AI芯片,提高AI加速卡的运算能力。
[0005] 第一方面,本实用新型实施例提供一种人工智能加速卡,所述加速卡包括[0006] 用于信息传输以及格式转换的转换芯片,所述信息包括图像数据;以及用于对接收到的图像数据进行处理,并将处理结果发送给所述转换芯片的多个人工智能芯片;
[0007] 其中,每个人工智能芯片与所述转换芯片相连并进行通讯。
[0008] 在本实用实型的一些可能的实施方式中,所述加速卡片还包括导电触片式接口,所述加速卡通过所述导电触片式接口与用于发送所述图像数据并接收所述处理结果的外部设备连接。
[0009] 在本实用实型的一些可能的实施方式中,所述信息还包括复位控制指令、烧录控制指令或者启动控制指令;
[0010] 所述加速卡还包括用于传输所述图像数据和所述处理结果的第一通道;以及用于传输所述复位控制指令、所述烧录控制指令或者所述启动控制指令的第二通道;
[0011] 每个人工智能芯片通过所述第一通道和所述第二通道与所述转换芯片相连并进行通讯;
[0012] 其中,所述图像数据是所述外部设备通过所述导电触式接口传入给所述转换芯片,并经过所述转换芯片将所述图像数据转换为所述第一通道支持的格式后,通过所述第一通道传入给所述外部设备预先分配好的人工智能芯片的;
[0013] 所述处理结果是所述外部设备预先分配好的人工智能芯片通过所述第一通道传入给所述转换芯片,并经过所述转换芯片将所述处理结果转换为所述导电触式接口支持的格式后,通过所述导电触式接口传入给所述外部设备的;
[0014] 所述复位控制指令、烧录控制指令或者启动控制指令是所述外部设备通过所述导电触式接口传入给所述转换芯片,并经过所述转换芯片将所述复位控制指令、烧录控制指令或者启动控制指令转换为所述第二通道所支持的格式后,通过所述第二通道传入给所述外部设备预先分配好的人工智能芯片的。
[0015] 在本实用实型的一些可能的实施方式中,所述第一通道为通用串行总线;所述第二通道为通用型输入输出接口。
[0016] 在本实用实型的一些可能的实施方式中,所述加速卡还包括多个温度传感器,所述多个温度传感器中的每个温度传感器与所述多个人工智能芯片中的一个人工智能芯片连接。
[0017] 在本实用实型的一些可能的实施方式中,每个温度传感器通过集成电路总线接口与所述多个人工智能芯片中的一个人工智能芯片连接。
[0018] 在本实用实型的一些可能的实施方式中,所述多个温度传感器的数量为两个;
[0019] 所述两个温度传感器中的一个温度传感器设置于所述加速卡的左边区域,另一个加速卡设置于所述加速卡的右边区域。
[0020] 在本实用实型的一些可能的实施方式中,每个人工智能芯片所处的预设区域设置有双倍数据速率颗粒和计算机闪存设备,所述每个人工智能芯片与所述双倍数据速率颗粒和所述计算机闪存设备均相连并进行通讯,其中,所述双倍数据速率颗粒作为所述每个人工智能芯片的程序运行空间和所述计算机闪存设备作为所述每个人工智能芯片的程序存储空间。
[0021] 在本实用实型的一些可能的实施方式中,所述每个人工智能芯片通过双倍数据速率接口与所述双倍数据速率颗粒相连并进行通讯,所述每个人工智能芯片通过闪存接口与所述计算机闪存设备相连并进行通讯。
[0022] 第二方面,本实用新型实施例提供一电子装置,该电子装置包括如第一方面任一实施例中所述的人工智能加速卡。
[0023] 实施本实用新型实施例,具有如下有益效果:
[0024] 应理解,现有的人工智能加速卡一般都是采用单芯片方案,因此,为了提高AI运算能力,需要在AI加速卡中部署一颗昂贵、运算力较强的AI芯片作为处理器,导致AI加速卡价格昂贵,部署门槛高。可以看出,相比现有技术,在本实用新型的实施例中,人工智能加速卡中设置有多个人工智能芯片,多个人工智能芯片可以一起参与运算,从而提高了运算能力。由于人工智能芯片的数量较多,也不需要去选择价格昂贵的人工智能芯片,降低了人工智能加速卡的成本,降低了部署门槛。
具体实施方式
[0030] 下面将结合本实用新型实施例中的附图,对本实用新型实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本实用新型一部分实施例,而不是全部的实施例。基于本实用新型中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本实用新型保护的范围。
[0031] 本实用新型的说明书和权利要求书及所述附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。
[0032] 在本文中提及“实施例”意味着,结合实施例描述的特定特征、结果或特性可以包含在本实用新型的至少一个实施例中。在说明书中的各个位置出现该短语并不一定均是指相同的实施例,也不是与其它实施例互斥的独立的或备选的实施例。本领域技术人员显式地和隐式地理解的是,本文所描述的实施例可以与其它实施例相结合。
[0033] 参阅图1,图1为本申请实施例提供的一种人工智能加速卡的结构示意图。如图1所示,人工智能加速卡包括用于信息传输以及格式转换的转换芯片10,也就是说,转换芯片10可以作为一个信息转发和格式转换的中转站;以及用于对接收到的图像数据进行处理,并将处理结果发送给转换芯片10的多个人工智能芯片20,其中,每个人工智能芯片20与转换芯片10连接并进行通讯,该信息包括图像数据和控制指令,该控制指令包括复位控制指令、烧录控制指令或者启动控制指令。
[0034] 本申请中以在人工智能加速卡中部署四个人工智能芯片20举例说明。
[0035] 如图1所示,示例性的,人工智能加速卡还包括有导电触片式接口(也可以称为金手指(Gold Finger))。其中,导电触片式接口可以为PCIEx4,或者,PCIEx8。因此,人工智能加速卡可以通过导电触片式接口与外部设备连接,以便于从所述外部设备接收图像数据,以及向外部设备发送处理结果。
[0036] 具体的,如图1所示的加速卡,可以由用户将该人工智能加速卡通过导电触片式接口插到外部设备上,外部设备则可以向转换芯片10发送至少一份图像数据。其中,外部设备的机箱上配置有接口交换器,该接口交换器设置有插槽阵列。接口交换器可以为高速PCIE交换器(即,PCIE Switch),且插槽阵列可以并列竖直布置。这样人工智能加速卡可以将金手指插接到插槽阵列与外部设备相连并进行通讯,外部设备则可以通过导电触片式接口将至少一份图像数据发送给人工智能加速卡,然后,通过转换芯片10与导电触片式接口连接的总线80(比如,PCIE总线),将至少一份图像数据发送给转换芯片10。
[0037] 示例性的,至少一份图像数据中的每份图像数据可以对应一个识别任务,比如,对应一个监控任务或者对应一个动作识别任务或者对应一个身份识别任务,等等。其中,每份图像数据可以为一帧或多帧图像,也可以为视频,等等。本申请不读图像数据的类型进行限定。
[0038] 应理解,外部设备可以为服务器、计算机设备、移动互联网设备,其中,服务器可以是独立的物理服务器,也可以是服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、以及大数据和人工智能平台等基础云计算服务的云服务器。本申请不对外部设备的形式进行限定。
[0039] 进一步的,转换芯片10将从外部设备接收到的至少一份图像数据分发给多个人工智能芯片20。示例性的,转换芯片10根据外部设备的指示将该至少一份图像数据分发给对应的人工智能芯片20。
[0040] 示例性的,外部设备可以根据每个人工智能芯片20的处理能力以及当前需要处理的图像数据的数量,确定至少一份图像数据的分发对象。具体的,若当前需要处理的图像数据的数量为一份,则外部设备确定将该份图像数据分发给任意一个人工智能芯片20,并从多个人工智能芯片20中选出这个人工智能芯片,并指示转换芯片10将这份图像数据分发给这个人工智能芯片20;若当前需要处理的图像数据的数量为多份,则外部设备从该多个人工智能芯片20中确定出至少一个人工智能芯片20,并指示转换芯片10向该至少一个人工智能芯片20分发该多份图像数据,其中,该至少一个人工智能芯片20中的每个人工智能芯片至少接收到一份图像数据。也就是说,外部设备根据每个人工智能芯片20的计算能力以及图像数据的数量,确定将该多份图像数据分发给该至少一个人工智能芯片20以及每个人工智能芯片20所需要处理的图像数据的数量,也就是预先分配好哪些人工智能芯片要处理该图像数据,以及处理图像数据的数量。比如,该图像数据有6份,每个人工智能芯片20可以处理10份图像数据,则确定可以将该6份图像数据分发给一个人工智能芯片20进行处理,但是,为了提高处理速度,预先分配好可以将该多份图像数据分发给更多的人工智能芯片20进行处理,比如,可以将该多份图像数据分发给2个、3个或者数量更多的人工智能芯片20,则每个人工智能芯片20至少接收到一份图像数据。
[0041] 在本实用新型的一个实施方式中,在当前需要处理的图像数据为一份的情况下,为了提高处理速度,外部设备可以先将一份图像数据拆分为多份子图像数据,并将每份子图像数据作为一份完整的图像数据,然后,预先分配好转换芯片10将该多份子图像数据分发给该多个人工智能芯片20,其中,将该多份子图像数据分发给多个人工智能芯片20的方式与上述将多份图像数据分发给多个人工智能芯片20的方式类似,不再叙述。
[0042] 举例来说,图像数据为视频,处理任务为对该视频中的目标人物进行轨迹分析,则外部设备可以将该视频拆分为多个视频段(多个子图像数据),将多个视频段分发给多个人工智能芯片20,每个人工智能芯片20在各自接收到的视频段中分析出目标人物的子轨迹,并将分析出的子轨迹发送给转换芯片10,转换芯片10将接收到的子轨迹转发给外部设备,则外部设备对接收到的所有子轨迹进行合并,得到目标人物的轨迹,提高轨迹分析的效率。
[0043] 进一步的,每个人工智能芯片20,本申请中可以理解为接收到转换芯片10分发的图像数据的人工智能芯片20,对接收到的图像数据进行处理(人工智能运算),将处理结果发送给转换芯片10。应理解,针对没有接收到图像数据的人工智能芯片20,则不会参与运算,可以理解返回的处理结果为零。
[0044] 进一步的,转换芯片10通过导电触片式接口将每个人工智能芯片20发送的处理结果转发给外部设备,以便外部设备对每个人工智能芯片20发送的处理结果进行综合,得到对至少一份图像数据的处理结果。
[0045] 在本实用新型的一个实施方式中,该人工智能加速卡还包括用于传输图像数据和处理结果的第一通道以及用于传输复位控制指令、烧录控制指令或者启动控制指令的第二通道。因此,每个人工智能芯片20可以通过第一通道40和第二通道50与转换芯片10相连并进行通讯。
[0046] 具体的,外部设备可以通过导电触式接口将图像数据传入给转换芯片10,转换芯片10接收到图像数据之后,对图像数据进行格式转换,转换为第一通道所支持的格式,并将格式转换后的图像数据通过第一通道传入给外部设备预先分配好的人工智能芯片20;同样,预先分配好的人工智能芯片20对图像数据处理之后,通过第一通道将处理结果传入给转换芯片10,转换芯片10将处理结果转换为导电触式接口支持的格式,并通过导电触式接口将格式转换后的处理结果发送给外部设备;同样,外部设备可以通过导电触式接口将复位控制指令、烧录控制指令或者启动控制指令传入给转换芯片10,然后,也可以预先分配好将复位控制指令、烧录控制指令或者启动控制指令发送给哪些人工智能芯片20,这样,转换芯片10将复位控制指令、烧录控制指令或者启动控制指令转换为第二通道所支持的格式,并将格式转换后的复位控制指令、烧录控制指令或者启动控制指令传入给外部设备预先分配好的人工智能芯片20,以对该外部设备预先分配好的人工智能芯片20进行复位、烧录或者启动Boot模式。
[0047] 其中,第一通道40可以为通用串行总线(universal serial bus,简称:USB),比如,第一通道40可以为USB3.0,因此,转换芯片10需要将图像数据或处理结果的格式转换为USB3.0,以通过第一通道40传输图像数据或处理结果。
[0048] 其中,第二通道50可以为通用型输入输出(General‑purpose input/output,简称:GPIO)接口(比如,PCA9557)。因此,转换芯片10需要将复位控制指令、烧录控制指令或者启动控制指令的格式转换为GPIO,以通过第二通道传输复位控制指令、烧录控制指令或者启动控制指令。
[0049] 在本实用新型的一个实施方式中,转换芯片10还可以通过导电触片式接口从外部设备接收与每个人工智能芯片20对应的控制命令,并将每个人工智能芯片20对应的控制命令发送给每个人工智能芯片20,以对每个人工智能芯片20进行复位、烧录或者启动Boot模式。
[0050] 示例性的,外部设备可以生成与每个人工智能芯片20对应的控制命令,其中,该控制命令用于指示每个人工智能芯片20进行复位、烧录或者启动Boot模式;然后,将该控制命令发送给转换芯片10,并由转换芯片10将该控制命令通过第二通道(GPIO接口)将控制命令发送给每个人工智能芯片10,每个人工智能芯片10根据接收到的控制命令进行复位、烧录或者启动Boot模式。
[0051] 示例性的,在任意一个人工智能芯片20的运行异常的情况下,外部设备可以按照上述发送控制命令的方式对其进行复位操作;在任意一个人工智能芯片出现程序损坏,并且通过复位无法恢复的情况下,外部设备可以按照上述发送控制命令的方式对其进行BOOT模式,使其进入烧录模式,以完成程序的重新烧录。
[0052] 在本实用新型的一个实施方式中,人工智能加速卡还包括多个温度传感器30,其中,多个温度传感器中的每个温度传感器与多个人工智能芯片中的一个人工智能芯片连接,即每个温度传感器通过集成电路总线接口与多个人工智能芯片中的一个人工智能芯片连接。本申请中以设置两个温度传感器为例进行说明。
[0053] 参阅图2,图2为本申请实施例提供的另一种人工智能加速卡的结构示意图。如图2所示,一个温度传感器30设置于人工智能加速卡的左边区域,比如,设置于左边区域的中心,另一个温度传感器30设置于人工智能加速卡的右边区域,比如,设置于右边区域的中心;此外,每个温度传感器与多个人工智能芯片20中的一个人工智能芯片20连接。
[0054] 基于图2所示的人工智能加速卡,每个温度传感器30用于检测每个温度传感器30所在区域的温度,比如,左边的温度传感器30用于检测人工智能加速卡左边区域的温度,右边的温度传感器30用于检测接口人工智能加速卡右边区域的温度;然后,每个温度传感器30将检测的温度发送给与该温度传感器连接的人工智能芯片20,并且该人工智能芯片20将每个温度传感器30所在区域的温度发送给转换芯片10,最后,由转换芯片10将每个温度传感器30所在区域的温度转发给外部设备。
[0055] 进一步的,外部设备根据每个温度传感器30所在区域的温度,生成温度控制指令,并将温度控制指令发送给转换芯片10,由转换芯片10将温度控制指令转发给人工智能芯片20,以便人工智能芯片20根据该温度控制指令执行降频操作、退出应用操作或者关机操作,以降低人工智能加速卡的温度。比如,在左边区域的温度大于阈值的情况下,控制位于人工智能加速卡左边区域的人工智能芯片执行执行降频操作、退出应用操作或者关机操作,以降低人工智能加速卡的温度;在右边区域的温度大于阈值的情况下,控制位于人工智能加速卡右边区域的人工智能芯片执行降频操作、退出应用操作或者关机操作,以降低人工智能加速卡的温度。
[0056] 在本实用新型的一个实施方式中,参阅图3,图3为本申请实施例提供的另一种人工智能芯片的结构示意图。如图3所示,每个人工智能芯片所处的预设区域设置有双倍数据速率(Double Data Rate,简称:DDR)60颗粒和计算机闪存设备(NAND Flash)70,该预设区域可以理解为每个人工智能芯片的周围区域,其中,DDR颗粒作为每个人工智能芯片的程序存储空间,计算机闪存设备作为每个人工智能芯片的程序存储空间,其中,双倍数据速率的类型可以为DDR4。示例性的,所述每个人工智能芯片通过双倍数据速率接口与所述双倍数据速率颗粒相连并进行通讯,所述每个人工智能芯片通过闪存接口与所述计算机闪存设备相连并进行通讯。
[0057] 应理解,现有的人工智能加速卡一般都是采用单芯片方案,因此,为了提高AI运算能力,需要在AI加速卡中部署一颗昂贵、运算力较强的AI芯片作为处理器,导致AI加速卡价格昂贵,部署门槛高。可以看出,相比现有技术,在本实用新型的实施例中,人工智能加速卡中设置有多个人工智能芯片,多个人工智能芯片可以一起参与运算,从而提高了运算能力。由于人工智能芯片的数量较多,也不需要去选择价格昂贵的人工智能芯片,降低了人工智能加速卡的成本,降低了部署门槛。另外,还设置有温度传感器,实时对加速卡的温度进行控制,从而提高了加速卡工作的稳定性。
[0058] 参阅图4,图4为本申请实施例提供的一种电子装置的结构示意图。电子装置中插入有一个或多个上述的人工智能加速卡。
[0059] 由于电子装置插入有人工智能加速卡,则电子装置可以将待处理的图像数据发送给人工智能加速卡中的多个人工智能芯片20,通过多个人工智能芯片20对待处理的图像数据进行人工智能处理,并将处理结果返回给电子装置。
[0060] 需要说明的是,对于前述的各方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本实用新型并不受所描述的动作顺序的限制,因为依据本实用新型,某些步骤可以采用其他顺序或者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于可选实施例,所涉及的动作和模块并不一定是本实用新型所必须的。
[0061] 在上述实施例中,对各个实施例的描述都各有侧重,某个实施例中没有详述的部分,可以参见其他实施例的相关描述。
[0062] 以上对本实用新型实施例进行了详细介绍,本文中应用了具体个例对本实用新型的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本实用新型的方法及其核心思想;同时,对于本领域的一般技术人员,依据本实用新型的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本实用新型的限制。