技术领域
[0001] 本申请涉及计算机技术领域,具体而言,涉及一种情感趋势预测方法。
相关背景技术
[0002] 车辆设置的终端具有语音采集功能,通过终端采集不同车主的语音,并识别不同车主的语音,可获取到不同车主的诉求、性格等特质。
[0003] 目前,尚未提出车主针对车辆的情感趋势预测的方法。
具体实施方式
[0050] 为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0051] 本发明的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本发明的实施例能够以除了在这里图示或描述的那些以外的顺序实施。
[0052] 应当理解,在本发明的各种实施例中,各过程的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0053] 应当理解,在本发明中,“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0054] 应当理解,在本发明中,“多个”是指两个或两个以上。“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。“包含A、B和C”、“包含A、B、C”是指A、B、C三者都包含,“包含A、B或C”是指包含A、B、C三者之一,“包含A、B和/或C”是指包含A、B、C三者中任1个或任2个或3个。
[0055] 应当理解,在本发明中,“与A对应的B”、“与A相对应的B”、“A与B相对应”或者“B与A相对应”,表示B与A相关联,根据A可以确定B。根据A确定B并不意味着仅仅根据A确定B,还可以根据A和/或其他信息确定B。A与B的匹配,是A与B的相似度大于或等于预设的阈值。
[0056] 取决于语境,如在此所使用的“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。
[0057] 下面以具体地实施例对本发明的技术方案进行详细说明。下面这几个具体的实施例可以相互结合,对于相同或相似的概念或过程可能在某些实施例不再赘述。
[0058] 为使本发明的目的、技术方案和优点更加清楚,下面将结合附图通过具体实施例来进行说明。
[0059] 在一个实施例中,如图1所示,提供了一种情感趋势预测方法,包括以下步骤:
[0060] 步骤S101:获取车主在目标行程中的语音文本。
[0061] 车主驾驶的车辆均设置有语音采集功能的设备,通过采集不同车主的语音,可直接获取到不同车主的语音文本。其中,设备包括但不限设置于车辆上的麦克风、手机或者采集器等。
[0062] 其中,行程可通过任意一种方式进行划分,包括但不限于时间、线路等。例如,新能源汽车可通过充放电进行行程的划分。
[0063] 步骤S102:基于语音文本,获取关键词。
[0064] 本申请主要是预测车主针对所驾驶的车辆的情感趋势,因此,通过语音文本获取的关键词为与车主所驾驶的车辆相关的词,如方向盘、导航、座椅、速度等。
[0065] 其中,语音文本包括至少一个句子,句子中可能包括关键词,也可能不包括,因此,只需提取包含关键词的句子即可。
[0066] 针对基于语音文本,获取关键词,需要先对语音文本进行分词处理,得到分词后的语音文本,然后提取分词后的语音文本中的关键词。
[0067] 例如,语音文本为“这个导航太好用了”,则需要对此语音文本进行分词处理,则分词后的语音文本为“这、个、导、航、太、好、用、了”。通过分词后的语音文本可知,与车相关的词为“导航”,则将“导航”作为关键词。
[0068] 步骤S103:基于关键词,构建目标行程对应的情感数据组。
[0069] 针对基于关键词,构建目标行程对应的情感数据组,需要先基于关键词,计算关键词所属的句子的情感得分,其中,语音文本至少包括关键词所属的句子,然后基于关键词所属的句子的情感得分,计算目标行程的情感得分。
[0070] 其中,基于关键词,计算关键词所属的句子的情感得分,包括:获取关键词所属的句子中的每个词,然后采用细粒度情感词典计算每个词的情感得分,并基于每个词的情感得分和关键词出现的频次,计算关键词所属的句子的情感得分。其中,采用细粒度情感词典计算每个词的情感得分,包括:将每个词与细粒度情感词典中预设的词进行比对,确定每个词的情感得分。
[0071] 由于细粒度情感词典中有预设的词向量,预设的词向量可以是不同情感对应的分值,如将所有情感分为六类,包括正向、负向、中性、喜爱、厌恶、愤怒,且每一类具有自己的分值,即正向、负向、中性、喜爱、厌恶、愤怒分别对应的分值为1,‑1,0,2,‑2,‑3。因此,可通过将每个词与细粒度情感词典中预设的词进行比对,确定每个词的情感得分。
[0072] 例如,关键词为“导航”,其所属的句子为“这个导航太好用了”,其对应的词包括“这、个、导、航、太、好、用、了”。将每个词向量与上述情感类型对应的分值进行一一比对匹配,则可以获取到每个词向量的情感得分。
[0073] 当获取到每个词的情感得分后,基于每个词的情感得分和关键词出现的频次,计算关键词所属的句子的情感得分,具体公式如下:
[0074] score=s*N
[0075] 其中,s表示将所有词的情感得分相加,得到的总和,N表示关键词出现的频次,score表示键词所属的句子的情感得分。
[0076] 当获取到关键词所属的句子的情感得分后,还需基于关键词所属的句子的情感得分,计算目标行程的情感得分,具体的,先依据关键词所属的句子的情感得分的正负对关键词所属的句子进行划分,得到正向句子和负向句子,然后分别获取正向句子和负向句子在目标行程中出现的频次,再基于正向句子和负向句子的情感得分以及正向句子和负向句子在目标行程中出现的频次,计算目标行程的情感得分。
[0077] 其中,计算目标行程的情感得分,公式如下:
[0078]
[0079] 其中,score正表示正向句子的情感得分,score负表示负向句子的情感得分,n正表示正向句子在目标行程中出现的频次,n负表示负向句子在目标行程中出现的频次,Score表示目标行程的情感得分。
[0080] 例如,目标行程为单一行程,且此单一行程的语音文本包括两个句子,分别为“这个导航太好用了”和“这个导航太不好用了”,通过上个实施例计算出这两个句子的情感得分分别为2和‑1,在这里,将情感得分为正数的句子作为正向句子,将情感得分为负数的句子作为负向句子。由此可知,正向句子的情感得分为2,负向句子的情感得分为‑1。
[0081] 由于正向句子和负向句子在此单一行程中都只出现了一次,则最后此单一行程的情感得分为0.5。
[0082] 当获取到上述信息后,则可构建目标行程对应的情感数据组,主要通过获取车主的信息、目标行程的截止时间、关键词以及目标行程的情感得分,然后将车主的信息、目标行程的截止时间、关键词以及目标行程的情感得分进行组合,得的目标行程对应的情感数据组。
[0083] 例如,以单一行程为例,则情感数据组可表示为{vin,k,tmax,Score},其中,vin表示车主的信息,如名字、车主的车牌号等,k表示关键词,tmax表示目标行程的截止时间。
[0084] 需要说明的是,若目标行程为多个行程时,可将每个单一行程对应的情感数据组进行汇总。
[0085] 步骤S104:基于目标行程对应的情感数据组,预测车主对所驾驶车辆的情感趋势。
[0086] 针对基于目标行程对应的情感数据组,预测车主对所驾驶车辆的情感趋势,包括:采用线性回归法对目标行程对应的情感数据组进行处理,得到一元二次函数,其中,一元二次函数用于表征情感得分与时间之间的关系,然后基于一元二次函数,预测车主对所驾驶车辆的情感趋势。
[0087] 针对情感数据组{vin,k,tmax,Score},采用线性回归计算时间与情感得分的关系,定期对车系进行计算,预测车主对车辆的情感趋势,预测结果超过阈值且情感为负时,重点分析车主的负向情感因素,车企可进一步对功能进行优化。
[0088] 在一种可能的实现方式中,方法还包括:基于情感数据组,确定四分位数,基于四分位数,确定离群点,以基于离群点分析车主对所驾驶车辆的情感原因。
[0089] 结合图2和图3,以车系为依据将对情感数据组中的vin,k进行聚合,并对Score进行四分位数计算,得到如图2所示的箱线图(即箱形图),其中,箱线图横轴t表示时间,可以周、月等为单位,纵轴表示关键词的情感得分。
[0090] 图3为图2所示的箱线图中的任意一个箱子的示意图,其中,Q1表示数据排列后25%位置对应的数值,Q3是排序后的75%对应的数值,IQR是整个矩形的长度,中间虚线是中位数(median),Q1‑1.5IQR与Q3+1.5IQR分别表示箱子最高点和箱子最低点。
[0091] 通过图3所示,当离群点为小于Q1‑M(Q3‑Q1)或大于Q3+M(Q3‑Q1)时,通过离群点可定位vin,进一步了解车主对车不满的原因。其中,M=1.5时为情感中度离群点,M=3时为情感极度离群点。
[0092] 在一种可能的实现方式中,方法还包括:按照时间对情感数据组中的情感得分进行可视化处理,显示车主在预设时间内对所驾驶车辆的情感趋势。
[0093] 例如,以情感数据组中的vin,k,tmax为单位,可将车主对车辆的情感得分进行数据可视化,如将t按季节划分,可观察车主不同季节情感趋势。
[0094] 本发明实施例提供了一种情感趋势预测方法,包括:先获取车主在目标行程中的语音文本,然后基于语音文本,获取关键词,其中,关键词为与车主所驾驶的车辆相关的词,再基于关键词,构建目标行程对应的情感数据组,最后基于目标行程对应的情感数据组,预测车主对所驾驶车辆的情感趋势。本发明通过对车主的语音文本进行处理,以获取情感数据组,并基于情感数据组预测车主对车辆的情感趋势,提升了预测准确度和效率。
[0095] 应理解,上述实施例中各步骤的序号的大小并不意味着执行顺序的先后,各过程的执行顺序应以其功能和内在逻辑确定,而不应对本发明实施例的实施过程构成任何限定。
[0096] 以下为本发明的装置实施例,对于其中未详尽描述的细节,可以参考上述对应的方法实施例。
[0097] 图4示出了本发明实施例提供的一种情感趋势预测装置的结构示意图,为了便于说明,仅示出了与本发明实施例相关的部分,一种情感趋势预测装置包括获取模块401、提取模块402、构建模块403和预测模块404,具体如下:
[0098] 获取模块401,用于获取车主在目标行程中的语音文本;
[0099] 提取模块402,用于基于语音文本,获取关键词,其中,关键词为与车主所驾驶的车辆相关的词;
[0100] 构建模块403,用于基于关键词,构建目标行程对应的情感数据组;
[0101] 预测模块404,用于基于目标行程对应的情感数据组,预测车主对所驾驶车辆的情感趋势。
[0102] 在一种可能的实现方式中,提取模块402还用于对语音文本进行分词处理,得到分词后的语音文本;
[0103] 提取分词后的语音文本中的关键词。
[0104] 在一种可能的实现方式中,构建模块403还用于基于关键词,计算关键词所属的句子的情感得分,其中,语音文本至少包括关键词所属的句子;
[0105] 基于关键词所属的句子的情感得分,计算目标行程的情感得分。
[0106] 在一种可能的实现方式中,构建模块403还用于获取关键词所属的句子中的每个词;
[0107] 采用细粒度情感词典计算每个词的情感得分,并基于每个词的情感得分和关键词出现的频次,计算关键词所属的句子的情感得分。
[0108] 在一种可能的实现方式中,构建模块403还用于将每个词与细粒度情感词典中预设的词进行比对,确定每个词的情感得分。
[0109] 在一种可能的实现方式中,构建模块403还用于依据关键词所属的句子的情感得分的正负对关键词所属的句子进行划分,得到正向句子和负向句子;
[0110] 分别获取正向句子和负向句子在目标行程中出现的频次;
[0111] 基于正向句子和负向句子的情感得分以及正向句子和负向句子在目标行程中出现的频次,计算目标行程的情感得分。
[0112] 在一种可能的实现方式中,构建模块403还用于获取车主的信息、目标行程的截止时间、关键词以及目标行程的情感得分;
[0113] 将车主的信息、目标行程的截止时间、关键词以及目标行程的情感得分进行组合,得的目标行程对应的情感数据组。
[0114] 在一种可能的实现方式中,预测模块404还用于采用线性回归法对目标行程对应的情感数据组进行处理,得到一元二次函数,其中,一元二次函数用于表征情感得分与时间之间的关系;
[0115] 基于一元二次函数,预测车主对所驾驶车辆的情感趋势。
[0116] 在一种可能的实现方式中,装置还包括原因分析模块,原因分析模块用于基于情感数据组,确定四分位数;
[0117] 基于四分位数,确定离群点,以基于离群点分析车主对所驾驶车辆的情感原因。
[0118] 在一种可能的实现方式中,装置还包括可视化模块,可视化模块用于按照时间对情感数据组中的情感得分进行可视化处理,显示车主在预设时间内对所驾驶车辆的情感趋势。
[0119] 本发明实施例提供了一种情感趋势预测装置,可具体用于先获取车主在目标行程中的语音文本,然后基于语音文本,获取关键词,其中,关键词为与车主所驾驶的车辆相关的词,再基于关键词,构建目标行程对应的情感数据组,最后基于目标行程对应的情感数据组,预测车主对所驾驶车辆的情感趋势。本发明通过对车主的语音文本进行处理,以获取情感数据组,并基于情感数据组预测车主对车辆的情感趋势,提升了预测准确度和效率。
[0120] 图5是本发明实施例提供的终端的示意图。如图5所示,该实施例的终端5包括:处理器501、存储器502以及存储在存储器502中并可在处理器501上运行的计算机程序505。处理器501执行计算机程序505时实现上述各个情感趋势预测方法实施例中的步骤,例如图1所示的步骤101‑步骤104。或者,处理器501执行计算机程序505时实现上述各个情感趋势预测装置实施例中各模块/单元的功能,例如图4所示模块/单元401‑404的功能。
[0121] 本发明还提供一种可读存储介质,可读存储介质中存储有计算机程序,计算机程序被处理器执行时用于实现上述的各种实施方式提供的一种情感趋势预测方法,包括:
[0122] 获取车主在目标行程中的语音文本;
[0123] 基于语音文本,获取关键词,其中,关键词为与车主所驾驶的车辆相关的词;
[0124] 基于关键词,构建目标行程对应的情感数据组;
[0125] 基于目标行程对应的情感数据组,预测车主对所驾驶车辆的情感趋势。
[0126] 在一种可能的实现方式中,基于语音文本,获取关键词,包括:
[0127] 对语音文本进行分词处理,得到分词后的语音文本;
[0128] 提取分词后的语音文本中的关键词。
[0129] 在一种可能的实现方式中,基于关键词,构建目标行程对应的情感数据组,包括:
[0130] 基于关键词,计算关键词所属的句子的情感得分,其中,语音文本至少包括关键词所属的句子;
[0131] 基于关键词所属的句子的情感得分,计算目标行程的情感得分。
[0132] 在一种可能的实现方式中,基于关键词,计算关键词所属的句子的情感得分,包括:
[0133] 获取关键词所属的句子中的每个词;
[0134] 采用细粒度情感词典计算每个词的情感得分,并基于每个词的情感得分和关键词出现的频次,计算关键词所属的句子的情感得分。
[0135] 在一种可能的实现方式中,采用细粒度情感词典计算每个词的情感得分,包括:
[0136] 将每个词与细粒度情感词典中预设的词进行比对,确定每个词的情感得分。
[0137] 在一种可能的实现方式中,基于关键词所属的句子的情感得分,计算目标行程的情感得分,包括:
[0138] 依据关键词所属的句子的情感得分的正负对关键词所属的句子进行划分,得到正向句子和负向句子;
[0139] 分别获取正向句子和负向句子在目标行程中出现的频次;
[0140] 基于正向句子和负向句子的情感得分以及正向句子和负向句子在目标行程中出现的频次,计算目标行程的情感得分。
[0141] 在一种可能的实现方式中,基于关键词,构建目标行程对应的情感数据组,包括:
[0142] 获取车主的信息、目标行程的截止时间、关键词以及目标行程的情感得分;
[0143] 将车主的信息、目标行程的截止时间、关键词以及目标行程的情感得分进行组合,得的目标行程对应的情感数据组。
[0144] 在一种可能的实现方式中,基于目标行程对应的情感数据组,预测车主对所驾驶车辆的情感趋势,包括:
[0145] 采用线性回归法对目标行程对应的情感数据组进行处理,得到一元二次函数,其中,一元二次函数用于表征情感得分与时间之间的关系;
[0146] 基于一元二次函数,预测车主对所驾驶车辆的情感趋势。
[0147] 在一种可能的实现方式中,方法还包括:
[0148] 基于情感数据组,确定四分位数;
[0149] 基于四分位数,确定离群点,以基于离群点分析车主对所驾驶车辆的情感原因。
[0150] 在一种可能的实现方式中,方法还包括:
[0151] 按照时间对情感数据组中的情感得分进行可视化处理,显示车主在预设时间内对所驾驶车辆的情感趋势。
[0152] 其中,可读存储介质可以是计算机存储介质,也可以是通信介质。通信介质包括便于从一个地方向另一个地方传送计算机程序的任何介质。计算机存储介质可以是通用或专用计算机能够存取的任何可用介质。例如,可读存储介质耦合至处理器,从而使处理器能够从该可读存储介质读取信息,且可向该可读存储介质写入信息。当然,可读存储介质也可以是处理器的组成部分。处理器和可读存储介质可以位于专用集成电路(Application Specific Integrated Circuits,ASIC)中。另外,该ASIC可以位于用户设备中。当然,处理器和可读存储介质也可以作为分立组件存在于通信设备中。可读存储介质可以是只读存储器(ROM)、随机存取存储器(RAM)、CD‑ROM、磁带、软盘和光数据存储设备等。
[0153] 本发明还提供一种程序产品,该程序产品包括执行指令,该执行指令存储在可读存储介质中。设备的至少一个处理器可以从可读存储介质读取该执行指令,至少一个处理器执行该执行指令使得设备实施上述的各种实施方式提供的一种情感趋势预测方法,包括:
[0154] 获取车主在目标行程中的语音文本;
[0155] 基于语音文本,获取关键词,其中,关键词为与车主所驾驶的车辆相关的词;
[0156] 基于关键词,构建目标行程对应的情感数据组;
[0157] 基于目标行程对应的情感数据组,预测车主对所驾驶车辆的情感趋势。
[0158] 在一种可能的实现方式中,基于语音文本,获取关键词,包括:
[0159] 对语音文本进行分词处理,得到分词后的语音文本;
[0160] 提取分词后的语音文本中的关键词。
[0161] 在一种可能的实现方式中,基于关键词,构建目标行程对应的情感数据组,包括:
[0162] 基于关键词,计算关键词所属的句子的情感得分,其中,语音文本至少包括关键词所属的句子;
[0163] 基于关键词所属的句子的情感得分,计算目标行程的情感得分。
[0164] 在一种可能的实现方式中,基于关键词,计算关键词所属的句子的情感得分,包括:
[0165] 获取关键词所属的句子中的每个词;
[0166] 采用细粒度情感词典计算每个词的情感得分,并基于每个词的情感得分和关键词出现的频次,计算关键词所属的句子的情感得分。
[0167] 在一种可能的实现方式中,采用细粒度情感词典计算每个词的情感得分,包括:
[0168] 将每个词与细粒度情感词典中预设的词进行比对,确定每个词的情感得分。
[0169] 在一种可能的实现方式中,基于关键词所属的句子的情感得分,计算目标行程的情感得分,包括:
[0170] 依据关键词所属的句子的情感得分的正负对关键词所属的句子进行划分,得到正向句子和负向句子;
[0171] 分别获取正向句子和负向句子在目标行程中出现的频次;
[0172] 基于正向句子和负向句子的情感得分以及正向句子和负向句子在目标行程中出现的频次,计算目标行程的情感得分。
[0173] 在一种可能的实现方式中,基于关键词,构建目标行程对应的情感数据组,包括:
[0174] 获取车主的信息、目标行程的截止时间、关键词以及目标行程的情感得分;
[0175] 将车主的信息、目标行程的截止时间、关键词以及目标行程的情感得分进行组合,得的目标行程对应的情感数据组。
[0176] 在一种可能的实现方式中,基于目标行程对应的情感数据组,预测车主对所驾驶车辆的情感趋势,包括:
[0177] 采用线性回归法对目标行程对应的情感数据组进行处理,得到一元二次函数,其中,一元二次函数用于表征情感得分与时间之间的关系;
[0178] 基于一元二次函数,预测车主对所驾驶车辆的情感趋势。
[0179] 在一种可能的实现方式中,方法还包括:
[0180] 基于情感数据组,确定四分位数;
[0181] 基于四分位数,确定离群点,以基于离群点分析车主对所驾驶车辆的情感原因。
[0182] 在一种可能的实现方式中,方法还包括:
[0183] 按照时间对情感数据组中的情感得分进行可视化处理,显示车主在预设时间内对所驾驶车辆的情感趋势。
[0184] 在上述设备的实施例中,应理解,处理器可以是中央处理单元(Central Processing Unit,CPU),还可以是其他通用处理器、数字信号处理器(Digital Signal Processor,DSP)、专用集成电路(Application Specific Integrated Circuit,ASIC)等。
通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。结合本发明所公开的方法的步骤可以直接体现为硬件处理器执行完成,或者用处理器中的硬件及软件模块组合执行完成。
[0185] 以上实施例仅用以说明本发明的技术方案,而非对其限制;尽管参照前述实施例对本发明进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围,均应包含在本发明的保护范围之内。