技术领域
[0001] 本申请实施例涉及人工智能技术领域,特别涉及一种文本数据的增强方法、装置、设备及计算机可读存储介质。
相关背景技术
[0002] 随着人工智能技术的不断发展,神经网络模型在图像识别、物体检测、场景分割等任务上取得了显著的效果。通过利用大规模的数据对神经网络模型进行训练,能够提高神经网络模型的鲁棒性和泛化能力。
[0003] 针对训练数据不足的情况,亟需一种文本数据的增强方法对训练数据进行数据增强,进而增大训练数据的数量,提高训练数据的多样性,采用训练数据对神经网络模型进行训练时,能够提高训练得到的神经网络模型的泛化能力。
具体实施方式
[0045] 为使本申请的目的、技术方案和优点更加清楚,下面将结合附图对本申请实施方式作进一步地详细描述。
[0046] 为了便于理解,首先对本申请实施例中涉及的若干个名词进行解释:
[0047] 人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。换句话说,人工智能是计算机科学的一个综合技术,它企图了解智能的实质,并生产出一种新的能以人类智能相似的方式作出反应的智能机器。人工智能也
就是研究各种智能机器的设计原理与实现方法,使机器具有感知、推理与决策的功能。
[0048] 人工智能技术是一门综合学科,涉及领域广泛,既有硬件层面的技术,也有软件层面的技术。人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、语音处理技术、自认语言处理技术以及机器学习/深度学习等几大方向。
[0049] 机器学习(Machine Learning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域。机器学习和深度学习通常包括人工神经网络、置信网络、强化学习、迁移学习、归纳学习、示教学习等技术。
[0050] 云技术(Cloud technology)是指在广域网或局域网内将硬件、软件、网络等系列资源同意起来,实现数据的计算、储存、处理和共享的一种托管技术。云技术是基于云计算商业模式应用的网络技术、信息技术、整合技术、管理平台技术、应用技术等的总称,可以组成资源池,按需所用,灵活便利。云计算技术将变成重要支撑。技术网络系统的后台服务需要大量的计算、存储资源,如视频网站,图片类网站和更多的门户网站。伴随着互联网行业的高度发展和应用,将来每个物品都有可能存在自己的识别标志,都需要传输到后台系统
进行逻辑处理,不同程度级别的数据将会分开处理,各类行业数据皆需要强大的系统后盾
支撑,只能通过云计算来实现。
[0051] 大数据(Big Data)是指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力
的海量、高增长率和多样化的信息资产。随着云时代的来临,大数据也吸引了越来越多的关注,大数据需要特殊的技术,以有效地处理大量的容忍经过时间内的数据。适用于大数据的技术,包括大规模并行处理数据库、数据挖掘、分布式文件系统、分布式数据库、云计算平台、互联网和可扩展的存储系统。
[0052] 光学字符识别算法(Optical Character Recognition,OCR),主要用于检测并识别图像中的字符。
[0053] 混淆集:基于OCR识别结果中,对于每个字提取top5高的概率的字作为top1的混淆字候选集。例如,对医疗场景下单据、体检报告等便携式文档(Portable Document Format,PDF)、图片的文字识别,可以整理生成相应的混淆集。此外,在中文场景下,利用文字偏旁部首、结构特点等形态学的信息获得OCR场景下的混淆集。
[0054] 词向量:又叫词嵌入(Word Embedding),自然语言处理(Natural Language Processing,NLP)中的一组语言建模和特征学习技术的统称,其中,来自词汇表的单词或短语被映射到实数的向量。从概念上将,它涉及从每个单词一维空间到具有更低维度的连续
向量控件的数学嵌入。
[0055] 数据增强:训练模型的过程中,为了增加数据的丰富程度,提升模型的泛化能力,对训练数据进行一定的变换操作,被称为数据增强。在图像任务场景,往往通过对输入图像的旋转、裁剪、拼接以及像素值的抖动实现对训练数据的增强,提升了模型的训练效果。由于文本场景的输入是离散的,一定的文本的改变容易引起语义的巨大变化,无法做到像图像那样不可见的抖动。
[0056] 图1是本申请实施例提供的一种文本数据的增强方法的实施环境示意图,如图1所示,该实施环境包括:终端设备101和服务器102。
[0057] 可选地,本申请实施例提供的文本数据的增强方法可以由终端设备101执行,也可以由服务器102执行,还可以由终端设备101和服务器102交互执行,本申请实施例对此不加以限定。
[0058] 其中,终端设备101可以是智能手机、平板电脑、笔记本电脑、台式计算机、智能音箱、智能手表等,但并不局限于此。服务器102可以是独立的物理服务器,也可以是多个物理服务器构成的服务器集群或者分布式系统,还可以是提供云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、CDN(Content Delivery Network,内容分发网络)以及大数据和人工智能平台等基础云计算服务的云服务器。终端设备101以及服务器102可以通过有线通信方式或无线通信方式进行直接或间接地连接,本
申请在此不做限制。
[0059] 基于上述实施环境,本申请实施例提供了一种文本数据的增强方法,以图2所示的本申请实施例提供的一种文本数据的增强方法的流程图为例,该方法可由图1中的终端设
备101执行。如图2所示,该方法包括下述步骤201至步骤204。
[0060] 在步骤201中,获取待进行数据增强的训练文本数据。
[0061] 在本申请示例性实施例中,终端设备中安装和运行有能够获取待进行数据增强的训练文本数据的应用程序,该应用程序可以为任意类型的应用程序,本申请实施例对此不
进行限定。基于交互对象在该应用程序中的输入操作,终端设备基于交互对象输入的数据,获取到待进行数据增强的训练文本数据。其中,交互对象为使用终端设备的对象。
[0062] 可选地,响应于交互对象输入的数据为文本内容,则直接将交互对象输入的数据作为待进行数据增强的训练文本数据。响应于交互对象输入的数据为包含有文本内容的参
考数据,则提取参考数据中包括的文本内容;将参考数据中包括的文本内容作为待进行数
据增强的训练文本数据。其中,参考数据为图像和表格中的任一种。
[0063] 本申请实施例不对提取参考数据中包括的文本内容的过程进行限定。在一种可能的实现方式中,响应于目标对象输入的数据为包含有文本内容的参考数据时,对参考数据
进行OCR处理,提取出参考数据中包括的文本内容。
[0064] 需要说明的是,还可以选择其他方式提取参考数据中包括的文本内容,本申请实施例对此不进行限定。
[0065] 示例性地,参考数据为图像,参考数据中包含有文本内容,对图像进行OCR处理,得到图像中包含的文本内容,将图像中包含的文本内容作为待进行数据增强的训练文本数据。例如,训练文本数据为“XX日报记者宋某某最新消息,A地区4.7级地震发生后,A地区救援人员第一时间赶到A地区的小学,与学校老师一起组织孩子们安全有序外出避险。”。
[0066] 在步骤202中,在训练文本数据中确定至少一个需要进行替换的目标内容,目标内容的内容类型为文字、词语、命名实体和句子中的任一种。
[0067] 在一种可能的实现方式中,确定训练文本数据中包括的候选内容的第一数量,候选内容的内容类型与目标内容的内容类型相同。根据第一数量和内容增强比率,确定第二
数量,第二数量为需要进行替换的内容的个数,内容增强比率基于候选内容的内容类型确
定。在训练文本数据中包括的候选内容中确定第二数量个互不相同的候选内容;将第二数
量个互不相同的候选内容作为目标内容。可选地,将第一数量和内容增强比率之间的乘积
作为第二数量。
[0068] 其中,不同内容类型的候选内容对应的内容增强比率可以相同,也可以不同,本申请实施例对此不进行限定。示例性地,无论候选内容的内容类型是什么,对应的内容增强比率均为20%。又例如,候选内容的内容类型为文字时,对应的内容增强比率为30%;候选内容的内容类型为词语时,对应的内容增强比率为20%;候选内容的内容类型为命名实体时,对应的内容增强比率为20%;候选内容的内容类型为句子时,对应的内容增强比率为25%。
[0069] 可选地,当候选内容的内容类型为文字时,将训练文本数据中包括的文字的数量作为第一数量。进而基于第一数量和内容类型为文字时对应的内容增强比率确定第二数
量,在训练文本数据中包括的文字中确定第二数量个互不相同的文字,将第二数量个互不
相同的文字作为需要进行替换的目标内容。可选地,将第一数量和内容类型为文字时对应
的内容增强比率之间的乘积作为第二数量。
[0070] 示例性地,训练文本数据如上述步骤201中提供的训练文本数据,其中,训练文本数据中包括的文字的数量为62。内容类型为文字时对应的内容增强比率为30%,因此,确定第二数量为62*30%≈19,在训练文本数据中包括的文字中确定19个互不相同的文字,将这
19个互不相同的文字作为目标内容。
[0071] 可选地,当候选内容的内容类型为词语时,需要先对训练文本数据进行分词处理,得到训练文本数据中包括的词语的数量,将训练文本数据中包括的词语的数量作为第一数量。基于第一数量和内容类型为词语时对应的内容增强比率,确定第二数量,在训练文本数据中包括的词语中确定第二数量个互不相同的词语,将第二数量个互不相同的词语作为需
要进行替换的目标内容。可选地,将第一数量和内容类型为词语时对应的内容增强比率之
间的乘积作为第二数量。
[0072] 示例性地,训练文本数据如上述步骤201中提供的训练文本数据,其中,对训练文本数据进行分词处理,得到训练文本数据中包括的词语的数量为25。内容类型为词语时对
应的内容增强比率为20%,因此,确定第二数量为25*20%=5,在训练文本数据中包括的词语中确定5个互不相同的词语,将这5个互不相同的词语作为目标内容。
[0073] 可选地,当候选内容的内容类型为命名实体时,将训练文本数据中包括的命名实体的数量作为第一数量。基于第一数量和内容类型为命名实体时对应的内容增强比率,确
定第二数量,在训练文本数据中包括的命名实体中确定第二数量个互不相同的命名实体,
将第二数量个互不相同的命名实体作为需要进行替换的目标内容。可选地,将第一数量和
内容类型为命名实体时对应的内容增强比率之间的乘积作为第二数量。
[0074] 示例性地,训练文本数据如上述步骤201中提供的训练文本数据,其中,训练文本数据中包括的命名实体的数量为5。内容类型为命名实体时对应的内容增强比率为20%,因此,确定第二数量为5*20%=1第二数量。在训练文本数据中包括的命名实体中确定1个命
名实体,将这1个命名实体作为目标内容。
[0075] 在一种可能的实现方式中,当候选内容的内容类型为使用实体,且确定出的第二数量大于1时,还需确定训练文本数据中包括的各个命名实体分别对应的命名实体类型,基于命名实体类型的个数不小于第二数量,在训练文本数据中包括的命名实体中确定第二数
量个类型不同的命名实体,将这第二数量个类型不同的命名实体作为目标内容。基于命名
实体类型的个数小于第二数量,在训练文本数据中包括的命名实体中确定命名实体类型的
个数个类型不同的第一命名实体;在训练文本数据中包括的除第一命名实体之外的命名实
体中确定参考个数个第二命名实体,将第一命名实体和第二命名实体作为目标内容,其中,参考个数为第二数量和实体类型的个数之间的差值。
[0076] 示例性地,训练文本数据中包括的命名实体的个数为10个,确定出的第二数量为2个,训练文本数据中包括的命名实体的命名实体类型的个数为3个,由于命名实体类型的个数不小于第二数量,因此,在训练文本数据中包括的命名实体中确定2个类型不同的命名实体,将这两个类型不同的命名实体作为目标内容。
[0077] 又例如,训练文本数据中包括的命名实体的个数为10个,确定出的第二数量为3个,训练文本数据中包括的命名实体的命名实体类型的个数为2个,由于命名实体类型的个数小于第二数量,因此,在训练文本数据中包括的命名实体中确定2个类型不同的第一命名实体,在训练文本数据包括的除第一命名实体之外的8个命名实体中确定1个第二命名实
体,将这2个第一命名实体和1个第二命名实体作为目标内容。
[0078] 可选地,当候选内容的内容类型为句子时,需要先对训练文本数据进行分句处理,得到训练文本数据中包括的句子的数量,将训练文本数据中包括的句子的数量作为第一数量。基于第一数量和内容类型为句子时对应的内容增强比率,确定第二数量,在训练文本数据中包括的句子中确定第二数量个互不相同的句子,将第二数量个互不相同的句子作为需
要进行替换的目标内容。可选地,将第一数量和内容类型为句子时对应的内容增强比率之
间的乘积作为第二数量。
[0079] 其中,对训练文本数据进行分句处理时,可以以逗号作为句子的结束符号,也可以以句号作为句子的结束符号,还可以以分号作为句子的结束符号,还可以以以其他标点符号作为句子的结束符号,本申请实施例对此不进行限定。
[0080] 示例性地,训练文本数据如上述步骤201中提供的训练文本数据,其中,以逗号作为句子的结束符号对训练文本数据进行分句处理,得到训练文本数据中包括的句子的数量
为4。内容类型为句子时对应的内容增强比率为25%,因此,确定第二数量为4*25%=1,在训练文本数据中包括的句子中确定1个句子,将这1个句子作为目标内容。
[0081] 需要说明的是,需要进行替换的目标内容可以包括文字、词语、命名实体和句子中的任一种,也可以包括文字、词语、命名实体和句子中的至少一种。当需要进行替换的目标内容包括多种类型的内容时,可依次对各种类型的目标内容进行替换操作,得到最终的目标文本数据。其中,本申请实施例不限定对各种类型的目标内容进行替换操作的先后顺序。
示例性地,需要进行替换的目标内容包括文字和词语,因此,先在训练文本数据中确定需要进行替换的文字和需要进行替换的词语,对需要进行替换的文字进行替换之后,再对需要
进行替换的词语进行替换,进而得到目标文本数据。还可以先在训练文本数据中确定需要
进行替换的文字,在训练文本数据中对需要进行替换的文字进行替换之后,得到中间文本,再在中间文本中确定需要进行替换的词语,在中间文本中对需要进行替换的词语进行替
换,进而得到目标文本数据。
[0082] 在步骤203中,确定各个目标内容分别对应的参考内容,任一目标内容对应的参考内容与任一目标内容的内容类型相同、且与任一目标内容的内容不同。
[0083] 在一种可能的实现方式中,本申请实施例不对确定各个目标内容分别对应的参考内容的过程进行限定。可选地,确定各个目标内容分别对应的内容类型;基于各个目标内容分别对应的内容类型,确定各个目标内容分别对应的参考内容的确定方式;按照各个目标
内容分别对应的参考内容的确定方式,确定各个目标内容分别对应的参考内容。
[0084] 其中,当目标内容中包括的字数为一个时,确定目标内容对应的内容类型为文字。当目标内容中包括的字数为多个,且在词语库中可以查找到目标内容时,则确定目标内容
对应的内容类型为词语。当目标内容中包括的字数为多个,且在命名实体库中可以查找到
目标内容时,则确定目标内容对应的内容类型为命名实体。当目标内容中包括的字数为多
个,在词语库中查找不到目标内容,且在命名实体库中也查找不到目标内容时,确定目标内容对应的内容类型为句子。
[0085] 可选地,当目标内容的内容类型为文字时,按照文字对应的参考内容的确定方式确定目标内容对应的参考内容。其中,文字对应的参考内容的确定方式包括基于文字的字
形结构确定文字对应的参考内容和基于文字的拼音确定文字对应的参考内容。
[0086] 当目标内容的内容类型为词语时,按照词语对应的参考内容的确定方式确定目标内容对应的参考内容。其中,词语对应的参考内容的确定方式包括基于词语的特征向量确
定词语对应的参考内容。
[0087] 当目标内容的内容类型为命名实体时,按照命名实体对应的参考内容的确定方式确定目标内容对应的参考内容。其中,命名实体对应的参考内容的确定方式包括基于命名
实体的类型确定命名实体对应的参考内容。
[0088] 当目标内容的内容类型为句子时,按照句子对应的参考内容的确定方式确定目标内容对应的参考内容。其中,句子对应的参考内容的确定方式包括基于句子的训练文本数
据中的位置确定句子对应的参考内容和通过对句子进行回译的方式确定句子对应的参考
内容。
[0089] 下面根据不同内容类型的目标内容,分别阐述目标内容对应的参考内容的确定过程。
[0090] 可选地,当目标内容的内容类型为文字时,可以有下述两种实现方式确定目标内容对应的参考内容。
[0091] 实现方式一、基于至少一个需要进行替换的文字中的任一个文字对应的字形结构,确定任一个文字对应的参考内容。
[0092] 针对至少一个需要进行替换的文字中的任一个文字,确定任一个文字对应的字形结构;将第一文字作为任一个文字对应的参考内容,第一文字对应的字形结构与任一个文
字对应的字形结构相同。
[0093] 可选地,获取第一文字库,第一文字库中包括至少一个与任一个文字对应的字形结构相同的文字。在第一文字库中随机确定一个文字作为第一文字。
[0094] 可选地,文字的字形结构包括独体结构、品字形结构、上下结构、上中下结构、左右结构、左中右结构、全包围结构和半包围结构。例如,米、日为独体结构的文字。品、森为品字形结构的文字。思、华、霜、花、基、想为上下结构的文字。意、褒、裹为上中下结构的文字。村、联、伟、搞、刚、郭为左右结构的文字。街、坳、滩、傲为左中右结构的文字。圆、国为全包围结构的文字。医、匡、庆、尾、匀、句、遍、建、闻、闲、函、凶、造为半包围结构的文字。
[0095] 示例性地,任一个文字为“避”,任一个文字对应的字形结构为半包围结构,第一文字库中包括至少一个字形结构为半包围结构的文字,在第一文字库中确定“造”为第一文字,将“造”作为“避”对应的参考内容。
[0096] 实现方式二、基于至少一个需要进行替换的文字中的任一个文字对应的拼音,确定任一个文字对应的参考内容。
[0097] 针对至少一个需要进行替换的文字中的任一个文字,确定任一个文字对应的拼音;将第二文字作为任一个文字对应的参考内容,第二文字对应的拼音与任一个文字对应
的拼音相同。
[0098] 可选地,获取第二文字库,第二文字库中包括至少一个与任一个文字对应的拼音相同的文字。在第二文字库中随机确定一个文字作为第二文字。
[0099] 示例性地,任一个文字为“避”,任一个文字对应的拼音为“bi”,第二文字库中包括至少一个拼音为“bi”的文字,在第二文字库中确定“蔽”为第二文字,将“蔽”作为“避”对应的参考内容。
[0100] 需要说明的是,当目标内容的内容类型为文字时,可以选择上述任一种实现方式确定目标内容对应的参考内容,当然,还可以随机确定一个文字作为目标内容对应的参考
内容,本申请实施例对目标内容为文字时,目标内容对应的参考内容的确定方式不进行限
定。
[0101] 可选地,当目标内容的内容类型为词语时,可以通过下述方式确定目标内容对应的参考内容:针对至少一个需要进行替换的词语中的任一个词语,确定任一个词语对应的
特征向量,特征向量用于表征任一个词语;确定多个待选词语分别对应的特征向量;基于任一个词语对应的特征向量和多个待选词语分别对应的特征向量,确定多个待选词语分别和
任一个词语之间的相似度;将多个待选词语中相似度满足相似度阈值的待选词语作为任一
个词语对应的参考内容。其中,多个待选词语分别对应的特征向量的维度和任一个词语对
应的特征向量的维度相同。示例性地,将多个待选词语中相似度最高的待选词语作为任一
个词语对应的参考内容。
[0102] 其中,确定任一个词语对应的特征向量的过程包括:获取特征向量确定模型,将任一个词语输入特征向量确定模型,基于特征向量确定模型的输出结果,得到任一个词语对应的特征向量。可选地,特征向量确定模型是通过对样本词语和样本词语对应的特征向量
进行训练得到的。多个候选词语分别对应的特征向量的确定过程与上述任一个词语对应的
特征向量的确定过程类似,在此不再进行赘述。
[0103] 在一种可能的实现方式中,基于任一个词语对应的特征向量和多个待选词语分别对应的特征向量,确定多个待选词语分别和任一个词语之间的相似度的过程包括:将任一
个待选词语对应的特征向量和任一个词语对应的特征向量进行点乘得到的乘积作为任一
个待选词语与任一个词语之间的相似度。
[0104] 可选地,按照下述公式(1)确定任一个待选词语和任一个词语之间的相似度。
[0105] S=A1*B1+A2*B2+A3*B3+…+An*Bn (1)
[0106] 在上述公式(1)中,S是任一个待选词语和任一个词语之前的相似度,(A1,A2,A3,…,An)为任一个词语对应的特征向量,(B1,B2,B3,…,Bn)为任一个待选词语对应的特征向量。
[0107] 示例性地,任一个词语为“委屈”,基于上述过程确定出“委屈”对应的参考内容为“愧疚”。又例如,任一个词语为“努力”,基于上述过程确定出“努力”对应的参考内容为“持之以恒”。
[0108] 可选地,当目标内容的内容类型为命名实体时,可以通过下述方式确定目标内容对应的参考内容:针对至少一个需要进行替换的命名实体中的任一个命名实体,确定任一
个命名实体对应的命名实体类型;将参考命名实体作为任一个命名实体对应的参考内容,
参考命名实体对应的命名实体类型与任一个命名实体对应的命名实体类型相同。
[0109] 可选地,获取命名实体库,命名实体库中包括至少一个与任一个命名实体对应的命名实体类型相同的命名实体;在命名实体库中随机确定一个命名实体作为参考命名实
体。
[0110] 其中,命名实体(named entity)就是人名、机构名、地名以及其他所有以名称为标识的实体。命名实体库为根据具体应用场景对文本语料进行收集整理的知识库,例如,新闻场景下的地名实体库是对中外各大城市名以及国家名的汇总,人名为世界各地政客、历史人物、演员、歌手等名人的汇总。
[0111] 示例性地,任一个命名实体为“XX日报”,任一个命名实体对应的命名实体类型为机构名,在包括至少一个命名实体类型为机构名的命名实体库中确定“AA日报”为参考命名实体,也即是,将“AA日报”作为“XX日报”对应的参考内容。
[0112] 可选地,当目标内容的内容类型为句子时,可以有下述两种实现方式确定目标内容对应的参考内容。
[0113] 第一种实现方式、基于至少一个需要进行替换的句子中的任一个句子在训练文本数据中的位置,确定任一个句子对应的参考内容。
[0114] 在一种可能的实现方式中,针对至少一个需要进行替换的句子中的任一个句子,确定任一个句子在训练文本数据中的位置;基于任一个句子在训练文本数据中的位置,确
定任一个句子对应的参考内容。
[0115] 其中,基于任一个句子在训练文本数据中的位置,有下述三种方式确定任一个句子对应的参考内容。
[0116] 方式一、将训练文本数据中与任一个句子的位置相邻,且在任一个句子的位置之前的句子作为任一个句子对应的参考内容。
[0117] 示例性地,训练文本数据为“1月2日,A地区,一小伙参加朋友婚礼,驾驶证被暂扣期间开着新娘的陪嫁车辆,还超速行驶。相关人员告知,虽是结婚的大喜之日,但法不容情。张某面临惩罚,陪嫁车辆也被扣留。”。其中,任一个句子为“相关人员告知,虽是结婚的大喜之日,但法不容情。”,因此,将“1月2日,A地区,一小伙参加朋友婚礼,驾驶证被暂扣期间开着新娘的陪嫁车辆,还超速行驶。”作为任一个句子对应的参考内容。
[0118] 方式二、将训练文本数据中与任一个句子的位置相邻,且在任一个句子的位置之后的句子作为任一个句子对应的参考内容。
[0119] 示例性地,训练文本数据为“1月2日,A地区,一小伙参加朋友婚礼,驾驶证被暂扣期间开着新娘的陪嫁车辆,还超速行驶。相关人员告知,虽是结婚的大喜之日,但法不容情。张某面临惩罚,陪嫁车辆也被扣留。”。其中,任一个句子为“相关人员告知,虽是结婚的大喜之日,但法不容情。”,因此,将“张某面临惩罚,陪嫁车辆也被扣留。”作为任一个句子对应的参考内容。
[0120] 方式三、将训练文本数据中包括的多个句子中除任一个句子之外的任意一个句子作为任一个句子对应的参考内容。
[0121] 示例性地,训练文本数据为“1月2日,A地区,一小伙参加朋友婚礼,驾驶证被暂扣期间开着新娘的陪嫁车辆,还超速行驶。相关人员告知,虽是结婚的大喜之日,但法不容情。张某面临惩罚,陪嫁车辆也被扣留。”。其中,任一个句子为“相关人员告知,虽是结婚的大喜之日,但法不容情。”,因此,在训练文本数据中包括的除任一个句子之外的句子中随机确定一个句子作为任一个句子对应的参考内容。
[0122] 第二种实现方式、基于至少一个需要进行替换的句子中的任一个句子,通过对任一个句子进行回译的方式,确定任一个句子对应的参考内容。
[0123] 在一种可能的实现方式中,针对至少一个需要进行替换的句子中的任一个句子,对任一个句子进行翻译,得到第一中间句子,第一中间句子对应的语种与任一个句子对应
的语种不同;对第一中间句子进行翻译,得到第二中间句子,第二中间句子与任一个句子对应的语种相同;将第二中间句子作为任一个句子对应的参考内容。
[0124] 示例性地,训练文本数据为“1月2日,A地区,一小伙参加朋友婚礼,驾驶证被暂扣期间开着新娘的陪嫁车辆,还超速行驶。相关人员告知,虽是结婚的大喜之日,但法不容情。张某面临惩罚,陪嫁车辆也被扣留。”。其中,任一个句子为“相关人员告知,虽是结婚的大喜之日,但法不容情。”,对任一个句子进行翻译,得到第一中间句子为“The relevant
personnel informed that although it was the big day of the wedding,the law
was not merciless.”,对第一中间句子进行翻译,得到第二中间句子为“相关人员告知,虽然是婚礼的大日子,但法并非无情。”,将第二中间句子作为任一个句子对应的参考内容。
[0125] 在步骤204中,将训练文本数据中的目标内容替换为目标内容对应的参考内容,得到目标文本数据,训练文本数据和目标文本数据用于对神经网络模型进行训练。
[0126] 在一种可能的实现方式中,在上述步骤203中确定出各个目标内容分别对应的参考内容之后,将训练文本数据中的目标内容替换为目标内容对应的参考内容,得到目标文
本数据。
[0127] 可选地,当目标内容的内容类型为文字时,直接将目标内容替换为目标内容对应的参考内容。
[0128] 示例性地,训练文本数据为“XX日报记者宋某某新消息,#A地区4.7级地震#发生后,A地区救援人员第一时间赶到坝底小学,与学校老师一起组织孩子们安全有序外出避
险。”,其中,目标内容为“地”、“坝”、“学”、“避”。“地”对应的参考内容为“块”;“坝”对应的参考内容为“现”;“学”对应的参考内容为“受”;“避”对应的参考内容为“造”。基于各个目标内容对应的参考内容,得到的目标文本数据为“XX日报记者宋某某新消息,#A块区4.7级块震#发生后,A块区救援人员第一时间赶到现底小受,与学校老师一起组织孩子们安全有序外出造险。”。
[0129] 可选地,当目标内容的内容类型为词语时,直接将目标内容替换为目标内容对应的参考内容。
[0130] 示例性地,训练文本数据为“2日,A地区,全国高速公路联网收费第二天,义东高速收费员被不理解政策的司机辱骂,委屈落泪。但下一秒努力控制好情绪,转头微笑服务。网友:让人心疼泪崩的瞬间,你有着全网最美的微笑!”。其中,目标内容为“A地区”、“委屈”、“努力”、“有着”。“A地区”对应的参考内容为“B地区”;“委屈”对应的参考内容为“愧疚”;“努力”对应的参考内容为“持之以恒”;“有着”对应的参考内容为“蕴含着”。基于各个目标内容对应的参考内容,得到的目标文本数据为“2日,B地区,全国高速公路联网收费第二天,义东高速收费员被不理解政策的司机辱骂,愧疚落泪。但下一秒持之以恒控制好情绪,转头微笑服务。网友:让人心疼泪崩的瞬间,你蕴含着全网最美的微笑!”。
[0131] 可选地,当目标内容的内容类型为命名实体时,直接将目标内容替换为目标内容对应的参考内容。
[0132] 示例性地,训练文本数据为“XX日报记者宋某某新消息,#A地区4.7级地震#发生后,A地区救援人员第一时间赶到坝底小学,与学校老师一起组织孩子们安全有序外出避
险。”,其中,目标内容为“XX日报”、“宋某某”、“A地区”。“XX日报”对应的参考内容为“XX晚报”;“宋某某”对应的参考内容为“戴某某”;“A地区”对应的参考内容为“B地区”。基于各个目标内容对应的参考内容,得到的目标文本数据为“XX晚报记者戴某某新消息,#B地区4.7级地震#发生后,B地区救援人员第一时间赶到坝底小学,与学校老师一起组织孩子们安全
有序外出避险。”。
[0133] 当目标内容的内容类型为句子时,如果目标内容对应的参考内容是基于目标内容在训练文本数据中的位置确定的,则将训练文本数据中的任一个目标内容与任一个目标内
容对应的参考内容位置交换,得到目标文本数据。
[0134] 示例性地,训练文本数据为“1月2日,A地区,一小伙参加朋友婚礼,驾驶证被暂扣期间开着新娘的陪嫁车辆,还超速行驶。相关人员告知,虽是结婚的大喜之日,但法不容情。张某面临惩罚,陪嫁车辆也被扣留。”。其中,目标内容为“相关人员告知,虽是结婚的大喜之日,但法不容情。”,目标内容对应的参考内容为“1月2日,A地区,一小伙参加朋友婚礼,驾驶证被暂扣期间开着新娘的陪嫁车辆,还超速行驶。”。基于目标内容对应的参考内容,得到的目标文本数据为“相关人员告知,虽是结婚的大喜之日,但法不容情。1月2日,A地区,一小伙参加朋友婚礼,驾驶证被暂扣期间开着新娘的陪嫁车辆,还超速行驶。张某面临惩罚,陪嫁车辆也被扣留。”。
[0135] 当目标内容的内容类型为句子时,如果目标内容对应的参考内容是通过对目标内容进行句子回译的方式确定的,则直接将目标内容替换为目标内容对应的参考内容,得到
目标文本数据。
[0136] 示例性地,训练文本数据为“1月2日,A地区,一小伙参加朋友婚礼,驾驶证被暂扣期间开着新娘的陪嫁车辆,还超速行驶。相关人员告知,虽是结婚的大喜之日,但法不容情。张某面临惩罚,陪嫁车辆也被扣留。”。其中,目标内容为“相关人员告知,虽是结婚的大喜之日,但法不容情。”,目标内容对应的参考内容为“相关人员告知,虽然是婚礼的大日子,但法并非无情。”。基于目标内容对应的参考内容,得到的目标文本数据为“1月2日,A地区,一小伙参加朋友婚礼,驾驶证被暂扣期间开着新娘的陪嫁车辆,还超速行驶。相关人员告知,虽然是婚礼的大日子,但法并非无情。张某面临惩罚,陪嫁车辆也被扣留。”。
[0137] 可选地,将训练文本数据中需要进行替换的目标内容替换为目标内容对应的参考内容之后,得到中间文本,在中间文本中确定需要进行替换的待选内容,确定待选内容对应的参考内容,将中间文本中需要进行替换的待选内容替换为待选内容对应的参考内容之
后,得到目标文本数据。其中,待选内容的内容类型和目标内容的内容类型相同或不相同,本申请实施例对此不进行限定。
[0138] 示例性地,在训练文本数据中确定的需要进行替换的第一内容,确定第一内容对应的参考内容,将训练文本数据中的第一内容替换为第一内容对应的参考内容,得到第一
中间文本。在第一中间文本中确定需要进行替换的第二内容,确定第二内容对应的参考内
容,将第一中间文本中的第二内容替换为第二内容对应的参考内容,得到第二中间文本。在第二中间文本中确定需要进行替换的第三内容,确定第三内容对应的参考内容,将第二中
间文本中的第三内容替换为第三内容对应的参考内容,得到第三中间文本。在第三中间文
本中确定需要进行替换的第四内容,确定第四内容对应的参考内容,将第三中间文本中的
第四内容替换为第四内容对应的参考内容,得到目标文本数据。
[0139] 其中,第一内容、第二内容、第三内容和第四内容的个数均可以是一个或多个。第一内容的内容类型为文字、词语、命名实体和句子中的任一种内容类型;第二内容的内容类型为文字、词语、命名实体和句子中除第一内容的内容类型之外的任一种内容类型;第三内容的内容类型为文字、词语、命名实体和句子中除第一内容的内容类型和第二内容的内容类型之外的任一种内容类型;第四内容的内容类型为文字、词语、命名实体和句子中除第一内容的内容类型、第二内容的内容类型和第三内容的内容类型之外的内容类型。
[0140] 示例性地,训练文本数据为“XX日报报道,我们一起加油,一起向未来。”。第一内容包括“我”、“起”,其中,“我”对应的参考内容为“握”,“起”对应的参考内容为“齐”,在训练文本数据中将第一内容替换为第一内容对应的参考内容,得到第一中间文本为“XX日报报道,握们一齐加油,一齐向未来。”。在第一中间文本中确定第二内容为“加油”,“加油”对应的参考内容为“努力”,在第一中间文本中将第二内容替换为第二内容对应的参考内容,得到第二中间文本为“XX日报报道,握们一齐努力,一齐向未来。”。在第二中间文本中确定第三内容为“XX日报”,“XX日报”对应的参考内容为“AA日报”,在第二中间文本中将第三内容替换为第三内容对应的参考内容,得到第三中间文本为“AA日报报道,握们一齐努力,一齐向未来。”。在第三中间文本中确定第四内容为“握们一齐努力”,“握们一齐努力”对应的参考内容为“一齐向未来”,在第三中间文本中将第三内容与第三内容对应的参考内容交换,得到目标文本数据为“AA日报报道,一齐向未来,握们一齐努力。”。
[0141] 在一种可能的实现方式中,响应于参考数据为表格时,由于表格中有多个表格区域,每个表格区域中均可以包括文本内容,因此,可以将表格中的第一表格区域中包括的文本内容作为目标内容,第一表格区域为表格中的任一个表格区域。将表格中第二表格区域
中包括的文本内容作为目标内容对应的参考内容,第二表格区域为表格中除第一表格区域
之外的任一个表格区域。进而将第一表格区域中包括的内容和第二表格区域中包括的内容
交换位置,得到数据增强之后的参考数据。
[0142] 示例性地,参考数据为表格时,表格如下述表1所述。
[0143] 表1
[0144]第一个表格区域 第二个表格区域 第三个表格区域
第四个表格区域 第五个表格区域 第六个表格区域
[0145] 在上述表1中,包括六个表格区域,可以将任一个表格区域中包括的文本内容作为目标内容,将剩余的表格区域中的任一个表格区域中包括的文本内容作为目标内容对应的
参考内容。
[0146] 上述方法通过在需要进行数据增强的训练文本数据中确定目标内容,进而确定目标内容对应的参考内容,将训练文本数据中的目标内容替换为目标内容对应的参考内容的
方式,得到训练文本数据经过数据增强之后的目标文本数据。由于目标内容的内容类型是
多样的,使得数据增强的方式多样化。而且,目标内容的类型不同时,得到的目标文本数据是不同的,使得训练文本数据经过数据增强之后得到的目标文本数据也是不同的。进而采
用训练文本数据以及数据增强之后的目标文本数据对神经网络模型进行训练之后,使得神
经网络模型的泛化能力得到较大的提升。
[0147] 图3是本申请实施例提供的一种文本数据的增强方法的流程图。在图3中,获取待进行数据增强的训练文本数据;确定训练文本数据对应的数据增强操作,数据增强操作包
括混淆字替换操作、近义词替换操作、命名实体替换操作和句子替换操作中的至少一种。按照数据增强操作对训练文本数据进行数据增强。确定是否处理完,如果还未处理完,则继续按照数据增强操作对训练文本数据进行数据增强。如果已经处理完,则得到数据增强之后
的目标文本数据。
[0148] 在体检报告多标签分类算法中,通过采用多粒度数据增强方案,在相同超参数、相同模型的情况下,总体增益效果显著超过单粒度数据增强方法。如下述表2为本申请实施例提供的采用多粒度数据增强方法和采用其他数据增强方法分别对训练集进行数据增强之后的页面准确率和召回率。
[0149] 表2
[0150] 数据增强方法 页面准确率 召回率 页面准确率增益 召回率增益Baseline(基础) 90.95% 95.39% ‑ ‑
重采样增强 93.04% 96.49% +2.09% +1.10%
区域交换 93.01% 96.44% +2.06% +1.05%
文本行 93.52% 96.68% +2.57% +1.05%
混淆字替换 92.99% 96.64% +2.04% +1.25%
多粒度增强 94.42% 97.35% +3.47% +1.96%
[0151] 由上述表2可知,采用多粒度增强方法相较于基础数据增强方法的页面准确率提升了3.47%,召回率提升了1.96%。
[0152] 图4是本申请实施例提供的一种文本数据的增强方法的统一建模语言(Unified Modeling Language,UML)图。如图4所示:
[0153] 输入:数据增强操作列表agu=[“swapsent”,“confusion_replace”,…]
[0154] 根据输入列表,创建对应的数据增强操作的类对象AugObj_i;
[0155] 将AugObj_i添加到增强字典_augment_中,如图4所示,其中包括字粒度的Confusion Word Augmentation(混淆字增强操作),词粒度的Synonym Augmentation(近义
词增强操作),Entity Replace Augmentation(命名实体增强操作),和句子粒度的Sents
Replace Augmentation(句子增强操作)等。特殊任务可能会定制一定的先验规则增强方
式。例如,医疗文本表达归一化中,利用先验规则对“text:右小腿皮肤软组织损伤,label:
下肢未特指的损伤”这个样本生成“text:左小腿皮肤软组织损伤,label:下肢未特指的损伤”。
[0156] 当对样本(sample)进行增强生成新样本的时候,可以选择输入注册列表中的具体方法,也可以输入随机(random),表示从_augment_中随机指派数据增强方法对样本进行数据增强。
[0157] 构建一个Corpus Text Augmentation(语料库文本扩充)的对象,该对象通过依赖Text Augmentation Base(文本扩充库)得到,该对象中已经完成注册了样本数据增强操
作。对于新的需要进行数据增强的训练文本数据,只需要修改训练文本数据的初始化方法
和Corpus Base(语料库)中的读写函数即可对新的训练文本数据进行数据增强,进而得到
新的训练文本数据对应的目标文本数据。
[0158] 图5所示为本申请实施例提供的一种文本数据的增强装置的结构示意图,如图5所示,该装置包括:
[0159] 获取模块501,用于获取待进行数据增强的训练文本数据;
[0160] 确定模块502,用于在训练文本数据中确定至少一个需要进行替换的目标内容,目标内容的内容类型为文字、词语、命名实体和句子中的任一种;
[0161] 确定模块502,还用于确定各个目标内容分别对应的参考内容,任一目标内容对应的参考内容与任一目标内容的内容类型相同、且与任一目标内容的内容不同;
[0162] 替换模块503,用于将训练文本数据中的目标内容替换为目标内容对应的参考内容,得到目标文本数据,训练文本数据和目标文本数据用于对神经网络模型进行训练。
[0163] 在一种可能的实现方式中,确定模块502,用于确定训练文本数据中包括的候选内容的第一数量,候选内容的内容类型与目标内容的内容类型相同;根据第一数量和内容增
强比率,确定第二数量,第二数量为需要进行替换的内容的个数,内容增强比率基于候选内容的内容类型确定;在训练文本数据中包括的候选内容中确定第二数量个互不相同的候选
内容;将第二数量个互不相同的候选内容作为目标内容。
[0164] 在一种可能的实现方式中,确定模块502,用于确定各个目标内容分别对应的内容类型;基于各个目标内容分别对应的内容类型,确定各个目标内容分别对应的参考内容的
确定方式;按照各个目标内容分别对应的参考内容的确定方式,确定各个目标内容分别对
应的参考内容。
[0165] 在一种可能的实现方式中,目标内容的内容类型为文字;
[0166] 确定模块502,用于针对至少一个需要进行替换的文字中的任一个文字,确定任一个文字对应的字形结构;将第一文字作为任一个文字对应的参考内容,第一文字对应的字
形结构与任一个文字对应的字形结构相同。
[0167] 在一种可能的实现方式中,目标内容的内容类型为文字;
[0168] 确定模块502,用于针对至少一个需要进行替换的文字中的任一个文字,确定任一个文字对应的拼音;将第二文字作为任一个文字对应的参考内容,第二文字对应的拼音与
任一个文字对应的拼音相同。
[0169] 在一种可能的实现方式中,目标内容的内容类型为词语;
[0170] 确定模块502,用于针对至少一个需要进行替换的词语中的任一个词语,确定任一个词语对应的特征向量;确定多个待选词语分别对应的特征向量;基于任一个词语对应的
特征向量和多个待选词语分别对应的特征向量,确定多个待选词语分别和任一个词语之间
的相似度;将多个待选词语中相似度满足相似度阈值的待选词语作为任一个词语对应的参
考内容。
[0171] 在一种可能的实现方式中,目标内容的内容类型为命名实体;
[0172] 确定模块502,用于针对至少一个需要进行替换的命名实体中的任一个命名实体,确定任一个命名实体对应的命名实体类型;将参考命名实体作为任一个命名实体对应的参
考内容,参考命名实体对应的命名实体类型与任一个命名实体对应的命名实体类型相同。
[0173] 在一种可能的实现方式中,目标内容的内容类型为句子;
[0174] 确定模块502,用于针对至少一个需要进行替换的句子中的任一个句子,确定任一个句子在训练文本数据中的位置;基于任一个句子在训练文本数据中的位置,确定任一个
句子对应的参考内容。
[0175] 在一种可能的实现方式中,确定模块502,用于将训练文本数据中与任一个句子的位置相邻,且在任一个句子的位置之前的句子作为任一个句子对应的参考内容;或者,将训练文本数据中与任一个句子的位置相邻,且在任一个句子的位置之后的句子作为任一个句
子对应的参考内容;或者,将训练文本数据中包括的多个句子中除任一个句子之外的任意
一个句子作为任一个句子对应的参考内容。
[0176] 在一种可能的实现方式中,替换模块503,用于将训练文本数据中的任一个句子与任一个句子对应的参考内容的位置交换,得到目标文本数据。
[0177] 在一种可能的实现方式中,目标内容的内容类型为句子;
[0178] 确定模块502,用于针对至少一个需要进行替换的句子中的任一个句子,对任一个句子进行翻译,得到第一中间句子,第一中间句子对应的语种与任一个句子对应的语种不
同;对第一中间句子进行翻译,得到第二中间句子,第二中间句子对应的语种与任一个句子对应的语种相同;将第二中间句子作为任一个句子对应的参考内容。
[0179] 在一种可能的实现方式中,获取模块501,用于获取包含有文本内容的参考数据,参考数据为图像和表格中的任一种;提取参考数据中包括的文本内容;将参考数据中包括
的文本内容作为待进行数据增强的训练文本数据。
[0180] 上述装置通过在需要进行数据增强的训练文本数据中确定目标内容,进而确定目标内容对应的参考内容,将训练文本数据中的目标内容替换为目标内容对应的参考内容的
方式,得到训练文本数据经过数据增强之后的目标文本数据。由于目标内容的内容类型是
多样的,使得数据增强的方式多样化。而且,目标内容的类型不同时,得到的目标文本数据是不同的,使得训练文本数据经过数据增强之后得到的目标文本数据也是不同的。进而采
用训练文本数据以及数据增强之后的目标文本数据对神经网络模型进行训练之后,使得神
经网络模型的泛化能力得到较大的提升。
[0181] 应理解的是,上述提供的装置在实现其功能时,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将设备的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。另外,上述实施例提供的装置与方法实施例属于同一构思,其具体实现过程详见方法实施例,这里不再赘
述。
[0182] 图6示出了本申请一个示例性实施例提供的终端设备600的结构框图。该终端设备600可以是便携式移动终端,比如:智能手机、平板电脑、MP3播放器(Moving Picture
Experts Group Audio Layer III,动态影像专家压缩标准音频层面3)、MP4(Moving
Picture Experts Group Audio Layer IV,动态影像专家压缩标准音频层面4)播放器、笔
记本电脑或台式电脑。终端设备600还可能被称为用户设备、便携式终端、膝上型终端、台式终端等其他名称。
[0183] 通常,终端设备600包括有:处理器601和存储器602。
[0184] 处理器601可以包括一个或多个处理核心,比如4核心处理器、8核心处理器等。处理器601可以采用DSP(Digital Signal Processing,数字信号处理)、FPGA(Field‑
Programmable Gate Array,现场可编程门阵列)、PLA(Programmable Logic Array,可编程逻辑阵列)中的至少一种硬件形式来实现。处理器601也可以包括主处理器和协处理器,主
处理器是用于对在唤醒状态下的数据进行处理的处理器,也称CPU(Central Processing
Unit,中央处理器);协处理器是用于对在待机状态下的数据进行处理的低功耗处理器。在一些实施例中,处理器601可以集成有GPU(Graphics Processing Unit,图像处理器),GPU用于负责显示屏所需要显示的内容的渲染和绘制。一些实施例中,处理器601还可以包括AI(Artificial Intelligence,人工智能)处理器,该AI处理器用于处理有关机器学习的计算操作。
[0185] 存储器602可以包括一个或多个计算机可读存储介质,该计算机可读存储介质可以是非暂态的。存储器602还可包括高速随机存取存储器,以及非易失性存储器,比如一个或多个磁盘存储设备、闪存存储设备。在一些实施例中,存储器602中的非暂态的计算机可读存储介质用于存储至少一个指令,该至少一个指令用于被处理器601所执行以实现本申
请中方法实施例提供的文本数据的增强方法。
[0186] 在一些实施例中,终端设备600还可选包括有:外围设备接口603和至少一个外围设备。处理器601、存储器602和外围设备接口603之间可以通过总线或信号线相连。各个外围设备可以通过总线、信号线或电路板与外围设备接口603相连。具体地,外围设备包括:射频电路604、显示屏605、摄像头组件606、音频电路607和电源609中的至少一种。
[0187] 外围设备接口603可被用于将I/O(Input/Output,输入/输出)相关的至少一个外围设备连接到处理器601和存储器602。在一些实施例中,处理器601、存储器602和外围设备接口603被集成在同一芯片或电路板上;在一些其他实施例中,处理器601、存储器602和外围设备接口603中的任意一个或两个可以在单独的芯片或电路板上实现,本实施例对此不
加以限定。
[0188] 射频电路604用于接收和发射RF(Radio Frequency,射频)信号,也称电磁信号。射频电路604通过电磁信号与通信网络以及其他通信设备进行通信。射频电路604将电信号转换为电磁信号进行发送,或者,将接收到的电磁信号转换为电信号。可选地,射频电路604包括:天线系统、RF收发器、一个或多个放大器、调谐器、振荡器、数字信号处理器、编解码芯片组、用户身份模块卡等等。射频电路604可以通过至少一种无线通信协议来与其它终端设备进行通信。该无线通信协议包括但不限于:万维网、城域网、内联网、各代移动通信网络(2G、
3G、4G及5G)、无线局域网和/或WiFi(Wireless Fidelity,无线保真)网络。在一些实施例中,射频电路604还可以包括NFC(Near Field Communication,近距离无线通信)有关的电
路,本申请对此不加以限定。
[0189] 显示屏605用于显示UI(User Interface,用户界面)。该UI可以包括图形、文本、图标、视频及其它们的任意组合。当显示屏605是触摸显示屏时,显示屏605还具有采集在显示屏605的表面或表面上方的触摸信号的能力。该触摸信号可以作为控制信号输入至处理器601进行处理。此时,显示屏605还可以用于提供虚拟按钮和/或虚拟键盘,也称软按钮和/或软键盘。在一些实施例中,显示屏605可以为一个,设置在终端设备600的前面板;在另一些实施例中,显示屏605可以为至少两个,分别设置在终端设备600的不同表面或呈折叠设计;
在另一些实施例中,显示屏605可以是柔性显示屏,设置在终端设备600的弯曲表面上或折
叠面上。甚至,显示屏605还可以设置成非矩形的不规则图形,也即异形屏。显示屏605可以采用LCD(Liquid Crystal Display,液晶显示屏)、OLED(Organic Light‑Emitting Diode,有机发光二极管)等材质制备。
[0190] 摄像头组件606用于采集图像或视频。可选地,摄像头组件606包括前置摄像头和后置摄像头。通常,前置摄像头设置在终端设备600的前面板,后置摄像头设置在终端设备
600的背面。在一些实施例中,后置摄像头为至少两个,分别为主摄像头、景深摄像头、广角摄像头、长焦摄像头中的任意一种,以实现主摄像头和景深摄像头融合实现背景虚化功能、主摄像头和广角摄像头融合实现全景拍摄以及VR(Virtual Reality,虚拟现实)拍摄功能
或者其它融合拍摄功能。在一些实施例中,摄像头组件606还可以包括闪光灯。闪光灯可以是单色温闪光灯,也可以是双色温闪光灯。双色温闪光灯是指暖光闪光灯和冷光闪光灯的
组合,可以用于不同色温下的光线补偿。
[0191] 音频电路607可以包括麦克风和扬声器。麦克风用于采集用户及环境的声波,并将声波转换为电信号输入至处理器601进行处理,或者输入至射频电路604以实现语音通信。
出于立体声采集或降噪的目的,麦克风可以为多个,分别设置在终端设备600的不同部位。
麦克风还可以是阵列麦克风或全向采集型麦克风。扬声器则用于将来自处理器601或射频
电路604的电信号转换为声波。扬声器可以是传统的薄膜扬声器,也可以是压电陶瓷扬声
器。当扬声器是压电陶瓷扬声器时,不仅可以将电信号转换为人类可听见的声波,也可以将电信号转换为人类听不见的声波以进行测距等用途。在一些实施例中,音频电路607还可以包括耳机插孔。
[0192] 电源609用于为终端设备600中的各个组件进行供电。电源609可以是交流电、直流电、一次性电池或可充电电池。当电源609包括可充电电池时,该可充电电池可以是有线充电电池或无线充电电池。有线充电电池是通过有线线路充电的电池,无线充电电池是通过
无线线圈充电的电池。该可充电电池还可以用于支持快充技术。
[0193] 在一些实施例中,终端设备600还包括有一个或多个传感器610。该一个或多个传感器610包括但不限于:加速度传感器611、陀螺仪传感器612、压力传感器613、光学传感器
615以及接近传感器616。
[0194] 加速度传感器611可以检测以终端设备600建立的坐标系的三个坐标轴上的加速度大小。比如,加速度传感器611可以用于检测重力加速度在三个坐标轴上的分量。处理器
601可以根据加速度传感器611采集的重力加速度信号,控制显示屏605以横向视图或纵向
视图进行用户界面的显示。加速度传感器611还可以用于游戏或者用户的运动数据的采集。
[0195] 陀螺仪传感器612可以检测终端设备600的机体方向及转动角度,陀螺仪传感器612可以与加速度传感器611协同采集用户对终端设备600的3D动作。处理器601根据陀螺仪
传感器612采集的数据,可以实现如下功能:动作感应(比如根据用户的倾斜操作来改变
UI)、拍摄时的图像稳定、游戏控制以及惯性导航。
[0196] 压力传感器613可以设置在终端设备600的侧边框和/或显示屏605的下层。当压力传感器613设置在终端设备600的侧边框时,可以检测用户对终端设备600的握持信号,由处理器601根据压力传感器613采集的握持信号进行左右手识别或快捷操作。当压力传感器
613设置在显示屏605的下层时,由处理器601根据用户对显示屏605的压力操作,实现对UI
界面上的可操作性控件进行控制。可操作性控件包括按钮控件、滚动条控件、图标控件、菜单控件中的至少一种。
[0197] 光学传感器615用于采集环境光强度。在一个实施例中,处理器601可以根据光学传感器615采集的环境光强度,控制显示屏605的显示亮度。具体地,当环境光强度较高时,调高显示屏605的显示亮度;当环境光强度较低时,调低显示屏605的显示亮度。在另一个实施例中,处理器601还可以根据光学传感器615采集的环境光强度,动态调整摄像头组件606的拍摄参数。
[0198] 接近传感器616,也称距离传感器,通常设置在终端设备600的前面板。接近传感器616用于采集用户与终端设备600的正面之间的距离。在一个实施例中,当接近传感器616检测到用户与终端设备600的正面之间的距离逐渐变小时,由处理器601控制显示屏605从亮
屏状态切换为息屏状态;当接近传感器616检测到用户与终端设备600的正面之间的距离逐
渐变大时,由处理器601控制显示屏605从息屏状态切换为亮屏状态。
[0199] 本领域技术人员可以理解,图6中示出的结构并不构成对终端设备600的限定,可以包括比图示更多或更少的组件,或者组合某些组件,或者采用不同的组件布置。
[0200] 图7为本申请实施例提供的服务器的结构示意图,该服务器700可因配置或性能不同而产生比较大的差异,可以包括一个或多个处理器(Central Processing Units,CPU)
701和一个或多个的存储器702,其中,该一个或多个存储器702中存储有至少一条程序代
码,该至少一条程序代码由该一个或多个处理器701加载并执行以实现上述各个方法实施
例提供的文本数据的增强方法。当然,该服务器700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件,以便进行输入输出,该服务器700还可以包括其他用于实现设备功能的部件,在此不做赘述。
[0201] 在示例性实施例中,还提供了一种计算机可读存储介质,该存储介质中存储有至少一条程序代码,该至少一条程序代码由处理器加载并执行,以使计算机实现上述任一种
文本数据的增强方法。
[0202] 可选地,上述计算机可读存储介质可以是只读存储器(Read‑Only Memory,ROM)、随机存取存储器(Random Access Memory,RAM)、只读光盘(Compact Disc Read‑Only Memory,CD‑ROM)、磁带、软盘和光数据存储设备等。
[0203] 在示例性实施例中,还提供了一种计算机程序或计算机程序产品,该计算机程序或计算机程序产品中存储有至少一条计算机指令,该至少一条计算机指令由处理器加载并
执行,以使计算机实现上述任一种文本数据的增强方法。
[0204] 需要说明的是,本申请所涉及的信息(包括但不限于用户设备信息、用户个人信息等)、数据(包括但不限于用于分析的数据、存储的数据、展示的数据等)以及信号,均为经用户授权或者经过各方充分授权的,且相关数据的收集、使用和处理需要遵守相关国家和地
区的相关法律法规和标准。例如,本申请中涉及到的训练文本数据都是在充分授权的情况
下获取的。
[0205] 应当理解的是,在本文中提及的“多个”是指两个或两个以上。“和/或”,描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。字符“/”一般表示前后关联对象是一种“或”的关系。
[0206] 上述本申请实施例序号仅仅为了描述,不代表实施例的优劣。
[0207] 以上所述仅为本申请的示例性实施例,并不用以限制本申请,凡在本申请的原则之内,所作的任何修改、等同替换、改进等,均应包含在本申请的保护范围之内。