[0151] 步骤S105:将待分类文本划分为普通文本。
[0152] 例如,在该步骤中,上述待分类文本(a)被划分为普通文本。而此时对于待分类文本(b)、(c)、(d)还无法确定它们的所属类别,需要执行后面的步骤来进行确定。
[0153] 可以看出,通过步骤S103统计替换字符串在经过预处理的待分类文本中出现的概率,并根据步骤S104中该概率与第一分类器的过滤阈值之间的相对大小关系确定执行步骤S105还是步骤S106,实际上是直接过滤掉没有太大价值(即,没有什么有效信息量)的待分类文本而不再通过执行后续的处理来对其进行分类的过程。由于替换字符串出现的概率越大,说明待分类文本中包含的文本噪声越多,相应地,待分类文本的价值(有效信息量)也就越小,因而,通过后续的步骤进一步确定其的价值(有效信息量)再对其进行分类也就变得没有特别大的意义,而且,通过将其直接确定为普通文本而不再执行后续步骤的处理还能够提高文本分类执行的效率,节约时间和内存资源的消耗等。
[0154] 步骤S106:对经过预处理的待分类文本进行分词处理,获得待分类文本的词矢量文本。步骤S106的处理与步骤S203的处理类似。
[0155] 例如,若对于上述经过预处理的待分类文本(b),在该步骤中,对其进行分词,得到如下的词矢量文本(b):
[0156] 性价比 不错 只是 人一多 服务 有些 跟不上
[0157] 若对于上述经过预处理的待分类文本(c),在该步骤中,对其进行分词,得到如下的词矢量文本(c):
[0158] 榴莲 芝士 蛋糕 是 吃过 好吃
[0159] 若对于上述经过预处理的待分类文本(d),在该步骤中,对其进行分词,得到如下的词矢量文本(d):
[0160] 还好不错
[0161] 步骤S107:分别建立待分类文本的第一文本表示、第二文本表示以及第三文本表示,其中,第一文本表示是由待分类文本的词矢量文本中的所有单位词汇构成的单位词汇集,第二文本表示是由待分类文本的词矢量文本中的各单位词汇随机组合得到的所有随机词汇组构成的随机词汇组集,以及第三文本表示是由待分类文本的词矢量文本中的各单位词汇相邻组合得到的所有邻域词汇组构成的邻域词汇组集。步骤S107的处理与步骤S204的处理类似。
[0162] 具体地,在该步骤中,首先,建立待分类文本的第一文本表示,第一文本表示是由步骤S106中的待分类文本的词矢量文本中的所有单位词汇构成的单位词汇集;之后,建立待分类文本的第二文本表示,第二文本表示是由待分类文本的词矢量文本中的各单位词汇随机组合得到的所有随机词汇组构成的随机词汇组集;随后,建立待分类文本的第三文本表示,第三文本表示是由待分类文本的词矢量文本中的各单位词汇相邻组合得到的所有邻域词汇组构成的邻域词汇组集。
[0163] 例如,对于上述词矢量文本(b),共有7个单位词汇,因此首先建立由该7个单位词汇构成的单位词汇集D21作为待分类文本(b)的第一文本表示;之后,对词矢量文本(b)2
中的各单位词汇进行两两随机组合共得到C7=21个随机词汇组,因此,建立由该21个随机词汇组构成的随机词汇组集D22作为待分类文本(b)的第二文本表示;随后,对词矢量文本(b)中的各单位词汇进行两两相邻组合共得到(7-1)=6个邻域词汇组,因此,建立由该
6个邻域词汇组构成的邻域词汇组集D23作为待分类文本(b)的第三文本表示。
[0164] 对于上述词矢量文本(c),共有6个单位词汇,因此首先建立由该6个单位词汇构成的单位词汇集D21作为待分类文本(c)的第一文本表示;之后,对词矢量文本(c)中的各2
单位词汇进行两两随机组合共得到C6=15个随机词汇组,因此,建立由该15个随机词汇组构成的随机词汇组集D22作为待分类文本(c)的第二文本表示;随后,对词矢量文本(c)中的各单位词汇进行两两相邻组合共得到(6-1)=5个邻域词汇组,因此,建立由该5个邻域词汇组构成的邻域词汇组集D23作为待分类文本(c)的第三文本表示。
[0165] 对于上述词矢量文本(d),共有2个单位词汇,因此首先建立由该2个单位词汇构成的单位词汇集D21作为待分类文本(d)的第一文本表示;之后,对词矢量文本(d)中的各2
单位词汇进行两两随机组合共得到C2=1个随机词汇组,因此,建立由该1个随机词汇组构成的随机词汇组集D22作为待分类文本(d)的第二文本表示;随后,对词矢量文本(d)中的各单位词汇进行两两相邻组合共得到(2-1)=1个邻域词汇组,因此,建立由该1个邻域词汇组构成的邻域词汇组集D23作为待分类文本(d)的第三文本表示。
[0166] 步骤S108:基于特征表示的方法,计算待分类文本的第一文本表示的特征表示作为第一文本特征表示,计算待分类文本的第二文本表示的特征表示作为第二文本特征表示,以及计算待分类文本的第三文本表示的特征表示作为第三文本特征表示。
[0167] 具体地,在该步骤中,当采用信息熵的特征表示的方法时,首先,统计待分类文本的第一文本表示(单位词汇集)中每一种单位词汇的词频,基于每一种单位词汇的词频计算每一种单位词汇的信息量,并基于每一种单位词汇的信息量计算第一文本表示的信息熵作为第一文本特征表示;其次,统计待分类文本的第二文本表示(随机词汇组集)中每一种随机词汇组的词频,基于每一种随机词汇组的词频计算每一种随机词汇组的信息量,并基于每一种随机词汇组的信息量计算第二文本表示的信息熵作为第二文本特征表示;再次,统计待分类文本的第三文本表示(邻域词汇组集)中每一种邻域词汇组的词频,基于每一种邻域词汇组的词频计算每一种邻域词汇组的信息量,并基于每一种邻域词汇组的信息量计算第三文本表示的信息熵作为第三文本特征表示。
[0168] 这里,需要说明的是,该步骤中,统计每一种单位词汇、随机词汇组或者邻域词汇组的词频以及计算每一种单位词汇、随机词汇组或者邻域词汇组的信息量时,结合利用上述步骤S101的步骤S205中所统计出的训练文本集的第一文本集表示至第三文本集表示中的各种单位词汇和随机/邻域词汇组的词频,具体如下:
[0169] 若训练文本集的第一文本集表示中存在待分类文本的第一文本表示中的某种单位词汇,则该步骤中,待分类文本的第一文本表示中该种单位词汇的词频采用步骤S101的步骤S205中统计出的训练文本集第一文本集表示中该种单位词汇的词频(即,该种单位词汇在第一文本集表示中出现的次数);相反,若训练文本集的第一文本集表示中不存在待分类文本的第一文本表示中的某种单位词汇,则该步骤中,待分类文本的第一文本表示中该种单位词汇的词频记为1。相应地,对于待分类文本的第二/第三文本表示中随机/邻域词汇组的词频的统计采用类似的方法,在此不再详细赘述。
[0170] 此外,该步骤中,计算每一种单位词汇、随机词汇组以及邻域词汇组的信息量时结合使用训练文本集第一文本集表示、第二文本集表示以及第三文本集表示中的单位词汇、随机词汇组以及邻域词汇组的总数目。
[0171] 因此,在该步骤中,待分类文本的第k(k=1,2,3)种文本表示中的第l(l>=1)种单位词汇或者随机/邻域词汇组Ylk的信息量Slk’采用如下公式计算:
[0172] Slk(Ylk)'=-ln(Plk')
[0173] 其中,plk’=nlk/Nk,nlk是统计出的待分类文本的第k种文本表示中的第l种单位词汇或者随机/邻域词汇组Ylk的词频,Nk是训练文本集第k种文本集表示中的单位词汇或者随机/邻域词汇组的总数目。
[0174] 进而,求解待分类文本的第k种文本表示中的各种单位词汇或者随机/邻域词汇组的信息量的加权平均值,得到第k种文本表示的信息熵λk如下:
[0175]
[0176] 其中,Plk是第k种文本表示中第l种单位词汇或者随机/邻域词汇组在第k种文本表示中出现的概率。
[0177] 例如,对于上述待分类文本(b),在该步骤中,首先对于作为待分类文本(b)的第一文本表示的单位词汇集D21(共有7种单位词汇),统计出每一种单位词汇的词频如下:由于单位词汇“不错”在训练文本集的第一文本集表示(单位词汇集D11)中出现了,所以,这里“不错”的词频使用步骤S101的步骤S205中对其统计出的词频6,由于其它6种单位词汇“性价比”、“只是”、“人一多”、“服务”、“有些”、“跟不上”在第一文本集表示中没有出现,所以这6种单位词汇的词频分别记为1。又由于训练文本集的第一文本集表示中共有
32个单位词汇,因此,基于上面统计出的每一种单位词汇的词频以及训练文本集的第一文本集表示中单位词汇的总数目,可以得到待分类文本(b)的第一文本表示中每一种单位词汇的信息量:
[0178] S11’(性价比)=-ln(1/32),S21’(不错)=-ln(6/32),S31’(只是)=-ln(1/32),S41’(人一多)=-ln(1/32),S51’(服务)=-ln(1/32),S61’(有些)=-ln(1/32),S71’(跟不上)=-ln(1/32),
[0179] 基于上述得到的每一种单位词汇的信息量,计算出待分类文本(b)的第一文本表示的信息熵λ1:
[0180] λ1=-(1/7)ln(1/32)-(1/7)ln(6/32)-(1/7)ln(1/32)-(1/7)ln(1/32)
[0181] -(1/7)ln(1/32)-(1/7)ln(1/32)-(1/7)ln(1/32)
[0182] =-[6*(1/7)ln(1/32)+(1/7)ln(6/32)]
[0183] =3.2097
[0184] 因此,该信息熵λ1=3.2097被作为待分类文本(b)的第一文本特征表示。
[0185] 其次,对于作为待分类文本(b)的第二文本表示的随机词汇组集D22(共有21种随机词汇组),统计出每一种随机词汇组的词频如下:由于没有任何一种随机词汇组在训练文本集的第二文本集表示(随机词汇组集D12)中出现,所以这21种随机词汇组的词频分别记为1。又由于训练文本集的第二文本集表示中共有87个随机词汇组,因此,基于上面统计出的每一种随机词汇组的词频以及训练文本集的第二文本集表示中随机词汇组的总数目,可以得到待分类文本(b)的第二文本集表示中各种随机词汇的信息量:
[0186] S12’((…,…))=S22’((…,…))=S32’((…,…))=……=S202’((…,…))=S212’((…,…))=-ln(1/87)
[0187] 基于上述得到的每一种随机词汇组的信息量,计算出待分类文本(b)的第二文本表示的信息熵λ2:
[0188] λ2=-(1/21)ln(1/87)-(1/21)ln(1/87)-(1/21)ln(1/87)-……
[0189] -(1/21)ln(1/87)=-21*(1/21)ln(1/87))
[0190] =4.4659
[0191] 因此,该信息熵λ2=4.4659被作为待分类文本(b)的第二文本特征表示。
[0192] 再次,对于作为待分类文本(b)的第三文本表示的邻域词汇组集D23(共有6种邻域词汇组),统计出每一种邻域词汇组的词频如下:由于没有任何一种邻域词汇组在训练文本集的第三文本集表示(随机词汇组集D13)中出现,所以这6种邻域词汇组的词频分别记为1。又由于训练文本集的第三文本集表示中共有25个邻域词汇组,因此,基于上面统计出的每一种邻域词汇组的词频以及训练文本集的第三文本集表示中邻域词汇组的总数目,可以得到待分类文本(b)的第三文本集表示中各种邻域词汇的信息量:
[0193] S13’((…,…)) = S23’((…,…)) = S33’((…,…)) = S43’((…,…)) =S53’((…,…))=S63’((…,…))=-ln(1/25)
[0194] 基于上述得到的每一种邻域词汇组的信息量,计算出待分类文本(b)的第三文本表示的信息熵:
[0195] λ3=-(1/6)ln(1/25)-(1/6)ln(1/25)-(1/6)ln(1/25)
[0196] -(1/6)ln(1/25)-(1/6)ln(1/25)-(1/6)ln(1/25))
[0197] =-6*(1/6)ln(1/25)
[0198] =3.2189
[0199] 因此,该信息熵λ3=3.2189被作为待分类文本(b)的第三文本特征表示。
[0200] 类似地,对于上述待分类文本(c),在该步骤中,首先对于作为待分类文本(c)的第一文本表示的单位词汇集D21(共有6种单位词汇),统计出每一种单位词汇的词频如下:“芝士”、“蛋糕”、“好吃”分别使用步骤S101的步骤S205中分别对它们统计出的词频1,4,
2,其它3种单位词汇的词频分别记为1。
[0201] 基于上面统计出的每一种单位词汇的词频以及训练文本集的第一文本集表示中单位词汇的总数目32,可以得到待分类文本(c)的第一文本表示中各种单位词汇的信息量,以及基于得到的每一种单位词汇的信息量,计算出待分类文本(c)的第一文本表示的信息熵:λ1=3.1191。
[0202] 因此,该信息熵λ1=3.1191被作为待分类文本(c)的第一文本特征表示。
[0203] 其次,对于作为待分类文本(c)的第二文本表示的随机词汇组集D22(共有15种随机词汇组),统计出每一种随机词汇组的词频如下:该15种随机词汇组的词频分别记为1。
[0204] 基于上面统计出的每一种随机词汇组的词频以及训练文本集的第二文本集表示中随机词汇组的总数目87,可以得到待分类文本(c)的第二文本表示中各种随机词汇组的信息量,以及基于得到的每一种随机词汇组的信息量,计算出待分类文本(c)的第二文本表示的信息熵:λ2=4.4659。
[0205] 因此,该信息熵λ2=4.4659被作为待分类文本(c)的第二文本特征表示。
[0206] 再次,对于作为待分类文本(c)的第三文本表示的邻域词汇组集D23(共有5种邻域词汇组),统计出每一种邻域词汇组的词频如下:该5种邻域词汇组的词频分别记为1。
[0207] 基于上面统计出的每一种邻域词汇组的词频以及训练文本集的第三文本集表示中邻域词汇组的总数目25,可以得到待分类文本(c)的第三文本集表示中各种邻域词汇的信息量,以及基于得到的每一种邻域词汇组的信息量,计算出待分类文本(c)的第三文本表示的信息熵:λ3=3.2189。
[0208] 因此,该信息熵λ3=3.2189被作为待分类文本(c)的第三文本特征表示。
[0209] 同样,对于上述待分类文本(d),在该步骤中,首先对于作为待分类文本(d)的第一文本表示的单位词汇集D21(共有2种单位词汇),统计出每一种单位词汇的词频如下:“还好”、“不错”分别使用步骤S101的步骤S205中对它们统计出的词频7,6。
[0210] 基于统计出的每一种单位词汇的词频以及训练文本集的第一文本集表示中单位词汇的总数目32,可以得到待分类文本(d)的第一文本表示中各种单位词汇的信息量,以及基于得到的每一种单位词汇的信息量,计算出待分类文本(d)的第一文本表示的信息熵:λ1=1.5969。
[0211] 因此,该信息熵λ1=1.5969被作为待分类文本(d)的第一文本特征表示。
[0212] 其次,对于作为待分类文本(d)的第二文本表示的随机词汇组集D22(共有1种随机词汇组),统计出其的词频使用步骤S101的步骤S205中对其统计出的词频2。
[0213] 基于上面统计出的该种随机词汇组的词频以及训练文本集的第二文本集表示中随机词汇组的总数目87,可以得到待分类文本(d)的第二文本表示中的随机词汇组的信息量,以及基于得到的该随机词汇组的信息量,计算出待分类文本(d)的第二文本表示的信息熵:λ2=3.7728。
[0214] 因此,该信息熵λ2=3.7728被作为待分类文本(d)的第二文本特征表示。
[0215] 再次,对于作为待分类文本(d)的第三文本表示的邻域词汇组集D23(共有1种邻域词汇组),统计出该邻域词汇组的词频记为1。
[0216] 基于统计出的该种邻域词汇组的词频以及训练文本集的第三文本集表示中邻域词汇组的总数目25,可以得到待分类文本(d)的第三文本集表示中该种邻域词汇的信息量,以及基于得到的该种邻域词汇组的信息量,计算出待分类文本(d)的第三文本表示的信息熵:λ3=3.2189。
[0217] 因此,该信息熵λ3=3.2189被作为待分类文本(d)的第三文本特征表示。
[0218] 步骤S109:基于待分类文本的第一文本特征表示、第二文本特征表示以及第三文本特征表示,根据第二分类器的分类规则对待分类文本进行分类。
[0219] 具体地,实施例中,在该步骤中将待分类文本的第一文本特征表示与第二分类器的第一分类参数进行比较、将待分类文本的第二文本特征表示与第二分类器的第二分类参数进行比较、以及将待分类文本的第三文本特征表示与第二分类器的第三分类参数分别进行比较,并基于比较的结果,按照第二分类器的分类规则对待分类文本进行分类。
[0220] 实施例中,分类规则如下:
[0221] (1)当第一文本特征表示小于第一分类参数,第二文本特征表示小于第二分类参数以及第三文本特征表示小于第三分类参数时,将待分类文本划分为普通文本;
[0222] (2)当第一文本特征表示不小于第一分类参数,第二文本特征表示小于第二分类参数以及第三文本特征表示小于第三分类参数,或者第一文本特征表示小于第一分类参数,第二文本特征表示不小于第二分类参数以及第三文本特征表示小于第三分类参数,或者第一文本特征表示小于第一分类参数,第二文本特征表示小于第二分类参数以及第三文本特征表示不小于第三分类参数时,将待分类文本划分为一般价值文本;
[0223] (3)当第一文本特征表示不小于第一分类参数,第二文本特征表示不小于第二分类参数以及第三文本特征表示小于第三分类参数,或者第一文本特征表示不小于第一分类参数,第二文本特征表示小于第二分类参数以及第三文本特征表示不小于第三分类参数,或者第一文本特征表示小于第一分类参数,第二文本特征表示不小于第二分类参数以及第三文本特征表示不小于第三分类参数时,将待分类文本划分为较有价值文本;
[0224] (4)当第一文本特征表示不小于第一分类参数,第二文本特征表示不小于第二分类参数以及第三文本特征表示不小于第三分类参数时,将待分类文本划分为最有价值文本。
[0225] 例如,若当前是对上述待分类文本(b)进行分类,那么在该步骤中,由于λ1=3.2097>μ1=2.4875,λ2=4.4659>μ2=3.7924,λ1=3.2189>μ3=3.0328,所以,待分类文本(b)被划分为最有价值文本;若当前是对上述待分类文本(c)进行分类,那么在该步骤中,由于λ1=3.1191>μ1=2.4875,λ2=4.4659>μ2=3.7924,λ3=3.2189>μ3=3.0328,所以,待分类文本(c)被划分为最有价值文本;若当前是对上述待分类文本(d)进行分类,那么在该步骤中,由于λ1=1.5969<μ1=2.4875,λ2=3.7728<μ2=3.7924,λ3=3.2189>μ3=3.0328,所以,待分类文本(d)被划分为较有价值文本。
[0226] 在根据本发明的实施例中,当完成对待分类文本的分类处理之后,该完成分类处理的文本也被用作训练用文本,用于对当前的训练文本集的更新。在完成对某一文本或者某些文本的分类之后,通过将经过预处理的该文本或者该些文本添加至当前的训练文本集,可得到更新的训练文本集。基于更新的训练文本集,可对当前的文本分类器进行自适应的更新。文本分类器的更新会使文本分类器更适应于整体文本集,也更适应于更普遍的文本集,从而能够提高文本分类方法的准确性。
[0227] 在对文本分类器进行更新时,既要考虑文本分类器的分类准确性和科学性,同时也要考虑整个算法执行的效率,因此不适合每完成对某一个文本的分类之后就立即更新文本分类器,因为当训练文本集很大时,更新文本分类器会带来很大的时间消耗,同时也会消耗巨大的系统内存,从而影响算法执行效率。本发明的实施例中,当基于文本分类器完成对一定数量的文本的分类时,才对文本分类器进行更新,但本发明不限于此。
[0228] 图3显示根据本发明的实施例的文本分类器的更新流程。
[0229] 首先,在步骤S301中,计算基于当前的文本分类器完成分类处理的待分类文本的数量占该些文本与当前的训练文本集中的经过预处理的训练用文本的总数量的比例。
[0230] 具体地,若当前的训练文本集中的经过预处理的训练用文本的数量为H,基于该训练文本集所生成的第一文本分类器的过滤阈值为P0,第二文本分类器的分类参数集U={μ1,μ2,μ3},且基于当前的分类器完成对I个文本的分类。因此,该步骤中统计出已完成分类的文本的数量I在该些文本与当前的训练文本集中的经过预处理的训练用文本的总数量(I+H)的比例P1:
[0231] P1=I/(I+H)
[0232] 例如,当前的训练文本集是由前面所述的实例中经过预处理的7个训练用文本构成,如之前所述的,基于该训练文本集生成的第一文本分类器具有过滤阈值P0=0.36,生成的第二文本分类器具有分类参数集U={2.4875,3.7924,3.0328}。同样,基于当前的文本分类器,完成了如之前所述的4个待分类文本(a)、(b)、(c)和(d)的分类。因此,在该步骤中可统计出该4个完成分类的文本的数量占该些文本与当前的训练文本集中的经过预处理的7个训练用文本的总数量(7+4)的比例P1:
[0233] P1=4/(7+4)=0.364
[0234] 之后,在步骤S302中,判断步骤S301中计算出的比例是否大于第一文本分类器的过滤阈值,若大于过滤阈值,则执行步骤S303,开始对当前的文本分类器进行更新,若不大于过滤阈值,则当前不对文本分类器进行更新。
[0235] 例如,对于上述在步骤S301中计算出的比例P1,由于P1=0.364>P0=0.36,因而执行步骤S303。
[0236] 在步骤S303中,将完成分类处理的待分类文本经过预处理的结果作为经过预处理的训练用文本添加至训练文本集。
[0237] 例如,在该步骤中,将如上所述的待分类文本(a)、(b)、(c)和(d)经过预处理的结果作为经过预处理的训练用文本添加至当前由7个经过预处理的训练用文本构成的训练文本集,获得由11个经过预处理的训练用文本构成的更新的训练文本集。
[0238] 之后,在步骤S304中,统计替换字符串在更新的训练文本集中出现的概率,并利用该概率值更新第一文本分类器的过滤阈值。
[0239] 例如,根据上述更新的训练文本集,可统计出替换字符串“##”在其中出现的概率P0’如下:
[0240] P0’=(36+12+5+4+1)/(100+20+22+15+5)=58/162=0.358
[0241] 利用该概率值更新第一文本分类器的过滤阈值,得到此时第一文本分类器的过滤阈值P0:
[0242] P0=0.358
[0243] 随后,在步骤S305中,对更新的训练文本集中每一个经过预处理的训练用文本进行分词处理,获得更新的训练文本集的词矢量文本集。步骤S305中的处理参考步骤S203。
[0244] 随后,在步骤S306中,分别建立更新的训练文本集的第一文本集表示、第二文本集表示以及第三文本集表示。步骤S306中的处理参考步骤S204。
[0245] 例如,在上述更新的训练文本集中的11个词矢量文本,共有53个单位词汇,因此在该步骤中,首先建立由该53个单位词汇构成的单位词汇集D11’作为更新的训练文本集的第一文本集表示。
[0246] 之后,对11个词矢量文本中的每一个词矢量文本中的各单位词汇进行两两随机组合,共可得到139个随机词汇组。因此,在该步骤中建立由该139个随机词汇组构成的随机词汇组集D12’作为更新的训练文本集的第二文本集表示。
[0247] 之后,对11个词矢量文本中的每一个词矢量文本中的各单位词汇进行两两相邻组合,共可得到42个邻域词汇组。因此,在该步骤中建立由该42个邻域词汇组构成的邻域词汇组集D13’作为更新的训练文本集的第三文本集表示。
[0248] 随后,在步骤S307中,基于特征表示的方法,计算更新的训练文本集的第一文本集表示的特征表示、第二文本集表示的特征表示、以及第三文本集表示的特征表示。步骤S307的处理参考步骤S205。
[0249] 例如,在该步骤中,基于信息熵的特征表示的方法,计算出上述更新的训练文本集的第一文本集表示(单位词汇集D11’)的信息熵μ1’=2.8934,计算出上述更新的训练文本集的第二文本集表示(随机词汇组集D12’)的信息熵μ2’=4.4098,以及计算出上述更新的训练文本集的第三文本集表示(邻域词汇组集D13’)的信息熵μ3’=3.5602。
[0250] 随后,在步骤S308中,分别利用更新的训练文本集的第一文本集表示的特征表示、第二文本集表示的特征表示、以及第三文本集表示的特征表示更新第二文本分类器的第一分类参数,第二分类参数以及第三分类参数。
[0251] 例如,在该步骤中,利用上述计算到的μ1’、μ2’和μ3’的值分别对第二文本分类器的第一分类参数μ1=2.4875、第二分类参数μ2=3.7924、以及第三分类参数μ3=3.0328进行更新,得到此时第二文本分类器分类参数集U={μ1,μ2,μ3}={2.8934,4.4098,3.5602}。
[0252] 由上述实施例可以看出,实施例所提供的文本分类方法除了考虑文本中所包含的各单位词汇,还结合考虑到各单位词汇的随机组合和相邻组合,因而考虑了词汇与词汇之间的相互影响和相互关联,提高文本分类的准确性和有效性。此外,通过采用多种文本表示(单位词汇集、随机词汇组集、邻域词汇组集),能够按照文本的价值(有效信息量)的大小,对文本进行分级分类,使得具有相似的价值(有效信息量)的文本被划分到同一级别的类中,以利于用户针对不同级别的价值量的文本进行后续深加工和挖掘利用。
[0253] 与上述文本分类方法相对应,本发明的是实施例还提供了一种文本分类装置。图4显示根据本发明的实施例的文本分类装置的结构示意图。如图4所示,本发明的实施例所提供的文本分类装置包括:
[0254] 分类器训练模块401,分类器训练模块401用于建立训练文本集,并基于训练文本集生成第一文本分类器和第二文本分类器,其中,第一文本分类器具有过滤阈值,第二文本分类器具有分类参数集,分类参数集包括第一分类参数、第二分类参数和第三分类参数;
[0255] 文本预处理模块402,文本预处理模块402采用预设的替换字符串替换待分类文本中的文本噪声来对待分类文本进行预处理,文本噪声包括标点、停用词、链接;
[0256] 第一文本分类模块403,第一文本分类模块403统计替换字符串在经过预处理的待分类文本中出现的概率,当概率大于等于过滤阈值时,将待分类文本划分为普通文本;
[0257] 文本分词模块404,当上述概率小于过滤阈值时,文本分词模块404对经过预处理的待分类文本进行分词处理,获得待分类文本的词矢量文本;
[0258] 文本表示模块405,文本表示模块405建立待分类文本的第一文本表示、第二文本表示以及第三文本表示,其中,第一文本表示是由待分类文本的词矢量文本中的所有单位词汇构成的单位词汇集,第二文本表示是由待分类文本的词矢量文本中的各单位词汇随机组合得到的所有随机词汇组构成的随机词汇组集,以及第三文本表示是由待分类文本的词矢量文本中的各单位词汇相邻组合得到的所有邻域词汇组构成的邻域词汇组集;
[0259] 文本特征表示模块406,文本特征表示模块406基于特征表示的方法,计算待分类文本的第一文本表示的特征表示作为第一文本特征表示,计算待分类文本的第二文本表示的特征表示作为第二文本特征表示,以及计算待分类文本的第三文本表示的特征表示作为第三文本特征表示;以及
[0260] 第二文本分类模块407,第二分类模块407基于待分类文本的第一文本特征表示、第二文本特征表示以及第三文本特征表示,根据第二分类器的分类规则对待分类文本进行分类。
[0261] 图5显示根据本发明的实施例的文本分类装置中分类器训练模块401的结构示意图。如图5所示,分类器训练模块401包括:
[0262] 训练文本集建立模块4011,训练文本集建立模块4011建立由经过预处理的训练用文本构成的训练文本集,其中,经过预处理的训练用文本是采用预设的替换字符串替换训练用文本中的文本噪声所获得的结果,文本噪声包括标点、停用词、链接;
[0263] 概率统计模块4012,概率统计模块4012统计替换字符串在训练文本集中出现的概率,作为第一文本分类器的过滤阈值;
[0264] 文本集分词模块4013,文本集分词模块4013对训练文本集中每一个经过预处理的训练用文本进行分词处理,获得训练文本集的词矢量文本集;
[0265] 文本集表示模块4014,文本集表示模块4014分别建立训练文本集的第一文本集表示、第二文本集表示以及第三文本集表示,其中,第一文本集表示是由词矢量文本集中的所有单位词汇构成的单位词汇集,第二文本集表示是由词矢量文本集中属于同一词矢量文本中的各单位词汇随机组合得到的所有随机词汇组构成的随机词汇组集,以及第三文本集表示是由词矢量文本集中属于同一词矢量文本中的各单位词汇相邻组合得到的所有邻域词汇组构成的邻域词汇组集;以及
[0266] 文本集特征表示模块4015,文本集特征表示模块4015基于特征表示的方法,计算训练文本集的第一文本集表示的特征表示作为第一分类参数、计算训练文本集的第二文本集表示的特征表示作为第二分类参数以及计算训练文本集的第三文本集表示的特征表示作为第三分类参数。
[0267] 根据本发明的实施例的文本分类装置,当基于第一文本分类器和第二文本分类器完成对一定数量的待分类文本的分类处理之后,分类器训练模块401将该一定数量的待分类文本经过预处理后的结果添加至训练文本集用于训练文本集的更新。
[0268] 由上述实施例可以看出,实施例所提供的文本分类装置除了考虑文本中所包含的各单位词汇,还结合考虑到各单位词汇的随机组合和相邻组合,因而考虑了词汇与词汇之间的相互影响和相互关联,提高文本分类的准确性和有效性。此外,通过采用多种文本表示(单位词汇集、随机词汇组集、邻域词汇组集),能够按照文本的价值(有效信息量)的大小,对文本进行分级分类,使得具有相似的价值(有效信息量)的文本被划分到同一级别的类中,以利于用户针对不同级别的价值量的文本进行后续深加工和挖掘利用。
[0269] 虽然经过对本发明结合具体实施例进行描述,对于本领域的技术技术人员而言,根据上文的叙述后作出的许多替代、修改与变化将是显而易见。因此,当这样的替代、修改和变化落入附后的权利要求的精神和范围之内时,应该被包括在本发明中。