技术领域
[0001] 本发明总的来说涉及文档分类,而具体地,涉及基于音频换能器捕捉的声音对文档重量或文档厚度进行分类。有关诸如重量或厚度等文档特征的知识可被其他扫描系统使用。
相关背景技术
[0002] 在文档传送系统中,具有不同厚度的文档被扫描并且通过传送器。当文档移动通过文档传送器时,存在与文档的移动相关联的声音。该声音可由其谱特征来表征。文档移动通过传送器的声音特征基于文档厚度的不同而变化。这些特征可用于文档分类。 [0003] 在文档扫描器中,文档重量可转化为其厚度,并且与文档的半透明性相关。通常以下面的方式使用文档扫描器:在同一批次中扫描许多不同重量的文档。文档的这些属性可能需要由其他系统特别处理,所述其他系统例如为在序号为6,511,064的美国专利中描述的超声波文档检测系统(ultrasonic document detection system,UDDS),其中,与较轻或较薄的文档相比,厚的文档会使超声波信号衰减更多。了解文档的重量或厚度可使得系统参数能够被调节为更好地满足给定文档的机器处理要求。
[0004] 超声波文档检测可提供与正被传送通过扫描器的文档相关的其他有用信息。例如,检测器可确定是否正在馈给多个文档,由于某些文档没有被扫描,这可能会导致来自扫描过程中的信息的丢失。另外一个问题是检测器经常把厚文档与多个馈给文档弄混。因此,需要改进的用于确定文档的厚度、文档是否弄皱以及是否有多个文档被钉在一起的方法。 发明内容
[0005] 简而言之,根据本发明的一方面,提供了基于声音对文档进行分类的方法,该方法包括:将文档馈给到文档传送器;检测文档被传送时产生的声波特性;以及基于所述声波特性来确定文档特征。
[0006] 在一个实施例中,文档扫描器使用音频换能器来捕捉文档进入扫描器传送器时的音频信号。然后,对所述音频信号进行调节、数字化和处理,以提供与该信号相关的谱信息。接下来,将该谱信息(有时被称作声波特性(sonic profile))与已知的不同重量文档的谱属性相比较并进行分类。
具体实施方式
[0010] 如图1所示,从扫描器4中的输入托盘10来馈给文档5。当文档进入扫描器时,馈给和分离辊15把文档彼此分开,这会产生声音。不同重量的文档产生不同的声音。如图2所示,文档的声音被音频换能器20拾取,并且音频信号55被调节、数字化和处理。 [0011] 如图1所示,音频换能器20拾取来自进入文档传送器30的不同厚度的文档5的音频信号。如图2所示,在音频信号被处理之前,可对其进行信号调节60,例如进行模拟滤波。然后由模数A/D转换器65以合适的速率对调节后的模拟信号进行采样和数字化,以避免信号中存在的最高频的混叠。从A/D转换器中获得的数字采样在数字信号处理器(digital signal processor,DSP)70中被处理。
[0012] 当把文档馈给到75扫描器4中时,文档产生的音频信号被捕捉80。从音频信号中提取特征85,并将该特征与存储器中的特征集相比较90。基于所捕捉的音频信号的被比较的特征以及特征集中的特征,文档被分类为特定的文档重量或文档厚度95。 [0013] 文档分类系统基本上包括两个阶段:音频阶段和分类阶段。在音频阶段中,确定不同厚度的纸张的音频信号中的诸如音高(pitch)或谱重心(spectral centroid)或幅度等各种谱特征,即声波特性。被选择用于学习的谱特征具有针对不同厚度的文档的良好的可区分特性。为了产生音频特征描述符,使用对音频采样的窗口扫描。窗口扫描包括以固定的增量在音 频数据上滑动窗口,其中每个窗口代表时间窗口。使用短时傅里叶变换(short time Fourier transform,STFT)技术从滑动窗口中提取频谱特征。STFT提供能够对诸如音高、响度、振幅等各种感知特征进行建模的丰富表示。然后,这些对应于不同的文档厚度的特征向量集合被存储在存储器中。
[0014] 在分类阶段中,目标是基于音频信号来确定当前进入扫描器的新文档相对于特定厚度的类别。分类的第一步是提取与在学习阶段确定的谱特征相同的谱特征。通过将这些提取的特征与存储在存储器51内的特征集相比较,将文档分类为特定的厚度。为了进行该比较,可采用支持向量机(Support vector machines,SVM)。
[0015] 当音频信号在处理器50中被处理时,文档继续移动通过传送器30。处理器50和存储器51可内置于扫描器4中,或置于扫描器4外部。在文档到达超声波传感器25之前,文档的厚度被确定并分类。文档继续通过传送器30到达上成像区40、下成像区45,移动出传送器30,并进入文档输出区域35。
[0016] 部件列表
[0017] 4扫描器
[0018] 5文档
[0019] 10输入托盘
[0020] 15馈给和分离辊
[0021] 20音频换能器
[0022] 25超声波传感器
[0023] 30传送器
[0024] 35文档输出区域
[0025] 40上成像区
[0026] 45下成像区
[0027] 50处理器
[0028] 51存储器
[0029] 55音频信号
[0030] 60信号调节
[0031] 65模数(A/D)转换器
[0032] 70DSP处理器
[0033] 75馈给文档
[0034] 80捕捉馈给路径中的文档的音频信号
[0035] 85从音频信号中提取特征
[0036] 90将特征与存储器中的特征集相比较
[0037] 95基于上述比较把文档分类为特定的厚度 。