隐马尔可夫模型可以做什么
杰夫·比尔莫斯
华盛顿大学电子信息学院
Seattle WA, 98195-2500
University of Washington, Dept. of EE, UWEETR-2002-0003
January 2002
摘要
经过了30多年的研究,隐马尔可夫模型(HMMs)已经变成了构造自动语言识别(ASR)系统的占主导地位的方法论。今天,目前最先进的语言系统都以隐马尔可夫模型作为基础。我有很多种方法来介绍隐马模型并且列出他们的能力。但每一种解释利弊都兼而有之。为了更好地理解隐马模型可以做什么这一问题,本篇论文将探索一个隐马模型的定义新方法,即根据随机变量和条件独立假设进行定义。我们更加推崇这种定义方式,因为我们可以更加深入了解一个隐马模型的能力。尤其是这种方法可以在理论层面上推断没有理论限制的概率分布隐马尔可夫模型。论文的结论是为了需找一个模型代替自动语言识别系统中的的隐马尔可夫模型,我们不应该局限的对隐马模型进行参数修正,而要设计一个更加节约计算资源、对噪声更不敏感的模型。
简介
总体来说,自动语言识别(ASR)技术使用统计模式分类[29,24,36],所需要的数学理论基础在1968年已经完善可用。总结如下:对于给定的代表位置语言的信号数据,根据一个(非常巨大的权威)可能性语言表达统计模型来挑选出最可能解释一段文字的语言表达。这就要求,对于可能的语言表达模型可以调节近似的语言表达环境集合。
比起任何其他的统计技术,Hidden Markov模型(HMM)已经最佳的应用于ASR问题。目前有很多的HMM教程[69,18,53]。经过深入的阅读现在的经典HMM论文[86],一个HMM模型可以形象的表述为一个含有不同彩色球比例的壶,从一个HMM模型中抽样(生成数据),仅根据之前选择的壶来选择一个新的壶来代替原来的壶。壶的选择顺序不是公开的(称为“隐藏”),但是球的选择却是已知的(称为“观察”)。沿着这样的逻辑推理,HMM可以被定义成一种生成的方式,首先生成一个隐藏选择壶的序列,然后生成一个观察球的序列。
对于统计语言识别来讲,不仅要关注HMM模型产生的数据,而且更加重要的是,关注HMM模型的分布情况,以及这些分布在不同的语言表达相互的区别。因此本文展现从另外一个观点观察HMMs模型,可以提供额外观察HMM模型的角度,无论是在模型生成数据还是识别和区分模式。
因此本文提供了一种最新的HMM教程。论文给出了,HMM的精确定义,HMM是一个可变化的集合以及一组适当的独立属性条件随机变量。为了更好的了解一种HMM可以做什么,本文额外考虑了属性列表,以及属性适用以及不适用的情况。在这里有争论,至少分类统计模式[29,36]提供了范式,但是没有一般的理论限制HMMs拥有足够的隐藏状态、足够的分类观察、充足的训练数据、充足的计算量以及合适的训练算法。相反,只使用一个特定的HMM模型的语言识别系统可能是不足够的。这似乎解释了连续语音识别精度改善的困难,以及制作取代HMMs模型的困难。
本论文不讨论HMMs是否应该作为ASR的最终理论模型。相反,本文希望提供对于HMMs可以做什么的更加深入的理解,从而更加清晰的了解HMM的局限性。所以,HMM可能会在更加优越的模型出现后被放弃。确实,隐马模型十分灵活,可能在很长一段时间依然是ASR的首选算法。然而,对于语音识别的研究,一个重要的动力,是寻找更加简洁的模型,只包含与竞争语言表述不同的清楚的语言表述特点。这个之后出现的属性被称为结构特征[8],是指一个生成模型的固有的表示数据共同特性的各种方面,训练时甚至使用最大似然估计参数来估算。这意味着,生成模型即使仅代表语音,获得低概率的分数,但是仍然可以正确分类不同语言表述。这些模型被称为判断生成模型。
第2章回顾随机变量,有条件见的独立性和图形化模型(第2.1节),随机过程(第2.2节),离散时间的马尔可夫链(第2.3节)。第3章,提供HMM的一个形式化的定义,同时从生成性以及“接受”的角度来研究。第4章,属性的收集,并探讨其中可以或者不可以使用的隐马尔可夫模型。第5章介绍在一个叫做KullbackLeibler距离精度条件下,试验在较低的限制条件下,必要的隐藏层数量。第6章,回顾HMM模型的集中不同的模型,并且提出一个可以直接使用在研究HMM替代模型上的标准的结论。