语音识别距人类只差0.4%?
日前,一家美国公司宣布,当专业速记员记录对话时,单词错误率为5.1%,而该公司新开发的语音识别系统的单词错误率已达到5.5%,超越以往历史最好水平,树立新的里程碑。语音识别是人工智能领域的核心问题之一。0.4%的差距似乎意味着机器即将与人类匹敌。
已经过了“家子年”
事实上,作为人工智能子项目之一的语音识别,其历史甚至超过了60年。
语音识别的研究可以追溯到1950年,计算机科学之父艾伦·图灵(Alan Turing)在《心智》杂志上发表了一篇题为“计算机器与智能”的论文。这篇论文首次提出了机器智能的概念。本文还提出了一种验证机器是否具有智能性的方法:让人与机器进行通信。如果人们不能判断交流的对象是人还是机器,那就意味着机器具有智能。这是著名的人工智能图灵测试。
图灵测试的概念极大地影响了人工智能中函数的定义。卡内基梅隆大学的两位科学家希尔伯特·西蒙(Hilbert Simon)和曼努埃尔·布鲁姆(Manuel bloom)以此为例,做了大量的前期工作,并熟练地证明了罗素《数学原理》中52条轨道中的38条。西蒙甚至声称,在10年内,机器可以达到与人类智能相同的高度。
从“模拟”人脑到创造统计方法
当人工智能在20世纪50年代明确了模拟人类智能的大胆目标时,这一领域在近20年中经历了辉煌。研究人员开展了一系列项目,以表明计算机可以完成一系列原本属于人类能力范围的任务,如证明定理、解微积分、通过计划响应命令、执行物理动作、,甚至模拟心理学家的心理实验和谱系。
然而,过于简单的算法和计算能力的限制严重阻碍了人们使用人工智能来解决更加困难和多样化的问题。
在这个阶段,科学家们在人工智能语音识别的细分领域也走了同样的弯路。他们认为,如果计算机想要完成语音识别,这是只有人才才能做到的事情,他们必须首先让计算机理解自然语言,这导致研究局限于人类学习语言的方式,即计算机模拟人脑。语言学者参与了大量的研究工作,但最后的成果几乎为零。随着对未来继续努力的失望,人工智能,包括语音识别,在20世纪70年代中期逐渐淡出公众视野。
统计语言学的诞生出现了转折点。有必要提及一位关键人物——德里克·贾利克(Derek jarlik)和他的IBM沃森实验室。他们使用创新的统计方法将语音识别率从70%快速提高到90%。同时,语音识别的规模也从数百个词增加到了数万个词,使语音识别从实验室走向实际应用成为可能。
在jarnik之前,科学家将语音识别的核心归因于语言学中的规则问题。jarnik将其视为一个通信问题后,使用两个隐马尔可夫模型(声学模型和语言模型)来概括语音识别。
该框架对语音识别仍有深远的影响。它不仅使语音识别成为可能,而且为今天的自然语言处理奠定了基础。贾尼克后来被选为美国工程院院士,并被一家杂志评为20世纪100位发明家之一。
巨大进步的催化剂
在20世纪90年代互联网兴起时,人工智能的研究再次陷入停滞。直到21世纪的前10年,人工智能的研究过程才有了一系列的复苏因素,特别是以下重要因素和核心技术:
大数据。多亏了互联网、社交媒体、移动设备和廉价传感器,世界上产生的数据量急剧增加。大数据是人工智能发展的助推器。这是因为一些人工智能技术使用统计模型来计算数据的概率,例如语音识别。通过数据海洋中丰富的语料库,技术不断优化。
新算法。算法是解决设计程序或完成任务的路径方法。在一个完整的工业语音识别系统中,深度学习算法是关键。在专业领域中,还有大量与算法相关的工作,以及海量数据的收集和工程系统架构的构建。这些算法本身非常重要,也是其他技术的推动者。例如,机器学习算法Google tensorflow目前是开源的。
可以说任何技术都有储能阶段和爆炸阶段。包括语音识别技术在内的人工智能的飞速发展得益于上述条件。这并不难理解。从语音识别的角度来看,它需要经验、数据和用户反馈来提高性能。我们需要使用用户反馈来总结一些特征。
谷歌是全球第一家大规模使用深度学习算法的公司。它也是第一家将互联网思维用于语音识别的公司。在这方面,受谷歌的启发,科大讯飞迅速跟进,成为中国第一家在商业系统中使用深度学习的公司。
现有的成就与需要解决的问题一样多
语音识别技术已经发展了几十年。由于大数据和深度学习的应用,这一领域的传统优势已经成为美国的技术巨头,如谷歌、亚马逊、苹果和微软。据统计,美国至少有26家公司在开发语音识别技术,中国有近50家公司在研究这一领域。
虽然谷歌语音识别技术巨头的技术积累和先行者优势使得后来者很难赶上它,但由于一些政策和市场原因,当然部分原因是汉语的复杂性高于英语,因此,国际巨头的语音识别主要倾向于英语,中国语音智能领域的机会留给了科大讯飞、百度、搜狗等中国公司。在中国,这些本地化产品更为用户所熟悉。
识别中文有什么困难?举个简单的例子,鲁迅《孔乙己》中的孔乙己问题:有多少种方法可以写出茴香豆的“茴香”?或者更现代的情况,如何描述快速物流?据说用中文回答这个问题至少有3600种方法,比如第二天,物流很棒,快递点很受欢迎。尽管近年来语音识别取得了很大的进展,但仍有许多工作要做。
此外,它确保语音识别能够在更真实的环境中正常工作。这些环境包括有大量背景噪音的场所,如会议场所或高速公路上的驾驶,以及在多人对话环境中区分不同的扬声器。
另一个更深层次的问题是,如果有必要实现人机对话和人机写作,那么不仅需要使用机器来转录来自人类口腔的声音信号,还需要理解人们所说的话。
从语音识别的角度来看,下一个前沿是从识别到理解。真正的人工智能仍在遥远的地平线上。在机器能够理解它听到或看到的东西的真正意义之前,它仍然需要很长的时间和很长的路要走。
也可以说,我们正在从一个人类必须理解计算机的世界走向一个计算机必须理解我们的世界。亚里士多德曾经说过,如果机器能做很多工作,它们就不能解放人类。也许这种解放的出发点是“理解”。(姜树树)