以及深度学习将对我们的未来产生怎样的影响

作者:青岛澄润国际贸易有限公司 来源:www.usabcc.com 发布时间:2018-10-20 19:06:18
“妈、麻、马、骂、吗”,百度语音说它都能听懂了 “妈、麻、马、骂、吗”,百度语音说它都能听懂了

虎嗅注:当李开复还在谷歌的时候,他对搜索引擎的语音识别功能就非常着迷。几年过后,百度终于做了一个拿得出手的普通话语音识别模型,以及它背靠的深度学习系统Deep Speech。本文是SCALE记者对百度高级工程师Awni Hannun进行的专访,Hannun谈论了Deep Speech的特点、普通话语音识别的难点,以及对深度学习(Deep Learning)未来的展望。

原文来自Medium,标题为《Baidu explains how it’s mastering Mandarin with deep learning》,由虎嗅编译。

8月8日,国际神经网络协会(International Neural Network Society)在美国旧金山召开大数据会议。会上,百度的高级研究工程师Awni Hannun向大家展示了一个新的语音识别模型,由百度研发用以识别普通话语音检索。这个语音识别模型基于百度在2014年12月发布的深度学习系统Deep Speech,并在测试中达到94%的正确率。

在这个稍经编辑的采访中,Hannun将解释这个研究成果的重要性、为什么普通话是一种很难学习的语言,以及深度学习将对我们的未来产生怎样的影响。

关于Deep Speech

Q:Deep Speech在翻译普通话时的准确性如何?

Awni Hannun:有6%的错误率,也就是说在100个字中会有6个错字。如果放到语境中,我认为这是辨识普通话语音检索的工具中最好的一个系统(我们的研究数据也这样显示)。

事实上,我们做过一个实验。在我们的实验室里有几个会讲中文的人,他们将我们用以测试系统的语音进行人工识别和转录。结果显示,如果我们不让被试者使用网络或其他一些工具,系统的转录效果要比人工的好。

“我们提供足够多的数据,在尽可能少的人为干预下,让系统得以辨别与输入相关的信息,并正确输出转录结果。”

Q:为什么普通话的语音识别相比其他语言要难得多?

Awni Hannun:普通话和其他语言有几个区别,以至于我们的英语语音系统难以适用于这种语言。首先,这是一种有音调的语言。如果你用不同的音调说一个词,它的意思可能完全不一样了,这和英语完全不一样。在传统的语音识别中,音调的不变性很重要,也就是说系统在转录语音的时候,会忽略音调。所以,为了进行普通话(或其他中文语言)语音识别,你必须更改很多系统设置。

Baidu1.jpeg

Awni Hannun

但是,对我们来说,我们也不需要改变那么多的东西,因为我们的传输路径比传统语音的传输路径要简单的多。我们不需要在音频上做那么多的预处理,来减少音频的语调变化。我们只需要让系统从相关数据中学习音调,从而能够准确转录出语音信息。这种方法在普通话这种语言上很有效,并不需要改变输入。

中文(普通话)另一个不同之处在于它的汉字系统。英语只有26个字母,而在中文中差不多有八万个汉字。我们的系统在语音转换的同时直接输出汉字,所以我们认为和26个字母相比,每次在八万个汉字中工作的难度非常大。我们用以克服这个挑战的方法就是只使用汉字的一小部分,也就是人们的常用字。

Q:目前,百度已经开始在处理大量的语音检索了。Deep Speech系统相比以前的普通话语音识别系统,好在哪里?

Awni Hannun:百度的普通话语音检索很活跃,而且效果不错。我认为就所有的检索活动而言,语音检索仍旧只占据很小一部分。我们希望让这个比例变大一些,或者至少通过让语音识别系统更准确,使人们更多地使用这个功能。

Baidu2.jpeg

Q:你能描述一下像Deep Speech这种基于搜索引擎的语音识别系统,和例如微软的Skype语音实时翻译系统(也是基于深度学习)的区别吗?

Awni Hannun:通常,语音识别有三种模式。第一种是语音-转录模式;第二种是机器-翻译模式;第三种是语音-合成模式。我们在谈的,其实都是第一种语音-转录模式,我相信Skype翻译的其中一部分是这种模式。

我们的系统和微软那个系统不一样的地方在于,我们的系统更多的是“端对端”。以前研发的语音检索都有很多人为干预:他们会看着系统,然后说哪些哪些特点很重要,或者系统应该要能够预测某种音素。我们不一样,我们只需要输入数据,也就是一段音频。对于一段WAV文件,我们几乎不用进行预处理。然后我们有一个巨大的深度神经网络可以直接转录输出文字。我们输入了足够多的数据,所以在尽可能少的人为干预下,系统得以辨别与输入相关的信息,并正确输出转录结果。

最令我们惊喜的是我们并不需要过多地对其进行修改,除了给它设定范围以及提供正确的数据。这个我们在去年12月展示的系统,在英语识别中做得非常好,中文识别也相当不错。

推荐阅读/观看:忻州网站建设 https://www.feimao666.com/diqu/sanxi/xinzhou/


  • 上一篇:还有一点是网站的权重是积累上去了
  • 下一篇:最后一页
  •