2020年 03月 19日 星期四
您的位置: 威廉希尔主页 > 单片机技术 >

Mozilla的新开源模型旨在彻底改变语音识别

来源:未知     作者:威廉希尔     发布时间:2020-03-19 12:44         

  您可能已经注意到,语音识别技术在最近几年取得了稳定和肯定的进步 -所有大型技术公司都希望在这一领域取得长足进步,即使只是为了改善从Cortana到Siri 的数字助理也是如此-但是Mozilla希望更加努力,并且更广泛地说,在这方面,开源语音识别模型已经发布。

  根据Mozilla机器学习团队所做的工作,此自动语音识别引擎的最初版本刚刚发布。该引擎以百度发表的“深度”论文为模型,该论文详细介绍了可训练的多层深度神经网络。

  Mozilla说,其项目最初的目标是使“单词错误率”低于10%。然而,该公司表示,LibriSpeech的测试清洁套件上的引擎字词错误率现在为6.5%,明显超过了这一目标,并达到了接近人类水平的圣杯(据Deep报道,该比率约为5.8%)2论文)。

  Mozilla一直在努力使用“监督学习”和数千小时的带标记音频的巨大数据集来训练语音识别模型,该数据集来自包括免费(TED-LIUM和LibriSpeech)和付费(Fisher和Switchboard)语音在内的各种方式语料库。

  带有标签的语音数据进一步从大学,公共和的语言学习部门等机构中获取,所有这些数据为磨练语音识别引擎提供了更多动力。

  当然,该项目的巨大优势(其开源性质)意味着这种经过磨练的技术现在对任何人用于其语音识别项目。

  Mozilla进一步指出,未来的计划是发布一种既轻便又快速的模型,使其能够在智能手机或Raspberry Pi等单板计算机上运行。

  该公司还推出了“公共语音”计划,该计划是一个的,公开可用的语音数据集,其中包含来自20,000位不同说线个小时的语音。

  正如Mozilla所说,这里的想法是“与新的语音识别模型并行运行”,构建一个语音库,该语料库是免费的,开源的,并且足够大以创建有意义的产品。

  微软还在语音识别方面取得了长足的进步,如今年夏天宣布的那样,在Switchboard语音识别基准测试中,单词错误率达到了5.1%。

      威廉希尔