灵活语音识别系统(FlexSR)

技术来源: 牛津大学                                         项目编号:10377

一个基于音系学原理的自动化语音识别(ASR)系统 。

请你再说一次?

“a”在“bath”中的读音像“bar”还是像“bat”? 一个很小的不同,但在现实中每个人读每个词的方法都不同,甚至在他们重复他们自己的时候。

从数据上看

结论是,大多数的自动化语音识别系统都成立在统计模型技术上,为了熟练一个语调中的变化需要来自成千发言人的录音的强化训练。

牛津灵活语音识别系统在单词/字识别上超过许多现有的自动化语音识别系统,并且它的轻巧性能使得它可便于组合在现有技术或可移动技术上。

牛津灵活语音识别系统的特色

  • 在不同语调/方言、口音或不规则语句上有高准确度
  • 更快速、更强大和对背景噪音更包容
  • 适合多用户环境
  • 计算能力需求低
  • 可在移动技术上运用
  • 可适用于任何口语(目前为英语和德语制造),包括声调语言
  • 不需系统培训

语言模型

常规的语言识别软件,高的精准度只能通过多层次和强化计算模型、需要最高科技的硬件来实现,或在可移动使用上,需要一个卸载分析的网络连接。此外,许多系统需要依靠一个特定的声音进行训练,已达到精确的识别度(然而一些人认为,这是说话者被训练去如何说话,而不是软件受调试去识别!)

灵活语音识别系统不同。不单单依靠统计分析,牛津大学的知名语言学家开发了一个“稀疏“的人类词汇认知表征的语言模型,这个理论提出人类对每一个字/词储存了一个很基本的声音表征,接受声音里面一个大幅度的变化,并且由它们的普遍规律来认识字。采用此方法使得灵活语音识别系统能够通过提取大约的声音,并且和它内部的单词/字典对接、配对来识别大范围的发言者和其语调/方言所发出的的词语。

10377image

简易的结合

鉴于这项新方法的影响潜力和大范围的应用可能,牛津大学科技创新欢迎与有兴趣的潜在开发或集成合作伙伴进行讨论。

Search

Ready to get in touch?

Contact Us
Search
© Oxford University Innovation