VoiceGurus

Blog about voice enhancements

Big data for voice recognition

声音识别的大数据

NXP Software 犹如盘踞在网中心的蜘蛛。我们在每个环节认真聆听客户的要求并重点关注用户体验。我们致力于不断创新,并且仅与最优秀的业务伙伴开展合作,以期实现这一目标。

NXP还是研发领域的领导者——我们目前已经取得了显著的进步。为了在研发环境中形成出色的协同效应,NXP Software一直坚持与坦佩雷大学开展紧密的合作关系。

在音频方面,NXP Software了解用户体验,正因如此我们深知情境数据对于最终用户的重要价值。
现在我们将发表三篇有关音频数据情境的文章,因为我们认为这关乎专业知识、合作关系和用户体验。这三篇文章都应获得其专有的互动和关注。

我们博客三部曲的第一部——“声音识别的大数据”——详细探讨了音频数据的采集和“深度学习”。欢迎阅读本博客文章,了解NXP Software在这一领域的最新进展,并确保您不会错过接下来的两个部分!

声音识别的大数据

利用稳健的数据训练算法,从而改善自动声音识别的效果

手机要识别特定的声音——如某人的说话声、闹钟的响声、关门声——您就必须根据每种声音的独特特征创建一个模型,就像声学指纹一样。通常,利用高度先进的声学算法对录制的声音数据进行分析来创建这些模型。一开始,这可能看起来非常简单:录制一种声音并分析,然后建立合适的模式,用于再次识别这种声音。

深度学习的数据

然而在现实中,这要困难得多。创建的这些模型必须足够稳健,才能不论在录制时处于何种环境中,识别出相同的或同类声音 (碰撞声、警报事件等等)。这就需要做到以下两点:大量多样的数据以及经过精心设计可以“深度学习”声音的算法,即在没有明确编程的情况下可以自行学习声音的算法。

为了创建稳健且精确的声音模型,声学算法必须针对各种类型的不同声音样本进行测试,而样本也必须涵盖尽可能多的声音场景和周边环境。

算法的数据

借助我们在声学算法方面遥遥领先的专业知识,NXP Software可以开发出卓越的音频模型。我们只需要大量的数据!通过与各大院校合作,我们收集了来自世界各地的音频录音,不断拓展现有的音频数据库。

我们与这些大学合作,开发出了一种专用的音频感知解决方案测试架构。LifeVibes 6 Sense生态系统包含数据云和相关的手机应用程序。该方案提供了满足所有客户要求所需的可扩展性,无论是低功耗还是高连接性要求;而这恰恰是可穿戴设备的两个主要问题。

除了音频数据,6 Sense可以捕捉手机中所有其他传感器的数据,包括压力、温度和动作,然后,通过整合我们的音频专业知识以及其他传感器提供的信息,我们可以创建有意义的解决方案。

Machine learning

为了确保我们采集的数据足够稳健,我们在以下七个领域遵循最佳规范:
• 空间——例如在全球不同地点的不同办公环境下 (安静、说话声、打印机噪音等) 的不同办公室中录音
• 时间——利用在每天不同时间录制的声音进行训练和测试,这些声音在不同日期的不同时间的不同情境下录制
• 系统——使用不同手机录音,以便解决方案在面对不同信道和麦克风类型时均十分稳健
• 用户——我们请多位用户参与录音,因为一个人的录制习惯 (时间、地点等) 可能会限制多元性
• 语义——不同的人对于同一类声音会有不同的理解,例如警报事件,对于某人而言可能是汽笛鸣叫,而对于其他人则可能是铃声、蜂鸣、钟响等等
• 声学特性——同类音频可能会因为来源不同而听起来大相径庭,例如木材、金属、陶瓷等的碰撞声
• 质量——清晰的录音可以揭示出信号的声学特性,而嘈杂的录音则更加接近现实:两者均需要建立稳健的模型

数据越多,越精确

涵盖所有这些情形意味着在庞大的数据库中收集了大量的数据。这使得算法可以针对许多不同的声音进行测试,以学习如何区别不同的声音并识别相似的声音。这种算法的智能训练有助于创建非常精确的声学模型。

6 Sense生态系统不仅允许客户通过云端评估我们的解决方案,还可以上传自己特定的数据集。利用这一不断增长的大型信息数据库,我们可以针对特定设备和/或应用程序创建音频感知模型。

在设备中整合LifeVibes Sensing解决方案,可以帮助手机制造商满足特定的客户需求,并帮助应用开发商开发出能够识别并利用任何类型声音的全新应用程序。稳健且高度精确的声音模型还可以实现大量的个性化定制,使用户能够按其独特的个性和需求定制他们的移动设备。

建议链接

链接至AudioSense
链接至MWC视频

Leave a Reply