语音已实现文字转录距离人机交流还有多远

timg

如今的语音识别能力，早已在2016年底的实现了较高的准确率（均达97%）。据某科技媒体的作者称：“一旦语音识别的准确率达到99%，那将直接进入产业爆发的黎明”。

备受看好的语音识别

自引入神经网络的方法之后，语音到文字的转换，语音研究领域成为了重要的课题，苹果Siri、亚马逊、科大讯飞等产品，也都受其影响。近期微软便发布了公文，不仅展示有最新的文字转录技术，增强了对话题和局部上下文的适应能力，还表示达到人类的水准已不是梦想。

与此同时，科大讯飞在人工智能领域的贡献也得到了业界内的认可，掌握着足够的话语权。迄今为止，讯飞开放平台的用户、终端数已超过10亿，第三方的创业团队也已突破30万，国内80%以上的硬件创业团队，使用了其核心技术。

人工智能的时代，中国已经开始超越美国。在近些年的语音研发道路上，能够理解语音命令的游戏控制台，可以实时翻译对话的应用，以及能够提供附近比披萨店电话号码的虚拟助手，都已经从虚构变成了现实。

也因技术的不断发展，科大讯飞产业投资董事长徐景明认为，语言是人工智能的助推器，无论是APP、应用或者是各种设备，只要具备有简单自然能听会说以及理解、会思考能力的的智能，就会有助于降低企业的应用门槛。可以说语音识别已成为目前最受关注的领域之一。

不过李开复在2017年3月份的主题演讲中，却谈到语音识别的技术有99%几率死掉。以当下趋势来看，语音识别技术的不断深入发展，已成为一些公司主营业务，然而就目前的程度水平来看，李开复当时提出的问题，在如今也没能有好的解决。

路漫漫兮其修远

李开复从两方面提及到语音识别为什么会有这么大的几率死亡，首先对于一些语音公司高识别率的吹捧，降噪问题一棒子便使其哑口无言，在李开复看来，语音识别未来的出路是如何处理降噪。到了真实的语音交互环境下，没有较好的降噪技术，会因复杂的声场环境中，直接歇菜，而目前的高识别能力，还停留在“近场景语音别”的阶段中。

语音识别降噪是根本，最为进一步的提升，是语音识别的理解能力。就目前的语音识别水平来看，当下的技术能力，还只是停留在类似人类听觉系统内的一个神经单元，具体来说，就是我们常说的语音转化成文字。而其真正技术的突破，在解决降噪的问题基础上，要如何进行语言理解。

从技术角度出发，NLP的研究一直在不断的发展，逐渐成为一门独立的学科，无论是科技巨头还是创业公司，都在这个领域投入有巨大的资源。可是NLP的进展还没有理想的突破口，显示的技术难点还是语义的复杂性，包含因果关系和逻辑推理，虽然基于大数据、并行计算的深度学习带给了NLP长足的进步，但是若想达到人类的这种理解层次，还需要很长的路要走。

总结：

如今的语音识别技术，不论媒体和资本如何夸大造势，真正的对话交互场景里我们还有很远。李开复提出的99%死亡率，其实也是有一定的参考，因为语音识别本质是语声学结合，没有好的耳朵显然是不可行的，毕竟科学无法绕过物理科学的壁垒。

但就目前的技术来看，语音识别已可以与多样化的智能终端形成相辅相成，对于人们的日常处理操作已无大碍。而且技术的发展速度带来了十足的希望，未来真正的人际交流也可能会成现实，并且辅佐着每一位个人或者企业。