混战语音识别人工智能的黎明快了

第一财经日报刘佳

[语音技术作为人机交互方式的入口，是人工智能重要的一环。不只是BAT，搜狗、科大讯飞等也在加速智能语音的布局，不少围绕AI的创业团队如云知声也都将语音作为探索人工智能的方向]

情感合成、远场方案、唤醒二期技术和长语音方案……这些听起来有些陌生的技术，未来将可能改变我们的生活。

11月22日，百度公司首席科学家吴恩达在谈到百度语音技术的最新进展时，对外介绍了百度这四项语音技术，并宣布将免费开放给用户和开发者。

“我们已经站在人工智能的黎明。”吴恩达对包括第一财经在内的记者作出乐观的预测，他希望通过开放人工智能技术，让每个人都能更容易地开发出“智能应用”。

不过，站在“黎明”的人工智能何时能有“质”的跨越，或许还需时日。一个细节是，在接受记者采访的会议室里，吴恩达座位不远处还是坐了一位实时整理文字的速记人员。

智能语音：已超正常人类的识别能力

事实上，开放语音API(应用程序编程接口)已经成为行业趋势。

今年3月时，谷歌在Next云计算大会上发布了面向开发者的新机器学习平台，并开放语音识别的API，即谷歌语音搜索和语音输入的支持技术。GoogleCloudSPeechAPI一开始将免费提供，以后再进行收费。这一应用包括了80多种语言，适用于各种实时语音识别与翻译应用。

在开放背后，互联网公司希望借此推动智能语音模型的进一步演进和智能语音技术的快速普及。

对于百度公布的四项语音技术，吴恩达告诉第一财经记者，目前百度还没有收费的计划，这些技术旨在解决用户在使用语音交互的场合时，普遍感到困扰的一些关键问题。“目前的语音识别已经超过了正常人的语音识别能力。”

以情感合成为例，主要是基于深度学习和大数据处理技术，在数据采集、处理、建模等环节进行一系列创新，实现更富有表现力的自然朗读效果。

读者甘肃数码科技有限公司总经理金大时告诉记者，目前“读者数字农家书屋”在甘肃庆阳市试点，根据百度大数据合成情感语音实现书籍有声阅读，让很多不识字的老年人和留守儿童也享受到了阅读的乐趣。

而远场方案技术则是百度自主研发的远场识别技术，基于麦克风阵列，利用麦克风阵列束形成、语音增强、回声消除、声源定位等技术综合实现高准确率远场识别。

百度称，开发者可以通过这一新的技术接口，使语音识别距离增加到3~5米，设备的语音唤醒率提升到95%以上，或解决长时间语音识别的准确率问题。这将为语音技术带来远比现在更多的想象空间，而不只是遥控电视或解锁手机。

例如，百度在上海肯德基旗舰店投入使用的“小度机器人人机语音交互点餐”，可远距离随时应答点餐。

百度语音唤醒技术，主要是通过通用唤醒词解析、大数据声学模型、双层解码等技术优化，唤醒率达95%，支持用户自定义唤醒词。唤醒二期加入指令唤醒，优化唤醒和识别性能。

长语音技术则在LSTM(LongShort-TermMemory，一种时间递归神经网络)音频切分技术、深度学习预测停顿、说话人自适应、智能纠错等方面技术突破。这意味着它将在方便语音输入、内容记录、智能客服、视频转写等应用场景表现出想象空间。

这也令来到中国的斯坦福大学的人工智能专家JamesLanday感慨：“近两年，受益于大数据和深度学习技术的不断发展，语音识别技术突飞猛进，速度及准确性都有了长足进步。”

智能语音混战

语音技术作为人机交互方式的入口，是人工智能重要的一环。不只是BAT(百度、阿里巴巴、腾讯)，搜狗、科大讯飞等也在加速智能语音的布局，不少围绕AI的创业团队如云知声也都将语音作为探索人工智能的方向。

要想顺利进入这一领域，需要的是多年的技术与经验积累。

吴恩达告诉第一财经记者，语音识别技术非常复杂，最难的是核心技术的提升，例如识别率的提升，几年前语音识别率还只有80%多，当时用起来还是相当困难;还有大数据语音合成等，现在的目标是如何才能远远超过人类的识别能力。此外，百度语音识别97%的准确率是在比较安静的环境下达到的目标，在噪音干扰的情况下如何提升识别率，百度还有工作要做。

除了百度之外，可以看到的是，今年9月，腾讯云技术团队和微信AI团队开放微信语音处理技术，推出了智能语音服务。在语音识别、语音合成、声纹识别等功能上提供了垂直领域定制化的语音产品。阿里的人工智能系统，已具备智能语音交互、图像识别、交通预测、情感分析等功能。

在语音识别领域，搜狗CEO王小川在不久前的世界互联网大会上透露，搜狗输入法一天处理的语音输入请求达到1.9亿次，产生超过16万小时的语音数据。在庞大的用户基础和数据积累后，可以把语音输入做到更极致的状态，如语音合成、声纹识别等。

公开资料显示，在技术指标方面，百度语音识别、搜狗输入法语音识别、讯飞输入法语音识别准确率达到97%，腾讯云智能语音识别技术在通用领域中准确率达95%。

在投资人士看来，智能语音仍是一个好的投资机会。此前，峰瑞资本早期项目负责人朱祎舟提到，尽管各家根据实验数据得出的语音识别准确率达到95%甚至更高，但在实际使用时并没有那么高，前端的语音/声学交互的很多问题如果得不到解决，整体的体验始终不够好;而包括家居、车载、可穿戴设备、机器人等大量智能终端的爆发，智能语音将变得更加友好和重要。

在IBM前全球副总裁、赛伯乐投资集团总裁王阳看来，未来人工智能在医疗、无人驾驶、金融、零售、安防、个人助理等七个领域有强大的应用空间。他提到，人工智能个人助理目前普遍应用于智能手机上的语音助理，语音输入、家庭管家等，最终是在收集消费者的消费习惯，从而提供各类服务。

ResearchandMarkets研究报告显示，预计2016年全球智能语音产业规模可达82.3亿美元以上，到2020年，全球语音市场规模预计将达到191.7亿美元。