深度解读：互联网女皇为何看好语音行业？

来源：中国网 发布时间：2016-10-26

“互联网女皇”玛丽·米克（Mary Meeker），周三发布了2016《互联网趋势》报告，这也是玛丽连续21年发布此类报道，这次发布依然引起了全球互联网界节日般的讨论和沸腾。

笔者作为一个智能语音行业从业者，对女皇在报告中说的这些趋势，已经在今年年初就感受颇深，这份报告与其说是预测，更像是一份阶段性总结。不过，这并不妨碍这份报告体现的趋势正确性。

作为人工智能领域落地最为成熟的技术， “语音”毫不意外的出现在这份报告之中，语音助理服务的崛起和机器人、交通运输的未来并列成为女皇最为看好的几个行业和领域。那么，女皇为何看好智能语音？

语音应该是最有效的计算输入形式

女皇认为，语音应该是最有效的计算输入形式。因为对于消费者，语音可以快速沟通、简单方便、个性化并且无需键盘。

美国的人机交互从1830年~2015年里经历了触觉1.0——触觉2.0——触觉3.0——语音的四个阶段变化，最新的语音交互，以手机上的Siri和联网/音响上的语音（亚马逊Echo）为典型代表。

不久之前的谷歌I/O大会上，最亮点产品是类似于亚马逊Echo的Google Home，其内置了Google Assitant语音助手。而在即将召开的2016苹果开发者大会WWDC上，iOS 10最大亮点很可能会是Siri。语音将代替“键盘+鼠标”成为下一代主流物联网人机交互方式，已经主流趋势。

而针对语音界面本身，它具有三个特点：第一，随时访问，这笔分层图形用户界面要容易操作；第二，成本低+尺寸小，仅仅需要麦克风、扬声器、处理器以及联网功能即可，特别适合物联网环境；第三，需要自然语言识别及处理技术。

语音识别的技术难点：识别率+延迟

而在语音识别率方面，目前包括百度、谷歌等主流平台在单词语音识别准确率方面都已经超过90%，像国内科大讯飞、云知声等智能语音识别企业普遍识别率也都在96%以上。

不过，百度首席科学家吴恩达指出，假如语音识别准确率从95%上升到99%，所有人都会从现在的极少使用转变为一直使用。大多数人低估了95%与99%准确率之间的区别。云知声CEO黄伟此前也业内表示，目前的大数据不能称之为真正的大数据，是因为数据质量和识别率不够高，一旦识别率达到99%，就可以实现不用人工干预的数据。这样的大数据才真正有价值。

另外，延迟也是制约智能语音应用的一个技术难点。“没人愿意会一个回复等待10秒。除了准确率之外，延迟是生产语音系统的另一大关键指标。”吴恩达在这份报告中指出。

不过，从键盘进化成麦克风才刚开始。报告中指出，移动语音助手使用率快速上升，2013——2015年，美国智能手机用户使用语音助手的比例已经从30%上升到了65%。谷歌2016年语音搜索量较2008年增长了35倍以上，较2010年增加7倍以上。百度语音从2014年第二季度起至今，语音输入增长4倍以上，输出增长26倍以上。

对谷歌、百度等巨头来说，还有一个更严重的消息，语音正在侵蚀搜索份额。在美国，安卓上语音搜索占了20%，百度上语音搜索占了10%，而且份额还在扩大。百度首席科学家吴恩达预计，五年后，所有搜索中至少50%位图像搜索或者语音搜索。

解放双手和眼睛，并”永远在线“

报告中披露，2016年美国人使用语音的主要原因是解放双手和眼睛的交互，而应用最多的场景则是“Home”，也就是智能家居场景、其次是车载和在路上。

语音即计算界面平台。巨头们也正在搭建这样的平台，第三方开发者迅速涌入。比如，亚马逊Alexa语音服务，通过OEM和开发商集成的方式，已经有十多个实现的案例，应用在家具、汽车和手机领域。而亚马逊对Alexa语音平台的目标，则是更快、更方便的在亚马逊上购物。说白了，就是抢占入口。

美国亚马逊客户拥有Echo的比例同比由2%上升至5%，CIRP数据显示，发售至今已售出约400万台Echo。

我们再看国内的智能语音行业的应用，国内做智能语音识别业务的公司大概可以分为三类：第一类是BAT，BAT都围绕自己的原有核心业务开展语音搜索功能。比如百度针对语音搜索、阿里针对电商、腾讯针对社交；第二类，是科大讯飞、云知声这样的垂直领域的to B公司，在垂直行业内扎根很深。比如讯飞是针对教育、会议，云知声是针对家居、车载和医疗；第三类就是to C的公司，比如出门问问、Rokid和Vinci ，他们通过to C的爆款产品来实现语音功能。

对此，女皇说：计算行业的拐点，通常都是后知后觉。2015年iPhone销量或许已经碰到了天花板，与此同时亚马逊Echo销量开始起飞？

一个伟大的时代已在我们身边悄悄走来。