“互联网女皇”玛丽·米克(Mary Meeker),周三发布了2016《互联网趋势》报告,这也是玛丽连续21年发布此类报道,这次发布依然引起了全球互联网界节日般的讨论和沸腾。
笔者作为一个智能语音行业从业者,对女皇在报告中说的这些趋势,已经在今年年初就感受颇深,这份报告与其说是预测,更像是一份阶段性总结。不过,这并不妨碍这份报告体现的趋势正确性。
作为人工智能领域落地最为成熟的技术, “语音”毫不意外的出现在这份报告之中,语音助理服务的崛起和机器人、交通运输的未来并列成为女皇最为看好的几个行业和领域。那么,女皇为何看好智能语音?
语音应该是最有效的计算输入形式
女皇认为,语音应该是最有效的计算输入形式。因为对于消费者,语音可以快速沟通、简单方便、个性化并且无需键盘。
美国的人机交互从1830年~2015年里经历了触觉1.0——触觉2.0——触觉3.0——语音的四个阶段变化,最新的语音交互,以手机上的Siri和联网/音响上的语音(亚马逊Echo)为典型代表。
不久之前的谷歌I/O大会上,最亮点产品是类似于亚马逊Echo的Google Home,其内置了Google Assitant语音助手。而在即将召开的2016苹果开发者大会WWDC上,iOS 10最大亮点很可能会是Siri。语音将代替“键盘+鼠标”成为下一代主流物联网人机交互方式,已经主流趋势。
而针对语音界面本身,它具有三个特点:第一,随时访问,这笔分层图形用户界面要容易操作;第二,成本低+尺寸小,仅仅需要麦克风、扬声器、处理器以及联网功能即可,特别适合物联网环境;第三,需要自然语言识别及处理技术。
语音识别的技术难点:识别率+延迟
而在语音识别率方面,目前包括百度、谷歌等主流平台在单词语音识别准确率方面都已经超过90%,像国内科大讯飞、云知声等智能语音识别企业普遍识别率也都在96%以上。
不过,百度首席科学家吴恩达指出,假如语音识别准确率从95%上升到99%,所有人都会从现在的极少使用转变为一直使用。大多数人低估了95%与99%准确率之间的区别。云知声CEO黄伟此前也业内表示,目前的大数据不能称之为真正的大数据,是因为数据质量和识别率不够高,一旦识别率达到99%,就可以实现不用人工干预的数据。这样的大数据才真正有价值。
另外,延迟也是制约智能语音应用的一个技术难点。“没人愿意会一个回复等待10秒。除了准确率之外,延迟是生产语音系统的另一大关键指标。”吴恩达在这份报告中指出。
不过,从键盘进化成麦克风才刚开始。报告中指出,移动语音助手使用率快速上升,2013——2015年,美国智能手机用户使用语音助手的比例已经从30%上升到了65%。谷歌2016年语音搜索量较2008年增长了35倍以上,较2010年增加7倍以上。百度语音从2014年第二季度起至今,语音输入增长4倍以上,输出增长26倍以上。
对谷歌、百度等巨头来说,还有一个更严重的消息,语音正在侵蚀搜索份额。在美国,安卓上语音搜索占了20%,百度上语音搜索占了10%,而且份额还在扩大。百度首席科学家吴恩达预计,五年后,所有搜索中至少50%位图像搜索或者语音搜索。
解放双手和眼睛,并”永远在线“
报告中披露,2016年美国人使用语音的主要原因是解放双手和眼睛的交互,而应用最多的场景则是“Home”,也就是智能家居场景、其次是车载和在路上。
语音即计算界面平台。巨头们也正在搭建这样的平台,第三方开发者迅速涌入。比如,亚马逊Alexa语音服务,通过OEM和开发商集成的方式,已经有十多个实现的案例,应用在家具、汽车和手机领域。而亚马逊对Alexa语音平台的目标,则是更快、更方便的在亚马逊上购物。说白了,就是抢占入口。
美国亚马逊客户拥有Echo的比例同比由2%上升至5%,CIRP数据显示,发售至今已售出约400万台Echo。
我们再看国内的智能语音行业的应用,国内做智能语音识别业务的公司大概可以分为三类:第一类是BAT,BAT都围绕自己的原有核心业务开展语音搜索功能。比如百度针对语音搜索、阿里针对电商、腾讯针对社交;第二类,是科大讯飞、云知声这样的垂直领域的to B公司,在垂直行业内扎根很深。比如讯飞是针对教育、会议,云知声是针对家居、车载和医疗;第三类就是to C的公司,比如出门问问、Rokid和Vinci ,他们通过to C的爆款产品来实现语音功能。
对此,女皇说:计算行业的拐点,通常都是后知后觉。2015年iPhone销量或许已经碰到了天花板,与此同时亚马逊Echo销量开始起飞?
一个伟大的时代已在我们身边悄悄走来。