VisionMobile发布报告《Beyond Siri: The next frontier in User Interface》,分析虚拟助手技术的市场,包括关键技术和商务模式,竞争点,和跨4屏虚拟助手的演化。
自苹果在2011年推出Siri技术后,声控的移动虚拟助手(Virtual assistants VAs)应用跨过技术裂缝进入大众市场,帮助用户通过语音命令进行搜索、拨打电话和发送短信。去年,Siri触发一波模仿和创新,开发了数十个同类的智能手机应用。目前,Android和iOS下载量最大的是:Vlingo Virtual Assistant, Iris, Voice Actions, Skyvi, Everfriends和Dragon Go。在这份报道中,除Siri外,还分析语音分析专家Nuance公司的Dragon Go,可视化驱动i- Free创新的Everfriends, 人工智能创业公司Dexetra的iris和AT&T实验室的Speak4bit。
从命令(command)向对话(dialogue)转移。 VA技术从人工智能(AI)中获得发展,特别是自然语音处理(Natural Language Processing,NLP)、用户分析和搜索,VA从语音识别发展到用户意图预测。虚拟助手应用的关注点也从目前的命令和控制(我问你答)转向持续推荐和用户操作对话。老牌厂商,如SRI国际,苹果,Google和Nuance,以及新的挑战者,如Dexetra和i-Free创新公司,都正从命令转向对话。SRI国际将在2012年秋季展示back-and-forth对话技术。
虚拟助手正在干扰搜索。给出答案而非搜索结果是虚拟助手主张的核心价值。对于传统搜索引擎,这意味着页面点击的减少,会降低搜索广告的利润。 根据visionMobile的数据,自安装Siri后,iPhone上的Google搜索流量出现下降。我们预期Google会为多个智能手机平台提供免费的Siri替代应用,绑定Google的搜索和广告。
虚拟助手是寻找目标用户的控制点。作为用户数据分析的收敛点,虚拟助手建立新的控制点。基于深入了解用户大量搜索关键词,VAs是第三方希望从用户关注来发现目标用户的关键点。
商务模式转为服务发布交易。目前, 虚拟助手商务模式集中在用户数据采集,应用发布主要是免费下载。最top的43个VA应用尽管有超过1.33亿累计下载量,只有不到2百万美金收入。超过94%的下载来自Android,有接近86%的付费收入来自iiOS。未来,我们将看到从收入来自搜索、广告,以及不断增加的第三方交易和定制化头像,而不禁仅是下载应用。
虚拟助手成为手机制造商差异化的竞争点。将VAs集成到系统UI,而不仅仅是一个应用,使OEM更好地控制用户体验和服务发现。Apple最早将Siri集成在iOS5的UI中,其他手机制造商紧随其后,三星最新的智能手机已集成语音UI:Samsung Voice。根据我们的资料,Nokia将在2012年底提供一个Siri相类的UI,新的UI将利用Nokia的Navteq能力。
语音UI是跨屏的主要访问点。声控UI正成为支持触摸、手势、文字输入多种模式UI的关键组件。更重要的是,语音UI可成为通用的,跨屏的、与屏幕无关的UI,开始在平板,电视和台式机中使用。除了Apple和三星,Nuance也在多屏部署语音识别领域处于领先地位。(月光博客:中文Siri的技术是由Nuance Communications公司提供,该公司在App Store的应用Dragon Dictation也支持中文语音识别,不过相比讯飞语音来说,Dragon Dictation在中文领域还有一些差距。)
电信运营商的加入。NTT DoCoMo在1998年联合iConcier首次提出VA的概念,AT & T在部署VA应用是电信运营商的领军者。我们期待2014年看到更多的一流运营商部署基于富通信套件(Rich Communication Suite, RCS)标准的VAs。VA除作为服务发现网关外,优化VA网络访问将为运营商带来增值服务的差异化。
云端个性化VA将有利于Google和Amazon。下一代VAs的大量数据处理,将使虚拟助手从设备转向云端。当个性化VA存放在云端,虚拟助手将无缝实现在智能手机,TV,车载和智能家居中。作为建立云存储和云处理的公司,Google和Amazon将从中获取最大好处。
Google在免费语音识别API中保持强大。目前大多数VA应用选择的Android平台,Google在免费语音识别API中维持强大。更多语音识别厂商期待转向免费API,将现有VA语音识别(SR)引擎许可转为免费。
专利战争将渗入VA领域。SRI国际持有众多专利,Nuance持有2千个语音识别专利,AT&T在AI方面持有600个专利。当虚拟助手成为手机制造商竞争资本时,我们预计专利战争将从移动手机渗入VA领域。
强大B2B厂商Nuance在消费者VA市场中升起。Nuance的语音识别技术被Apple、Google使用,以及应用于消费者大量V接下载的VA应用,包括2个常被消费者下载的VA应用。Nuance直接面向消费者的应用帮助Nuance改进技术,但同时使公司和他自己的B2B客户竞争。
寻找目标用户市场的新机会。基于上下文用户分析通过关联消息、提供和推荐,为品牌带来更多用户,在基于上下文营销和广告开启了新机会。移动广告目前在数字广告中增长,已经证明当广告相关性增加时,移动用户兴趣也在增加。
一、虚拟助手:20年的4代技术发展
虚拟助手是搜索、拨号和短信等使用自然语言的上下文敏感的对话应用和接口。在过去10年,大公司部署的基于web的VA用于实现传统用户服务代理。Apple在2011年引入Siri,使虚拟助手越过沟壑进入大众市场。在Siri之前,VA已经有很长的旅途,在过去20年,发展了3代技术,目前正进入第4代。
虚拟助手最初是在90年代中期由Apple公司Paradigm项目分拆出来的,并由Marc Porat领导的General Magaic提出。General Magic的Portico是个基于网络的虚拟办公助手,用于美国桌面电脑和PAD的商务用户。Portico使用基于关键词的语音命令和语音合成,可进行语音邮件和电子邮件管理任务。尽管Portico通过索尼、AT&T、摩托罗拉零售,但最终证明它在商业上是失败的。
1998年,NTT DoCoMo在日本消费者市场引入iConcier。这是第二代的VA,安装在i-mode-enabled的手机上,人工智能功能包括对短语理解简单命令,通过虚拟头像回答实现对话。NTT与超过250家第三方签订内容交易协议,给付费用户提供从浏览巴士时间表到优惠券交易的服务。最初只在NTT自己的媒体平台i-mode中使用,今年,iConcier可提供给第三方Android开发者。
Siri在2011年4月进入市场,在此大约1年前,Nokia已部署了微软Tellme技术的语音搜索,Google也在此8个月之前为Android提供语音搜索。与Portico和最初的iConcier中相比,Siri和这些第三代VA有几个不同的因素。首先,自然语言处理(NLP)使VA和用户之间的互动更真切,幽默元素使VA感觉更像个体真人。其次,现在第三代VA平台实现的任务已经超越传统通信,例如拨号和短信,可以访问第三方内容,最常见的是web搜索结果,还有用户个人内容,如Facebook和Twitter状态更新。广泛使用智能手机和移动数据连接的改善推动这次演进。
正在研究第四代虚拟助手技术,更接近真人,不仅理解语言,还懂得用户意图,并最终预测用户需求。第四代VA个性化将驻留云端,因为有大量数据需要处理,这令云处理公司,如Google和Amazon,占据上风。第四代VA将从SRI,AT&T实验室和Nuance的NLP,语音识别,个性化和搜索中受益。
“Google和一些研究实验室有能力建立下一代VA技术。SRI理所当然很乐意和Google合作”Norman Winarsky说。他是SRI国际公司的副总裁,斯坦福大学的访问学者,Siri背后的大脑之一。
SRI国际公司将在2012年秋季演示前后对话。AT & T实验室计划6月份允许第三方开发者获取其人工智能平台Watson的API。我们了解到Apple正将Siri深度集成到核心iOS应用,并从iPhone扩展到其他屏。i-Free正投资3D可视特性,Dexetra正研究用户个人历史搜索。根据我们的资料,Nokia利用它的Navteq能力,将在2012年底提供Siri类似的UI。
虚拟助手的4代:
1995-1999 | 2000-2010 | 2011 | 2012-2015 | |
VA类型 | 虚拟电话助手 被动,嵌入程序 | 虚拟看门人 被动,以任务为核心,嵌入设备 | 虚拟搜索助手 被动,以人为核心,嵌入设备 | 新UI:您的生活伙伴 主动,以生活为中心,嵌入设备 |
架构 | 基于移动网络 | 基于设备,基于移动网络 | 基于设备,基于云 | 绝大部分基于云 |
技术 | 语音合成技术 关键词 | 语音识别技术 关键词和短语 | 语音识别 短语 | 自然语言理解 前后对话 |
接口 | 简单语音命令 | 文字到语音 | 文字到语音,语音到文字 | 多种模式:说话、文字、手势、触摸 |
语言 | 美国英语 | 美国英语 本地化开发VA的本地语言 | 美国/英国英语 部分本地语言 | All |
执行任务 | 短信,拨号,读电邮,跟踪任务,安排约会 | 提供第三方信息(天气、优惠券等),提示设置 | 网络搜索,导航,使用用户数据设置提示,打开其他应用和本地数据 | 提供上下文和用户关联的第三方信息,推荐等 |
屏幕 | 台式机,PAD | 功能手机 | 智能手机和平板 | 智能手机、平板、计算机、TV、车载 |
人工智能 | 无 关键词理解 | 简单命令响应 短语理解 | 有限的对话 幽默,一些意图理解 | 意图预测 |
开发APIs | 无 | 无~有一些 | 有一些 | 各种类型第三方APIs |
个性化 | 无 | 虚拟头像(虚拟人物) | 用户特定内容,虚拟头像,语音 | 用户和上下文特定内容和服务,虚拟头像,语音 |
听众 | 美国市场 商务用户 | 美国市场,亚洲 商户用户,B2B,消费者 | 美国市场,亚洲,欧洲 B2B,消费者 | 全球 B2B,B2C,B2B2C |
商务模式 | 付费,基于使用 | 付费,基于订购 | 年费和付费应用,广告/搜索收入分成,版权许可,垂直应用 | 第三方内容和服务收入分成,版权许可,垂直应用 |
谁推出 | 电信运营商 | 电信运营商 | 手机制造商,开发者,最终用户 | 手机和设备制造商,SR和AI厂商,B2B2C,云公司,开发者 |
典型代表 | Portico's Mary(1996) Wildfire(1995) | NTT的iConcier(2008) 韩国电信的Nate | Siri Dragon Search Voic Actions Vlingo Everfriends Iris Speaktoit | SRI's next generation VPA Google Glass |