首页 > 其他分享 >VisionMobile:虚拟助手(VA)- Siri背后的前沿UI技术(一)

VisionMobile:虚拟助手(VA)- Siri背后的前沿UI技术(一)

时间:2023-04-09 11:31:46浏览次数:51  
标签:VA VisionMobile Siri 用户 助手 虚拟 语音


VisionMobile发布报告《Beyond Siri: The next frontier in User Interface》,分析虚拟助手技术的市场,包括关键技术和商务模式,竞争点,和跨4屏虚拟助手的演化。

自苹果在2011年推出Siri技术后,声控的移动虚拟助手(Virtual assistants VAs)应用跨过技术裂缝进入大众市场,帮助用户通过语音命令进行搜索、拨打电话和发送短信。去年,Siri触发一波模仿和创新,开发了数十个同类的智能手机应用。目前,Android和iOS下载量最大的是:Vlingo Virtual Assistant, Iris, Voice Actions, Skyvi, Everfriends和Dragon Go。在这份报道中,除Siri外,还分析语音分析专家Nuance公司的Dragon Go,可视化驱动i- Free创新的Everfriends, 人工智能创业公司Dexetra的iris和AT&T实验室的Speak4bit。

从命令(command)向对话(dialogue)转移。 VA技术从人工智能(AI)中获得发展,特别是自然语音处理(Natural Language Processing,NLP)、用户分析和搜索,VA从语音识别发展到用户意图预测。虚拟助手应用的关注点也从目前的命令和控制(我问你答)转向持续推荐和用户操作对话。老牌厂商,如SRI国际,苹果,Google和Nuance,以及新的挑战者,如Dexetra和i-Free创新公司,都正从命令转向对话。SRI国际将在2012年秋季展示back-and-forth对话技术。

虚拟助手正在干扰搜索。给出答案而非搜索结果是虚拟助手主张的核心价值。对于传统搜索引擎,这意味着页面点击的减少,会降低搜索广告的利润。 根据visionMobile的数据,自安装Siri后,iPhone上的Google搜索流量出现下降。我们预期Google会为多个智能手机平台提供免费的Siri替代应用,绑定Google的搜索和广告。

虚拟助手是寻找目标用户的控制点。作为用户数据分析的收敛点,虚拟助手建立新的控制点。基于深入了解用户大量搜索关键词,VAs是第三方希望从用户关注来发现目标用户的关键点。

商务模式转为服务发布交易。目前, 虚拟助手商务模式集中在用户数据采集,应用发布主要是免费下载。最top的43个VA应用尽管有超过1.33亿累计下载量,只有不到2百万美金收入。超过94%的下载来自Android,有接近86%的付费收入来自iiOS。未来,我们将看到从收入来自搜索、广告,以及不断增加的第三方交易和定制化头像,而不禁仅是下载应用。

虚拟助手成为手机制造商差异化的竞争点。将VAs集成到系统UI,而不仅仅是一个应用,使OEM更好地控制用户体验和服务发现。Apple最早将Siri集成在iOS5的UI中,其他手机制造商紧随其后,三星最新的智能手机已集成语音UI:Samsung Voice。根据我们的资料,Nokia将在2012年底提供一个Siri相类的UI,新的UI将利用Nokia的Navteq能力。

语音UI是跨屏的主要访问点。声控UI正成为支持触摸、手势、文字输入多种模式UI的关键组件。更重要的是,语音UI可成为通用的,跨屏的、与屏幕无关的UI,开始在平板,电视和台式机中使用。除了Apple和三星,Nuance也在多屏部署语音识别领域处于领先地位。(月光博客:中文Siri的技术是由Nuance Communications公司提供,该公司在App Store的应用Dragon Dictation也支持中文语音识别,不过相比讯飞语音来说,Dragon Dictation在中文领域还有一些差距。)

电信运营商的加入。NTT DoCoMo在1998年联合iConcier首次提出VA的概念,AT & T在部署VA应用是电信运营商的领军者。我们期待2014年看到更多的一流运营商部署基于富通信套件(Rich Communication Suite, RCS)标准的VAs。VA除作为服务发现网关外,优化VA网络访问将为运营商带来增值服务的差异化。

云端个性化VA将有利于Google和Amazon。下一代VAs的大量数据处理,将使虚拟助手从设备转向云端。当个性化VA存放在云端,虚拟助手将无缝实现在智能手机,TV,车载和智能家居中。作为建立云存储和云处理的公司,Google和Amazon将从中获取最大好处。

Google在免费语音识别API中保持强大。目前大多数VA应用选择的Android平台,Google在免费语音识别API中维持强大。更多语音识别厂商期待转向免费API,将现有VA语音识别(SR)引擎许可转为免费。

专利战争将渗入VA领域。SRI国际持有众多专利,Nuance持有2千个语音识别专利,AT&T在AI方面持有600个专利。当虚拟助手成为手机制造商竞争资本时,我们预计专利战争将从移动手机渗入VA领域。

强大B2B厂商Nuance在消费者VA市场中升起。Nuance的语音识别技术被Apple、Google使用,以及应用于消费者大量V接下载的VA应用,包括2个常被消费者下载的VA应用。Nuance直接面向消费者的应用帮助Nuance改进技术,但同时使公司和他自己的B2B客户竞争。

寻找目标用户市场的新机会。基于上下文用户分析通过关联消息、提供和推荐,为品牌带来更多用户,在基于上下文营销和广告开启了新机会。移动广告目前在数字广告中增长,已经证明当广告相关性增加时,移动用户兴趣也在增加。

一、虚拟助手:20年的4代技术发展

虚拟助手是搜索、拨号和短信等使用自然语言的上下文敏感的对话应用和接口。在过去10年,大公司部署的基于web的VA用于实现传统用户服务代理。Apple在2011年引入Siri,使虚拟助手越过沟壑进入大众市场。在Siri之前,VA已经有很长的旅途,在过去20年,发展了3代技术,目前正进入第4代。

虚拟助手最初是在90年代中期由Apple公司Paradigm项目分拆出来的,并由Marc Porat领导的General Magaic提出。General Magic的Portico是个基于网络的虚拟办公助手,用于美国桌面电脑和PAD的商务用户。Portico使用基于关键词的语音命令和语音合成,可进行语音邮件和电子邮件管理任务。尽管Portico通过索尼、AT&T、摩托罗拉零售,但最终证明它在商业上是失败的。

1998年,NTT DoCoMo在日本消费者市场引入iConcier。这是第二代的VA,安装在i-mode-enabled的手机上,人工智能功能包括对短语理解简单命令,通过虚拟头像回答实现对话。NTT与超过250家第三方签订内容交易协议,给付费用户提供从浏览巴士时间表到优惠券交易的服务。最初只在NTT自己的媒体平台i-mode中使用,今年,iConcier可提供给第三方Android开发者。

Siri在2011年4月进入市场,在此大约1年前,Nokia已部署了微软Tellme技术的语音搜索,Google也在此8个月之前为Android提供语音搜索。与Portico和最初的iConcier中相比,Siri和这些第三代VA有几个不同的因素。首先,自然语言处理(NLP)使VA和用户之间的互动更真切,幽默元素使VA感觉更像个体真人。其次,现在第三代VA平台实现的任务已经超越传统通信,例如拨号和短信,可以访问第三方内容,最常见的是web搜索结果,还有用户个人内容,如Facebook和Twitter状态更新。广泛使用智能手机和移动数据连接的改善推动这次演进。

正在研究第四代虚拟助手技术,更接近真人,不仅理解语言,还懂得用户意图,并最终预测用户需求。第四代VA个性化将驻留云端,因为有大量数据需要处理,这令云处理公司,如Google和Amazon,占据上风。第四代VA将从SRI,AT&T实验室和Nuance的NLP,语音识别,个性化和搜索中受益。

“Google和一些研究实验室有能力建立下一代VA技术。SRI理所当然很乐意和Google合作”Norman Winarsky说。他是SRI国际公司的副总裁,斯坦福大学的访问学者,Siri背后的大脑之一。

SRI国际公司将在2012年秋季演示前后对话。AT & T实验室计划6月份允许第三方开发者获取其人工智能平台Watson的API。我们了解到Apple正将Siri深度集成到核心iOS应用,并从iPhone扩展到其他屏。i-Free正投资3D可视特性,Dexetra正研究用户个人历史搜索。根据我们的资料,Nokia利用它的Navteq能力,将在2012年底提供Siri类似的UI。

虚拟助手的4代:


1995-1999

2000-2010

2011

2012-2015

VA类型

虚拟电话助手

被动,嵌入程序

虚拟看门人

被动,以任务为核心,嵌入设备

虚拟搜索助手

被动,以人为核心,嵌入设备

新UI:您的生活伙伴

主动,以生活为中心,嵌入设备

架构

基于移动网络

基于设备,基于移动网络

基于设备,基于云

绝大部分基于云

技术

语音合成技术

关键词

语音识别技术

关键词和短语

语音识别

短语

自然语言理解

前后对话

接口

简单语音命令

文字到语音

文字到语音,语音到文字

多种模式:说话、文字、手势、触摸

语言

美国英语

美国英语

本地化开发VA的本地语言

美国/英国英语

部分本地语言

All

执行任务

短信,拨号,读电邮,跟踪任务,安排约会

提供第三方信息(天气、优惠券等),提示设置

网络搜索,导航,使用用户数据设置提示,打开其他应用和本地数据

提供上下文和用户关联的第三方信息,推荐等

屏幕

台式机,PAD

功能手机

智能手机和平板

智能手机、平板、计算机、TV、车载

人工智能


关键词理解

简单命令响应

短语理解

有限的对话

幽默,一些意图理解

意图预测

开发APIs


无~有一些

有一些

各种类型第三方APIs

个性化


虚拟头像(虚拟人物)

用户特定内容,虚拟头像,语音

用户和上下文特定内容和服务,虚拟头像,语音

听众

美国市场

商务用户

美国市场,亚洲

商户用户,B2B,消费者

美国市场,亚洲,欧洲

B2B,消费者

全球

B2B,B2C,B2B2C

商务模式

付费,基于使用

付费,基于订购

年费和付费应用,广告/搜索收入分成,版权许可,垂直应用

第三方内容和服务收入分成,版权许可,垂直应用

谁推出

电信运营商

电信运营商

手机制造商,开发者,最终用户

手机和设备制造商,SR和AI厂商,B2B2C,云公司,开发者

典型代表

Portico's Mary(1996)

Wildfire(1995)

NTT的iConcier(2008)

韩国电信的Nate

Siri

Dragon Search

Voic Actions

Vlingo

Everfriends

Iris

Speaktoit

SRI's next generation

VPA

Google Glass


标签:VA,VisionMobile,Siri,用户,助手,虚拟,语音
From: https://blog.51cto.com/u_9877302/6178716

相关文章

  • Java标准类
    Java标准类标准类的定义类的代码publicclassPerson{/*标准类:1.所有成员变量都用private修饰2.每个成员变量都有一个getter,setter方法3.一个无参构造方法4.一个全参构造方法这样的标准类也叫JavaBean*/privateStringn......
  • java中操作redis
             ......
  • Java SpringBoot Bean InitializingBean
    Spring中有两种类型的Bean,一种是普通Bean,另一种是工厂Bean,即FactoryBean。工厂Bean跟普通Bean不同,其返回的对象不是指定类的一个实例,其返回的是该工厂Bean的getObject方法所返回的对象。Spring初始化bean有两种方式:实现InitializingBean接口,实现afterPropertiesSet方法。(比通过反射......
  • Java SpringBoot Test 单元测试中包括多线程时,没跑完就结束了
    如何阻止JavaSpringBootTest单元测试中包括多线程时,没跑完就结束了使用CountDownLatchCountDownLatch、CyclicBarrier使用区别多线程ThreadPoolTaskExecutor应用JavaBasePooledObjectFactory对象池化技术@SpringBootTestpublicclassPoolTest{@Testvoid......
  • java面向对象编程-三大特性
    面向对象三大特性封装该露的露,该藏的藏我们程序设计要追求“高内聚,低耦合”。高内聚就是类的内部数据操作细节自己完成,不允许外部干涉;低耦合:仅暴露少量的方法给外部使用。封装(数据的隐藏)通常,应禁止直接访问一个对象中数据的实际表示,而应通过数据接口来访问,这称为信......
  • 【Java 并发】【十】【JUC数据结构】【一】CopyOnWriteArrayList原理
    1 前言我们前面看过了volatile、synchronized以及AQS的底层原理,以及基于AQS之上构建的各种并发工具,ReentrantLock、CountDownLatch、Semaphore、CyclicBarrier,那么我们这节该看什么了,是不是要看运用了。在日常的业务编程中经常使用到的内存数据结构有:Map、Set、List、Queue系列......
  • 基于FPGA的AES加密解密vivado仿真,verilog开发,包含testbench
    1.算法描述         AES,高级加密标准,是采用区块加密的一种标准,又称Rijndael加密法.严格上来讲,AES和Rijndael又不是完全一样,AES的区块长度固定为128比特,秘钥长度可以是128,192或者256.Rijndael加密法可以支持更大范围的区块和密钥长度,Rijndael使用的密......
  • JavaWeb-jsp-19课-JSP语法-2023-04-08
    <%@pagecontentType="text/html;charset=UTF-8"language="java"%><html><head><title>$Title$</title></head><body><%--注释JSP带百分号--%><%=newjava.util.Date()%>&l......
  • Java: Course1
    面向对象和面向过程的区别:面向过程:(如C语言)根据需要分析步骤,将这些函数根据步骤叠加起来,一个套着一个,一直到需求全部实现,如果需求在代码实现之后变更,几乎需要全部重新进行程序设计,代码的维护性比较差.类似炒饭,将所有的原料全部混合,不容易单独的删除其中某个部分.面向对......
  • Java: Course2
    一.static的使用:1.修饰变量:(静态变量)可以在对象之间共享值2.修饰函数(静态函数)被static修饰过的函数只能调用被static修饰过的变量或方法,不能以任何方式引用this或super。被static修饰的变量或函数也可以添加权限修饰符(private,public..)。此外,static方法必须被实现,不......