二、虚拟辅手技术的演进
今日技术和明天发展
虚拟辅手技术建基5大技术模块:语音识别(SR),自然语言处理(NLP),用户分析,搜索和推荐,以及头像可视化。这些技术模块处于持续演化的状态,为大厂商和创业公司留下开放的创新空间。
语音识别
语音识别(SR),也称为自动语音识别(ASR)和语音到文字(STT),由机器将话音翻译为文本。文本到语音(TTS)则是将文本转换为话语。如果没有语音识别,人和虚拟助手之间对话就无法实现。声控虚拟助手使用语音识别来进行诸如网络搜索,语音拨号,听写文本消息(如短信,电邮,甚至整个文档)。
语音识别领域的核心成员是Nuance,Google,iSpeech和微软。
展望。以美国英语作为母语的虚拟助手有大量需求,对其他语种的需求亦在不断增加,厂商感受到其他本地语种不断增长的需求,研发本地语种的产品。最大的挑战是语言开发成本,每种新语言的语言识别基本上都是从零开始。语言的相互依赖性——事实上,大部分语言并非自成系统——这增加困难。目前,美国英语是虚拟助手首选语言,它是最理想的语言识别引擎的测试环境:美国是语言学上的同质化市场,有大量内容和第三方API提供给美国和英语国家访问。
自然语言处理—理解内容
语言识别将话语转化为文本,自然语言处理(NLP)将文本转化为有明确含义,可理解上下文。通过理解用户的上下文——过往历史,习惯,喜好,位置——虚拟助手返回最关联的信息和推荐,并以符合社交的方式处理。
自然语言处理技术领域上核心成员是SRI国际,Nuance,AT & T实验室,Google和Artificial Solutions。
展望。为了使虚拟助理可与用户充分对话,厂商目前正在研究前向后向对话和理解社交互动规则技术。不要忘记这些社交互动规则曾导致微软Office助理Clippit(又称Clippy)的失败。一个过渡解决方案是让用户根据场景设置互动规则,也即由用户告诉虚助手处理级别:开启聊天,对话,推荐,或者不开启这些。VA也需要学习并根据用户历史信息进行反应,这要求处理大量数据进行上下文训练,需要大量服务器能力。云处理是这类“大数据”的自然选择,但在可预见的将来,厂家倾向混合方式,即一些数据保存在设备本地,允许在没有网络连接的情况下使用虚拟助手功能。
“虚拟个人助理的下一个技术飞跃将是维持对话。”Norman D. Winarsky博士, SRI风险投资SRI国际副总裁。
用户分析(User Profiling)
用户分析包括用户信息收集,并据此为用户兴趣、喜好、上下文和意图建模。用户分析是虚拟助手提供个人信息、对话、推荐的基础。
用户分析技术的核心成员是SRI国际,Google,Apple,AT&T实验室,Artificial Solutions,和Tobii (Apple)。
展望。新的用户分析技术将不局限于数字内容跟踪,将从眼球跟踪、键盘跟踪,温度跟踪中收集信息。三星最新的智能手机,Galaxy S III,具有眼球跟踪技术,苹果公司在2009年部分购买眼球跟踪专家Tobii,说在未来集成Tobii技术。
虚拟化头像和个性化
虚拟头像是图像,是人物的动画表现,同样在很多虚拟助手中应用。虚拟人物实现了人物化助手,增加情感意图。头像的可视化游戏化方式,使互动更加有趣和投入。
展望。对于人物化头像,新技术例如3D身体扫描,脸部识别的潜力,与3D图像在设备集成时,将形象可视化提高到新的层次。头像在大量的虚拟助手中使用,但在定制化收入潜力上意见分歧。其中一个选择是作为应用销售,另一个是品牌植入,例如为头像提供某品牌毛衣的购买。