语音输入是我们和混合现实设备交互的重要方式之一,优势是输入速度快,学习时间更短。混合现实设备的语音交互可以做到:
(1)通过连接混合现实设备的麦克风,捕捉用户语音指令;
(2)将捕捉到的语音指令发送到LUIS;
(3)LUIS对混合现实设备捕捉到的语音指令,进行信息提取分析,并判断意图做出回应;
自然语言理解
自然语言理解(Nature Language Understanding, 简称NLU),同自然语言处理(Nature Language Processing, 简称NLP)和自然语言生成(Nature Language Generation, 简称NLG)是相关联的三个概念。
自然语言理解指人工智能的一个复杂挑战:如何处理将结构凌乱的输入语句转化为条理清晰的机器可理解的语言。因为人类语言的复杂多变,且无统一的规则,如发音歧义、单词顺序颠倒、缩写表达、口语化用词等等,机器很难处理不可预知的输入。
微软语言理解服务LUIS (Language Understanding IntelligentService)属于Azure服务之一,它可以使应用程序理解用户以自己的语言表达的内容。 LUIS基于机器学习,使开发人员可以构建应用程序,以便接收采用自然语言的用户输入并从中提取含义。
简单的说自然语言理解的原理就是用一系列规则或数据模型将语句分解为结构有序的实体,有意义的实体一定要提取出来再加以定义,并赋予语义上的意义,用以后续的实体鉴别。譬如语句:“我需要从十月4号到10号去迈阿密的航班和宾馆”需要被重新分析定义成:“需求:航班(意图)/需求:宾馆(意图)/迈阿密(城市)/十月4号(日期)/十月10号(日期)/情绪:0.5723(中性)”。LUIS正是提供了这样一个可以理解用户输入语句的应用平台,用机器语言理解使用者的意图。混合现实设备基于机器学习可以实现:理解并学习输入语言,同时能回复具体的相关信息。
当LUIS与混合现实结合时,使用者可直接对混合现实设备的麦克风讲话操控混合现实图像。混合现实设备捕捉到用户声音,发送到Azure LUIS中,LUIS会提取核心信息并进行分析,试图来确认用户请求的意图。提取出如图1所示,使用者将语音(Voice)或视线(Gaze)操控混合现实改变场景内物体的大小和颜色。
语言理解LUIS与混合现实结合
LUIS的设置和部署,与MR应用的基本操作相似。重点是设置语言理解端口,在这一过程,使用者将定义实体和意图,图2为实体,图3为意图,意图是用一句话的方式制定的,再去标定这句话对应的实体。最后选择训练功能。
通过对计算机进行特定语境词汇训练,可以让混合现实设备能够根据使用者习惯或者场景分析判断所要做出的操作,从而让语音交互变得更加智能。
当我们通过调用Azure 语言理解(LUIS)服务和混合现实技术结合时,混合现实设备能够借助LUIS把麦克风收到的语音指令转化为计算机理解的语言从而进行语言操控,提供了项目更为丰富多样的交互方式,让混合现实项目也能更加贴近场景需求,佩戴者可完全通过声音来操控设备,释放双手的同时,大幅提高工作效率。例如可以通过机器学习将使用场景的常用语句和使用者说话习惯对LUIS进行训练,这样,用户在通过调用LUIS的服务在混合现实设备的交互过程也会变得更为方便。
目前LUIS主要为大规模商用解决方案提供服务,相信与混合现实设备的结合,可以为行业用户提供更为多元的应用。