一次唤醒连续对话 谈智能家电中的语音新技术

一次唤醒连续对话 谈智能家电中的语音新技术

语音交互技术是人工智能领域的一大重点,近年来已经应用到手机、智能家电、智能硬件等贴近消费电子领域。不过在实际应用中,语音操控的体验并不是非常好,仍然有不少痛点,继续在改善中。

一、旧语音交互的不好体验

有一个痛点,以前的AI语音是用户每说一句话都要喊一声它的名字,如果在下一个命令前没有再次叫它,它就不会反应。这样一来,问几句话就要叫几声,真是很累人。比如说:

用户:“小X,搜索电影一二三四。”

AI:“为您搜索到如下结果。”

用户:“选择第二个。”

AI:(没有反应)

用户:“小X,选择第二个。”

AI:好的。

像这种用户体验在半年前的智能家电中比比皆是。

二、新技术改善:连续语音

还好,随着人工智能语音技术的进步,近半年来推出的一些智能新产品已经增加了一种语音新技术:连续语音,或者叫语音连续识别,总之,这一新技术能够做到“一次唤醒,连续识别,多轮对话”,能够解决上面所说的这种惨痛用户体验。

以小米家的小爱同学为例,就可以做到一次唤醒,用户可以连续发送语音指令,并且能随时打断它,重新发出新的指令。米家的一些新产品就已经增加了这一功能。百度的AI也有这种一次唤醒多轮对话的语音功能,并且也实际应用到了其AI音箱中,以及其它跟其合作的智能家电产品中。

创维的智能电视、智能空调等新产品都具有智能语音功能,他们的AI语音是内置了百度的。这些智能家电支持用遥控器发出语音,还支持远场语音,用户可以直接对着电视、空调喊话发指令来操作。近期推出的一些新品也是增加了连续识别功能,在用“小维小维”唤醒AI后,AI会待命一段时间,这段时间里用户可以一直与AI对话,不用每交待一个指令之前都要叫一声小维唤醒它;如果一会没有用户指令了,AI才会重新沉睡。实际的体验相当流畅,可以说完全改善了上文所叙述的痛点。

三、多轮对话

旧的AI语音大多只能进行单轮对话,无法支持多轮对话,也就是说,AI在你的上一句指令和下一句指令之间建立逻辑联系。

单轮对话是指对话内容不包含情景,没有关联上下文内容。这种对话模式导致语音交互更偏向于简短的操作任务,过于复杂的操作任务,则需要分解成简短的口令。而新的多轮对话则可以支持在前后几个命令间建立逻辑关联。

比如说:

用户:“小X,搜索科幻电影。”

AI:“为您搜索到科幻电影。”

用户:“搜索美国的。”

AI:“为您搜索到美国电影。”

其中第二个指令给出的结果并不是科幻电影中的美国电影,而是又重新进行了一次美国电影的搜索。这一结果当然不够智能。

当然,这说的是一年以前的旧产品,大约2019年以来的新产品都会支持多轮对话了。

四、后面还有哪些技术可期待

除了这些以后,目前还有一些语音技术未成熟,但如果成熟应用的话会给用户带来很多便利。比如说,声纹识别,AI可以识别各个不同人不同用户的声音特点,建立用户档案,进行个性化推荐,目前这一技术未大规模应用。