目前智能汽車可以分為自動駕駛和智能座艙兩大塊,而智能座艙里的一個比較核心的能力就是只能語音助手,通過智能語音助手幫助用戶去操控整個智能座艙,為用戶提供服務。本文作者對智能座艙里的智能語音助手進行了分析,一起來看一下吧。
智能汽車可以分為兩大塊:自動駕駛和智能座艙。
自動駕駛主要研究的是怎麼從A點移動到B的點;而智能座艙主要研究的是,在移動的過程中,怎麼給車艙內的用戶創造更好的生活體驗。
現在大家提成出了一個新的概念:智能座艙是第三生活空間。即繼家庭、工作以外的另一個生活空間。
目前在智能座艙里比較核心的一個能力就是智能語音助手,通過智能語音助手幫助用戶去操控整個智能座艙,為用戶提供服務。
本文主要討論的是智能座艙里的智能語音助手。
一、車載智能語音助手目前都能做些什麼?
總的來說,車載語音助手可以給車機系統的應用程序發送指令和給車機部件發送指令。可見即可說,即在中控屏上看到的功能,都可以用語音的方式發送指令控制。
主要分為兩大塊:
1. 操控娛樂信息
操控娛樂信息是指控制中控屏里的娛樂信息應用程序(非汽車部件),如播放音樂、查天氣、查股票、播放電影、播放電台等。
2.操控車機
操控車機是指操控汽車零部件,如操控空調、車窗、座椅、氛圍燈等;但通常不會控制汽車行駛移動相關的功能,如不控制汽車行駛的速度、轉向等。
小結
通常座艙內會有多個麥克風,能夠識別到用戶在哪個位置說話。比如坐在副駕駛的用戶說「打開車窗」,會打開副駕駛的車窗,不需要用戶說明要打開哪個車窗。
目前主要是通過語音呼叫方式來喚醒語音助手,類似於智能音箱的喚醒方式。
未來應該會朝著多種喚醒方式的方向發展,如通過視覺的方式,看到用戶在調座椅,助手可以主動說「可以通過說話方式來調整座椅哦」。主動地給用戶提供服務,目前更多是被動的方式。
有些廠商目前一次喚醒只能發送一條指令,未來應該會朝著持續監控用戶意圖的方式發展。
目前理解用戶意圖基本只會通過語音的方式,未來肯定是朝著多模態的方向發展,如通過語音+視覺+各種感測器等多緯度的信息理解用戶的意圖。
二、各車型智能語音助手功能總結
筆者通過線下體驗店體驗了6款車型的智能語音助手,記錄了體驗的感受。當然會有誤差或不準確,僅供大家參考。誤差的影響因素可能來自:環境網路差、用戶操作不當、環境噪音等。
1. 比亞迪-漢
關鍵字:中規中矩、無明顯短板也無明顯亮點
基礎的控制汽車部件、控制媒體信息的能力都有;媒體信息的豐富度也很多、響應速度和準確率也不錯。
缺點:
- 不支持一次喚醒多次對話。
- 大多數場景不支持多輪交互(如先播放周杰倫的音樂,再說:再播放他的電影,不支持)。
- 閑聊能力幾乎沒有,如說:「你好笨啊」、「我生氣了」,助手接不了話。
2. 零跑-C01
關鍵字:基礎能力都有,但不穩定
- 基礎的控制汽車部件、控制媒體信息的能力都有;媒體信息的豐富度也很多、響應速度和準確率也很高。
- 支持一次喚醒,在一定時間內可進行多次交互。
缺點:
- 說打開車窗、換個氛圍燈等對汽車零部件的控制指令,不穩定,有時不執行。
- 大多數場景不支持多輪交互(如先播放周杰倫的音樂,再說:再播放他的電影,不支持)。
- 閑聊的內容幾乎沒有,如說:「你好笨啊」、「我生氣了」,助手接不了話。
3. 問界-M5
關鍵詞:鴻蒙系統、多輪交互
- 車機用的是鴻蒙系統,手機跟車機系統互聯互通(不是投屏)、響應超快。
- 支持一次喚醒,在一定時間內可進行多次交。
- 支持多意圖,如能識別並執行「打開車窗和打開」。
- 有多輪交互的能力,如先說:「把主駕駛座椅調成按摩」,再說「座椅調前一點」,能理解到說的是前排座再調前一點。
- 支持根據人臉ID,記憶用戶偏好,如座椅位置。
缺點:
- 一系列都需要用的是華為的產品、限制比較多、應用軟體必須要在鴻蒙系。
- 閑聊的能力幾乎沒有,如說:「你好笨啊」、「我生氣了」,助手接不了。
4. 理想-L9
關鍵詞:有驚喜、語音+視覺理解
1)語音助手支持語音+視覺方式結合去理解用戶的意圖。
比如,「打開這個」,邊說,邊用手指指著要操作的物體,就能識別。
暫且不說有多方便,起碼算是語音和視覺一起識別用戶意圖的一個開始,後續有很多想象的空。
2)支持一次喚醒,在一定時間內可進行多次交。(沒有找到明顯的缺點)
5. 極氪-001
關鍵詞:中規中矩、支持閑聊
1)有一定的閑聊能力。
2)支持一次喚醒,維持一段時間的交互。
缺點:
- 一些使用頻次低的功能,意圖的識別準確度還是比較低。
- 不支持多輪交互,如「座椅調前一點」;再說「再調前點」,就每辦法識別了。
6. 特斯拉-Model3
關鍵詞:語音助手跟國內新勢力相比,不是同一個級別
缺點:
- 需要按住按鈕才能說話
- 意圖缺乏泛化能力,基本要完全命中文案才會執行
- 很多命中了也沒辦法執行指令
總的來說【簡約】,能減的功能都給你減了。
使用體驗評分
根據個人的體驗,做了下評分,供大家參考。
三、總結智能車載語音助手待優化問題
1.喚醒問題
很多廠家的語音助手還是只能支持一次喚醒,一次對話的形式。若用戶需要連續跟助手對話時,交互的效率和體驗會大打折扣的。
一次喚醒,一段時間內支持監測用戶多次說話,可能會引發誤理解的問題。用戶在跟其他人說話或者在唱歌,可能會給語音助手誤以為是在給它髮指令,引發誤操作。
2.低頻使用的功能待完善
雖然很多廠家都標榜自己可見即可說,但實際上很多低頻操控的功能還不是很完善。比如說:調整座椅等,意圖的識別準確率偏低,意圖識別的顆粒度不夠細。
3.多模態識別問題
目前理解用戶意圖的方式還是比較單一,大多數只能通過語音理解。
但在環境音比較嘈雜的情況下,理解的準確率度會偏低,如打開車窗后噪音比較大、車內多乘客同時說話、媒體音量比較大時,都會影響助手對用戶意圖的理解。
在這樣的環境下,如果讓語音+唇語+手勢等其他緯度結合去理解用戶的意圖,可以提升對用戶意圖理解的準確率,這也是未來大家爭相要突破的方向。
4.多輪交互問題
大多廠商的語音助手在多輪交互上的能力還是比較欠缺的,甚至沒有。
比如,先說「放一首周杰倫的歌」,然後再說「放他的電影吧」,這時就識別不了是要放周杰倫的電影了。
需要實現多輪的對話能力,還需要涉及怎麼維持對話的狀態、記錄對話的槽位信息等等。
用戶實際的對話場景是非常複雜的,如果讓語音助手看起來跟智能,有更加自然的對話效果,還是有很長的路要走的。
5.閑聊、情感陪伴問題
大多數廠商在閑聊(非執行任務或指令)的場景下,能力還是很弱的,甚至是沒有的。
比如說:「今天天氣真好」、「今天好開心啊」、「又下雨了怎麼辦呢」等等,智能助理基本是無法接話的。
處理執行任務和指令是基礎能力,但閑聊和情感陪伴是個性化和擬人化的必經之路。
比如,智能助理能夠記住跟用戶歷史的聊天記錄。若用戶之前跟助手提過自己的生日,或者提過女朋友的生日,下次聊天問「你還記得我生日嗎」,助手能回答。
甚至在記住我生日後,在生日那天主動跟我說生日快樂。這樣整個助手就會更加的有人的溫度。