智能客服機器人的衡量指標體系 | 人人都是產品經理

編輯導讀:智能客服機器人已經成為了很多企業售後的標配產品,它能在一定程度上減輕客服人員的壓力。如何衡量一個智能客服機器人是否好用,這就需要制定系統化的指標和優化方案。本文將從數據指標和如何細化兩個方面,對智能客服機器人的衡量指標體系展開分析,與你分享。

智能客服機器人慢慢成為了很多企業售後環節的標配產品,同時市面上智能客服供應商也如雨後春筍般湧現,大家都宣稱自己的機器人多麼智能。但很多時候,上線后要讓機器人發揮作用,不是「多麼智能」幾個字就能達到目標。裡面需要團隊中的產品、運營、演算法等人一起努力。當然,很多團隊由於沒有經驗,這個過程會像丈二的和尚摸不著頭腦,需要進行多次摸索才能知道該如何優化。

所以,今天要討論的,就是如何系統化去衡量機器人的效果,從而幫助團隊針對性高效優化機器人。

說明:本次討論的範圍限於售後服務的文本機器人。

一、數據指標

1. 北極星指標

說到衡量效果,就需要提到數據指標。

每款產品都有很多數據指標,而我們要找的應該是最核心的指標,即業界說的【北極星指標】。這個指標一定是最能體現業務目標的。

比如閑聊機器人是為了陪伴用戶度過每個無聊的日子,北極星指標應該是活躍度和留存率;營銷機器人是為了讓用戶下單,北極星指標應該是營銷轉化率。同樣的客服機器人是為了解決用戶疑惑,不用轉人工從而降低成本,所以北極星指標應該是【獨立接待率】,與其相反的就是【轉人工率】。維護客服機器人,其實就是不斷提高獨立接待率,降低轉人工率。

找到這個核心指標不是完事,畢竟這個指標可能連我不怎麼用網路的舅舅都知道。這只是一個開始,接下來還得知道哪些因素會影響該指標,才能從這些方向針對性地優化機器人。

2. 客服業務流

要想降低轉人工率,也就是機器人能幫客戶解決更多問題,那就要求機器人能像人工客服一樣,甚至做得比人工客服更好,才能讓客戶認可。我們回想下,客服在解答用戶問題時,都做了哪些事?

小七總結了一下,客服的核心業務流分為三部分:

  1. 了解用戶的問題:知道用戶問的是什麼問題,如果用戶表達不清楚,還需要跟用戶確認
  2. 了解問題的解法:知道該問題如何解決,考驗客服對業務的熟悉程度
  3. 解答用戶的問題:利用用戶聽得懂的表達來解答用戶問題,且需要適時安撫

3. 機器人業務目標

了解了客服的核心業務流之後,我們需要讓機器人也能完成這個流程,從而讓客戶願意接受機器人的答案,降低轉人工率。對於機器人來說,要滿足核心業務要求,需要其達到對應的能力。那具體對應是哪些能力,這裡我根據以往的經驗,做了一層映射。

  1. 了解用戶的問題:準確知道用戶問題的意圖,若意圖缺失,還需要與用戶確認
  2. 了解問題的解法:知道大部分業務問題的答案,能夠在識別到用戶意圖之後給出解法
  3. 解答用戶的問題:回復話術需要讓用戶聽得懂,聽得舒服,保持人性化

根據以上內容,我總結了降低機器人轉人工率的三個方向以及對應指標,接下來我們就一個個方向進行細化。

二、細化

1. 識別得多不多

識別得多不多,也就是機器人能不能理解用戶更多意圖,並給出相應回復。這裡就要求機器人知識庫能夠覆蓋更多業務問題,當業務覆蓋率越高,機器人就能識別更多意圖,解答更多業務問題。

業務問題可以通過聚類歷史數據篩選出來,那如何從更細化的指標體現業務覆蓋率呢?

一般來說,知識庫覆蓋的業務問題越多,機器人不知道的問題就越少,也就是無法識別的比例越低;對應能夠識別且回復的問題越多,也就是直接回複比例越高。在這兩者之間,還有一類間接回答的場景,也就是機器人大概知道但又不大確定的問題,就會推薦幾個類似問題讓用戶確認。

總的來說,要衡量機器人識別得多不多,可以通過機器人回復類型來判斷,目標就是:機器人回復的所有消息中,直接回答比例不斷提升,間接回復和無法識別的比例不斷降低。

2. 識別得準不準

我們想觀察機器人識別得準不準,實際上就是在分析機器人自信認為理解了用戶的意圖,而事實上到底對不對。

機器人自信認為對的問題,也就是我們前面說的直接回答場景,也就是機器人直推且正確的消息數與機器人直推的消息數比例,可以歸納為【直推準確率】。當然,判斷機器人直接回復準不準確,需要機器人訓練師做人工質檢,才能得到確切的數據。

另一方面,我們也可以考核機器人給出所有反饋的準確率,包括了直接回答和間接回答。雖然間接回答是機器人不大自信,沒有給出直接答案,從而給出了推薦問題;但如果推薦問題都是錯的,那就沒有任何意義,甚至大大降低了用戶體驗,所以還是需要保證其準確性。

因此我們可以歸納為【綜合準確率】,公式可以總結為:(機器人直推且正確的消息數+機器人間接回答且正確的消息數)/機器人直接+間接回答的總消息數。

當然,或許有人會有疑惑,機器人間接回答到底正不正確很難衡量,甚至人為質檢都存在很大不確定性。確實,這個指標比較模糊,但我們可以從用戶反饋動作來觀察,也就是看機器人間接推薦了問題且用戶採納問題去查詢答案的場景,我們就理解為機器人間接回答是正確的。從這個定義出發的話,我們也不需要進行人工質檢,由系統根據用戶反饋來進行統計。

3. 回答得好不好

業務覆蓋也做了,準確性也保障了,最後就是要給出答案。衡量機器人回答得好不好,很大程度上跟AI能力無關,而是運營效果的衡量。運營人員給每條知識庫問題配了答案之後,這個答案需要能夠解決用戶問題,安撫用戶情緒,從而讓用戶不轉人工。所以要看回答得好不好,一方面我們需要細化到每個FAQ的效果來看,另一方面這是一個非常主觀的問題,所以我們需要將主觀變為客觀,也就是看針對每個答案,用戶的反饋。

用戶對機器人的反饋一般有兩種,一種是轉不轉人工,另一種就是評價,對應的指標就是【答案解決率】和【答案的滿意度】

答案解決率就是機器人給出了答案后,用戶是否轉人工,若是轉人工了,說明答案無法解決用戶問題,如果沒有轉人工,一定程度上可以理解為解答了用戶問題。所以運營可以通過這個指標,篩選出答案轉人工率最高的問題,進行針對性優化,提升答案解決率。

答案滿意度是通過用戶對機器人答案的點贊或者點踩來進行分析,我們可以分為整體點贊/點踩率和單個答案的點贊/點踩率,從整體和局部去分析機器人回答的好壞。例如某個答案的點踩率特別高,我們就需要進行策略調整,是不是換個回復內容,甚至犧牲轉人工率,讓其進入人工,從而保證用戶體驗。

三、總結

好了,有了以上細化的衡量方向,我們就可以清晰地看出影響智能客服北極星指標的因素有哪些,總結如下圖;同時我們通過具體數據,也能鞏固知道應該往哪些方向去優化。

比如直接推薦比例很低,那就需要訓練師覆蓋更多的業務業務場景;直推準確率很低,就需要訓練師增加相似問法,演算法工程師調優模型;答案點踩率很高,就需要運營優化答案及回復策略。

 

作者:七俠   微信號:steseven  公眾號:老七嘮嗑產品    歡迎交流!