AI應用實例分析——文本糾錯 | 人人都是產品經理

編輯導語:AI在現實中的應用有很多,你有沒有想過,它還可以進行文本糾錯呢?傳統的校對既耗時又枯燥,通過AI糾錯,不僅能更快完成,還能提高準確度。那麼AI「文本糾錯」背後的原理是什麼呢?和我一起看看吧!

前面跟大家分享了AI開放平台的相關內容,之後想圍繞AI應用實例這塊跟大家分享交流,這節主要講述跟NLP相關的一個應用實例——「文本糾錯」。

一、背景

雖然這幾年短視頻在內容傳播方面發展得很火,但是文稿仍然佔據重要地位。而文稿傳播最重要的一點就是信息的準確性,尤其是一些有知名度的正式平台更是會在文稿發送前進行校對修正。

傳統的人工校對工作量是非常大的,一篇5000字的文稿完成校對差不多需要1-2個小時,對於校稿人員來說既耗時又枯燥。有一家內容平台就提出,希望我們通過AI能力提供快速校對工具,主要針對中文文稿,幫助校稿人員和編輯人員減少內容錯誤。

為了滿足該需求,我們基於NLP技術提供了文本糾錯服務。

二、關鍵技術

文本糾錯中用到的技術的前世今生在這不過多介紹了,目前文本糾錯的主流方向還是使用機器學習的方式來完成,其中需要用到的核心技術主要包括語言知識學習、上下文理解和知識計算。

  • 語言知識學習:可以理解為是對語言規則等先驗知識的學習,通過學習詞法、句法等規則進行語言模型構建,例如中英文的主謂賓結構就是不一樣的。
  • 上下文理解:是指分析錯誤點上下文語境和語義,從糾錯候選中選擇最合適的。尤其是中文,相同的辭彙在不同語境中往往表達不同的含義。
  • 知識計算:知識計算主要包括關聯知識計算和文本理解,關聯知識主要是通過對全局知識的統計來實現糾錯,可以是局部不完整語句的補充。文本理解是通過統計理解全局句子內容,解決低頻領域知識的泛化問題。

三、產品設計

1. 應用場景

(1)用戶場景:審稿或者編輯人員輸入中文文字信息,系統自動糾錯,並給出修改建議,審稿人員對錯誤快速修訂。

(2)應用邊界:

  • 支持用詞錯誤檢測,針對音近、形近的錯字和別字進行糾正
  • 支持句子級錯誤檢測,主要是針對句子中出現的多字、少字等錯誤,相對難度校大。
  • 支持場景類錯誤糾正,這類錯誤需要具備一些特定領域的知識才能識別糾錯,所以盡量支持。

2. 產品定位

  • 產品定位:為應用工具型產品,實現中文文本自動糾錯功能。
  • 用戶定位:滿足兩類B端用戶,第一類針對具備自主的文稿編輯工具,提供API服務,與現有系統進行改造融合;第二類是針對缺少文稿編輯工具的用戶,提供web頁面功能。

3. 產品業務流程

產品核心業務流程主要是產品端和演算法端的交互,具體業務流程如下:

4. 產品功能設計

(1)頁面功能設計

頁面核心功能主要包括如下:支持內容上傳、內容審查、結果確認和內容下載。

主要頁面設計如下:

(2)API介面設計

包括內容糾錯請求介面和結果回調接,分別用於內容審查糾錯和結果返回,以下描述主要的輸入和輸出參數:

  • 輸入:介面鑒權、文本內容、文本編碼格式等。
  • 輸出:文本分析結果,包括源文本、糾錯文本、文本位置,置信度。

5. 評估指標

產品上線前,需要對產品的性能進行評估,主要包括三個指標:誤報率、召回率和處理時間。

  • 誤報率:代表正確的句子被改錯的比率,等於正確句子被糾錯的個數/正確句子的個數。
  • 召回率:代表錯誤的句子被全部糾正的比率,等於含有錯誤的句子被改正的數量/所有含錯誤的句子數量。
  • 處理性能:代表處理多少個字元的耗時,單位是千字耗時,s/千字元。

四、結論

文本糾錯是NLP非常基礎的場景應用,但是實際業務價值卻是很大的。在具體業務場景應用方面不僅可以用在在媒體編輯、電子病歷等輸入文本糾錯,還可以應用於語音搜索、客服問答等業務。