導語:前面介紹了「AI產品經理需要具備的能力和對數據、演算法需要理解的程度」、「機器學習的實際訓練過程」;後面將圍繞AI產品在當前環境下的熱門應用來進行探討,涵蓋了語音識別、圖像識別、NLP自然語言處理、知識圖譜等產品化落地的場景。
一、人工智慧與「人工」智能
人每天做的最多的事情就是看、聽、說、思考、決策,這是人這個複雜系統需要具備的能力,那麼如果要做像人一樣的智能機器,最基礎要解決的問題便是圖像處理的能力、聲音的處理能力、口語的處理能力、邏輯推理能力,具備了這些能力之後,人才能做更多的事情,同理機器也就能做更多的事情。
機器學習作為人工智慧的實現手段之一,核心是用演算法來解析數據、從數據中學習規律,再對現實世界中的事件做出決策和預測。由於強依賴數據,對於數據的處理和應用便顯得極為重要。AI場景中需要面臨大量的非結構化數據的處理,涉及了大量的人力工作在裡面。在當前發展的階段,我更願意稱它為「人工」智能。
二、如何構建AI產品
構建AI產品需要經歷的幾個核心階段,簡單概括為業務梳理階段,準備數據階段,設計產品研發方案階段。
1. 業務梳理
不同的行業有不同的行業背景,在設計產品方案之前需要了解自身所處行業的業務邏輯及面臨的需求痛點,AI產品本質上解決的是效率問題;不管是提高信息生產的效率還是信息傳遞的效率,首先需要找到存在效率問題的場景及識別是否高優解決。
- 確定業務流程:畫業務流程圖,梳理不同角色在業務間的順接關係。
- 業務分類:分析不同環節間信息如何傳遞,按照不同的需求類型進行分類。
- 資源評估:評估現有數據資源,是否有足夠多的數據支撐產品的開發;若業務積累數據不夠或質量不佳,有沒有其他渠道收集數據,或數據治理的方式。
- 確定優先順序:哪些問題可以優先解決,按照重要緊急係數進行劃分。
2. 準備數據
在構建AI產品的工作流中,準備數據是重中之重,極其關鍵的一個環節,數據的好壞直接影響了模型是否可用,也是花費精力和工作量最多的一個環節。準備數據的過程包含了收集數據、治理數據、標註數據。
收集數據:一般收集數據的方式有整理並收集內部積累的業務數據、向數據方購買或合作獲取數據、通過爬蟲系統獲取網路上公開的數據、通過終端設備採集上報數據。
數據治理:通常我們從多個渠道收集上來的數據是無法直接利用的,因為不同渠道對數據的定義以及生產和使用場景不一樣,想要進行使用,需要進行一系列的數據處理流程;治理數據是一個複雜的過程,包含了數據質量、數據標準、數據安全等多個方面的處理技術及方法。
數據標註:數據標註就是將數據打上相應的標籤。AI產品需要處理大量非結構化的數據,數據標註的意義是將人積累的經驗判斷的信息標註到數據上,讓機器能夠理解和可讀;數據標註的流程可以分為:確定數據標註的目的、制定標註標準、進行數據標註、標註結果驗收。
設計產品研發方案——構建並訓練模型,機器學習的訓練過程在前一篇文章中已經分享過了,此處不再介紹。
三、案例分析:圖像識別 – AI識別植物
1. 應用場景
- 獲取知識 – 拍照識別植物 ,進行植物研究;
- 輔助教學 – 快速識別植物,了解植物基本信息,簡化學生認知;
- 興趣愛好 – 旅行遊玩,掃描識圖增加趣味。
2. 明確任務類型
基於具體的應用場景,梳理核心要解決的問題,例如植物識圖,最簡單的場景是要輸入一個植物圖片進去,返回正確的植物名稱,屬於典型的分類問題。
3. 制定分類標準
我們想要準確識別植物圖片,首先第一步要釐清植物一共分為多少種,每種植物具有怎樣的特徵。
下圖是以不同植物的生存方式作為分類邏輯進行劃分的,可作為參考;分類方式有很多種,核心需要確認並統一制定一套標準,方便日後的維護和擴充,也為後續模型訓練打下基礎。
制定標準的過程非常考驗產品經理對需求場景的理解以及對特定場景下知識背景的研究,標準的覆蓋範圍直接影響了最終產品所解決問題的範圍。
4. 數據採集
根據分類標準分別為每一個類目採集樣本圖片,通常會有專門的採集數據的平台,我們只需創建任務類型,定義數據採集的範圍及需要訪問的網站或鏈接,即可完成自動化數據的採集。
5. 數據標註
將採集上來的樣本圖片分別打上對應的分類標籤。打標籤的過程可分為人工打標籤、機器打標籤。通常公司內部都會搭建專門打標籤的數據服務平台,例如百度有自己的眾包平台,專門提供各個部門關於數據標註的服務。此外市場上也有專門做數據標註的公司,例如雲測數據這樣的平台。
6. 模型訓練 – CNN
卷積神經網路CNN,是目前主流的處理圖像問題的技術。它包含了圖像內容定位、目標分割、目標關鍵點檢測、目標分類等關鍵技術,能夠快速提取圖像特徵;在介紹CNN之前先了解一下什麼是神經網路。
神經網路是模擬了生物神經細胞傳遞信息的過程而構建的神經元模型,主要包含了三部分,數據輸入層、隱藏層、輸出層。
- 輸入層:就是將基礎數據錄入到模型中。
- 隱藏層:也叫計算層,包含了多個參數的數學模型計算。
- 輸出層:經過計算后輸出結果。
計算過程可以簡單理解為:輸入層輸入的每一個數值在乘以相應的權重後會傳遞到下一個節點,節點處會把每一條經過計算的數據結果進行累加;累加后的值通過激活函數激活之後,會繼續作為下一層的輸入數據參與計算,以此循環直到計算至最後一層輸出數據。
每一次訓練數據的進入,都會將整個神經網路上的各個節點權重值更新一次,通過每一層權重值的不斷調整來逐漸縮小誤差,確認最終模型。
卷積神經網路CNN與神經網路邏輯一致,同樣包含輸入層、隱藏層、輸出層,區別在於隱藏層中又會拆分出卷積層、線性整流單元層、池化層、全連接層。
卷積層是為了提取圖像特徵;線性整流單元層在進行計算時調用了特定的ReLU激活函數;池化層是為了將參與計算的圖像特徵數據進行降維處理;全聯接層是為了綜合計算不同分類的得分,為最後的數據輸出做準備(技術邏輯較為複雜,感興趣的童鞋可以查閱更多資料進行擴展了解,通常此部分為演算法工程師處理,產品只需簡單理解原理)。
7. 模型評估
AI產品經理需要為模型結果負責,在評估模型是否可用上需要建立統一的評估標準,明確評估流程,並通過數據分析來形成結論。
在植物識圖這個場景下,一方面需要評估模型能否成功識別出圖片內容包含植物,另一方面需要對已識別出的植物進行分類準確性的評估。
1)評估標準
評估標準包含了準備測試數據集,確定評估指標,定義不同情況下的判斷標準。
2)評估流程
所有識圖相關的場景下都要經過先識別再預測,因此在評估過程中,需要著重關注模型是否正確圈選出目標物體,若已框選出目標物體,再做正確與否判斷。
3)評估數據
確定了評估標準及評估流程之後,要對採集的測試數據進行逐個評估,此環節可以交由數據標註團隊或者實習生來進行操作;因為個別場景下需要測試數據量級比較大,為了提高效率需要將任務量進行分攤,大部分公司會設定專門的崗位進行數據支持。
4)評估結論
準確率指標是為了評估模型對數據的預測能力;YES判斷正確數/(YES識別框+NO中應為YES的識別框)。
召回率指標是為了評估模型對圖像識別的能力;已框選植物主體框/應框選植物主體框。
#專欄作家#
大鵬,公眾號:一個數據人的自留地。人人都是產品經理專欄作家,《數據產品經理修鍊手冊》作者。
本文原創發佈於人人都是產品經理。未經許可,禁止轉載
題圖來自Unsplash,基於CC0協議。