編輯導讀:認識世界,就是一個從已知到未知的函數。機器學習,就是預測這個函數,並且使預測結果盡量準確。本文作者圍繞機器學習展開討論,與你分享。
問:談談你對機器學習的理解。
答:機器學習就是用已知去預測未知。
認識世界,就是一個從已知到未知的函數。收集一大堆數據,然後用它們去預測一個值,就是回歸問題。例如數碼回收,根據你的機型、機況和行情,給出一個價格走勢;從一大堆數據中,找到屬於某一類的那些,就是分類問題。例如我們經常使用的驗證碼,「選出所有帶橋的圖片」。
機器學習,就是預測這個函數,並且使預測結果盡量準確。當然,這個過程是由演算法工程師實現的,策略產品經理需要思考的是怎樣用演算法的邏輯,去解決業務問題。本文放棄了複雜的定義和公式,嘗試用口語化的語言介紹常用演算法的邏輯,降低新手產品經理(非技術)的學習成本,並且覆蓋儘可能多的工作場景。
一、像樹一樣決策
決策樹(Decision Tree)是一種以樹形數據結構來展示決策規則和分類結果的模型,比較接近人類的決策過程。決策樹發揮作用,首先要用到看似雜亂無序的已知實例,有2個值可以來形容這些實例。
- 信息熵:對隨機時間不確定的度量,即到底有多雜亂無章。
- 信息增益:事件A的的發生為事件B增加了一些確定性,增量的多少即信息增益。
接下來,你要不斷尋找最能將這堆雜亂無章的數據區分開來的特徵——即使之區分於其他數據的特質——使用這一特徵對數據進行劃分。每次選擇區分度最高的一個,不斷迭代,直到所有特徵都被用掉。用最經典的買瓜問題來示例:
這時你就可以通過決策樹來判斷,下一個西瓜到底該不該買。在這個過程中,有時候需要產品幫助判斷什麼特徵才是最有價值的。你也可以不斷發現新的有價值特質,或刪除一些多餘的特徵,將這棵」樹「修剪地更加精緻。
二、以類聚物,以群分人
所謂」近朱者赤近墨者黑「,雖然我們不了解一個人,但我們了解了他身邊的人後,就根據已知信息推測他的性格特徵。這也是K近鄰模型的原理。在一個空間中,距離樣本A最近的K個樣本B屬於一個類別,那麼A也屬於這個類別,並且具備這個類別的特徵。這裡」空間「和」距離「的定義較為複雜,不做展開。
如何選擇合適的K值?需要持續訓練。如果K們不能很好地歸成一類咋辦?那我A應該歸屬於誰呢?有兩種判定方式,一種是少數服從多數,哪類最多我屬於誰;一種是加權投票,可以根據遠近程度加權,越近權重越大。
對於產品而言,在進行用戶分層類的項目時,可能會依賴這類演算法能力。舉個例子,當前我能提供圖文、短視頻和中長視頻三種形式的服務,每種服務下都積累了大量的用戶數據。這時由於運營的出色表現,產品湧入了大量新用戶,我需要儘快知道他們更適合哪種形式的服務,以提高留存、活躍和轉化。
三、完美一刀切
承接上文,面對大量新用戶,我想要知道他們哪些對我價值最高,哪些價值稍低,從而採取不同的運營策略。支持向量機模型會是一個好的選擇。
假如我有N個特徵來形容這批用戶,那麼構建一個N維的空間,每個用戶都能在其中找到自己的坐標。這時我找到一個N-1維的平面,它正好將所有用戶分割成2個不同的類別,並且離正負樣本的距離最遠。
這就是支持向量機模型的基本邏輯,是解決線性不可分問題、非線性問題的利器。
以上三種模型都是根據已知特徵,給出一個確定的分類結果(未必準確),我們稱之為判別模型。與之相對的是生成模型,它會給出一個最優的猜測結果,同時給出猜測的概率估計值。在一定條件下,它能更好地反映數據分佈的全貌。
四、樸素貝葉斯模型
啥叫貝葉斯?貝葉斯就是在已知某條件的前提下,推算某事件發生的概率。它強調我們在預測一個事物前,要根據已有信息推斷一個先驗概率。用舉個例子:如何腫瘤化驗結果推斷患者是否真正得癌?在計算這個概率之前,我們首先要知道先驗概率,即癌症本身的發病率為多少,以及化驗檢測的準確率是多少。
如上圖所示,當你的化驗結果是有病時,你實際上只有9%的概率真正患病;而如果你真正患病,也有十萬分之一的概率沒有被檢測出來。
這其實告訴我們,在根據數據進行決策時,要考慮前提條件。例如我們在產品內部新上線了一個「長視頻」板塊,數據分析發現這一板塊下的用戶以35-45歲的用戶為主,所以我們判斷要根據這一年齡階段的用戶去優化UI設計和內容投放。
但考慮到先驗概率的問題,我們首先要知道該板塊用戶的轉化概率,即從35歲-45歲的網民轉化到我「長視頻」板塊活躍用戶的概率。如果這一概率很高,那麼我們可能只是在這一年齡段用戶聚集的渠道做了比較多的投放,導致現階段35-45歲用戶較多。我們針對其他年齡用戶聚集的渠道,也來一波拉新策略,可能同樣獲得成功。那麼現階段去調整功能設計和內容策略,就是不合適的。
五、總結
對很多非技術產品經理來說,充斥著數學公式和專業術語的技術語言是很難理解,或理解成本較高的。但實際上,作為一個新手產品經理,還沒有深入到具體的業務之前,只需要了解每種技術的實現邏輯即可。從策略的視角去審視技術,而不是讓技術限制了你的想象力。樹立強烈的目標導向,與技術團隊建立良好的溝通關係,可能是更高效的手段。
相關閱讀: