上一篇為大家介紹了《AI產品經理需要了解的概率論通識:4個概念3個問題》,本篇文章中,筆者將為你介紹AI產品經理需要了解的線性代數通識,一起來看看吧。
羅素在自傳中這樣寫道:「我 11 歲時,我開始學習歐幾里得幾何學,哥哥做我的老師,這是我生活中的一件大事,就像初戀一樣令人陶醉。我從來沒有想象到世界上還有如此美妙的東西。」
高斯把數學置於科學之巔,希爾伯特則把數學看作「一幢出奇的美麗又和諧的大廈」。
在人們的印象中,數學與藝術很少有共同之處。數學以其卓越的智力成就被人們尊稱為「科學的皇后」,
隨著人類社會的發展,技術的進步,在AI時代,數學會成為最基本的學科,會成為所有演算法模型的基礎,而線性代數則是描述抽象狀態和變化的規則。
張志華教授說過:「搞好機器學習,關鍵是數學,但你又不能把機器學習變成搞數學,那樣就漫無邊際了。」
數學浩瀚如海,神靈通天,對於絕大多數 AI 工程師來說,學習機器學習,對於其中涉及的數學知識形成理解,打牢基礎,是必不可少的。
而線性代數正是這基礎中的基礎了,線性代數可使矩陣操作快速而簡單,特別是通過GPU進行計算。而事實上,GPU的設計便是受啟發自向量和線性代數。
一、什麼是線性代數
瑞典數學家Lars Garding在其名著Encounter with Mathematics中說:「如果不熟悉線性代數的概念,要去學習自然科學,現在看來就和文盲差不多。」可見線性代數的重要性。
線性代數是代數學的一個分支,主要處理線性關係問題。線性關係意即數學對象之間的關係是以一次形式來表達的。
例如,在解析幾何里,平面上直線的方程是二元一次方程;空間平面的方程是三元一次方程,而空間直線視為兩個平面相交,由兩個三元一次方程所組成的方程組來表示。
含有 n個未知量的一次方程稱為線性方程,關於變數是一次的函數稱為線性函數。
線性關係問題簡稱線性問題,解線性方程組的問題是最簡單的線性問題。
線性代數可以將各種複雜問題轉化為簡單、直觀、高效的計算問題。
神經網路(Neural networks)將權值(weights)存放於矩陣(matrices)中,線性代數使得矩陣操作快速而簡單,特別是通過 GPU 進行運算。
類似於用像素的多維數組(arrays of pixels)來表示圖形圖像,視頻遊戲通過大規模且持續的矩陣計算,帶來了極具吸引力的遊戲體驗。GPU 是并行操作整個矩陣中的各個像素,而不是一個接一個地去處理單個像素。
- 線性(linear)指量與量之間按比例、成直線的關係,在數學上可以理解為一階導數為常數的函數;
- 非線性(non-linear)則指不按比例、不成直線的關係,一階導數不為常數。
二、線性代數里的基本概念
1. 行列式
行列式這個「怪物」定義初看很奇怪,一堆逆序數什麼的讓人不免覺得恐懼,但其實它是有實際得不能更實際的物理意義的。
其實行列式的本質就是一句話:行列式就是線性變換的放大率!
2. 矩陣
用中括弧把一堆傻了吧嘰的數括起來,這個東西叫做矩陣。
這可能是我們大學期間的理解,其實理解矩陣就要先了解向量,向量是關於數字或數據項的一維數組的表示。
從幾何學上看,向量將潛在變化的大小和方向存儲到一個點。向量 [3, -2] 表示的是左移3個單位下移2個單位。我們將具有多個維度的向量稱為矩陣。
三、線性代數的應用
1. 在搜索引擎中的應用
當人們在使用搜索引擎時,總會對搜索結果排名靠前的網頁更信任。可是,怎樣判斷一個網頁的重要性?
一個網頁獲得鏈接越多,可信度就越高,那麼它的排名就越高。這就是谷歌PageRank網頁排名演算法的核心思想。
但是所有的網頁都是連在一起的,互相連接。而你評估必須要有一個起點,但是,用任何網頁作為起點都不公平,怎麼辦?
谷歌的解決辦法是:先同時把所有網站作為起點,也就是先假定所有的網頁一樣重要、排名相同。然後,進行迭代。
整個互聯網就像一張大的網,每個網站就是一個節點,而每個網頁的鏈接就是一條鏈接線。於是這個問題變成了一個二維矩陣相乘的問題,首先計算第一次迭代排名,然後再算出第二次迭代排名……
最終,排名會收斂,不再變化,算出了網頁最終排名。簡言之,網頁排名的的計算主要是矩陣相乘。
2. 在機器學習中的應用
在計算機視覺應用中處理圖像或照片,使用的每個圖像本身都是一個固定寬度和高度的表格結構,每個單元格有用於表示黑白圖像的 1 個像素值或表示彩色圖像的 3 個像素值。
照片也是線性代數矩陣的一種,與圖像相關的操作,如裁剪、縮放、剪切等,都是使用線性代數的符號和運算來描述的。
推薦系統也有應用線性代數,例如基於你在亞馬遜上的購買記錄和與你類似的客戶的購買記錄向你推薦書籍,或根據你或與你相似的用戶在 Netflix 上的觀看歷史向你推薦電影或電視節目。
推薦系統的開發主要涉及線性代數方法。一個簡單的例子就是使用歐式距離或點積之類的距離度量來計算稀疏顧客行為向量之間的相似度。
像奇異值分解這樣的矩陣分解方法在推薦系統中被廣泛使用,以提取項目和用戶數據的有用部分,以備查詢、檢索及比較。
3. 在量化投資中的應用
量化投資是一個交叉複合學科,要求掌握數學、計算機編程、金融等方面的知識。
而在量化投資中廣泛應用的隱馬爾可夫模型(Hidden Markov Model, HMM)就可以很好的解決資本市場獨立數據與獨立數據的自變數與因變數之間的關係,從而給他決策判斷。
四、總結
在眾多的數學學科中,線性代數是最為抽象的一門課,很多人學過以後一直停留在知其然不知其所以然的階段,在機器學習等領域興起才發現線性代數的應用無處不在。
其實各個學科直接都是相通的,抽象的思維鍛煉也許是人工智慧產品開發中必備思維。
作者:老張,宜信集團保險事業部智能保險產品負責人,運營軍師聯盟創始人之一,《運營實戰手冊》作者之一。