想靠AI精準抄底，結果恐怕會讓你懷疑人生 | 人人都是產品經理

開年後的股市，似乎迎來了一個春天，各路「股神」紛紛出面，聲稱用AI技術預測趨勢教大家炒股。利用人工智慧模型預測股市，真的會讓散戶們跑贏大盤賺到懷疑人生？

經歷了漫長熊市的A股，在農曆新年後迎來了一個超乎想象的春天。最能夠代表牛市來臨的信號，不是領跑全球的歷史性漲幅，而是連你老家的大媽都準備拿出首付甚至賣房抄底了，各路股神紛紛出來指點江山了，大數據分析、人工智慧選股之類的炒股秘籍也集體重現江湖了。

與「玄學炒股」和「內部消息」等方式不同，量化投資、機器模型之類的技術名詞一擺出來，可信度噌地就上去了。

不過，利用人工智慧模型預測股市，到底會讓散戶們跑贏大盤賺到懷疑人生，還是被以「技術」為名的鐮刀精準收割？事情的真相恐怕與大家想象的相去甚遠。

靠人工智慧預測股市，方法有哪些？

首先我們先來搞搞清楚，那些所謂的人工智慧預測股市，到底都應用了哪些技術。

在AI大規模應用之前，利用大數據等數字工具，結合經驗甚至周易的天干地支來預測股市行情，已經是高科技的代表了。但自從2016年AlphaGo擊敗李世石之後，機器學習技術就取代大數據成為預測股市的最強選手。

現在，市面上有許多證券公司推出了人工智慧預測股市的工具、模型，甚至基金。接下來我們就追根溯源，來聊聊這些應用型產品都是依託那些機器學習演算法/模型來工作的。

1. 卷積神經網路

2016年，來自斯坦福大學計算機系的Ashwin Siripurapu發表了一篇文章，《Convolutional Networks for Stock Trading》，這是首次提出使用卷積神經網路來進行股票交易預測的方法。

該方法採用標普500etf分鐘級數據作為歷史數據（包括交易時間、每分鐘收盤價、最高價、最低價、開盤價和交易量等），然後通過歷史股價波動的圖片，訓練出了一個卷積神經網路模型，並試圖通過這個模型來預測未來股價的運行。

最後驗證的結果是，使用該模型預測股價還不如瞎猜。

2. 時間序列預測

儘管前文中的初級版卷積神經網路模型的實際預測效果不盡如人意，但其提出的利用時間序列建模的想法，就成為接下來機器預測股市的常用方式。

不過，ARIMA、SARIMA等模型都需要進行大量的數據預處理（比如K線圖片識別等等）才能建立預測數據集，並且常常忽視股市波動的季節周期性差異。因此，Facebook設計和開發的時間序列預測庫Prophet(先知)很快就被引入了訓練之中。

研究人員試圖讓Prophet從過去的數據中捕捉趨勢和季節性。但從試驗效果來看，該模型並沒有達到預期的效果。

3. 長短期記憶網路(LSTM)

單純的時間序列並沒有取得很好的效果，但如果機器能自己划重點呢？LSTM 演算法在序列預測問題中的優秀表現，就引起了重視。主要是它們能夠存儲重要的既往信息，並且忽略那些不重要的信息。

從訓練結果來看，LSTM模型可以對各種參數進行調優，在股市歷史數據的預測匹配度上，表現果然超越了前面的所有演算法。

但想通過LSTM 來預測股票價格的未來走勢，不好意思它依然做不到。因為它只會認數據，看不懂那些很可能大幅度影響股價的新聞和非貨幣行為。

4. NLP特徵提取

既然LSTM看不懂非數字的重要指征，那在此基礎上讓機器學會「認字」不就得了。

NLP技術能夠對包括新聞、資訊、社交媒體等文字圖片信息進行自動特徵提取和情緒分析，有了這些數據，神經網路不就能分析基本面了嗎？至此，一個簡略版的機器學習股市預測模型就成型了。

簡單解釋一下它的基礎邏輯：輸入股市的歷史數據和實時結構化信息，特徵提取選出那些有價值的信息，再通過深度神經網路訓練出基本模型，通過預訓練調整參數，這樣就得到一個終極預測模型，可以一次來構建選股組合。當然，在實際的訓練過程中可能還需要反覆調參測試。

目前市面上用來選股的主流演算法，比如隨機森林、樸素貝葉斯、XGBoost、Stacking等，基本都是按照這一邏輯運行的。

具體效果怎麼樣呢？我們不妨用一個實際案例說明一下。

2017年，EquBot LLC、ETF Managers Group共同推出了全球第一隻使用機器選股的基金AI Powered Equity ETF（AIEQ.US），這隻基金不僅能夠擁有認知和大數據處理能力，還能夠閱讀大量的文本線索，比如從年報、每日新聞中顯露的經濟形勢、趨勢以及公司重大事件等信息進行分析，然後挑選出相應的投資組合。

而它的表現，用「平平無奇」來說已經很善良了。短期投資「成功」跑輸大盤（上市12日的表現比標普500指數低了3個點），至於長期價值投資嘛……價值投資還得靠機器，這水平基本也就告別股市了吧？？？

為什麼人工智慧預測股市，總是遭遇滑鐵盧？

不難看出，想要靠人工智慧模型來預測股市，雖然理論上可行，但在實際操作過程中，模型們也並沒有展現出比「玄學」強得多的技術。

前不久，科學家Mario Filho就將這些預測模型一鍋端了。他以這些模型為基礎建立了一個數據集python version of TA-LIB，用以此訓練了一個新的機器學習模型，並分別在一天和三天後檢驗了不同模型的預測效果。

實驗結果顯示，這些五花八門的AI預測模型，得到的效果也是隨心所欲，有的居然還「消極罷工」了。

比如「隨機森林」（The Random Forest）模型，其結果無論是和零預測還是平均值都相去甚遠，這意味著，它雖然從數據中學到了一些東西，但在實際的驗證過程中卻完全沒有體現出來。

目前看來，靠機器學習模型來預測股市，現實中基本不可能不虧錢。為什麼無往而不利的AI遇上股市就束手無策了呢？主要有幾個方面的阻礙：

一是歷史數據更新不及時。機器學習的運算處理能力和信息深度都比個人強很多，這是不爭的事實。但預測行為往往涉及一系列實時的動態因素，新聞事件、經濟、政治、監管、自然災害、個人心理等等，都會對最終的結果產生影響，在高波動的市場行情下，AI也很難準確預測。

二是自然語言理解技術的限制。理想情況下，好的深度學習模型是可以從社交媒體、財經新聞、金融信號（比如黃金、外匯等）的動態變化中尋找規律、把握情緒的。但現實情況是，這些數據往往是模糊的、非結構化的，在少量數據集的前提下訓練出的模型自然也就無法得到很好的分析效果。

三是數據集的本土差別太大。即使數據集足夠大，但不同的資本市場數據往往有著很強的個性化模式特徵，並不存在一種「放之四海而皆準」的模型，可以在任何市場、任何時間段都表現出極高的性能。

因此想要依靠AI演算法來提高收益，只能進行獨立探索並找出某一模型最強優勢並與本土特色相結合。這就導致了另一個問題，那就是研究資源不足。

大部分預測模型都是由個人開發者或者投資組織在研究和開發，很多在NLP、深度增強學習領域技術比較強的科技演算法公司，研究重心還是放在通過AI預測改革更有民生價值的領域。

比如運用演算法改進工廠發電效率、智能決策(DI)檢測欺詐性交易等等，谷歌甚至在臨床應用深度機器學習演算法進行診斷和預測死亡時間。

相比這些多贏的業務，預測股價這類技術上不成熟、業務邏輯複雜、於民生又沒有太大收益的應用場景，吸引不大足夠的人才和資源去攻破，自然進步有限。

總而言之，股市本質上是零和博弈遊戲，最終是依靠信息的不對稱，從信息匱乏的一方身上賺錢。這種情況下，人工智慧作為基礎的技術工具，決定了只能是錦上添花。

散（韭）戶（菜）們想要將抄底賺錢的希望放在各種似是而非的智能選股模型身上，怕是要失望到懷疑人生了。

既然選股不靠譜，AI還能有點別的用嗎？

既然依靠人工智慧來預測股市目前還不可能，但並不代表那些薦股模型背後的技術沒有用武之地。實際上，不少金融生活場景正在比股市更快地成為人工智慧的「應許之地」。

比如藉助金融類數據幫助實體商業項目進行風險控制。

傳統模式下，銀行在評估某些開發商項目時，僅僅針對開發商信用資質、還款能力等評估風險，卻很難去考察項目所在區域的消費能力、經濟活躍度及周邊配套的發展情況，而後者才是影響項目的最大風險因子。

而藉助阿里、京東、騰訊等超級平台每天產生的龐大數據，就會涉及商場、物流、理財、支付、信用等各類金融數據。在這些實時結構化數據的基礎上，通過深度神經網路實現「經濟體征」的全面量化，實時監測預警，就能根據具體區域經濟、消費相關的發展變化，進行精準預測，避免「一葉障目」帶來的資源風險。

另外，還有很多機構利用機器學習、LSTM等技術來訓練模型以預防網路詐騙。

Sift Sciencee就從6000多家欺詐檢測網站收集了大量數據，利用智能引擎關聯了多源數據點，包括付款信息、交易頻率、行為習慣等等，以此為基準採集和建立優質用戶行為模型，對每筆交易進行比較和評估。

這樣做的好處是，既避免了高風險控制帶來的誤判，防止請求失敗造成用戶流失，同時又能夠有效地檢測欺詐性交易。

上述應用更多是圍繞多元結構化數據展開的，實際上，利用NLP和機器學習演算法提供個性化的智能客服服務，在金融領域也越來越普及。

目前，中國的5大國有銀行和12家全國性股份制商業銀行已經全部上線智能客服。

而隨著NLP技術的進步，智能客服也開始告別傳統印象中的程式化服務，逐漸在情感分析、多輪對話等應用中發揮出不錯的水平。

比如英國開發者設計的智能助手Cleo，在授予賬戶信息全線之後，就能夠通過深度學習技術學習並適應用戶的個人習慣與偏好。在對話的同時幫助用戶進行理財指導和資金規劃。

未來，使用AI來預測和解讀市場與用戶，將是金融公司的必備技能之一。不過對比機器學習在股市上的失利，以及其他場景中的可圈可點，或許我們可以得出一個基本結論：

每種機器學習演算法的優缺點和應用表現各有不同，但總的來說，作為先鋒技術，人工智慧更應該被用在那些可用Availabl、可靠Reliable、可知Comprehensiblee、可控Controllable的地方（簡稱ARCC）。在這種共識之上，AI短時間內既不能讓基金經理下崗，也無法幫散戶們精準抄底。

或許是宿命的悖論吧：越清楚技術的能量有多大，就越無法理解人性的貪婪。

作者：腦極體，微信公眾號：腦極體