編輯導語:2022年,以DD為代表的最新一批AI繪畫工具出圈了,原因不止是技術層面的突破,更在於其生成圖,給人們帶來了視覺衝擊。那麼,AI繪畫正在給人們帶來哪些變化?人們在變化中又如何行動呢?本文作者帶著這些疑問與設計師西喬進行探討后,總結出了這篇文章,一起來學習一下吧。
上個月,當我在文章中提及AI繪畫工具Disco Diffusion(下稱DD)時,它還僅被我當做一個例證,用來證明AI從事創意性內容的局限,因為它直接用來生成人臉、動物還存在缺陷,需要人力加工。但AI繪畫工具的迭代和升級,遠超我的想象。DDv5.6新更新的portrait generator模組,就大幅提升人臉生成效果。雖然某些角度還是會有變形,或者看上去帶有「玻尿酸感」,但是越來越像「人」了。
(文章配圖均來自西喬的生成圖,有額外標註和水印除外)
雖然在AI發展的時間線上,調教AI畫畫並不是一件新鮮事,早在2015年穀歌就推出過DeepDream,初試AI的「藝術創作能力」。但在2022年,以DD為代表的最新一批AI繪畫工具的出圈,不僅源於技術層面的突破,更在於其生成圖,所帶來的視覺衝擊。
人們愈發認真地,討論AI繪畫是否會對美術行業產生影響——即使它可能無法真正替代人類藝術家,但它目前所展現的生產力,已經足以有效地輔助人類創作,成為底稿、成為素材、成為靈感。
除了成為設計師、插畫師的工具,AI繪畫也向普通人鋪開畫布,無需美術基礎,通過對照教程,編寫描述詞、調節參數,就能夠用文字的想象交換圖像成果。並且擁有一些「平易近人」的應用,比如和菜頭拿它來畫公眾號的封面,兩個月里封圖來源已經從某某圖庫/版權,變成了「和菜頭的小肉手」。
鑒於行業里已經有專業對口的文章科普技術原理,介紹各類AI繪畫工具及使用教程。我更好奇的,是AI繪畫正在給人們帶來哪些變化,以及人們在變化中如何行動。
帶著這些疑問我找到了西喬。她是一名設計師、漫畫《神秘的程序員》的主創。今年5月起,她幾乎全身心投入AI繪畫的嘗試中,除了每天跑圖,也看論文、寫科普。她對AI繪畫抱以極大的期待,相信「AI對藝術及插畫的衝擊,等同另一次『相機的發明』,藝術史又可以分冊了。」
如果你想找到「AI繪畫工具是什麼」的答案,建議閱讀更專業系統的文章,比如西喬公眾號里的教程(神秘的程序員們:coderstory)。但如果你好奇AI繪畫「和我有什麼關係」 「我能用它做什麼」 「它會帶來什麼」,不妨接著往下讀。
01 AI繪畫怎麼突然出圈了
中文網路中關於AI繪畫的討論,集中出現在今年4月。隨美術圈、程序圈從業者的使用和交流,AI繪畫工具DD逐漸被更多人知曉。這是一個GitHub開源項目,尚未封裝,在谷歌Colab中以代碼的形式呈現,其繪製過程,可以簡單概括為輸入關鍵詞就能生成圖像。相較於早前AI繪畫的刻板風格,缺少整體美感以及完成度欠佳,DD在構圖、色彩、氛圍感等方面,都呈現很大突破。
與此同時,OpenAI結合擴散模型和CLIP在今年4月提出的DALL·E 2,DD作者Somnai所在公司推出的Midjourney等工具也開始進入人們的討論和使用。設計師、插畫師開始製作「從0開始學習AI繪畫」教程,例如@JZ_打個比方在B站發布教學視頻,@Simon_阿文在微博持續更新AI繪畫資料,又或者人們在知乎討論「像disco diffusion這類ai繪畫會對美術行業產生什麼樣的影響?」
和大多數專業畫師一樣,西喬被AI繪畫擊中的原因,是因為「可能性」。這種「可能性」既可以像PS、3D輔助軟體等工具帶來的創作流程的變革,也能夠在內容上帶來的解放,「它能夠幫助我去創造一些我之前不會,甚至不敢去創造的風格。」
但比起將AI視為「創作者」,西喬認為更合適的表述是,AI是她畫布上的另一隻手。有時可以「放手」,交給AI自己去跑,會帶來很多意想不到的驚喜。例如在她《西藏往事》的系列作品中,AI在雪山頂上放了一個塔吊。
在Prompt (提詞)設計和無盡頭的參數分析機調整之外,還有另一種具有高可控性的玩法。當畫師對於生成圖的結果有預期目標時,可以通過設計底圖、設置底圖跳過步數(跳過步數越多,AI生成圖越接近底圖)進行人工引導。或取得生成過程中的中間步驟,對中間步驟進行修改後放回AI里繼續生成。還可以根據同一提詞,調整參數輸出多組結果,在後期中人工選擇更符合創作者預期的局部進行合成甚至重繪等形式進行二次創作。
兩隻手畫畫,正帶給她創作的解放,探索學習新知識的樂趣、以及一種近乎於開盲盒的快樂,「晚上寫好隊列,等早上起來撿圖,只是費點電,獲得的快樂是一樣的。」而且比起盲盒有限的選擇,AI繪畫能夠完成的組合,理論上是無限大的。
有賴於專業的愛好者編譯的中文資料、保姆式教程、封裝的程序、支持中文描述詞的AI繪畫工具,AI繪畫逐漸出現「出圈」的苗頭,進入大眾討論語境。比如和菜頭自今年5月以來,多次推文介紹AI繪畫。
技術的向下兼容,讓AI繪畫為更多普通人打開繪畫的可能性。畢竟繪畫對於大多數人來說,要麼是一扇從沒有打開過的門,要麼就是有著很高門檻。但通過AI,卻能讓一部分從沒有試過畫畫的人,不需要依賴多年學習和經驗積累,就能夠去創造圖像。
「人們創造圖像的直覺是與生俱來的。你會發現很多人畫畫的巔峰其實是在小時候,隨著他逐漸長大,接受越來越多已有的視覺繪製模式,後天的輸入就把這種直覺覆蓋了。」
當先天的圖像創作直覺被現實規訓后,「多數人試圖去創作的,不是憑藉直覺把腦子裡的東西畫出來,而是儘可能讓自己畫的東西符合現有的繪畫,比如模仿照片、模仿別人的畫,塗填色書,等慢慢發現自己在模仿上差距太遠,就放棄畫畫這件事了。」
當「繪畫」可以像「自拍」一樣,能夠用於分享,滿足成就感時,AI繪畫工具或許能幫助普通人找到被偷走的自由,享受到創作帶來的快樂。為此,一些AI繪畫平台也正在利用這一價值實現商業回報,例如提供將AI生成畫印刷成掛畫的服務,以供用戶購買實物。
02 AI繪畫工具如何「理解」
DD這類通過文字生成圖像的AI繪畫工具,繞不來一個叫「CLIP」的模型,它是AI如何「理解」人類語義這一問題的關鍵。CLIP (Contrastive Language–Image Pre-training),是一種基於對比的圖片-文本學習的跨模態預訓練模型,由OpenAI於去年1月發布。同一時間發布的,還有初代DALL·E圖片生成模型。
DD正是運用CLIP來「理解」用戶輸入的文本,再使用擴散模型來生成圖像。這一過程可以理解為:給AI輸入文本關鍵詞,它基於訓練數據集的學習,從一堆噪點中把這個圖像反推出來,通過不斷進行文本與圖像的匹配,檢查搜索結果是否符合文字描述,進而逐步消除雜訊,添加細節,最終生成圖像。
「宇航員騎馬」和「馬騎宇航員」是解釋AI理解語義的一個常用例子,AI有能力描繪前者,但由於後者的「反經驗」,就不那麼容易實現。
AI得以生成帶有風格化的圖像,也源自於數量龐大的訓練數據集灌輸的畫家風格。以DD為例,prompt是影響生成圖中一個重要的構成因素,包含作品媒介、描繪對象或主題、各種風格和質感的修飾詞、參考藝術家等。
根據西喬的實驗和理解,AI會提煉一個藝術家畫作中特徵,比如整體創作的主題和對象、筆觸、肌理、明暗度、調色板等。其學習成果也受到畫家部分作品知名度和主題多樣性的影響,像是AI所理解的塞尚、雷諾阿這樣的畫家,其特徵可能源於所有的作品,但如果一些畫家有特別出名的作品,那麼該幅畫的特徵權重也會相對較高。
例如,西喬使用DD生成一幅藍色海洋風景畫,將畫家設定為卡斯帕·大衛·弗里德里希(Caspar David Friedrich),發現生成的多幅的作品都帶有黑衣背影。她推斷這一元素出自弗里德里希的《霧海旅人》。
(左為西喬的AI生成畫,右為《霧海旅人》)
除了學習藝術作品、畫家的國籍、文化背景也會影響AI的理解。例如使用中國藝術家畫建築,就會看起來很像中國風,使用畫日漫的藝術家輸出肖像畫,人物大概率能是錐子臉,眼睛也比正常的大。
上圖是基於同一張底圖生成的肖像實驗。除了參考藝術家之外,題詞和參數都相同。左圖參考藝術家為anime girl,右圖參考藝術家是陳逸飛。
理解AI如何「思考」,從而調節描述詞的編寫方式和技巧,也是為了讓AI更好地「理解」創作者意圖。
(如何編寫描述詞,是教程的一大內容)
03 給繪畫行業帶來什麼
從目前行業已有的應用來看,AI繪畫工具對於「繪畫」的改變將會是系統性的——在創作過程中,作為生產工具提供新的技能點;成為藝術品的新變數,影響作品創作風格和價值;以NFT、拍賣畫等形式,直接參与藝術品市場交易。
在AI繪畫工具輔助創作的維度上,它可以被用於生成底圖,畫師以其為底稿,進行二次創作,或者直接用作遠景貼圖。
畫師也可以通過簡單的色塊勾出底稿,交給AI生成「幻想生物」,作為靈感素材。
在AI繪畫工具的介入下,工具鏈將可能面臨重新整合,從AI生成的十幾張結果中挑選,用作插畫創作中的局部素材,再利用PS或其他的鼠繪工具進行調光、調色、邊緣處理、紋理整合等。
另一方面,AI也正在成為影響藝術評價的新變數。
「藝術品的價值評判標準就是很主觀的,而且這個評價也不是一成不變的。一個新的流派、新的媒介誕生之初,肯定是存在一個接受和過渡的時期。」人們對於AI繪畫的評判,在當下必然是需要面臨不少爭議的。
但隨著AI繪畫的普及,人們是沿用已有的評價體系去看AI繪畫,還是說會出現一套適用於AI畫的評論標準,目前還難說。西喬認為,這可能會成為接下來幾年裡藝術史研究、藝術評論家的選題,學者會尋找到一套他的評價體系,大眾也會選擇自己的標準。
(對於AI生成圖的兩極化評價)
在她看來,儘管AI繪畫工具正展現出不錯的生產力,但就實際應用的場景,還是存在較大差異的。比如AI特別擅長產出場景概念圖,這一特點會使它在遊戲、動漫、設計等領域裡有著不錯的表現,用於輔助創作。但如果拿去做工業設計,生成產品或者設計服裝,尚未展現出足夠的應用能力。
此外,影響一項技術是否投入於商用,有兩個需要考慮的內容,第一是否滿足需求,第二衡量投入產出比。就目前而言,AI輸出圖片的尺寸還比較小,由於切片演算法和模型的局限DD在生成寬邊超過1280的圖時,布局會很不理想。MidJourney最大為(1664,1664)、DALL·E 2(1024,1024)。如果要做出一個能夠被列印的尺寸,需要經過後期放大或者再生成。
至於AI生成畫直接被用於售賣,已經有過行業先例。2018年一幅由巴黎藝術團體Obvious使用GAN(生成對抗網路)完成的肖像畫拍出432500美元。
也有AI繪畫平台及創作者將生成畫鑄造成NFT,但這筆買賣也面臨很大的不確定性,比起想通過NFT賺得盆滿缽滿,AI挑戰圖庫的生意,或許更為現實。
04 可能存在的負面影響
隨著AI繪畫工具的普及,部分功能也有著被挪用,造成負面影響的可能。例如通過添加「蒙版」可以對圖像的部分內容進行重新繪製,將一張大象的背影更改為大象的正面照,或者在空無一物的茶几上,自然地放進一個蘋果。
工具對所有人的想象開放,意味著它既可以被用來進行藝術創作和表達,也可能在別有用心的人的使用下,成為偽造圖像,製造假新聞的「兇器」。
前車之鑒是能替換視頻中視覺和音頻內容的「Deepfakes」,被用於偽造名人色情視頻、欺詐勒索、假新聞等內容,而遭限制使用。2019年,在國內一夜爆紅的AI換臉應用「ZAO」,也受到用戶隱私、信息安全等問題的質疑。
除卻用戶使用上造成可見的「垃圾內容」,在AI的圖像學習過程中,也不可避免地吸納了人類認知中對於性別、職業、種族的刻板印象和偏見,並潛移默化反映在AI繪畫的生成結果中。
為應對上述可能存在的負面影響,AI繪畫工具的開發者們所採取的,是以謹慎的開放、更長的內測期、調試圖像描述詞的過濾器等方式,加之控制。
由國內開發者設計的AI繪畫工具Tiamat,向用戶解釋為什麼內測周期較長時寫道,「AI生成藝術是一個比較敏感,也是全新的領域,裡面的不可控性,合規性,以及用戶體驗都需要我們多次迭代,包括其中的雲端部署,模型調整等等,我們也很希望TIA儘早和大家相見,但客觀上技術是不允許的。」
OpenAI的訂閱郵件顯示,DALL·E在近期的更新中,「減少了對於人種的偏見,更準確地反映世界人口的多樣性。」未來,還將根據用戶的反饋和標記進一步優化。
至於開發者們對過濾器的調試,目前仍處在摸索階段。從西喬的個人體驗來看,她多次被過濾器「絆倒」。
(系統疑似把「懸崖邊祈禱」判定為「消極內容」)
AI繪畫另一大被詬病的問題是「侵權的邊界」,就目前而言這是一個灰色地帶,且尚未有行業定論。
以DD為例,工具遵循MIT開源協議,理論上生成圖可以免費商用。但在實際使用中也會存在,因為描述詞使用造成的畫風雷同,這就容易造成抄襲爭議。此外,「如果你用別人的作品『墊』成底圖,再把skip開得很高,最終出來的結果,也是很難定義是否構成作品侵權。」
事實上,界定真人畫手是否抄襲,是否構成侵權也存在種種複雜的爭議,放到AI繪畫的侵權問題上,或許也需要足夠多的經驗和案例,形成行業認知。
最後西喬也補充到,AI繪畫也有面臨「負反饋」的可能,即人們用AI繪畫工具生成的圖像,又進一步作用於AI的優化和訓練中,「AI 模型可能會呈現類似放大器的效果,最後會是出現什麼情況,大家現在是不知道的。」
05 結語
西喬喜歡拿「相機」比喻AI繪畫,「相機剛誕生的時候成像非常慢,暗房沖洗也很麻煩,設備的攜帶及使用都不便,成像效果也不一定好。」當時的肖像畫畫家們,對於拿相機拍攝人像,有很多的批評和嘲諷。
「但我們知道在幾十年之後,畫家幾乎都會使用相機拍攝的照片作為繪畫時的參考。因為一天內光線的變化非常快,你的模特也不太願意在那兒坐上幾個小時。」
不僅是肖像畫、風景畫,以照片為基礎後期加工完成的數字繪畫創作等,或多或少都因為相機應用,帶來藝術形式變革。
而在社會層面,「照相」也從一種背靠特定階級的特定生活方式,走進市民階級,記錄社會變遷和普通人的日常生活。這種技術力的解放和擴散,隨今天智能手機發展尤盛,普通人以更低廉的成本,更便捷的使用,掌握相機的攝影攝像能力。
可以預見的是,AI繪畫工具的技術迭代用不了像「相機」發展所需的幾十上百年。除了上文提到的DD、DALL·E 2、Midjourney等工具,互聯網大廠們也相繼入局,谷歌的Imagen/Parti、Meta的Make a scene、微軟的NUWA等等。國內的開發者們也致力於接壤全球AI藝術的浪潮,例如正在舉辦「千人共創-AI藝術創作大賽」的Tiamat。
人們對於AI繪畫的使用和認知,時間尚短,其影響力目前還是更多的存在於藝術圈和程序圈。但在未來,AI繪畫是否能像「相機」那樣,跨越階級、圈層,浸潤進普通人生活,是一件引發足夠遐想的事情。
作者:雙橋君;編輯:枕溪;公眾號:互聯網指北