何平:機器制造文學? ——關于當下AI寫作的技術問題
原標題:目前的機器寫作,不是文學,更不能取代作家創作
人工智能技術會不會代替獨立的人,來完成文學寫作?在本期“花城關注”中,作家陳楸帆、王元分別與AI寫作軟件“創新工場”“彩云小夢”合作完成小說的寫作。他們的實踐恰恰證明,AI寫作目前還停留在簡單模仿的層面。人類靈魂的深度,尚不是當前的機器算法所能測量。本文系專題引文。
——編者
這一期的兩篇小說是人和機器共同完成的,雖然最后署的是人名,但我們以楷體字標志出機器完成的部分。和陳楸帆合作的是創新工場的“AI科幻世界”。這款產品可學習和模仿陳楸帆的小說句法和行文風格。而與王元合作的則是網絡上很多人都用的寫作軟件“彩云小夢”。該軟件不是專門為特定寫作者定制的,是一款公共的AI寫作產品。機器(AI)參與到需要人類高級思維和想象能力才能完成的文學、藝術及其他活動在當下不斷成為大眾傳媒的話題,像會唱歌的“洛天依”、會寫詩的“小冰”、會下棋的機器人等。一些對風潮敏感的研究者將這些目前只是依靠大數據、算法等計算機技術的初級文學藝術行為徑直解讀為機器(AI)寫作正在取代人類文學。而事實上卻不是如此。以“小冰”寫詩為例,與文學界的熱捧不同,“小冰”的開發者,微軟(亞洲)互聯網工程院小冰團隊首席科學家宋睿華在2018年10月26日的CNCC技術論壇之“自然語言生成:讓機器掌握文字創作的本領”的演講中就明確表示,機器并不會取代人類寫詩。他在演講的最后以他上幼兒園的女兒的一首即興的小詩為例,認為:“人類在作詩的時候是非常奇妙的,是AI所不能企及的,因此我們的空間還很大。”我理解宋睿華所說的“我們的空間還很大”應該是兩個方面的:一方面是人類的寫作及其他審美藝術的潛力;另一個方面,則是機器(AI)介入審美藝術等領域的前景,這兩個方面都有著遼闊的空間。
普通人對AI的好奇,乃至焦慮和恐懼,和科技進步,和人文社科研究者、大眾傳媒的宣傳有著密切關系;另外一股力量可能來自科幻文藝對未來世界的想象。這種想象典型地體現在宇宙旅行和人工智能上。其中,人工智能很容易讓人聯想到當下的機器(AI)寫作。電影工業產品從20世紀80年代的《銀翼殺手》到新世紀的《攻殼機動隊》等,對人工智能的可能疆域作出了許多開拓,而《銀翼殺手》則由賽博朋克風格的開創者菲利普·迪克的小說《仿生人會夢見電子羊嗎》改編。人工智能也是當下中國文學的熱點話題之一,“花城關注”發表的年輕作者杜梨和周婉京的小說都探索過這一主題。人工智能不局限在我們現在技術上已經實現了并還在拓展的增強身體的領域,而是智能人從類人、近人到“人”,乃至超人的成長。這種生物體和機器的混合體,“既是社會現實的生物,也是虛構的生物”(哈拉維),也就是所謂的“賽博格”。在科幻文藝描述的未來世界中,智能人從為人所用到逃逸出人的掌控和奴役,成為自足的“另一種人”。“它們”與人類一起分享、占有和競爭生存空間,也實現著自身的成長和進化。而最令人憂慮的不只是人和“另一種人”之間交往的諸多倫理問題,在對未來世界的想象中,“另一種人”可能會反噬,甚至轉而奴役人類。
但至少目前的機器(AI)寫作,無論是“小冰”,還是參與王元的《他殺》的“彩云小夢”,還是陳楸帆合作的創新工場,最終的成品并不是自足的文學,只是技術輔助,而且只是初級的技術。說到技術,我們當然要把技術的歸到技術。同時,可以看陳楸帆的實踐和他是怎么說的。
陳楸帆生于1981年,他出生的第二年,1982年,電影《銀翼殺手》上映。2017年陳楸帆開始嘗試與AI共同寫作,這就是《人生算法》這本關于人與AI之間共生的六個故事中的《出神狀態》。下面是陳楸帆自述機器寫作的技術:
GPT本質是一個語言模型,如同物理模型是用來理解和描述這個物理世界的本質一樣,語言模型用來理解和描述語言的本質是什么。人類有世界觀,也有語言觀,比如說語言是什么,構成語言的詞或短語之間的關系又是什么。
簡單抽象來說,語言模型主要用來做兩件事:一是對自然語言做理解,比如給出兩個句子,語言模型會判斷哪個句子更像自然語言、句子里面的詞或短語的依賴關系是什么;二是對自然語言做預測,比如只給出一句話的前幾個字,來預測后面的字是什么。
傳統意義的語言模型主要用在語音識別、機器翻譯、OCR(光學字符識別,即針對印刷體字符,采用光學的方式將其轉換為電子文本格式)等序列到序列任務里,對目標序列做預測和判斷。
最常見的兩種用途之一是,機器會將一句中文翻譯成不同的英文,語言模型會對每句英文翻譯進行打分,從而選擇最優的翻譯。另一種是,在語音識別中,僅說到“我們正在聊……”,語言模型就會預測出,你大概率要說的是“我們正在聊天”,即使沒聽到“天”的聲音就能判斷出你將要說什么話,而聽到的聲音則是這個信號的加強。
如果把訓練一個模型類比成培養一個學生,我們一般遵從一種叫作“先預訓練、后微調”的教學方法。具體來說,我們先給機器很多書本讓他自己讀,這就是所謂的無監督預訓練(pre-training);然后給它很多有答案的題目讓它做練習,這就是所謂的有監督的微調(fine-tuning)。經歷這個學習過程,模型就訓練出來了,接下來就可以對它進行各種考試了,比如說給它一句話,讓它接著寫下一句。
此次與人類配合創作的AI模型來自創新工場DeeCamp 2020人工智能訓練營中的大學生創新項目“AI 科幻世界”,它是一個在一千多塊顯卡上訓練出來的超大規模預訓練模型,用了300GB的中文語料,其參數規模與GPT-2 Large相當,訓練完畢后又用了少量故事數據做微調。今年大火的GPT-3上體現出來的一些模型特色,在“AI 科幻世界”上也能有所體現,“并且是中文的”。
從操作層面看,人類作家與模型的交互十分簡單,只需要給定場景與人物關鍵詞,AI就能自動生成幾個段落供作家們選擇。人類作家可以在其基礎上進行修改,而后AI將在經過修改的前文的基礎上繼續進行創作,如此往復,完成人類作家和AI的“共同作品”。
今天對于AI來說,一些簡單的財經新聞報告已經不是難事,因為這些都是可以結構化處理的語句結構。不過,要涉及文學創作就是另一回事,如果從創作者的角度理解人工智能創作文本的不同階段,最初的階段是用統計學對語言要素進行排列組合,可以創作出簡單的詩歌;后來進階到人工智能在網絡文本數據集里無監督地學習各種符合人類語法的規則和客觀知識、去模擬人類的寫作風格;可能更進一步的是AI可以從一個意象、一段話,去生發出來一個邏輯自洽、人物關系清晰、具有典型敘事結構的完整故事。
所以,至少目前機器(AI)寫作所提供的只是一種技術路徑和文字組合的片段實驗,并沒有實現真正意義上的機器制造的文學。同樣的,王元也持這種觀點,關于《他殺》,7月13日,我和王元在微信上有一個交流。
何平
王元
何平:問一個問題,森北和玄理、“我”和婧、光子和“我”,這三個“小夢”完成的場景是如何選擇的?還是先有其他部分,然后讓“小夢”完成這一段未完成的部分呢?再有,如果選擇中間某一個點,讓“小夢”自由地寫下去,最后邏輯能自洽嗎?(我給王元發了豆瓣小組討論一篇“彩云小夢”完成的小故事,還有一篇關于“彩云小夢”寫作的討論)豆瓣小組的這些故事也是“彩云小夢”完成的嗎?
王元:首先是要在那個“彩云小夢”的在線頁面內進行寫作。我先寫一段,然后隨機點擊生成,就會續寫出幾個自然段,可以挑選一個滿意的,都不滿意,可以重新生成。沒有特別讓“彩云小夢”去生成哪些內容。因為這個在線續寫軟件不夠智能,我在文章中也對生成的文本做了吐槽。
《他殺》里楷體字部分都是生成的,但是經過了修改,不然語義有點太不通順,我已經盡量保留了行文的原貌,以做區別。
豆瓣上那些我不太清楚,也沒有做參考,我只是使用了在線生成功能來完成一次人機交互寫作,對這個軟件沒有做太多了解。這個遠不如“創新工場”編寫的程序好用,使用感并不好,更適合用來寫網文水字數,很難產生真正的互動。
我覺得很重要的兩點吧:一是,“彩云小夢”不能像“創新工場”的寫作軟件可以錄入作者的文本,讓生成的風格貼近作者的敘事語言。二是,生成的本文很多時候與已有故事情節特別割裂,所以體驗感不是很好。
我覺得人機交互寫作是一個非常有趣的嘗試,但要說人工智能取代作者還任重道遠。人工智能更適合生成新聞通稿和報告,這些文本的措辭比較雷同,而且,可以完全避免敏感詞。
何平:《他殺》用的是“創新工場”嗎?
王元:《大成若缺》是“創新工場”寫的,《他殺》是“彩云小夢”寫的。當時“創新工場”的軟件服務費到期不能用了,我就從網上找免費的續寫軟件。
何平:所以我覺得《他殺》里的“彩云小夢”所寫的恰恰證明了“彩云小夢”的程式化。
王元:對,玩一玩還行,正經要靠這個寫作不太夠用。或者說沒有太多驚喜的發散。楸帆的《大有》的機器部分,我覺得比《他殺》要復雜一些。
何平:所以,這種寫作基本上還是嘗試。《他殺》恰恰證明目前寫作軟件不可能完成文學性內容。
王元:相比文學性,我覺得創造性更適合一點。文學性的界定相對模糊。創造性就好說了,就是說給我們一個主題,或者已有的內容,機器能制造出什么?
何平:網文的類型化也許可以適應這種寫作軟件。機器能制造“文學”嗎?這正是我們要討論的話題。
王元:交互寫作是一個人機合作和博弈的過程,得有碰撞才行。兩次寫作感受下來,碰撞都不夠,“彩云小夢”比“創新工場”更差一些。對,一個是網文,一個是通稿。就是類型化比較明顯和簡單的文體。這些相對來說,不用那么多創造性。
至此,我們可以看到當下機器(AI)寫作的大致邊界。介入其中的實踐者是清醒的,聒噪的往往是旁觀者。對我個人而言,也是一次技術啟蒙。想象這個專題之初,受前沿學者和大眾傳媒的蠱惑,我對機器寫作(AI)抱有厚望,希望最終的文本不是“小冰”的詩,而是完整的敘事單元,但最終實踐者陳楸帆和王元所展示的實踐成果,恰恰證明,到目前為止,基于算法和語料的機器寫作(AI)并不能獨立完成“文學”文本,哪怕是小說中的局部片段也不能完美地嵌入陳楸帆和王元的敘事中。而這種不完美,甚至是失敗,對比夸大“小冰”詩歌的完美和成功,正是這個專題的意義所在。“小冰”詩歌的文學性則是詩歌文體本身曖昧模糊為闡釋者帶來了想象的空間。換句話說,“小冰”詩歌的文學性并不是“小冰”“寫”出來的,而是闡釋者“說”出來的。如果真要算文學成就,這個成就只能記在闡釋者的名下。但這不意味著世界范圍內與機器寫作相關的“賽博格”的廣泛討論和憂慮沒有意義,相反,初級的機器寫作已經引發了我們如此多的焦慮和恐懼,如果科幻文學所描繪的賽博空間有一天真正兌現,人類準備好了嗎?
- 劉詩偉:文學的旌幡是文學性[2022-03-08]
- 網絡文學與AI寫作:人機協同演化時代的文學之靈[2021-12-31]