欧洲成人全免费视频网站,97精品人人妻人人,亚洲av最新在线网址

數(shù)字人文的文學(xué)之維 ——相關(guān)軟件介紹與未來軟件展望

來源：文藝報(bào)　|　耿弘明　　2020年06月29日09:47

數(shù)字人文（Digital Humanity）旨在以數(shù)御文，是一種交叉學(xué)科研究方法，學(xué)者用各類數(shù)字技術(shù)探索人文、社科現(xiàn)象，得出量化結(jié)果并將其進(jìn)行可視化呈現(xiàn)。在世界范圍內(nèi)，自羅伯特·布薩（Roberto Busa）編纂托馬斯·阿奎那的著作索引始，數(shù)字人文研究經(jīng)歷了由無到有、由少到多的演變，在英美學(xué)界相關(guān)雜志陸續(xù)誕生，相關(guān)項(xiàng)目層出不窮，名稱和定位也經(jīng)歷了由人文計(jì)算（Humanities computing）到數(shù)字人文的改變。究其大略，其演進(jìn)與計(jì)算機(jī)技術(shù)的發(fā)展呈正相關(guān)關(guān)系，90年代起私人電腦的廣泛普及促進(jìn)了其研究的豐富，近些年人工智能技術(shù)的熱潮，更對(duì)其有推波助瀾之勢(shì)。

在中國，錢鍾書先生獨(dú)具只眼，最早察覺之，授意并助力在社科院啟動(dòng)相關(guān)研究。2000年以后，國內(nèi)相關(guān)研究日漸豐富起來，相關(guān)會(huì)議陸續(xù)召開、有關(guān)公眾號(hào)和雜志陸續(xù)誕生。如今，數(shù)字人文方法在歷史學(xué)界、社會(huì)學(xué)界應(yīng)用較廣，常通過gephi、metlab等數(shù)字工具構(gòu)建社會(huì)網(wǎng)絡(luò)，從而理解歷史潮流大勢(shì)走向。而具體到文學(xué)研究領(lǐng)域，這種研究方法的應(yīng)用尚且有限。

談到數(shù)字人文方法在文學(xué)界的應(yīng)用，我們不妨戲仿韋勒克的觀念，將其分為外部研究與內(nèi)部研究。所謂外部研究，指的是通過社會(huì)網(wǎng)絡(luò)分析法，將作家生平、交游、空間走向等可視化，通過作家的外部數(shù)據(jù)分析，可以了解作家的接受程度，以及它與后代讀者、研究者之關(guān)系。外部研究依賴于相關(guān)數(shù)據(jù)的整理工作，例如，布朗大學(xué)的“WOMAN WRITERS PROJECT”項(xiàng)目，致力于收集和整理收集了16世紀(jì)至19世紀(jì)中葉被忽視的女性創(chuàng)作或合著的作品，這類工作也被稱為“數(shù)字檔案館”。

而數(shù)字人文的文學(xué)研究有一個(gè)更有魅惑力的領(lǐng)域——數(shù)字化“內(nèi)部研究”，可以對(duì)于文本進(jìn)行內(nèi)部分析，不妨稱之為“量化新批評(píng)”，也可對(duì)于某些詞匯和語篇的歷史變化進(jìn)行分析，不妨稱之為“量化概念史”，它最終會(huì)幫助發(fā)現(xiàn)一段歷史的文學(xué)內(nèi)部構(gòu)型，與傳統(tǒng)研究法有頗多可對(duì)話之處。毫無疑問的是，此類研究非常依賴于相關(guān)工具的成熟，本文將介紹幾類國外的相關(guān)軟件工具，呈現(xiàn)國外此類研究的樣貌和走勢(shì)，以期為國內(nèi)相關(guān)研究提供參照。

“WordHorad”是一款文學(xué)語言分析軟件，它的開發(fā)者將他們的行為稱為“在解鎖語言的寶藏”，的確，通過高度標(biāo)記化的語料數(shù)據(jù)，以及對(duì)這些數(shù)據(jù)分布規(guī)律的發(fā)掘，我們可以獲得觀察這些虛構(gòu)文學(xué)文本的另一只眼睛。“WordHoard”主要通過關(guān)鍵詞提取和互相呈現(xiàn)的方法，對(duì)文學(xué)文本進(jìn)行研究，在“WordHoard”的官方示例中，它展示了一些有趣的案例，例如“l(fā)ove”一詞的研究，它在喬叟、莎士比亞等人那里呈現(xiàn)的不同拼寫特點(diǎn)，在不同的歷史時(shí)期有著不同的分布規(guī)律，通過對(duì)“l(fā)ove”進(jìn)行統(tǒng)計(jì)，研究者得出了很有趣的結(jié)論：在各類敘事文本中，愛被男性說出的次數(shù)多于女性，在喜劇類文本中，被女性說出的次數(shù)則是男性的三倍，這一結(jié)果揭示了“l(fā)ove”的文本秘密，愛要怎么說出口？這非常值得文學(xué)史家的重視和進(jìn)一步分析。

案例還提供了關(guān)于4位大作家的語言統(tǒng)計(jì)表——

通過這樣的表格可以發(fā)現(xiàn)，荷馬、喬叟、斯賓塞、莎士比亞的風(fēng)格與他們所處時(shí)代的變遷得到了一種獨(dú)特的呈現(xiàn)，通過主題詞的變遷，我們能夠窺見不同時(shí)代的文學(xué)主題與不同作家的文本主題，達(dá)成對(duì)一位作家語言無意識(shí)的理解。就名詞而言，在莎士比亞的所有文本中，愛是出場(chǎng)率第四高的名詞，只有主（lord）、人（man）和先生（sir）三個(gè)詞出場(chǎng)率高于愛，而其他三位作家所使用的最高頻名詞則沒有愛（love），無論莎士比亞是偉大的愛情謳歌者，還是偉大的愛情質(zhì)疑者，愛都是其一個(gè)重要表現(xiàn)和反思主題。

谷歌是人工智能領(lǐng)域的領(lǐng)頭羊，而谷歌圖書中收錄的大量書籍，谷歌搜索中存在的大量網(wǎng)頁文字?jǐn)?shù)據(jù)，以及谷歌學(xué)術(shù)中的學(xué)術(shù)文字記錄，都為構(gòu)建這樣一個(gè)龐大的語料庫有所助益。它出品的在線工具“Google Ngram viewer”主要基于谷歌圖書的語料庫，方便展現(xiàn)不同語詞在歷史上的整體變化。通過輸入想要查找的關(guān)鍵詞，便可以看到在相關(guān)語料中，隨著歷史發(fā)展，相關(guān)詞語的變化趨勢(shì)。例如，筆者將時(shí)間限定為1940-2000年，鍵入孔子、孟子、老子、莊子、朱熹等中國歷代思想家，可以發(fā)現(xiàn)，它們歷年在數(shù)據(jù)庫中的權(quán)重變化，這一數(shù)據(jù)顯示，孔子無疑是最有熱度的思想家，與學(xué)者和相關(guān)論者的思想勾連也最為密切。

再如，可以選取幾位當(dāng)代作家，如莫言、余華、王朔，觀察自1980年代以來，在紙質(zhì)書數(shù)據(jù)庫中他們的權(quán)重走勢(shì)。

可見，這些走勢(shì)也值得文學(xué)史家的注意，如果加入更多的比較維度，無疑會(huì)誕生更多有趣的研究成果。

21世紀(jì)，自人工智能技術(shù)得到了重要突破后，自然語言處理（NLP）相關(guān)技術(shù)得到了突飛猛進(jìn)，如今大數(shù)據(jù)、人工智能等關(guān)鍵詞人盡皆知，而機(jī)器翻譯、語音識(shí)別、人機(jī)對(duì)話等功能也在手機(jī)端得到了廣泛的應(yīng)用，我們的日常生活常常與它糾纏為一體。自然語言處理技術(shù)對(duì)文學(xué)產(chǎn)生了一定影響，促生了引發(fā)廣泛爭議的“機(jī)器人寫詩”現(xiàn)象，引得無數(shù)文學(xué)從業(yè)者困惑于詩歌的邊界，也引得諸多哲學(xué)家討論人類與機(jī)器的邊界。另一方面，自然語言處理技術(shù)對(duì)文學(xué)研究也產(chǎn)生了很多介入的可能。

建立在自然語言處理基礎(chǔ)上的相關(guān)研究，為文學(xué)研究提供了新的可能。“NLTK”全稱為"Natural Language Toolkit"，是賓夕法尼亞大學(xué)發(fā)布的自然語言處理工具，幾乎是聲名最為響亮的處理工具，它需要通過計(jì)算機(jī)python語言來操作和使用，該模塊中包含了大量的語料資源，如《圣經(jīng)》、莎士比亞的《哈姆雷特》等多部戲劇、簡·奧斯丁的小說、惠特曼的詩集等，除此之外，它也包含路透社的新聞文檔、美國總統(tǒng)的演講集、一些電影劇本原文、網(wǎng)友的網(wǎng)絡(luò)論壇聊天記錄，其文本含量不可謂不豐富，源自不同歷史階段的詞語儲(chǔ)備不可謂不全面。而“NLTK”中的內(nèi)置函數(shù)和功能，則有助于深度挖掘文本的表達(dá)結(jié)構(gòu)，細(xì)致探索其語言模式，詳盡勾勒其語言地貌。例如“similiarity”函數(shù)有助于幫助計(jì)算詞匯相似度，“l(fā)en”函數(shù)有助于發(fā)現(xiàn)文本的復(fù)雜程度，“concordance”函數(shù)有助于發(fā)現(xiàn)某些特定詞匯的上下文等等。

在官方相關(guān)示例中，一些獨(dú)特的研究結(jié)果已經(jīng)被呈現(xiàn)出來，例如，在不同時(shí)代的美國總統(tǒng)演講中，總統(tǒng)想強(qiáng)調(diào)的重點(diǎn)自然不同，那么“citizen”和“american”兩詞的使用頻率有什么變化？有關(guān)研究人員對(duì)其進(jìn)行了一種可視化呈現(xiàn)。

同樣，也可用它對(duì)中文文本進(jìn)行研究，例如，某些特定的人名在作家魯迅的文本中的分布狀況如何呢？筆者采用python中的nltk模塊繪制了如下分布圖。

眾所周知，魯迅先生自己的求學(xué)讀書階段，受章太炎、梁啟超、托爾斯泰等影響深遠(yuǎn)，之后與梁實(shí)秋、林語堂發(fā)生過學(xué)術(shù)爭論。不過，胡適成了分布最廣泛的人名。

“Gephi”是一款進(jìn)行網(wǎng)絡(luò)分析的軟件，自復(fù)雜科學(xué)成為學(xué)術(shù)熱點(diǎn)，復(fù)雜網(wǎng)絡(luò)圖譜的繪制成為諸多學(xué)科中的必備技能，如傳染病網(wǎng)絡(luò)、神經(jīng)網(wǎng)絡(luò)、金融網(wǎng)絡(luò)、物流網(wǎng)絡(luò)等。而“Gephi”可以應(yīng)用于文學(xué)內(nèi)部研究領(lǐng)域，繪制一部作品內(nèi)部的語言網(wǎng)絡(luò)。例如，通過對(duì)魯迅作品中形容詞進(jìn)行統(tǒng)計(jì)分析，可以發(fā)現(xiàn)其內(nèi)部語言網(wǎng)絡(luò)。

不過，目前這些軟件大部分集中于英文處理，基于相對(duì)完備的英文語料庫，同樣也基于西方世界，尤其是美國在計(jì)算機(jī)科學(xué)方面的領(lǐng)軍地位，和西方世界人文社科學(xué)界的前沿視角。而中文語料庫以及建立在其之上的研究板塊，呈現(xiàn)出一種缺失。近些年，作家走走的團(tuán)隊(duì)已經(jīng)致力于開發(fā)中文文本分析的軟件，對(duì)文學(xué)雜志《收獲》中的文學(xué)作品和網(wǎng)絡(luò)文學(xué)進(jìn)行分析，并取得了可觀的成果。不過，更值得期待的是這一領(lǐng)域的成果日益豐富，觀點(diǎn)百花齊放，為傳統(tǒng)文學(xué)史與文論研究提供了另一種參照。

類似的中文文學(xué)文本分析工具還有待豐富。不過，如今自然語言處理技術(shù)的發(fā)展，人工智能的發(fā)展，以及通用人工智能（AGI）的暢想，為這種豐富提供了一種可能，筆者對(duì)這樣的一款文學(xué)通用軟件做出如下暢想——

首先，它能夠進(jìn)行基本的詞頻分析，和建立在詞頻以及權(quán)重分析上的詞語分布研究，通過它，我們可以發(fā)現(xiàn)不同作家和不同時(shí)代的文本差異。例如，20世紀(jì)20年代中國文學(xué)的高頻詞是哪些？與30年代有何不同？京派文學(xué)與海派文學(xué)可以通過這種方式得到量化的區(qū)分嗎？唐宋之爭中的唐詩宋詞，是否存在文本關(guān)鍵詞分布的明顯差異？

其次，建立不同的詞典庫，針對(duì)不同詞性的分布進(jìn)行具體分析，這些包含基本的動(dòng)詞、形容詞、名詞等，也可以通過專門詞典的建立，分析某一類（如文論類，哲學(xué)類詞）的分布。例如，魯迅先生最愛用哪些動(dòng)詞？美學(xué)家朱光潛最喜愛引用哪些人名？當(dāng)代文學(xué)理論和文學(xué)史類教材里哪些概念出現(xiàn)頻率最高？這些都是饒有趣味的文體。

再次，通過基于lstm原理和tensorflow的操作方式，通過情感計(jì)算來探索文本的情感分布奧秘，發(fā)現(xiàn)文本的情感曲線和走勢(shì)圖，窺探不同作家的情緒世界，不同批評(píng)家的情感風(fēng)格，以及某一時(shí)代的讀者群落的精神風(fēng)貌。韓愈散文的情感走向與南朝駢文有何不同？網(wǎng)絡(luò)玄幻小說的情感走向較之傳統(tǒng)武俠小說有何變化？

最后，在目前技術(shù)達(dá)不到的一些方面，還可做出更豐富的暢想——一款未來軟件，或未來編程語言的模塊，也能總結(jié)敘事類型，比較文本語言差異等，讓傳統(tǒng)學(xué)者的文學(xué)分析功力更有效地施展，讓計(jì)算機(jī)的研究結(jié)果和批評(píng)家的研究成果可以達(dá)成互為補(bǔ)充的效果。

那么，能否實(shí)現(xiàn)一個(gè)未來的中文文學(xué)研究軟件呢？它的可行性和可能性邊界在何方呢？事實(shí)上，除了技術(shù)的進(jìn)步，它還需要有龐大的文學(xué)語料庫資源，包含紙質(zhì)文學(xué)與網(wǎng)絡(luò)文學(xué)作品，包含紙質(zhì)出版物的文學(xué)評(píng)論與網(wǎng)友評(píng)論，在這一方面，紙質(zhì)文本高準(zhǔn)確率的數(shù)字化處理需要完成，版權(quán)也成為了某種限制。也許，全知全能型的研究軟件短期還不能實(shí)現(xiàn)，或許我們也不期待它出現(xiàn)。而且，在重新審視中國文學(xué)與文論變遷上，輔助性較強(qiáng)的軟件絕對(duì)可以發(fā)揮非常重要的作用。較之于莫萊蒂的遠(yuǎn)讀法，新的細(xì)讀法仍有其價(jià)值，不過它是一種新的細(xì)讀法，不妨稱之為數(shù)字細(xì)讀法或量化細(xì)讀法，這樣的讀法在國內(nèi)剛剛起步，這樣的數(shù)據(jù)庫等待建立，而這樣一款研究軟件則充滿誘惑。