<abbr id="gucoo"></abbr>
<li id="gucoo"></li>
  • 
    
  • <abbr id="gucoo"></abbr>
    <li id="gucoo"><source id="gucoo"></source></li>
    <rt id="gucoo"></rt>
  • 用戶登錄投稿

    中國作家協會主管

    早期全球“數字魯迅”生產中的文本、媒介與技術 
    來源:《中國當代文學研究》2023年第6期 | 王賀  2023年12月04日15:16

    內容提要:在“數字魯迅”的生產、制作實踐中,其早期階段的歷史頗為重要,但目前這方面的研究才剛剛開始,有欠深入。本文即以1990年后期海外出現的“新語絲”電子期刊、衍生產品“新語絲電子文庫”及其形成的“魯迅作品”這一“文件樹”為討論對象,試圖探究其所代表的早期全球“數字魯迅”生產實踐的基本輪廓、特點及其成因、貢獻以及不足,尤其分析在這一過程中早期計算機用戶/讀者,如何處理魯迅文本、數字媒介與中文信息處理技術、漢字編碼技術之間的互動關系,藉以重建“數字魯迅”的早期歷史及其多元圖景,以使學界能在傳統的文學研究(批評)和文獻學研究之外,從多角度對早期全球“數字魯迅”生產歷史及發生在早期互聯網上的數字文化生產、再生產實踐形成新的理解,同時亦能由此個案研究逐步邁向對“數字文獻學”“數字現代文學”等新領域的探索。

    關鍵詞:“數字魯迅” 新語絲 文件樹 中文信息處理 漢字編碼

    在《追尋“數字魯迅”:文本、機器與機器人——再思現代文學“數字化”及其相關問題》1一文中,筆者曾討論自互聯網瀏覽器誕生以來至2021年的“數字魯迅”生產、制作實踐及其相關問題,并區分了“數字化”“電子化”“文本化”“數據化”“電子版”“電子書”等一系列核心概念、術語。不過,對其早期歷史、尤其2000年之前歷史(以2000年1月出現《魯迅全集》電子版為分界線,將其分作前后期)的討論仍嫌簡略,有欠深入,并認為,諸如 “新語絲”(1994 年 2 月創立,后發展為網站)、“橄欖樹”(1995 年 3 月創立)等數百種電子期刊所制作的“電子化”“數字化”的魯迅文本,“很難被看作(諸如《魯迅全集》電子版、電子書、APP、數據庫等的)‘史前史’或‘早期歷史’的范疇”。本文將致力于修正、補充這一判斷,并將其確立為新的、重要的研究對象(即不同于最早的《魯迅全集》電子版的、新的“數字魯迅”生產實踐)重新予以討論,特別是結合中文信息處理技術、尤其漢字編碼技術的發展歷史,來切入這一討論。在具體的論述過程中,將以“新語絲”電子期刊、衍生產品“新語絲電子文庫”(XYS Electronic Library)及其形成的“魯迅作品”這一“文件樹”為討論對象,并將有關的現象、事件和歷史進程放置于全球語境之中進行考察,2分析這些研究對象所代表的早期全球“數字魯迅”生產實踐的基本輪廓、特點及其成因、貢獻以及不足,以及在這一過程中魯迅文本、數字媒介、漢字編碼技術與早期計算機用戶/讀者之間的互動關系等問題,重建早期“數字魯迅”的生產、制作歷史及其多元圖景。對上述問題的深入探究,不僅有助于我們在傳統的文學研究(批評)和文獻學研究之外,從媒介、技術、網絡基礎設施、數字讀寫能力等多重角度理解全球范圍內早期“數字魯迅”生產、制作的歷史,乃至發生在早期互聯網上的數字文化生產、再生產實踐,還將幫助我們由此個案研究尋找進入“數字文獻學”“數字現代文學”等正在發展中的新領域的路徑,進而豐富我們對這些新領域的認識。

    一、“新語絲”與“數字魯迅”早期生產的開端

    作為電子期刊的“新語絲”(http://www.xys.org),自1994年2月在美國創立以來,不僅擁有正式的國際期刊刊號(ISSN 1081-9207)和固定的出版日期(每月15日),而且從一開始就表明了其為“文化性綜合刊物,登載文學、藝術、史地、哲學等方面的稿件”3的立場,長期開設“牛肆”(隨筆、評論)、“絲露集”(詩歌、散文、小說)、“網里乾坤”(文史哲小品)和“網萃”(中文網佳作選)等欄目。其《發刊詞》更透露出有意繼承1924年在北京創刊,周作人、魯迅等人編輯的《語絲》周刊的辦刊宗旨,但又與之有所不同,這一不同主要由新的媒介——互聯網——帶來:

    幾萬分布世界各地的漢字使用者,黑白紅黃藍各色人等,通過一張無形的網,緊緊地聯系在一起。網里的世界,跟人世間的一切也沒有什么太大的不同。喜怒哀樂,人生的百態在網里一一呈現;酸甜苦辣,人生的百味在網上同樣嘗個夠。雖然林子大了什么鳥都有,網大了免不了會有臭魚爛蝦,一個大家庭免不了會有吵吵鬧鬧;但更多的人,在這里找到了從未見面也許永遠無緣見面的朋友,無數淪落天涯的心靈,因此有了些許的慰藉。更有一些默默耕耘的網友,碼字輸書,傳經送寶,讓大家大開眼界,大長見識,把這些文字匯集起來,乃是一部無與倫比的百科全書。

    因此多少人在此流連忘返,欲罷不能,正所謂“算只有殷勤,畫檐蛛網,盡日惹飛絮。”4

    也因此,雖然編者(創刊號編輯方舟子,審稿竹人、蠢俠、呆子、古平、臺北阿生、小寶、灰人。校對散宜生,其后人員屢有變動,恕不縷述)、作者“之中的大多數人,流落在異國他鄉;更有一些人,曾經滄海,心中傷痕累累。絲者,思也,‘春蠶到死絲方盡’,永遠不變是對祖國故鄉,對親朋愛人的思念之情,綿綿無盡期。值此春節、情人節之際,思念之情更濃更盛。遙望神州,感慨不已”。但卻堅信,“這張網伸到漢字的發源地,讓親人們聽到我們的心聲的日子不會太遠”?!拔覀兘裉焖幙椀摹?,“是未來一張恢恢天網的小小起點”5。換言之,“新語絲”電子期刊不只是一份在網上發行的刊物,或是“幾萬分布世界各地的漢字使用者”的言論空間,更是聯系編者、作者與祖國的紐帶,是流動的、跨越國境的文化生產實踐,是新的“事物、人群、思想和制度之間的流通和交換”6,其意義因此也就無法被單獨放置于當代中國、美國及任何一個國家和地區的界限、語境之內做出內源性的解釋,而必須在全球語境中展開分析。不過,饒有意味的是,從1994年2月創刊至1995年末,“新語絲”電子期刊均未發表(轉載)任何魯迅的文本,以及關于魯迅文學、思想的討論,直至1996年1月“新語絲”出版增刊“周氏兄弟專輯”,“魯迅”才正式進入該刊編者、讀者的視野當中,這也是該刊“數字魯迅”早期生產的開端。但是,我們注意到,直至2000年年末,魯迅文本在該刊(無論正刊、增刊)出現的次數都極其有限(只有1篇,即發表于“周氏兄弟專輯”的魯迅舊體詩《別諸弟三首(庚子二月)》),討論魯迅文學、思想的文章也并不為多(共12篇),最后,即便是將兩者合起來看,其體量仍然只占該刊刊發文章當的極少一部分,幾乎可以忽略不計。換句話說,從組織出版“周氏兄弟專輯”這一做法來看,編者對閱讀、討論魯迅應較一般現代、當代作家格外有興趣,但其后該刊并未出現大量的魯迅文本和有關的討論,而且在其內部呈現出一種顯著的不平衡性:在這七年間,有關的文本、討論只出現在1996—1998這三年,而1994、1995、1999、2000年均與“魯迅”無涉。何以如此呢?原因固然可能很多,但據筆者推測,一個最直接的理由可能是因文獻資料的匱乏所導致的閱讀、利用的不便:一方面當時海外各大學收藏的魯迅著作并不算多,另一方面,更重要的是,在互聯網上,電子化、數字化的魯迅文本實在太少。

    此外,與“橄欖樹”等其他電子期刊不同的是,“新語絲”同人在創辦電子期刊一年四個月之后,很快又創建了“新語絲電子文庫”(以下簡作“文庫”)。據該“文庫”主頁介紹,其“為收藏中文文史資料電子版(國標版)的FTP存檔處,以收藏《新語絲》雜志和中國文學經典作品為主,兼收其他資料,是目前收藏中國文學經典作品最為齊全的公共存檔點”7。實際上,這一在線產品,除了首先是提供大量數字化的、公眾可訪問的、免費的中國文學作品的站點,亦是“一個交互式網站、一個超文本存儲庫,”比“新語絲”電子期刊(以下簡作“期刊”“電子期刊”)這部編者眼中的“無與倫比的百科全書”更像“百科全書”,而其優點亦頗近似于目前全球最大的在線百科全書——維基百科(https://www.wikipedia.org),“用戶可以用非線性的方式瀏覽章節,內容可以包含無限數量的插圖,可以生成動態可視化的材料,并且可以無限制地更新文本,甚至可以開放編輯”8,更不用說幫助讀者超越紙質媒介環境帶來的、可能的限制,使之更加順利地在數字環境中與電子化、數字化的文本進行交互,推進文學與文化生產的進程。當然,官方介紹也透露了“文庫”的具體收藏范圍:

    1.《新語絲》雜志:收藏自《新語絲》創刊(1994年2月)至今的各種版本(GB、HZ、Big5、PS)正刊和增刊。

    2.“新語絲之友”張貼:收藏“新語絲之友”通訊網設立以來(1996年2月)的所有張貼。每月張貼存檔在一個月后公開。

    3.中國經典:該部現有七個分支,分別收藏諸子百家、古典詩歌、古典小說、古文、古典文學評論、古典色情文學和魯迅著作。

    4.電子書籍:該部現有現代文學和文史資料兩部分。現代文學收藏現代、當代著名作家、詩人的作品。文史資料收藏哲學、歷史、宗教等方面的資料。

    5.中文網人作品:收藏活躍在計算機網絡上的中文寫作者的作品,主要為作者本人的結集和互聯網中文新聞組(ACT、ACTB)、中文通訊網(“新語絲之友”“中文詩歌網”)的張貼。收藏的標準是:具有一定的思想性、文學性、知識性或趣味性,并且能夠獨立成篇。對于創作量較多的作者設立個人專欄,其他張貼則分為閑談、故事、小說、文史、科普等幾類收藏。

    6.中文網人照片:收藏活躍在計算機網絡上的中文網人的數字化圖像(gif或jpg格式),個人照每人限定兩幅。9

    其下還注明了投稿辦法和取閱辦法。稱“投稿以作者本人自薦為主,別人推薦為輔。投稿方法有二:1.upload到:xys.org/pub/incoming并通知管理員(xys@xys.org)。2.把文件寄到xys@xys.org”。 “取閱辦法亦有兩種:1. use anonymous FTP: xys.org/pub/xys.注意大多數文件是國標碼,必須用binary transfer. 2.use WWW viewer (lynx, netscape, mosaic):http://www.xys.org;http://xys.asianews.com.”10而從這些沿用至今的官方介紹中,我們不僅可以看出“文庫”的定位、范圍及其特色,更可看出因“文庫”的生產、制作(在此體現為“投稿”“取閱”)深受早期互聯網文件傳輸、存儲技術的影響與限制,而以提供FTP服務為主、互聯網瀏覽服務為輔(即上述介紹中的“use WWW viewer”),且嚴格限定了FTP環境下的文件編碼格式,乃為“國標碼,必須用binary transfer”(對此下文將有深入討論)。但即便如此,經主辦者數十年苦心經營、辛勤耕耘,該“文庫”現已匯集大量中國古代典籍及近現代、當代文學的電子化、數字化文本,成為海內外研究中國文學、文化的重要數字資源,例如,美國杜克大學圖書館就將其列為“中國研究”之“語言與文學”類八種重要的數字資源之一。11不過,值得注意的是,“文庫”雖系在期刊基礎之上建立,但與期刊頗多不同,例如,與期刊擁有眾多編校人員不同,“文庫”的編輯工作似乎主要由方舟子一人承擔。

    隨后,當我們逐一檢查“文庫”自創辦至2000年末全部發表的文章及其記錄(即“新語絲新到資料年月索引”),一個又一個有趣的事實便相繼浮出歷史地表。首先,“文庫”出現與魯迅有關的文本的時間雖較期刊稍晚一些,但與期刊只發表了1篇魯迅文本和12篇魯迅評論不同,“文庫”在這一時間段收錄了至少162篇與魯迅有關的文本。可以說,“魯迅”成為“文庫”這一時期最為經常出現的關鍵詞之一;其次,在這162篇與魯迅有關的文本中,魯迅本人的文本(數字化文本)有73篇之多,占全部與魯迅有關的文本的45%,極大地改善了前此電子期刊所凸顯的、在網上不便或很少能直接閱讀魯迅文本的現象,而這很可能是因為期刊編者注意到了資料匱乏這一問題,然后開始發力,想要在“文庫”中彌補這一缺憾(期刊以體例限制,畢竟發表古代、近現代作家學者作品較少)的緣故;再次,更重要的是,“文庫“從一開始采用的做法是 “數字化”(文本化)而非“電子化”。當時,有些網站在“數字化”名家名作之后,為避免其他網站和用戶任意轉載,又將其轉為圖像發布,亦即使“數字化”的文本退回到“電子化”的圖像階段,12相形之下,“新語絲”同人,甚至當時不少網民,都直接采用了“數字化”這一做法,以便讀者直接查找、復制、粘貼、再創作;最后,這一記錄同時也向我們表明,關于魯迅文本和有關研究、評論的數字化工作,在一開始(1996年9月27日)就被創建為一個獨立的網頁“魯迅家頁”(Lu Xun Home Page,早期被稱作“魯迅作品”),其后隨著架構的不斷完善(如創建子網頁“魯迅全集索引”、子目錄“有關魯迅的新聞報道”等)、數字化魯迅文本的不斷增益、漢字編碼技術(及其標準)在保持相對穩定的過程中逐漸變化等因素的影響,“文庫”不僅迅速發展壯大,其中與魯迅有關的文本,也成為全球中文互聯網上一道獨特、重要的風景,遠遠超出其他的同類型網站、電子期刊。

    然而,這仍然并非是“文庫”有關魯迅文本的全部,亦非其所代表的早期全球“數字魯迅”生產實踐的全部。其實未進入“新語絲新到資料年月索引”這一“文庫”逐日更新目錄(類似于網站“日志”,但在此時仍系人工添加、統計)中的魯迅文本及其電子化、數字化記錄(亦即實際上被收入“文庫”及其“魯迅家頁”者),還有不少。今天,雖然因受限于這些資料大多并未公開發布等因素的影響,我們無法全部統計這些逐日更新目錄之外的魯迅文本,但通過部分已經發布且目前尚能公開訪問的資料,仍可對此一時期“數字魯迅”生產的另一面向,做出一定的觀察。進而言之,也只有將此一面向,與“文庫”逐日更新目錄中呈現的魯迅文本,乃至關于魯迅的評論、報道等文獻資料合而觀之,我們才有可能把握“新語絲”同人、尤其“文庫”所代表的早期全球“數字魯迅”生產實踐。

    二、從文件樹看“數字魯迅”早期歷史的一個側面

    這些已經發布且目前尚能公開訪問的、有限的文獻資料之中的一篇重要資料,乃為用戶名為“江南小樓”在谷歌網上論壇(https://groups.google.com)的發帖。該貼名為《〈新語絲〉文庫目錄》,其正文標題為《“新語絲電子文庫”目錄(1998.8.1)》,其中的一部分內容即為截至1998年8月1日,由該“文庫”已收集的大量的數字化的魯迅文本而構造的一個“文件樹”。 不過,在此首先需要說明兩個問題。

    第一,這里所謂的“文件樹”,并非修辭、譬喻,而是一種計算機科學術語,意為由不同層級的文件所形成的一個樹狀結構,其在不同的操作系統和編程環境下呈現出不同的面貌。“文件樹”與目錄學、文獻學學術傳統中一般所謂的目錄、索引,既有聯系,又有差異,其聯系為共同屬于知識(信息)的組織和表現、發現形式,差異在于“文件樹”尤其早期的“文件樹”時常也包含了完整的不同層級的文件的存儲、訪問路徑信息,而目錄、索引卻很難做到這一點。但是,即便如此,我們仍可以將“文件樹”看作一種特殊的目錄、索引。而在此一名為“魯迅作品”的“文件樹”中,我們可以看出,其以“魯迅作品”為一級目錄,再以魯迅生前出版的作品集及不同的主題建立子目錄,其下依據其間收錄的具體文本,創立了第三級目錄,當然,這些目錄本身同時也代表著它們的存儲和訪問路徑。這種特殊的目錄、索引,從理論上來說,可以與常見的網站、電子期刊的逐日更新的目錄保持一致,但事實上,因為依據不同的標準和原則進行規整,二者往往有所不同:在“文庫”中,逐日更新的目錄(即“新語絲新到資料年月索引”,類似于人工記錄、添加的“網站管理日志”),和這一“文件樹”所顯示的結果也不盡一致。

    第二,這里所謂的“構造”,亦非發帖者“江南小樓”或其他人主觀臆造,或是某人據該“文庫”所收集的魯迅文本再度加工、整理而來(如同目錄、索引,被視作“二次文獻”的原因,就在于其系編纂人員按照一定知識分類標準、規則,對原始文獻進行加工、整理,從而形成了一個新的文獻),而是由計算機自動生成。甚至,從理論上來說,其創建者(在此同時也扮演著技術人員的角色)可以一直在維持它的原貌的同時,不斷地進行更新(加入新的文件和文件層級),“文件樹”也能不斷地生長,而不破壞它的整體結構。當然,在所有這些“構造”的背后,既有技術(代碼、程序),也有知識,體現的是知識的重新組織、表現與發現形式,而就后者而言,任一“文件樹”顯然并非單純的、不同文件的關系的體現,恰是閱讀史、書籍史研究者達恩頓所謂的“知識樹”,是知識變遷、文化脈動、文獻體系構造的一種表現形式。13

    但本文下述討論的重點,并非是從“知識樹”及其相關角度(如知識史、文化史)來分析這一“文件樹”所傳遞的新的知識生產意涵,相反,更多的是從技術史的角度進行的。為便討論,以下先照錄“文庫”所載“魯迅作品”(截至1998年8月1日)這一“文件樹”全景圖:

    ../Lu-Xun/ 魯迅作品

    ..../Introduction.gb 魯迅傳略(方舟子輸)

    ..../yecao.gb 散文詩集《野草》(方舟子輸)

    ..../poetry.gb 魯迅舊體詩集注(座山雕、方舟子輸)

    ..../nahan/ 小說集《吶喊》(不亮輸)

    ..../Panghuang/ 小說集《彷徨》

    ..../Gushi/ 小說集《故事新編》

    ..../zhaohua-xishi/ 散文集《朝花夕識》(蓮波輸)

    ..../pictures/ 魯迅照片

    ....../Lu-Xun1.gif 魯迅照片(青年)

    ....../Lu-Xun2.gif 魯迅照片(1933)

    ....../Lu-Xun3.gif 魯迅照片(1930)

    ....../luxun4.gif 魯迅照片(1930)

    ....../luxun5.gif 魯迅照片(1933)

    ....../luxun6.gif 魯迅照片(1936)

    ....../family.gif 魯迅合家照(1933)

    ....../handwriting*.gif 魯迅手稿

    ....../poetry*.gif 魯迅詩稿

    ..../essays/ 雜文

    ....../fen/ 雜文集《墳》

    ......../index.gb 《墳》目錄(哈哈輸)

    ......../preface.gb 魯迅《〈墳〉題記》

    ......../jielie.gb 魯迅《我之節烈觀》

    ......../nala.gb 魯迅《娜拉走后怎樣》

    ......../genius.gb 魯迅《未有天才之前》

    ......../being_father.gb 我們怎樣做父親(哈哈輸)

    ......../Leifeng_pagoda.gb 論雷峰塔的倒掉(哈哈輸)

    ......../beard.gb 魯迅《說胡須》

    ......../photography.gb 魯迅《論照相之類》

    ......../Leifeng_pagoda2.gb 再論雷峰塔的倒掉(哈哈輸)

    ......../mirror.gb 看鏡有感(海生輸)

    ......../late_spring.gb 魯迅《春末閑談》

    ......../under_lamp.gb 魯迅《燈下漫筆》

    ......../misc_recall.gb 魯迅《雜億》

    ......../tamade.gb魯迅《論“他媽的!”》

    ......../teeth.gb 魯迅《從胡須說到牙齒》

    ......../jianbi.gb 魯迅《堅壁清野主義》

    ......../kuofuism.gb 魯迅《寡婦主義》

    ......../fairplay.gb 魯迅《論“費厄潑賴”應該緩行》

    ......../open_eyes.gb 論睜了眼看(海生輸)

    ......../postscript.gb 寫在“墳”后面(哈哈輸)

    ....../refeng/ 雜文集《熱風》

    ......../preface.gb 魯迅《〈熱風〉題記》

    ......../essay25.gb 魯迅《隨感錄二十五》

    ......../essay33.gb 魯迅《隨感錄三十三》

    ......../essay35.gb 魯迅《隨感錄三十五》

    ......../essay36.gb 魯迅《隨感錄三十六》

    ......../essay37.gb 魯迅《隨感錄三十七》

    ......../essay38.gb 魯迅《隨感錄三十八》

    ....../er_xin_ji/ 雜文集《二心集》

    ......../good_goverment.gb 好政府主義(方舟子輸)

    ......../hard_translation.gb 硬譯與文學的階級性(方舟子輸)

    ......../knowing_and_doing.gb 知難行易(方舟子輸)

    ......../running_dog.gb 喪家的資本家的乏走狗(方舟子輸)

    ....../wei_ziyou_shu/ 雜文集《偽自由書》

    ......../king_way.gb 王道詩話(方舟子輸)

    ......../light_coming.gb 光明所到(方舟子輸)

    ......../sell_soul.gb 出賣靈魂的秘訣(方舟子輸)

    ....../huabian_wenxue/ 雜文集《花邊文學》

    ......./Beijing_and_Shanghai.gb 京派和海派(方舟子輸)

    ......./friends.gb 朋友(方舟子輸)

    ......./new_year.gb 新年(方舟子輸)

    ....../eryi_ji/ 雜文集《而已集》

    ......../literature_and_sweat.gb 文學與出汗(方舟子輸)

    ......../Wei-Jin_manner.gb 魏晉風度及文章與藥及酒之關系(方舟子輸)

    ......../face_of_Chinese.gb 略論中國人的臉(方舟子輸)

    ....../zhun_fengyue_tan/ 雜文集《準風月談》

    ......../body_search.gb 《“抄靶子”》(大隸輸)

    ....../huagai_ji/ 雜文集《華蓋集》

    ......../beida.gb 魯迅《我觀北大》(一華輸)

    ..../criticism/ 魯迅評論

    ....../Mr.Lu-Xun.gb 張定璜《魯迅先生》(方舟子輸)

    ....../death_of_Lu-Xun.gb 林語堂《魯迅之死》

    ....../Liang-Shiqiu.gb 梁實秋論魯迅(南山明輸)

    ....../Li-Zehou.gb 李澤厚論魯迅(方舟子輸)

    ....../Lu_Mei.gb 袁良駿《兩位藝術大師為何不相能?——略論魯迅與梅蘭芳》

    ..../reports/ 有關魯迅的新聞報導

    ..../biography/ 魯迅傳記資料

    ....../zhu-an.gb 魯迅與朱安

    透過這一“文件樹”,我們首先可以看到,此時“文庫”的數字化對象已涉及至少13種魯迅作品集單行本。其中,散文詩集《野草》、小說集《吶喊》、小說集《彷徨》、小說集《故事新編》、散文集《朝花夕識》、雜文集《墳》等6部作品集中的絕大部分篇目已數字化。具體情況如下:

    (1)《野草》收文(此處及以下篇目之統計,均以各書初版本及1938年版《魯迅全集》為主,另外也參考了1973年版、1981年版、2005年版《魯迅全集》,恕不贅述)23篇(不含“題辭”),“文庫”則收文24篇(含“題辭”)。另收有《〈野草〉英文譯本序》(魯迅)及《〈野草〉簡介》(方舟子)二文。《〈野草〉簡介》一文寫得頗為用心,除簡介該集所收篇目的發表、選入教材及作者的自我表述等方面的情況外,還交代了《題辭》被《野草》各版本及魯迅作品集時而收入、時而抽去的原因及具體事實。

    (2)《吶喊》收文15篇(含“自序”),“文庫”亦收文15篇(不計《吶喊》之目錄)。這里需要說明的是,目錄頁,在紙書中雖占一定篇幅、位置重要,但一般并不被看作是一獨立文獻,而到了電子化、數字化的階段,則其必須是一個獨立文件。但即便如此,若是從內容角度而言,尤其是在進行數字化與原有紙質文獻的比較研究、統計,作對齊式的分析時,似可略去。事實上,在“文庫”所收《吶喊》集中,除了獨立的《〈吶喊〉目錄》(尚未歸檔時輸入),還有另外一個目錄,亦即包括了《〈吶喊〉目錄》及集中諸文的目錄(全部文件歸檔整理時產生)。筆者以為,為避免混亂,在統計分析時有必要剔除這兩個目錄,當然,這并不是說它們不重要。下同。

    (3)《彷徨》收文11篇,“文庫”盡收其文。其中有一處明顯的誤植,即在該書目錄界面,錯將《弟兄》一文的題目錄為《兄弟》,但正文中的標題無誤,仍為《弟兄》。

    (4)《故事新編》收文9篇(含“序言”),“文庫”盡收其文。

    (5)《朝花夕拾》收文12篇(含“小引”“后記”),“文庫”盡收其文。另有一《〈朝花夕拾〉簡介》(方舟子),其特色如《〈野草〉簡介》。

    (6)《墳》收文25篇,“文庫”收文20篇(不計《墳》之目錄),未收入的篇什為:《人之歷史》《科學史教篇》《文化偏至論》《摩羅詩力說》《宋民間之所謂小說及其后來》。這5篇文章中,除了《宋民間之所謂小說及其后來》是學術論文,前4篇文章均為魯迅早期的文言論文,它們的意義在當時或許尚未得到充分的認識,因此,也就被遺漏在外了。另外,因為各文的輸入者、校對者均非一人,而是成自眾人之手(需要指出的是,這里筆者并非暗示相反的情形,即由一人完成全部數字化工作,就能保證其文本質量,詳見下文論述),以致各篇目標題是否加書名號、作者魯迅等,亦未能統一?!拔膸?”編者也并未對其統一、對齊,但這并不是由于其未有如此之意識,更多的或是由于FTP環境下文件上傳后,根目錄文件不僅是對文件的命名,而且包含著指定的存儲和訪問路徑,一旦頻繁更名(更名須手動、逐一為之),極易造成混亂這一技術條件造成的。

    另一方面,雖然其數字化的魯迅文本涉及不少魯迅作品集單行本,在所有這些單行本著作中,又以雜文集為多(共8種,在全部被數字化的魯迅作品集中占比約62%,這也與魯迅創作、出版文類數量本身的多寡大概保持一致),但在對這些雜文集所收文章,是否需要全部數字化這一問題上,似乎并未在事先形成明確的、穩定的認識,毋寧說更多地體現出一種主觀性、任意性。對于這一點,我們既可以從這一“文件樹”所收各種雜文集的順序中看出,也可以從其具體對每種魯迅雜文集的數字化過程中所作的選擇中發現。事實上,除了《墳》較多被數字化以外,其余各種雜文集的數字化程度并不平衡。當然,即便有這些林林總總的問題,在這一過程中,也體現出“文庫”編者一定程度的文獻編纂意識:

    (1)《熱風》收文28篇,而“文庫”收文7篇,均為1918年魯迅所作。但這7篇文章,在不同版本的《魯迅全集》(以下簡作《全集》)中,則被合并為2或4篇,即《隨感錄二十五》與《隨感錄三十三至四十三》(1938年版、1973年版);《隨感錄二十五》與《三十三》《三十五至三十八》《隨感錄三十九至四十三》(1981年版、2005年版)。顯然,“文庫”并未采用上述任何一種《全集》的編纂方針,而是將其拆分成了7篇單獨的文章。此外,這7篇文章亦未循例注明輸入者、校對者,可能是從網上搜集而來,并非“文庫”編者輸入,校對。

    (2)《二心集》收文39篇,而“文庫”收文僅4篇,除《知難行易》(應為《知難行難》)系1931年所作外,其余3文均為1930年魯迅所作雜文。另外,這4篇文章在其初版本、各版本的《全集》中的順序,亦非如“文庫”所示。

    (3)《偽自由書》收文45篇(不計附文、“備考”),而“文庫”收文僅3篇,均為魯迅1933年所作。此外,這3篇文章的先后順序,與原書一致。

    (4)《花邊文學》收文62篇(不計附文、“備考”),而“文庫”收文僅3篇,且其編次與原書不同。

    (5)《而已集》收文31篇(不計附文、“備考”),而“文庫”收文僅3篇,其編次亦與原書不同。

    (6)《準風月談》收文66篇(不計“備考”),而“文庫”收文僅《“抄靶子”》1篇。

    (7)《華蓋集》收文33篇,而“文庫”僅收《我觀北大》1篇。而收入此文的原因,或與當時有關北大的新聞事件有關。

    當然,所有這些數字化的魯迅雜文文本,在魯迅的全部雜文創作中,仍只是少數一部分。且不論各集所遺漏的大量文章,僅在這8部雜文集之外,諸如《華蓋集續編》《三閑集》《南腔北調集》《且介亭雜文》《且介亭雜文二集》《且介亭雜文末編》《集外集》《集外集拾遺》(許廣平編)《集外集拾遺補編》(1981年版《全集》編入)等9部雜文集,皆尚未引起“文庫”編者,乃至其他的計算機用戶/讀者注意,而被見棄于“文庫”,有待以后補充。

    但更重要的是,這一“文件樹”也顯示出,還有一些新的魯迅文獻資料已被數字化,不限于其文學作品,尤其新文學作品,其中包括魯迅照片、手稿、詩稿及魯迅舊體詩集注。但對這些文獻資料的數字化,似乎與對魯迅文本的數字化的性質、特點是一樣的,因為其經歷了一個相當長的過程,而且很可能出自眾人之手,因此,其原則并不一致。僅以其照片部分為例,對這些電子化的照片文件本身(皆為.gif文件)的命名,此時已出現兩種格式:其一為“Lu-Xun+序號”,其二為“luxun+序號”;而且,全部7張照片并未按照其形成時間先后編次,顯得有些混亂(這一問題在其后被糾正,并新增了“上海魯迅公園魯迅墓”照片)。不過,對這些照片的出處進行考察,可以幫助我們解決一個重要問題,此即“文庫”編者數字化的魯迅文本(或者至少大多數被收入“文庫”的、經由“文庫”編者數字化的文本),其母本/紙本文獻究竟源于何處?實際上,在“魯迅家頁”主頁,在魯迅照片、詩稿和手稿照片、傳記、年譜與全集文本中間,有兩條分割線,在分割線的居中位置,就寫著“以下作品均據人民文學出版社版校對”一行文字,向讀者表明以下的全集文本“均據人民文學出版社版校對”,但我們知道,在此之前,人民文學出版社已出版1973年版和1981年版兩個版本的《全集》,那么,究竟人民文學出版社出版的哪一個版本的《全集》,抑或該社出版的某一魯迅作品集單行本(這一可能性不能說沒有,但由于魯迅的不同的作品集單行本在1949-2000年間擁有太多的版本,而在學界未對這一版本問題做出堅實研究和可靠結論之前,想要討論這一可能性幾乎無從著手,因此,筆者在此只能排除這一可能),何者才是“文庫”生產、制作“數字魯迅”所依據的底本呢?

    仔細對照、考察這些收入“文庫”及“魯迅家頁”的魯迅照片的電子版、數字版與紙質文獻來源,可得如下結果:

    (1)“魯迅照片(青年)”:實即1903年魯迅旅日時所攝照片,相繼被收入1973年版《全集》第2卷和1981年版《全集》第1卷。

    (2)“魯迅照片(1933)”:攝于1933年5月1日之上海春陽照相館14(如圖1),但“文庫”所收該照片的電子化版本(如圖2),并非原始照片的復制件,而是將原圖進行裁剪、壓縮、重新著色的結果。不過,我們并不清楚這一結果是由“文庫”編者或“新語絲”同人所為,還是由某一網民自其他紙質文獻翻拍,而后予以技術處理得來。此一魯迅照片電子化版本流傳甚廣,至今亦可見于網絡和多種書刊資料,但若是將此二照片作一對照,便可確認“文庫”版本的照片(即網上流行的魯迅照片)并非原照、原圖,恰由對原照進行技術處理而來這一事實。另外,如果不是對照原始照片,我們也很容易將這一“文庫”所收魯迅照片與1981年版《全集》第8卷收入的、魯迅于1931年5月26日為斯諾著《活的中國——現代中國短篇小說選》一書所攝照片(如圖3)混同,將其視作后者翻轉的結果,其實二者雖攝制于大約同一時期,照片中魯迅的神態、發型、衣著等較為近似,但并非同一物。

    (3)“魯迅照片(1930)”:該照片現已無法訪問,此處無法討論。但據筆者推測,此文件[原文件名為“Lu-Xun3.gif”,顯示文件名為“魯迅照片(1930)”]與“文庫”所收第4張照片[即本文接下來要討論的照片,原文件名為“luxun4.gif”,顯示文件名同為“魯迅照片(1930)”]或為同一幅照片,后來“文庫”編者發現了這一點,因此將其予以刪除。

    (4)“魯迅照片(1930)”:攝于魯迅五十壽辰之時,相繼被收入1973年版《全集》第1卷和1981年版《全集》第4卷。

    (5)“魯迅照片(1933)”:攝于上海大陸新村寓所,相繼被收入1973年版《全集》第19卷和1981年版《全集》第4卷。但1973年版《全集》第19卷所收魯迅譯著《豎琴》《一天的工作》并未進入“文庫”。

    (6)“魯迅照片(1936)”:系1936年10月8日魯迅在全國第二回木刻流動展覽會上所攝,收入1981年版《全集》第6卷。但“文庫”所收電子版的色度失調,難以看出魯迅當時所坐藤椅的扶手(原照片左下角位置)和其左方的另一椅背(原照片右上角位置)等細節。

    (7)“魯迅合家照(1933)”:實即1933年魯迅五十三歲壽辰全家合影,被收入1981年版《全集》第5卷。

    在此,我們對上述討論結果作一總結,便可得出以下兩點結論:首先,上述6張照片中,共有3張照片被同時收入1973年版和1981年版《全集》,但在1981年版《全集》中,收入了其中5張照片;其次,如上所述,收入了“魯迅照片(1933)”的1973年版《全集》第19卷所收魯迅譯著《豎琴》《一天的工作》并未進入“文庫”,相形之下,收入了多達5張照片的1981年版《全集》的第1、4、5、6、8卷中的魯迅原創作品集,即《墳》《熱風》、《吶喊》(以上收入第1卷)、《三閑集》《二心集》《南腔北調集》(以上第4卷)、《偽自由書》《準風月談》《花邊文學》(以上第5卷)、《且介亭雜文》《且介亭雜文二集》、《且介亭雜文末編》(以上第6卷)、《集外集拾遺補編》(第8卷)中,一半以上的作品集,均進入了“文庫”。在這兩點結論的基礎之上,我們似乎可以得出這樣的結論:如果“文庫”編者采用人民文學出版社出版的某一版本的《全集》,對魯迅的照片及其文本進行電子化、數字化的話,只有1981年版《全集》才能滿足其絕大多數需要,也就是說,1981年版《全集》而非1973年版甚至更早版本的《全集》,才可能是這一數字化工作的重要紙質文本來源。

    但在針對其照片的數字化工作展開分析之外,配合對其創作文本的研究,我們還可以進一步發現,該“文庫”及此前問世的“新語絲”電子期刊上出現的魯迅文本(含創作文本、照片等),可能并非只有一個版本來源(即1981年版《全集》),而是擁有眾多的版本和文本來源。舉一個小小的例子來說,本節上文曾指出,從這一“文件樹”看,當時被“文庫”數字化的魯迅作品集中,并不包括《集外集拾遺補編》(編入 1981年版《全集》,但并非魯迅生前自定)這一雜文集,但是,在本文第一節論述的、首先出現于“新語絲”電子期刊“周氏兄弟專輯”的魯迅舊體詩《別諸弟三首(庚子二月)》曾編入1981年版《全集》之《集外集拾遺補編》,然而,無論是期刊編者,還是“文庫”編者,顯然都并未意識到這一點,因此,并未在當時(甚至以后)建立《集外集拾遺補編》的目錄和全文,何以如此呢?一個可能的解釋是,他們在數字化這組舊體詩時,很大可能并未參考1981年版《全集》,而采用的是周振甫著《魯迅詩歌注》這一整理本,而在其后,他們也并沒有通檢1981年版《全集》,因此并不知道該組詩系《集外集拾遺補編》所收一文,因此,在“文庫”中僅僅建立了“魯迅舊體詩集注”的目錄和全文,注明了其注釋來源,乃至錄入者、注釋者,且據《魯迅詩歌注》將該組詩列為全部魯迅舊體詩(共六十一首)之首,供讀者閱讀,但并未為《集外集拾遺補編》創建有關的記錄。當然,這與他們在數字化其他的魯迅文本時,采用1981年版《全集》或是其他紙質書籍(如某一魯迅作品集的單行本,甚至是某一選本),也并不矛盾。

    但是,透過這一“文件樹”,我們進一步發現,部分關于魯迅的評論、當代報道、傳記資料,此時也已被數字化并收入“文庫”。與大量被數字化的魯迅文本一樣,其中許多作品也標明了輸入者,或是在文末加上了校對者的大名,體現出“文庫”編者一定程度的文獻整理意識(至于哪些未注明輸入者、校對者的作品,如上所述,也可能來自于其他用戶,是編者從網上搜集而來,而非“新語絲”同人或“文庫”編者所為),及愿意將自己視為這些數字文本的作者的新的作者觀念。不過,這些意識、觀念都不能保證其在文字輸入、整理方面不犯錯誤。在數字化的魯迅文本(這里不討論有關魯迅的報道、評論等類型的文獻資料)中,這些錯誤大致可以分為三類:

    (1)文字輸入時不慎造成的誤植:如《雜億》應為《雜憶》,《知難行易》應為《知難行難》,《京派和海派》應為《“京派”與“海派”》,《新年》應為《過年》,《文學與出汗》應為《文學和出汗》等。

    (2)一些可能是由簡括造成的訛誤:如《我們怎樣做父親》應為《我們現在怎樣做父親》,《喪家的資本家的乏走狗》應為《“喪家的”“資本家的乏走狗”》,《硬譯與文學的階級性》應為《“硬譯”與“文學的階級性”》,《光明所到》應為《“光明所到……”》等。

    (3)在標題之外,具體的正文之中出現的錯誤:如《野草》中的《求乞者》一文的第三、四段,1981年版《全集》作:

    一個孩子向我求乞,也穿著夾衣,也不見得悲戚,而攔著磕頭,追著哀呼。

    我厭惡他的聲調,態度。我憎惡他并不悲哀,近于兒戲;我煩厭他這追著哀呼。15

    “文庫”則作“一個孩子向我求乞,也穿著夾衣,也不見得悲戚,近于兒戲;我煩膩他這追著哀呼。”16其間不僅刊落了“而攔著磕頭,追著哀呼。我厭惡他的聲調,態度。我憎惡他并不悲哀”等語句,還將末句“我煩厭他這追著哀呼”中的“煩厭”誤植為“煩膩”(這很可能是由于下文魯迅曾兩次使用“煩膩”一詞,因而“文庫”編者、錄入者、校對者便以為此處亦宜統一作“煩膩”造成的,但正如孫用所言,該文最早在《語絲周刊》發表時,此處的“煩厭”一語,原作“煩膩”。17只是不知何故,1981年版 《全集》將其改作“煩厭”)。

    顯然,這些不同程度的錯誤,乃至“文庫”其他方面的表現,均向我們表明編者的文獻整理、編纂意識,抑或其所具有的文獻學功力,仍然是相當有限的。還是以上文分析過的、“文庫”中的“魯迅舊體詩集注”為例,實際上,“文庫”所謂的“集注”并非古文獻學領域所謂的集數家、百家之注而總其成,并附上自家見解的文獻整理類著作,或是指代此類整理、研究工作本身,相反,只是據周振甫著《魯迅詩歌注》對61首魯迅舊體詩作一 一加注而已。我們很難想象,一個接受過專業的文獻學訓練的學者,會亂用、誤用“集注”這一再基礎不過的概念,但話又說回來,又有多少專業學者在此時(甚至此后)“觸電”“觸網”,且孜孜矻矻,不憚煩勞,從事此類電子化、數字化的工作呢?

    三、漢字編碼與“數字魯迅”的早期歷史

    其實,無論我們站在今天的立場上(一種后見之明?)對早期的“數字魯迅”生產實踐提出多少嚴苛的批評和質疑,它的開拓性、先鋒性,都是不容置疑的。尤其從數字技術的發展角度來看,上舉這一“文件樹”及其文件命名、格式本身,直接揭示了漢字編碼技術對于早期“數字魯迅”的重要影響,值得深入探究。

    這里我們首先注意到,這些作品(作為電子文件)皆以.gb形式命名,而這里的“gb”正是數字化過程中采用國標碼漢語編碼而制作電子文件時所必須有的特征。那么,為什么在早期的“數字魯迅”生產實踐過程中,被數字化的魯迅文本及其相關資料,沒有采用我們熟悉的.txt、.doc、.pdf、.htm(l)等格式,而是.gb格式?除了“魯迅作品”(截至1998年8月1日)這一“文件樹”,囊括了絕大多數魯迅文本、研究資料的“魯迅家頁”文件目錄,何以也采用了與前者幾乎相同的形式(只是未曾顯示最底層的根目錄文件),大致上仍可視作FTP環境下的“文件樹”這一形式呢?這就與計算機操作系統、網絡傳輸技術、中文信息處理技術,尤其漢字編碼技術的發展密切相關了。

    以下我們先來討論后一問題,即“魯迅家頁”的文件目錄,同樣采用FTP環境下的“文件樹”這一形式的原因。實際上,與我們熟知的、后來成為主流互聯網瀏覽器的Internet Explorer瀏覽器,從1995年開始被內置于各個新版本的 Windows 操作系統(此時尚未成為主流操作系統,取代Unix、Linux系統),成為微軟 Windows 操作系統的一個組成部分——不同,在Windows 操作系統(及其內置的IE瀏覽器)未取得統治地位之前,其他的互聯網瀏覽器如Lynx(適用于Unix、Linux系統的純文字網頁瀏覽器)、Netscape(1994年發布)、Mosaic(1993年發布)等,早已在市場嶄露頭角,擁有大量用戶。因此,在“文庫”之前創生的“新語絲”電子期刊,便為用戶提供了兩個網址(即http://www.xys.org與http://xys.asianews.com),以便其透過互聯網瀏覽器的方式進行訪問、獲取。但是,仍有不少剛剛“觸電”“觸網”的用戶,對此種上網方式并不熟悉,而是習慣于使用FTP上傳、下載、共享、訪問文件,也因此,“新語絲”給讀者提供的第一種使用方式,就是一個匿名的FTP地址: xys.org/pub/xys,并提醒讀者“注意大多數文件是國標碼,必須用binary transfer”。雖然FTP可用多種格式傳輸文件(這通常由操作系統決定),但當時流行的大多數Unix、Linux系統只有兩種模式:文本模式和二進制模式。其中,“文本傳輸器使用ASCII字符,并由回車鍵和換行符分開,而二進制不用轉換或格式化就可傳字符,二進制模式比文本模式更快,并且可以傳輸所有ASCII值,所以系統管理員一般將FTP設置成二進制模式?!倍@正是它們為何要求讀者“必須用binary transfer”(意為“二進制傳輸模式”——引者注)的原因所在,也決定了“文庫”及“魯迅作品”“魯迅家頁”繼承這一做法,而非另辟蹊徑。

    但“文庫”中這些數字化的魯迅文本及相關資料,皆采用.gb這一文件格式,從而生成GB版本的文本,與“新語絲”電子期刊采用GB、HZ、Big5、PS多種版本之間,仍形成明顯的差異。令我們不禁感到好奇的是,何以后者只有一種格式(后來全部改成.txt格式),而前者需要采用多種格式呢?這或許是由電子期刊的公共性質、同人性質,與“文庫”屬于編者(同時也可能是最主要的文字錄入者、校對者)方舟子的個人興趣、行為之間的不同性質所決定的。簡言之,前者是集體合作的產物,而且定期刊出,希望能夠爭取更多的讀者,因此,為便利讀者計,須盡可能多地采用不同的漢字編碼技術,因此也就形成了不同的格式和版本;而后者寄托了方舟子本人的愛好、理想,無論是出于節省時間、精力的考慮,還是長期維系這一工作本身的需要,他都有理由采用一種統一的、單一的漢字編碼格式??墒?,接下來我們需要追問的是,在所有的編碼格式中,其何以只選擇了GB碼,而非其他?

    眾所周知,20世紀七十年代到九十年代的中文信息處理技術,由于技術限制、數據限制和漢語言文字本身的語言特點,相對較為簡單、有限。這些早期的中文信息處理技術,一般包括輸入法、文字編碼、信息檢索等,其中漢字編碼技術尤為關鍵。具體而言,為了在計算機中存儲和處理中文字符,需要制定相應的文字編碼方案。當時被發明并被普遍使用的編碼標準及字符集,就包括GB碼、Big5等。這些編碼方案,允許計算機以數字形式來表示中文字符,從而實現中文信息在計算機中的傳輸和處理。其中,在“文庫”編輯過程中,被一直采用的、作為漢字編碼標準的GB碼(全稱為GB2312-80編碼,亦稱GB2312編碼,簡稱GB碼、國標碼),是一個由國家標準總局于1981年5月1日發布并實施的、針對簡體中文字符集的國家標準。其全稱為《信息交換用漢字編碼字符集——基本集》,共收錄6763個漢字,并對所收漢字作了“分區”處理(每區含有94個漢字/符號),這種表示方式也被稱為“區位碼”。而在此基礎上更新的GBK碼(亦稱HZ編碼),由全國信息技術標準化技術委員會于1995年12月1日制訂,并于當月15日由國家技術監督局標準化司、電子工業部科技與質量監督司聯合頒布。這一新的標準基本上采用了原GB2312-80編碼所有的漢字及碼位,涵蓋了原Unicode(在ASCII碼基礎上建立,1991年10月發布,1992年6月加進漢字即“中日韓統一表意文字集”)19所有的20902個漢字,總共收錄21003個漢字、883個符號,并提供1894個造字碼位,可輸入簡、繁體中文。20兩相比較,后者的優勢更為明顯。

    但引人矚目的是,“文庫”并未采用GBK碼這一新的、更加優良的編碼標準,而是長期維持早已使用中的GB碼這一規范。換言之,“文庫”從創生到1999年年初的中文文本編輯規范,一直采用GB碼而非GBK碼,一定并非偶然,實有意致之。極為概括地來說,除了如前述所言,這一生產實踐本身具有的個人性、私人性(在這里,其不僅與個人愛好、非功利性聯系在一起,而且還意味著一種主觀性、偶然性和一定程度上的不可解釋性)之外,還與“文庫”編者方舟子在網上發帖、發送電子郵件、輸入中文文本等的習慣一致,因不僅是他本人,“新語絲”同人大多曾在中國大陸長期接受簡體字的教育,需要與其他的簡體字用戶在網上保持日常、頻繁的交流,而GBK碼的優勢只有在使用生僻字、繁體字時才能見出其優勢,一般情況下,GB碼已堪其用(當然“文庫”編者,對其限制應有一定認識,這表現在:“文庫”所收魯迅文本中的許多古字、生僻字,亦即不被GB碼字符集收錄的集外字,常不得不被拆分作兩個字或是幾個獨立的偏旁部首的組合,并以此形式表示)??傊绱朔N種考慮,決定了“文庫”如果選擇唯一的漢字編碼格式,就一定是GB碼,而非其他。

    與“文庫”不同,“新語絲”電子期刊除了采用GB碼,還采用了HZ、Big5、PS等另外三種不同的編碼標準,向讀者提供多種可供計算機閱讀的文件格式和版本。其中,HZ字符編碼(亦即GBK編碼)是早期為了在只支持7位ASCII(美國信息交換標準代碼,基于拉丁字母而設計,主要用于顯示英語和常用標點,共128個字符,屬于底層的電腦編碼系統,其他任何語文的編碼皆須與之匹配)系統中顯示、傳輸中文而設計的編碼方式;Big5編碼(亦稱大五碼、五大碼)兼容ASCII系統,是我國臺灣地區推出的繁體中文字符集標準;PS編碼則是指GB18030編碼標準,來自《信息技術漢字編碼字符集 基本集的擴充》這一國家標準,其最新版本是GB18030-2005,最早版本為GB18030-2000,由信息產業部、國家質量技術監督局于2000年3月17日聯合發布,并于2001年1月作為一項強制性的國家標準開始實行。21但我們知道,這一編碼格式晚于該刊的創刊時間(1994年2月),因此,可以推定,這是該期刊在2000年以后為了適應新的中文處理技術、漢字編碼技術而做出的改變,并非一開始就有。易言之,這些不同的編碼技術的被采用,雖然是出于期刊需要照顧不同國家和地區、使用不同的計算機操作系統和互聯網瀏覽器用戶的考慮,但并沒有一開始就被確立為期刊的在線編輯原則之一,而是隨著技術的發展不斷地擴充,為了最大程度上滿足此后讀者的需要和期刊內容存檔的需要,而并非僅僅是同時代讀者的需要。

    但“文庫”難道就不用考慮早期及以后計算機用戶/讀者的需要,而不斷做出改變嗎?實際上,其長期采用GB碼生成的、GB版本的文件的可擴展利用的功能,受到它本身的限制頗多。除了使用互聯網瀏覽器,或是 Genome Compiler 等專門的軟件,或FTP方式進行訪問、閱讀,讀者若是想對其作進一步的復制、粘貼、編輯等操作,遠不如其他格式、版本的文件來得更加便利。在使用了五年多的GB碼之后,“文庫”全部文件的格式統一改為.txt也正說明了這一不足,及編者因應這一不足的努力。具體來說,隨著1990年代中后期不同計算機操作系統之間的充分競爭,尤其是Windows操作系統的不斷普及,以及其中集成的“記事本”這一軟件的深入人心,越來越多的用戶開始希望使用與“記事本”相匹配的(亦尤其生成的).txt格式文件來閱讀各種文檔、資料,故此,1999年1月31日,“文庫”發布了一條通知:“1/31, 應IE用戶要求,所有文件名稱從.gb改為.txt。”至此全站文件都改為了.txt格式,可以被便捷地閱讀、復制、粘貼、編輯,而由“文庫”所代表的早期“數字魯迅”生產實踐,由此也走出了GB碼編碼時代,進入了ANSI(在中文操作系統中指GBK,日文系統中是JIS,英文系統中則是ASCII)和UTF-8、UTF-16編碼時代,這些新的編碼技術(及其形成的文件)既可兼容中文繁簡體,也有更豐富的擴展功能,更方便讀者利用。而在這一文件格式的轉換過程中,方舟子應該是利用計算機編程語言,開發出了專門的、相應的程序(即包括“代碼轉換工具”在內的諸多程序),從而能夠將GB碼文件自動轉換為能夠閱讀GB碼的txt、html等純文本文件,從此延續至今(當然這里頭并不包括他后來完全放棄GB碼,而采用新的漢字編碼標準的文本)。

    經由對上述問題的討論和分析,我們可以更進一步看到,漢字編碼技術在早期“數字魯迅”的生產,其實扮演了一個非常關鍵、基礎的作用。在公共層面,對于“新語絲”同人(尤其是期刊編者)而言,他們希望嘗試采用不同的編碼標準如GB碼、HZ、Big5、PS等,以此生產不同的魯迅文本及有關文獻資料(數量極為有限),但在個人層面,“文庫”編者仍更青睞于與自己的教育背景、文化背景、交際需要關系密切的GB碼,并根據自己的興趣、選擇和當時能夠利用的紙質文獻、數據資源,不斷對魯迅文本及有關資料進行數字化,進而創造了一副新的、不同于期刊的“魯迅像”,這其中既有魯迅的肖像、照片、手稿、新舊文學文本,也有大量關于他的報道、評論、傳記資料等,不啻為另一版本——或是早期數字版本——的“魯迅全集”,甚至我們或許完全可以將其視作一種新的“魯迅全集”版本,因為究其本質而言,這一數字化的“魯迅作品”,并非既有的、任何一種紙質“魯迅全集”的電子版、數字版或鏡像產品,亦非是現成的、某一“魯迅作品”目錄及其全文的復制件,而是一種新的人工創造(artifacts),一種利用新的、自動化的機器和技術對魯迅文本進行編碼(這里我們不是從這一術語的提出者斯圖亞特?霍爾的角度來使用它,恰是在其原初的意義上)、解碼的文化生產實踐,一種“數字魯迅”生產實踐。

    當然,在這一中文信息處理技術之外,網絡基礎設施、數字讀寫能力等方面的因素,也在不同程度上參與了“數字魯迅”的早期生產,乃至對早期“數字魯迅”的接受過程當中。在這一生產過程中,“文庫”編者除了無償付出大量時間和精力,還需要不斷解決來自服務器、網絡、硬盤存儲等與數字文化生產息息相關的、多方面的計算機軟硬件問題。例如,1999年12月24日,方舟子在“新語絲”發布了一封寫給“兩個多月以來投過稿或來信聯系的讀者”的“通知”,就透露出其所遭受的、來自硬盤存儲方面的困擾:

    我的PC硬盤在一周前損壞,目前仍然未修復。自10月5日到12月18日之間的新文件和信件有可能全部丟失。如果您在此期間曾經向我投過稿而未見登出,或者來信約稿、商量廣告適宜(應為“事宜”之誤——引者注)而未見答復,請重寄一遍。多謝!23

    而在接受過程中,“新語絲”的用戶,一開始較多地集中于海外的中文讀者群體,但到了1990年代后期(有研究者認為,“到1998年,互聯網抵達了世界各國”24),尤其是2000年以來,已引起越來越多的中國大陸的計算機用戶/讀者的注意。當然這也與此時中國大陸家庭電腦擁有率、全國上網計算機數和用戶數日益增長的趨勢相符。據調查,1996-2000年間,中國大陸家庭電腦的擁有率以年均38.2%的速度遞增,而不同層次的城市在家庭電腦市場發展中也表現出明顯差異,其中,北京、上海和廣州等一線城市的家庭電腦擁有率為全國最高,已達到28.1%,而二三線城市則相對發展較緩慢,這當然與一線城市居民的人均收入較高,能夠支付當時頗為高昂的電腦安裝費用、上網費用等因素直接相關(全部費用一般大約在4000元至5000元甚至更高)。25不過,若是將這一數據放置在全球范圍內來看,似仍不夠搶眼,因與此同時,美國家庭電腦普及率高達51%,26日本家庭個人電腦普及率也已達到38.6%。27

    另一調查則顯示,2001年,在北京、上海、廣州、大連、成都、西安六大城市,已有40%的家庭擁有電腦,其中58.7%的家庭,是在去年(即2000年——引者注)新購置的電腦,全國大中城市的電腦普及率(含家庭電腦擁有率——引者注)有望在是年年底達到70%。28其中上海的家庭電腦擁有率,在次年(即2002年——引者注)已高達44%,甚至有記者預測道,以此發展速度,到2002年底,平均每2戶就將擁有1臺電腦,“與1997年平均每10戶上海人還分不到1臺電腦、普及率只有8%相比,發生這種‘跨世紀’的變化僅僅用了5年”29。

    此外,來自官方的調查報告,雖選用了不同的調查指標,但其呈現的互聯網發展趨勢,與上述兩種“民調”結果大致相符。中國互聯網絡信息中心(CNNIC)自1997年12月1日發布《第一次中國互聯網絡發展狀況調查統計報告》起,以每年1-2次的頻率發布的中國互聯網絡發展狀況調查統計報告顯示,大約在同一時期,我國上網計算機數和上網用戶數均實現了大幅增長(如下表1、圖4所示,其中所有原始數據,均抽取自這一官方調查報告,即第1-7次調查統計報告),據此亦可核算出此時我國上網計算機數的年平均增長率為32.24%,上網用戶數的年平均增長率為30.2%30:

    與這些來自中國大陸各大城市的計算機用戶開始經常訪問、使用這一網站,閱讀這些作品同時,中國大陸作家、學者有關魯迅的評論、討論,以及其發表在國內的報章雜志和互聯網上的有關報道等,也以急劇增長的速度,被源源不斷地加入“文庫”當中。簡言之,大量的用戶,尤其是來自中國大陸、使用簡體中文進行日常交流和學術寫作的用戶,可以利用家庭電腦、個人電腦訪問互聯網的用戶,為期刊、“文庫”帶來了大量的內容,而且是高質量的內容,而這正是互聯網這一數字媒介在當代文化生產中,與它的用戶互相成就、得以發揮作用的根本原因之所在。具體到早期“數字魯迅”的生產、接受過程中,伴隨著作為“20世紀90年代全球最重要的事件”的中國經濟的飛速增長31、中國大陸網絡基礎設施的不斷改善、計算機用戶和上網用戶的快速增加及其數字讀寫能力等方面的變革,在互聯網上不僅出現大量的、與魯迅有關的用戶生成內容(User-generated content,簡稱UGC),提升了“新語絲”電子期刊、“文庫”本身的質量,使“數字魯迅”像變得更加豐富、多元,也使得“新語絲”同人生產的“數字魯迅”本身產生了更多、更大的影響。盡管這方面的直接證據較少,但一則資料卻可以幫助我們間接地證實這一猜想。2000年5月1日,一篇不題撰人的小說《阿Q》在“新語絲”發表,小說正文之前由編者加上的下面這段話,就從側面顯示了“新語絲”當時在國內引起的強烈反響:

    (摘自“新語絲?讀書論壇”http://www.xys.org/cgi-bin/mainpage.pl新語絲海外站點被中國方面屏蔽,國內網友可從新語絲國內版“新到資料”的鏈接進入)

    質言之,如果說“新語絲”電子期刊、“文庫”的“數字魯迅”生產實踐,一開始還只代表了全球范圍內少數精通計算機和網絡語言,又對中國文學懷有濃厚興趣的用戶的文化生產之舉的話,那么,在1990年代后期特別是2000年以來,經由中國大陸家庭電腦擁有率、全國上網計算機數和用戶數的日益增長,已使其生產實踐發生了不小的改變。這一改變首先體現在生產者的構成上,即由以在海外的中文讀者,擴充到在國內的中文讀者(盡管他們在大多數時候并非是期刊、“文庫”的編者),但更重要的變化則體現為:在此之前、已經出現在網上的、數字化的魯迅文本,為讀者提供了部分可資討論的、可利用機器讀寫的文本基礎和文獻資料,但在此之后,這一未完成的“數字魯迅”生產實踐,反過來又進一步激發了人們對魯迅文本及相關資料進行電子化、數字化的熱情,正是這兩個方面的互相影響,交相輝映,構筑了早期(1990年代至新世紀初期)“數字魯迅”生產的歷史圖景與“數字魯迅”像的基本輪廓。

    事實上,在無遠弗界的互聯網世界,苦心孤詣于制作“數字魯迅”、傳播其文學與學術思想者,又何止“新語絲”同人?2000年7月24日,“新語絲”曾發布一則簡短的消息,其標題為:【新網站】《魯迅全集》(1981年版)索引(德語界面)。但這是一條標題新聞,并無其他內容,正文即鏈接到其所謂的“新網站”的網址。雖然由于原網址已失效、網站至今已蕩然無存等因素的影響,此一德語版《魯迅全集》(1981年版)索引工作,而今我們已不能識得廬山真面,但這一消息本身,恰恰再清楚不過地表明,此時在英語區之外,德語區也有讀者不約而同地展開了“數字魯迅”生產實踐。而這些來自不同語言文化區域、不同形式的“數字魯迅”生產實踐,不僅同樣構成了全球范圍內早期“數字魯迅”生產歷史的一個方面,也再一次預言了魯迅文學與學術思想在數字時代所具有的不朽魅力。由此,這些豐富的數字文化生產、再生產實踐,也再一次向我們提前揭示了(但在當時或許并未引起人們察覺的)一個樸素的真理:“有價值的、藉由紙質媒介傳播的人類文明遺產,在數字時代,一定不會黯然失色,相反,仍將會光彩奪目、熠熠生輝?!?2

    更進一步來說,重新檢視這一早期全球“數字魯迅”生產、制作歷程的意義,并不在于幫助我們確認這樣一個事實,此即漢字編碼等方面的信息處理技術深刻地影響了早期“數字魯迅”的生產、制作,使之產生了紙質媒介、文獻難以創造的成就的同時也具有明顯的不足(無論其數量、質量)。更重要的是,也讓我們得以發現:在其不足的背面和后面(未來),藉由無數讀者、計算機和互聯網用戶的努力,在海內外中文用戶/讀者共同以魯迅作為當代思想文化重要資源和數字文化發展的重要數據資源這一觀念的驅動下,早期全球“數字魯迅”生產實踐的局限性也恰以技術之力,被不斷地超越、克服。這主要表現在兩個方面:一方面,關于魯迅文本的電子化、數字化版本,在“新語絲”電子期刊、“文庫”及其他同類型的網站上,此后被接連不斷地生產出來,成為人們利用計算機這一新的工具進行閱讀、討論的對象,紙質文獻由此逐漸退出我們的日常閱讀、專業閱讀和非專業閱讀,與紙質媒介有關的、一整套閱讀和寫作技術、文化由此迎來了它最大的競爭對手;另一方面,關于魯迅文學與學術思想的對話、交流,也得以跨越時空,跨越國境,跨越族裔、代際和職業分工,跨越太平洋,在互聯網上大規模、迅速、即時地展開,而且,對話、交流的結果可以被我們以同樣的方式復制、保存、傳播、再利用,使交流和互動方式的“持續化”成為了可能(取代了舊的“社會化”的形式)33,由此一開始可能僅僅只是作為文本、文獻(或是紙質文獻的替代品、補充)而存在的“數字魯迅”生產實踐,逐漸轉變成為豐富、多元的數字文化生產、再生產實踐,當然,不可否認的是,它們同時也是作為實踐的技術(規范性技術?救贖式技術?二者兼具?)本身34,以新的、隱蔽性的、規范性的方式,從原初(當我們獲得這些文本的方式、時候)就影響了我們對魯迅文本的理解,介入了數字時代我們的魯迅觀、文學觀、文本觀、文獻觀的建構。

    然而,無論是在“新語絲”電子期刊、“文庫”中出現的“數字魯迅”像,還是流傳于早期互聯網上的諸多電子化、數字化的魯迅文本,畢竟都只是魯迅全部創作文本和與之相關的大量文獻資料(其中之一部分即為評論、研究資料)、實物資料、口述資料當中的一小部分,兼以其文本質量并非全部可以信任、許多文本并無可靠的版本來源、亦無頁碼因而不便在學術研究中引用,乃至如何將文本匹配不同的工具、載體和界面,持續優化其閱讀效果等問題的長期存在,全球“數字魯迅”的生產實踐其實自始至終,就面臨著層出不窮的、新的挑戰,而如何回應這些挑戰、順利解決這些大大小小的難題,便成為其后尤其新世紀以來“數字魯迅”生產實踐的重要任務;此后至今的發展路線,因之亦得以大致劃定。這仍然體現為兩個方面:一方面,數字化、文本化、數據化的魯迅文本被繼續制作,由此產生了《全集》電子書、APP、數據庫、機器人魯迅等不同形式的應用,更加有效地連接起了科學、技術、文學和文化,為魯迅文本的日常閱讀、專業閱讀、非專業閱讀乃至其他的利用、研究方式(如文本數據挖掘、分析)創造了新的途徑;另一方面,隨著可便攜文件編輯技術(以Adobe公司開發的Portable Document Format文件處理程序、文件格式為代表)等的發明與逐漸普及,依據某一可以信賴的紙質版本的《全集》而對其進行掃描、加工,制作相應的、優良的電子版(亦可有多種格式),逐漸成為許多計算機用戶/讀者(尤其專業讀者)的優先選擇。而這一切,無一例外,不僅已經且正在為其后我們通過包括個人電腦、手持終端在內的各種工具、界面所閱讀、感知的“數字魯迅”賦形,也構成了“數字文獻學”“數字現代文學”等正在發展中的新領域的重要課題,尚須一探再探。

    [本文為國家社科基金重大項目“中國現當代文學思潮中的古典傳統重釋重構及其互動關系史研究”(項目編號:21&ZD267)、上海市“數字人文資源建設與研究”重點創新團隊項目、“上海市人才發展資金資助計劃”中期成果]

    注釋:

    1 參見王賀《追尋“數字魯迅”:文本、機器與機器人——再思現代文學“數字化”及其相關問題》,《文藝爭鳴》2021年第11期。

    2 6 33[德]S?康拉德:《全球史導論》,陳浩譯,商務印書館2018年版,第3、3、120頁。

    3 4 5 《新語絲》創刊號,網址為:http://www.xys.org/xys/magazine/GB/1994/xys9402.txt,2023年6月26日檢索。

    7 9 10 《(新語絲)電子文庫簡介》,網址為:http://www.xys.org/lib_intro.html,2023年6月26日檢索。

    8 組論小組:《紙還有未來嗎?一部印刷文化史》,傅力譯,北京聯合出版公司2021年版,第7頁。

    11惜其簡介多所錯誤。該網站對《新語絲》的簡介為:“《新語絲》為文化性綜合刊物,登載文學、藝術、史地、哲學、科普等方面的稿件,只刊登創作稿,不登文摘稿。目前設四個欄目:‘牛肆’(隨筆、評論)、‘絲露集’(詩歌、散文、小說)、‘網里乾’(文史哲科普小品)和‘網萃’(個人或專題選集)。《新語絲》創刊于一九九四年二月,《新語絲》為月刊,每月十五日出版,并不定期出版專題增刊。自一九九七年一月起《新語絲》開始出版多媒體版?!眳⒁姟禠anguage & Literature-Chinese Studies-LibGuides at Duke University》,網址為:https://guides.library.duke.edu/c.php?g=289252&p=1929075,2023年6月27日檢索。

    方舟子:《網文原來有“中心”》,網址見http://www.xys.org/xys/netters/Fang-Zhouzi/Net/wangwen2.txt,2023年6月27日檢索。

    13[美]羅伯特?達恩頓:《屠貓記:法國文化史鉤沉》,呂健忠譯,新星出版社2006年,第202-228頁。

    14參見黃喬生《毛衣照》,《魯迅像傳》,貴州人民出版社2013年版,第272頁。

    15魯迅:《求乞者》,《魯迅全集》第2卷,人民文學出版社1981年版,第167頁。

    《野草》,網址見http://www.xys.org/xys/classics/Lu-Xun/yecao.txt,2023年6月30日檢索。

    17孫用編:《〈魯迅全集〉校讀記》,湖南人民出版社1982年版,第148頁。

    博客水木:《FTP中Binary二進制與ASCII傳輸模式的區別》,網址為http://www.4u4v.net/ftp-in-binary-and-ascii-transfer-mode-binary-difference.html,2023年6月27日檢索。

    參見《The Unicode Standard ? Version 1.0》,網址見https://www.unicode.org/versions/Unicode1.0.0,2023年6月27日檢索。

    計算中心:《GBK編碼》,網址見http://jszx.cuit.edu.cn/NewsCont.asp?bm=00&type=1009&id=20567;天使在唱歌7:《字體里面GB和GBK有什么區別?》,網址見https://zhidao.baidu.com/question/568647091.html,2023年6月27日檢索。

    21此處的有關分析,筆者得到了友人中山大學信息管理學院陳濤副教授的指教,書此謹申謝悃。

    《新到資料(1990.01.)》,網址見http://www.xys.org/new9901.html,2023年6月27日檢索。

    23《【通知】兩個多月以來投過稿或來信聯系的讀者請注意》,網址見http://www.xys.org/doc/crash.txt,2023年6月26日檢索。

    24[英]詹姆斯?柯蘭、娜塔莉?芬頓、德斯?弗里德曼:《互聯網的誤讀》,何道寬譯,中國人民大學出版社2014年版,第43頁。

    25《徹底調查:國內家庭電腦升溫普及率15.5%》,網址見http://tech.sina.com.cn/it/e/2002-09-17/1519139139.shtml,2023年6月28日檢索。

    26竹子譯:《報告顯示美國家庭電腦普及率達51%》,網址見http://tech.sina.com.cn/hardware/news/2000-10-17/39208.shtml,2023年6月28日檢索。

    27蔣道鼎:《日本家庭個人電腦普及率達38.6%》,網址見http://tech.sina.com.cn/news/it/2000-04-24/23528.shtml,2023年6月28日檢索。

    28趙建華:《中國大中城市家用電腦普及率年末可達到70%》,網址見https://tech.sina.com.cn/h/n/69516.shtml,2023年6月28日檢索。

    29張懿:《上海人數字化升級家庭電腦普及率達44%》,網址見http://tech.sina.com.cn/it/e/2002-08-25/1054134566.shtml,2023年6月28日檢索。

    30此處的統計分析,得到了我的同事上海師范大學全球城市研究院助理研究員張舒博士的幫助,謹此致謝。

    31[英]J.M.羅伯茨:《全球史》,陳恒、黃公夏、黎海波等譯,東方出版中心2013年版,第1236頁。

    32王賀:《人工智能時代人文學的危機與新生——從陳子善文話、書話、樂話及其與學術研究之關系談起》,《小說評論》2023年第5期。

    34對現代技術、尤其傳播技術的性質及其對真實世界的影響的討論,請參考[加]厄休拉?M.富蘭克林:《技術的真相》,田奧譯,南京大學出版社2019年版,第161-186頁。

    [作者單位 :上海師范大學中文系 數字人文研究中心]

    [本期責編:鐘 媛]

    [網絡編輯:陳澤宇]

    主站蜘蛛池模板: 久久午夜夜伦鲁鲁片无码免费| 国产特黄特色的大片观看免费视频| 香蕉在线精品视频在线观看6| 亚洲成综合人影院在院播放| 久久综合精品不卡一区二区| 中文字幕欧美在线观看| 美国式禁忌3在线观看| 麻豆69堂免费视频| 免费一级片在线| 国产女人乱人伦精品一区二区| 国产精品不卡视频| 中国一级片在线观看| 日本毛茸茸的丰满熟妇| 久久久噜噜噜久久熟女AA片| 极品艳短篇集500丝袜txt| 久久精品一区二区三区中文字幕| 欧美精品色婷婷五月综合| 色综合天天综一个色天天综合网| 永久久久免费浮力影院| 岛国免费在线观看| 国产一区二区三区不卡在线看| 欧美日韩亚洲国产千人斩| 国产日韩av免费无码一区二区| 老头一天弄了校花4次| 欧美黄成人免费网站大全| 香港aa三级久久三级不卡| 国产免费卡一卡三卡乱码| 日韩美女视频网站| 一本大道无码人妻精品专区| 亚洲综合20p| 亚洲黄色免费网站| 亚洲精品成a人在线观看| 国产丝袜一区二区三区在线观看| 国产综合色在线视频区| 娇喘午夜啪啪五分钟娇喘| 国产在线观看麻豆91精品免费| 欧美交a欧美精品喷水| 日本娇小xxxⅹhd成人用品| 日本精品啪啪一区二区三区| 日本精品久久久久中文字幕| 北条麻妃在线视频观看|