2015年11月20日專題報告摘要

場合:全球視野下的漢學新藍海國際研討會 (International Conference on New Territory for Chinese Studies)

地點:Nataional Central Library, Taipei

講題:Textual analysis of complete Tang poems for discoveries and applications: A computational perspective

共同作者:Chao-Lin Liu, Chun-Ning Chang (張淳甯), Chu-Ting Hsu (許筑婷), Wen-Huei Cheng (鄭文惠), Hongsu Wang (王宏甦), and Wei-Yun Chiu (邱偉雲)

相關報導:漢學研究通訊 34:3(總 135 期)民國 104 年 8 月號,第 23‒28 頁



唐詩是中國文學極重要的一部分,《全唐詩》於清康熙年間由官方力量所編纂、收錄兩千餘位詩人所著,內容四萬多首詩歌 、包含超過三百萬字,無疑是研究唐詩最重要的資源之一。本文作者利用計算語言學領域所發展的學術理論和軟體工具,透過分析《全唐詩》的內容,作多方面的探索。

《全唐詩》之中,白居易的作品數量最多,有兩千五百餘首,其次杜甫有一千餘首,李白接近九百首,其他依序為:齊己、劉禹錫、元稹、李商隱、貫休、韋應物、陸龜蒙、劉長卿、許渾和皎然有超過五百首作品。

本論文以李白和杜甫做為比較個別詩人風格的例子,觀察李、杜詩歌之中的「風」與「月」;分析詩歌中的顏色詞彙,就如電影中的聲光效果,並利用一些詩歌的對仗限制,我們可以發現顏色詞彙的運用。

《全唐詩》同時也揭露了詩人的社會網路,詩歌的標題和內容記錄了一些詩人之間的贈詩、互訪、想念的關係,可以做為詩人社會網路分析的部分依據。《全唐詩》因此對於史學資料庫,如哈佛大學的「中國歷代人物傳記資料庫」的擴充有極高的價值。在《全唐詩》中至少有八位詩人的 15 首詩歌提到李白。《全唐詩》也可以用來當作一些文藝活動的典範語料,以全唐詩中詞彙對仗的狀況,我們可以建構簡單的對對聯的程式,以常見的對仗詞對來回答現代的對聯;只是偶然會用到一些非現代常用的詞彙,例如「長安」。

透過這一系列的工作,我們實踐了數位人文領域的初步理想,數位技術雖然尚且不足以直接被用來建立深度的人文論述,但是透過相關的資訊檢索、文本分析和資料探勘的服務,數位技術讓專家可以比過去更加專注於深度議題的研究,而不需要花很多時間來蒐集基礎的研究資料。