數位人文時代的閱讀技術
以中國中古文學研究為例
羅珮瑄
政治大學中國文學系博士
中央研究院中國文哲所博士後研究
滴水空明數位人文空間
[email protected]
滴水空明數位人文空間
ethereal drip-drops
主持人:劉苑如研究員
中央研究院中國文哲所
數位人文研究歷程
研究團隊成員
展覽故事:書與人
2021年中央研究院院區開放活動
  • 「書」的歷史
  • 「誰」在讀書
  • 物質與媒介
  • 閱讀與傳播

書與人- 2021院區開放活動

書與人- 2021院區開放活動

人們總說,當代人越來越不讀書了,書即將從我們的生活中消失……真的是這樣嗎?回看歷史,書籍有各種不同的樣貌。除了你熟知的裝訂紙張,甲骨、竹簡、卷軸,也都是一種「書」。這些過去的書,在歷史的長河中演變至今——書並非只有一種樣子,可以說只要文字還在,「書」就不會消失。就連你現在所讀的這段文字,也是一種「書」。

葉德輝藏書閣
─清末民初文人的知識圖譜平台─

葉德輝藏書閣

首頁

  • 以晚清文人葉德輝的藏書閣出發,擴及清末民初重要藏書家和出版家葉昌熾、繆荃孫、江標等,從其經眼、收藏、校勘、輯佚、序跋、校注、彙編、出版書籍等活動,及所建構的「人─書─人」的交流網絡,探討古籍與新刊所構成的知識圖譜。
  • 視覺展示上,從人物傳記、書籍資訊、行跡地圖、社會網絡等方面,展現中國現代化知識建立的過程,以及新、舊時代人物碰撞、和解與相互影響的故事。
  • 資料庫則是提供結構化的交叉檢索功能,期望協助專業讀者探索晚清文人與書籍的互動交流。
演講大綱
Part 1: 閱讀技術的變革
從臺灣的數位典藏發展談起,探討數位文本型態的變化,說明「數位文本」在數位人文研究當中的多樣性,而閱讀文本的人──如果我們把電腦當作機器人的話──是怎麼進行閱讀活動?
Part 2: 數位閱讀
分享中研院中國文哲所劉苑如研究員所主持的研究團隊「滴水空明數位人文空間」的數位閱讀個案,從研究者的問題意識出發,如何選擇工具、探索方法、建置資料庫、以及成果展示。
Part 3: 工具與思維
介紹目前在中國中古文學研究領域中經常使用的資料庫與數位工具。
Part 1: 閱讀技術的變革
以臺灣為中心開展的數位人文學

1970
計算語言學
討論漢字的編碼問題、建立漢語語料庫,主要進行語言學、音韻學、方言、辭彙等方面的研究。

1980
數位典藏時代
對於重要的中國古代文獻進行數位典藏,建立大型資料庫,除了可以全文瀏覽,最重要的是提供各種檢索工具。

2008
數位人文宣言
The Digital Humanities Manifesto(數位人文宣言)提倡這種新的研究範疇應該生成「全球導向」的知識。

2015
臺灣數位人文學會
臺灣學界自2010年開始每年定期舉辦數位典藏與數位人文國際學術研討會(DADH),2015年成立臺灣數位人文學會(TADH),出版專書與刊物《數位典藏與數位人文》。

現在
數位人文學
人文學科與資訊科學進行多元的跨領域合作,並開始形成方法論上的反思。
參考資料:
  1. 徐力恆、王濤:〈數位人文: 跨界與爭鳴〉,收入蔣竹山主編:《當代歷史學新趨勢:理論、方法與實踐》(新北:聯經出版事業股份有限公司,2019年),頁539-565。
  1. 林富士:〈數位考證:人文學者的新素養〉,《數位典藏與數位人文》第5期(2020年4月),頁1-35。
  1. 徐力恆:〈華文學界的數位人文探索:一種「史前史」的觀察角度〉,《中國文哲研究通訊》第30卷第2期(2020年6月),頁107-127。
數位文本的型態
模仿印刷書籍
  • 各式電子閱讀器
主題式資料庫
  • 工具書資料庫
數位閱讀
  • 運用分析工具
  • 視覺化
讀者

遠讀(distant reading)與細讀(closing reading)

View more

作為讀者的電腦與機器人

View more

機器學習(Machine Learning)與人工智慧(AI)

機器學習是人工智慧 (Artificial Intelligence, AI) 的衍生項目,旨在教導電腦從鉅量的資料中學習,改善使用經驗和輸出結果的精確度。在機器學習中,系統會訓練演算法以尋找大型資料集中的模式和關聯,並根據該分析制定最佳決策和預測。機器學習應用程式可改善使用狀況,並更精確取得存取的資料。 類神經網路(Artificial Neural Network, ANN)是根據生物大腦神經元建立的模型,人工神經元稱為節點,於多層中叢集且平行運作。人工神經元收到數值訊號會進行處理,並傳訊號要求另一個神經元進行連接。如同人類的大腦,神經強化可以改善模式辨識、專業知識與整體學習能力。 這種機器學習之所以稱為「深度學習(Deep Learning)」,是因為包含許多層神經網路,以及大量複雜且離散的數據。為了實現深度學習,系統會與多層神經網路互動,萃取出更高層次的結果。 機器學習包含不同類型的學習模式,並使用各種演算技術,根據資料的性質和期望結果,可以採用監督式、非監督式、半監督式或強化式共四種學習模式。在各個模式中可以套用一或多種演算法技術,取決於使用的資料集和預期結果。機器學習演算法主要用於分類事物、辨識模式、預測結果,並做出周全的判斷。分析複雜且難以預測的資料時,您可以選擇使用一種演算法,或是組合多種演算法以達到最佳的準確性。 AI宣戰:自然語言處理與ChatGPT 人機共讀與共作

Part 2: 數位閱讀個案
疾病感覺地圖 (2019)

COVID-19 的人文社會省思

COVID-19 的人文社會省思

在史語所研究員陳熙遠帶領下,與近史所特聘研究員康豹組織的「COVID-19人文社會科學短期研究小額補助計畫」合作,蒐集疫情爆發以來院内的人文研究、科研成果,為疫情期間中研院社會參與之目錄、入口,完整保存中研院參與社會、回饋社會的紀錄。

魏晉南北朝筆記小說疾病文本的細讀與遠讀

《清華中文學報》第22期(2019年12月),頁49-115 「疾病事實─疾病情緒」權威詞共現圖 疾病敘述當中所呈現出來的情緒表現,皆為人之常情,體現出漢魏六朝文學對生命無常之悲哀與感傷的基調,伴隨著面臨病苦的怖懼與怨憤。 「疾病事實─人際關係」權威詞共現圖 基於父母妻子兄弟的倫理關係,在病苦之際往往最易形成問疾與侍疾的照護關係,然而君、女、士、人(一人、有一人)等高強度辭彙的共現,則提醒讀者留意倫理關係以外的人群,這些人群包含有軍隊的將士、地方的鄉人、僧道人士、甚至還有完全不認識的陌生人與鬼神化現,顯然涉及了魏晉南北朝小說的文類特質,及其所在的社會文化語境,該如何詮釋遠讀所揭示的現象,必然得再重回文本細讀的脈絡。 「醫藥─疾病結果」權威詞共現圖 出現頻率最高者為死、亡兩種負面結果,且二者處於共現圖的中心位置,「葬」、「卒」、「病亡」等關鍵詞則環繞於外。疫、癘、瘟和癩等字頻,可看出小說世界中,疾病往往籠罩在濃厚的疫病死亡陰影之下,此種現象應與東漢至六朝晚期接連出現的疫癘有關,同時魏晉南北朝小說本身具有怪異非常的性格,病亡常成為此界與彼界的交界點,許多冥遊、仙遊者都曾歷經病亡階段。在小說世界中,療癒的比例遠遠低於死亡結局者。

遊方:歷代僧傳僧人的出行敘述 (2022)

遊方與佛教傳播:歷代僧傳移動與空間的數位人文研究

《數位典藏與數位人文》第11期(2023年4月),頁1-49 長安為歷朝最熱門的遊方地點,作為遊方事件起點共265次(佔總體遊方事件比例19.31%,以下括弧內百分比皆指此),作為終點共337次(20.57%),作為中繼點為146次(19.43%)。圖中的百分比則以直向的欄位計算,為該朝代該地點的遊方比例,如隋唐五代時期長安作為遊方起點共計254次,佔該朝代遊方起點33.96%,建康(南京)則為68次,佔9.13%。然而至宋元時期,遊方事件的起點重心轉向杭州(85次,27.6%)與明州(寧波,40次,13.99%),上一時期的起點熱點長安與建康則逐漸沒落,長安僅剩1次(0.32%),建康則剩25次(8.12%)。 第二象限之地區發展最早,可以說其他象限的陸路佛教傳播主體源自此處,起始於東漢,於魏晉南北朝時有所發展,隋唐時達到頂峰,宋元以後則已衰退,唯五臺山一處逆勢成長;第一象限之地區則於南北朝時開始發展,隋唐時相對平穩,但在數量上遠不及第二象限;第三象限發展情況大致如第二象限,肇始於東晉之際,然宋元後仍有穩定發展;第四象限於三國時代開始零星發展,南北朝時為快速成長期,隋唐時雖略微趨緩,宋元以降則成為遊方之主流區域。整體而言,北方發展較早,但隨著中唐以後當地社會、經濟遭受嚴重破壞,其發展較不如南方穩定;南方雖起步略晚,然社會、經濟發展較為穩定,且未遭受大規模破壞,即便政治中心(如北宋首都之開封、元及明之首都北京)北移,南方佛教之發展仍較北方持久與穩固,東晉、南宋兩次大規模經濟、文化中心之南移,也為此處佛教發展提供了助力。 細部分析這些熱點可以發現,長安、洛陽、建康、鄴、開封、杭州、北京等地曾為各朝首都,成都則是西南地區發展重心,其政治、經濟、文化尤為鼎盛。作為各朝首善之區,帝王、官員的信奉支持,致使名僧聚集,並形成具有體系的義學中心,吸引遊方僧前往受學問道。除都市本身外,其鄰近之名山大寺亦是吸引遊方僧駐錫處,如長安之終南山,洛陽之嵩山,建康之鍾山、攝山、雨花台、牛首山等,杭州之天竺山、徑山等,這正與嚴耕望論東晉南北朝佛教「大抵以都市為中心,擇近地山林沿交通衢道而發展」的觀點相順。 會稽(紹興)、吳郡(蘇州)是建康以外重要的遊方點,早在佛教初傳的東漢已有安世高在此活動,西晉南遷人口也以此兩地作為都城外主要活動地點,當地士族對於佛教的信奉,使境內名剎甚多,亦不乏名僧駐足。位於閩江下游的福州亦是因南遷人口而逐漸發展的城市,其時序略晚於吳、越一帶。 僧人棲隱山嶽修行是中國佛教在地化的重要特色,如廬山是慧遠的駐錫點,並成為諸方人士參訪的對象;山少林寺被視為是禪宗祖庭;天台宗則因天台山而起名;五臺山因文殊信仰普及而「聖山化」,成為僧人參訪朝聖的要地;衡山則為五嶽之一,同屬佛、道棲隱的名山,故若加上各朝首都鄰近之山寺,山嶽為遊方僧行止之所的情況相當普遍。

Part 3: 工具與思維
GIS工具
  1. ArcGIS (昂貴的商業軟體,有些學校或單位會購入)
  1. QGIS (網路上常見的免費軟體)
  1. google earth/google map (商用軟體)
SNA工具
  1. Gephi (免費軟體)
  1. Pajek (免費軟體)
  1. kumu (可免費試用的商用軟體)
文本標記
  1. TEI Tools (Text Encoding Initiative/一種文本編碼格式)
  1. Markus (荷蘭萊頓大學)
文本分析工具
  1. 詞夾子 (政治大學劉昭麟)
  1. MAXQDA (可免費試用的商用軟體)
  1. Tableau (可免費試用的商用軟體)
  1. 漢詩格律分析系統 (台灣大學蔡瑜)
資料庫
  1. 佛學規範資料庫 (法鼓文理學院)
  1. 小學堂 (中央研究院)
資料庫軟體與研究平台
  1. 中央研究院數位人文研究平台 (中研院數位文化中心)
  1. notion (綜合型可免費試用的商用軟體)
  1. Airtable (線上資料庫/可免費試用的商用軟體)
展示與學術網站
  1. 故事地圖 (Storymap)
  1. 中央研究院開放博物館 (中研院數位文化中心)
  1. 近代婦女期刊資料庫 (中研院近代史研究所)
  1. 疾病感覺地圖 (中研院中國文哲所)
  1. MHGIS 近代歷史地理資訊平臺 (中研院近代史研究所)
迎接新的可能!
Made with Gamma