DocuSky與文本字詞關聯圖的視覺化應用=DocuSky and its Applications to the Visualization of Text-Term Relationship Graph |
Author |
杜協昌 (著)=Tu, Hsieh-Chang (au.)
Source |
數位典藏與數位人文國際研討會(第9屆)=International Conference of Digital Archives and Digital Humanities (9th)
Date | 2018.12.18 |
Publisher | 臺灣數位人文學會 |
Location | 臺北市, 臺灣 [Taipei shih, Taiwan] |
Content type | 會議論文=Proceeding Article |
Language | 中文=Chinese |
Note | 1. 作者為國立臺灣大學資訊工程系博士後研究員。 |
Keyword | DocuSky; 數位人文研究平台; 詞頻統計=term statistics; 文本字詞關聯圖=text-term relationship graph; 視覺化=visualization; digital humanities; collaboration platform |
Abstract | 數位人文研究的一項挑戰,是利用資訊科技,讓文史研究者能夠以宏觀的視野檢視並探勘大量的文本。傳統上,文史研究者必須透過精讀與略讀的方式,在掃描與審視文 本內容的過程中反覆思考,從而形成研究者的深刻見解。當文本的數量增加,人力閱讀的成本就急速上升。因此,實務上研究者並無法利用精讀或略讀的方式對大量文本進行 分析。他們必須藉助資訊科技,才能從大量文本中擷取感興趣的概念或關鍵字詞,並藉由擷取後的結果對文本進行分析與觀察。本文將簡介一項利用資訊科技分析大量文本的方法:利用DocuSky平台分析文本,將結果繪製成視覺化的圖形,然後藉助這視覺化的呈現來幫助研究者檢視與理解這份分析結果。我們將說明如何利用 DocuSky 建構使用者個人的文字資料庫,並且利用這個平台所提供的StatsTool 對資料庫進行字詞統計分析。我們將定義何謂文本字詞關 聯圖,並利用史丹福大學所開放的Palladio工具,將StatsTool所產生的統計數據繪製 成視覺化的關聯圖。我們也將舉出數個實例,說明文本字詞關聯圖在數位人文領域的可能應用。最後,我們期待可以開發出更多更好的工具,讓研究者可以對文本數據進行更深入的分析與觀察,從而推進數位人文領域的發展。
One challenge in the research of digital humanities is to help humanists explore a large amount of texts with computer technology. Due to the limits of human power, it is impractical or even impossible to ask researchers to read texts intensively or even in a skimming way. One approach is to have computers extract keywords from text so that researchers can explore text properties from the analytic result. In this paper, we introduce the DocuSky platform to help humanists build their own databases. We introduce a notion of text-term relationship graph (TTRG) to represent the relationship between texts and keywords, and adopt online tools to get the visualization of a TTRG. We use several concrete examples to illustrate how a TTRG can help one explore properties in the text. |
Table of contents | 一、導論 二、DocuSky與線上文本建庫 三、DocuSky的StatsTool 工具 四、文本字詞關聯圖與視覺化呈現 五、幾個文本字詞關聯圖的視覺化實例 六、結論與未來展望 參考文獻 |
Hits | 541 |
Created date | 2019.01.28 |
Modified date | 2019.02.13 |
Best viewed with Chrome, Firefox, Safari(Mac) but not supported IE