|
|
|
運用自動化標記與分類法於數位典藏資料之研究=A Study on Automatic Tagging and Classification for Digital Archive Collections |
|
|
|
Author |
賴鼎陞 =Lai, Ting-Sheng
|
Source |
數位典藏與數位人文國際研討會(第9屆)=International Conference of Digital Archives and Digital Humanities (9th)
|
Date | 2018.12.18 |
Pages | 157 - 158 |
Publisher | 臺灣數位人文學會 |
Location | 臺北市, 臺灣 [Taipei shih, Taiwan] |
Content type | 會議論文=Proceeding Article |
Language | 中文=Chinese |
Note | 1. 作者為國立故宮博物館。 |
Keyword | Tagging; Classification; Digital Archive |
Abstract | 過去近二十年來,各大博物館、美術館、典藏單位等,陸續執行數位典藏相關計畫,已產出數量龐大的數位影像、後設資料(Metadata)等檔案資料。其中數位典藏影像 資料,可直接使用於傳統或數位媒體的設計,或以影像授權方式,於文創商品領域多元化應用。然而,後設資料的部分,目前僅能透過線上資料庫的形式,提供典藏目錄 查詢、或相關資料檢索,或者以開放資料(Open Data)的形式,供外界自行下載,除此 之外,目前在學術、實務的相關領域,並顯著的創新應用案例。推究其原因,各館所的後設資料皆由各領域專家進行登錄,又屬於結構性、或半 結構性的資料格式,線上資料庫雖可提供欄位檢索、全文檢索等查詢方法,使用者仍需對館藏的內涵有相當程度的瞭解,不然恐難當做研究工具使用。因此,若是資料庫 系統可提供典藏分類,或關鍵字等較高層次的索引,將有提供檢索的效能。然而,若以人工的方式針對檔案進行著錄,恐怕曠時費力,是極待克服的關鍵問題。 本研究的目標,是藉由文字探勘(Text Mining)的相關技術,運用自動化標記 (Tagging)與分類(Classification)方法,應用於數位典藏資料的後設資料分析,以及自動 化索引(Indexing)。本研究所需實驗文本資料是以國立故宮博物院之器物類數位典藏之 後設資料(Metadata),經編整後計約一萬八千餘筆數位檔案。 本研究採用一個系統化的資料處理的流程,在資料層次上,分為:微觀、中觀、宏觀等三個層次的架構。主要運用的技術,是基於文本內關鍵詞(KWIC,Keyword-in- Context)的概念,將目標資料進行索引。索引的方式,是採「中文斷詞」操作,因為目 前的斷詞系統,皆未包含華夏文物相關語料,故作者自行建置典藏專業之「自定詞 庫」。而索引後的資料,將進一步運用預設的分類樹(Classification tree),進行整體資料庫的階層式索引展現。本研究方式也進行不同資料集間的文本分析比較,或是跨資 料集的文本統合分析,可做為實驗設計與評估之用,有助於博物館持續發展數位人文研究的深度和廣度。 |
Hits | 530 |
Created date | 2019.02.13 |
|