運用自動化標記與分類法於數位典藏資料之研究=A Study on Automatic Tagging and Classification for Digital Archive Collections

賴鼎陞 =Lai, Ting-Sheng

作者

賴鼎陞 =Lai, Ting-Sheng

出處題名

數位典藏與數位人文國際研討會（第9屆）=International Conference of Digital Archives and Digital Humanities (9th)

出版日期

2018.12.18

頁次

157 - 158

出版者

臺灣數位人文學會

出版地

臺北市, 臺灣 [Taipei shih, Taiwan]

資料類型

會議論文=Proceeding Article

使用語言

中文=Chinese

附註項

1. 作者為國立故宮博物館。

關鍵詞

Tagging; Classification; Digital Archive

摘要

過去近二十年來,各大博物館、美術館、典藏單位等,陸續執行數位典藏相關計畫,已產出數量龐大的數位影像、後設資料(Metadata)等檔案資料。其中數位典藏影像資料,可直接使用於傳統或數位媒體的設計,或以影像授權方式,於文創商品領域多元化應用。然而,後設資料的部分,目前僅能透過線上資料庫的形式,提供典藏目錄查詢、或相關資料檢索,或者以開放資料(Open Data)的形式,供外界自行下載,除此之外,目前在學術、實務的相關領域,並顯著的創新應用案例。推究其原因,各館所的後設資料皆由各領域專家進行登錄,又屬於結構性、或半結構性的資料格式,線上資料庫雖可提供欄位檢索、全文檢索等查詢方法,使用者仍需對館藏的內涵有相當程度的瞭解,不然恐難當做研究工具使用。因此,若是資料庫系統可提供典藏分類,或關鍵字等較高層次的索引,將有提供檢索的效能。然而,若以人工的方式針對檔案進行著錄,恐怕曠時費力,是極待克服的關鍵問題。本研究的目標,是藉由文字探勘(Text Mining)的相關技術,運用自動化標記 (Tagging)與分類(Classification)方法,應用於數位典藏資料的後設資料分析,以及自動化索引(Indexing)。本研究所需實驗文本資料是以國立故宮博物院之器物類數位典藏之後設資料(Metadata),經編整後計約一萬八千餘筆數位檔案。本研究採用一個系統化的資料處理的流程,在資料層次上,分為:微觀、中觀、宏觀等三個層次的架構。主要運用的技術,是基於文本內關鍵詞(KWIC,Keyword-in- Context)的概念,將目標資料進行索引。索引的方式,是採「中文斷詞」操作,因為目前的斷詞系統,皆未包含華夏文物相關語料,故作者自行建置典藏專業之「自定詞庫」。而索引後的資料,將進一步運用預設的分類樹(Classification tree),進行整體資料庫的階層式索引展現。本研究方式也進行不同資料集間的文本分析比較,或是跨資料集的文本統合分析,可做為實驗設計與評估之用,有助於博物館持續發展數位人文研究的深度和廣度。

點閱次數

524

建檔日期

2019.02.13

提示訊息

您即將離開本網站，連結到，此資料庫或電子期刊所提供之全文資源，當遇有網域限制或需付費下載情形時，將可能無法呈現。

修正書目錯誤

請直接於下方表格內刪改修正，填寫完正確資訊後，點擊下方送出鍵即可。
(您的指正將交管理者處理並儘快更正)

序號
581175

檢索策略

瀏覽