運用自動化標記與分類法於數位典藏資料之研究=A Study on Automatic Tagging and Classification for Digital Archive Collections

賴鼎陞 =Lai, Ting-Sheng

Author

賴鼎陞 =Lai, Ting-Sheng

Source

數位典藏與數位人文國際研討會（第9屆）=International Conference of Digital Archives and Digital Humanities (9th)

Date

2018.12.18

Pages

157 - 158

Publisher

臺灣數位人文學會

Location

臺北市, 臺灣 [Taipei shih, Taiwan]

Content type

會議論文=Proceeding Article

Language

中文=Chinese

Note

1. 作者為國立故宮博物館。

Keyword

Tagging; Classification; Digital Archive

Abstract

過去近二十年來,各大博物館、美術館、典藏單位等,陸續執行數位典藏相關計畫,已產出數量龐大的數位影像、後設資料(Metadata)等檔案資料。其中數位典藏影像資料,可直接使用於傳統或數位媒體的設計,或以影像授權方式,於文創商品領域多元化應用。然而,後設資料的部分,目前僅能透過線上資料庫的形式,提供典藏目錄查詢、或相關資料檢索,或者以開放資料(Open Data)的形式,供外界自行下載,除此之外,目前在學術、實務的相關領域,並顯著的創新應用案例。推究其原因,各館所的後設資料皆由各領域專家進行登錄,又屬於結構性、或半結構性的資料格式,線上資料庫雖可提供欄位檢索、全文檢索等查詢方法,使用者仍需對館藏的內涵有相當程度的瞭解,不然恐難當做研究工具使用。因此,若是資料庫系統可提供典藏分類,或關鍵字等較高層次的索引,將有提供檢索的效能。然而,若以人工的方式針對檔案進行著錄,恐怕曠時費力,是極待克服的關鍵問題。本研究的目標,是藉由文字探勘(Text Mining)的相關技術,運用自動化標記 (Tagging)與分類(Classification)方法,應用於數位典藏資料的後設資料分析,以及自動化索引(Indexing)。本研究所需實驗文本資料是以國立故宮博物院之器物類數位典藏之後設資料(Metadata),經編整後計約一萬八千餘筆數位檔案。本研究採用一個系統化的資料處理的流程,在資料層次上,分為:微觀、中觀、宏觀等三個層次的架構。主要運用的技術,是基於文本內關鍵詞(KWIC,Keyword-in- Context)的概念,將目標資料進行索引。索引的方式,是採「中文斷詞」操作,因為目前的斷詞系統,皆未包含華夏文物相關語料,故作者自行建置典藏專業之「自定詞庫」。而索引後的資料,將進一步運用預設的分類樹(Classification tree),進行整體資料庫的階層式索引展現。本研究方式也進行不同資料集間的文本分析比較,或是跨資料集的文本統合分析,可做為實驗設計與評估之用,有助於博物館持續發展數位人文研究的深度和廣度。

Hits

530

Created date

2019.02.13

Notice

You are leaving our website for The full text resources provided by the above database or electronic journals may not be displayed due to the domain restrictions or fee-charging download problems.

Record correction

Please delete and correct directly in the form below, and click "Apply" at the bottom.
(When receiving your information, we will check and correct the mistake as soon as possible.)

Serial No.
581175

Search History (Only show 10 bibliography limited)

Search Criteria Field Codes

	Search Criteria	Browse