網站導覽關於本館諮詢委員會聯絡我們書目提供版權聲明引用本站捐款贊助回首頁
書目佛學著者站內
檢索系統全文專區數位佛典語言教學相關連結
 


加值服務
書目管理
書目匯出
基於聚類校對和輕造字的古籍數字化方法與實踐=Method and Practice of Digitization of Ancient Books Based on Clustering Proofreading and Light Formation of Characters
作者 釋賢度 (著)=Shih, Hsien-du (au.) ; 張曉冬 =Zhang,Xiaodong
出處題名 數位典藏與數位人文=Journal of Digital Archives and Digital Humanities
卷期n.11
出版日期2023.04
頁次51 - 82
出版者臺灣數位人文學會
出版者網址 https://tadh.org.tw/
出版地臺北市, 臺灣 [Taipei shih, Taiwan]
資料類型期刊論文=Journal Article
使用語言中文=Chinese
關鍵詞古籍數字化=digitization of ancient books; 文字校對=text proofreading; 聚類校對=Clustering Proofreading; 缺字=missing characters; 異體字=Variant Characters
摘要本研究首先回顧了古籍數字化中的保真原則和整理原則,指出並比較了文字校對的三種方式。其次,介紹了古籍數字化需要解決的缺字問題、認同問題和異體字問題等三個核心問題,指出缺字問題屬於技術問題,根本矛盾在於技術水平;而認同問題和異體字問題屬於體例問題,根本矛盾在於文字專家人才資源。基於對上述問題的梳理以及古籍智能光學字元辨識(optical character recognition, OCR)技術的進展,提出了一種基於聚類校對和輕造字的文字校對方法。該方法可以輕巧地解決缺字問題,也可以將認同問題和異體字問題分解為不同的環節,以便專業化分工,從而緩解文字專家人才資源的矛盾。最後,介紹了《徑山藏》數字化項目的實踐工作,初步驗證了基於聚類校對和輕造字方法的合理性和有效性。

This study explores the principles of fidelity and collation in the digitization of ancient books, proposing and comparing three rules of text proofreading. It identifies three core problems in the process: missing characters (a technical issue), character identification, and variant characters (both stylistic issues reliant on the expertise of Chinese character specialists). The article analyzes these problems and their relationships, highlighting the underlying contradictions in technical levels and talent resources. Leveraging advances in intelligent optical character recognition (OCR) technology, the study introduces a text proofreading method that utilizes clustering proofreading and light word-forming. This method not only addresses the problem of missing characters but also breaks down character identification and variant characters into specialized tasks, easing the reliance on expert resources. The practical application of this method is demonstrated in the "Jingshan Tripitaka" digitization project by the Beijing Rushi Institute of Artificial Intelligence Technology, preliminarily validating the effectiveness of this novel approach.
目次壹、引言 52

貳、古籍數字化的兩個原則 52

參、古籍數字化的三個問題 54
一、缺字問題 54
(一)替換法 55
(二)造字法 55
(三)描述法 55
二、認同問題 56
三、異體字問題 57

肆、基於聚類校對和輕造字的解決方案 58
一、聚類校對 59
二、輕造字 64
三、再議兩個原則 66
四、關於效率 67

伍、《徑山藏》數字化項目實踐簡介 68
一、工作流程 68
(一)切分校對 68
1. 機器自動切分 69
2. 人工切分校對 71
(二)文字校對 72
1. 機器自動識別 72
2. 人工文字校對 72
二、工作進展 73

陸、總結 74

參考文獻 76
ISSN26165732 (E)
DOIhttps://www.airitilibrary.com/Common/Click_DOI?DOI=10.6853/DADH.202304_(11).0002
點閱次數172
建檔日期2023.10.18
更新日期2023.10.23










建議您使用 Chrome, Firefox, Safari(Mac) 瀏覽器能獲得較好的檢索效果,IE不支援本檢索系統。

提示訊息

您即將離開本網站,連結到,此資料庫或電子期刊所提供之全文資源,當遇有網域限制或需付費下載情形時,將可能無法呈現。

修正書目錯誤

請直接於下方表格內刪改修正,填寫完正確資訊後,點擊下方送出鍵即可。
(您的指正將交管理者處理並儘快更正)

序號
684393

查詢歷史
檢索欄位代碼說明
檢索策略瀏覽