網站導覽關於本館諮詢委員會聯絡我們書目提供版權聲明引用本站捐款贊助回首頁
書目佛學著者站內
檢索系統全文專區數位佛典語言教學相關連結
 


加值服務
書目管理
書目匯出
一種多模型融合的中文古籍OCR後處理方法=A Post-OCR Method of Multi-Model Ensemble for Chinese Ancient Scriptures
作者 釋賢度 (著)=Shih, Hsien-du (au.)
出處題名 數位典藏與數位人文=Journal of Digital Archives and Digital Humanities
卷期n.11
出版日期2023.04
頁次83 - 104
出版者臺灣數位人文學會
出版者網址 https://tadh.org.tw/
出版地臺北市, 臺灣 [Taipei shih, Taiwan]
資料類型期刊論文=Journal Article
使用語言中文=Chinese
關鍵詞post-OCR; 古籍=Ancient Scriptures; 模型融合=model ensemble; 版面分析=layout analysis; 深度學習=deep learning
摘要本文提出一種多模型融合的OCR後處理方法,採用獨特的版面分析和對齊算法,整合了整頁檢測模型、字識別模型、列識別模型與語言預訓練模型等深度學習模型,實現了超越單一模型的效果。全文錯誤率達到1.64%,僅為單一模型平均錯誤率的23%。在各類常規古籍版式場景中,該方法具有較好的泛用性。

This paper proposes a post-OCR method of multi-model ensemble, which uses a unique layout analysis and alignment algorithms, and integrate different types of deep learning models, such as the full-page character detection model, character recognition model, line recognition model and language pre-training model, and achieves effects beyond a single model. The full-text error rate reaches 1.64%, which is only 23% of the average error rate of a single model. In various conventional ancient book layout scenarios, this method has good generalization.
目次壹、背景 84

貳、原理 87
一、圖片檢測 88
二、字識別 89
三、版面分析 89
四、列識別 91
五、字列融合 91
六、語義預測 92
七、語義校正 92

參、實驗 93

肆、分析 95

伍、結論 96

參考文獻 97

ISSN26165732 (E)
DOIhttps://www.airitilibrary.com/Common/Click_DOI?DOI=10.6853/DADH.202304_(11).0002
點閱次數39
建檔日期2023.10.18
更新日期2023.10.23










建議您使用 Chrome, Firefox, Safari(Mac) 瀏覽器能獲得較好的檢索效果,IE不支援本檢索系統。

提示訊息

您即將離開本網站,連結到,此資料庫或電子期刊所提供之全文資源,當遇有網域限制或需付費下載情形時,將可能無法呈現。

修正書目錯誤

請直接於下方表格內刪改修正,填寫完正確資訊後,點擊下方送出鍵即可。
(您的指正將交管理者處理並儘快更正)

序號
684394

查詢歷史
檢索欄位代碼說明
檢索策略瀏覽