自動標點的原理與實現=Principle and implementation of automatic punctuation

釋賢超=Shi, Xian-Chao; 方愷齊=Fang, Kai-Qi; 釋賢迥=Shi, Xian-Jiong; 釋賢菊=Shi, Xian-Ju; 釋賢碉=Shi, Xian-Diao; 釋賢繼=Shi, Xian-Ji

作者

釋賢超=Shi, Xian-Chao ; 方愷齊=Fang, Kai-Qi ; 釋賢迥=Shi, Xian-Jiong ; 釋賢菊=Shi, Xian-Ju ; 釋賢碉=Shi, Xian-Diao ; 釋賢繼=Shi, Xian-Ji

出處題名

數位典藏與數位人文國際研討會（第9屆）=International Conference of Digital Archives and Digital Humanities (9th)

出版日期

2018.12.18

出版者

臺灣數位人文學會

出版地

臺北市, 臺灣 [Taipei shih, Taiwan]

資料類型

會議論文=Proceeding Article

使用語言

中文=Chinese

附註項

1. 作者皆為北京龍泉寺藏經辦公室。

關鍵詞

自動標點; 古籍文獻; 數據集; LSTM

摘要

古代漢語通常沒有標點,這給現代人閱讀、理解古籍文獻帶來極大困難。为古漢語文獻添加現代標點已成為古籍整理和研究的基礎,同時也是一項非常繁重的工作。歷史上,漢文大藏經的編修向來都是極為浩大的工程。在當今的智能科技時代,借助機器智能實現古籍文獻的自動標點具有現實意義。為瞭解決現代大藏經整理和校勘中面臨的具體困難,我們對大藏經基於人工智能(AI)輔助的自動標點方法進行了研究。應用 AI 技術在自然語言處理(NLP)領域的最新研究進展,通過兩種深度模型的訓練和測試, 已獲得標點準確度最高達94%的自動標點引擎,以此為基礎開發的自動標點系統(GJAP) 現已上線運行1。目前系統可提供七種現代標點(逗號、句號、問號、嘆號、頓號、分號、冒號)的古文線上標點服務。本文將從深度模型原理、數據集的構建兩個方面來對自動標點的原理進行描述;使用總量超過五千萬個漢字的訓練數據和總量約一千萬的訓練數據,對兩種標點模型進行訓練;選取不同朝代的佛教古籍文本形成的測試數據集,對兩種自動標點引擎進行測試的比較;通過結果的分析討論,文章最後給出結論。

1. 概述
1.1. 研究現狀
1.2. 技術範疇
1.3. 概念術語
1.3.1. 斷句
1.3.2. 標點
2. 模型原理
2.1. 序列標注
2.2. 序列到序列
3. 數據集
4. 模型比較
4.1. 模型訓練
4.2. 引擎測試
4.3. 結果討論
5. 結論

點閱次數

665

建檔日期

2019.01.28

更新日期

2019.03.08

提示訊息

您即將離開本網站，連結到，此資料庫或電子期刊所提供之全文資源，當遇有網域限制或需付費下載情形時，將可能無法呈現。

修正書目錯誤

請直接於下方表格內刪改修正，填寫完正確資訊後，點擊下方送出鍵即可。
(您的指正將交管理者處理並儘快更正)

序號
581040

檢索策略

瀏覽