網站導覽關於本館諮詢委員會聯絡我們書目提供版權聲明引用本站捐款贊助回首頁
書目佛學著者站內
檢索系統全文專區數位佛典語言教學相關連結
 


加值服務
書目管理
書目匯出
自動標點的原理與實現=Principle and implementation of automatic punctuation
作者 釋賢超=Shi, Xian-Chao ; 方愷齊=Fang, Kai-Qi ; 釋賢迥=Shi, Xian-Jiong ; 釋賢菊=Shi, Xian-Ju ; 釋賢碉=Shi, Xian-Diao ; 釋賢繼=Shi, Xian-Ji
出處題名 數位典藏與數位人文國際研討會(第9屆)=International Conference of Digital Archives and Digital Humanities (9th)
出版日期2018.12.18
出版者臺灣數位人文學會
出版地臺北市, 臺灣 [Taipei shih, Taiwan]
資料類型會議論文=Proceeding Article
使用語言中文=Chinese
附註項1. 作者皆為北京龍泉寺藏經辦公室。
關鍵詞自動標點; 古籍文獻; 數據集; LSTM
摘要古代漢語通常沒有標點,這給現代人閱讀、理解古籍文獻帶來極大困難。为古漢語文獻添加現代標點已成為古籍整理和研究的基礎,同時也是一項非常繁重的工作。歷史 上,漢文大藏經的編修向來都是極為浩大的工程。在當今的智能科技時代,借助機器智 能實現古籍文獻的自動標點具有現實意義。為瞭解決現代大藏經整理和校勘中面臨的具 體困難,我們對大藏經基於人工智能(AI)輔助的自動標點方法進行了研究。應用 AI 技術在自然語言處理(NLP)領域的最新研究進展,通過兩種深度模型的訓練和測試, 已獲得標點準確度最高達94%的自動標點引擎,以此為基礎開發的自動標點系統(GJAP) 現已上線運行1。目前系統可提供七種現代標點(逗號、句號、問號、嘆號、頓號、分 號、冒號)的古文線上標點服務。 本文將從深度模型原理、數據集的構建兩個方面來對自動標點的原理進行描述;使 用總量超過五千萬個漢字的訓練數據和總量約一千萬的訓練數據,對兩種標點模型進行 訓練;選取不同朝代的佛教古籍文本形成的測試數據集,對兩種自動標點引擎進行測試 的比較;通過結果的分析討論,文章最後給出結論。
目次1. 概述
1.1. 研究現狀
1.2. 技術範疇
1.3. 概念術語
1.3.1. 斷句
1.3.2. 標點
2. 模型原理
2.1. 序列標注
2.2. 序列到序列
3. 數據集
4. 模型比較
4.1. 模型訓練
4.2. 引擎測試
4.3. 結果討論
5. 結論
點閱次數851
建檔日期2019.01.28
更新日期2019.03.08










建議您使用 Chrome, Firefox, Safari(Mac) 瀏覽器能獲得較好的檢索效果,IE不支援本檢索系統。

提示訊息

您即將離開本網站,連結到,此資料庫或電子期刊所提供之全文資源,當遇有網域限制或需付費下載情形時,將可能無法呈現。

修正書目錯誤

請直接於下方表格內刪改修正,填寫完正確資訊後,點擊下方送出鍵即可。
(您的指正將交管理者處理並儘快更正)

序號
581040

查詢歷史
檢索欄位代碼說明
檢索策略瀏覽