自動標點的原理與實現=Principle and implementation of automatic punctuation

釋賢超=Shi, Xian-Chao; 方愷齊=Fang, Kai-Qi; 釋賢迥=Shi, Xian-Jiong; 釋賢菊=Shi, Xian-Ju; 釋賢碉=Shi, Xian-Diao; 釋賢繼=Shi, Xian-Ji

Author

釋賢超=Shi, Xian-Chao ; 方愷齊=Fang, Kai-Qi ; 釋賢迥=Shi, Xian-Jiong ; 釋賢菊=Shi, Xian-Ju ; 釋賢碉=Shi, Xian-Diao ; 釋賢繼=Shi, Xian-Ji

Source

數位典藏與數位人文國際研討會（第9屆）=International Conference of Digital Archives and Digital Humanities (9th)

Date

2018.12.18

Publisher

臺灣數位人文學會

Location

臺北市, 臺灣 [Taipei shih, Taiwan]

Content type

會議論文=Proceeding Article

Language

中文=Chinese

Note

1. 作者皆為北京龍泉寺藏經辦公室。

Keyword

自動標點; 古籍文獻; 數據集; LSTM

Abstract

古代漢語通常沒有標點,這給現代人閱讀、理解古籍文獻帶來極大困難。为古漢語文獻添加現代標點已成為古籍整理和研究的基礎,同時也是一項非常繁重的工作。歷史上,漢文大藏經的編修向來都是極為浩大的工程。在當今的智能科技時代,借助機器智能實現古籍文獻的自動標點具有現實意義。為瞭解決現代大藏經整理和校勘中面臨的具體困難,我們對大藏經基於人工智能(AI)輔助的自動標點方法進行了研究。應用 AI 技術在自然語言處理(NLP)領域的最新研究進展,通過兩種深度模型的訓練和測試, 已獲得標點準確度最高達94%的自動標點引擎,以此為基礎開發的自動標點系統(GJAP) 現已上線運行1。目前系統可提供七種現代標點(逗號、句號、問號、嘆號、頓號、分號、冒號)的古文線上標點服務。本文將從深度模型原理、數據集的構建兩個方面來對自動標點的原理進行描述;使用總量超過五千萬個漢字的訓練數據和總量約一千萬的訓練數據,對兩種標點模型進行訓練;選取不同朝代的佛教古籍文本形成的測試數據集,對兩種自動標點引擎進行測試的比較;通過結果的分析討論,文章最後給出結論。

Table of contents

1. 概述
1.1. 研究現狀
1.2. 技術範疇
1.3. 概念術語
1.3.1. 斷句
1.3.2. 標點
2. 模型原理
2.1. 序列標注
2.2. 序列到序列
3. 數據集
4. 模型比較
4.1. 模型訓練
4.2. 引擎測試
4.3. 結果討論
5. 結論

Hits

1034

Created date

2019.01.28

Modified date

2019.03.08

Notice

You are leaving our website for The full text resources provided by the above database or electronic journals may not be displayed due to the domain restrictions or fee-charging download problems.

Record correction

Please delete and correct directly in the form below, and click "Apply" at the bottom.
(When receiving your information, we will check and correct the mistake as soon as possible.)

Serial No.
581040

Search History (Only show 10 bibliography limited)

Search Criteria Field Codes

	Search Criteria	Browse