|
|
|
|
|
|
|
|
自動標點的原理與實現=Principle and implementation of automatic punctuation |
|
|
|
Author |
釋賢超=Shi, Xian-Chao
;
方愷齊=Fang, Kai-Qi
;
釋賢迥=Shi, Xian-Jiong
;
釋賢菊=Shi, Xian-Ju
;
釋賢碉=Shi, Xian-Diao
;
釋賢繼=Shi, Xian-Ji
|
Source |
數位典藏與數位人文國際研討會(第9屆)=International Conference of Digital Archives and Digital Humanities (9th)
|
Date | 2018.12.18 |
Publisher | 臺灣數位人文學會 |
Location | 臺北市, 臺灣 [Taipei shih, Taiwan] |
Content type | 會議論文=Proceeding Article |
Language | 中文=Chinese |
Note | 1. 作者皆為北京龍泉寺藏經辦公室。 |
Keyword | 自動標點; 古籍文獻; 數據集; LSTM |
Abstract | 古代漢語通常沒有標點,這給現代人閱讀、理解古籍文獻帶來極大困難。为古漢語文獻添加現代標點已成為古籍整理和研究的基礎,同時也是一項非常繁重的工作。歷史 上,漢文大藏經的編修向來都是極為浩大的工程。在當今的智能科技時代,借助機器智 能實現古籍文獻的自動標點具有現實意義。為瞭解決現代大藏經整理和校勘中面臨的具 體困難,我們對大藏經基於人工智能(AI)輔助的自動標點方法進行了研究。應用 AI 技術在自然語言處理(NLP)領域的最新研究進展,通過兩種深度模型的訓練和測試, 已獲得標點準確度最高達94%的自動標點引擎,以此為基礎開發的自動標點系統(GJAP) 現已上線運行1。目前系統可提供七種現代標點(逗號、句號、問號、嘆號、頓號、分 號、冒號)的古文線上標點服務。 本文將從深度模型原理、數據集的構建兩個方面來對自動標點的原理進行描述;使 用總量超過五千萬個漢字的訓練數據和總量約一千萬的訓練數據,對兩種標點模型進行 訓練;選取不同朝代的佛教古籍文本形成的測試數據集,對兩種自動標點引擎進行測試 的比較;通過結果的分析討論,文章最後給出結論。 |
Table of contents | 1. 概述 1.1. 研究現狀 1.2. 技術範疇 1.3. 概念術語 1.3.1. 斷句 1.3.2. 標點 2. 模型原理 2.1. 序列標注 2.2. 序列到序列 3. 數據集 4. 模型比較 4.1. 模型訓練 4.2. 引擎測試 4.3. 結果討論 5. 結論 |
Hits | 861 |
Created date | 2019.01.28 |
Modified date | 2019.03.08 |
|
Best viewed with Chrome, Firefox, Safari(Mac) but not supported IE
|
|
|