自動標點的原理與實現=Principle and implementation of automatic punctuation

釋賢超=Shi, Xian-Chao; 方愷齊=Fang, Kai-Qi; 釋賢迥=Shi, Xian-Jiong; 釋賢菊=Shi, Xian-Ju; 釋賢碉=Shi, Xian-Diao; 釋賢繼=Shi, Xian-Ji

著者

釋賢超=Shi, Xian-Chao ; 方愷齊=Fang, Kai-Qi ; 釋賢迥=Shi, Xian-Jiong ; 釋賢菊=Shi, Xian-Ju ; 釋賢碉=Shi, Xian-Diao ; 釋賢繼=Shi, Xian-Ji

掲載誌

數位典藏與數位人文國際研討會（第9屆）=International Conference of Digital Archives and Digital Humanities (9th)

出版年月日

2018.12.18

出版者

臺灣數位人文學會

出版地

臺北市, 臺灣 [Taipei shih, Taiwan]

資料の種類

會議論文=Proceeding Article

言語

中文=Chinese

ノート

1. 作者皆為北京龍泉寺藏經辦公室。

キーワード

自動標點; 古籍文獻; 數據集; LSTM

抄録

古代漢語通常沒有標點,這給現代人閱讀、理解古籍文獻帶來極大困難。为古漢語文獻添加現代標點已成為古籍整理和研究的基礎,同時也是一項非常繁重的工作。歷史上,漢文大藏經的編修向來都是極為浩大的工程。在當今的智能科技時代,借助機器智能實現古籍文獻的自動標點具有現實意義。為瞭解決現代大藏經整理和校勘中面臨的具體困難,我們對大藏經基於人工智能(AI)輔助的自動標點方法進行了研究。應用 AI 技術在自然語言處理(NLP)領域的最新研究進展,通過兩種深度模型的訓練和測試, 已獲得標點準確度最高達94%的自動標點引擎,以此為基礎開發的自動標點系統(GJAP) 現已上線運行1。目前系統可提供七種現代標點(逗號、句號、問號、嘆號、頓號、分號、冒號)的古文線上標點服務。本文將從深度模型原理、數據集的構建兩個方面來對自動標點的原理進行描述;使用總量超過五千萬個漢字的訓練數據和總量約一千萬的訓練數據,對兩種標點模型進行訓練;選取不同朝代的佛教古籍文本形成的測試數據集,對兩種自動標點引擎進行測試的比較;通過結果的分析討論,文章最後給出結論。

1. 概述
1.1. 研究現狀
1.2. 技術範疇
1.3. 概念術語
1.3.1. 斷句
1.3.2. 標點
2. 模型原理
2.1. 序列標注
2.2. 序列到序列
3. 數據集
4. 模型比較
4.1. 模型訓練
4.2. 引擎測試
4.3. 結果討論
5. 結論

ヒット数

958

作成日

2019.01.28

更新日期

2019.03.08

注意：

この先はにアクセスすることになります。このデータベースが提供する全文が有料の場合は、表示することができませんのでご了承ください。

修正のご指摘

下のフォームで修正していただきます。正しい情報を入れた後、下の送信ボタンを押してください。
(管理人がご意見にすぐ対応させていただきます。)

シリアル番号
581040

検索条件

ブラウズ