|
|
|
作者 |
張曉冬
;
馮國明
|
出處題名 |
數位典藏與數位人文國際研討會(第9屆)=International Conference of Digital Archives and Digital Humanities (9th)
|
出版日期 | 2018.12.18 |
頁次 | 796 - 802 |
出版者 | 臺灣數位人文學會 |
出版地 | 臺北市, 臺灣 [Taipei shih, Taiwan] |
資料類型 | 會議論文=Proceeding Article |
使用語言 | 中文=Chinese |
附註項 | 1.作者張曉冬為北京科技大學經濟管理學院。 2.作者馮國明為北京科技大學經濟管理學院。 |
關鍵詞 | 實體識別; 半監督; 人物畫現; 古漢語處理 |
摘要 | 目的:將自然語言處理技術應用於佛經領域,針對佛經進行人物畫像的抽取。 内容:本文計畫以佛經為研究對象,以結合字典與 BI-LSTM-CRF 的 DBLC 模型 為基礎針對佛經進行優化完成自動分詞和實體識別的任務。人工總結術語模板,得到 術語初始代表詞集,依據初始代表詞集利用正則表達式對語料中的句子進行匹配分 類,通過人工校驗確保分類正確以獲得初始分類集。以初始分類集作為語料,基於本 人提出的改進的 TF-IDF 方法提取類别關鍵詞擴充術語代表詞集,進一步擴充分類集。 最後在分類集的基礎中基於規則提取實體的標籤值。 創新點:本文的創新點在於: (1) 將人物畫像的研究方法應用於佛經; (2) 提出了基於 TF-IDF 改進的關鍵詞提取方法; (3) 提出針對佛經文本改進的 DBLC 模型; (4) 使用模式匹配與半監督的方式抽取人物畫像。 |
目次 | 1 選題背景及意義 1.1 選題背景 1.2 選題意義 2 研究內容及研究方法 2.1 研究內容 2.2 研究方法 2.3 技術路線圖 3 研究的創新點和難點 |
點閱次數 | 504 |
建檔日期 | 2019.02.13 |
更新日期 | 2019.03.08 |
|
建議您使用 Chrome, Firefox, Safari(Mac) 瀏覽器能獲得較好的檢索效果,IE不支援本檢索系統。
|
|
|