藏漢佛教語料品目之自動對列

陳光華; 闕慧貞; 李家名; 唐國銘; 黃乾綱

Author

陳光華 ; 闕慧貞 ; 李家名 ; 唐國銘 ; 黃乾綱

Source

數位典藏與數位人文國際研討會論文集(第4屆)

Date

2012.11

Pages

225 - 246

Publisher

國立臺灣大學數位典藏研究發展中心=國立臺灣大學數位人文研究中心

Publisher Url

http://www.digital.ntu.edu.tw/index.jsp

Location

臺北市, 臺灣 [Taipei shih, Taiwan]

Content type

會議論文=Proceeding Article

Language

中文=Chinese

Keyword

自動對列; 佛教語料; CBETA; 漢文; 藏文

Abstract

藏漢佛學研究的一項重要課題是從語言學和文獻學角度比對與勘定藏漢佛教文獻。佛學研究發展至今，卻依然未能建立佛教文獻文本的準確性和可靠性。在梵文原典散佚而所剩無幾的情況下，研究藏漢佛教文獻無疑是揭示藏漢譯文的種種闕漏，釐定藏漢文譯本的較為可行的道路。然而，藏譯或是漢譯佛經在千餘年的流傳過程，也出現了種種版本學上的問題，僅僅依靠個別譯本佛經本身的勘定難以解決問題，必須透過相應的不同譯本作為參照。然而，傳統上這樣的比對工作卻僅能仰賴佛教文獻學者親力親為，花費大量人力與時間，卻僅能進行小規模的研究工作。基於前述的現象，本研究發展一套自動對列藏漢語料的方法，在文獻的品目層次，對列藏文佛教文獻與漢文佛教文獻，以降低佛教文獻學者在整理研究文獻的時間成本與人力成本，而將研究重心放在電腦系統無法取代的文獻校勘與經典譯注。本研究主要係基於資訊檢索（Information Retrieval，簡稱 IR）及計算語言學（Computational Linguistics，簡稱 CL）的相關理論及技術，使用藏漢雙語詞典，建立向量空間的運算模型。實驗語料《法華經》的藏文版與漢文版分別取自臺北版之藏譯大藏經與 CBETA 版之漢譯大藏經。為了探討停用詞與雙語詞典對於運算模式的影響，本研究使用二部不同類型的雙語詞典：張怡蓀編《藏漢大詞典》通用綜合詞典和榊亮三郎整理之《翻譯名義大集》專業佛學詞典，並因應停用詞的使用與否發展二套運算模式。實驗結果顯示採用 vector-space model，搭配 CKIP 中文斷詞處理、使用專業佛學詞典的實驗設定，可以在前二個候選品目找到真正的對應品目；簡單的 n-gram matching 方法，搭配專業佛學詞典，平均而言，也可以在前三個候選品目找到真正的對應品目。這樣的實驗結果顯示專業藏漢佛學詞典對於處理不同譯本對列問題的重要性；此外，停用詞僅DADHIC有在 n-gram matching 方法，有比較大的影響。綜言之，本研究的結論是不同語言譯本的佛教文獻品目層次的自動對列是可行的。

Hits

1226

Created date

2014.09.02

Notice

You are leaving our website for The full text resources provided by the above database or electronic journals may not be displayed due to the domain restrictions or fee-charging download problems.

Record correction

Please delete and correct directly in the form below, and click "Apply" at the bottom.
(When receiving your information, we will check and correct the mistake as soon as possible.)

Serial No.
397718

Search History (Only show 10 bibliography limited)

Search Criteria Field Codes

	Search Criteria	Browse