Tibetan-Sanskrit 構文対照電子辞書 eDic

鈴木 隆泰

0. 序言
Tibetan-Sanskrit 構文対照電子辞書」(以下,eDic1)に関する構想・システムは,かつて1999年度東京大学東洋文化研究所班研究「インターネット利用技術」研究会(2000年1月7日)にて提唱,報告し,その資料をWebサイトで公開している2).ただし,研究会の性格上,その際の発表及び資料は,テクスト操作の詳細ならびに情報理論に基づく専門的な内容を含むものであったため,当該分野の研究者以外には少々理解しづらい面があったようである.今回,『明日の東洋学』に執筆機会を与えていただいたこともあり,研究会以降の成果も織り交ぜながら,できるだけ一般的な立場から eDic について述べさせていただくことにする.


1. eDic の背景
インド仏教を文献学の立場から研究しようとする場合,インド語,とりわけ広義のサンスクリットの資料が第一次資料となる.しかし,特に大乗仏教の典籍に関して言えば,原典であるサンスクリット資料の多くは散逸し,結果,チベット語や漢語を代表とする翻訳資料(チベット訳・漢訳)を用いた,異訳対照比較に基づく研究が不可欠となる.しかも翻訳資料を用いながら原典レヴェルでの考察を行うためには,チベット語・漢語をサンスクリットの次元で捉える必要が生じてくる.この,翻訳語を原語であるサンスクリットの次元で捉えるという観点に立つとき,チベット訳資料が最も適していることについて異論はないだろう.チベット語とサンスクリット語の間には,『翻訳名義大集 Mahaavyutpatti』という訳語集が存在しているのみならず,そもそも古典チベット語自体が,サンスクリット仏教文献を翻訳するために整理されたという歴史を抱えているからである.

もっとも,チベット語とサンスクリット語との間に上記のような工具や歴史があるとは言え,それだけで翻訳されたチベット語の全てがサンスクリット語に対応させられるわけではない.そのため,サンスクリット・チベットの両資料が現存しているテクストに関する独自の Tibetan-Sanskrit インデックスが各種必要とされ,さらに,それらを統合するかたちで,いわゆる“蔵梵辞典”も数種類編纂されてきた.

以上のような経緯,そして先学たちの大変な努力にも関わらず,チベット資料をサンスクリットの次元で捉えるための工具は,残念ながらいまだに不十分である.その原因を考えるとき,大きくは以下の二点に集約されることになる.

(1)サンスクリットの現存している資料が少ないため,Tibetan-Sanskrit インデックス・辞典も,必然的に限られた資料を用いたものに留まらざるをえないこと.
(2)現在利用しうる,ただでさえ少数のインデックス・辞書のほとんどが,単語対単語の対応関係を示すことに終始し,用例を併記していないこと.

まず(1)については,散逸していたサンスクリット原典が大量に発見されるということでも起こらない限り,今後劇的な改善は望めそうもない.しかも,新たな原典が大量に発見される可能性は非常に低いというのが,大方の一致した見解である.次に(2)についてであるが,インデックスは置くとして,そもそも「用例のない辞書」というものが果たして「辞書」として正しく機能しうるのかという自明の問題がある.その点,用例を併記している J. S. Negi の辞書は評価されるものの,資料の総体から見て,その用例と収録語彙の不足は否めない.それにも関わらず,Negi に続き用例を豊富に併記した新たな「蔵梵辞典」を編纂しようという動きは寡聞にして未詳である3)


2. 電子データの普及
1に掲げた背景とはある意味で別の脈絡の状況として,近年ではチベット資料やサンスクリット資料が電子データ化され,テクストデータベースとして普及しつつある.検索する上で便利なことこの上ないことは事実であるし,ロケーション情報も入っていれば,そのデータ内でのインデックスを作成することも即座に可能である.ただ,惜しむらくは,多大な労苦を費やして作成されたデータが,「検索」や「データ内部でのインデックス作成」,あるいは「論文作成時に貼り付ける」以外の目的に用いられることはほとんど聞かれず,他のデータとのリンクも行われてはいないようである.筆者は以前より,「テクストデータベースは作ったが,その後どうする」という問題に対して,何らかの解答を提示することはできないだろうかと考えていた.


3. eDic 初期構想
先述の1, 2を総合すると,「同一テクストのサンスクリット・チベット双方が利用可能である電子データを利用して,構文ごとに対照させる」という道筋が浮かび上がってくる.「既存のデータを利用する」という点で2に対する解答が,そして「構文ごとに対照させて用例を明示する」という点で1の(2)に対する解答が導かれるからである.以下に手続きと例を挙げてみよう.

eDic 初期構想の手続き]
(1)まず,同一テクストのサンスクリット・チベット双方の電子データを用意する.
(2)次に,双方を構文ごとに切り分ける.
(3)チベット語を検索キーとして入力すると,その文字列を含むチベット語の構文と,対応するサンスクリット語の構文を出力する.

[実例]
用意されたデータを『法華経』(Saddharmapu.n.dariika)の第十章「法師品」(Dharmabhaa.nakaparivarta),検索キーを「bcom ldan 'das4)とした場合,最初にヒットする構文は以下のようになる5)

[Tibetan] de nas bcom ldan 'das kyis bya^n chub sems dpa' sman gyi rgyal po la sogs pa bya^n chub sems dpa' brgyad khri po de dag la bka' stsal pa/

[Sanskrit] atha khalu bhagavaan bhai.sajyaraaja.m bodhisattva.m mahaasattvam aarabhya taany a^siiti.m bodhisattvasahasraa.ny aamantrayate sma/

極めて単純な発想ながら,チベット語「bcom ldan 'das」に対応するサンスクリット原語「bhagavaanbhagavatnom. sg. m)」が,用例を伴った上で抽出された.上記の手続きに従う限り,データさえ増やしていけば労力を大幅に節約しながら,用例を伴った「蔵梵辞典」を作成することが可能となる.


4. 散逸した原典の論理的再構成へ向けて
さて,3で提示した方法論によって,「蔵梵辞典」の作成という目的が達成されることが確認された.豊富な用例を伴った「蔵梵辞典」の作成は,筆者自身を含め,インド仏教学研究者にとって大きな利益をもたらすものであるため,本来ならばこの段階での作業を行うだけでもよかったのかも知れない.しかし,結局われわれは,さらに次の段階を目指して作業に着手することになった.その理由の一つには,メンバーの一員であり情報科学研究者である相場氏にとって3の手続きは魅力が少なかったことがあり,そして一つには,1の(1)に対する解答が依然として与えられていないということが挙げられる.では,その「さらに次の段階」とは何かと言えば,章題に示した「散逸した原典の論理的再構成」である.

インド大乗仏教の典籍のうち,原典が残存しているものは相対的に少数で,大多数の原典が散逸していることはすでに述べたとおりである.したがって,後者に属する典籍を扱うとき,研究者は必然的に原語を想定しながら翻訳資料に向い合うことになる.その際,原語を想定する工具がいまだに不十分であるというのが,本研究の出発点であった.そして,その工具を飛躍的に進化させる方法自体はすでに手に入れることができた.しかしながら,その新しい工具を使ったからと言って,対応させられた構文同士は同一テクストの原典と翻訳であるため,翻訳のみ存在する異種テクストとその散逸した原典との距離は依然として縮まっていないことに気づくだろう.したがって,その距離を縮めるためには,翻訳資料しかないテクストをもとに,それと「似通った」構文を原典の存在する別テクストの中から抽出してこなければならないのである.

ここで言う「似通った」とは,単なる単語同士の共通性のみを指すものではなく,「文章の構造」を含めた共通性,相似性も含まれる.これを実現するためには,切り分けた構文にさらに「単語情報」を追加する必要があり,われわれの作業も,この単語情報の追加に多くの時間をかけている.

単語情報の加え方や,この方法論に基づく再構成過程の原理自体は先に紹介した Web ドキュメントに記してあるので,ここでは実例のみを示すことにしよう.まず,(a) のような原典未詳のチベット文があったとする.

(a) nam ^zig ru sbal spu rnams las// gos su legs par btags gyur te// dgun cha dag tu gyon gyur pa// de tshe ri^n bsrel yod par 'gyur//

この (a) を検索キーに指定した場合,予め作成しておいた『金光明経』のデータ(サンスクリット・チベットともに現存)に存する以下のチベット文 (b) が,「nam ^zig」「spu - rnams - las」「gos - su」「legs par btags」「dgun」「gyur - te」「de tshe」「ri^n bsrel」「yod par 'gyur」の九要素,及びその順序がマッチしているためヒットし,同時に (b) に対応する原典 (c) も出力される.

(b) nam ^zig = rus sbal = spu - rnams - las// gos - su = legs par btags = gyur - te// dgun - gyi = gra^n ba = sel byed pa// de tshe = ri^n bsrel = yod par 'gyur// (SuvT, 11: 14.12-15)

(c) yadaa kacchapa-lomaanaa.m praavaara.h suk.rto bhavet/ hemante ^siita-hara.nas tadaa dhaatur bhavi.syati// (SuvS, 11:15.5-6)

さらに (c) に基づいて追加検索が行われ,パーリ文 (d) が出力される.

(d) yadaa kacchapa-lomaana.m pavaaro tividho siyaa/ hemantika.m paapura.na.m atha nuuna tadaa siyaa// (Jaataka 425, 78:477.16-17)

そして研究者はこれらの検索結果を総合して,(a) に対応するサンスクリット文を (e) として論理的に再構成することが可能となる.

(e) yadaa kacchapalomaanaa.m praavaara.h suk.rto bhavet/ hemantaka.m praavara.na.m tadaa dhaatur bhavi.syati//

上記の実例を見ても分かるように,eDic の精度を上げるためにはデータの蓄積が不可欠となっている.幸い,データ量は増加してはいるものの,まだまだ人手が足りないのが偽らざる実状である.一人でも多くの方にこのプロジェクトに参加していただけるよう,ご協力を願う次第である.



(註)

1) http://suzuki.ypu.jp/edic/

2) http://texa.human.is.tohoku.ac.jp/aiba/project/edic/pr/document/20001.ioc/
鈴木隆泰(東京大学東洋文化研究所(当時)),相場 徹(東北大学大学院情報科学研究科),松本峰哲(東北大学大学院文学研究科)による共同執筆.

3) ここまでは,インド仏教学専攻の研究者にとっては周知のことがらであろう.しかし,これから eDic について述べていくに際して現状を再確認しておくことは,前提条件を提示するための重要な手続きとなっている.

4) サンスクリット語の bhagavat に対応するチベット訳語である.漢訳では一般に「世尊」とされ,仏陀に対する尊称の一つである.

5) 実際はロケーション情報を付帯して出力される.なお,転写方式には「相場式」を使用した.転写方式の諸相については,拙文「インド語・チベット語の処理とデータの互換性」(『全国文献・情報センター人文社会科学学術情報セミナーシリーズ』#9, 1999所収)を参照されたい.


eDic
HOME

suzuki AT ypu.jp