認知文法の思考法|第8回 意味は話者の中にある|町田章

はじめに

 前回,言語研究において記号接地問題が生じないようにすることがいかに重要なことであるかを論じました。その上で,経験基盤主義・用法基盤主義をとっている認知文法においては,記号接地問題は初めから回避されていることも確認しました。これに関しては,ディープラーニングをはじめとする現在のAI研究においても,膨大なデータから機械が自ら概念を学習するという点で記号接地問題に対する突破口が開かれていると言えます。

 これを受けて,AI研究における第一人者である松尾豊氏は次のような見通しを述べています。「先に「概念」が獲得できれば,後から「言葉(記号表記)」を結び付けるのは簡単」(松尾2015:188)。たしかに,言語習得を,外界に存在する事物にことばというラベルを貼っていく作業だと考えるならば,外的状況に内在する概念(=意味)に言語形式(音声)というラベルを貼っていくだけですので,それほど難しくはないでしょう。

 しかしながら,それはことばの「意味」が外界に存在するという前提が正しければの話です。つまり,「いぬ」の概念が外界に存在し,それを脳内に写し取ったものが「いぬ」ということばの意味であるという前提が正しければということです。本当に「いぬ」の概念は外界に存在するのでしょうか? 今回は,ことばは形式と意味の対応関係であると言った場合の「意味」とはどのようなものなのか,もちろん,意味という複雑な現象をここで詳細に議論することはできませんが,意味について考える際に必ず考慮しなければならない問題について,その一端を皆さんと一緒に考えることにします。

形式と意味を対応させる

 前回,「いぬ」の例を挙げ,ことばは音声(形式)で意味を表す記号であるという話しをしました(現実には手話などの音声を用いない言語もありますので,正確さを期す場合には「音声」ではなく「形式」という用語を用います)。例えば,「いぬ」という形式は,僕らが知っているあの動物を意味として表す記号です。このため,意味を持たない「ぬい」は完全なことばではありませんが,意味を持つ「いぬ」は自信を持ってことばだということができます。ことばは,形式で意味を喚起する,または意味で形式を喚起する記号であるというわけです。これを形式と意味の対応関係と言います。

 そして,松尾氏が見通しを立てているように,AIが概念(意味)を学習できるならば,あとはそれに形式を結び付けるだけで,少なくとも理論上は,人間と同じようにことばをしゃべることができるはずです(もちろん,松尾氏の記述の中には文法に関する議論が含まれていませんので,文法についてはまた別に検討しなければならないことになります)。そのため,AIが人間と同じように概念を学習できるかどうかが問題の核心になるわけです。

 そして,これに関してはもうすでに答えが出ています。前回までの議論の中で,近年のAIは膨大なデータの中からある種の概念を習得することができるようになってきたと述べてきました(cf. 本連載第2回)。例えば,画像認識においては,大量にネコの画像を入力することにより,AIがその中からネコをネコたらしめている特徴を自律的に学習していきますが,このようにして学習されたネコの特徴は,ある種のネコの概念を表していると言えます。もちろん,この概念は画像から得られたネコの情報だけに基づいて作られていますので,厳密には,ネコの概念の視覚的側面もしくは視覚イメージだけを学習したにすぎませんが,それでも,AIは画像の中からネコの概念(の一部)を学習したことになります。前回,ディープラーニングによって記号接地問題に解決の糸口が見えたと述べたのはこれを踏まえてのことだったわけです。

 もちろん,ネコの完全な概念を得るためには,視覚情報だけでは足りません。人間は,自らが身体的に持っている知覚システムを総動員して情報を集めて概念を構築していますので,AIの学習においてもこれらの情報が不可欠になります。つまり,概念の獲得のためには,視覚以外にも,聴覚,触覚,嗅覚(味覚は不要ですよね,念のため。)などの情報(経験から得られるデータ)がすべて必要になるわけです。その意味では,現在のAIの概念学習はまだ不完全であると言えます。しかしながら,原理的には,これらの情報に関しても画像認識と同じ作業をすればよいので,あとはどのようにそれぞれの知覚に対応するセンサーを作ればよいのかという技術的な問題となります。要するに,AIも人間の感覚器官に対応するセンサーさえ装備できれば,あとは画像認識と同じ設計思想でより包括的な「ネコ」の概念,つまり,人間が持っているネコの概念に近似するものが得られるはずなのです(cf. 松尾2015:181)。

 実際は,この他にも,人間が身体を使ってネコとの相互作用を行った結果として得られた情報(「モフモフしている」,「引っかかれた」)や,「マタタビが好きである」「ネズミを追いかける」「哺乳類である」などの主に言語を通して獲得したネコに関する情報も利用しなければ本当の意味でのネコの概念を習得したことにはなりませんが,いずれにせよ,基本となるのは,何らかの感覚器官を通して入力されたネコの情報が統合されてネコの概念を構築すると考えてよいでしょう。

このように考えると,AIはもうすでに人間と同じようにネコの概念を習得することが(少なくとも設計思想上は)できるようになったと考えられるわけです(ただし,「かわいい」や「嫌い」のような感情に関わる情報は偏桃体という特別な部位が関わっていますので,他の情報と一律に扱うことはできません)。残された課題は,どのようにしてAIに知覚・運動器官を実装した身体を持たせて外界とのインタラクションをさせるかという技術的な問題だけになります。それさえクリアできれば,あとはAIによって膨大なデータから学習された概念にそれぞれ「いぬ」「車」「走る」「きれい」などの言語形式(音声)を後から結び付ければよいわけです。実際は,そのような身体性の問題をクリアすること自体もそう容易ではありませんが,少なくとも,これまでAI研究者たちを悩ませてきた記号接地問題のような深刻な理論的障壁はないことになります。

概念はどこにあるのか

 実は,上のような議論はネコの概念はネコが本来持っていて,それを人間および人間を模したAIが知覚(センサー)を用いて抽出するという発想に基づいています。そして,そうやって学習された概念(意味)に「ネコ」という形式(ラベル)を貼ったものが言語表現ということになります。そして,このような考え方は,言語学においては,外界世界の事象と言語との対応関係を考えるという客観主義的意味論(objectivist semantics)に近い立場だと言えます。もっと正確に言うと,外界世界に存在するネコの概念を脳内に写し取ったもの(=心的表象mental representation)と「ネコ」という言語形式(音声)が対応関係を持っているという考え方です。

 ところが,実際には,このような考え方ではうまくいかないことがあります。たしかに,大量のネコの画像からネコの概念(の一部)を抽出するという課題においてはうまくいくかもしれません。ところが,現実はもっと複雑なのです。仮に,概念は外界に存在し,それにことばのラベルを貼るだけでしたら,同じ概念に「ネコ」というラベルを貼るかcatというラベルを貼るかは,単に言語ラベルの違いにすぎないはずです。そして,その場合は,必然的に日本語の「ネコ」と英語のcatは全く同じ概念を表していることになります。ところが,よく知られているように,異なる言語間において語彙体系が完全に一致することはまずありません。「ネコ」とcatの違いは微妙すぎるので,以下では,もう少しわかりやすい例を取り上げて考えてみることにしましょう。

日本語の「着る」という動詞の意味(概念)と英語のwearという動詞の意味(概念)は完全に同じであると言えるでしょうか。もちろん,完全に両者が一致しているとは考えられません。なぜなら,一つには,日本語では,衣服などを身にまとうという一連の行為を一つの動作カテゴリーとしてみなしていますが,英語では,二つの全く異なる動作カテゴリーとしてみなしており,それぞれ,put on(着る)とwear(着ている)という異なった言語形式を振り当てているからです。もちろん,日本語でも,(1)に示すように,一つの行為内の異なった側面として「着る」動作と「着ている」状態を「ている」という補助動詞を用いて区別することはできますが,それでもやはり,別の単語を用いて両者を区別している英語のほうが,日本語よりも細かく行為を分類しているように見えます。

(1)a. John put on the shirt. (ジョンはそのシャツを着た。)
   b. John wears the shirt every day. (ジョンは毎日そのシャツを着ている。)

ところが,その一方で,英語のwearには,(2)に示すように,「(服を)着ている」「(靴を)履いている」「(帽子を)被っている」「(メガネを)かけている」「(香水を)つけている」「(髪を)伸ばしている」などの複数の日本語の動詞が対応しています。その意味では,wearが表している動作カテゴリーは,日本語の「着ている」が表している動作カテゴリーよりもずっと守備範囲が広く,かなり大雑把であるということになります。(ちなみに,(2)の文はすべてメアリの習慣や性質を表しています。)

(2) a. Mary wears sneakers. (メアリはスニーカーを履いている。)
   b. Mary wears a hat. (メアリは帽子を被っている。)
   c. Mary wears glasses. (メアリはメガネをかけている。)
   d. Mary wears perfume.  (メアリは香水をつけている。)
   e. Mary wears her hair long.  (メアリは髪を伸ばしている。)

もし仮に,言語習得が外界から抽出された概念にことばのラベルを貼るだけでよいのでしたら,言語間におけるこのような不一致は起こらないはずです。ところが実際は,このように言語によってカテゴリーの守備範囲が異なっているのです。そして,このようにカテゴリーの守備範囲が言語ごとに異なるという事実が示唆していることは,概念の習得には言語を通して行われる側面もあるということです。したがって,AIに概念を学習させる際には,動作に関する情報を入力すると同時に,「着る」「履く」「被る」「かける」「つける」「伸ばす」といった,その動作に対応する言語情報も学習させる必要があることになります。そしてこのように言語情報が加わることによって,AIは英語による概念体系や日本語による概念体系を学習することになります。言語情報に基づいて概念体系を習得するという事実は,ことばは単なるラベルではないことを如実に表しています。

そして最も重要なことは,私たち人間が学習する概念は人間とは独立に外界に存在するものではなく,言語という網を通してすくい上げられるという側面があるということです。この問題は現実世界をどのように分節するかという,カテゴリー化(categorization)の問題と言われていますが,これは,人間が積極的に外界に対して意味づけを行っているということを示しています。

捉え方がもたらす大問題

もちろん,言語によってカテゴリー化が異なる,または,言語によって概念体系が異なるという上記の観察は,AI研究にとっては全く問題ではありません。AIが学習する概念は,その概念を構成する下位概念の集合であり,さらにその下位概念も,そのさらに下の下位概念によって構成されていると考えられるからです。そしてそのように考えるならば,言語間の差異は下位概念の組み合わせ方の違いにすぎず,データの中に言語情報さえ入れておけば,言語ごとに異なった上位概念がAIによって学習されるはずだからです。

実は,本当に問題なのは,カテゴリー化ではなく,むしろ,人間は外界に対して積極的に意味づけを行っているという事実の方なのです。例えば,次のような画像をAIに大量に入力した場合,ネコの場合と同じく,ある種の抽象的な概念(例えば,「グラスの半分の位置まで液体が入っている状況」)は学習できるかもしれません。しかしながら,そのように抽出された概念は,いわば,前言語的な概念であって,ことばの意味ではないと言えます。なぜ前言語的な概念であるかというと,それに言語形式(ラベル)を貼ると,もはや異なる概念になってしまうからです。例えば,そのように抽出された前言語的な概念にThe glass is half full.という表現を貼った場合と,The glass is half empty.という表現を貼った場合では意味が異なりますよね。つまり,どのような言語形式を貼るか(どのように表現するか)によって前言語的概念は同じであっても意味が異なってくるということです。そのように考えると,ことばの意味とは,前言語的な概念に何かを加えたものということになりそうです。

 一つの場面を描写する際に複数の言い方ができるという事実,しかも,言い方によって意味が異なっているという事実は,ことばの意味は外界に存在する概念ではないということを示唆しています。もし仮に,人間が外界に存在する意味の抽出作業だけを行っているのであれば,それがことばの網を通したものであったとしても,このようなことは起こらないはずです。なぜなら,同じ状況から抽出される意味は常に同じであるはずだからです。では,人間はいったい何を行っているのでしょうか。

一般に認知言語学では,人間は外界に対して意味づけ作業を行っていると考えます。外界の情報を一方的に受け取るのではなく,能動的に外界の情報を解釈しているというのです。つまり,認知言語学では,外的な状況に対し,話者がどのように意味づけを行っているのかまでも含めて,ことばの意味と考えるのです。ですので,同じ外的な状況を見ても,それを「半分ある」と捉えるのか「半分ない」と捉えるのかは,話し手の捉え方次第ということになりますが,この捉え方をも含めたものが言語表現の意味ということになるのです。

このことを踏まえたLangackerは,ことばの意味は概念であるとは決して言いません。認知文法では,ことばの意味は概念内容(conceptual content)に話者の捉え方(construal)を加えたものとして規定されているのです。先ほど,前言語的概念と呼んだものがこの概念内容に当たります。そして,ことばの意味=概念(concept)であるという一般的な規定と明確に区別するために,認知文法では,ことばの意味=概念化(conceptualization)であると規定しています(cf. Langacker 2008:43)。

ことばの意味=概念内容+捉え方=概念化

ここで重要なことは,ことばの意味には必ず話者の捉え方が含まれるということです。認知文法では,ことばの意味=外界に存在する概念を脳内に写し取った心的表象とは考えません。仮に,外界に存在する概念を客観的意味と呼ぶとするならば,これに話者の捉え方を足したものがことばの意味ということになります。その意味では,ことばの意味は極めて主観的なものなのです。

このような立場に立つと,言語習得は,まずことばとは無関係に概念を抽出して,その後,ことばというラベルを貼るという一方向的なプロセスではないということになります。ことばの意味は,話し手がことばを用いたその瞬間に生じるからです。つまり,ことばを用いず意味だけ習得することはできないのです。例えば,ある状況を見て話し手がThe glass is half emptyと言った場合,聞き手はそれが表す概念内容に加えて,話し手がその概念内容をどのように捉えているのかという情報も受け取ることになります。そして,これが聞き手が受け取ったことばの意味ということになるわけです。もちろん,厳密には,half emptyと表現することを通して話し手が聞き手に「もっと欲しい」のような意図を伝えることになりますので,ことばの意味を考える際には,もっとダイナミックな心の動きをとらえる必要がありますが,少なくとも,このように,人間は言語表現を用いたインタラクションを通じて,概念内容だけでなく話し手の捉え方までも含めたものを意味として聞き手に伝えているということになります。

 このため,AIに概念を習得させたのちに言語のラベルを貼るというストラテジーは原理的にうまくいかないことがわかります。AIがことばを習得するためには,ことばのインタラクションを通じて概念内容だけでなく話し手の捉え方も習得しなければ,表現の意味を習得したことにはならないからです。そしてこのような見方は,客観主義的意味論に対して主観主義的意味論(subjectivist semantics)とも呼べるようなものです。ことばの意味とは外的世界に存在する概念を心内に写し取っただけのものではなく,そのような概念内容に対して話し手が自分なりの捉え方を与えたものだからです。ことばの意味には話者の捉え方が不可分に入り込んでいるのです。

まとめ

 さて,今回は,現在のAIが習得可能な概念は,厳密な意味でのことばの意味ではないということを見てきました。ことばの意味には,必ず,話者の捉え方が含まれているからです。そして,本連載第2回の最後で「これからは,AI研究から得られる知見と矛盾しない言語観を持ちつつ,AI研究に対して積極的に提言を行っていくこと」を提案しましたが,まさに,今回述べたことから言語学者が提案しなければならないことがあります。それは,①概念は言語表現を通して学習されなければならない。もちろん,言語以前に習得される概念の存在は否定できませんが,それでも,人間のカテゴリー体系は言語習得を通して形成されるという側面を無視することはできません。その上で,②外的世界には存在しない,つまり,どのようなセンサーを用いてもAIには感知できない,概念内容に対する話し手の捉え方を学習する必要があるということです。

 おそらく,①の提案はAI学習にとって全く問題にならないでしょう。入力データの中に言語情報を付け加えればよいだけですから。問題なのは②のほうです。ことばの意味には,話し手がある表現を用いたというというそのことを介して聞き手に伝える話し手の捉え方があります。外界に存在する差異をとらえて,話し手が異なった二つの表現を用いているのであれば,外界の差異を情報源としてAIも二つの表現の意味の違いを学習することができます。ところが,全く同じ状況に対して異なった二つの表現を用いる場合(例えば,「半分ある」「半分ない」のような場合)は, AIはその二つの表現の意味の差異を外界の情報から学習することができません。二つの表現の差異は,外界にではなく話し手の心の中にあるからです。例えば,The glass is half fullとThe glass is half emptyの二つの言語表現とともにグラスの半分の位置まで液体が入っている画像データを学習させたとしても,AIは混乱するか,どちらでも構わないと判断するだけで,両者の意味の違いを学習することはないでしょう。もちろん,fullとemptyの概念をあらかじめ学習しておけば,意味の違いを理解することはできますが,話し手がなぜfullではなくemptyを選んだのかという話し手の意図理解はできないわけです。つまり,捉え方の違いを学習するためには,話し手の心の中を覗くセンサーが必要というわけです。

 いずれにしても,ことばの意味には話し手の捉え方が不可欠に関わってきます。しかも捉え方は,概念内容とは異なり,外界からは抽出できない話し手の内面に属する要素です。つまり,捉え方は外界には存在しないのです。そのため,AIがことばを学習するためには,他者の捉え方を理解するという難題がのしかかってくるはずなのです。

関連記事

  1. 認知文法の思考法|第4回 “常識” で壁を越える|町田章
  2. 中高生のための本の読み方|第6回 図書館に行こう!|大橋崇行
  3. 芥川賞作品を読む|第13回 開高健『裸の王様』(第三十八回 1957年・下半期)…
  4. 芥川賞作品を読む|第10回 大庭みな子『三匹の蟹』(第五十九回 1968年・上半…
  5. 外国人労働者の受け入れに日本語教育は何ができるか|第9回 先が見通せない外国人施…
PAGE TOP