これからの英語教育の話を続けよう|第15回 「入試が変わらないから英語教育に成果が出ない」に根拠はない:政策効果の観点から見た「外部試験」論議|寺沢拓敬

はじめに

2018年8月、外国語教育メディア学会(LET)のパネルディスカッション「大学入試改革は、高校英語教育での四技能統合を推進するのか?」に登壇し、「政策研究の観点から見た『四技能入試』論議」というタイトルで発表しました。

周知の通り、四技能型の民間外部試験を導入する入試改革については、政策決定に至るまでの手続きの面、入試にかかわる公平性の面、テストの妥当性の面、実際に運用する上での実現可能性の面、地域格差の面など重要な問題点が多数指摘されています(この「未草」でも以前、藤原康弘さんが詳しく論じています)。

そうした論点を、テスト研究を専門としない私がわざわざ繰り返すのはあまり意味がないので、政策研究者の観点からこの問題にコメントしました。
具体的には、今回の入試改革の背後にある「入試が変わらないから、英語教育がよくならない(だから、入試を変えることで英語教育改革を進展させる)」という考え方について、政策効果の枠組みで話をしました。

政策効果という切り口は、最近の民間外部試験論議ではごくマイナーな論点です。私の知る限り文章にして論じる人はいませんが、学界・研究者が政策としての試験改革にどう向き合っていけばよいか考えるうえで重要なので、本記事で詳しく述べてみようと思います。なお、当日の発表スライドはインターネット上に掲載していますが、本記事の内容とは多くの部分が異なります。

 

議論の定式化

入試が変わらないから英語教育がよくならない、だから、入試を変えることで英語教育改革を進展させる。この主張はこのままでは曖昧なので、精緻化します。

この主張を、趣旨ができるだけ変わらないように、定式化すると以下のとおりになると思います。

  • 大学入試センター試験に相当する段階に、スピーキング(SP)能力を測定する試験を導入すると、日本人の(or 高校生/受験生の)英語力が向上する

要するに、「SP試験導入→英語力向上」という因果効果を主張しているわけです。
「入試が変わらないから・・・」という主張(あるいは愚痴)は、たとえ発言者に自覚がなかったとしても、実際には因果関係を前提にしています。

ただし、推進派の人々が「試験改革で英語教育改革をしよう」と言うとき、少なくとも2つの異なる目的を想定しています(ただし、この点はよく曖昧にぼかされるため、議論を聞いているとイライラしてしまう点でもあります)。

ひとつが、教育測定方法をより良いものにする改革。もうひとつは、英語学習の成果をより良いものにする改革です。

前者は要するに、学習指導要領で四技能を重視ししているのだから入試でも四技能の能力で判断すべきだという、評価の観点からの推進論です。
一方、後者は、入試制度を変えることで教師や生徒の意識・行動を変え、結果的に英語力アップにつなげることができるという政策的な推進論です。

「良識」ある推進派の英語教育学者・言語テスト学者は、政策論を専門にしていないこともあり、前者を強調する反面で、後者のような政策論には踏み込みません。
一方、政策論が専門の筆者は、この記事では後者の推進論に限定して検討したいと思います。前者の推進論は、それこそ前述の公平性やテストの妥当性の問題を鑑みて丁寧に議論すべきでしょう。

定式化に関する注釈

上記の定式化について4点、注釈を加えます。

第一に、大学入試センター試験に相当する段階―つまり、国公立大学等を受験する高校生・卒業生等を対象とした試験の段階―を前提とすることです。ナショナルレベルの改革であり、改革の余波が及ぶ人も多岐にわたります。逆に言えば、定期テストやTOEICなど民間テストの出題方式の変更、あるいは地方自治体単位でのテストの変更とは水準が違うということです。一方で、同世代の約3分の1にしか関係しない試験であり、高校入試のように地域内の圧倒的多数の人に影響を及ぼすわけではありません。

第二に、スピーキング試験の導入に限定します。たしかに、昨今の改革は四技能試験の導入なので、ライティングも(そして、リスニング・リーディングも)検討するのが筋でしょう。
しかし、本記事の議論は、どの技能についても同様にあてはまります。であれば、射程を絞ったほうがわかりやすいので、改革の目玉とされるスピーキングに限定します。

第三に、前述の通り、英語教育改革の中身を「英語力の向上」と定義します。たしかに、入試改革でよく聞くのは「入試が変わらないと授業が変わらない」という声なので、外部試験推進論は授業改革論と理解できないこともありません。しかし、今回の改革が―というより英語教育改革のほとんどが―究極の目標にするのは、授業改革というより学習者の英語力の向上です。つまり、手段としての授業改革です。

この点は次のような極端な例を想像してみればよくわかります―ある施策を導入した。その結果、教員の意識変革が生まれ、授業は大きく変わった。しかし、生徒の英語力はまったく向上しなかった。

授業変革という「手段」の面にしか関心を払わない改革があったとすれば、それは要するに手段の目的化であり、政策として明らかにナンセンスです。(ただし、手段の目的化は、教育改革論議ではよくあることで、それだけに頭の痛い問題です。「古くさい指導に固執する同僚教師の意識を変えさせたい。だから、民間試験導入に賛成」のような推進論(?)を耳にしたことがありますが、これこそ手段の目的化の典型です)。

第四に、日本人の英語力に注目します。この入試改革は、ナショナルレベルの改革であり、その成果は日本に住んでいる人全員で測られるべきものです。つまり、日本人の(平均的)英語力向上という目標です。

もっとも、これは中長期的な目標であり、短期的にはもう少し対象を限定するのがフェアでしょう。たとえば、「日本の大学受験生の英語力は向上するか?」とか「日本の高校生の英語力は向上するか?」といった問いです。ただし、仮に入試前後に向上した英語力が大学入学後の数年で元に戻ってしまうとすれば、そのような政策は無意味ですから、いずれにせよ中長期的かつナショナルな枠組みで目標を考えることは常に必要です。

 

ウォッシュバック効果

では、「スピーキング試験導入→英語力向上」という一見もっともらしい推論にエビデンスはあるのでしょうか。結論から言うと、今のところ、ありません。

そもそも、ナショナルな試験制度の変更が、その国の学習者やその他市民に何らかの影響を与えたかどうかについて実証的に明らかにした研究は驚くほど少ないのが実情です。

これを聞いて、英語教育の研究動向に詳しい人の中には「いや、言語テスティングにおける波及効果(ウォッシュバックエフェクト)の研究があるじゃないか」と言う人がいるかもしれません。
たしかに言語テスティング研究において、テストが学習者におよぼす影響(好影響および悪影響)は波及効果 (washback) と呼ばれ、真剣に研究されてきています。実際、改革推進派の安河内哲也氏は盛んにこのテスティング用語を利用(流用?)して自説を展開していますので、一見すると「スピーキング試験導入→英語力向上」にはそれなりの学術的根拠があるように思えてしまうのも無理はありません。

しかし、結論から言えば、ウォッシュバック効果に関する先行研究のほぼすべてがテスティング理論という狭い文脈での効果検証に過ぎず、政策的な効果について示唆を述べるものではありません。
もし政策的示唆につなげたいのであれば、先行研究はエビデンスの質が低すぎるので、今後相当の改善が必要になるでしょう。それができないのなら政策的な議論から「撤退」すべきです(そして、願わくば、「領空侵犯」の政策論を展開してしまう「身内」をきちんと批判する自浄作用が求められます)。これが政策研究を専門にする私からの率直な評価です。

以下、言語テスティング研究におけるウォッシュバック効果研究をいわば「仮想敵」に設定したうえで、どのような研究デザインが必要かを論じていきます。もっとも、安河内氏のような俗流ウォッシュバック論のほうが実は影響力が大きそうなので、こちらを徹底的に検討することも重要ですが、本記事では理論的な議論に軸足を置きたいため、俗流ではなく本流のウォッシュバック論を俎上に載せたいと思います。

なお、「ウォッシュバック効果」という言葉自体は、ある行動・施策が及ぼす比較的広範囲の影響という意味で社会科学など他の学問分野でも使われますが、本記事では言語テスティング研究の用法に限定します。つまり、以下の「ウォッシュバック効果」はすべて「言語テスティング研究におけるウォッシュバック効果」を指します。

 

ウォッシュバック効果と政策効果の違い

ウォッシュバック効果と政策効果は、たしかに似ているところもあります。たとえば、概念的には、原因(テスト)が結果(社会的影響)を引き起こすという因果関係を念頭においている点は同じです。しかしながら、決定的に異なる点もあります。その違いを以下の表にまとめました。

ウォッシュバック効果 政策効果
対照群の有無 なし
(事例研究的)
あり
(反実仮想モデル)
結果変数の数 きわめて多様 究極的には少数

ひとつが、研究のデザインの違いで、もうひとつが、結果変数の数です。以下、順番に説明していきます。

 

効果を推定するためには対照群が必要

まず、対照群と比較する研究デザインかどうかが重要な違いです。

反実仮想に基づく政策効果

まず、政策効果の場合は、必ず対照群が設定されます。入試改革に限らず、どんな政策であっても実行した場合の成果だけでなく、実行しなかった場合の成果と比較しないことには、その真の効果はわかりません。

その理想的な状態が、反実仮想モデルです。反実仮想モデルとは、読んで字のごとく、実際にはこうだったが、もしそうではなかったら結果はどうなっていただろうかと考えるモデルです。
入試改革の例でいうと、ある人々が新試験制度を経験した場合と、同じ人々が経験しなかった場合(つまり旧試験を経験した場合)を考えます。そのうえで、この前者と後者のグループを比較して、英語力にどう差が出たかを見ます。細かい話は省略しますが(詳細は「反実仮想モデル」でググッてみて下さい)、このような考え方に依拠することで、ある施策の、見かけ上ではない、実質的な効果が明らかにできます。

もちろん、両群をそのまま比較することはタイムマシンでもないかぎり不可能なので、実際の分析では、いろいろな仮定を導入して、反実仮想にできるだけ近づくように調査をデザインします。その意味で、100%の精度を持った実質的効果を推定できるわけではありません。ただし、以下で述べる通り、ウォッシュバック効果と決定的に違うのは、非経験群(=対照群)を用意して、できる限り見かけ上の効果を排除しようとする工夫があるかどうかです。

事例研究的なウォッシュバックの研究

一方、ウォッシュバック効果におけるデータ分析では、「ある試験が実施された」という事例に焦点を当て、その後に生じた(と考えられる)様々な影響を分析します。逆に言えば、その試験が実施されなかった場合(あるいは、その試験を経験することがなかった人)という対照群と比較するわけではありません。

あるイベントを経験した場合だけを対象とし、経験していない場合と比較しないという点で、これは典型的な事例研究です(「事例研究」と聞くと質的なフィールドワーク研究の一種と考える人がいるかもしれませんが、量的なデータを使っていても対照群との比較がないのならば事例研究と定義するのが一般的だと思います。ジョージ&ベネット『社会科学のケーススタディ』参照)。

事例研究では、厳密な因果効果を推計することができません。その代わりに、理論的に意義のある事例を選択することで研究の質を高めます。つまり、(分析手法の洗練度などよりも)事例選択が決定的に重要になります。ここでのポイントが「理論的に意義のある」という部分です。先行研究における空白地帯や争点など、新たな理論的貢献ができる事例を探し出し、それを詳細に検討した場合にこそ、事例研究は輝きます。

逆に言えば、あるテストのウォッシュバックを調べた理由が、「会社(テスト企業)から調査せよと命じられたから」とか「所属先の大学がたまたま当該テストの委託研究を行っていたから」などといった非・理論的で「大人の事情」感満載の事例選択に、事例研究としての学術的価値はほとんどありません。ありませんが、実際にはそのような残念な研究が多いのも事実です。これは、ウォッシュバック効果研究の多くがテスト企業によって行われているためでしょう。企業にとって、その企業が開発販売しているテストのウォッシュバックを調べるのは当たり前です。つまり、なぜ他でもなくそのテストの検討が重要なのかの議論を最初から放棄しているわけです。(なお、このような非理論的な研究がなぜ許されるのかについては一応理由があります。後述します。)

 

結果変数の数

第二の違いが、結果変数の数です。ウォッシュバック効果では多様な結果変数を対象にするのに対し、政策効果では究極的には少数の結果変数に注目します。

この違いをわかりやすく示したのが、以下の図です。

試験制度の変更(図中のX)は、当然ながら、様々な影響を生み出します。このとき、ウォッシュバック効果での研究デザインは、影響を及ぼすと考えられる要因すべてを、結果変数A、結果変数B、結果変数C … と概念化し、各影響を個別に分析します。つまり、一対一の関係の分析です。

一方で、政策効果は、政策上もっとも重要な結果変数を特定します(図では右側の変数Aに相当)。そのうえで、政策介入Xの有無が結果変数Aに効果を及ぼしているかどうかを検討します。図右側の変数Xと変数Aに挟まれている変数B・Cは、中間変数とみなし、主たる関心からは外します。また、図右側の変数Dは、結果変数Aと因果関係にはないため、そもそも分析に含めません。

ウォッシュバック効果の文献を読んでいると、テストの社会的影響がきわめて複雑であることを訴えるフレーズに頻繁に出会います。複雑さに言及するのがルールなのかと思うほど出てきます。たしかに、テストは学習者の言語的パフォーマンスだけでなく、学習スタイルや学習観、場合によっては社会観・人生観まで左右する可能性がありますし、さらに、テストの影響は学習者だけにとどまらず、教師や学校(校長)、教育行政(官僚・自治体職員・教育委員)、政治家や教育産業、それに市民全般の行動や意識にも影響を与えるかもしれず、その複雑さは相当なものです。

しかしながら、このような複雑な現象を、複雑だからといって、図の左のようにバラバラに分析することが得策とは限りません。むしろ政策として何らかの効果が期待されている場合、何が最も重要な結果変数であるかについては比較的容易に優先順位がつけられます。その場合、重要な結果変数に焦点化して分析モデルを設定すれば、意外と簡単に単純化が可能になります。また、そもそも何らかの因果モデルを設定せずに、一対一の対応関係しか見ていない場合、見かけ上の相関を「実質的な影響」と誤認してしまう危険性が常についてまわります。「複雑な現象だ」という決まり文句で思考停止すべきではありません。

「入試改革→英語力向上」の因果モデル

「入試を変えて英語力向上」という話を政策効果として表現すると、次の図のようになります。

センター試験段階にスピーキング(SP)テストを導入すれば、進学校での英語指導が変わり、そこの生徒の英語力が高まり、また、進学校での取り組みが非進学校の教員や生徒にも伝播し、さらには中学校にも波及し、結果として日本人の英語力が高まるという構図です。まるで、風が吹けば桶屋が儲かるといった話です。

こう図式化すると荒唐無稽な主張に見えますが、風のせいで桶屋が繁盛する可能性がゼロとは言えないのと同様に、英語力向上に効果がある可能性もゼロとは言えません(もっとも、可能性が「ある」とも言い切れませんが)。

この効果を検証しようとするとき、究極的には、左端のスピーキングテストの導入(の有無)と、右端の日本人の英語力との関係を見れば良いわけです。中間変数である「受験指導担当教員の四技能指導」とか「受験生がSPの大切さを知る」などの検討は必ずしも不可欠というわけではなく、ブラックボックスにしておいても政策効果の推定は可能です(もっとも、中間変数がわかればメカニズムがはっきりしますので、より確かな仮定に基づいた議論が可能になり、分析結果の説得力が増します)

ただし、分析モデルこそ単純になりましたが、単純になったからこそ、質の高い研究デザインが必要とされます。

第一に、母集団は理想的には日本人全体、最低でもセンター段階の受験生全体に及ぶため、大規模な英語力調査が必要となります。特定のテストをモニターとして受けた人に少しだけアンケートを配ったりインタビューする程度のものではまったく許容されません。

第二に、新試験制度の経験群と非経験群の両方のグループが用意できるように調査をデザインする必要があります。言うは易しですが、新試験制度は全国一斉に始まるので、実は非経験群を用意するのはかなり難しく、多大な工夫を要します。

現実的な方法としては、今回の民間試験導入に似た先行事例を探し、先行事例の経験者を経験群、それ以外を非経験群として比較する方法です。先行事例としては、たとえば、自治体や大学が個別に行っているスピーキング試験が当てはまるでしょう。ただし、先進的な施策は得てして特殊な集団に対して行われがちです。その場合、スピーキング試験を導入したから成果があがったのか、特殊な集団だったから成果があがったのかわからなくなってしまいます。

個人的には、もう少しだけ現実的なのが、新制度の開始前と開始後とで比較する方法です。要するに、旧制度群(2020年1月入試およびそれ以前)と新制度群(2021年1月入試およびそれ以降)の成果を比較するわけです。ただ単純に両者の英語力を比較するだけでは十分ではありません。両群が等質だという保証がないため、新制度の成果なのか、受験生のプロフィールが変わったのかわからなくなってしまいます。等質性を確保するためにはリサーチデザインに相当の工夫が必要です。このあたりの効果検証について詳しくは、「政策効果 因果推論」でネット検索をすると多数の情報がヒットしますのでそちらを参考にしてください(啓蒙書として中室牧子・津川友介著『「原因と結果」の経済学』を推薦しておきます)。

 

「妥当性検証」という文脈

以上見てきたとおり、ウォッシュバック効果で使われている手法は、研究デザイン的に見るとかなり独特―有り体に言えば「悪手」―です。ただし、これには一応事情があります。

ウォッシュバック効果の研究は、そもそもテストの妥当性検証 (validation) の枠組みで進められてきたものです。妥当性検証とは、簡単に言えば、あるテストが現実的に使える代物かどうかについて客観的根拠に基づいて検討するプロセスです。たとえば、「ビジネス英会話力を測定しています」と謳っているテストについて、テスト内容が本当にビジネス英会話に必要な能力を測定できているかどうかを検討するのは、妥当性検証の重要な作業です。

そして、テスト内容の検討だけでなく、テストがどう受験者等に影響を与えているかも重視されています。つまり、ウォッシュバック効果も妥当性検証プロセスのなかで重要な柱のひとつをなしています。もしテストを受験することがそもそも受験者に良い影響を与えるなら、ウォッシュバックという観点から妥当性が高いと判断され、逆に、不毛なテスト対策に精を出させてしまったり、歪んだ学習観を育ててしまったら、妥当性が低いと評価されるわけです。

とはいえ、ウォッシュバックだけの検討で妥当性検証が完了するわけではありません。テストの内容面やその他の検証を踏まえて全体として妥当性を確認できてはじめてひとつのプロジェクトになるということでしょう。この点で、個々のウォッシュバック効果の検証は、包括的な妥当性検証という大きな目標の下の、ひとつの構成要素という扱いになり、個々の調査・分析の質は、そうした大きな目標の観点から判断されます。ですから、因果効果推定としては精度の粗い事例研究的・相関的な手法だったとしても、全体としての妥当性検証が成功していれば及第点がつくということだと考えられます。

そうであれば、妥当性検証という言語テスティングの内側での議論なのだから、つまり、試験制度改革の効果には踏み込まない議論なのだから、事例研究的・相関的なデザインでも問題ないとされてきたということでしょう。たしかに、私としても、政策論への「領空侵犯」がないウォッシュバックの話であれば、餅は餅屋ということで、特に何も言うことはありません。

その一方で、私が純粋に疑問なのは、テスティングのウォッシュバック効果研究のなかには、妥当性検証の枠組みを飛び越えてしまっていて、むしろ政策研究に限りなく近いと考えられるものがそれなりにある点です。(たとえば、この分野の重要文献とされている Shohamy, E. (2001). The power of tests. Longman. が扱っているのは明らかに政策的論点です)。

言語テスト業界のウォッシュバック研究者は、このような「政策的ウォッシュバック研究」をどう位置付けているのでしょうか。私は実は研究メソドロジーにかなり関心を持っている人間です。一人のメソドロジーマニアとして「政策的ウォッシュバック研究」の位置づけについて是非聞いてみたいものです。

 

さいごに

冒頭で述べたシンポジウムの最後で私は、「英語教育研究者はこの入試改革の社会的影響についてすぐにでも調査プロジェクトを立ち上げなくてはならない」と主張しました。

近年の改革に対する学術的批判はもちろん重要ですが、それとは独立して、この改革の影響に対する客観的検証ができるような学術的プラットフォームを準備すべきだということです。

もっとも、この検証作業の責任は、第一に行政側・推進側にあります。しかし、私が知る限り推進側の研究者に政策研究の専門家は(驚くことですが)皆無です。そればかりか、本記事の私の主張が正鵠を得ているとすれば、現在の英語教育学(および言語テスト研究)そのものに、この改革の政策効果を検証する学術的基盤はまだありません。

このままでは、きちんとした検証を行うことが難しくなります。とくに、現実的な研究デザインの一つが施策導入前と導入後を比較するものなので、早くしないと「導入前」の時代(つまり、今のことです)が終わってしまいます。その場合、永遠に施策導入の実質的効果が明らかにできなくなってしまうでしょう。もし、十数年後、研究者がこの改革の「功罪」について何らはっきりしたことが述べられないような状況にでもなれば、学界の専門性・存在意義が問われる事態に陥ります。

求められるのは、第一に、「入試制度変更 → 英語教育改革」を政策効果の枠組みで捉え直すこと、第二に、その施策の実質的な効果を明らかにする調査研究プロジェクトを構想することです。

 

参考文献

以下は、記事内で引用した文献ではなく、本記事執筆およびシンポジウム発表の準備のために参考にした文献です。いずれも、言語テストのウォッシュバック効果を考える上で勉強になる文献なのでシェアします。

  • Brindley, G. (2008). Educational reform and language testing. In E. Shohamy & N. H. Hornberger (Eds.), Encyclopedia of language and education (2nd ed.) (pp. 365-378). Springer.
  • Cheng, L., Sun, Y., & Ma, J. (2015). Review of washback research literature within Kane’s argument-based validation framework. Language Teaching, 48(4), 436-470.
  • Cheng, L. & Watanabe, Y. (2004). Washback in language testing: Research contexts and methods . Lawrence Erlbaum.
  • Kane, M. T. (2013), Validating the interpretations and nses of test scores. Journal of Educational Measurement, 50, 1-73.
  • McNamara, T. (2008). The socio-political and power dimensions of tests. In E. Shohamy & N. H. Hornberger (Eds.), Encyclopedia of language and education (2nd ed.) (pp. 415-427). Springer.
  • Menken, K. (2008). High-stakes tests as de facto language education policies. In E. Shohamy & N. H. Hornberger (Eds.), Encyclopedia of language and education (2nd ed., Vol. 7, pp. 401-413). Springer
  • Saida, C. (2016). A review of research report on the Center Listening Test of the National Center for University Entrance Examinations. In C. Saida, Y. Hoshino, & J. Dunlea (Eds.), British Council New Directions in Language Assessment: JASELE Journal Special Edition (pp. 123–134). British Council Japan.
  • Shohamy, E. G. (2001). The power of tests : a critical perspective on the uses of language tests. Longman.
  • Wall, D. and Horak, T. (2008). The impact of changes in the TOEFL examination on teaching and learning in Central and Eastern Europe.: Phase 1, The baseline study. TOEFL Monograph Series, MS-34, ETS
  • 小泉利恵 (2018). 『英語4技能テストの選び方と使い方:妥当性の観点から』アルク
  • 小泉利恵・印南洋・深澤真 (2017). 『実例でわかる英語テスト作成ガイド』大修館書店
  • 根岸雅史 (2017).『テストが導く英語教育改革』三省堂
  • 南風原朝和編 (2018). 『検証 迷走する英語入試:スピーキング導入と民間委託』岩波書店

 

関連記事

  1. 藤原康弘

    これからの英語教育の話を続けよう|第0回 連載にあたって|

    『これからの英語教育の話をしよう』を出版して早4ヶ…

ひつじ書房ウェブマガジン「未草」(ひつじぐさ)

連載中

ひつじ書房ウェブサイト

https://www.hituzi.co.jp/

  1. ことばのフィールドワーク 薩摩弁| 第4回 方言も言語|黒木邦彦
  2. 日本語表記のアーキテクチャ:第3回:3つの文字体系 /The Architect…
  3. 書評 土屋智行著『言語と慣習性─ことわざ・慣用表現とその拡張用法の実態─』 東京…
  4. 並行世界への招待:現代日本文学の一断面| 第5章 岡嶋二人『クラインの壺』──「…
  5. 古代エジプト語のヒエログリフ入門:ロゼッタストーン読解|第13回 ヒエログリフの…
PAGE TOP