日本大学生産工学部 研究報告B(文系)第52巻
10/28

─ 8 ─とって十分な情報が提供されているとは言えない。従って,スコアだけでなく,それ以外の様々な情報も提示する自動フィードバック(automated feedback)システムの実現は急務である。本論の目的は,これまでの自動採点研究およびフィードバック研究に基づき,教育現場で実際に活用できる自動フィードバックの方法について検討することである。2.自動採点システムの歴史と現状近年,自動採点が大きな注目を集めている背景には,⑴教育環境におけるコンピュータの整備,⑵データ解析技術の発達,⑶グローバル化による英語学習者の増加,などの要因がある。まず,コンピュータを用いたテストの利点として,従来のペーパーテストと比べて,テストの配布や回収の自動化ができること,大量の答案の管理が容易になること,事前に用意したアイテムバンクから問題をランダムに出題できること,採点が自動化もしくは半自動化されること,学習者の言語能力に合わせた適応型のテストが実施できること,遠隔地での受験が可能になること,などが挙げられる(Ueno, 2005)4)。そして,自然言語処理や機械学習などの人工知能技術の発達によって,多肢選択問題や空所補充問題だけでなく,構成的応答(自由回答)の自動採点の研究も可能になった。現在,ライティングの自動採点システムは,いまだ発展段階にあり,人間の評価者の完全な代替となってはいない。しかしながら,グローバル時代に対応した英語学習者の養成,大学進学率の上昇などの社会的要因によって,多くの学習者の言語能力を効率的かつ客観的に測定するための技術が強く求められている。実際,韓国では,KICE(Korea Institute for Curriculum and Evaluation)という国立機関で韓国人学習者の英語力を自動採点するための研究が進められており(Shin, Min, Park, Jung, Joo, & Kim, 2013)5),日本においても,2020年度から開始される大学入学共通テストで用いられる民間の資格・検定試験の中には自動採点を導入する予定のものが存在する注1)。世界最初の本格的な英文自動採点システムは,Ellis Batten Pageが1960年代半ばに開発したPEG(Project Essay Grade)である。このシステムでは,平均文長やパラグラフの数といった言語情報を手がかりに,重回帰分析という統計手法を用いて,学習者のライティング能力を推定している。PEGは,1990年代に大幅に改訂され,ウェブ上での受験も可能になった(Page, 2003)6)。PEGのバージョンアップとほぼ同時期に,Vantage Learning社がIntelliMetricという自動採点システムを公開した。このシステムは,意味的,統語的,談話的な言語情報を含む300以上の評価項目に基づき,ニューラルネットワークなどの人工知能技術を用いて,ライティングの評価を行っている(Elliot, 2003)7)。また,Thomas K. Landauerたちが開発したIEA(Intelligent Essay Assessor)は,LSA(latent semantic analysis)という手法を用いて,ライティングの形式面だけでなく,内容面も自動採点しようとしている(Landauer, Laham, & Foltz, 2003)8)。この手法は,使用語彙の頻度情報に基づいて,複数のライティングの内容がどの程度類似しているのかを数学的に測るものである。そして,現在最も有名な英文自動採点システムは,TOEFLやTOEIC(Test of English for International Communication)などのテストを運営しているETS(Educational Testing Service)が開発したe-raterである。このシステムでは,最先端の自然言語処理技術を駆使し,語彙,統語,談話的情報といったライティングの様々な側面を定量的に評価している(Burstein, 2003)9)。さらに,このシステムはCriterionというウェブベースのライティング支援ツールにも実装されており,教育現場で広く活用されている(Liao, 2016)10)。言語テストを開発する場合には,「信頼性」と「妥当性」が重要となる。まず,テストの信頼性とは,同じ学習者に対して,同じ条件で同じようなテストを行った場合,同じ結果が得られる程度である。そして,テストの妥当性とは,そのテストで測定しようとしている能力(構成概念)を正しく測定できている程度である。従来,機械による自動採点は,人間による評価と比べて信頼性が高く,妥当性が低いとされてきた(Williamson, 2013)11)。それに加えて,人間による評価が多くの問題を抱えていることも,古くから指摘されてきた(Bejar, Williamson, & Mislevy, 2006)12)。いかに熟練した評価者であったとしても,英文における顕著な特徴に引きずられて他の特徴についての評価が歪められたり(ハロー効果),直前に読んだ英文が評価に影響を及ぼしたり(シークエンス効果),評価尺度の中心に評価が引きつけられたりすることもある(中心化傾向)。また,人間の評価は,長時間の作業による疲労の影響を受ける場合もあるため,信頼性が低くなりがちである(Ling, Mollaun, & Xi, 2014)13)。それに対して,機械による評価は,同一の英文に対しては常に同じ,一貫した結果を与える。その一方で,自動採点システムが人間のように正しく判定することは不可能である,という批判が繰り返し投げかけられてきた(Ericsson & Haswell, 2006)14)。実際,ライティングの一貫性や言語の創造的な使用など,現在のデータ処理技術による自動採点が難しい面は存在する(Higgins, Ramineni, & Zechner, 2015)15)。しかし,これは必ずしも技術的な問題ではない。言語を自動採点する場合,人間の評価者と同じ評価項目を用いることが理想ではあるが,専門的な訓練を受けた評価者であったとしても,自

元のページ  ../index.html#10

このブックを見る