日本大学生産工学部 研究報告B(文系)第51巻
34/60

─ 32 ─アンケートを終了した学生から退室させるようにした。3ページで平均40分を要した。2.6 データ分析の方法本研究では,ランダムフォレストを用いて,文法学習のしやすさに影響を与える要因を特定した。ランダムフォレストは機械学習アルゴリズムの1種であり,モデリングの過程で,文法学習のしやすさ評定の回答パターンに対する個々の要因の影響力(変数重要度)を推定できる。その手順は,観測データからランダムに抽出されたデータに基づいてモデリングを指定回数行い,最も予測精度の高いモデルを決定することである。モデリングを行うにあたっては,質問紙8項目のうち「目標の文法を学習しやすい」を従属変数,残り7項目を独立変数とした。さらに,文法項目の種類(in front of, what,仮定法)およびDDLに使用するコーパス(SCoRE beg.,SCoRE int.,SCoRE adv.,CoBLE, BNC, WebParaNews)も独立変数としてモデルに投入した。分析はR-3.4.3およびrandomForestパッケージを用いて行われた(Levshina, 2015)19)。3.結果と考察3.1 記述統計各コーパスから抽出されたコンコーダンスラインに対する評定の平均値をTable5に示す。すべての質問紙項目について,SCoRE beg.から抽出したコンコーダンスラインの評定値が最も高く,続いてSCoRE int.,CoBLE, SCoRE adv.,BNC, WebParaNewsという結果であった。Fig.2が示す通り,コーパスの別によらず,文法学習のしやすさと相関の高かった要因は文法構造のわかりやすさ(r=.73),文意のわかりやすさ(r=.69),日本語訳の有無(r=.65)であった。3.2 ランダムフォレストによるモデリングの結果ランダムフォレストによるモデリングを行うにあたって,全観測データ(N=1,044)を教師データ(モデルを作成するためのデータ)とテストデータ(モデルの妥当性を検証するためのデータ)に分割した。データの分割には乱数を用い(シード値=100),全体の30%を教師データとし,残りの70%をテストデータとした。また,モデルの作成に用いる決定木の数は500とした。これは決定木による分類・予測結果が安定するまで木の数を増やしたときの値である。教師データを用いて独立変数の重要度(ジニ係数の平均減少量)を推定した結果をFig.3に示す。相関分析の結果と同じく,文法学習のしやすさに影響を大きく与えていたのは文構造のわかりやすさ,文意のわかりやすさ,および日本語訳の有無であった。文法項目の別は最も重要度が低く,どのような文法項目であっても上記のFig.1 Sample Questionnaire: in front of

元のページ  ../index.html#34

このブックを見る