Introduction(INT)Results and discussion(RAD)合計本稿では,PLOS ONEから収集した科学技術論文における2つのセクション(INT, RAD)に特徴的な表現を定量的に抽出する。特殊目的英語(English for Specific Purposes; ESP)や学術目的英語(English for Academic Purposes; EAP)の分析では,「単語」を単位とする特徴表現抽出が行われることが多い。しかしながら,一般的に,単語の頻度はテキストの内容の影響を強く受けるため,適切な前処理や後処理を行わない限り,有益な分析結果が得られない。また,テキスト中に出現する単語の種類は数千から数万に及ぶため,頻度集計後の統計処理などでも計算機に大きな負荷をかける。そこで,以下の分析例では,コーパス言語学で古くから使われているBiber(1988)7)の67種類の言語項目を特徴表現抽出の単位とする。Biberの言語項目を用いることで,語彙,品詞,統語,談話というテキストの様々な層を分析することが可能になる。67種類の言語項目の頻度を求めるにあたっては,Multidimensional Analysis Tagger8)というフリーソフトを使用する。そして,Multidimensional Analysis Taggerで各言語項目の頻度を計算したのち,フリーの統計処理ツールであるR9)を用いて,Wilcoxonの順位和検定に基づく特徴表現抽出10)を行う。表2は,INTとRADにおける67種類の言語項目の相対頻度(100語あたり)に対してWilcoxonの順位和検定に基づく特徴表現抽出を行なった結果(上位10位まで)である注2)。なお,表中のkeynessはセクション間での中央値の差の大きさを表している。そして,図2は,上位10位までの言語項目の相対頻度を箱ひげ図で可視化したものである。表2および図2を見ると,上位10位までの全ての言語項目において,INTの方がRADよりも中央値が高いことが分かる。それでは,これら上位の言表1 分析データの概要テキスト数1,0001,0002,0001,403,9824,486,5955,890,577語数言語項目表2 Wilcoxonの順位和検定に基づく特徴表現抽出の結果(上位10位まで)語項目は,科学技術論文の中で,実際にどのように使われているのだろうか。この点を明らかにするために,AntCorGenと同じ開発者が公開しているAntConc11)というフリーソフト(図3)を用いて,頻度1位のTO(infinitives)の使用例を調査した。INTにおけるTOの使用例をAntConcのCluster機能で分析したところ,[to+動詞]の頻度1位は[to be]であり,頻度2位以降に,[to predict],[to identify],[to detect],[to find],[to classify]などが続く。これらの表現は,ここで分析対象としている学問領域,すなわち,多様な特徴量に基づき何らかの統計的予測・分類を行う機械学習の目的を反映している。そして,一例として,頻度2位の[predict]に注目し,[predict+名詞句]を調べると,[predict the future price(s)],[predict the stock market],[predict essential genes]などの高頻度パターンを発見できる。また,それ以外の表現では,[predict whether]や[predict accurately]などが頻出している。このような分析は,言語学や言語教育のための有益な知見を与える。また,このような高頻度パターンを学習者自身に発見させるData Driven Learning(DDL)で活用することもできる12)。言うまでもなく,名詞や動詞といった内容語の頻度はコーパスに収録されているテキストの影響を受けるが,そうであるからこそ,任意の研究領域における重要表現を抽出することが可能になる。855618.0854302.0800615.5779641.0744326.0742262.5725703.5722426.5704113.5700275.0中央値RAD0.890.155.193.4767.08.843.970.270.580.27TOPEASAWLVPRTTTRJJNOMZSPAUCONJSUAV─ 11 ─keynessINT1.510.475.504.9173.010.535.070.420.820.443.分析の手順4.結果と考察
元のページ ../index.html#13