る語彙や表現のリストを作成するための研究も存在する4)。また,一口に「科学技術論文」と言っても,(a)Introduction,(b)Method,(c)Results and Discussion,(d)Conclusionといったセクションによって,典型的に用いられる語彙,表現,文法項目が異なる。その点を考慮した英語学術論文執筆支援ツールとしてAWSuM5)などがある。このツールでは,学術分野と論文のセクション,さらに特定のセクション内における伝達内容のまとまり(ムーブ)ごとに高頻度な単語連鎖が提示される。ただし,AWSuMが執筆を支援できる学問領域が限定的であるため,直接的な恩恵を受けられる研究者や学習者は限られている。従って,任意の(比較的小さい単位の)研究領域,論文の特定のセクションにおける重要表現を特定する方法論が求められている。そこで本稿では,ウェブ上に存在する膨大な科学技術論文を収集・分析し,特定の研究テーマに関する論文のセクションと密接に結びつく重要な表現を特定し,それらの表現の典型的な(高頻度な)使い方を把握するための方法論を紹介する。そして,読者の便を考慮し,科学技術論文の収集と分析にはフリーソフトを用いる。図1 AntCorGenのスクリーンショット注1)─ 10 ─本稿では,AntCorGen6)というフリーソフトを用いて,オープンアクセスジャーナルであるPLOS ONEから科学技術論文を自動で収集する。このツールを用いれば,PythonやRubyなどでスクレイピング(ウェブからの情報収集)のコードを書く必要がなく,プログラミングに馴染みのない研究者や学生でも比較的簡単にデータの収集が可能となる。また,論文のジャンルやトピックを指定することで,特定の分野に関するデータのみを集めることができる(図1)。さらに,論文の特定の部分(e.g., Introduction, Results and Discussion)のみを対象とする収集を行えば,科学技術論文のセクションごとに顕著な表現の分析ができる。ここでは,AntCorGenを用いて,機械学習(machine learning)に関する論文のIntroduction(INT)のセクションとResults and Discussion(RAD)のセクションから,1,000本ずつテキストを収集した。表1にあるように,データの総語数は約589万語である。2.分析データ
元のページ ../index.html#12