【2005研究大会】日本語PDFファイルを対象とした学術論文の自動判定
◆所属 駿河台大学文化情報学部,大東文化大学,亜細亜大学,作新学院大学,鉄道総合技術研究所,慶應義塾大学
◆発表題目
日本語PDFファイルを対象とした学術論文の自動判定
◆発表要旨
(1)研究目的
現在,学術論文を対象とした様々な検索サービスが提供されている。たとえば,CiteSeerは,情報科学に関する英語の論文を中心に収集し,ほとんどの論文の全文を入手できる。また,国立情報学研究所では日本語を中心とした学術論文データベースの検索から本文へのリンクを提供するCiNiiの提供を始めた。
このように,学術論文の全文へのアクセスがなされつつあるが,日本語の論文を掲載するウェブページの検索,提供は,部分的にしか行われていない。そこで,分野を問わず,研究者が,ウェブ上で提供している日本語学術論文を自動的に収集し,全文を対象とした学術論文の検索を行うシステムやレポジトリの構築を目的とした調査と研究を進めている。
現在,学術論文の提供手段として最も一般的な配布形式はPDFファイルである。そこで,PDFファイル群からの学術論文の判定を第一の課題として考えた。文書のレイアウトやデザインを維持したまま閲覧できるファイルであるためPDFは,広い用途で利用されてつつある。その中から,主として本文に含まれる手がかりをもとに学術論文を判定する手法を検討した。
(2)研究方法
PDFファイルを対象とした学術論文の自動判定は,以下の手順で行った。(1)PDFファイルの収集,(2)人手によるPDFファイルからの学術論文の集合作成,(3)学術論文を自動判定できる要素の検討,(4)学術論文自動判定実験,(5)評価である。
PDFファイルはサーチエンジンを用いて収集した。ipadic2.5.1の辞書ファイルの6ファイルから無作為に選定した10,000語の検索語を用いて,各検索語に対し最大100件までPDFファイルのURLを収集した。重複URLを除いた307,514件のURLを実際にダウンロードし,暗号化されているPDFファイル,壊れているデータを除去し,最終的に248,314件のpdfファイル集合となった。
このpdfファイル集合から,3,000件をランダムに抽出し,6人の判定者が各500件を判定した。学術論文と判定できるかどうか迷うものに関しては,改めて6人が判定し5人以上が学術論文と判定したファイルを学術論文に含めた。その結果,98件(3.3%)が学術論文と判定された。
学術論文とされたPDFファイル集合とその他のPDFファイル集合の特徴を比較し,学術論文として,自動判定に用いることができる要素を抽出した。この要素として,出現単語(出現回数,出現の偏り,文字種),URL(ドメイン名),ファイルの大きさ(ファイルサイズ,ページ数,文字数),文末表現などを用いた。これらの要素を,テキスト自動分類やフィルタリングで用いられている手法であるSVM,ベイジアンフィルタリングを用いて,実際に学術論文の自動判定を行った。
(3)予想される成果
プレ実験として,出現回数で重み付けした出現単語全てを要素として用い,SVM手法により自動判定を行ったところ,高い判定結果は得られなかった。今後は,重み付けの方法や他の要素を含めた実験を行い,精度の向上を目指す予定である。