三田図書館・情報学会誌論文(論文ID LIS056043)
- 著者
- 安形輝・池内淳・石田栄美・野末道子・久野高志・上田修一
- 和文タイトル
- 日本語学術論文PDFファイルの自動判定
- 英文タイトル
- Automatic identification of academic articles in Japanese PDF files
- 掲載号・頁
- No.56, p.43-63
- 発行日
- 2007-01-25
- 和文抄録
オープンアクセス環境が進展するにつれ,セルフアーカイビングの形式で自らの研究成果を公開する研究者が増加している。そのような成果は,従来のすべてのウェブを対象とする検索エンジンからもアクセスが可能ではあるが,検索結果中の他のものに埋没してしまうことが多い。そこで,本研究ではウェブコンテンツ中からの学術論文,あるいは論文に準ずるコンテンツを判定するシステム構築を目指し,SVM など,多くの手法を用いて自動判定実験を行った。自動判定の手がかりとなる属性群としてはファイル中に出現する語と経験的なルール群を用いた。実験結果からは,段階的な論文判定を行うことで,学術情報専門の検索システム構築が実現可能であることが示唆された。
- 英文抄録
As open-access policies gain acceptance, an increasing number of researchers are contributing their papers to publicly accessible web sites (i.e. self-archiving). Theoretically, these papers are accessible from standard search engines, but they tend to be obscured by other contents on the web. The purpose of this research is to develop a system that can automatically detect academic articles and/or quasi-academic articles on the web. This paper describes experiments that were conducted on the performance of various classifiers and the results are compared in terms of precision, recall, and F-measure. The classifiers use attributes such as terms in PDF files and empirical rules. The results suggest the efficiency of a ranked output system which has several phases to identify academic articles.
- 論文本文
- 本文PDF (1,647K)
- 種別
- 原著論文