【2005研究大会】列挙形式で引用された論文間の類似特性
◆所属 慶應義塾大学大学院
◆発表題目
列挙形式で引用された論文間の類似特性
◆発表要旨
【研究目的】
論文本文での引用記述の中には,1つの箇所で複数の論文を列挙して引用するものがある。このような形式の引用記述を共引用関係にある論文に着目して捉えた場合,「論文執筆者が,列挙形式で引用した全ての論文を,引用文の文脈において同一のものとして扱った」と見ることが出来る。この発想に基づくと,同一箇所において列挙形式で引用された論文間の類似度は,列挙形式以外で引用された論文間の類似度よりも強い可能性があると考えられる。また,列挙形式で引用された論文間の類似は,従来の共引用が示す類似と比べて,その類似の関係の種類(方法論としての類似など)を特定することが可能であると予想される。なぜなら,引用文の文脈が引用された論文の類似理由について言及していると考えられるからである。例えば,「method」が引用文に含まれている場合,引用された論文は方法論の点で類似している可能性が高い。
以上のような考えに立ち,本研究では,同一箇所で列挙された論文間の類似特性について分析する。列挙形式の引用は,「執筆者が判断した,類似性の高い論文の組」という論文同士の関係を示す情報であるにもかかわらず,これまで検索システムに活用されてこなかった。この情報を分析することで,類似論文の検索の一助になると考えられる。
【研究方法】
ペンシルバニア州立大学で公開されている科学技術論文データベースCiteSeerの論文メタデータを利用する。このメタデータには,CiteSeerが収録している論文の一般的な書誌情報,引用情報,論文本文のURLが含まれている。
まず,このURLを用いて本文を入手する。次に,入手した本文を用いて,列挙形式で引用された論文の組を特定する。その後,以下の分析を行い,列挙形式で引用された論文間の類似特性を明らかにする。
1. 列挙形式で引用された論文の組と列挙形式以外で引用された論文の組の類似度をそれぞれ測定し,比較する。類似度は,主として論文に含まれる語の共出現数によって測定する。
2. 列挙形式の引用を行った引用文に含まれる語,及び引用された論文に含まれる語に基づいて,引用された論文間の類似関係の類型化を行う。これにより,列挙形式で引用された論文間にどのような類似関係の種類(方法論等)が存在するのか特定を試みる。また,列挙形式で引用された論文に対して,その引用に該当する類似種類に着目した類似度の測定を行う。
【予想される成果】
列挙形式で引用された論文間の類似強度と列挙形式以外で引用された論文間の類似強度の比較関係が分かる。また,列挙形式で引用された論文間に存在する類似関係の類型化の可能性についても明らかになる。