三田図書館・情報学会:Mita Society for Library and Information Science

【2005研究大会】Web情報資源を用いた件名と分類の提案

◆氏名 上田 洋, 村上 晴美
◆所属 大阪市立大学大学院 創造都市研究科
◆発表題目 
 Web情報資源を用いた件名と分類の提案
◆発表要旨
 我々はこれまで,利用者のキーワード入力によりBSH4件名標目とNDC9分類項目の検索が可能なOPACを開発してきた。このシステムでは単純なパターンマッチ(部分一致)で検索しているため,検索結果がヒットしない場合が多いという問題があった。
 本研究では,検索結果がヒットしない場合でも,利用者が入力したキーワードに関連するBSH4件名標目(以下件名)とNDC9分類項目名(以下分類)を提示する手法を検討する。利用者の入力は多様であり,新語に対応するため,Web情報資源に着目する。
 利用者の入力したキーワードに対して,ベクトル空間モデルに基づき,件名および分類の類似度を計算して,それぞれ10件ずつ提示する。
 まず,件名および分類から文書ベクトルを作成する。件名の場合は,BSH4件名標目に下位標目を加える。分類の場合はNDC9分類項目の第3次区分以下の分類項目を対象とし,その下位2区分の分類小項目を加える。その後,件名・分類ともに形態素解析を行って抽出した索引語の頻度に基づき文書ベクトルとする。
 次に,利用者の入力するキーワードから検索質問ベクトルを作成する。利用者の入力する多様なキーワードに対応するために,情報源として,インターネット上のフリー辞書であるWikiPediaと,Amazonの書籍データを利用できるAmazon Web Service(以下AWS),Web検索エンジンであるGoogleを用いる。具体的には,キーワード入力と同時に,WikiPediaから1件の文書を,AWSの場合は3件の文書を,Googleの場合は5件のWebを取得し,形態素解析と不要語処理を行ったのちに,索引語を情報源の種類毎に重み付けを行い,検索質問ベクトルとする。
 本手法の有効性を確認するために,プロトタイプシステムを作成して,大阪市立大学学部学生41名に質問紙調査を行った。IT用語のオンライン辞典サイトであるe-wordsのアクセスランキング100語に関して,被調査者に5語ずつわりあてた。まず,キーワードとして,そのキーワードをどの程度知っているか5段階(5:かなりよく知っている 4:よく知っている 3:どちらともいえない 2:あまりよく知らない 1:全くよく知らない)で評定(既知度と呼ぶ)させ,次に,システムの出力である件名,分類各10語を提示して,その語がキーワードに対してどの程度関連しているかを3段階(3: 関連している,2:どちらともいえない,1:関連していない)で評定(関連度と呼ぶ)させた。既知度が3以上であったキーワードについて集計したところ,(a) 最上位語の評定が最も高い(平均件名:2.34,分類: 2.31), (b) 関連度3のものを適合とみなし,適合率を判定したところ,件名の上位1件(最上位語)で55%,3件で49%,10件で41%,分類の上位1件(最上位語)で51%,3件で46%,10件で40%であった。以上の結果より,コンピュータ用語を対象とした場合の件名と分類の提示手法の一定の有効性を確認した。

当サイトに含まれる内容は,三田図書館・情報学会が著作権を有しており,その扱いは日本の著作権法に従います。著作権法が認めた範囲を超えて,当サイトの内容の全体もしくは一部を,当学会に無断で複製し,頒布あるいは閲覧させる等の行為を禁じます。
当サイト内の各ページへのリンクは,商用,個人用を問わず許諾を得る必要はありません。しかし,当方の不利益になるようなリンクはお断りします。