読者です 読者をやめる 読者になる 読者になる

メモ:中渡瀬秀一, 大山敬三. 論文アブストラクトからの主旨抽出方法

 必要により,以下の研究会報告を読んだので個人用メモ。

中渡瀬秀一, 大山敬三. 論文アブストラクトからの主旨抽出方法. 人工知能学会研究会資料(情報編纂研究会(第 6 回)), No.TETDM-01-SIG-IC-06-03, pp.13-16 (2011)

本文リンクは以下。
http://www.sys.info.hiroshima-cu.ac.jp/people/sunayama/future/papers/3.pdf

要約

 日本語論文を対象に,そのアブストラクトから論文全体の趣旨を表す一文を機械的に抽出するという研究です。日本語論文のアブストラクトの中でも,医学系に見られるような研究の目的・背景・手法・成果等が区分されるものではなく,連続文で記述されているものを対象としています。
(例えばこの論文のアブストラクトなど:情報学広場:情報処理学会電子図書館

 方法は以下の2段階によるものです。

  1. アブストラクトの中から,主旨を表す文によく見られるキー表現「本研究では」「本稿では」などが含まれている文を抽出。
  2. 主旨を表すサンプル文を用意し,その文章に見られる述語表現のリストを作成する。それをもとに主旨文を抽出。

 この実験結果を理工系の6つの論文誌から,それぞれ20編,計120編に対して1.のプロセスを試みた結果が以下のものです。

抽出できた比率
最小 65.0%
最大 100.0%
平均 80.8%

この結果に加え,さらに2.のプロセスを適用した結果が以下となります。

抽出できた比率
最小 85.0%
最大 100.0%
平均 93.3%

 1.のプロセスで8割の文書において主旨抽出が可能となっています。精度の高い結果が得られたのは,アブストラクトという性質上,単純な構造であること,表現の多様性が低いことが挙げられています。また,抽出できなかった原因としては2のプロセスの述語サンプル数が少なかったこと,そしてそもそも主旨を表す文が含まれていないアブストラクトが全体の約4%程度含まれていたこととされています。後者については課題は文書の要約技術が課題ということです。

メモ

  • キー表現が複数の文に出現した場合の処理(複数を取り上げるのか,それとも例えば最初に出現したものを採用するのか)
  • 英語論文や人文社会学系の論文に同様の手法を適用した場合の精度は?
  • 分野ごとにアブストラクトの書き方にどの程度違いがあるのか?