論文紹介：行動は言葉より雄弁である：リサーチエクスペリエンス改善のための大規模ログ分析

原題は"Actions Speak Louder than Words: Analyzing large-scale query logs to improve the research experience”です。

Summonでどのようなアクセスログの分析が行われているのか"The Relevance Metrics Framework"という分析ツールの紹介と
それによって行われたSummonの機能向上を中心に訪問されています。

Code4Lib Journal Vol.21掲載の論文で、執筆者3名はSummonの開発チームのメンバーです。
例によって貧弱な英語力で読んでますので、誤りなどあればご指摘いただければ幸いです。

Code4Lib Conference 2013でも同様の内容で発表されていて、スライドと映像が公開されています。
映像
Actions speak louder than words: Analyzing large-scale query logs to improve the research experience | code4lib
スライド
Actions speak louder than words: Analyzing large-scale query logs t...

構成は

Actions Speak Louder than Words: Analyzing large-scale query logs to improve the research experience
1. Introduction
2. Web-scale discovery systems
3. The Relevance Metrics Framework
　3.1. RMF Goals
　3.2. Useful Underpinnings
　　3.2.1. Search Sessions
　　3.2.2. Clicks as a Proxy For Relevance
　3.3. Dataflow in RMF
　3.4. Metrics Computed in RMF
4. Gains from RMF
　4.1. Data source for tools
　4.2. User behavior and Insights
　　4.2.1 Patterns of search use
　　4.2.2. Optimizing default results per page
　　4.2.3 The nature of user searches
　　4.2.4 Query length and Abandonment
5. Improving RMF
　5.1. Data Quality
　5.2. The Implications of Simplifying Assumptions
6. Conclusions

１章

検索システム研究の伝統的な方法論、システム志向とユーザー志向のアプローチについて説明した後に、ログデータを利用したアプローチのメリットを述べています。

実験やユーザーテストで対象とすることができる数より、はるかに多くのユーザー対象とできる
ログデータは実際にユーザーが行った行動なので、限定的な環境で行った実験よりも信頼できる情報である
調査結果をもとにシステムを変更し、その効果を計測することができる

といったことが挙げられています。*1

2章

背景としてWebスケールディスカバリサービスとしてSummonについて解説されています。SaaSのサービスであることや、セントラルインデックスを持つこと、シンプルな検索ボックスと複数のフィルター、ファセットを持つことなどがあげられています。また、この論文で述べられていることは、Summonに限らず他のサーチエンジンにも適用可能であるとも述べられています。

3章

ユーザーのリサーチエクスペリエンスを改善するための取り組みの一つとして構築したログ分析ツール"the Relevance Metrics Framework"（以下RMF）の目的・データ・測定基準が述べられています。

目的

ユーザー行動の分析
検索品質の評価
Summonの機能改善

データ

セッション*2・クエリ・クリックされた検索結果などの情報を用いています。匿名化されたセッション情報からユーザーの振るまいを、クリックされた検索結果を適合文書の代替として検索品質の評価を行っています。

測定基準

どのような状況でユーザーが検索を放棄*3するのか
一回のセッション内で最初に検索結果をクリックするまでに用いた検索回数
検索結果の品質を評価するMRR*4やDCG*5

4章

RMFによってSummonがどのようにかわったのかツールのデータソースとユーザーの振るまいの面から述べられています。

ツールのデータソース

オートコンプリートや関連するクエリにRMFのデータを用いています。*6

ユーザーの振るまい

検索のパターン・デフォルト表示件数の最適化・検索方法の特徴・クエリの語数と放棄の関係について述べられています。

検索のパターン

セッションの数は曜日によって周期的に異なる（平日に多く週末少なくなる）のに対し、セッション内での検索回数はほぼ一定です。原文Figure 4を参照ください。

デフォルト表示件数の最適化

表示件数を多くすればユーザーは効率的に検索結果を確認できますが、送信するデータ量が多くなるので表示速度は遅くなります。Summonではほとんど上位10件までしかクリックされていないので、デフォルトの表示件数を25件から10件へと変更されました。デフォルト表示件数は各機関で変更可能にもかかわらずほとんど変更されていないことや、RMFの数値からユーザーにうけいれられていると考えられます。

検索方法の特徴

ほとんどシンプルなフリーワード検索が行われ、フィールド検索(クエリ単位で6%未満、セッション単位で4%未満)や演算子 *7を用いた検索（2%強）はほとんど行われていません。一方でフィルタ機能はよく使用(クエリ単位で40%以上)されています。もっとも良く利用されているフィルタはコンテンツタイプです。

クエリの語数と放棄

クエリの語数と検索やセッションの放棄の関連性を調査しました。いずれもクエリの語数が少ないほど放棄する割合が高まります。原文Figure 5・6を参照ください。さらに多くのクエリは3語以下で構成されています。これに対する改善の一つが関連するクエリの推薦であり、今後リリース予定のTopicペイン機能*8です。

5章

RMFのデータ品質や仮定を簡素化していることの意味について述べられています。

データ品質

クローラーやプログラムによる機械的なアクセスなどは、RMFの分析をゆがめる可能性があります。一方で全てのデータを"Spam"といえるようなアクセスと実際のユーザーとのアクセスに分別するのは困難です。機械的なアクセスの特徴に当てはまるものは取り除く、判断が難しいものは"suspicious（容疑者）"タグをつけてデータは残し分析に加えることも除くことも出来るようにする、スパムを完全に取り除くのではなく分析の大勢に影響を与えないようにする、といったアプローチを組み合わせています。

仮定を簡素化していることの意味

セッションは、同一ユーザーによる単一の情報要求に基づく検索と仮定して、複数のユーザーが同一端末で短い間隔で検索を行った場合や、同一ユーザーが複数の情報要求に基づいて連続して検索する場合を考慮していません。クリックについてもクリックされた結果を適合とみなしていますが、リンク先を見て適合していないと分かった、本当は適合しているがクリックされなかった、検索結果でユーザーの情報要求が満たされてクリックする必要がなかった*9といったパターンが考えられます。こういった仮定に基づいた分析結果であることは配慮しておく必要があります。

6章

改めてRMFの意義やその効果、Summonの継続的な開発を行っていくことが述べられています。

- - -

なぜデフォルトの表示件数を変更するのか、リリースが行われたときにちょっと疑問に思っていましたが、この論文でその根拠が理解できました。
全体の傾向だけでなく、各言語や機関ごとにRMFで行われている項目について比較分析ができると面白そうです。そのようなSerials Solutions社では手が回らないような機関単位のデータ分析や個別のセッションについての分析が各機関で実施できるようにデータが提供たり標準の統計ツール*10が充実することを願ってます。

*1:システム志向やユーザー志向のアプローチについては、岸田和明. 情報検索における評価方法の変遷とその課題. 情報管理, 2011, vol. 54, no. 8, p. 439–448. 三輪真木子. 情報行動 : システム志向から利用者志向へ. 勉誠出版, 2012.などをご参考に

*2:一連のユーザーの振るまいを紐づける情報です。Summonでは90分以上の間隔が開いて無く、最大でも8時間となるように設定されています。

*3:一回も検索結果をクリックしない状況、セッションとクエリに対してそれぞれ放棄の状況を調査しています。

*4:Mean Reciprocal Rank:検索結果の評価指標です。検索結果の最上位にもっとも関連性の高い文書が表示されている状態が理想といえるので、１番上の検索結果がクリックされていれば1/1=1、5番目の結果がクリックされていれば1/5=0.2と、なにもクリックされなかったときは0とします。つまりMRRが1に近いほど良いシステムといえます

*5:Discounted Cumulative Gain:検索結果の評価指標です。複数の検索結果がクリックされることがありえますが、そのような場合の検索結果の品質を評価します。クリックされた検索結果で、上位に表示されているものに高得点、下位ほど低得点として特定を累積していきます。DCGの値が高いほどよいシステムとみなせます。

*6:メモ：Summonのオートコンプリート機能について

*7:AND、ORなどのブーリアン演算子やワイルドカード

*8:原文Figure 7やSerials SolutionsがSummon 2.0を導入　ディスカバリーサービスに新たな進化no Topic Exploreの項を参照ください。Googleのナレッジグラフをイメージすればいいように思います。

*9:例えばある特定の書籍の著者情報などはクリックする必要がないといった例が論文中であげられています

*10:時間や曜日を導入している機関のタイムゾーンで設定するとか、どういったコンテンツによくアクセスされているのかといった項目が追加されないか、など標準の統計ツールにお願いしたいことはいろいろありますが