読者です 読者をやめる 読者になる 読者になる

自機関の研究者はどのジャーナルから論文を引用しているのか?

図書館

この記事ではWeb of Scienceから出力したデータを用いて、研究者が投稿した論文で引用したジャーナル情報を抽出する方法を紹介します。

大学は学術雑誌に多大な投資をしていますが、研究者が利用するジャーナルを適切に提供できているのかを知ることが目的です。(残念ながらこの記事ではそこまで調査できていません。)関係する研究としては以下の2つがあります。(id:nacomintさんありがとうございました!)

  • 気谷陽子, 歳森敦. 学術図書館における学術文献の供給可能率に関する研究. 情報の科学と技術. 2002, vol. 52, no. 9, p. 477–483. http://ci.nii.ac.jp/naid/110002829096/, (参照 2017-02-01).
  • Ishita, Emi, Watanabe, Yukiko, Yamaguchi, Ai, Oda, Takako, Higa, Yuiko, Horiuchi, Miki, Mitani, Naoya. The Ratio of Conference Papers in Citations of Engineering Dissertations at Kyushu University. Springer Berlin Heidelberg, 2012, p. 59–62. http://link.springer.com/10.1007/978-3-642-34752-8_7, (参照 2017-2-01).

Web of Scienceから分析対象のデータをテキスト形式でダウンロード、簡単なテキスト処理を行ってデータを構造化、分析という流れです。分析にはPythonを利用しています。

手順

  1. Web of Scienceにアクセスして、検索フィールド「所属機関-拡張」で「univ* ryukyu*」を検索。検索期間は2016年に。f:id:otani0083:20170228234344p:plain
  2. 検索結果一覧画面で「他のファイルフォーマットで保存」を選択。f:id:otani0083:20170228234651p:plain
  3. 最大500件まで出力できるのでレコード番号を指定、「詳細情報と引用文献」「テキスト」を選択して出力。f:id:otani0083:20170228234820p:plain
  4. 必要なデータを全て出力するまで、3.を繰り返す。
  5. Pythonでデータ処理(利用したコードは後述)。

出力したテキストデータには以下のような引用文献のデータが含まれています。Web of Scienceに採録されていないジャーナルなどからの引用も出力されているようです。

CR Butterfield DA, 1997, PHILOS T R SOC A, V355, P369, DOI 10.1098/rsta.1997.0013
Charlou JL, 2000, CHEM GEOL, V171, P49, DOI 10.1016/S0009-2541(00)00244-8
Coplen TB, 2002, PURE APPL CHEM, V74, P1987, DOI 10.1351/pac200274101987

ほかにもアブストラクトやDOI、投稿したジャーナルの出版社などの情報も取得できます。
単なるテキストデータですが、各項目の見出しが行頭に、要素の繰り返す場合は行頭が空白文字列という規則的な構成になっているので、比較的簡単にデータを構造化することができます。ただし、引用文献のデータそのものは1行1レコードの文字列に過ぎないので、さらに加工が必要です。前述のデータはカンマ区切りで著者,刊行年,ジャーナル名,巻号,DOIとなっていて扱いやすいのですが、書籍やWebサイトからの引用や巻号の構造などの要因でレコードの要素数が一定ではありません。今回はある程度割り切ってカンマで分割し、そのうちの3番目の要素をジャーナル名とみなしました。というわけで以下のすべての結果は、大まかな傾向は示しているはずですが、完全に正確なデータという訳ではありません。

結果

2016年に琉球大学の研究者が共著も含めて執筆に関わった論文数は561(2017年3月1日現在)、その論文のなかで引用されている資料数は20737。
論文単位の最小引用数は0、最大引用数は320、平均36.97、320の文献を引用しているのはWoSの分類でZoologyの原著論文([doi: 10.3897/zookeys.641.10346])でした。Pythonの機能を使って、箱ひげ図でプロットすると、320件の引用しているものは外れ値扱いされています。
f:id:otani0083:20170302161842p:plain

論文のなかで引用されていたジャーナルのTOP20とその引用数は以下の表のとおりです。

ジャーナル名 引用数
1 NATURE 268
2 P NATL ACAD SCI USA 247
3 PLOS ONE 225
4 SCIENCE 219
5 PHYS REV B 181
6 J PHYS SOC JPN 158
7 J BIOL CHEM 137
8 CORAL REEFS 129
9 PHYS REV LETT 117
10 NEW ENGL J MED 106
11 MOL BIOL EVOL 101
12 BLOOD 98
13 NAT GENET 97
14 PHYS REV D 97
15 J IMMUNOL 91
16 LANCET 88
17 BIOINFORMATICS 83
18 J AM CHEM SOC 82
19 ZOOL SCI 82
20 MAR BIOL 81


ジャーナル名称は省略形でしか出力されませんが、上位20位だとさすがに有名どころが多いですね。
Coral ReefsやMarine Biologyあたりは、自機関の特徴を表していそうです。

ただし、上位20タイトルでは引用されている資料数20737の13%程度しかカバーできず、80%までカバーするには2150タイトル必要という結果になりました。PLOS ONEが3番目に引用されているようにOAジャーナルも一定程度含まれているとは思いますが、ビッグディールの恩恵が多分にありそうです。

大学図書館でどの程度文献が提供できているか、どのジャーナルパッケージがよく利用されているか、どの程度OAの文献が引用されているかなどを明らかにするのが次の目標です。雑誌の省略形>ISSN>リンクリゾルAPIという流れでジャーナルの詳細を調べる、もしくはDOIが含まれているレコードに限定して調査すれば実現できそうです。

以下、いくつかこんなデータも出してみました。

引用文献の出版年

出版年 件数
2016 255
2015 982
2014 1283
2013 1325
2012 1287
2011 1189
2010 1088
2009 1055
2008 985
2007 891
2006 836
2005 805
2004 728
2003 632
2002 521
2001 504
2000 542
1999 462
1998 384
1997 339
1996 312

2012から2014に書かれた論文が最も引用されており、それ以前の論文は徐々に件数を減らしています。一方で1500年代から1700年代の文献の引用も確認されました。分野によってどの程度過去の文献を参照するかは傾向があるはずなのでそれを確認することや、OAになっている資料の比率なんかを調べても面白いかもしれません。2,3の論文を見た範囲ですがZoologyのなかでも分類に関連した研究は1800年代の研究もよく参照しており、
Biodiversity Heritage Libraryのお陰で利用できるという資料も多かったです。

投稿しているジャーナルの出版社

出版社 件数
1 WILEY-BLACKWELL 51
2 SPRINGER 30
3 ELSEVIER SCIENCE BV 24
4 PUBLIC LIBRARY SCIENCE 21
5 PERGAMON-ELSEVIER SCIENCE LTD 19
6 BIOMED CENTRAL LTD 17
7 PHYSICAL SOC JAPAN 15
8 NATURE PUBLISHING GROUP 13
9 SPRINGER JAPAN KK 13
10 ELSEVIER SCI LTD 12
11 LIPPINCOTT WILLIAMS & WILKINS 11
12 SPRINGER HEIDELBERG 11
13 ACADEMIC PRESS INC ELSEVIER SCIENCE 10
14 TAYLOR & FRANCIS LTD 10
15 OXFORD UNIV PRESS 7
16 AMER PHYSICAL SOC 6
17 ELSEVIER SCIENCE INC 6
18 IMPACT JOURNALS LLC 6
19 IOP PUBLISHING LTD 6
20 MDPI AG 6

Wileyがトップなのかと思いましたが、Springer、Elsevierは系列会社?で分散しているので、このあたりはまとめて集計したほうがよさそうです。ぱっとSpringer関係が一番投稿数としては多そうですね。

ソースコード

あんまり大したことはしていませんが、分析に利用したソースコードは以下からご覧いただけます。
Jupyter Notebook Viewer

こういう段階的に調査していくときにJupyter notebookはとても便利ですね。いまは環境構築も簡単にAnacondaをインストールするだけでだいたい終了です。Anacondaは以下からダウンロードできます。

Download Anaconda Now! | Continuum