自機関の研究者はどのジャーナルから論文を引用しているのか？

この記事ではWeb of Scienceから出力したデータを用いて、研究者が投稿した論文で引用したジャーナル情報を抽出する方法を紹介します。

大学は学術雑誌に多大な投資をしていますが、研究者が利用するジャーナルを適切に提供できているのかを知ることが目的です。（残念ながらこの記事ではそこまで調査できていません。）関係する研究としては以下の２つがあります。（id:nacomintさんありがとうございました！）

気谷陽子, 歳森敦. 学術図書館における学術文献の供給可能率に関する研究. 情報の科学と技術. 2002, vol. 52, no. 9, p. 477–483. http://ci.nii.ac.jp/naid/110002829096/, (参照 2017-02-01).
Ishita, Emi, Watanabe, Yukiko, Yamaguchi, Ai, Oda, Takako, Higa, Yuiko, Horiuchi, Miki, Mitani, Naoya. The Ratio of Conference Papers in Citations of Engineering Dissertations at Kyushu University. Springer Berlin Heidelberg, 2012, p. 59–62. http://link.springer.com/10.1007/978-3-642-34752-8_7, (参照 2017-2-01).

Web of Scienceから分析対象のデータをテキスト形式でダウンロード、簡単なテキスト処理を行ってデータを構造化、分析という流れです。分析にはPythonを利用しています。

手順

Web of Scienceにアクセスして、検索フィールド「所属機関-拡張」で「univ* ryukyu*」を検索。検索期間は2016年に。
検索結果一覧画面で「他のファイルフォーマットで保存」を選択。
最大500件まで出力できるのでレコード番号を指定、「詳細情報と引用文献」「テキスト」を選択して出力。
必要なデータを全て出力するまで、3.を繰り返す。
Pythonでデータ処理（利用したコードは後述）。

出力したテキストデータには以下のような引用文献のデータが含まれています。Web of Scienceに採録されていないジャーナルなどからの引用も出力されているようです。

CR Butterfield DA, 1997, PHILOS T R SOC A, V355, P369, DOI 10.1098/rsta.1997.0013
Charlou JL, 2000, CHEM GEOL, V171, P49, DOI 10.1016/S0009-2541(00)00244-8
Coplen TB, 2002, PURE APPL CHEM, V74, P1987, DOI 10.1351/pac200274101987

ほかにもアブストラクトやDOI、投稿したジャーナルの出版社などの情報も取得できます。
単なるテキストデータですが、各項目の見出しが行頭に、要素の繰り返す場合は行頭が空白文字列という規則的な構成になっているので、比較的簡単にデータを構造化することができます。ただし、引用文献のデータそのものは1行1レコードの文字列に過ぎないので、さらに加工が必要です。前述のデータはカンマ区切りで著者,刊行年,ジャーナル名,巻号,DOIとなっていて扱いやすいのですが、書籍やWebサイトからの引用や巻号の構造などの要因でレコードの要素数が一定ではありません。今回はある程度割り切ってカンマで分割し、そのうちの3番目の要素をジャーナル名とみなしました。というわけで以下のすべての結果は、大まかな傾向は示しているはずですが、完全に正確なデータという訳ではありません。

結果

2016年に琉球大学の研究者が共著も含めて執筆に関わった論文数は561（2017年3月1日現在）、その論文のなかで引用されている資料数は20737。
論文単位の最小引用数は0、最大引用数は320、平均36.97、320の文献を引用しているのはWoSの分類でZoologyの原著論文([doi: 10.3897/zookeys.641.10346])でした。Pythonの機能を使って、箱ひげ図でプロットすると、320件の引用しているものは外れ値扱いされています。
f:id:otani0083:20170302161842p:plain

論文のなかで引用されていたジャーナルのTOP20とその引用数は以下の表のとおりです。

	ジャーナル名	引用数
1	NATURE	268
2	P NATL ACAD SCI USA	247
3	PLOS ONE	225
4	SCIENCE	219
5	PHYS REV B	181
6	J PHYS SOC JPN	158
7	J BIOL CHEM	137
8	CORAL REEFS	129
9	PHYS REV LETT	117
10	NEW ENGL J MED	106
11	MOL BIOL EVOL	101
12	BLOOD	98
13	NAT GENET	97
14	PHYS REV D	97
15	J IMMUNOL	91
16	LANCET	88
17	BIOINFORMATICS	83
18	J AM CHEM SOC	82
19	ZOOL SCI	82
20	MAR BIOL	81

ジャーナル名称は省略形でしか出力されませんが、上位20位だとさすがに有名どころが多いですね。
Coral ReefsやMarine Biologyあたりは、自機関の特徴を表していそうです。

ただし、上位20タイトルでは引用されている資料数20737の13%程度しかカバーできず、80%までカバーするには2150タイトル必要という結果になりました。PLOS ONEが3番目に引用されているようにOAジャーナルも一定程度含まれているとは思いますが、ビッグディールの恩恵が多分にありそうです。

大学図書館でどの程度文献が提供できているか、どのジャーナルパッケージがよく利用されているか、どの程度OAの文献が引用されているかなどを明らかにするのが次の目標です。雑誌の省略形＞ISSN＞リンクリゾルバAPIという流れでジャーナルの詳細を調べる、もしくはDOIが含まれているレコードに限定して調査すれば実現できそうです。

以下、いくつかこんなデータも出してみました。

引用文献の出版年

出版年	件数
2016	255
2015	982
2014	1283
2013	1325
2012	1287
2011	1189
2010	1088
2009	1055
2008	985
2007	891
2006	836
2005	805
2004	728
2003	632
2002	521
2001	504
2000	542
1999	462
1998	384
1997	339
1996	312

2012から2014に書かれた論文が最も引用されており、それ以前の論文は徐々に件数を減らしています。一方で1500年代から1700年代の文献の引用も確認されました。分野によってどの程度過去の文献を参照するかは傾向があるはずなのでそれを確認することや、OAになっている資料の比率なんかを調べても面白いかもしれません。2,3の論文を見た範囲ですがZoologyのなかでも分類に関連した研究は1800年代の研究もよく参照しており、
Biodiversity Heritage Libraryのお陰で利用できるという資料も多かったです。

投稿しているジャーナルの出版社

	出版社	件数
1	WILEY-BLACKWELL	51
2	SPRINGER	30
3	ELSEVIER SCIENCE BV	24
4	PUBLIC LIBRARY SCIENCE	21
5	PERGAMON-ELSEVIER SCIENCE LTD	19
6	BIOMED CENTRAL LTD	17
7	PHYSICAL SOC JAPAN	15
8	NATURE PUBLISHING GROUP	13
9	SPRINGER JAPAN KK	13
10	ELSEVIER SCI LTD	12
11	LIPPINCOTT WILLIAMS & WILKINS	11
12	SPRINGER HEIDELBERG	11
13	ACADEMIC PRESS INC ELSEVIER SCIENCE	10
14	TAYLOR & FRANCIS LTD	10
15	OXFORD UNIV PRESS	7
16	AMER PHYSICAL SOC	6
17	ELSEVIER SCIENCE INC	6
18	IMPACT JOURNALS LLC	6
19	IOP PUBLISHING LTD	6
20	MDPI AG	6

Wileyがトップなのかと思いましたが、Springer、Elsevierは系列会社？で分散しているので、このあたりはまとめて集計したほうがよさそうです。ぱっとSpringer関係が一番投稿数としては多そうですね。

ソースコード

あんまり大したことはしていませんが、分析に利用したソースコードは以下からご覧いただけます。
Jupyter Notebook Viewer

こういう段階的に調査していくときにJupyter notebookはとても便利ですね。いまは環境構築も簡単にAnacondaをインストールするだけでだいたい終了です。Anacondaは以下からダウンロードできます。

Download Anaconda Now! | Continuum