自機関の研究者はどのジャーナルから論文を引用しているのか?
この記事ではWeb of Scienceから出力したデータを用いて、研究者が投稿した論文で引用したジャーナル情報を抽出する方法を紹介します。
大学は学術雑誌に多大な投資をしていますが、研究者が利用するジャーナルを適切に提供できているのかを知ることが目的です。(残念ながらこの記事ではそこまで調査できていません。)関係する研究としては以下の2つがあります。(id:nacomintさんありがとうございました!)
- 気谷陽子, 歳森敦. 学術図書館における学術文献の供給可能率に関する研究. 情報の科学と技術. 2002, vol. 52, no. 9, p. 477–483. http://ci.nii.ac.jp/naid/110002829096/, (参照 2017-02-01).
- Ishita, Emi, Watanabe, Yukiko, Yamaguchi, Ai, Oda, Takako, Higa, Yuiko, Horiuchi, Miki, Mitani, Naoya. The Ratio of Conference Papers in Citations of Engineering Dissertations at Kyushu University. Springer Berlin Heidelberg, 2012, p. 59–62. http://link.springer.com/10.1007/978-3-642-34752-8_7, (参照 2017-2-01).
Web of Scienceから分析対象のデータをテキスト形式でダウンロード、簡単なテキスト処理を行ってデータを構造化、分析という流れです。分析にはPythonを利用しています。
手順
- Web of Scienceにアクセスして、検索フィールド「所属機関-拡張」で「univ* ryukyu*」を検索。検索期間は2016年に。
- 検索結果一覧画面で「他のファイルフォーマットで保存」を選択。
- 最大500件まで出力できるのでレコード番号を指定、「詳細情報と引用文献」「テキスト」を選択して出力。
- 必要なデータを全て出力するまで、3.を繰り返す。
- Pythonでデータ処理(利用したコードは後述)。
出力したテキストデータには以下のような引用文献のデータが含まれています。Web of Scienceに採録されていないジャーナルなどからの引用も出力されているようです。
CR Butterfield DA, 1997, PHILOS T R SOC A, V355, P369, DOI 10.1098/rsta.1997.0013
Charlou JL, 2000, CHEM GEOL, V171, P49, DOI 10.1016/S0009-2541(00)00244-8
Coplen TB, 2002, PURE APPL CHEM, V74, P1987, DOI 10.1351/pac200274101987
ほかにもアブストラクトやDOI、投稿したジャーナルの出版社などの情報も取得できます。
単なるテキストデータですが、各項目の見出しが行頭に、要素の繰り返す場合は行頭が空白文字列という規則的な構成になっているので、比較的簡単にデータを構造化することができます。ただし、引用文献のデータそのものは1行1レコードの文字列に過ぎないので、さらに加工が必要です。前述のデータはカンマ区切りで著者,刊行年,ジャーナル名,巻号,DOIとなっていて扱いやすいのですが、書籍やWebサイトからの引用や巻号の構造などの要因でレコードの要素数が一定ではありません。今回はある程度割り切ってカンマで分割し、そのうちの3番目の要素をジャーナル名とみなしました。というわけで以下のすべての結果は、大まかな傾向は示しているはずですが、完全に正確なデータという訳ではありません。
結果
2016年に琉球大学の研究者が共著も含めて執筆に関わった論文数は561(2017年3月1日現在)、その論文のなかで引用されている資料数は20737。
論文単位の最小引用数は0、最大引用数は320、平均36.97、320の文献を引用しているのはWoSの分類でZoologyの原著論文([doi: 10.3897/zookeys.641.10346])でした。Pythonの機能を使って、箱ひげ図でプロットすると、320件の引用しているものは外れ値扱いされています。
論文のなかで引用されていたジャーナルのTOP20とその引用数は以下の表のとおりです。
ジャーナル名 | 引用数 | |
---|---|---|
1 | NATURE | 268 |
2 | P NATL ACAD SCI USA | 247 |
3 | PLOS ONE | 225 |
4 | SCIENCE | 219 |
5 | PHYS REV B | 181 |
6 | J PHYS SOC JPN | 158 |
7 | J BIOL CHEM | 137 |
8 | CORAL REEFS | 129 |
9 | PHYS REV LETT | 117 |
10 | NEW ENGL J MED | 106 |
11 | MOL BIOL EVOL | 101 |
12 | BLOOD | 98 |
13 | NAT GENET | 97 |
14 | PHYS REV D | 97 |
15 | J IMMUNOL | 91 |
16 | LANCET | 88 |
17 | BIOINFORMATICS | 83 |
18 | J AM CHEM SOC | 82 |
19 | ZOOL SCI | 82 |
20 | MAR BIOL | 81 |
ジャーナル名称は省略形でしか出力されませんが、上位20位だとさすがに有名どころが多いですね。
Coral ReefsやMarine Biologyあたりは、自機関の特徴を表していそうです。
ただし、上位20タイトルでは引用されている資料数20737の13%程度しかカバーできず、80%までカバーするには2150タイトル必要という結果になりました。PLOS ONEが3番目に引用されているようにOAジャーナルも一定程度含まれているとは思いますが、ビッグディールの恩恵が多分にありそうです。
大学図書館でどの程度文献が提供できているか、どのジャーナルパッケージがよく利用されているか、どの程度OAの文献が引用されているかなどを明らかにするのが次の目標です。雑誌の省略形>ISSN>リンクリゾルバAPIという流れでジャーナルの詳細を調べる、もしくはDOIが含まれているレコードに限定して調査すれば実現できそうです。
以下、いくつかこんなデータも出してみました。
引用文献の出版年
出版年 | 件数 |
---|---|
2016 | 255 |
2015 | 982 |
2014 | 1283 |
2013 | 1325 |
2012 | 1287 |
2011 | 1189 |
2010 | 1088 |
2009 | 1055 |
2008 | 985 |
2007 | 891 |
2006 | 836 |
2005 | 805 |
2004 | 728 |
2003 | 632 |
2002 | 521 |
2001 | 504 |
2000 | 542 |
1999 | 462 |
1998 | 384 |
1997 | 339 |
1996 | 312 |
2012から2014に書かれた論文が最も引用されており、それ以前の論文は徐々に件数を減らしています。一方で1500年代から1700年代の文献の引用も確認されました。分野によってどの程度過去の文献を参照するかは傾向があるはずなのでそれを確認することや、OAになっている資料の比率なんかを調べても面白いかもしれません。2,3の論文を見た範囲ですがZoologyのなかでも分類に関連した研究は1800年代の研究もよく参照しており、
Biodiversity Heritage Libraryのお陰で利用できるという資料も多かったです。
投稿しているジャーナルの出版社
出版社 | 件数 | |
---|---|---|
1 | WILEY-BLACKWELL | 51 |
2 | SPRINGER | 30 |
3 | ELSEVIER SCIENCE BV | 24 |
4 | PUBLIC LIBRARY SCIENCE | 21 |
5 | PERGAMON-ELSEVIER SCIENCE LTD | 19 |
6 | BIOMED CENTRAL LTD | 17 |
7 | PHYSICAL SOC JAPAN | 15 |
8 | NATURE PUBLISHING GROUP | 13 |
9 | SPRINGER JAPAN KK | 13 |
10 | ELSEVIER SCI LTD | 12 |
11 | LIPPINCOTT WILLIAMS & WILKINS | 11 |
12 | SPRINGER HEIDELBERG | 11 |
13 | ACADEMIC PRESS INC ELSEVIER SCIENCE | 10 |
14 | TAYLOR & FRANCIS LTD | 10 |
15 | OXFORD UNIV PRESS | 7 |
16 | AMER PHYSICAL SOC | 6 |
17 | ELSEVIER SCIENCE INC | 6 |
18 | IMPACT JOURNALS LLC | 6 |
19 | IOP PUBLISHING LTD | 6 |
20 | MDPI AG | 6 |
Wileyがトップなのかと思いましたが、Springer、Elsevierは系列会社?で分散しているので、このあたりはまとめて集計したほうがよさそうです。ぱっとSpringer関係が一番投稿数としては多そうですね。
ソースコード
あんまり大したことはしていませんが、分析に利用したソースコードは以下からご覧いただけます。
Jupyter Notebook Viewer
こういう段階的に調査していくときにJupyter notebookはとても便利ですね。いまは環境構築も簡単にAnacondaをインストールするだけでだいたい終了です。Anacondaは以下からダウンロードできます。