CiNii Articlesから共著関係ネットワークの可視化

みたいなWebアプリを作りました。
CiNii CoAuthor Network
http://ciniicoauthornetwork.appspot.com/
id:haseharu先輩のアイディアやアドバイスによるところばかりです。ありがとうございます!

キーワードを入力すると(時間はかかりますが)以下のような感じでネットワーク図といくつかの統計指標を出力します。
f:id:otani0083:20130522204619p:plain


データ抽出の条件は以下のとおりです。

  • 検索結果の上限は1000件
  • ノードが著者(大きさ・色は論文数によって決めています)、エッジが共著関係にある論文数を表しています。
  • 重複データはタイトル完全一致を条件として除去
  • 著者名の先頭がアルファベット・カタカナで始まっているデータは除去*1
  • 同姓同名の著者は区別していません。
  • 単著の論文が1件のみのデータはネットワーク図には表示していません。

 こんな感じなのであくまでも参考程度の情報です。おおざっぱに特定領域における研究コミュニティの雰囲気を感じるのに使ってみて貰えればと思います。先にあげた「図書館 システム」というキーワードでは筑波大を中心としたグループと九大を中心としたグループがあることが見てとれます。

使ったツールなど


ソースコードはgithubで公開しています。
https://github.com/otani0083/ciniicoauthornetwork

参考情報

私的メモ
  • Google App Engineで日本語入力をするときにencode("utf-8")でユニコード文字列にエンコードすること。
  • webapp2のテンプレートでエスケープシーケンスをそのまま入力するときには{{hoge|safe}}と入力すること。
  • Google App Engineでファイル出力が出来ない。>>htmlにJsonデータを直接書き出すことでとりあえず暫定解決。htmlがひどいことに…。


*1:結果として著者数の平均値が1より小さい値をとることがあります。

メモ:NAVER전문정보(専門情報)

2013/4/30にソウル大学図書館のFacebookNAVER専門情報の講習会を開催するというお知らせを目にしました。
NAVER専門情報は少なくとも2010年にはサービス公開していたみたいなのですが、全然把握していなかったのでメモを。
これまで韓国の論文を調べるときには、インターネットで見られる韓国の資料―学術論文・新聞記事・政府刊行物 : アジア情報室通報第4巻第3号 | アジア諸国の情報をさがす | 国立国会図書館で挙げられているRISSで検索することがほとんどでした。

英語版インターフェイスすらなく、韓国語のみなのでなかなか使う機会は少ないと思いますが。
URL:http://academic.naver.com/

f:id:otani0083:20130501202005p:plain

シンプルな検索ボックスで、引用文献の表示をするオプションもあるみたいです。
人文社会学系の韓国国内の論文情報が中心に収録されているみたいですが、研究報告書・特許・KS標準・統計・国の公文書*1も検索できるようです。基本的には韓国国内のさまざまな機関(韓国国会図書館特許庁、RISSを提供している韓国教育学術情報院)からデータ提供をうけているようです。韓国外のものではSpringer、Oxford、Scienceなどの協力をうけているとありました。*2
その他、検索結果と自分の所属する大学の所蔵情報をリンクさせる機能や検索APIの提供が行われています。

個人的に面白いと思ったのは、公文書も検索対象にしている点と以下にあげる分野ごとの研究動向をまとめているサービスです。
f:id:otani0083:20130501202002p:plain
これは収録されている文献情報学分野の引用傾向を表したものです。被引用傾向は文献情報学・経営学・国語国文学・行政学・電子情報通信学といった順番になっています。引用傾向では文献情報学・経営学・電子情報通信学・教育学の順番になっています。経営学が入っているのは、文献情報学が記録管理も含めた学問分野になっているからですかね。

その他、学術誌論文や学位論文、韓国語とそれ以外の論文なんかの割合や、よく引用されている学術誌、学術論文のランキングなどもみることができます。

f:id:otani0083:20130501201959p:plain
これはタイムラインと呼ばれている機能で、年ごとのトピックを上位20件まで表示する機能です。そのトピックの抽出をどのようにしているのかは良くわかりませんでした。論文に付与されているキーワードかなにかだと思うのですが…。2011年のトピック上位5件は「公共図書館」「学校図書館」「大学図書館」「蔵書開発」「情報活用教育」です。2010年までは毎年上位5件に入っていた記録管理に関するキーワードが入ってないあたりが特徴的でしょうか。韓国におけるデジタルアーカイブの動向 - DIGITAL GOVERNMENTを読むと2009年に法改正が行われているようですので、その影響があったりするんでしょうか?

論文や引用情報の収録範囲とかが、はっきり分からず使っていてもやもやするのですが、多機能ですし広範な情報が検索できます。韓国語は日本語の機械翻訳の精度がとても高いので、韓国関係の情報を探すときの候補の一つになると思います。

*1:国家記録物、National Archive of Koreaから提供をうけている300万件の文書

*2:資料提供者(原文韓国語から)

カレントアウェアネス-Rのタイトルを形態素解析(2011-2012)

f:id:otani0083:20130429220246p:plain
2011年度と2012年度のカレントアウェアネス-Rのタイトルを形態素解析してみました。目的はD3.jsのワードクラウドを作るためです。プレゼン用に使いたかったので。

 形態素解析に使用したのはPythonigo-pythonというライブラリです。本来はJavaのプロジェクトですが、PythonだけでなくPHPRubyにも移植されているみたいです。
Pythonで形態素解析 - よしなしごとと同じようにMeCabを使っても良かったのですが、形態素解析を使ったWebアプリを作るにはこちらの方が簡単そうということで使ってみました。解析結果などはほぼMeCab互換ということなので、どちらを利用してもよいと思います。ただ、辞書のコンパイルの手間が必要ない分MeCabの方が手軽に導入できます。

参考にしたのは、公式や以下のサイトなど
igo-python を使ってみた / 桃缶食べたい。

D3.jsというデータ可視化のためのJavascriptライブラリを利用してワードクラウドにした結果が、冒頭の画像になります。形態素解析した結果から、以下の要素は取り除きました。

  • 数字
  • 一文字の名詞
  • 図書館(突出して出現数が多いので)

ワードクラウドの作り方は【D3.js】「全ツイート履歴」からWord cloudを作ってみた。 | GUNMA GIS GEEKのほぼそのままです。

2011年度と2012年度でそれぞれの単語の出現回数の順位を比較したのが下記の図になります。「公開」「公表」「開始」といった単語がメディアの特性上、高頻度で使用されていますね。中頻度くらいのところでもうちょっと年度ごとの傾向が出たりしないかなと思ったのですが…。ぱっと見めについたのが、「英国」「欧州」「スペイン」といった単語が順位をさげて、「ニューヨーク」「ALA」「IFLA」「OCLC」あたりが順位をあげているとかですかね。

プログラムの速度をあげるのと、あまり傾向を見るのに寄与しない単語の除去をそのうちやります。

2011 単語 頻度 2012 単語 頻度 2011年比順位
1 図書館 1206 1 図書館 1272
2 公開 607 2 公開 488
3 米国 256 3 米国 248
4 デジタル 254 4 電子 245 +3
5 国立 252 5 デジタル 231 -1
6 資料 244 6 国立 222 -1
7 電子 243 7 研究 218 +2
8 情報 228 8 大学 210 +2
9 研究 218 9 公表 200 +13
10 大学 214 10 資料 199 -4
11 書籍 167 11 書籍 194
12 発表 163 12 情報 189 -4
13 調査 157 13 紹介 181 +7
14 英国 151 14 サービス 177 +1
15 サービス 145 15 開始 164 +1
16 開始 143 16 記事 150 +12
17 提供 121 17 発表 139 -5
18 プロジェクト 117 18 公共 134 +11
19 大震災 116 19 イベント 128 +13
20 紹介 113 20 調査 122 -7
20 利用 113 21 協会 119 +17
22 公表 111 22 日本 118 +14
23 被災 109 23 提供 117 -6
23 オープン 109 24 オープン 113 -1
25 東日本 108 25 プロジェクト 108 -7
25 検索 108 26 報告 107 +1
27 報告 104 27 開催 106 +5
28 記事 103 28 ため 100 +2
29 公共 101 28 出版 100 +3
30 ため 99 30 アクセス 95 +21
31 出版 96 31 利用 89 -11
32 開催 92 32 データ 86 +11
32 イベント 92 33 東京 85 +14
34 アーカイブ 91 33 英国 85 -19
34 支援 91 35 支援 81 -1
36 日本 90 36 科学 80 +3
37 県立 88 36 国際 80 +5
38 協会 85 38 開設 76 +16
39 科学 82 39 アーカイブ 73 -5
40 システム 78 40 システム 70
41 国際 77 40 レポート 70 +15
42 Google 75 42 大震災 69 -23
43 データ 73 42 検索 69 -17
44 結果 72 42 国会図書館 69 +4
44 保存 72 45 年度 67 +11
46 国会図書館 71 46 東日本 66 -21
47 東京 70 47 刊行 65 +4
48 学校 68 47 公文書 65 +13
48 学術 68 49 図書 64 +15
48 教育 68 50 Google 59 -8
51 刊行 67 51 論文 58 +13
51 アクセス 67 51 学校 58 -3
51 文書 67 51 オンライン 58 +49
54 開設 66 51 向け 58 +17
55 レポート 65 51 OCLC 58 +20
56 実施 63 56 保存 57 -12
56 年度 63 56 機関 57 +5
58 研究所 62 58 文献 55 +10
58 附属 62 58 附属 55
60 公文書 59 60 県立 54 -23
61 活用 57 61 学術 53 -13
61 機関 57 61 歴史 53 +17
63 サイト 56 63 実施 52 -7
64 論文 55 63 結果 52 -19
64 図書 55 63 文化 52 +30
66 写真 53 63 ウェブサイト 52 +8
66 震災 53 63 活動 52 +5
68 文献 52 63 可能 52 +15
68 活動 52 69 テーマ 51 +61
68 向け 52 70 教育 50 -22
71 博物館 51 71 震災 47 -5
71 欧州 51 71 事業 47
71 ウェブサイト 51 73 世界 46 +13
71 Library 51 73 IFLA 46 +152
71 事業 51 73 貸出 46 +25
71 OCLC 51 76 データベース 45 +1
77 データベース 47 76 Library 45 -5
78 歴史 46 76 管理 45 +6
78 開発 46 79 導入 44 +7
78 著作 46 80 博物館 43 -9
78 可能 46 81 被災 42 -58
82 展示 44 81 センター 42 +9
82 管理 44 83 機構 41 +5
84 復興 43 83 リリース 41 +28
84 子ども 43 85 追加 40 +20
86 導入 42 85 コンテンツ 40 +10
86 世界 42 85 技術 40 +20
88 議会 41 85 欧州 40 -14
88 機構 41 85 文書 40 -34
90 センター 40 85 政府 40 +100
91 市立 39 91 議会 39 -3
91 文化財 39 91 著作 39 -13
93 文化 38 93 参加 38 +25
93 募集 38 93 コレクション 38 +62
95 無料 37 95 記録 37 +5
95 コンテンツ 37 96 機能 36 +13
95 計画 37 96 研究所 36 -38
98 読書 36 96 シンポジウム 36 +20
98 貸出 36 99 関係 34 +12
100 スペイン 35 99 開発 34 -21
100 記録 35 99 協力 34 +26
100 アプリ 35 102 市立 33 -11
100 中央 35 102 プログラム 33 +94
100 オンライン 35 102 子ども 33 -18
105 追加 34 102 サイト 33 -39
105 技術 34 102 展示 33 -20
105 会議 34 102 京都 33 +150
105 ページ 34 108 助成 32 +17
109 機能 33 108 社会 32 +17
109 対象 33 108 ページ 32 -3
111 関係 32 108 設置 32 +105
111 リリース 32 112 全国 31 +55
111 発行 32 112 作成 31 +21
114 委員 31 112 活用 31 -51
114 状況 31 112 成果 31 +36
116 作品 30 112 会議 31 -7
116 シンポジウム 30 117 状況 30 -3
118 文部 29 117 無料 30 -22
118 of 29 117 所蔵 30 +1
118 リポジトリ 29 120 対象 29 -11
118 所蔵 29 120 雑誌 29 +13
118 参加 29 120 学習 29 +47
118 カレントアウェアネス 29 123 Data 28 +2
118 iPad 29 123 関連 28 +10
125 Data 28 123 動画 28 +32
125 助成 28 123 ニューヨーク 28 +73
125 協力 28 123 カレントアウェアネス 28 -5
125 社会 28 123 発行 28 -12
125 岩手 28 129 掲載 27 +105
130 テーマ 27 129 終了 27 +209
130 新聞 27 129 連携 27 +26
130 インターネット 27 129 平成 27 +67
133 Europeana 26 133 書誌 26
133 LC 26 133 対応 26 +52
133 書誌 26 133 大阪 26 +22
133 雑誌 26 133 アプリ 26 -33
133 協議 26 133 振興 26 +43
133 関連 26 133 ALA 26 +242
133 こと 26 133 地域 26 +22
133 福島 26 140 読書 25 -42
133 フランス 26 140 分野 25 +85
133 HathiTrust 26 140 計画 25 -45
133 作成 26 140 インターネット 25 -10
144 ブログ 25 144 世紀 24 +32
144 ベータ 25 144 ツール 24 +23
144 構築 25 144 中央 24 -44
144 共同 25 144 企画 24 +433
148 団体 24 144 現状 24 +90
148 Twitter 24 144 募集 24 -51
148 成果 24 144 特集 24 +81

Twitterネットワークの可視化

f:id:otani0083:20130413172040j:plain

入門 機械学習の11章でTwitterのネットワーク可視化がトピックになっていて面白そうだったので、Pythonで作成してみました。*1

某Q大の図書館のアカウントを分析してみました。*2大きく2つに分かれていて、左側が図書館関係のアカウント、右側が大学関係のアカウントになっています。図書館関係のアカウントもそのなかで、LSS関係、大学図書館公式、あたりはクラスタになっていそうな感じです。大学関係のアカウントで多くフォローを集めているのは、個人よりも大学関連の情報発信系のアカウントのようです。個人ユーザーとおぼしきアカウントは、図書館系のクラスタよりも密度が低くなっていますね。このあたりに学部ごとのクラスタが出来てないかなぁと期待しているのですが、実際はどうなんでしょうね。

以下にデータとで作成したグラフをいくつか置いておくのでよかったらご覧ください。

使用ツール

手順

  1. Qlib_infoのフォロー、フォロワーアカウントの取得
  2. 1.で取得した全アカウントのフォロー、フォロワーアカウントを取得
  3. 各アカウントのフォロー、フォロワーに1.で取得したQlib_infoと共通して含まれるアカウントがあれば、networkXを使ってしてネットワークとして結ぶ
  4. クラスタリング
  5. Gephiで可視化

参考資料

mongoDBとGephiを初めて触りましたが、どちらも直感的に使えて便利ですね。とくにmongoDB。これがあれば個人的にはRDB使わなくても十分ですね。今回はいつもにもましてとりあえず動けばいいやという感あふれるコードなので、公開しません…。

*1:書籍はRについて書かれています。また、サンプルそのものはAPIの仕様変更でそのままは利用できないので工夫する必要があります。

*2:APIの関係で5000以上のフォロー、フォロワーは取得していません、おおざっぱな傾向みるには十分だろうと言うことで

Twitter公開リストからフォローワー数ランキングを作成するWebアプリを作りました

id:kitone図書館公式Twitterアカウントのフォロワー数ランキング(大学図書館編) - ささくれ図書館公式Twitterアカウントのフォロワー数ランキング - ささくれというエントリをうけて、ちょうどいいプログラミングの課題だと思い、Webアプリを作成してみました。

ユーザー名/リスト名という形で入力するとリストに登録されているユーザーがフォローワー数の多い準備に表示されます。
http://twitlmr.appspot.com/

  • TwitterAPI制限の関係で15分間に15回しか動かない。
  • エラー画面は一切修正していない。
  • 画面の読み込みに数秒かかる。
  • ike_labo/univlibは動きません…。重複といい原因不明です。

などいろいろ素人っぽいですが。なんとか動いているのではないかと。

ソースコードはgithubにおいています。

参考にした情報源や素材

ほとんどチュートリアルをいじっただけですが、だれかの役にたてば幸いです。

メモ:Ex Libris社

 海外ベンダーについてまとめるのは、月一くらいで続けていければいいかなと。どこまで続くかわかりませんが…。あとはそのうちWikipediaに修正転機をしていこうと思います。今回はリンクリゾルバの代名詞的なサービスであるSFXを提供しているEx Libris社です。(次はEBSCOかInnovativeを予定。)

Ex Libris Group

Ex Librisはイスラエルのソフトウェア会社であり、図書館システムや図書館関連のソフトウェアを開発しています。イスラエルの本部を含めて、世界に11カ所*1のオフィスを構えています。アメリカ議会図書館、British Library、中国国家図書館などを含む5300以上の顧客を有しています。その中にはThe Times Higher による世界の大学ランキング上位20の全ての大学が含まれているとのことです。((Our Vision.
http://www.exlibrisgroup.com/category/OurVision. (2013.04.03参照)))

製品

統合図書館システム

  • Aleph
  • Voyager
  • Alma


Other:

  • Primo
  • Primo Central…セントラルインデックス(PrimoやMetaLibをインターフェイスとして利用)
  • MetaLib…統合検索
  • SFX…リンクリゾルバ
  • bX…学術情報レコメンデーション
  • Digitool
  • Verde…ERMS
  • Rosetta
年譜
  • 1980 イスラエル・ヘブライ大学図書館のためにAlephが作られる。
  • 1983 Aleph商業化のためにAleph Yissumが設立される
  • 1986 Ex Libris, Ltd設立。Aleph Yissumは開発とイスラエル国内ユーザーのサポートを中心に行うことに
  • 1994.11 Endeavor Information Systems 設立
  • 1995 Yissum AlephとEx Libris, Ltdを統合
  • 1996 Ex Libris groupとして再組織化。
  • 1997.7 ドイツ企業のDabisを買収。
  • 1999 アメリカの図書館システム市場に参入
  • 1999 イスラエルの二つの投資会社Walden IsraelとTamar VenturesがEx Librisに400万ドルの出資をしました。
  • 2000.2 Ex Librisがベルギーのゲント大学からSFXの権利を取得
  • 2000.4 Endeavor Information SystemsがElsevierに買収
  • 2000.7 統合検索サービスMetaLibリリース
  • 2002.1 創設者であるEhud Arad がEx Librisの代表を退任
  • 2002.7 札幌医科大学がMetaLib/SFXを導入*2
  • 2003.5 Matti Shem TovがEx Librisの社長兼CEOに就任
  • 2004.6 電子リソースマネジメントシステムVerdeをリリース
  • 2005.8  Azriel MoragがEx Librisを退社
  • 2005.9 ERMS、Verdeをリリース
  • 2006.3 統合インターフェイスPrimoをリリース
  • 2006.6 Francisco PartnersがEx Libris groupを買収
  • 2006.11 Francisco Partners がElsevierからEndeavor Information -Systemsを買収
  • 2008.8 Leeds Equity PartnersがEx Libris Groupを買収
  • 2009.5 学術情報レコメンデーションサービスbXリリース
  • 2009.7 Ex Libris、統合資源管理システム(Alam)開発をリリース
  • 2010.2 Ex Libris、デンマークやスウェーデンでの営業強化のためFujitsu Services A/Sの図書館部門を買収。
  • 2010.4 慶應義塾大学 Aleph Primo導入*3
  • 2012.1 国立国会図書館でAlephの運用開始 *4
  • 2012.7 Boston CollegeがAlmaの最初のユーザーとなる
  • 2012.10 Golden Gate CapitalがLeeds Equity PartnersからEx Librisを買収
  • 2012.10 Orbis Cascade Alliance((オレゴン、ワシントン、アイダホの37学術図書館が加盟するコンソーシアム))がAlmaを採用
国内代理店

ユサコ株式会社

参考

札幌医科大の2002年にSFX導入というのはすごいですね。他の機関の導入時期まで追えませんでしたが相当に初期のユーザーではないかと。

*1:オーストラリア、中国、デンマーク、フランス、ドイツ、イスラエル、イタリア、シンガポール、韓国、イギリス、アメリカ

*2:今野穂. 電子コンテンツ管理 における札幌医科大学附属図書館の取り組み: MetgLib/SFX 導入経験 を中心 に(PDF).医学図書館, 51(3), 2004.(2013.04.03参照)

*3:入江伸. AlephをKOSMOS IIIへ,Primoをサービスの前面へ:システム選定から稼働までの総括.MediaNet,17, 2010.(2013.04.03参照) 

*4:2012.1.31日付プレスリリース

2年間おつかれさまでした!

友人のid:kitoneが異動することになり、今日がNDLでの最後の勤務日だったはずです。
彼とは2008年くらいからのつきあいになりますが、その能力や仕事に対する姿勢には頭がさがるばかりです。
この2年間は、それまで関心の薄かったであろう分野にも目配りしないといけなく、かつ業界内でも影響力の大きいポジションなので、いろいろプレッシャーもあったんだろうと思います。ただ、いいチームで仕事されていたのかとても楽しそうに打ち込まれていたので自分にも励みになりました。

参考になった情報は無数にあってひとつひとつ挙げることはできませんが、彼らしさが感じられて印象に残っているのは以下の2記事です。

E1332


幸運にも課外活動的なことでいろいろと一緒にやっていますが、いつか本務の方で一緒に仕事が出来ればと思っています。
とにもかくにもこの2年間お疲れ様でした!