読者です 読者をやめる 読者になる 読者になる

カレントアウェアネス-Rのタイトルを形態素解析(2011-2012)

f:id:otani0083:20130429220246p:plain
2011年度と2012年度のカレントアウェアネス-Rのタイトルを形態素解析してみました。目的はD3.jsのワードクラウドを作るためです。プレゼン用に使いたかったので。

 形態素解析に使用したのはPythonigo-pythonというライブラリです。本来はJavaのプロジェクトですが、PythonだけでなくPHPRubyにも移植されているみたいです。
Pythonで形態素解析 - よしなしごとと同じようにMeCabを使っても良かったのですが、形態素解析を使ったWebアプリを作るにはこちらの方が簡単そうということで使ってみました。解析結果などはほぼMeCab互換ということなので、どちらを利用してもよいと思います。ただ、辞書のコンパイルの手間が必要ない分MeCabの方が手軽に導入できます。

参考にしたのは、公式や以下のサイトなど
igo-python を使ってみた / 桃缶食べたい。

D3.jsというデータ可視化のためのJavascriptライブラリを利用してワードクラウドにした結果が、冒頭の画像になります。形態素解析した結果から、以下の要素は取り除きました。

  • 数字
  • 一文字の名詞
  • 図書館(突出して出現数が多いので)

ワードクラウドの作り方は【D3.js】「全ツイート履歴」からWord cloudを作ってみた。 | GUNMA GIS GEEKのほぼそのままです。

2011年度と2012年度でそれぞれの単語の出現回数の順位を比較したのが下記の図になります。「公開」「公表」「開始」といった単語がメディアの特性上、高頻度で使用されていますね。中頻度くらいのところでもうちょっと年度ごとの傾向が出たりしないかなと思ったのですが…。ぱっと見めについたのが、「英国」「欧州」「スペイン」といった単語が順位をさげて、「ニューヨーク」「ALA」「IFLA」「OCLC」あたりが順位をあげているとかですかね。

プログラムの速度をあげるのと、あまり傾向を見るのに寄与しない単語の除去をそのうちやります。

2011 単語 頻度 2012 単語 頻度 2011年比順位
1 図書館 1206 1 図書館 1272
2 公開 607 2 公開 488
3 米国 256 3 米国 248
4 デジタル 254 4 電子 245 +3
5 国立 252 5 デジタル 231 -1
6 資料 244 6 国立 222 -1
7 電子 243 7 研究 218 +2
8 情報 228 8 大学 210 +2
9 研究 218 9 公表 200 +13
10 大学 214 10 資料 199 -4
11 書籍 167 11 書籍 194
12 発表 163 12 情報 189 -4
13 調査 157 13 紹介 181 +7
14 英国 151 14 サービス 177 +1
15 サービス 145 15 開始 164 +1
16 開始 143 16 記事 150 +12
17 提供 121 17 発表 139 -5
18 プロジェクト 117 18 公共 134 +11
19 大震災 116 19 イベント 128 +13
20 紹介 113 20 調査 122 -7
20 利用 113 21 協会 119 +17
22 公表 111 22 日本 118 +14
23 被災 109 23 提供 117 -6
23 オープン 109 24 オープン 113 -1
25 東日本 108 25 プロジェクト 108 -7
25 検索 108 26 報告 107 +1
27 報告 104 27 開催 106 +5
28 記事 103 28 ため 100 +2
29 公共 101 28 出版 100 +3
30 ため 99 30 アクセス 95 +21
31 出版 96 31 利用 89 -11
32 開催 92 32 データ 86 +11
32 イベント 92 33 東京 85 +14
34 アーカイブ 91 33 英国 85 -19
34 支援 91 35 支援 81 -1
36 日本 90 36 科学 80 +3
37 県立 88 36 国際 80 +5
38 協会 85 38 開設 76 +16
39 科学 82 39 アーカイブ 73 -5
40 システム 78 40 システム 70
41 国際 77 40 レポート 70 +15
42 Google 75 42 大震災 69 -23
43 データ 73 42 検索 69 -17
44 結果 72 42 国会図書館 69 +4
44 保存 72 45 年度 67 +11
46 国会図書館 71 46 東日本 66 -21
47 東京 70 47 刊行 65 +4
48 学校 68 47 公文書 65 +13
48 学術 68 49 図書 64 +15
48 教育 68 50 Google 59 -8
51 刊行 67 51 論文 58 +13
51 アクセス 67 51 学校 58 -3
51 文書 67 51 オンライン 58 +49
54 開設 66 51 向け 58 +17
55 レポート 65 51 OCLC 58 +20
56 実施 63 56 保存 57 -12
56 年度 63 56 機関 57 +5
58 研究所 62 58 文献 55 +10
58 附属 62 58 附属 55
60 公文書 59 60 県立 54 -23
61 活用 57 61 学術 53 -13
61 機関 57 61 歴史 53 +17
63 サイト 56 63 実施 52 -7
64 論文 55 63 結果 52 -19
64 図書 55 63 文化 52 +30
66 写真 53 63 ウェブサイト 52 +8
66 震災 53 63 活動 52 +5
68 文献 52 63 可能 52 +15
68 活動 52 69 テーマ 51 +61
68 向け 52 70 教育 50 -22
71 博物館 51 71 震災 47 -5
71 欧州 51 71 事業 47
71 ウェブサイト 51 73 世界 46 +13
71 Library 51 73 IFLA 46 +152
71 事業 51 73 貸出 46 +25
71 OCLC 51 76 データベース 45 +1
77 データベース 47 76 Library 45 -5
78 歴史 46 76 管理 45 +6
78 開発 46 79 導入 44 +7
78 著作 46 80 博物館 43 -9
78 可能 46 81 被災 42 -58
82 展示 44 81 センター 42 +9
82 管理 44 83 機構 41 +5
84 復興 43 83 リリース 41 +28
84 子ども 43 85 追加 40 +20
86 導入 42 85 コンテンツ 40 +10
86 世界 42 85 技術 40 +20
88 議会 41 85 欧州 40 -14
88 機構 41 85 文書 40 -34
90 センター 40 85 政府 40 +100
91 市立 39 91 議会 39 -3
91 文化財 39 91 著作 39 -13
93 文化 38 93 参加 38 +25
93 募集 38 93 コレクション 38 +62
95 無料 37 95 記録 37 +5
95 コンテンツ 37 96 機能 36 +13
95 計画 37 96 研究所 36 -38
98 読書 36 96 シンポジウム 36 +20
98 貸出 36 99 関係 34 +12
100 スペイン 35 99 開発 34 -21
100 記録 35 99 協力 34 +26
100 アプリ 35 102 市立 33 -11
100 中央 35 102 プログラム 33 +94
100 オンライン 35 102 子ども 33 -18
105 追加 34 102 サイト 33 -39
105 技術 34 102 展示 33 -20
105 会議 34 102 京都 33 +150
105 ページ 34 108 助成 32 +17
109 機能 33 108 社会 32 +17
109 対象 33 108 ページ 32 -3
111 関係 32 108 設置 32 +105
111 リリース 32 112 全国 31 +55
111 発行 32 112 作成 31 +21
114 委員 31 112 活用 31 -51
114 状況 31 112 成果 31 +36
116 作品 30 112 会議 31 -7
116 シンポジウム 30 117 状況 30 -3
118 文部 29 117 無料 30 -22
118 of 29 117 所蔵 30 +1
118 リポジトリ 29 120 対象 29 -11
118 所蔵 29 120 雑誌 29 +13
118 参加 29 120 学習 29 +47
118 カレントアウェアネス 29 123 Data 28 +2
118 iPad 29 123 関連 28 +10
125 Data 28 123 動画 28 +32
125 助成 28 123 ニューヨーク 28 +73
125 協力 28 123 カレントアウェアネス 28 -5
125 社会 28 123 発行 28 -12
125 岩手 28 129 掲載 27 +105
130 テーマ 27 129 終了 27 +209
130 新聞 27 129 連携 27 +26
130 インターネット 27 129 平成 27 +67
133 Europeana 26 133 書誌 26
133 LC 26 133 対応 26 +52
133 書誌 26 133 大阪 26 +22
133 雑誌 26 133 アプリ 26 -33
133 協議 26 133 振興 26 +43
133 関連 26 133 ALA 26 +242
133 こと 26 133 地域 26 +22
133 福島 26 140 読書 25 -42
133 フランス 26 140 分野 25 +85
133 HathiTrust 26 140 計画 25 -45
133 作成 26 140 インターネット 25 -10
144 ブログ 25 144 世紀 24 +32
144 ベータ 25 144 ツール 24 +23
144 構築 25 144 中央 24 -44
144 共同 25 144 企画 24 +433
148 団体 24 144 現状 24 +90
148 Twitter 24 144 募集 24 -51
148 成果 24 144 特集 24 +81