カレントアウェアネス-Rのタイトルを形態素解析(2011-2012)
2011年度と2012年度のカレントアウェアネス-Rのタイトルを形態素解析してみました。目的はD3.jsのワードクラウドを作るためです。プレゼン用に使いたかったので。
形態素解析に使用したのはPythonのigo-pythonというライブラリです。本来はJavaのプロジェクトですが、PythonだけでなくPHPやRubyにも移植されているみたいです。
Pythonで形態素解析 - よしなしごとと同じようにMeCabを使っても良かったのですが、形態素解析を使ったWebアプリを作るにはこちらの方が簡単そうということで使ってみました。解析結果などはほぼMeCab互換ということなので、どちらを利用してもよいと思います。ただ、辞書のコンパイルの手間が必要ない分MeCabの方が手軽に導入できます。
参考にしたのは、公式や以下のサイトなど
igo-python を使ってみた / 桃缶食べたい。
D3.jsというデータ可視化のためのJavascriptライブラリを利用してワードクラウドにした結果が、冒頭の画像になります。形態素解析した結果から、以下の要素は取り除きました。
- 数字
- 一文字の名詞
- 図書館(突出して出現数が多いので)
ワードクラウドの作り方は【D3.js】「全ツイート履歴」からWord cloudを作ってみた。 | GUNMA GIS GEEKのほぼそのままです。
2011年度と2012年度でそれぞれの単語の出現回数の順位を比較したのが下記の図になります。「公開」「公表」「開始」といった単語がメディアの特性上、高頻度で使用されていますね。中頻度くらいのところでもうちょっと年度ごとの傾向が出たりしないかなと思ったのですが…。ぱっと見めについたのが、「英国」「欧州」「スペイン」といった単語が順位をさげて、「ニューヨーク」「ALA」「IFLA」「OCLC」あたりが順位をあげているとかですかね。
プログラムの速度をあげるのと、あまり傾向を見るのに寄与しない単語の除去をそのうちやります。
2011 | 単語 | 頻度 | 2012 | 単語 | 頻度 | 2011年比順位 |
---|---|---|---|---|---|---|
1 | 図書館 | 1206 | 1 | 図書館 | 1272 | → |
2 | 公開 | 607 | 2 | 公開 | 488 | → |
3 | 米国 | 256 | 3 | 米国 | 248 | → |
4 | デジタル | 254 | 4 | 電子 | 245 | +3 |
5 | 国立 | 252 | 5 | デジタル | 231 | -1 |
6 | 資料 | 244 | 6 | 国立 | 222 | -1 |
7 | 電子 | 243 | 7 | 研究 | 218 | +2 |
8 | 情報 | 228 | 8 | 大学 | 210 | +2 |
9 | 研究 | 218 | 9 | 公表 | 200 | +13 |
10 | 大学 | 214 | 10 | 資料 | 199 | -4 |
11 | 書籍 | 167 | 11 | 書籍 | 194 | → |
12 | 発表 | 163 | 12 | 情報 | 189 | -4 |
13 | 調査 | 157 | 13 | 紹介 | 181 | +7 |
14 | 英国 | 151 | 14 | サービス | 177 | +1 |
15 | サービス | 145 | 15 | 開始 | 164 | +1 |
16 | 開始 | 143 | 16 | 記事 | 150 | +12 |
17 | 提供 | 121 | 17 | 発表 | 139 | -5 |
18 | プロジェクト | 117 | 18 | 公共 | 134 | +11 |
19 | 大震災 | 116 | 19 | イベント | 128 | +13 |
20 | 紹介 | 113 | 20 | 調査 | 122 | -7 |
20 | 利用 | 113 | 21 | 協会 | 119 | +17 |
22 | 公表 | 111 | 22 | 日本 | 118 | +14 |
23 | 被災 | 109 | 23 | 提供 | 117 | -6 |
23 | オープン | 109 | 24 | オープン | 113 | -1 |
25 | 東日本 | 108 | 25 | プロジェクト | 108 | -7 |
25 | 検索 | 108 | 26 | 報告 | 107 | +1 |
27 | 報告 | 104 | 27 | 開催 | 106 | +5 |
28 | 記事 | 103 | 28 | ため | 100 | +2 |
29 | 公共 | 101 | 28 | 出版 | 100 | +3 |
30 | ため | 99 | 30 | アクセス | 95 | +21 |
31 | 出版 | 96 | 31 | 利用 | 89 | -11 |
32 | 開催 | 92 | 32 | データ | 86 | +11 |
32 | イベント | 92 | 33 | 東京 | 85 | +14 |
34 | アーカイブ | 91 | 33 | 英国 | 85 | -19 |
34 | 支援 | 91 | 35 | 支援 | 81 | -1 |
36 | 日本 | 90 | 36 | 科学 | 80 | +3 |
37 | 県立 | 88 | 36 | 国際 | 80 | +5 |
38 | 協会 | 85 | 38 | 開設 | 76 | +16 |
39 | 科学 | 82 | 39 | アーカイブ | 73 | -5 |
40 | システム | 78 | 40 | システム | 70 | → |
41 | 国際 | 77 | 40 | レポート | 70 | +15 |
42 | 75 | 42 | 大震災 | 69 | -23 | |
43 | データ | 73 | 42 | 検索 | 69 | -17 |
44 | 結果 | 72 | 42 | 国会図書館 | 69 | +4 |
44 | 保存 | 72 | 45 | 年度 | 67 | +11 |
46 | 国会図書館 | 71 | 46 | 東日本 | 66 | -21 |
47 | 東京 | 70 | 47 | 刊行 | 65 | +4 |
48 | 学校 | 68 | 47 | 公文書 | 65 | +13 |
48 | 学術 | 68 | 49 | 図書 | 64 | +15 |
48 | 教育 | 68 | 50 | 59 | -8 | |
51 | 刊行 | 67 | 51 | 論文 | 58 | +13 |
51 | アクセス | 67 | 51 | 学校 | 58 | -3 |
51 | 文書 | 67 | 51 | オンライン | 58 | +49 |
54 | 開設 | 66 | 51 | 向け | 58 | +17 |
55 | レポート | 65 | 51 | OCLC | 58 | +20 |
56 | 実施 | 63 | 56 | 保存 | 57 | -12 |
56 | 年度 | 63 | 56 | 機関 | 57 | +5 |
58 | 研究所 | 62 | 58 | 文献 | 55 | +10 |
58 | 附属 | 62 | 58 | 附属 | 55 | → |
60 | 公文書 | 59 | 60 | 県立 | 54 | -23 |
61 | 活用 | 57 | 61 | 学術 | 53 | -13 |
61 | 機関 | 57 | 61 | 歴史 | 53 | +17 |
63 | サイト | 56 | 63 | 実施 | 52 | -7 |
64 | 論文 | 55 | 63 | 結果 | 52 | -19 |
64 | 図書 | 55 | 63 | 文化 | 52 | +30 |
66 | 写真 | 53 | 63 | ウェブサイト | 52 | +8 |
66 | 震災 | 53 | 63 | 活動 | 52 | +5 |
68 | 文献 | 52 | 63 | 可能 | 52 | +15 |
68 | 活動 | 52 | 69 | テーマ | 51 | +61 |
68 | 向け | 52 | 70 | 教育 | 50 | -22 |
71 | 博物館 | 51 | 71 | 震災 | 47 | -5 |
71 | 欧州 | 51 | 71 | 事業 | 47 | → |
71 | ウェブサイト | 51 | 73 | 世界 | 46 | +13 |
71 | Library | 51 | 73 | IFLA | 46 | +152 |
71 | 事業 | 51 | 73 | 貸出 | 46 | +25 |
71 | OCLC | 51 | 76 | データベース | 45 | +1 |
77 | データベース | 47 | 76 | Library | 45 | -5 |
78 | 歴史 | 46 | 76 | 管理 | 45 | +6 |
78 | 開発 | 46 | 79 | 導入 | 44 | +7 |
78 | 著作 | 46 | 80 | 博物館 | 43 | -9 |
78 | 可能 | 46 | 81 | 被災 | 42 | -58 |
82 | 展示 | 44 | 81 | センター | 42 | +9 |
82 | 管理 | 44 | 83 | 機構 | 41 | +5 |
84 | 復興 | 43 | 83 | リリース | 41 | +28 |
84 | 子ども | 43 | 85 | 追加 | 40 | +20 |
86 | 導入 | 42 | 85 | コンテンツ | 40 | +10 |
86 | 世界 | 42 | 85 | 技術 | 40 | +20 |
88 | 議会 | 41 | 85 | 欧州 | 40 | -14 |
88 | 機構 | 41 | 85 | 文書 | 40 | -34 |
90 | センター | 40 | 85 | 政府 | 40 | +100 |
91 | 市立 | 39 | 91 | 議会 | 39 | -3 |
91 | 文化財 | 39 | 91 | 著作 | 39 | -13 |
93 | 文化 | 38 | 93 | 参加 | 38 | +25 |
93 | 募集 | 38 | 93 | コレクション | 38 | +62 |
95 | 無料 | 37 | 95 | 記録 | 37 | +5 |
95 | コンテンツ | 37 | 96 | 機能 | 36 | +13 |
95 | 計画 | 37 | 96 | 研究所 | 36 | -38 |
98 | 読書 | 36 | 96 | シンポジウム | 36 | +20 |
98 | 貸出 | 36 | 99 | 関係 | 34 | +12 |
100 | スペイン | 35 | 99 | 開発 | 34 | -21 |
100 | 記録 | 35 | 99 | 協力 | 34 | +26 |
100 | アプリ | 35 | 102 | 市立 | 33 | -11 |
100 | 中央 | 35 | 102 | プログラム | 33 | +94 |
100 | オンライン | 35 | 102 | 子ども | 33 | -18 |
105 | 追加 | 34 | 102 | サイト | 33 | -39 |
105 | 技術 | 34 | 102 | 展示 | 33 | -20 |
105 | 会議 | 34 | 102 | 京都 | 33 | +150 |
105 | ページ | 34 | 108 | 助成 | 32 | +17 |
109 | 機能 | 33 | 108 | 社会 | 32 | +17 |
109 | 対象 | 33 | 108 | ページ | 32 | -3 |
111 | 関係 | 32 | 108 | 設置 | 32 | +105 |
111 | リリース | 32 | 112 | 全国 | 31 | +55 |
111 | 発行 | 32 | 112 | 作成 | 31 | +21 |
114 | 委員 | 31 | 112 | 活用 | 31 | -51 |
114 | 状況 | 31 | 112 | 成果 | 31 | +36 |
116 | 作品 | 30 | 112 | 会議 | 31 | -7 |
116 | シンポジウム | 30 | 117 | 状況 | 30 | -3 |
118 | 文部 | 29 | 117 | 無料 | 30 | -22 |
118 | of | 29 | 117 | 所蔵 | 30 | +1 |
118 | リポジトリ | 29 | 120 | 対象 | 29 | -11 |
118 | 所蔵 | 29 | 120 | 雑誌 | 29 | +13 |
118 | 参加 | 29 | 120 | 学習 | 29 | +47 |
118 | カレントアウェアネス | 29 | 123 | Data | 28 | +2 |
118 | iPad | 29 | 123 | 関連 | 28 | +10 |
125 | Data | 28 | 123 | 動画 | 28 | +32 |
125 | 助成 | 28 | 123 | ニューヨーク | 28 | +73 |
125 | 協力 | 28 | 123 | カレントアウェアネス | 28 | -5 |
125 | 社会 | 28 | 123 | 発行 | 28 | -12 |
125 | 岩手 | 28 | 129 | 掲載 | 27 | +105 |
130 | テーマ | 27 | 129 | 終了 | 27 | +209 |
130 | 新聞 | 27 | 129 | 連携 | 27 | +26 |
130 | インターネット | 27 | 129 | 平成 | 27 | +67 |
133 | Europeana | 26 | 133 | 書誌 | 26 | → |
133 | LC | 26 | 133 | 対応 | 26 | +52 |
133 | 書誌 | 26 | 133 | 大阪 | 26 | +22 |
133 | 雑誌 | 26 | 133 | アプリ | 26 | -33 |
133 | 協議 | 26 | 133 | 振興 | 26 | +43 |
133 | 関連 | 26 | 133 | ALA | 26 | +242 |
133 | こと | 26 | 133 | 地域 | 26 | +22 |
133 | 福島 | 26 | 140 | 読書 | 25 | -42 |
133 | フランス | 26 | 140 | 分野 | 25 | +85 |
133 | HathiTrust | 26 | 140 | 計画 | 25 | -45 |
133 | 作成 | 26 | 140 | インターネット | 25 | -10 |
144 | ブログ | 25 | 144 | 世紀 | 24 | +32 |
144 | ベータ | 25 | 144 | ツール | 24 | +23 |
144 | 構築 | 25 | 144 | 中央 | 24 | -44 |
144 | 共同 | 25 | 144 | 企画 | 24 | +433 |
148 | 団体 | 24 | 144 | 現状 | 24 | +90 |
148 | 24 | 144 | 募集 | 24 | -51 | |
148 | 成果 | 24 | 144 | 特集 | 24 | +81 |