些か時期を逸してしまいましたが。せっかくtwitterのAPIを叩いてデータを収集できるようになったので、今度はそのデータを使ってテキストマイニングの真似事でもしてみました。
対象は立憲民主党フォロワーのツイート。この1月半ほどの目まぐるしい政局の中、彼らは一体どんな言葉を発していたのか眺めながら衆院選を振り返ってみたいと思います。
■概要
<収集内容>
・10/21(土) 16:00 頃の立憲民主党フォロワー116,179人
※全185,915人中、非公開アカウント、ツイート数ゼロアカウントを除いた全て
・リツイートを除くツイートを集計
・全てを集計する時間もマシンパワーも無い為、期間を区切った上でその10%をランダム抽出して集計する
<使用ツール>
・テキストマイニングツール : KH Coder 3
樋口耕一氏によるフリーソフト。
ダウンロードした一式さえあればMeCab(や茶筌)、R、MySQLなど全部使える状態になっており、ツイートのデータを投入するだけで、形態素解析から共起ネットワークのグラフ作成など出来てしまえる素晴らしいソフトです。
<データの収集と集計のだいたいの流れ>
①TwitterAPIを自作Pythonスクリプトを使って、フォロワーのツイートを収集
②収集したjson構造のデータをそのままMongoDBに入れる
③MongoDBからリツイートデータを除外した対象期間のツイートをファイルに順次出力
④KH Coder の機能を使って各ファイルから10%ランダム抽出して集計
⑤何度か集計しながら単語の取捨選択
⑥最終的に共起ネットワークグラフ完成
■9月9日(土)~10日(日) : 解散風が吹く前
まずは普段彼らがどんな呟きをしていたかをグラフにしました。
ツイート数: 493,815 から10%をランダム抽出して集計
後に立憲民主党のフォロワーになるだけあって、それなりに政治の話題が占めてるのがわかります。北朝鮮のミサイル問題が連日報道されていました。
一方、日常的な話題に関わる語が中心的に多く、趣味に関する話題も点在しており、そこだけみればいたって普通の人々という感じ。(いや実際普通の人々なんでしょうけど)
■9月25日(月)~26日(火) : 解散決定、希望の党設立
9/17 首相が衆院解散の意向
9/18 細野・若狭両氏新党設立の意向
9/24 小池氏希望の党設立
ツイート数: 560,783 から10%をランダム抽出して集計
「国難突破解散」と銘打って不意打ちとも言える解散を決めた直後、小池さんが新党を立ち上げたんでしたね。
そのあたりのキーワードが多くなってます。
まだ前原さんも枝野さんも見えません。
そしてこの頃はまだ「憲法」改正や「消費税」の予定通りの増税など、政策的な部分も注目されていました。
■9月27日(水)~28日(木) : 民進党、希望の党合流へ
9/27 前原代表、民進党解党し希望合流を表明
9/28 衆議院解散/民進党事実上の解党を決議/細野氏三権の長は不要発言
ツイート数: 617,609 から10%をランダム抽出して集計
男・前原の大博打。なんと野党第一党である民進党の側が解党して希望に合流すると決まりました。
「民進」「希望」「小池」の大きなバブルが団子のように仲良く並んでます。
一本串を通してうまいこと収まればよかったんでしょうけどねえ。(何か「小沢」の文字が見えますね)
前原さん、悪い事言わないから、あんたはもっと謙虚に生きた方が良いと思うんですよ。
「民進」「政党」の繋がりの向こうに「リベラル」「保守」「極右」が繋がってるあたり、新党の政治志向に対するフォロワー予備群が狼狽しているようにみえるのは気のせいでしょうか。
■9月30日(土)~1日(日) : 排除発言直後
9/29 小池氏の排除発言
ツイート数: 647,932 から10%をランダム抽出して集計
運命の排除発言。「リベラル」と強く接続しています。
政策的に一致した人と一緒にやりたいってのも理解できるんだけど、前掲したような(良くも悪くも)膨らんだバブルと、政治志向的に狼狽する人たちを纏めてぶっ飛ばす強い言葉は、やっぱり敗因だったよなあと思うわけです。
そして「枝野」「立つ」の言葉が。
尚、ツールのアルゴリズムにより「立て」も「立つ」と同義として纏められています。
■10月2日(月)~4日(水) : 立憲民主党結成
10/2 枝野氏立憲民主党結成
同日立憲民主党公式ツイッターアカウント開設
ツイート数: 978,017 から10%をランダム抽出して集計
「立憲」「民主」の文字が大きく出現、希望の党が名乗るはずだった「新党」の文字が立憲側クラスタと判定されちゃってます。
「新党」の持つ新しさ・期待感が丸々立憲民主に奪われた格好ではないかと考察するのですが、如何でしょう?
■10月7日(土)~8日(日) : 3連休の土日
10/5 立憲民主党公式ツイッターのフォロワー11万超え
ツイート数: 689,925 から10%をランダム抽出して集計
立憲民主党のフォロワー数が急拡大しニュースにもなった週でした。
そういえば9日(月・祝)になってから、謎の「外国ゼロツイートアカウント」が数千くらいいきなりフォローしてきましたね。
それらの多くはフォローから消えましたが、あれ何だったんでしょうね。
若干の落ち着きを見せたあたりで、ムクムクと大きくなる「安倍」首相の文字。
そして思い出したように「加計」の文字が出現。
■10月14日(土)~15日(日) : 投票日まで一週間
ツイート数: 748,437 から10%をランダム抽出して集計
よしりんの名前がある。。。
フォロワーの間では結構なインパクトがあったようです。
立民の躍進、希望の苦戦が伝えられる中で「小池」「前原」への興味は萎みがちの様子です。
反面、同じく苦戦が伝えられる共闘仲間の「共産」と「比例」のバブルがジリジリ大きくなってきました。
「比例は共産へ」という呼びかけが活発化してるのがわかります。
■10月20日(金)~21日(土) : 台風迫る投票日前
ツイート数: 835,283 から10%をランダム抽出して集計
嵐だろうが投票へ行くんだという強い意思を感じます。
「行く」と同義として集計され、「期日前投票へ行こう」や「行った」という呟きも多かったのかもしれません。
仕上げの街頭演説「東京大作戦FINAL」も結構な話題になっていたようです。
このネーミングセンス、「国政政党」がつけた名前としては割と新鮮だったんじゃないでしょうか。
イベントって感じですよね。
■10月22日(日)~23日(月) : 開票後
投票締め切って、開票速報が発表される 10/22 20:00 ~10/23 24:00 までの集計になります。
ツイート数: 408,589 から10%をランダム抽出して集計
「NHK」「開票」「速報」でチェックし、「池上」氏の番組ネタで盛り上がり、「当選」「おめでとう」の呟きが飛び交う。
「当確」も「出る」し、「避難」「情報」も「出る」。
そんな一日だったようです。
■終わりに
何しろテキストマイニングなんて初挑戦ですので、真似事とはいえ形にするにはかなり時間がかかりました。
もっとデータのクリーニングをしっかりしないといけないし、語彙の取捨せんたくや纏め方も足りない部分がありました。
それでも色々な変化が視覚化できて、面白いグラフができたと思っています。
そして衆議院選挙を振り返ってみるに、野党としては生き残りをかけた激動の1ヶ月だったなと思うと同時に、政策的な部分での議論があまりみられないまま終わってしまった事がとても残念であります。
私は「確かな野党」に頑張ってもらいたいが為に立憲民主党に投票しましたが、政策面は正直かなり弱いと思ってますので、しっかりと練り上げて欲しいですね。
また何か興味が湧くテーマと時間があれば、テキストマイニングに挑戦したいと思います。