約173万ツイートを調査して分かった Twitterの利用動向 @teapipin 2012.08.01 Twitter 勉強会 #twtr_hack
Nov 29, 2014
約173万ツイートを調査して分かった Twitterの利用動向
@teapipin
2012.08.01
Twitter 勉強会 #twtr_hack
自己紹介
• HN :てぃー
• ID:@teapipin
• 本名:Shigeo Okada
• ブログ:creativi.tea (クリエイティビティ)
• 趣味でアプリ開発
自己紹介
• HN :てぃー
• ID:@teapipin
• 本名:Shigeo Okada
• ブログ:creativi.tea (クリエイティビティ)
• 趣味でアプリ開発
自己紹介
• HN :てぃー
• ID:@teapipin
• 本名:Shigeo Okada
• ブログ:creativi.tea (クリエイティビティ)
• 趣味でアプリ開発
• iPhoneアプリ
• Macアプリ (Vectorにて)
年齢計算★
学歴欄作成 (公開停止中)
e-スペル (暗記用アプリ)
Interval Timer EX (インターバルタイマーEX)
デジカメ撮影日を 一括変更 for Mac
デジカメ変更日を撮影日に 一括変更 for Mac
自己紹介
• 学生時代:コンピュータによる遺伝子解析
–使用言語:Perl
• PG/SE時代:集計システムの開発
–使用言語:Visual Basic、VBA
• 現在:経済系の大学
今日のテーマ
• Twitterの利用動向を知るために 約173万ツイートを調査したので報告
• ブログで13の記事に分けて紹介したものを補足 – ツイート数、はてブ数、いいね数、検索数が多かった記事の内容をピックアップ
– ブログでは省略した説明も
– ブログに未掲載の情報も(後日ブログに追記予定)
• クライアントの開発に活用
事の発端
• Twitterのアプリやサービスを作ってみたいなぁ
• 特に位置情報を使った情報の広がりをテーマにしてみたいなぁ
じゃあ、
– どんなTwitterクライアントが人気あるんだろう?
– 位置情報からどの地域のツイートが多いんだろう?
など全体を調査したものを検索して探してみたら・・・
ない!?
ちょっとはあったけど、
いい情報がない!
あったのは、 • 海外の調査
– 日本の動向とは違うはず
• ユーザへのアンケート集計 – 偏りあり。無意識で行っていることは分からない
• 指定ユーザの統計(ウェブサービス) – 全体の動向が分からない
• 古いデータ(~2010年頃) – 今の動向とは違うはず
• サンプル数が少ない – 一般化できない
• 細かく分類されていない – 調べたい組み合わせがなかったりする
ないなら自分で調べてみることに
• 「Twitter API ポケットリファレンス」
• @yusukeさん著
• 理解しやすい本
• Twitter4Jは直感的で分かりやすく、 すぐに調査に入れた
ツイートの取得について
ツイートの取得方法
• Twitter4JでStreaming APIのsampleを使用 – 公開ツイートのうち約1%データが取得できる – 注意:複数接続しても同じデータしか取得できない
• 次の情報を取得 – タイムゾーン :getTimeZone() – 位置情報 :getGeoLocation() – 日時 :getCreatedAt() – クライアント :getSource() – ユーザID :getScreenName() – ツイート :getText() – 公式リツイートか否か :isRetweet()
日本語のみのツイートを選別
• タイムゾーンからでは判断できない – nullや(なぜか)Hawaii、 Irkutsk(イルクーツク:ロシア領)が多い
• getLang(言語設定の取得)でも判断できない – 例) ”en”でも日本語のツイート、”jp”でも英語のツイートあり
• ツイートが日本語かで判断した – 1文字ごとにCharacter.UnicodeBlockで判定 – 詳細は http://teapipin.blog10.fc2.com/blog-entry-281.html
– 実際はこれでも中国語やアラビア語?などがあった
– 情報処理学会などの論文では「ひらがな・カタカナ」を含むもののみを取得していることが多い。しかしこれでは記号のみ、顔文字のみが取得できない
– 結局最後は手作業で判断(約2万ツイート除去)
重複データを除去
• なぜか全く同じデータが一部含まれていた
• 理由は不明だが除去
取得データ
• 期間: 2012/05/17(木)0:00 ~ 20(日)23:59 の4日間
• ツイート数: 172万5212 ツイート(日本語のみ)
• ユーザ数: 92万6150 ユーザ
ビッグイベント
• 21(月)金環日食
• 22(火)東京スカイツリー開業
• ビッグイベントでは通常とは傾向が異なるため除外
• 月~水曜の傾向は木曜で代替できると仮定
紹介する調査結果
• Twitterクライアント(アプリ、サービス)
• 曜日別・時間帯別
• ツイートの種類別
• 機器別
• 位置情報
• 他はブログに
紹介する調査結果
• Twitterクライアント(アプリ、サービス)
• 曜日別・時間帯別
• ツイートの種類別
• 機器別
• 位置情報
Twitterクライアント(アプリ、サービス) 順位 利用アプリ名 個数 割合(%) 順位 利用アプリ名 個数 割合(%)
1位 Twitter for iPhone 251,414 14.57% 31位 TweetCaster for Android 6,062 0.35%
2位 Twitter for Android 209,290 12.13% 32位 HootSuite 5,930 0.34%
3位 web 180,538 10.46% 33位 ShootingStar 5,771 0.33%
4位 Keitai Web 131,918 7.65% 34位 OpenTween 5,516 0.32%
5位 twittbot.net 100,952 5.85% 35位 Tweet ATOK 5,341 0.31%
6位 twicca 93,542 5.42% 36位 ついっぷる Pro for iPhone 5,005 0.29%
7位 ついっぷる/twipple 63,854 3.70% 37位 TwitBird 4,962 0.29%
8位 Janetter 47,559 2.76% 38位 ツイ助。 4,772 0.28%
9位 SOICHA 43,759 2.54% 39位 Twitter for iPad 4,749 0.28%
10位 Echofon 39,672 2.30% 40位 mixi ボイス 4,093 0.24%
11位 Tween 33,583 1.95% 41位 Twil2 3,860 0.22%
12位 ついっぷる for iPhone 24,391 1.41% 42位 Tweetlogix 3,630 0.21%
13位 TweetDeck 22,597 1.31% 43位 Seesmic 3,626 0.21%
14位 jigtwi 21,987 1.27% 44位 Instagram 3,622 0.21%
15位 モバツイ / www.movatwi.jp 18,030 1.05% 45位 ニコニコ動画 3,565 0.21%
16位 Twipple for Android 17,759 1.03% 46位 BotMaker 3,503 0.20%
17位 ついっぷる for iPhone 16,749 0.97% 47位 jigtwi for Android 3,425 0.20%
18位 Mobile Web 16,175 0.94% 48位 Krile2 3,379 0.20%
19位 Tweet Button 16,001 0.93% 49位 Twitter for BlackBerry 3,232 0.19%
20位 Tweetbot for iOS 15,535 0.90% 50位 foursquare 2,951 0.17%
21位 Saezuri 12,412 0.72% 51位 TwitCasting 2,776 0.16%
22位 モバツイ / www.movatwi.jp .12,360 0.72% 52位 Teewee 2,522 0.15%
23位 yubitter 11,590 0.67% 53位 Ustream.TV 2,337 0.14%
24位 Twipple for Android 10,154 0.59% 54位 Twitter for Mac 2,323 0.13%
25位 YoruFukurou 10,056 0.58% 55位 TweetList Pro 2,300 0.13%
26位 ツイタマ 9,419 0.55% 56位 twitbeam[ツイットビーム] 2,240 0.13%
27位 TweetList! 8,920 0.52% 57位 Twipple Pro for Android 2,164 0.13%
28位 EasyBotter 8,893 0.52% 58位 PlayStation Vita 2,030 0.12%
29位 twitterfeed 6,590 0.38% 59位 Google 1,983 0.11%
30位 dlvr.it 6,283 0.36%
• すべてで 1万5108種類
• 上位4位は公式
• それぞれ機能が異なる
• JavaのものはTwitter4Jを使っているものが多い
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0
50,000
100,000
150,000
200,000
250,000
300,000
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59
累積(%)
個数
順位
Twitterクライアント別のツイート数
個数
累積(%)
0%
10%
20%
30%
40%
50%
60%
70%
80%
90%
100%
0
50,000
100,000
150,000
200,000
250,000
300,000
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47 49 51 53 55 57 59
累積(%)
個数
順位
Twitterクライアント別のツイート数
個数
累積(%)
• 上位5位で約50%を占める寡占市場 • 60位以下が約10%を1万5049種類が占める長いロングテール
ここまでのまとめ
• 上位1~4位は公式が占めている
• 上位5位で約50%を占める寡占市場
• 長いロングテール(文字どおりの意味での)
• ユーザは用途別に複数のTwitterクライアントを使い分けている
• 新規参入は容易で、ユーザのニーズを捉えれば必ず使ってもらえる
紹介する調査結果
• Twitterクライアント(アプリ、サービス)
• 曜日別・時間帯別
• ツイートの種類別
• 機器別
• 位置情報
• 平日よりも週末の方が多く、特に日曜は多い
海外との比較
出典:Sysomos Inc. http://www.sysomos.com/insidetwitter/
月 火 水 木 金 土 日
• 2009年 全世界の2000万ツイート
• 8、12時台にピーク、夕方以降は増加傾向 • 夜は金曜の方が少ない
• 朝からゆるやかに増加、19時台以降増加、大きなピークなし • 日曜は他の曜日よりも深夜も多い
海外との比較
出典:Sysomos Inc. http://www.sysomos.com/insidetwitter/
ここまでのまとめ
• 海外と日本とは異なる傾向を持つ
• 平均的な日本人のライフスタイルの 空いた時間と密接に関係している
紹介する調査結果
• Twitterクライアント(アプリ、サービス)
• 曜日別・時間帯別
• ツイートの種類別
• 機器別
• 位置情報
ツイートの種類別
• リツイート(公式RT、非公式RT)
• リプライ・メンション(宛先(@~)を含むもの)
• ハッシュシュタグ・リンク入りつぶやき (RT、リプライ・メンションを除く)
• 純粋なつぶやき
ツイートの種類別 公式RT 7.92%
非公式RT 2.30%
リプライ・メン
ション 37.00%
純粋なつぶ
やき 35.77%
ハッシュタグ・
リンク入りつ
ぶやき 17.01%
リプライ・メンションは宛先(@~)を含むもの ハッシュタグ・リンク入りはRT、リプライ・メンションを除く
• リツイートは公式・非公式合わせて10.23%
ツイートの種類別 公式RT 7.92%
非公式RT 2.30%
リプライ・メン
ション 37.00%
純粋なつぶ
やき 35.77%
ハッシュタグ・
リンク入りつ
ぶやき 17.01%
リプライ・メンションは宛先(@~)を含むもの ハッシュタグ・リンク入りはRT、リプライ・メンションを除く
• 純粋なつぶやき以外はコミュニケーションとしてのやりとりであり、64.23%を占める
ここまでのまとめ
• ツイッターは人とのコミュニケーションのツール
• ツイッター本来の目的である純粋なつぶやきは35.77%
紹介する調査結果
• Twitterクライアント(アプリ、サービス)
• 曜日別・時間帯別
• ツイートの種類別
• 機器別
• 位置情報
機器別
• Twitterクライアントでの上位59位(90.98%)を 5つに分類
携帯, 61.9%
PC, 23.9%
bot, 8.0%
PC/携帯, 4.0%
WEB, 2.3%
• 木~土曜は似た傾向 • 携帯機器、PCは変動。botはどの時間帯もほぼ一定数 • 朝と昼は携帯機器が重要。夜はPCも
• 他の曜日とは異なり、朝にPCが見られる • 他は同様の傾向
紹介する調査結果
• Twitterクライアント(アプリ、サービス)
• 曜日別・時間帯別
• ツイートの種類別
• 機器別
• 位置情報
位置情報(Geo Location)
• 全体でたったの0.18%しか付与されていない
• 日本のものは3047ツイート、外国のものは144ツイート
• 次のスライドからはすべて日本のもののみの結果
※位置情報の付いたもののみ (地図へのリンクのみは除く)
位置情報付き うち日本 うち外国 位置情報なし
木 0.16% 0.15% 0.01% 99.84%
金 0.16% 0.16% 0.01% 99.84%
土 0.22% 0.21% 0.01% 99.78%
日 0.19% 0.18% 0.01% 99.81%
計 0.18% 0.18% 0.01% 99.82%
位置情報付きTwitterクライアント
• すべてで140種類
• 位置情報サービスが約47%以上
• 2、3位は公式
• 店舗情報、天気などその地点の情報を知らせるものもある
順位 全体 名称 個数 割合(%)
1位 50位 foursquare 1086 39.49%
2位 1位 Twitter for iPhone 651 23.67%
3位 2位 Twitter for Android 359 13.05%
4位 44位 Instagram 171 6.22%
5位 97位 ロケタッチ(loctouch) 163 5.93%
6位 18位 Mobile Web 54 1.96%
7位 173位 Path 2.0 33 1.20%
8位 641位 RADIO WAVE API 26 0.95%
9位 768位 FU-TOWN 25 0.91%
10位 430位 今ココなう!iPhone 23 0.84%
11位 6位 twicca 20 0.73%
11位 1002位 AgenaStar 20 0.73%
13位 1062位 FutownNewsVer5 19 0.69%
13位 314位 今ココなう!Android 19 0.69%
15位 458位 モバイルフォースクエア 16 0.58%
16位 1218位 SyougaSuite 15 0.55%
16位 1371位 FutownEvent 15 0.55%
18位 86位 Photos on iOS 12 0.44%
18位 1736位 cpSTYLE(クーポンスタイル) 12 0.44%
20位 31位 TweetCaster for Android 11 0.40%
0
10
20
30
40
50
60
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
時間帯
木曜 位置情報付きTwitterクライアント別
その他
ロケタッチ
(loctouch)
Twitter for Android
Twitter for iPhone
foursquare
• どの曜日も似た傾向 • 朝~夕方はfoursquareの増減が全体に影響 • 夜は公式とその他が影響
都道府県別
• 大都市やその隣接地域で多い
• 人口と関係が ありそう
• 正の相関
人口との相関
ここまでのまとめ
• 人口が多い地域ほど、 位置情報の付いたツイート数も多い
• 人口が多いのだからツイート数が多いのは当たり前と考えてよいのか?
• それは違う!
• わざわざ位置情報を付けているのは普通のツイートとは異なる何か特別な意味があると考えるべき
• にもかかわらず、人口と相関が強いのはなぜか?
位置情報付きのツイートの内容を見る必要がある
位置情報とツイート内容の関係
• 位置情報付きツイートの内容からツイート自体が位置を意識したものかで分類
• (例)
位置情報 ツイート 分類
レストラン おいしい → 飲食店
レストラン あらら → 関係なし
レストラン (店舗情報) → 地点
位置情報とツイート内容の関係 順位 場所 個数 割合
1位 関係なし 1021 33.51%
2位 駅 379 12.44%
3位 飲食店 347 11.39%
4位 商業施設 344 11.29%
5位 地点 212 6.96%
6位 道路 155 5.09%
7位 イベント会場 69 2.26%
8位 コンビニ 53 1.74%
9位 学校 52 1.71%
10位 スポーツ施設 45 1.48%
11位 自宅 42 1.38%
12位 公園 40 1.31%
13位 オフィス 36 1.18%
14位 空港 24 0.79%
15位 テーマパーク 23 0.75%
16位 宿泊施設 20 0.66%
17位 寺社 19 0.62%
17位 公共施設 19 0.62%
19位 バス停 16 0.53%
20位 博物館・美術館 15 0.49%
• 関係なしが33.51%を占める
• 駅、飲食店、商業施設など日常使う場所からのツイートが多い
• イベント会場、テーマパークなどイベント、観光地からもある
0
50
100
150
200
250
関係なし
駅 飲食店
商業施設
地点
道路
イベント会場
コンビニ
学校
スポーツ施設
自宅
公園
オフィス
空港
テーマパーク
宿泊施設
寺社
公共施設
バス停
博物館・美術館
都道府県(上位)別 位置情報とツイート内容の関係
東京都
神奈川県
大阪府
愛知県
埼玉県
千葉県
• 木曜・金曜は似た傾向 • 上位のものが大部分を占める • 朝は駅、昼は飲食店、夜は関係なし、深夜は地点が多い
0
10
20
30
40
50
60
70
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
時間帯
木曜 位置情報とツイート内容の関係
その他
その他イベント関係
スポーツ施設
学校
コンビニ
イベント会場
道路
地点
商業施設
飲食店
駅
関係なし
0
10
20
30
40
50
60
70
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23
時間帯
日曜 位置情報とツイート内容の関係
その他
その他イベント関係
スポーツ施設
学校
コンビニ
イベント会場
道路
地点
商業施設
飲食店
駅
関係なし
• 土曜・日曜は似た傾向 • 駅は9時以降増加、商業施設・道路が多い • イベント関係は午前に多い
ここまでのまとめ
• 位置情報と関係のない内容のツイートが1位 – ユーザはツイートに位置情報が付いていることに気付いてない?
– 特別な時に位置情報を付けるのではなく、ふだんから付けている
• 駅 、飲食店、商業施設など日常使う場所からのツイートが多く、ライフログ・ポイント取得としての性格が強い
• 位置情報付きでも人口の多い都市圏のツイートが多くなる
• イベントや観光地からのツイートはあるが、少ないため埋もれている
参考
書籍 • 「Twitter API ポケットリファレンス」 • 「Rによるデータサイエンス - データ解析の基礎から最新手法まで」
フリーソフト、サービス • Twitter4J • Pleiades All in One (Eclipse + Java) • R (統計ソフト) • MANDARA (地図ソフト) • usoinfo reverse geocoder (緯度経度→住所変換) • Google マップ
(質問と回答) #twtr_hack #qに対して
• sampleでデータとり続けて、1日でだいたいどれくらいのデータ量(ディスクに保存して何MBとか)になるんですか? – TSV(タブ区切り)形式で、木・金曜:約74MB、土曜:約76MB、日曜:約84MB
• botとそうでないのは "from" を見て区別? • botの区別は確かにどうやるのでしょう
– 取得データのSource(クライアント)から判断しました。 "from"と同義です
• 場所についてはツイート内容から判断?実際の場所にどんなものがあるか(地図とか)は調べてない? – GeoLocationの緯度経度から地図を見て実際に何があるかを調べました
(付録)
• 以下のスライドは当初の案では発表予定だったけど時間の都合上使わなかったもの
Twitter APIの仕様上の限界
• 閲覧数(ROM数)は分からない
• リンク先に移動したかどうか分からない
• sampleで取得できる約1%の意味が曖昧
など
海外との比較 • 2009年 全世界の2000万ツイート
出典:Sysomos Inc. http://www.sysomos.com/insidetwitter/
当時は、
• アメリカ 62.14%
• 日本 11位(0.71%)
• 事実上、欧米の調査
62.45%
62.22%
61.60%
61.29%
23.04%
23.07%
24.05%
25.10%
3.97%
3.99%
3.99%
3.92%
2.29%
2.27%
2.25%
2.26%
8.25%
8.45%
8.12%
7.43%
0% 10% 20% 30% 40% 50% 60% 70% 80% 90% 100%
木
金
土
日
機器別・曜日別のツイート数の割合(%)
携帯
PC
PC/携帯
WEB
bot
• どの曜日もほぼ同じ割合
寄与度(%)とは
• GDP(国内総生産)などの経済分野での時系列分析でよく使われる手法
• あるデータ全体の変化に対してその構成要素である個々のデータの変化がどのように貢献しているかを示す指標
• HPやブログのアクセス解析でも有効な手法
• ここでは基準を木曜に <日曜の携帯機器の場合>
(日曜の携帯機器-木曜の携帯機器)
木曜の計 × 100
• ツイート全体の増減には携帯機器が大きく関係している
紹介する調査結果
• Twitterクライアント(アプリ、サービス)
• 曜日別・時間帯別
• ツイートの種類別
• 機器別
• 文字数
• 位置情報
多い文字(本文のみ)
• 挨拶と感情が大半を占める • 状況を表すものも多い
順位 ツイート 個数 順位 ツイート 個数
1位 おはようございます 289 16位 おはようございます! 85
2位 おはよー 261 17位 おはよ 83
3位 ただいまー 251 18位 離脱 77
4位 おはよう 214 19位 むくり 76
5位 ただいま 189 20位 おなかすいた 75
6位 おやすみ 176 21位 ほかいまー 73
7位 おやすみなさい 174 22位 あー 69
8位 眠い 161 23位 (´へωへ`*) 68
9位 ねむい 152 24位 ただいま! 61
10位 おはようございます。 147 24位 ただいまー! 61
11位 あ 129 26位 !? 60
12位 よるほー 125 27位 はい 59
13位 帰宅 116 28位 寝る 56
14位 おやすみー 90 29位 疲れた 54
15位 ねむ 87 30位 おやすみなさい。 53
• 平均43.5文字 • 140文字が最も多い (うち、公式RT:80.0%、非公式RT:5.0%) • 20~57文字が50%を占める
25% 25% 50%
• 平均43.5文字 • 140文字が最も多い (うち、公式RT:80.0%、非公式RT:5.0%) • 20~57文字が50%を占める
25% 25% 50%
0 10 20 30 40 50 60 70 80 90 100 110 120 130 140
twitterfeed Twitter for BlackBerry
ツイ助。 Tweet Button
Google dlvr.it
ニコニコ動画 Ustream.TV
HootSuite foursquare BotMaker
TwitCasting EasyBotter
Twitter for Mac Twitter for iPad
web Twipple for Android
ついっぷる Pro for iPhone ついっぷる/twipple
TweetCaster for Android ついっぷる for iPhone
TwitBird Twipple for Android
Seesmic Twipple Pro for Android ついっぷる for iPhone
twittbot.net Instagram
Mobile Web モバツイ / www.movatwi.jp
Twitterクライアント別の平均文字数(上位30位)
25% 25% 50%
中央値(平均値ではない)
箱ひげ図とは
外れ値(異常値)
箱ひげ図とは
ヒストグラムと対応
中央値(平均値ではない) 外れ値(異常値)
25% 25% 50%
文字数
ここまでのまとめ
• PC、携帯機器からとも20~60文字ほどが最も多く50%を占める
• PC 、携帯機器からで文字数に差は見られない
• 昔のように「ケータイのメールは短く、詳細はPCで」ということはない
• botからは定型文が多いため、文字数の幅は少ない
木曜 位置情報付きツイート
• 木曜・金曜では朝から夕方までは全体の増減に伴って増減、夜からは全体の増減に伴わない
位置情報
全体
日曜 位置情報付きツイート
• 土曜・日曜では朝から昼くらいまでは全体の増減に伴って増減、他の時間帯ではそうでもない
位置情報
全体