googleの検索候補予測のちょっといい話

2ヶ月半ほど前にこんな記事(google suggest API(検索候補予測)について調べてみた)を書きました。以来ずっとgoogle suggestAPIを叩きまくってDBに貯めていたんですが、せっかくなのでその結果を少しだけ見てみます。あと面白かった検索ワード群について。(いい話は一番下の方にあるのでそこだけ見たい人は下の方へどうぞ)

やったことのおさらい

「あ」から「ん」の一文字、「ああ」「あい」「あう」…「んん」までの日本語二文字までの範囲の全ての組合せで検索候補予測を1位から10位まで取っておきました。あとは「ガンダム」「三国志」「夫」「妻」などなど(後述)。それを2012/2/18から今までなので、約2ヶ月半。以下のようなデータになります。

id query registed_date rank data
1 aa 2012/2/18 23:11 0 aaa
2 aa 2012/2/18 23:11 1 aa
3 aa 2012/2/18 23:11 2 aac
4 aa 2012/2/18 23:11 3 aa 一行
5 aa 2012/2/18 23:11 4 aaa ブログ
6 aa 2012/2/18 23:11 5 aaa 歌詞
7 aa 2012/2/18 23:11 6 ああ
8 aa 2012/2/18 23:11 7 ああっ女神さまっ
9 aa 2012/2/18 23:11 8 あああ
10 aa 2012/2/18 23:11 9 ああああ
11 ai 2012/2/18 23:11 0 相棒
12 ai 2012/2/18 23:11 1 aiko
13 ai 2012/2/18 23:11 2 ai
447801 sato 2012/3/10 0:06 0 佐藤かよ
447802 sato 2012/3/10 0:06 1 佐藤亜美菜
447803 sato 2012/3/10 0:06 2 佐藤健
447804 sato 2012/3/10 0:06 3 佐藤ありさ
447805 sato 2012/3/10 0:06 4 佐藤仁美
447806 sato 2012/3/10 0:06 5 佐藤利奈
447807 sato 2012/3/10 0:06 6 佐藤聡美
447808 sato 2012/3/10 0:06 7 佐藤すみれ
447809 sato 2012/3/10 0:06 8 佐藤勝利
447810 sato 2012/3/10 0:06 9 さと
828148 yowo 2012/3/27 0:09 7 ヨヲコ
828149 yowo 2012/3/27 0:09 8 ヨヲコヲヨ
828150 yowo 2012/3/27 0:09 9 ヨヲコ ヲチ
828151 yon 2012/3/27 0:09 0 ヨンア
828152 yon 2012/3/27 0:09 1 ヨンパラ
828153 yon 2012/3/27 0:09 2 米沢瑠美
828154 yon 2012/3/27 0:09 3 ヨネックス
828155 yon 2012/3/27 0:09 4 四文字熟語
828156 yon 2012/3/27 0:09 5 夜泣き
828157 yon 2012/3/27 0:09 6 米澤円
828158 yon 2012/3/27 0:09 7 代永翼
828159 yon 2012/3/27 0:09 8 youtube
828160 yon 2012/3/27 0:09 9 世にも奇妙な物語

意外とExcelでぐりぐり処理できる

ちなみにデータの並べ替えとかはノートPCのExcel2008で行数最大(1048576行=約105万行)使ったんですが、数秒で並び替えてくれます。意外と速い。。Excelすごいね。

検索候補予測の更新頻度

まず候補の更新頻度について。データをざっと見たところ、順位は以下のタイミングで書き換わっています。期間は2012/2/18から4/6までの間です。

  • 2012/2/24
  • 2012/2/28
  • 2012/3/14
  • 2012/3/16
  • 2012/3/27

恐らく全ての検索候補が同じタイミングで全て書き換わっている(書き換わり得る)のだと思います。「a」で検索した際の「amazon」等は不動の一位ですが、2位や3位以降の検索結果では割と揺れ動いています。統計的に見てそうなると思いますが、順位が下のワードほど動きやすいです。

大体月に4回、週に1回のペースで更新されている?日付や曜日が読めないですが、基本は隔週で更新して、更新後の修正か何かを2, 3日後に入れてるって感じでしょうか。

季節を反映している(気がする)

知りたかったのは、時期によってどれだけ候補予測が変わるのかなーと言うことなんですが、季節を少しだけ反映している気がします。例えば以下は「hika」まで入力した場合の検索結果の中で「ヒカリエ」(渋谷に4/26にオープンした施設です)の順位の推移です。

id query registed_date rank data
12868 hika 2012/2/18 23:14 7 ヒカリエ
34138 hika 2012/2/19 0:07 7 ヒカリエ
55408 hika 2012/2/20 0:07 7 ヒカリエ
76688 hika 2012/2/21 0:08 7 ヒカリエ
97968 hika 2012/2/22 0:08 7 ヒカリエ
119248 hika 2012/2/23 0:07 7 ヒカリエ
541817 hika 2012/3/14 0:08 6 ヒカリエ
563397 hika 2012/3/15 0:08 6 ヒカリエ
584976 hika 2012/3/16 0:07 5 ヒカリエ
606556 hika 2012/3/17 0:08 5 ヒカリエ
628136 hika 2012/3/18 0:08 5 ヒカリエ
649716 hika 2012/3/19 0:08 5 ヒカリエ
671296 hika 2012/3/20 0:07 5 ヒカリエ
692876 hika 2012/3/21 0:08 5 ヒカリエ
714466 hika 2012/3/22 0:08 5 ヒカリエ
736056 hika 2012/3/23 0:07 5 ヒカリエ
757646 hika 2012/3/24 0:08 5 ヒカリエ
779236 hika 2012/3/25 0:07 5 ヒカリエ
800826 hika 2012/3/26 0:08 5 ヒカリエ
822415 hika 2012/3/27 0:08 4 ヒカリエ
844005 hika 2012/3/28 0:08 4 ヒカリエ
865595 hika 2012/3/29 0:08 4 ヒカリエ
887185 hika 2012/3/30 0:08 4 ヒカリエ
908775 hika 2012/3/31 0:08 4 ヒカリエ
930365 hika 2012/4/1 0:08 4 ヒカリエ
951955 hika 2012/4/2 0:08 4 ヒカリエ
973545 hika 2012/4/3 0:08 4 ヒカリエ
995135 hika 2012/4/4 0:08 4 ヒカリエ
1016725 hika 2012/4/5 0:07 4 ヒカリエ
1038315 hika 2012/4/6 0:08 4 ヒカリエ

オープンに向けて確実に順位が上がっていってます。ちなみに最新の5/2のデータでも4位でした。2/24〜3/13は順位外だったようです。

ちょっといい話

よく検索候補予測怖いよねって話で出て来るのが「妻」「夫」の検索結果。

id query registed_date rank data
127951 妻+ 2012-02-23 00:09:55 0 妻 クリスマスプレゼント
127952 妻+ 2012-02-23 00:09:55 1 妻 プレゼント
127953 妻+ 2012-02-23 00:09:55 2 妻 呼び方
127954 妻+ 2012-02-23 00:09:55 3 妻 離婚
127955 妻+ 2012-02-23 00:09:55 4 妻 誕生日
id query registed_date rank data
127931 夫+ 2012-02-23 00:09:54 0 夫 嫌い
127932 夫+ 2012-02-23 00:09:54 1 夫 彼 男友達
127933 夫+ 2012-02-23 00:09:54 2 夫 呼び方
127934 夫+ 2012-02-23 00:09:54 3 夫 英語
127935 夫+ 2012-02-23 00:09:54 4 夫 小遣い

旦那さんがプレゼント探してる間に、奥さんは「嫌い」とか言ってますよ!!なんと悲しい…。まぁ、この辺は有名な話なのですが。何がいい話かって言うと3/14頃のアップデートから以下のように予測が変わっていたのですよね。

id query registed_date rank data
550501 夫+ 2012-03-14 00:10:40 0 夫 大好き
550502 夫+ 2012-03-14 00:10:40 1 夫 小遣い
550503 夫+ 2012-03-14 00:10:40 2 夫 英語
550504 夫+ 2012-03-14 00:10:40 3 夫 呼び方
550505 夫+ 2012-03-14 00:10:40 4 夫 うつ

「嫌い」から一転「大好き」に!なんと言う奇跡…ホワイトデーのお返しなのかgoogleの粋な計らいなのか分かりませんが、とにかく世の家庭が円満になりそうないい話です。よかったよかった。

でも…

そう思ったのもつかの間。5/1現在はこんな感じ。

id query registed_date rank data
1586751 夫+ 2012-05-01 00:11:14 0 夫 小遣い
1586752 夫+ 2012-05-01 00:11:14 1 夫 呼び方
1586753 夫+ 2012-05-01 00:11:14 2 夫 英語
1586754 夫+ 2012-05-01 00:11:14 3 夫 うつ
1586755 夫+ 2012-05-01 00:11:14 4 死ね
1586756 夫+ 2012-05-01 00:11:14 5 夫 誕生日 サプライズ
1586757 夫+ 2012-05-01 00:11:14 6 夫 小遣い 相場
1586758 夫+ 2012-05-01 00:11:14 7 死んで

今度は「死ね」とか「死んで」とか言われてます…

そして先ほどgoogleに「夫(半角スペース)」と入力したところ「夫 死ね」がまさかの一位に来ていました…。結婚するのが怖いです。そして結局全然いい話じゃないって言う…

まとめ

きょうのまとめ。

上記のような例はあるものの、ぱっと見た感じは思ったより変化がなかったのが残念です。基本的には1位〜5位なんかはほぼ固定していてあまり変わりませんでした。

恐らく入力1文字、2文字しか見ていないからでしょうね。もっと深い検索、例えば「NARUTO 5」まで入力して検索したりすると、時期によって「58巻」「59巻」「569」「571」(アニメの話数の通し番号です)等が新たに出て来たり消えたりして出て来ます。そのレベルで変化を見るとまた楽しいかも。

とりあえず今回貯めたデータの一部をアップしておきますので興味のある方はご覧くださいまし。変な検索ワードが入ってたり、一部重複してますのでお気を付けて。。検索クエリの「+」と言うのは半角スペースを付けて検索かける場合に付けています。

ダウンロードはこちら。10MBくらいあります。(2012/02/18〜04/06までのデータ。Excel2008で開ける上限行数。)
gs_result_sjis_20120218-20120406.zip 直

全部欲しい人はDBの中身ごと差し上げますのでコメントか何かでご連絡ください!