ちょっと思うところがあって、@ITの記事ページに検索エンジンからたどりついた人がいったい何を検索していてそのページにやってきたのかを分析してみています。
@ITにやってくる人は、@ITのメールマガジンで新着記事のタイトルを見てそれをクリックするとか@ITのトップページをブックマークしていてまめに覗きに来る「常連さん」と、たまたま検索サイトでなにかを探していてそれに関する記事ページにたどり着いた「一見さん」に分けられると考えられるのですが、この「一見さん」が求めている情報ニーズにもっと的確にお応えする方法を開発しようと思っていろいろ実験しているのです。
で、そのために作ったツールをこのサイトで試しに使ってみました。
検索サイトの検索結果のページからどこかのサイトへジャンプすると、ブラウザがジャンプ先のサーバーにRefererという情報を渡します。「私はどこのURLから来ました」という情報です。検索サイトからジャンプしてくるとそのRefererのURLの中に検索するときに使ったキーワードが埋め込まれているので、そいつを拾い出すと何のキーワードの検索結果のページから飛んできたかがわかります。
ちょっと気の利いたWebのログを解析するツールには、このキーワードを解析する機能が入っていて、なんというキーワードで飛んできたのランキングが表示されたりするのですが、海外製のログ解析ツールは日本語の文字コードまで気にして作られていないので、うまくこの機能が使えません。たとえばYahoo!から来た人は検索キーワードをEUC-JPの文字コードにしたものを「抱えて」やってきますが、GoogleはShift-JISだったりUTF-8だったりまちまちです。それでもGoogleはどの文字コードで書いてあるかという情報がついてくるのがほとんどですが、検索サイトによっては使用者のブラウザ任せでまったくばらばらな文字コードだったりします。それがごっちゃになって集計されるので、なにがなんだかわからない文字化けだらけの集計結果が出てきてしまうのです。で、そのへんをきちんと解析して、どんな文字コードが来てもちゃんと解読するというツールをこしらえてみたのです。
ちなみに、先月検索エンジンからやってきた人が探していたもののトップは「アーシング」「アーシング プジョー」「アーシング 306」などアーシング関係がトップで、全体の約4分の1。続いて「アメックス センチュリオン」「アメックス プラチナ」「センチュリオンカード」などアメックス関係が2位でアーシングの約半分。そのあと「半可通」「ノイズキャンセルヘッドフォン」「Hotfix」「Blog」「ペンギンのペンギン」「耳鳴り」「Suica」「CNET 御手洗さん」「丸の内 弁当」「コム デ ギャルソン 丸の内店」などが並びます。こうやって見ると、我ながら「スキゾ」ですね。
大部分がGoogleやYahooからのものですが、上のうちのいくつかは、今Googleで検索してみるとこのサイトはヒットしません。ときどきあるんですが、Googleの検索インデックスが先祖がえりしていて、1ヶ月ぐらい前のものに戻っているようです。そのうちまた戻るでしょう。
ちなみに、ここ2、3日の赤丸急上昇は「確定申告 黒木瞳」だったのですが、Googleの先祖がえりでぴたりと止まりました。しかし、この人たちは何を探していたんだろう。
うちもここ数日グーグルのフレッシュクロール(?)だかなんだかが来て、検索語がログ分析ツールで見れたんですよ。面白かった。「ステップ動物病院」とか「ハウステンボス市」とか。「マイケルジャクソン 父」というのもあって笑った。「サルでも分かるblog」という言葉が連日検索されてました。みんなblogやりたいけど難しくて苦労してんだなあと思いました。
Blogってキーワードで探してる人は多いねー。「Blog 日本語」とか。
謎なのは異常に多い「半可通」。何を探してるんだろう。ほんとに。
ちなみに、検索エンジン以外からのトラフィックでは、いままではJoiのサイトが一番多かったんだけど、先週突然 http://…/ がトップに躍り出て、完全独走態勢だよ。InfoseekやExciteも抜いてしまった。猫手舎の読者はクリック魔か?(笑)
ここからごそっと人がうちに流れてきて、またそこからリンクをたどってどこかに流れて、加速度的に「blog熱」が広がりみせてますよ。突然の流行り病のようです。勝手にクリックされて勝手に繋がっていくのがwebなのだなとか当たり前のことを痛感しておりまつ。確定申告のポスターは、税務署のポスターなのか黒木瞳のポスターなのか分からんくらいに黒木瞳を前面に押し出してますね。「職業、女優」しか頭に残らず。アドワーズのコンテンツターゲット広告はかなーり気になります(スレ違い)。
おじゃまいたします。
私は最近、ベクターで入手した「ApacheLogViewer」というのを使っていますが、これはキーワードもリファラーもばっちり表示してくれて、なかなかの優れものです。
で、これを使って私のサイトのログを調べると、もっとも多いキーワードがいまだに「NetStumbler」だったりするのは、なんともはや。です。
あと、時節柄、米軍関連のキーワードや「アルテッツァ」なんていうのが顔をのぞかせるのが、「いかにも」という感じです。
井上さん、こんにちは。むさくるしいところへようこそ。
ApacheLogViewer、よくできてますね。
実はログ解析じゃなくて on the fly で検索ワードを拾って何かやろうと考えていたので (何をやるのかは、ないしょ :-)、元の目的には使えないんですが、higuchi.comのほうはすでに手段と目的がひっくり返っているので、これ使ってみます。
> もっとも多いキーワードがいまだに「NetStumbler」だったりするのは、なんともはや。です。
(苦笑)
higuchi.com のほうは、Googleのインデックスの先祖返りで黒木瞳が突然消えましたが、相変わらずアーシングとセンチュリオンが猛威を振るっています。
猛威といえば、花粉症、お大事に。
探し物はなんですか その2 [プラグイン]
以前に書いたとおり、検索サイト経由でどこかのページにたどり着いた場合、たどり着いた先のページがあるサーバー側では、どこの検索サイトからやってきたのか、また、何という文字で検索してそこにたどり着いた…