higuchi.com blog

The means justifies the ends

探し物は何ですか [検索エンジンからのトラフィックを分析する]

ちょっと思うところがあって、@ITの記事ページに検索エンジンからたどりついた人がいったい何を検索していてそのページにやってきたのかを分析してみています。
@ITにやってくる人は、@ITのメールマガジンで新着記事のタイトルを見てそれをクリックするとか@ITのトップページをブックマークしていてまめに覗きに来る「常連さん」と、たまたま検索サイトでなにかを探していてそれに関する記事ページにたどり着いた「一見さん」に分けられると考えられるのですが、この「一見さん」が求めている情報ニーズにもっと的確にお応えする方法を開発しようと思っていろいろ実験しているのです。
で、そのために作ったツールをこのサイトで試しに使ってみました。 検索サイトの検索結果のページからどこかのサイトへジャンプすると、ブラウザがジャンプ先のサーバーにRefererという情報を渡します。「私はどこのURLから来ました」という情報です。検索サイトからジャンプしてくるとそのRefererのURLの中に検索するときに使ったキーワードが埋め込まれているので、そいつを拾い出すと何のキーワードの検索結果のページから飛んできたかがわかります。
ちょっと気の利いたWebのログを解析するツールには、このキーワードを解析する機能が入っていて、なんというキーワードで飛んできたのランキングが表示されたりするのですが、海外製のログ解析ツールは日本語の文字コードまで気にして作られていないので、うまくこの機能が使えません。たとえばYahoo!から来た人は検索キーワードをEUC-JPの文字コードにしたものを「抱えて」やってきますが、GoogleはShift-JISだったりUTF-8だったりまちまちです。それでもGoogleはどの文字コードで書いてあるかという情報がついてくるのがほとんどですが、検索サイトによっては使用者のブラウザ任せでまったくばらばらな文字コードだったりします。それがごっちゃになって集計されるので、なにがなんだかわからない文字化けだらけの集計結果が出てきてしまうのです。で、そのへんをきちんと解析して、どんな文字コードが来てもちゃんと解読するというツールをこしらえてみたのです。

ちなみに、先月検索エンジンからやってきた人が探していたもののトップは「アーシング」「アーシング プジョー」「アーシング 306」などアーシング関係がトップで、全体の約4分の1。続いて「アメックス センチュリオン」「アメックス プラチナ」「センチュリオンカード」などアメックス関係が2位でアーシングの約半分。そのあと「半可通」「ノイズキャンセルヘッドフォン」「Hotfix」「Blog」「ペンギンのペンギン」「耳鳴り」「Suica」「CNET 御手洗さん」「丸の内 弁当」「コム デ ギャルソン 丸の内店」などが並びます。こうやって見ると、我ながら「スキゾ」ですね。

大部分がGoogleやYahooからのものですが、上のうちのいくつかは、今Googleで検索してみるとこのサイトはヒットしません。ときどきあるんですが、Googleの検索インデックスが先祖がえりしていて、1ヶ月ぐらい前のものに戻っているようです。そのうちまた戻るでしょう。

ちなみに、ここ2、3日の赤丸急上昇は「確定申告 黒木瞳」だったのですが、Googleの先祖がえりでぴたりと止まりました。しかし、この人たちは何を探していたんだろう。

コメント

catpawさんのコメント:

うちもここ数日グーグルのフレッシュクロール(?)だかなんだかが来て、検索語がログ分析ツールで見れたんですよ。面白かった。「ステップ動物病院」とか「ハウステンボス市」とか。「マイケルジャクソン 父」というのもあって笑った。「サルでも分かるblog」という言葉が連日検索されてました。みんなblogやりたいけど難しくて苦労してんだなあと思いました。

樋口 理さんのコメント:

Blogってキーワードで探してる人は多いねー。「Blog 日本語」とか。
謎なのは異常に多い「半可通」。何を探してるんだろう。ほんとに。
ちなみに、検索エンジン以外からのトラフィックでは、いままではJoiのサイトが一番多かったんだけど、先週突然 http://.../ がトップに躍り出て、完全独走態勢だよ。InfoseekやExciteも抜いてしまった。猫手舎の読者はクリック魔か?(笑)
2003/3/4 00:22

catpawさんのコメント:

ここからごそっと人がうちに流れてきて、またそこからリンクをたどってどこかに流れて、加速度的に「blog熱」が広がりみせてますよ。突然の流行り病のようです。勝手にクリックされて勝手に繋がっていくのがwebなのだなとか当たり前のことを痛感しておりまつ。確定申告のポスターは、税務署のポスターなのか黒木瞳のポスターなのか分からんくらいに黒木瞳を前面に押し出してますね。「職業、女優」しか頭に残らず。アドワーズのコンテンツターゲット広告はかなーり気になります(スレ違い)。

井上孝司さんのコメント:

おじゃまいたします。

私は最近、ベクターで入手した「ApacheLogViewer」というのを使っていますが、これはキーワードもリファラーもばっちり表示してくれて、なかなかの優れものです。
で、これを使って私のサイトのログを調べると、もっとも多いキーワードがいまだに「NetStumbler」だったりするのは、なんともはや。です。
あと、時節柄、米軍関連のキーワードや「アルテッツァ」なんていうのが顔をのぞかせるのが、「いかにも」という感じです。

樋口 理さんのコメント:

井上さん、こんにちは。むさくるしいところへようこそ。
ApacheLogViewer、よくできてますね。
実はログ解析じゃなくて on the fly で検索ワードを拾って何かやろうと考えていたので (何をやるのかは、ないしょ :-)、元の目的には使えないんですが、higuchi.comのほうはすでに手段と目的がひっくり返っているので、これ使ってみます。

> もっとも多いキーワードがいまだに「NetStumbler」だったりするのは、なんともはや。です。
(苦笑)

higuchi.com のほうは、Googleのインデックスの先祖返りで黒木瞳が突然消えましたが、相変わらずアーシングとセンチュリオンが猛威を振るっています。

猛威といえば、花粉症、お大事に。
2003/3/26 13:16

コメントを書く

関連するかもしれない記事

「ソーテック」で検索して訪問した数

Google様から嫌われてしまったらしい [検索結果のコントロール]

このブログ、人さまよりちょっと長いことやっているせいで、外からのリンクも多く、ずいぶんと検索結果...

この記事を読む »

探し物はなんですか その2 [検索キーワードプラグイン]

以前に書いたとおり、検索サイト経由でどこかのページにたどり着いた場合、たどり着いた先のページがあ...

この記事を読む »

コンテンツサイトでのターゲティング広告 [Google Content-Targeted Adwords]

昨年末の御手洗さんを問い詰める会で冗談交じりに話していた「Blogのコンテンツに合わせて『突然ですが...

この記事を読む »

探してなんぼ [Google WebSearch]

グーグルの新しいサービスGoogle WebSearch(グーグル ウェブサーチ)が始まりました。 グーグルなどWe...

この記事を読む »

なぞのキーワード [昔の修理再生業]

このサイトに検索エンジン経由でやってきた方が、どういうキーワードで検索してやってきたのかを調べて...

この記事を読む »

アップルipotの使い方? [検索の手引き]

左の検索語ランキングによると、毎日何十人もの方が「i-pot 使い方」とか「ipot アップル CM」とか「i p...

この記事を読む »

改築中 [DokuWikiの日本語化]

ここ1ヶ月ほど、higuchi.comのサーバーを少しずつアップグレードしています。旧サーバーではNucleusを日...

この記事を読む »

First come, ever served [Google Adsenseの基本特許]

このブログに検索エンジン経由でやってきたときの検索キーワードを表示するプラグインを試しているとき...

この記事を読む »

将軍様はミリタリーおたく? [金正日のジャンパー]

将軍様はミリタリーおたく? [金正日のジャンパー]

写真は本文と関係ありませんってば  とある方から...

この記事を読む »

寄ってらっしゃい [Google Sitemaps]

このところ、Yahoo!の新検索エンジンであるYSTのクローラー(インターネット上のページをリンク伝いに読...

この記事を読む »