higuchi.com blog

The means justifies the ends

直帰率対策 [関連記事へのリンクを自動生成]

[PR] 本ブログの商品紹介リンクには広告が含まれています

先日ちょっとためした Nucleus の記事データを Hyper Estraier で検索する実験の副産物で、このブログの各記事に、関連する記事へのリンクを自動的に生成して埋め込んでみました。 たいしたことはやっていないくて、Hyper Estraier の類似文書検索の結果をバッチ処理で取り出して MySQL に格納して、簡単なプラグインで表示するというもの。
Hyper Estraier の類似文書検索は、各文書から TF-IDF で特徴的なキーワードを抽出してから各文書のキーワードのベクトルのコサインを演算するという、教科書に出てきそうなオーソドックスな実装。さすがにこの程度の処理だと「おおっ!?」とびっくりするような絶妙な関連文書は出てきません(あたりまえか)が、記事の分野によってはそこそこにそれっぽい結果が出ている様子。
Hyper Estraier の特徴として、形態素解析をせずに N-gram で処理しているので、辞書に載っていないような新しい単語なんかもそこそこキーワードとして拾ってくれているのも功を奏しているか?もう少し様子を見てみます。
サイト運営ノウハウ的観点から言うと、これでセッションあたりのページビューがどの程度伸びるかも興味津々ですけどね。

コメント

まだコメントはありません

コメントを書く

関連するかもしれない記事

実験中 [Nucleus の記事を Hyper Estraier に登録する方法]

ちょっと思うところがあって、このブログの記事を全文検索エンジンである Hyper Estraier のインデック...

この記事を読む »

似て非なるモノ [カテゴリーとタグ]

ブログやソーシャルブックマークなどですっかり定着したタグクラウドですが、これと昔からあるカテゴリ...

この記事を読む »

なぞのキーワード [昔の修理再生業]

このサイトに検索エンジン経由でやってきた方が、どういうキーワードで検索してやってきたのかを調べて...

この記事を読む »

ブログとグーグルの親和性 [Permalink]

前回の記事でちょっとだけ触れた、ブログとグーグルの親和性についての考察です。 実はこのこと、こ...

この記事を読む »

人為的な資源の消費を分散する [乱数発生器としての占い]

先日、とある研究のお手伝いで、雑誌記事のテキストから単語を抜き出す作業をしました。 単語は記事...

この記事を読む »

First come, ever served [Google Adsenseの基本特許]

このブログに検索エンジン経由でやってきたときの検索キーワードを表示するプラグインを試しているとき...

この記事を読む »

インターネットに子守りをさせるな [教育現場とメディアリテラシー]

「昔の修理再生業」という謎のキーワードが頻繁に検索されていて、たまたまこのサイトがそれにひっかか...

この記事を読む »

読んでみた [新聞メディアのこれからを収益化する5つの方法]

Mashable に "5 Ways to Monetize the Future of News Media" という記事が載っていました。訳すと「新...

この記事を読む »

電動歯ブラシ 10 MIPS [組み込み用マイクロプロセッサ]

何ヶ月か前のWIREDの記事で(記事の詳細は忘れたのですが)家の中のいろんな機器に組み込まれているCPU...

この記事を読む »

メールで情報“共有”するのはいい加減やめにしようよ、とか言ってみるテスト [情報のストックとフロー]

ストックとフロー三題噺、その3。告白します。私は『情報共有』と称して一斉同報的メールを送りまくら...

この記事を読む »