[PR] 本ブログの商品紹介リンクには広告が含まれています
先日ちょっとためした
Nucleus の記事データを Hyper Estraier で検索する実験の副産物で、このブログの各記事に、関連する記事へのリンクを自動的に生成して埋め込んでみました。
たいしたことはやっていないくて、Hyper Estraier の類似文書検索の結果をバッチ処理で取り出して MySQL に格納して、簡単なプラグインで表示するというもの。
Hyper Estraier の類似文書検索は、各文書から TF-IDF で特徴的なキーワードを抽出してから各文書のキーワードのベクトルのコサインを演算するという、教科書に出てきそうなオーソドックスな実装。さすがにこの程度の処理だと「おおっ!?」とびっくりするような絶妙な関連文書は出てきません(あたりまえか)が、記事の分野によってはそこそこにそれっぽい結果が出ている様子。
Hyper Estraier の特徴として、形態素解析をせずに N-gram で処理しているので、辞書に載っていないような新しい単語なんかもそこそこキーワードとして拾ってくれているのも功を奏しているか?もう少し様子を見てみます。
サイト運営ノウハウ的観点から言うと、これでセッションあたりのページビューがどの程度伸びるかも興味津々ですけどね。