higuchi.com blog

The means justifies the ends

人為的な資源の消費を分散する [乱数発生器としての占い]

[PR] 本ブログの商品紹介リンクには広告が含まれています

先日、とある研究のお手伝いで、雑誌記事のテキストから単語を抜き出す作業をしました。
単語は記事単位にまとめて機械で統計処理していたのですが、統計処理の結果、どうやら同じテキストが重複して現れているような偏りがある、という問題が見えてきました。

テキストが重複していそうなファイルを探し出すために、研究者の方が全部の調査対象記事のキーワードベクトルのコサイン類似度を計算してくれました(このサイトの関連記事の抜き出しと同じ手法ですね)。
そうやって、機械が「似ている」と判断した記事テキストを、ひとつずつ目視でチェックしました。
似ている記事リストの上の方には、校正中のバージョン違いの同じ記事とか、どの号でも同じ内容が並んでいる奥付のページなどが並んでいたのですが、そういうのを排除したあとに興味深いファイルの群れ、それもかなり大量のファイルが残りました。

どれも人間が目で見る限りはまったく違うことが書いてあるように見えるのです。でも機械は、中で使われている特徴的な単語がとても類似している、と判断していたそのファイルとは……
それは、星占い。

とっても有名な西洋占星術研究家が毎月連載しているもので、2ページ見開きぐらいに誕生日の星座ごとに今月の運勢とかラッキーアイテムとかが書いてある、まあ、よくある大きめの占いコーナーなのですが、違う月の占いが機械から見るととても類似した単語の羅列に見えるんですね。

占いって、特に古代では、狩りに行く場所や植える農作物の種類なんかを乱数で散らして、いつも同じ資源を消費することを避けさせるという重要な役割を持っていたと思うのですが、考えてみれば「今日のコーディネートを決めてあげる占い」だって、みんなが同じ格好をしてしまって埋没しないよう、それぞれがアテンションを獲得できるようにしていると考えれば、今日でもアテンションエコノミー時代でも資源の消費を分散させる役割を果たしていると言えます。

よく当たる、という評判の占星術の秘密は、ボキャブラリーを限定して、限られた特徴的な単語を上手に分散させてちりばめてあげるところにあるのかもしれません。

コメント

山中 正さんのコメント:

『今日でもアテンションエコノミー時代でも』だなんて...

アテンションエコノミー時代ってまさに今そういうWeb2.0的(すでに死語か?)な時代に突入したんだって思ってたんですが...
うーん、樋口さんにかかると石器時代と同義語として使われてるんだ。
このブログ、もっともっと私自身のアテンションを張らなければなりませぬ(笑)
2009/3/17 12:32

樋口 理さんのコメント:

あ、間違えた。「今日のようなアテンションエコノミー時代でも」のつもりでした……というオチです。ごめん>山中さん
2009/3/17 12:55

ootaharaさんのコメント:

こんにちは。
とある文化祭用にみずがめ座3冊分を読破して参考としてなにやら文章を創作(?)した事が昔あります。
たしかに、型があって、適当に単語を割り振るだけなんですよね。
2009/3/17 19:01

山中 正さんのコメント:

あははは、深読みしすぎました(笑)
2009/3/18 03:56

コメントを書く

関連するかもしれない記事

天下の公器がウイルスを見ると [MyDoom/Novarg]

今朝、新聞を読んでいたら「海保メールでウイルス送信」という記事が目に入りました(朝日新聞東京14版 ...

この記事を読む »

実験中 [Nucleus の記事を Hyper Estraier に登録する方法]

ちょっと思うところがあって、このブログの記事を全文検索エンジンである Hyper Estraier のインデック...

この記事を読む »

20091019-wired1710.jpg

140字しか要らなかったんだが [将来、孫に言いそうなことベスト10]

今月号の紙のほうの Wired に載っていた "10 Best Things We'll Say to Our Grandkids" (将来、孫に言...

この記事を読む »

iPhone ない人のためのガイガーカウンター測定ソフト [Geiger Robo]

iPhone ない人のためのガイガーカウンター測定ソフト [Geiger Robo]

自作ガイガーカウンターの計測データをグラフ化したり、インターネットで公開したりするためのソフ...

この記事を読む »

ネタバレ注意 [140字で分かる難解な映画・小説 ベスト10]

おなじみ Wired 誌から。今年の5月号に "10 Best Head-Scratching Stories, Explained" という小さい記...

この記事を読む »

お前は何者だ

スターウォーズ予告編の日本語字幕に隠されたメッセージを読む

12月18日公開のスターウォーズの新作。昨日「日本のために作られた」という予告編が YouTube で公開...

この記事を読む »

How I Leaned to Stop Worrying and Love the Spam [CRM114のインストール]

さて、驚異のスパム分別精度99.98%を誇る、新型ベイジアン=マルコフモデル搭載(笑)スパムフィルターT...

この記事を読む »

Joiもすなるblog [Nucleus に日本語を通してみよう]

「今さら何を」と言われそうですが、Joi に触発されて、blog (Weblog)に興味を持ちはじめました。いわゆ...

この記事を読む »

私は如何にして心配するのをやめてスパムを愛するようになったか [CRM114の日本語対応]

さて、先日のインストール編に続いて、CRM114の日本語対応改造です。 CRM114のFAQには“BUT if you us...

この記事を読む »

Nucleusの記事できました [UNIX USER 2004年1月号]

以前にお知らせしたNucleusの記事を寄稿したUNIX USER誌が発売されました。 編集部のご好意で記事の...

この記事を読む »