«Prev || 1 || Next»
夜遅く家に帰って、メールをチェックしながらこのブログを開いてみるとコメントスパムの嵐。
わずか1時間半の間に、スパム除けをすり抜けて書き込まれた同じ文面のスパムがhiguchi.com史上最多のなんと2,121通!お見事と言うほかありませんね。まとめて一気に消し去りました。
ちなみに、こんな文面でした。
名前: phentermine
Webサイト: http://www.bloggen.be/mmaskishow/
ホスト: いろいろ
コメント:
http://www.bloggen.be/barantug/ buy phentermine, cheap phentermine
http://www.bloggen.be/dgonhiri/ online phentermine, order phentermine
http://www.bloggen.be/podonoknick/ buy viagra, viagra online
http://www.bloggen.be/verisq/ buy viagra online, order viagra
http://www.bloggen.be/dudkamudka/ hydrocodone online, buy hydrocodone, order hydrocodone
http://www.bloggen.be/yyachoka/ buy xanax, xanax online, cheap xanax
http://www.bloggen.be/psixdurka/ buy tramadol, order tramadol
http://www.bloggen.be/zagigalka1/ buy tramadol online, cheap tramadol
http://www.bloggen.be/ddefochka/ bad credit personal loans
http://www.bloggen.be/mmaskishow/ buy soma
http://www.vegas-webspace.com/valium-online/ valium
http://www.vegas-webspace.com/cialis-online/ cialis
http://www.vegas-webspace.com/carisoprodol/ carisoprodol
http://www.vegas-webspace.com/adipexpills/ adipex
http://www.vegas-webspace.com/xenical/ xenical
http://www.vegas-webspace.com/ativan/ ativan
http://www.vegas-webspace.com/alprazolam-online/ alprazolam
http://urlcutter.com/ultrampills ultram

ここのところ、フィッシングの横行が新聞などでも取り上げられています。フィッシングといっても釣りのことではなく、銀行やクレジットカード会社からの業務連絡のメールを装った偽メールと偽サイトで、銀行の暗証番号やクレジットカードの番号をだまして聞き出すという詐欺の手法のこと。fishingではなく、password harvest fishing(パスワード獲りの釣り)を縮めてphishingとLeet風なつづりを使います。
以前から書いているとおり、私のメールアドレスにはあらゆるスパムが続々と届けられますので、ご多分に洩れずフィッシング詐欺メールの標本にも事欠かないのですが、ついさっき来たやつがあんまりおかしかったので採取しておきました。

» 続きを読む……

先月導入したベイジアンフィルター式スパムフィルターのCRM114ですが、着々と手になじんで来ました。
まず、最初の2、3日でめきめきと分類精度が上がりました。その後、一見スパムに見えそうで実は自分でOpt-inして送ってもらっていた商業メール(例えば、ユナイテッド航空からのHTMLメール)を「これはスパムじゃない」と教えたりするたびに、ぽろぽろと間違ってスパムを“目こぼし”することはありましたが、ここ5日ぐらいは思ったとおり(教えたとおり、と言うべき?)に分類してくれています。スパムと通常メール合わせて1,000通以上を“正しく”分類していますから、99.9%ぐらいの精度には育っているように思えます。higuchi.comに来るスパムはほとんど英語なのですが、日本語のスパムメール、例えば「5億9千万円収入者が続出しています」なんていう類のやつも、一度教えてやればきちんとより分けてくれるようになりました。
ためしに、ほかのメールアカウントにもCRM114を導入したところ、スパム以外にもいろんなメールの分類にCRM114が活用できることがわかりました。いくつかご紹介します。

» 続きを読む……

さて、先日のインストール編に続いて、CRM114の日本語対応改造です。
CRM114のFAQには“BUT if you use a unicode-based or other wide-character language, you'll need to port up CRM114 to use wchar instead of char, as well as getting unicode-clean regex libraries.(Unicodeなど、マルチバイト文字の言語を使う場合にはCRM114をwcharを使うように改造して、Unicode対応の正規表現ライブラリを使わないとダメ)”と書いてありますが、そんな根性も時間もないので、CRM114本体には手を入れずに、スクリプトの工夫だけで日本語対応してしまいます。
幸い、マルチバイト文字対応はしていないとはいえ8-bit cleanだとのことですので、昨日書いたとおり、メールのテキストをnkfでEUC-JPに変換して文字コードを統一し、kakasiで単語の切れ目に“半角スペース”を入れてからCRM114に引き渡すように手を加えるというQuick Hackで日本語のメールもきちんと処理してくれます。
CRM114は5つまでの単語のつながりをひとかたまりとして頻度をチェックする仕組みになっていますから、kakasiがない環境の場合、“全角”文字1文字を1単語として区切ってN-gram風に使ってもそれなりの効果が期待できるのではないかと思います。
なにはともあれ、具体的な改造方法を。

» 続きを読む……

さて、驚異のスパム分別精度99.98%を誇る、新型ベイジアン=マルコフモデル搭載(笑)スパムフィルターThe CRM114 Discriminatorシーアールエムワンワンフォーを日本語環境で使う実験です。
実験に入る前に、このCRM114の名前の由来について。
The CRM114 Discriminator(CRM114弁別器)は、キューブリックの映画「博士の異常な愛情」に出てくる小道具の名前です。
「博士の異常な愛情」正しくは「博士の異常な愛情 または私は如何にして心配するのを止めて水爆を愛するようになったか(原題:Dr. Strangelove: or How I Learned to Stop Worrying and Love the Bomb)」は米ソ冷戦時代の核抑止政策をテーマにしたブラックコメディで、ピンクパンサーやチャンスなどでおなじみのピーター・セラーズの1人3役やパットン大戦車軍団のジョージ・C・スコットなどの名演が光る、20世紀を代表する(と私が思っている)名作中の名作です。
この映画の中に出てくるCRM114は、米軍の基地とソ連に向けて飛ぶ戦略爆撃機の間の通信を司る機械です。通信を振り分けて、正しい“コード”がついた正当な通信しか受け付けないというしくみになっているという設定で、ストーリーの後半で重要な役割を持ちます。興味がある方はDVDをどうぞ
で、その名前をいただくスパムフィルターCRM114を日本語化してみようと思い立ったいきさつは先日書いたとおり。今日はその実践編です。

» 続きを読む……

私のメールアドレスは、昔からWeb上などに掲示していたため、今では1日200通ぐらいのスパムが送られてきます。しかし、メールサーバー上で動かしているSpamAssassinというスパム除けプログラムがかなりよい精度で自動的にスパムと普通のメールを分類してくれていたので特に不自由を感じることはありませんでした。ところが数日前から急にSpamAssassinの分類精度が悪くなって、10%以上のスパムを普通のメールだと誤認するようになってしまいました。
調べてみると、SpamAssassinが出しているログファイルに「Cannot open bayes databases … Inappropriate file type or format」などというエラーが出ています。SpamAssassinが使っているベイジアンフィルターの学習データのファイルが壊れてしまったようです。

» 続きを読む……

このあいだに続いて Spam のお話。
戦時中から「祭り」ムードだった太平洋の向こうの戦争当事国から、戦後になった今になっても、祭りに乗じてゼニを稼ごうという商魂たくましい Spam が続々と届いています。
ここ2、3日で急激に増えたのが“Authentic D.O.D. Replica Cards”というやつ。戦地の兵士に配ったというイラク高官写真入のトランプの「正真正銘のレプリカ」だそうで、右のようなナイスなGIFベタ貼りのHTMLメールがどかどかと送られて来ています。
Webサイトによると「そこらのチープなイミテーションとは違います。ホンモノそっくりです」って、つまりよくできたコピー商品なわけね。DODは著作権を主張しないのかしらん。
ナイジェリアから、儲け話の電子メールがたくさん送られてきます。「私はなんとか将軍の未亡人です。夫の遺産が、ン百万ドルあって、没収されそうになって困っています。海外に持ち出したいのですが、振込先としてあなたの口座を貸してください。お礼にン%をお支払いします。」とか言った内容の、いわゆる419事件というやつです。
今日送られてきたやつは、前にも見たことのあるストーリーなんですが、ディテイルに磨きがかかって来ました。

» 続きを読む……

私のメールアドレスには実に大量のSpamが送られてきます。.comドメインということもあり、英語のSpamは1日100通ぐらい来ているかもしれません。
そういうのはほとんどSpamAssassinが自動的に見つけてSpam専用のフォルダに溜めているのですが、普通のメールがSpamと勘違いされていないかどうかチェックするために、時々SpamのFromとSubjectをまとめて斜め読みします。Spamをまとめて眺めると、世間でどういうあやしいモノが流行ったりだぶついたりしているのかがなんとなく分かります。面白い。
いつも多いのはHGH(ヒト成長ホルモン)製剤を若返りやダイエットのクスリとして売っているものとか、「増大」させるクスリとか、「テレビでおなじみ(As seen on TV)」のお湯切り簡単パスタ鍋といった類ですが、最近急増しているのがTシャツのSpamです。

» 続きを読む……

«Prev || 1 || Next»

ナビゲーション
新着
過去記事
2008/10
  12345
6789101112
13141516171819
20212223242526
2728293031  
カテゴリー
All
Amex
Blog
DokuWiki
Google観察
iPhone
iPod
Mac
Nucleusのワザ
Spam観察
VOW
お買い物
ことば
つぶやき
サイエンス
ソフトウェア
テクノロジー
ネットな生活
ネットのニュース
ネットのビジネス
ネットの経済
フェティッシュ
マーケティング
一般
世間のできごと
丸の内
会社
催し物
写真
社会
私的関係
経営
身体
遊ぶ
釣り
音楽
食べる
最近のコメント
  • ナックさん: あなたのテキストを盗用・改ざんして使ってるブログがありましたのでご連絡します。 http…
  • ピーコアンドブ…さん: うんこがでるーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーーー…
  • fffffff…さん: あほあほあほあほあほあほあほあほあほあほあほあほあほあほあほあほあほあほあほあほあほ…
  • やぎぬまさん: いや、なに・・・ちょっと忠類川を背景にした魚のアオリ写真なんてのも見たかったもので・…
  • 樋口 理さん: そうですが、なにか? 釣りなんて、そんなこと……はっはっは。
Login
higuchi.com別館 新着
Blogrolls
License
Creative Commons License
Powered by
Created with Vim
WestHost Web Hosting
DNS Powered By zoneedit


検索
サイト内検索
Google
Web全体
www.higuchi.com内

ブログ内専用検索
Ads
What's Up


Stats
過去180日間にwww.higuchi.comにリンクしたブログの数 テクノラティ グラフ