[PR] 本ブログの商品紹介リンクには広告が含まれています
ここのところ、
マイクロソフトのナレッジベース(正しくは「サポート技術情報」。以下、KB)に、はまっています。
KBは、世界中のサポート窓口に寄せられる製品についての質問を元に、それぞれの質問に対する回答を文書にしたデータベースです。特に英語で検索すると、本当にたいていの問題は答えが見つかるという、マイクロソフト製品(の障害)についての巨大な知識データベースです。
日本語だとヒットする件数がぐっと少ないのが難点です。たぶん、もとの情報が英語圏からのものが大多数で、日本語への翻訳が追いつかないためと思われます。その解決策として、最近、英語のKBをそのまま機械翻訳したものも検索結果に入れるというオプションがつきました。ところが、機械翻訳された文章の中に、素っ頓狂な珍訳が混ざっていて、これがなかなか楽しめます。
こんな感じ。
誤解のないように断っておきますが、私は「だからマイクロソフトはダメだ」とかそんなことを言うつもりはまったくありません。おかしな訳が混ざってしまうことも承知の上でそれでも情報を提供しようという方針は、それなりに検討された上での判断だと思いますし、機械翻訳でもそのままで十分意味が通じて役に立ちそうな情報(
例)もたくさんありますから(それに、マイクロソフトって言うだけで脊椎反射みたいに「だめ」っていうのは、思考停止みたいでかっこ悪いしね)。
日本で、計算機による機械翻訳が本格的に試されるようになって50年ぐらいになるんじゃないかと思いますが、われわれ“言語的に試練を受けている”人たちの役にたつようになるまでには、まだまだ時間がかかりそうです。
私が大昔に卒業研究をした大学の研究室は、計算機による言語処理を長いことやっているのですが、その研究室の言い伝えによると、
日本で1、2を争う最古の翻訳計算機に "Time flies like an arrow."(時間は矢のように飛ぶ=光陰矢のごとし)を翻訳させたら「時間蝿は矢を好む」という結果がでたとか。この言い伝え自体は都市伝説の匂いもしますけど、このぐらいの誤訳は現在の翻訳ソフトでも普通に見られます。それだけ難しいテーマだということなのでしょう。
で、笑いの種にしているだけでは、これまた思考停止っぽいので、マイクロソフトのKBの誤訳をながめていて気付いた共通のパターンをいくつか。
1:略語、短縮語、専門用語を辞書に登録すれば改善しそうなケース
2:自社の製品名を登録すれば改善しそうなケース
3:KBの文書タイトルが Capitalize(単語の先頭を大文字にすること)されているために起こっている誤訳
人間が普通にできているごく簡単な自然言語の読解も、機械に真似させるのはなかなか難しい、というお話。どっとはらい。
Yaginumaさんのコメント:
コメントを自分のBlogに書いちゃいました。 美味し過ぎたもので・・・。
明日は山女を釣ってきて味噌田楽にして食うつもりです。 沢山釣れたら、燻製にして写真だけをHPに載せて、一人でバーボンの肴にして食うつもりです。