ぶっこ抜き？ [Google日本語入力の功罪]

樋口　理 2009/12/3 16:14

[PR] 本ブログの商品紹介リンクには広告が含まれています

お仕事で四国から飛んで帰っている間にGoogle様が「Google日本語入力」をリリースしていました（Google様のブログ参照）。
ATOK とか MS IME とかと同じ役割をする、かな漢字変換エンジン。Windows と Mac の両方揃って、どちらも無料です。
まだ現物は試していないのですが、上記のブログの説明や Twitter に流れている試した人の感想を読む限りでは、かなりすごい。破壊的にすごい。

Google が蓄積している Web 上のテキストの膨大なデータを辞書に使っていて、

Web から機械的・自動的に辞書を生成することで、人手ではカバーしきれないような、新語、専門用語、芸能人の名前などを網羅的に収録しています。高い変換精度を実現するために、Web 上の大量のデータから統計的言語モデルを構築し、変換エンジンを構成しています。現在の Web のありのままを反映したインプットメソッドと言えます
（上記ブログの記事より）

とのこと。
Googleで誤変換をした文字を検索したときなどに「もしかして：××××」と、正しいと思われる文字を提示してくれる機能がありますけど、あれを常備したかな漢字変換みたいなもの。変換中というか文字の入力中に「もしかして、これ入力しようとしてます？」みたいな感じでどんどん候補を出してくれるような感じみたいです。
たぶん、みんなが使っていくうちに、変換候補の使用頻度とかの統計データをどんどんサーバーに取りためていって、生き物のように賢く育っていくんじゃないかという予感。
これは、本当にすごい。こういうことを考えて実装して世の中に提示してくれるエンジニアの力を心から尊敬します。

でもね……ちょっと気になることがある。辞書を作るのに、Web の文字データを解析したっていうことなんだけど、ご存じの通り、かな漢字変換の辞書は、かなの読みと、それに対応する漢字表現のセットが必要。Web の文字は変換後の表現だから、その字に対応する読みデータをどこからか収集しないといけないはず。
どこから集めたのか考えてみたんですが、たぶん（たぶん、ですよ。あくまで私の憶測・邪推ね）、Google サジェストを提供する中で、ユーザーがかな漢字変換をしている途中の読みデータと、かな漢字変換を確定した後の漢字データを集めてきたのではないかと思います。
読みデータを蓄積しているという確証はないけれど、少なくとも Google サジェストを使っている間は変換前の読みデータを収集して使っているのは確実。確定前の読み入力中の段階で、どんどん先読みして候補を出してくれる、っていうのが Google サジェストの発表時からの売りですからね（当時の記事参照）。

ユーザーが「かな」をどういう文脈の時にどういう漢字に変換するかという膨大な統計データを使うということはすばらしいと思うのだけど、そこでユーザーが入力したかな文字列と変換後の漢字文字列のセットは、実はユーザーが使っているかな漢字変換機能の辞書が吐き出したものなんですね。つまり、ユーザーを介して、間接的に他社のかな漢字変換の辞書の内容の一部を「ぶっこ抜いて」いるわけですわ。

これって、どうなんだろう？

もちろん、ぶっこ抜いたセットだけじゃ何もできなくて、自社の膨大なコーパスと膨大で優秀な開発リソースをつぎ込んでかな漢字変換機能にしているから、誰も文句を言えないのかもしれないけれど。
辞書データをぶっこ抜かれたかな漢字変換の開発会社の中には、いや、よしんば、ぶっこ抜いていなかったとしても、このかな漢字変換の売上やライセンス料で一生懸命生きているような会社もあるわけで、できあがったモノをタダでばらまかれたりして市場を破壊されちゃうと、一気に路頭に迷う人たちが出てくる可能性も十分に考えられると思うのです。誰とは言わないけれど。

それが時代の流れで、それについて行けない会社が悪いのよ、という考えもあるとは思うけれど、「圧倒的な資本力と開発力で、ソフトウェアを無料でばらまいて競合をつぶし、市場を独占しようとするアンフェアな試み」って、昔は別の会社のことを悪く言うのに使っていた気がするんだけど、あの会社と、何が違うんだっけ？ Google 様の evil じゃない純粋な人たちがやれば、技術社会の進歩を支える正義なのかな。
大きく育った無邪気な象がまわりの小動物を踏み殺しちゃうのは、やつが無邪気だからしょうがないのかな。やつは本当は無邪気じゃないのだ、とは言わないけれど。

とか、ちょっと考え込んでしまったのでした。答はまだありません。

とろさんのコメント:

まあ「あの会社」のIMEももともとWX2を引っこ抜いたものですから・・・

2009/12/3 23:42

通りすがりさんのコメント:

手法的には全く問題ないと思います。でも、強い一社のみが残る世界は怖いですね。

2009/12/4 02:35

ootaharaさんのコメント:

1)ぶっこ抜かれない為に辞書に誤変換を忍ばせている会社があれば、googleは訴えられますね。その後、買収されてしまうかも知れませんが。
2)日本に限っては、MS-IMEの利用者が大半だと思うのですが、MS-IMEをぶっこ抜いたgoogle-IMEって、MS-IMEに近いハズ。ならば嫌。
3)それと・・・奇妙で微妙な単語が沢山登録されている気がします。それは楽しみ。

2009/12/4 05:56

通りすがり２さんのコメント:

MeCabの人が作ったんじゃないの？

2009/12/4 07:34

樋口　理さんのコメント:

> まあ「あの会社」のIMEももともとWX2を引っこ抜いたものですから・・・

当時、双方に近いあたりで仕事をしていましたが、勝手に引っこ抜いたわけではなくて、正当にWX2をOEMしたところから始まっていたと記憶しております。同列に語るのはおかしいですね。

> MeCabの人が作ったんじゃないの？

そうですが、それだとなにか正当化されるんでしょうか？

2009/12/4 08:08

yuzuruさんのコメント:

仮にそうだとしたら、検索語に使われないような言葉の変換率がかなり悪くなるはずですが、今のところそのような差は見られないですね。
検索されるような変わったワードが候補によく見られますが。

2009/12/4 08:20

樋口　理さんのコメント:

ああ。言いたいことがわかったかも。

> MeCabの人が作ったんじゃないの？

というのは「MeCab の読み辞書を流用してるんじゃないか？」という意味ですか？
それだけだと、MeCabの辞書（MeCab自身は辞書は持ってないので、正しくはIPADICとかJUMANの辞書）に入っていない特殊な単語がガンガン変換できることが説明つかないですよ。どこかで、ナマのインターネット界で使われている読みと変換候補のセットを取得しないと実現できないと思う。
できる方法があるのなら、ぜひご教授願いたいです。それが実現できるなら、未知の漢字を読み下せる魔法のアルゴリズム。言語処理界の大発明になると思います。

2009/12/4 08:38

樋口　理さんのコメント:

> ぶっこ抜かれない為に辞書に誤変換を忍ばせている会社があれば、googleは訴えられますね。

それは、どうかな。辞書の著作物としての独自性って、読みと変換候補のセットだけで主張できるものなんですか？
辞書の構造をリバースエンジニアリングして窃用したというのなら、その傍証にはなるとは思いますけど。

2009/12/4 08:41

樋口　理さんのコメント:

> 検索されるような変わったワードが候補によく見られますが。

ということからも、検索中の文字入力を拾って読みデータを作っている、と考えるのは妥当じゃありませんか？
まず、そこから。

2009/12/4 09:39

disneyさんのコメント:

そんなこと言ったら、「ATOK使って入力した文章は全部ATOKの辞書データをぶっこぬいたものだから、ジャストシステムに権利が所属する」ということになるじゃん。

そんな解釈が通るわけないでしょ。

ATOK使おうが、MS-IME使おうが、入力した文章は入力した人が権利を持つ、それは当然の解釈でしょう。だからGoogle日本語入力はセーフ。

2009/12/4 09:44

tapiokaさんのコメント:

その辞書だってそもそもユーザーが入力したものなのだから、辞書データで著作権的なことを言い始めるのはどうなんですかね。
辞書データはユーザのものでしょう。
ユーザーが文句言うなら分かります。

2009/12/4 10:15

樋口　理さんのコメント:

やれやれ。
文章読解とか論理的思考が苦手な子が紛れ込み始めちゃったみたいだな。

> 「ATOK使って入力した文章は全部ATOKの辞書データをぶっこぬいたものだから、ジャストシステムに権利が所属する」ということになるじゃん。

ならないよ。読みと漢字表記のセットの話をしてるんだ。よく読んでね。

> ATOK使おうが、MS-IME使おうが、入力した文章は入力した人が権利を持つ、それは当然の解釈でしょう。

その通りだよ。でも、入力した文章の権利の話はここでは誰もしてないから、よそでやってね。

> その辞書だってそもそもユーザーが入力したものなのだから、
ちがうよ。かな漢字変換のコアの辞書はユーザーが入力した物じゃない（最近はそういうのもあるけど）。覚えておくといいと思うよ。

> 辞書データで著作権的なことを言い始めるのはどうなんですかね。
辞書データには著作権はありますよ。ただ、今回のケースが著作権の侵害だという話は、私はどこでもしていないよ。よく読んでね。

今回はお返事したけど、今後はこの手の「あさってな方向にかみついたつもり」みたいなコメントはスルーさせていただきますので、あしからずご了承ください。
ごめんね。おじさん、アタマの悪い子の相手するのホントに苦手なんだ。

2009/12/4 11:18

hamさんのコメント:

ぶっこ抜かなくても読みと漢字との対応は可能なのでは？　Web上には多数の辞書が公開されていて、各単語には読み仮名がついているのですから、大抵の単語とその読みとの対応はGoogleのコーパスにすでに登録されていると思います。

その手の辞書には載っていない芸能人の名前やアニメ・ゲームの作品名・キャラ名なども、公式サイトやWikipediaなどですぐ拾えますし。

そうなると各辞書の編集著作権を侵害しているのではないかという疑問も出ないことは無いですが、それはまた別の話でしょう。

2009/12/4 14:09

他人さんのコメント:

こういうソフトはあくまで変換補助なわけで、ユーザの意思が反映された変換後の単語を用いている、という解釈にすればセーフな気がします。

取り敢えず、人の事を馬鹿にするような物言いは良くないです。（まるでガキです。）
コメント認証制にすることをおすすめします。

2009/12/4 14:30

yutakarlsonさんのコメント:

■グーグル、日本語入力ソフトを無償提供ＭＳ、ジャストシステムに脅威－ユーザーや消費者は物語を求めている(2)?!

こんにちは。グーグルが日本語入力ソフトをリリースしましたね。私も、早速使ってみました。今のところ、かなりスムーズに使えています。今から、10年くらい前までは、こうした日本語変換システムも、いくつかあって、互いに張り合っていました。しかし、最近は、ジャストシステムと、MSの独壇場になっていて、MSが独占しそうな勢いでした。しかし、ここで、googleの参入です。Googleの参入は、実は必然だったのかもしれません。しかし、最近このシステムのように既存のものがずっと使われていて、まさか、新しいものなど出てこないだろうという分野にイノベーションが目立つようになってきました。私は、こうした既存の枠を破ること、そうして、それを物語にまで高めていくこと、さらには、伝説にまで昇華していくことが、現代日本の営利企業に与えられた使命であり、課題だと思います。詳細は、是非私のブログをご覧になってください。

2009/12/4 14:37

樋口　理さんのコメント:

> ぶっこ抜かなくても読みと漢字との対応は可能なのでは？

そうですね。他のコーパスをかき集めて使ったという可能性は否定はできませんし、いくつかの特定のオープンソース辞書はきちんとクレジットされているようですが、それだけで「大抵の単語とその読み」がカバーされるとは思えませんし、
> その手の辞書には載っていない芸能人の名前やアニメ・ゲームの作品名・キャラ名なども、公式サイトやWikipediaなどですぐ拾えますし。
というような非定型作業をするとはちょっと考えにくい。
むしろ、公式ブログに
> Web 上の大量のデータとサジェスト機能を活用した Google ならではのインプットメソッドのアイデアを温めていました。
と書かれていたことからも、サジェストから拾ったと考えるのが妥当なのではないでしょうか？

> ユーザの意思が反映された変換後の単語を用いている、という解釈にすればセーフな気がします。
それは、同意です。こういうセットを拾い集めたからといって著作権を侵害しているというクレームは起こせないと思っています（著作権を侵害している、という主張をしているつもりもありません）。むしろ、独占的営利企業としてのフェアネスのほうの問題かと今のところは思っています。上にも書いたとおり、私自身の答はまだみつかっていません。

> 取り敢えず、人の事を馬鹿にするような物言いは良くないです。（まるでガキです。）
ご忠告は感謝します。人様の庭先にやってきて挨拶もなしにとんちんかんなケンカを売ってくるような無礼な輩はまともに相手したくないのです。
ガキみたいな頑固おやじと言われてもしょうがないですけどね。事実そうですので。すみません。

2009/12/4 15:25

ほげさんのコメント:

ネット上ではたとえば「辞書」という記事が「jisyo.html」というファイル名になっていたりします。そういうのも使っているんじゃないでしょうか。

あとコメントに
>非定型作業
とありますが今の言語処理技術では定型です。雑多な文章が大量にあれば、「漢字と読み」や「英語と日本語」の組み合わせを抽出したりできます。

何が言いたいかというと、サジェストだけから抜いている、というのは違うかなと思います。
記事を読むと「サジェストくらいしか思い当たらない」と読めたので、書かせていただきました。

2009/12/4 17:24

VXさんのコメント:

　辞書データを非合法的に抽出して流用したならともかく、自前のインフラを使って入力データをかき集めたGoogleIMEが叩かれる道理は何処にも無いと思います。
　「無料ソフトで市場を潰す」と言いますが、それはMSが実質無償公開しているOfficeIMEやAppleのことえりにも言えることであり、
機能面でATOKに全く及んでいないGoogleIMEが無償公開されても既存ユーザーや組み込み市場を持っているジャストシステムへの影響はほとんどありません。
これでもし市場が潰れるなら、「競合相手が居ないおかげで月額料金を実施できる」なんて公言していた企業が商売下手すぎただけじゃないでしょうか

（この文章はGoogleIMEで入力しましたが、OfficeIMEと違い一々サジェストが出て鬱陶しかった、
「きょうごうあいてが～」を強豪相手と変換したりと変換エンジンの質は納得のβクオリティでした）

2009/12/4 17:26

VXさんのコメント:

「鬱陶しかったり」のりが抜けてましたね＾＾；
OfficeIME2010βもそうですが同じATOK互換配列なのに挙動がIME2007以前と比べて微妙に違うのは何故なんでしょう…

2009/12/4 17:30

樋口　理さんのコメント:

> 雑多な文章が大量にあれば、「漢字と読み」や「英語と日本語」の組み合わせを抽出したりできます。

興味深いですね。どうやって機械的にそれが実現できるのか、ぜひご教示願えますか？

2009/12/4 17:43

樋口　理さんのコメント:

> 既存ユーザーや組み込み市場を持っているジャストシステムへの影響はほとんどありません。

こういう場所で特定の銘柄のことを論じるのは適切ではないと思いますし、私は全然専門家でもありませんからたいしたことは言えませんが、と前置きした上で。

貴殿がジャストシステムの財務状況をどの程度ご覧になっている方か存じませんが、私にとってはまったく知らない人たちでもないし、心から心配している、とだけ申し上げておきます。「既存ユーザーや組み込み市場を持っている」「影響がありません」と言い切れる根拠は私にはよくわかりません。

2009/12/4 17:48

tapiさんのコメント:

思うに、確定前のひらがなと、GoogleのWebにあるデータベースもしくは、検索結果を比較して作成していると思います。変換した後の漢字と、その前のひらがなを比較すると、特に新しい漢字はただしいものより、間違ったものを取ってくる可能性が高くなります。プログラムを作る点で考えても、ひらがな入力中　＞入力中の’ひらがな’をatokなどのIMEから取得＞それをGOOGLEサイトに送信＞これまでの検索結果からふさわしそうな単語を探す＞検索結果からクリックされたものが正しいであろうという予測をたて、辞書を精錬していく。これだと、IMEからは全く”ぶっこ抜”かずにDB作成出来ませんか？

2009/12/4 17:52

樋口　理さんのコメント:

> 確定前のひらがなと、GoogleのWebにあるデータベースもしくは、検索結果を比較して作成していると思います。

おっしゃっていることが、よく分かりません。
ひらがなから、どうやって「Webにあるデータベース（Web上の漢字交じりテキストのことですよね？）」や「検索結果（Webテキストのインデックスに「漢字」をマッチした結果のことですよね？）」を比較するんでしょうか？
よろしければ、もう少し詳しくご教示願えますか？

2009/12/4 18:02

tapiさんのコメント:

たとえば、”ひぐち　おさむ”でGOOGLE検索しますよね。そうすると、検索結果のなかに、”樋口治（ひぐちおさむ）”とか、”樋口理（ひぐち・おさむ）”とか出てくるじゃないですか。そこに出てくるということは、既にGOOGLEのキャッシュにあるということで、これをテキスト解析して、括弧の前後に出ているものは、オフィシャルの（誰かが正解を指定している）可能性が高い訳です。僕にすぐやれといっても出来ませんが、GOOGLEは、これらの前後関係から、よみがなデータベースを作るくらいのプログラムはあると思いますよ。多分このような原理で、google translateの精度も向上させていると思います。

2009/12/4 18:16

VXさんのコメント:

＞ジャストシステムの財務状況をどの程度ご覧になっているかわかりませんが、客観的には、控えめに言っても健全な状況とは言いにくい状態がかなり長く続いて、縮小傾向かと。

それは勿論分かった上で書きますが、そもそもジャストシステムはATOKだけを売る会社ではありません。
ATOKの売上は全体の半分未満ですし、ジャストシステムの業績が悪くなるとしたら、それはGoogleIME以外の競合製品の影響が大きいでしょう。

＞影響がありません、と言い切れる根拠は私にはよくわかりません。

ATOKは毎年バージョンアップを出すことによる既存ユーザーからの収入が大きいソフトですから、機能面で大きく劣るGoogleIMEのせいで急激に売上が下がる事はATOKの品質が維持される限りまず考えられません。

無料のLinuxが一般家庭でも認知されるようになった今でもWindowsやMacのシェアをほとんど奪えていないように、
独占に胡座を掻かず日々改良を続けている製品なら、ぽっと出のフリーソフトごときにあっさり駆逐されてしまうなんてことはまず無いと思います。
実際Googleのサービスに押されて滅亡状態に陥ったカテゴリーが全く思い浮かびません。

ユーザーの視点からはGoogleIMEの登場で、OfficeIME2010やATOK2010の更なる性能向上を期待するのが正しい姿だと思いますが、
見知った企業に肩入れをしすぎて少々冷静さを失ってはいないでしょうか？

2009/12/4 18:20

たけくんさんのコメント:

そもそも、これってイノベーションって呼べる代物なのかなぁ？って思う。

今は勢いがあって無償で色々なものを提供しているようだけど、最終的にはＭ＄みたいに競合を潰した後に高額な有償化ってパターンになるんじゃないかと思うんだけど、そこのところ、どーなんですかね？

学者アタマのgoogle万歳の皆さんは、そこのところ、どんな風にgoogleを信じちゃってるんでしょうか？

2009/12/4 18:25

VXさんのコメント:

＞たけくんさん

Googleは広告収入で成り立っている会社ですから、
ユーザーの情報を得て広告機能の向上に繋げられるGoogleサジェストやGoogleIMEは絶好のデータ収集方法です。
わざわざ有償化してこれまでの信用と大量かつ貴重なデータサンプルを失うデメリットを考えたらまず有り得ませんね。
逆に言うとGoogleIMEのようなソフトは広告そのものが貼ってある検索エンジンやGmailと比べてサポートもそこそこの段階で止まるでしょう。
無償ソフトですから誤用や差別語の言葉狩りなんて裁判でも起こされない限りやらないでしょうね。
従来のソフトメーカーと違って利用シェア1位を取る必要がありませんから、語彙数以外の性能向上は他と比べて等閑になるでしょう。
そこから有償ソフトウェアとの棲み分けも生まれると考えています。

2009/12/4 18:36

ほげさんのコメント:

>> 雑多な文章が大量にあれば、「漢字と読み」や「英語と日本語」の組み合わせを抽出したりできます。
>興味深いですね。どうやって機械的にそれが実現できるのか、ぜひご教示願えますか？

そこは信じてください。本当に知りたかったらそれこそぐぐるか書籍等で勉強してください。(ちなみに既にGoogle翻訳とかで実装されてます。)

いずれにしてもGoogleサジェストだけを使っているとは考えにくいのではないでしょうか？

2009/12/4 18:41

たけくんさんのコメント:

今のところ googleがリリースしているソフトは全体的に完成度が中途半端な気がする。

コアな部分にオープンソースを利用したりしながら開発を続けているようだけど、ちゃんと動く製品を根気強く提供できるかどうか、本当の評価はそれからだね。

2009/12/4 19:26

樋口　理さんのコメント:

tapi さん：
括弧で囲まれたものを読みとして登録する処理ということですか？それはちょっと無理がありますね。括弧で囲まれていても読みじゃないものもたくさん混じっている（というか、そっちのほうが多い）わけで、どれが読みだか機械にはわかりませんよ。

ほげさん：
> そこは信じてください。
何を信じるの？（苦笑）
> 本当に知りたかったらそれこそぐぐるか書籍等で勉強してください。
本当に知りたいです。日本語処理、専門家ではないけれど、そこそこ勉強しているんだけどなあ。なにかヒント教えていただけませんかね。

> (ちなみに既にGoogle翻訳とかで実装されてます。)
Google 翻訳で、文字を入力したらリアルタイムにインクリメンタルに訳が出て来るって話？関係ないじゃん。ひらがなの読みと漢字を、対応づけのデータなしにどうやって変換するのかって話ですよ？

VXさん：
なるほど。なんというか、見解の相違ですね。
某社の利益構造などの話は、あまり表で続けるのははばかられるので、もしよろしければ（＆お続けになりたければ）ダイレクトメッセージやメールなどでお願いいたしたく。

2009/12/4 22:12

hamさんのコメント:

辞書サイトの表記にはパターンがあります。「たんご【単語】」のように見出し語として仮名があり、その後に【】で漢字表記が来るのが一般的です。他の表記方法であれ、１つのサイト内に同一パターンのページが幾つもあり、「辞書」「読み」「意味」などの言葉が共通して見受けられれば、そのサイトは辞書サイトであり、仮名と漢字との間に対応がある、ということを判別するのは容易でしょう。

新語や人名なども、例えばニュース配信の中で漢字表記のあとに（）内の仮名で読みがあります。もちろん括弧内が読みでない可能性もありますが、漢字と仮名の対応でなければ例外として省き、その後多数のサイトで同じパターンがあればそれは読みであり、一部にしかない記述であればそれは読みではないと、統計的・自動的に判断することは可能でしょう。

もっと単純に、rubyタグで振り仮名が振ってあれば、間違いなく読みだと判断できます。

念のために言っておきますが、私は別に変換途中の読みと変換確定後の表記との組み合わせをぶっこ抜いている可能性を否定しているわけではありません。それ以外の方法でも、webのデータから読みと漢字表記の対応を自動生成するのは樋口さんが思っているより容易だろうということを指摘しているだけですので。

なお、前回の書き込みで辞書の編集著作権について触れたのは、特定の辞書サイト限定で、その表記形式を人間が指定した上で分析しているとしたら、そのサイトの辞書をぶっこ抜いていることになるからです。でもそんなことをしなくても汎用プログラムでweb全体から抽出できそうですが。

2009/12/5 00:09

aaaさんのコメント:

MeCab使えばわかるだろ？

2009/12/5 01:46

樋口　理さんのコメント:

ham さん：
いや。おっしゃっていることは、わかります。私も、Webから抽出して統計処理したデータを使っている可能性がないと言っているわけではないですから。
おっしゃるようなパターンマッチ＋統計分析だと、すでにIPADICなどに載っているぐらいの「普通」の単語には有効でも、難読漢字や当て字のような、本当に欲しいはずのデータ抽出には使えなさそうですし、均質な辞書を作るためにはあまり効率的な手段には思えないので、それなら均質に様々な入力と出力が統計数値付きで取れるサンプリング方法のほうをえらんでるだろ、という邪推なわけです。
あと、力任せのスクレーピングは、エレガントじゃなくて彼らっぽくないから、「その手があったか」と思うような方法で問題を解決して欲しいなあという希望的観測（笑）。

aaa さん：
MeCab を動かすのに、読みと漢字表現のペアの辞書が必要ってこと、ご存じ？

2009/12/5 08:48

hirokidaichiさんのコメント:

はじめまして。

ご自身も
＞答はまだありません。
とおっしゃられているように、これがなんらかの法に抵触することではないだろうということから、
感傷的な論点がたぶんに含まれていることだと思いますが、
コメント内での論点がずれてきているように感じるのでコメントさせてください。

確かに
nikukyu
という入力に対して
肉球
という検索submitを得る間にサジェスト機能はMS-IMEなどの変換データを含め送信していることは間違いなく、
おそらくそれを利用して、google日本語入力が創られたことは疑いようがないと思いますが、
今まさに「肉球」と入力しようとしたときに
肉急
肉旧
肉球
と三回ほど変換手続きをおこないました。これらすべてのデータを含めて、最終的な確定結果をsubmitとしてgoogleは
受け取ったわけです。

nikukyu -> 肉球

という辞書そのものを取り込んだのであれば、ぶっこぬきという表現は納得ができるのですが、
nikukyu -> 肉旧　-> 肉急　-> 肉球　(ここでユーザが確定)
という情報は、果たしてMS-IMEなどをはじめとする変換ソフトウェア会社が権利を主張しうるような情報なのか？
という点にすこし疑問をかんじました。

つまり、既存辞書機能のデータではなく、既存辞書機能を利用したユーザがGoogleサイト上でおこなった行動履歴情報を
再利用したのであって、既存辞書データを盗用したのではないように感じるのです。（二次利用的側面が無いわけではありませんが、すこし暴論に感じます。）

Google日本語入力は、複合語や新語に強いのは、これに加え、
さらに検索結果からのコンバージョン情報なども利用しているからかもしれませんし、（もしかして機能で利用しているような）飽くまでユーザの検索行動の統計情報としてとらえるほうが自然な印象を受けます。

これについてはいかがおかんがえでしょうか。

2009/12/5 14:05

たなかさんのコメント:

難読漢字はふりがなで検索する人も多いでしょう。
ふりがなと漢字で同一サイトにジャンプする確率が高い場合に、それをペアとして抽出するのはさほど難しくないのでは？

2009/12/5 14:17

通りすがりさんのコメント:

個人的には、権利とかそういう話よりも、今まで、MS IMEやATOKで培われてきたデータをベースに動くGoogle IMEがそのベースであったはずのMS IMEやATOKを滅亡させ、世の中、Google IMEだけになったときにどうなるのかというのが一番興味があります。
そうなったら、果たして、精度が良くなるのか、悪くなるのか、それとも何にも変わらないのか・・・。

2009/12/5 17:55

甘い死さんのコメント:

Google日本語入力、試していますが面白いですね。
さてこの辞書が他社のIME辞書のぶっこ抜きだとして、Googleの辞書からぶっこ抜いたところだけを取り除けるのかな？
なんとなく胸肉1ポンドを切り取っても良いが血は一滴も流してはならぬ…みたいな話になる気がします。
言葉を扱う辞書には著作権があっても、言葉を選んで使う人々の行為まで著作者は抑え込めないように。
もしそれで将来MS-IMEやATOKが廃れ消え去っても、言葉を使う人がいる限りGoogle日本語入力は残るんじゃないかな。
言葉を使う人の証として。言葉は使おうとするところにその存在があるってどこかの先生も言ってた気がする。

2009/12/5 19:57

disneyさんのコメント:

「日本語の読み仮名と変換された漢字の組み合わせ」って、オリジナルは社会的に流通してるものだよな。それをATOK/MS-IMEに載せただけ。

つまりATOK/MS-IMEの「日本語の読み仮名と変換された漢字の組み合わせ」自体が、二次創作物。
社会で流通する日本語から言葉をぶっこぬいたものにすぎないと思うんだが。

だからGoogle日本語入力は問題なしだと思うぜ。

かな漢字変換作っている会社がつぶれようが、その社員が路頭に迷おうが、それはしょうがないこと。GoogleIME登場しなくても、松茸、WX、VJEは消えていった。

2009/12/5 21:27

樋口　理さんのコメント:

hirokidaichi さん：

コメント、ありがとうございます。

> nikukyu -> 肉旧　-> 肉急　-> 肉球　(ここでユーザが確定)
> という情報は、果たしてMS-IMEなどをはじめとする変換ソフトウェア会社が権利を主張しうるような情報なのか？
> という点にすこし疑問をかんじました。

まさに。ユーザーがどれを選んだかという情報については辞書の著作権は及ばないと思います。ただ、辞書の中に「にくきゅう」と「肉球」が関連づけられている”かもしれない”という情報がsubmitされただけです。
なので（お気づきかもしれませんが）記事の中でも「著作権を侵害している」という主張はしないように気をつけたつもりです。
まだ、答えはないのですけれども、私が気にしているのは、著作権がどうしたということよりも、独占的な力を持つ企業の振る舞いといったCSR的なポイントの方がメインです。
（「ぶっこ抜き」という著作権侵害を連想させるような表現を使ったのは、「釣り」がきつかったかなと、ちょっと反省しております）

-- （コメント文字数制限にひっかかるので、次のコメントへ続く）

2009/12/5 22:15

樋口　理さんのコメント:

（上からの続き）

> Google日本語入力は、複合語や新語に強いのは、これに加え、
> さらに検索結果からのコンバージョン情報なども利用しているからかもしれませんし、（もしかして機能で利用しているような）飽くまでユーザの検索行動の統計情報としてとらえるほうが自然な印象を受けます。
>
> これについてはいかがおかんがえでしょうか。

おっしゃるとおりだと思います。
私のしろうと目から見ても、今回のIMEが独特だなと思うのは、（これも推定に過ぎませんが）おそらく、形態素の間の文法的な結びつきを使わずに、Webテキストのコーパスから算出したN-gramの出現確率から、実用に足りるかな漢字変換を実装しているらしいという点です。
いままで３０年以上のかな漢字変換の歴史の中で誰もやっていなかったような画期的なアプローチ（これに先鞭をつけたのはChaIMEとかでしょうか？あまりよく勉強していないので、どなたか歴史を教えていただけるとうれしいです）だと思いますが、こういうことが可能になったのはGoogleが日本語テキストのN-gramの膨大なデータを持っているからだと思います。ちなみに、このN-gramのデータは数年前にパブリックに公開されていますね。すばらしい。

ただ、N-gramのデータだけではかな漢字変換はできなくて、これに加えていろんな単語の「かな−漢字」のマッピングデータが必要なはず。入力されたかなを、可能性がある漢字表記にマッピングしてみて、それぞれの出現確率をN-gramにあてて、出現確率が高そうな続きを候補として出す（マルコフ連鎖って言うんですか？）というプロセスだと思うのですが、その入り口の「入力したかなを漢字にマッピングしてみる」という作業は必須。新語に強くあるためには新語の「かな−漢字」のマッピングデータが必要。どんどん生まれてくる新語が、どういう読みで、どういう漢字表記かを機械的に出現確率（いや、要求確率か）データ付きで半独占的に収集できる立場にあるGoogle（あるいは、日本市場ではYahoo!も）の中の人が、これを使ってなにかやってみよう、と考えるのは至極当然だと思いますし、素晴らしいチャレンジだと思います。

Webのコーパスは、誰でも（その気と必要な機械リソースがあれば）集められるものだし、太っ腹なGoogleがN-gramデータにして公開してくれています。一方、新語や難読語の読みのデータは各社が手塩にかけて（コストをかけて）収集しているわけですが、それを間接的とはいえWebを通じて独占的に集められるポジションにいる人が、それの元データ集めに汗をかいている人たちの商売をダイレクトに邪魔するようなことをするのはどうなんだろう、というのが「違和感」の根っこかもしれません。

N-gramデータの公開と同じように、「よみ−漢字」データをパブリックに公開して、かな漢字変換を開発している人を含む研究者のみなさんが自由に使えるようにしたのだったら、ずいぶん違う印象だっただろうし、世間の技術の進歩への貢献も大きかっただろうな、と思います。万人が喜ぶ、というものではありませんけど、少なくとも誰かを邪魔する方向じゃないですよね。

というので、お答えになっているでしょうか？

2009/12/5 22:16

樋口　理さんのコメント:

たなかさん：

> 難読漢字はふりがなで検索する人も多いでしょう。

いや、難読漢字は読めないからふりがなでは検索できませんよ（笑）。

挙げ足取りでごめんなさい。ここからまじめに。

> ふりがなと漢字で同一サイトにジャンプする確率が高い場合に、それをペアとして抽出するのはさほど難しくないのでは？

これ、ふりがなと漢字を知っている側から見るとそう見えるかもしれないけど、漢字とふりがなの組み合わせが分かっていないときに正解を導き出すのはむずかしいと思いますよ。

たとえば、私の下の名前は「理」で「おさむ」と読みますが、それを知らない状態で、Webの上で「おさむ」という読みがなと近い場所に書かれている可能性が高い（共起関係が強い）漢字を探すと「治」とか「修」とか「治虫」とかは出てくるだろうけど「理」は今のところなかなか浮上してこないんじゃないでしょうか（ごりごり多変量解析すると何か出てくるかもしれませんが…）。
あるいは、同じ「理」という名前で「さとる」とか「さとし」とか「ただし」と読む方もいらっしゃいますが、「理」との共起は弱そうな気がしますMac OS に読ませると「ことわり」だそうですし、普通は「り」だったり、熟語の一部にまぎれてしまうと予想します。

いや、ひょっとして、まともに計算すると何か出てくるかもしれない、という可能性はもちろん否定しませんし、それができればすごいと思いますけれど。

2009/12/5 22:29

樋口　理さんのコメント:

通りすがりさん：
> 今まで、MS IMEやATOKで培われてきたデータをベースに動くGoogle IMEがそのベースであったはずのMS IMEやATOKを滅亡させ、世の中、Google IMEだけになったときにどうなるのかというのが一番興味があります。

甘い死さん：
> もしそれで将来MS-IMEやATOKが廃れ消え去っても、言葉を使う人がいる限りGoogle日本語入力は残るんじゃないかな。

それは、興味深いポイントだと思います。
直感的にはエントロピー増大で、誤読や当て字が増殖する方向かなあ。「日本語が進化するスピードが速まる」という人も言うかもしれませんが。

もしそうなっちゃったときには、独占的立場の人には、社会的責任として、正書法の日本語データをどこからかきちんと買ってきていただいて、「正しくは、こう書く」をサジェストでもTipsでもいいから提示する機能をきっちり実装してほしいですね。

2009/12/5 22:34

ATOKさんのコメント:

いまさらではあるけれど、
IEをWMP標準にしたときは、
他のブラウザ会社　プレイヤー会社がつぶれました
こんどはATOKがつぶれるばんですね
っていいたいわけですね
わかります。。どうしよう俺！！！

2009/12/7 12:46

通りすがりさんのコメント:

はじめまして
私もこのGoogle日本語入力にはいささか疑問を感じました。

この問題を考えたときに膨大な辞書の元はどこから来たのだろうと考えました。
それでふと思ったのがある漫画の中の話です。

起動警察パトレイバーという作品なのですが、その中でグリフォンというレイバー
が登場します。このレイバーを使い物にするために開発チームが行ったのは、
イングラムという警察用のレイバーに使い捨て用に確保したブロッケンという
軍事用レイバーをぶつけて学習データを得ようとします。
なぜこういうことをするかといえば作品中にも説明がありましたが出来たばかりの
レイバーには基本的な行動パターンしかないため実践では使えないからです。

ここで下記のように書き換えてみます
グリフォン -> Google日本語入力＊
ブロッケン -> Google検索エンジン（やクローラー？）
イングラム -> ATOKやMS-IME

グーグルが先に紹介した漫画の中で行われたような意図があったとは思いませんが
結果的に既存IMEは利用された形になります。
ロジック部分は確かにグーグルのオリジナルでしょうけど蓄積しているデータは
既存IMEがあってこそですし、このデータがあったからこそロジック部分の
最適化も楽に出来たはずです。

こういう状況の物をさらに無料で公開するというのはまさに
「大きく育った無邪気な象の暴力」に他なりません。
IT業界を共産圏にするつもりなのでしょうか？
IT業界とは関係ないところから資金を得ながら・・・

無邪気な技術者や科学者が行った先に出来た物が原爆です。
最近のグーグルは無邪気すぎて怖い気がします。
＊補足
グリフォン用のOSとしてASURAというのがありますがこの辺がGoogle日本語入力
のロジック部分などに当たると考えます。

2009/12/8 04:47

たつをさんのコメント:

『「かな−漢字」のマッピングデータ』についてですが、「漢字→かな」のマッピングは形態素解析器の辞書で行うことができます。Google内部で持っているn-gramデータでは、かなも振られているのかもしれません（曖昧性を保持したまま）。
ちなみにmecabのipadic（形態素解析辞書）には「理」でサトシという読みのエントリがありますよ。

2009/12/8 17:36

樋口　理さんのコメント:

たつをさん：

コメントありがとうございます。
そうですね。ipadicなどは使っているとクレジットされていますので、基本的な単語はアリモノの辞書をタネにしているんだろうな、と思います。
問題は、それ以外の新出単語や出現頻度が低い単語の読みをどうやって拾っているのか、というポイントかと。

> Google内部で持っているn-gramデータでは、かなも振られているのかもしれません（曖昧性を保持したまま）。
そうかもしれません。その「かな」をどこから拾っているのか、が今回のなぞですね。

2009/12/8 17:40

たつをさんのコメント:

もうしわけございません。オサムの話でしたね。mecabの辞書にはありませんでした。

ただ、先にどなたかが書いていましたが、
括弧などの簡単なテキストマイニングで収集できそうです。下記のページなどから：
http://www.higuchi.com/doku...

実際に「樋口理ひぐちおさむ」でググルと共起頻度も十分そうなので、確信度高めで抽出できそうです。

2009/12/8 17:44

たつをさんのコメント:

括弧表現で読みを取る方法は昔から研究されています。この分野はまじめにサーベイしてないので、適当にウェブ検索しただけですが、こんなのがあります。ご興味がありましたら、さかのぼってみて下さい。
http://www.ieice.org/ken/pa...
http://ci.nii.ac.jp/naid/11...

2009/12/8 17:55

樋口　理さんのコメント:

おお。なるほど。ありがとうございます。ちょっと勉強してみます。

2009/12/8 18:38

樋口　理さんのコメント:

たつをさん：

教えていただいた研究、ちょっと読んでみました。
後者は漢字の読みには関係なさそうなので、まだ読んでいません。前者は論文そのものはWeb未公開のようなので、発表資料から。
http://spalab.naist.jp/~kaw...

漢字の次に括弧書きで入っているかなは読みである可能性が高いとして、その中から、出現頻度と漢字辞書による「似たような読み」のマッチングで尤度計算をして、いちばんもっともらしいものを返すというものでした。

この手法は（本来のこの研究のテーマである）未知語彙を音声合成などで文字通り「読む」のにはある程度有効だとは思います。
特に、流行語のように、出現頻度がある程度以上突出していて、読み候補が一つしかないものはかなり拾えそうです。
一方、かな漢字変換の読み辞書に使う場合は、同じ漢字でいろんな読みがあるときに、たくさん出てくる「候補」の中から尤度だけで抽出すると、出現頻度が少ない読みが、読み仮名以外の括弧書き情報の中に埋没してしまうはずなので、その中から辞書に使える「よみ」を抽出する必要があります。
もうちょっと一般化すると、未知の漢字表現に対して、括弧書きで関連付いた読みの候補が複数出ているときに、本当の読みデータとそうでないものを確実により分ける尤度計算の手法が見つかっているのだろうか、ということです。
上の論文で、いちばん尤度が高いものだけを抽出する（読みを複数出さない）場合でも、未知語のうち半分ぐらいしか読みを付与できていないようですから、複数の読みを誤読をせずに抽出できる率はもっと下がるはずですよね。かな漢字の辞書を作る手法としては有効だとは思えません。

いくつか前のコメントで「まともに計算すると何か出てくるかもしれない、という可能性はもちろん否定しませんし、それができればすごいと思いますけれど」と書きましたけど、まさにこの問題のことを指していてい、この「何かすごい計算手法」があるんだろうか、というのが目下の疑問です。

2009/12/9 09:04

たつをさんのコメント:

月曜にあったウェブ学会シンポジウムでの発表でも話に出ていましたが、Googleの自然言語処理まわりはシンプルな手法をとてつもなく巨大なデータに対して適用するというアプローチなので（それだけではないですが）、「何かすごい計算手法」というよりも「量が手法に勝る」ということなのかもしれませんね。
あと、１対１の正確なかな漢字辞書は難しいかもしれないですが、誤読はあろうとも確率値を付与したかな漢字辞書は作れますので、文脈情報とあわせて有効な使い方はできるかもしれません。

2009/12/10 12:10

tokuさんのコメント:

検索窓入力時に、どこまでの情報が送信されているかにもよりますが、
IMEにより変換されたときに、例えば変換候補が10個あったとして、
その何番目をユーザが確定させたかにより、そのユーザの辞書における
”かな(よみ)”に対する”漢字”の候補優先順位が分かります。
これらのデータが収集されて変換辞書が生成されているとするならば、
樋口さんの懸念も理解出来ます。

2009/12/11 12:14

樋口　理さんのコメント:

toku さん：

コメントありがとうございます。

> IMEにより変換されたときに、例えば変換候補が10個あったとして、
> その何番目をユーザが確定させたかにより、そのユーザの辞書における
> ”かな(よみ)”に対する”漢字”の候補優先順位が分かります。

とのことですが、それはちょっと違いませんかね。
既存のモダンなかな漢字変換エンジンは、固定的な候補優先順位（ユーザーの利用履歴の中での出現頻度）だけで候補を出しているわけではなく、多分に文法的な解釈をして、前の文脈に合わせて候補を入れ替えているので。

今回のGoogle日本語入力では、そういった文法的な解釈を使わずに、確率的手法で候補を算出しているのとこと。以前のコメントに書いたとおり、

> 可能性がある漢字表記にマッピングしてみて、それぞれの出現確率をN-gramにあてて、
> 出現確率が高そうな続きを候補として出す

という手法だと推定しています。この場合、どの読みが、どの漢字とペアになっているかという情報だけあればOKなので、それらペアの順位の情報は必要ないと思われます。

2009/12/11 15:41

tokuさんのコメント:

説明不足ですいません。

>> 可能性がある漢字表記にマッピングしてみて、それぞれの出現確率をN-gramにあてて、
>> 出現確率が高そうな続きを候補として出す

>という手法だと推定しています。

はい。私の勝手な推測としては、確率計算の中で、変換・確定時の統計情報から得た重み係数も何かしら利用されているのではないかということです。
なんの根拠もないんですけど。

2009/12/11 18:06

uzzyさんのコメント:

興味深く読ませていただきました。
法的な問題はさておき、「本当にそうだったとしたらアンフェアである」と思わない人の多さに驚きました。

2009/12/30 18:01

便利に使っていますけどさんのコメント:

今まで気にせず使っていたけど悩んでしまった・・・
自分なりに整理するとこの問題の根源は辞書の元ネタであるGoogleサジェストのデータ（他にも？）がGoogleしか取得し得ないものである事がアンフェアなのだと。
逆に他の部分は文章解析のアルゴリズムが酷似してるわけでも辞書データをまるごとパクってるわけでもないんですよね。これが問題を難しくしてるんだろうな。
Google日本語入力のまとめサイトではオープンソース化を期待しているような記述がありましたがそんな事より元となるデータを広く一般に開示する必要があると思いました。

2010/1/30 01:59

通りすがりさんのコメント:

これは著作権がどうとか、そういう話というより、「マナー」として、「作法」としてどうなのか？
美しくない振る舞いではないのか？
という話なんですよね？

2010/8/22 00:30