The means justifies the ends
Google の機械翻訳サービス「Google 翻訳」が飛躍的に進化して、一部のみなさんがざわついています。
機械が翻訳して出てきた文章が、今までとは段違いに流暢で自然に読めて、かなり正しい訳を出すようになっているのです。
まず、英語から日本語へ翻訳した例。
米 Wired の Trump's Presidency Could Upend the Way Silicon Valley Works という記事から。
原文は、これ。
So much work in Silicon Valley relies upon immigrants. According to the National Foundation for American Policy, more than half of US “unicorns”—startups that are valued at $1 billion or more—have at least one immigrant founder. The top job at some of tech’s most established companies have immigrants helming the ship, including Microsoft CEO Satya Nadella and Google CEO Sundar Pichai. And foreigners have filled the middle ranks of many tech companies as well, especially in technical jobs.
旧 「Google 翻訳」にかけると、こうなる。
そこでシリコンバレーの多くの仕事が。移民に依存しているによると、アメリカの政策のための国家基金、より多くの米国の半分より「ユニコーン」-startups $ 77億評価されていること、または少なくとも一つの移民の創設者より、持っています。ハイテクの最も確立された企業の一部でトップの仕事は、MicrosoftのCEOサトヤ・ナデラとGoogleのCEOサンダーピチャイ含む船を、ヘルミング移民を持っています。そして、外国人は、特に技術的な仕事に、同様に多くのハイテク企業の中間のランクを埋めてきました。
おなじみの、何言ってんだかよくわからない、単語の羅列。77億なんていう数字、どこから出てきたんだ?
ところが、今度の 「Google 翻訳」にかけると
シリコンバレーでの多くの仕事は移民に依存しています。 米国政策基金によると、10億ドル以上の米国の「ユニコーン」のスタートアップの半分以上が少なくとも1人の移民創設者を抱えています。 ハイテクの最も確立された企業のトップには、マイクロソフトのCEO Satya NadellaとGoogleのCEO Sundar Pichaiを含む移民が仲間入りしています。 そして外国人は多くのハイテク企業の中級者、特に技術職に満ちている。
ちょっとたどたどしいけど、すんなり読めて、意味もだいたい正確に理解できますよね。
今度は日本語から英語に。
日本語として文法的にちょっと不完全な文が出てくる口語っぽい文章の例として、このブログの「広帯域ノイズソースを作る」という記事から。
原文はこれ。
高周波回路の実験をするときに、あるとなにかと便利なのが広帯域のノイズソース。低い周波数から高い周波数まで、まんべんなくフラットなレベルのランダムなノイズを連続的に発生してくれるのが理想です。
まず、旧 「Google 翻訳」。
When the experiment of a high-frequency circuit, there and something useful broadband noise source of that. Until the frequency from low to high frequency, it is ideal for us to generate the random noise of the uniformly flat level continuously.
Until the frequency from low to high frequency って何だよ!
で、新しいエンジン。
When experimenting with a high frequency circuit, it is convenient to have a broadband noise source if there is. Ideally it will continuously generate random noises of even level, from low frequency to high frequency.
どうにかそのまま通じる英語になってます。
Google Research Blog によると、今までの 「Google 翻訳」に使っていたフレーズベースの翻訳エンジンのかわりに、新しく開発したリカレントニューラルネットワークによる翻訳エンジンを使っているらしい。機械学習です。
A Neural Network for Machine Translation, at Production Scale
https://research.googleblog.com/2016/09/a-neural-network-for-machine.html
いろんな文章を流し込んでためして見たけれど、これまでのものに比べて粘り強くなっているような感覚を持ちました。
今までの機械翻訳は、原文の途中に、例えば口語っぽいとか、機械からすると不完全な句が混ざったりしていると、そこで訳がグダグダになって、そのあと支離滅裂になってしまうことがよくあったのが、新しいエンジンではそこで破綻せずに文章としてどうにか意味が通る訳を最後まで出し切るようなイメージ。
今のところ、新しいエンジンを使っているのは日本語と英語の間の翻訳だけのようですが、上のブログの記事によると中国語、フランス語、スペイン語など他の主要言語もエンジンは準備ができているようなので、近いうちに使えるようになると思われます。
翻訳のレベルもまだまだたどたどしいところがあって、翻訳業の人が今すぐ仕事を奪われてしまう心配をする必要は全然ありません(ご安心ください)けど、これからデータをどんどん食って学習していってどこまで人間に近づいてくるか(ご用心ください)ちょっと楽しみです。
英語をある程度読み書きできる人からすると今のところ実用に使う範囲は狭そうに見えるかもしれません。
そこで、逆の立場で考えてみました。
このブログでも、狭くて深い話題の記事などに横文字のキーワードを頼りにたどりついた日本語の読めない方がときどき迷い込んで来ているらしく、「Google 翻訳」で英語にしてみた文章がよく分からないからと、直接お問い合わせをいただくことがあります。
ところが、新しい 「Google 翻訳」が出してくるぐらいの翻訳文なら、パスポートも持ってないような普通のアメリカの人にでも、意味が分からないところが多少あるにせよ、大まかな内容は正しく伝わると思うのです。
これが多言語対応されて、さらに Google の検索インデックスと組み合わされたりすると、これまで日本語なんかに触れたこともない何億の人が、たまたま検索でこのブログにたどり着いて翻訳版を読む可能性を持つということです。
逆に、私自身も、これまで日本語とせいぜい英語のページしか検索も読みもできなかったのに、一気に主要7カ国語ぐらいのページにはアクセスできるようになるということを意味します。
世界中の普通の人たちが、知らない言葉で書かれたテキストをそこそこに読めるようになるスイッチが入ったんだと考えるたら、すごいことだと思いません?