TeaTown’s blog

持続可能な社会に向けた独り言

AI翻訳革命 by 隅田英一郎

日本情報通信機構フェローの隅田氏の「AI翻訳革命」という本を読んでみました。

機械翻訳の研究の歴史は長く、1954年に米国のジョージタウン大学とIBMがロシア語から英語への機械翻訳システムを作ったのが始まりと言われています。冷戦の真っ最中で、敵国の情報を得るという軍事的な目的が背景にありました。ただ、当時のコンピューターと研究レベルでは十分な精度は出せず、のちにALPACレポートと呼ばれる「機械翻訳は難しい」という内容のレポートが出て研究は頓挫します。その後1980年前後にコンピューターの性能向上と人工知能研究の進展もあり、ルールベースの機械翻訳の研究が盛んになります。ルールベースというのは、文法規則に基づいた機械翻訳手法と考えていただくと良いでしょう。日本では第5世代コンピューターという国策プロジェクトもあった頃で、機械翻訳の研究も盛んに行われました。ただ、当時のルールを用いた人工知能研究のレベルでは、結局十分な性能を発揮できず、21世紀を迎える頃から人工知能冬の時代となり、機械翻訳研究も再び下火となります。そういう状況に変化をもたらしたのが、2010年前後から実用化されたDeep Learning(DL)です。DLを用いた自然言語処理の研究の進展により大量の翻訳ペアをデータとして学習する手法が次々と開発・改良され、現在のNeural Machine Translation (NMT)の時代を迎えました。実は、大量の翻訳例を元に翻訳を行うという手法は、元京都大学総長で日本における人工知能研究の大家であり、Mu Projectという国の機械翻訳プロジェクトをリードした長尾真教授が、1981年にNATOの会議で発表した「アナロジーに基づく機械翻訳」というアプローチが元祖と言えるでしょう。この本の筆者の隅田氏は、この長尾教授の提唱した手法をいち早く機械翻訳に取り入れた研究者でした。

さて、歴史の話はこのくらいにして、近年のNeural MTのレベルの向上には目を見張るものがあります。カジュアルな状況(誤訳が大損失に関わることがないような状況)での翻訳としては、相当使えるレベルに来たのは確かでしょう。

このレベルまで来ると、海外情報のロングテール(大勢に興味があるわけではない情報)を機械翻訳でカバーする(ロングテールじゃないところはプロの翻訳が提供されるので)ことで、日本と世界の情報格差の是正につながるのではないかという論点には頷きました。

さらに筆者の将来構想は、英語教育が必要なくなる世界に言及しています。この機械翻訳がカジュアル翻訳のエリアをほぼカバーできて、(ここは私の想像ですが)ヘッドセットなりに自動翻訳が埋め込まれるのが普通の世界となるとすると、例えば海外旅行に行くために語学学習をする必要もなくなりそうです。これ以外にもかなりのカジュアルな翻訳需要を機械翻訳で代替できるとすると、そもそも英語学習にこれだけの労力をかける必要がなくなるのではないかというのが筆者の論点です。これは、日本だけではなく、世界に当てはまるので、小学校くらいから大学そして会社に入っても延々とやっている英語学習へ費やす時間とコストがもし必要無くなったら(完全にゼロではないとしても、例えば、半減したら)、その時間とコストを別の活動にあてることができるわけで、これは日本ひいては世界の将来へのインパクトは結構大きいのではないかと思いました。

10年前に比べると雲泥の差にまで向上した機械翻訳を我々は上手に使っていく必要があると思います。個人や企業ひいては社会全体で機械翻訳技術を有効活用することで、上記のような状況を作り出し、社会をより良い方向に導くための活動に時間とコストを費やすことができたらと思います。