Google 翻訳・DeepL はどうやって翻訳しているのか? 機械翻訳の仕組み

読了 6分

旅行先の食堂で翻訳アプリのカメラをメニューにかざすと、画面の中の外国語がそのまま日本語に変わります。看板も案内文も同じです。ほんの十数年前まで紙の辞書を 1 ページずつめくっていた作業が、いまはカメラを構える動作一つで終わります。ところが翻訳機は、日本語の文法も英語の文法も習ったことがありません。では、何を根拠に翻訳しているのでしょうか。この記事では、機械翻訳がたどってきた三度の大きな転換を追いながら、その仕組みを整理します。

第 1 世代 — 人間がルールを教えていた時代 #

最初に登場した方式は単純で直感的です。言語学者が文法規則と辞書を丸ごとコンピューターに入力するのです。「英語は主語の次に動詞が来て、日本語は動詞が文末に来る」といった変換規則を作り、単語は辞書で一対一に置き換えます。これがルールベース翻訳です。

問題は、言語が規則よりも例外で満ちていることです。同じ「かける」でも、電話をかける・鍵をかける・メガネをかけるでは意味が違いますし、“miss the boat” は船に乗り遅れたという意味ではなく、機会を逃したという慣用句です。例外を処理する規則を追加するほど規則同士が衝突し、人間が手で入力する速度は言語が変わる速度に追いつけませんでした。数十年磨き続けても、品質は「単語は合っているのに文にはなっていない」という水準にとどまりました。

第 2 世代 — 数百万枚の模範解答から確率を学ぶ #

1990 年代に発想が逆転します。人間が規則を教える代わりに、すでに人間が翻訳しておいた文のペアを大量に集め、コンピューター自身に統計を取らせたのです。同じ内容が 2 つの言語で記録されている国際機関の議事録のような資料が、格好の材料でした。数百万ペアを比較していくと、「この単語はあの単語に翻訳される確率が高い」「この表現の後にはあの表現がよく続く」といったパターンがおのずと浮かび上がります。

2016 年ごろまでの Google 翻訳がこの方式でした。使ったことのある方なら覚えているはずのあのぎこちなさ、単語の一つひとつは合っているのに文として読むとおかしい翻訳が、この方式の限界でした。統計ベース翻訳は文を単語や句のかけらに分けて翻訳してからつなぎ合わせるため、かけらの継ぎ目がそのまま表に出ました。「いかにも機械翻訳らしい文章」という、からかい混じりの言葉が生まれた時代です。

第 3 世代 — 文全体の意味を数字に変える #

2016 年前後に翻訳品質が急に良くなったと感じた方は多いはずです。実際にそのころ Google 翻訳がニューラルネットワーク方式に切り替わり、DeepL も最初からニューラル方式で登場しました。核心のアイデアは、単語対単語の対応をあきらめたことです。

ニューラル翻訳はまず文全体を読み、その意味を数字の束に圧縮します。そしてその数字の束を、別の言語の文として解きほぐします。たとえるなら、英語の文を日本語の単語に置き換えていくのではなく、いったん意味を頭の中に収めてから、日本語で最初から言い直す方式です。だから語順が丸ごと変わっても、かけらの継ぎ目のない自然な文が出てきます。

三つの世代を一つの表で比べるとこうなります。

世代学び方弱点
ルールベース人間が文法規則と辞書を入力例外と慣用句に崩れる
統計ベース翻訳ペアから単語・句の確率を学習かけらをつなぐため文がぎこちない
ニューラル文全体の意味を数字に変えて学習翻訳資料の少ない言語に弱い

では ChatGPT の翻訳は何が違うのか #

最近は ChatGPT のような AI に翻訳を任せる方も多いはずです。実は、LLM とニューラル翻訳は無縁ではありません。ニューラル翻訳の研究から生まれた構造が発展して、今日の LLM の土台になったからです。LLM が 次の単語を確率で予測する機械 だという話を以前取り上げましたが、学習したテキストに複数の言語が混ざっているため、「この英語の文の次に来る、いちばんもっともらしい日本語の文」を予測する仕事、つまり翻訳も同じ原理でこなします。

違いは、指示を聞き分けることです。専用の翻訳機は文を入れると訳文を一つ返すだけですが、LLM には「格式のあるビジネスメールの口調で」「小学生にも分かるように」といった条件を付けられます。その代わり専用の翻訳機より遅く、ときどき翻訳の代わりに自分の考えを付け足してしまう副作用もあります。

日本語と英語の間がとりわけ難しい理由 #

同じ翻訳機でも、言語の組み合わせによって品質が違います。日本語と韓国語の間はルールベースの時代から品質が良かった一方、日本語と英語の間はニューラル以降になってようやく実用的になりました。理由は、言語同士の距離です。

日本語と韓国語は語順がほぼ同じで、助詞がある点も、漢字に由来する単語を多く共有する点も似ています。単語を順番に置き換えるだけでも、ある程度は通じます。一方、英語は語順から違います。日本語は動詞が文末に来て主語をよく省略しますが、英語は動詞が前に来て主語を必ず要求します。文を丸ごと解体して組み立て直す必要のある組み合わせなので、意味を数字に収めてから解きほぐすニューラル方式が来るまでは、品質が出にくかったのです。

カメラ翻訳と音声翻訳の正体 #

メニューにカメラをかざす翻訳と、マイクに向かって話す翻訳は、別々の新技術のように見えますが、中をのぞくとどちらも組み合わせ商品です。カメラ翻訳は、写真の中の文字をテキストとして読み取る文字認識、そのテキストの翻訳、訳文を元の位置にかぶせて見せる画面合成という 3 段階です。音声翻訳は、話し言葉をテキストに書き起こす音声認識、翻訳、訳文を声で読み上げる音声合成の組み合わせです。

真ん中にある翻訳エンジンは、ここまで話してきたあの翻訳機と同じものです。だから手書きのメニューや騒がしい街頭で結果がおかしいときは、翻訳が間違えたというより、最初の段階である認識が文字や言葉を読み間違えた可能性が高いのです。

それでも間違える理由 #

これほど発展したのに、翻訳機はなぜいまだに間違えるのでしょうか。第一に、文脈が足りません。翻訳機はおおむね文単位で仕事をするため、前の文での話題が季節の spring だったのかバネの spring だったのかを知りません。一つの単語が多くの意味を持つ英語から訳すときに、特に事故が起きます。第二に、敬語です。英語の文には話し手と聞き手の関係の情報がないので、日本語に移すときにタメ口と敬語のどちらを選ぶべきか、翻訳機には知るすべがありません。第三に、学習資料になかった新語や流行語は、見当違いに直訳されます。

整理するとこうなります。機械翻訳は、人間が規則を入力していた時代から、翻訳ペアの統計を学ぶ時代を経て、文全体の意味を数字に変えてから別の言語に解きほぐす時代まで来ました。カメラ翻訳と音声翻訳は認識技術と翻訳エンジンの組み合わせで、残った弱点の多くは文の外側にある文脈から来ています。ですから、重要な文書なら翻訳結果に文脈を足してもう一度整え、旅行先なら気軽にカメラを構えれば大丈夫です。その一つの動作の裏で、70 年分の研究が動いています。

X