Siri・Alexa はどうやって私の言葉を聞き取るのか？音声がテキストになるまで

2026年6月4日木曜日

読了 5分

「Hey Siri」と呼びかけると、スマホが目を覚まして天気を教えてくれます。人にとってはひと呼吸のことですが、機械の側から見ると、音の波を文字に変え、文字から意図を読み取り、答えを作ってまた声に戻す、というリレーです。今回の記事では、そのリレーを区間ごとにたどりながら、「常に聞いているのではないか」というよくある不安と、「なぜときどき変な聞き取り方をするのか」というよくある不満に、仕組みの面から答えていきます。

第 1 区間 — ウェイクワードだけを待つ小さな耳 #

音声アシスタントの最初の秘密は、耳が二つあることです。ふだん動いているのは、ウェイクワード専用の小さな耳です。スマホの中だけで動くごく小さな認識器が、「Hey Siri」や「アレクサ」のような決まった音のパターン一つだけを待っています。この段階では会話の内容を理解することも、どこかへ送ることもありません。決まったパターンでなければ、音はその場で捨てられます。

ウェイクワードが検知されて、はじめて大きな耳が開きます。それ以降の話し声を録音して本格的な認識に渡す段階で、ふつうこの時点から画面に表示が出て、処理のかなりの部分がサーバーに移ります。「常に聞いている」という話は、小さな耳については正しく、大きな耳については間違っている、というわけです。ただ、小さな耳がときどき誤作動して、テレビの音に勝手に目を覚ますことは、仕組み上避けにくいです。

第 2 区間 — 音を文字に変える #

大きな耳に入ってくるのは単語ではなく、空気の振動、つまり波形です。これをテキストに変える技術が音声認識（STT、Speech-to-Text）です。人の話し声を細かく刻んで「この区間の音はどの発音に近いか」を確率で推定し、その発音のかけらをつないで、いちばんそれらしい文章を組み立てます。

キーワードは確率です。機械は音を「聞いてわかる」のではなく、候補の文章の中からいちばんそれらしいものを選びます。だから発音の近い言葉の間で迷います。日本語なら「橋」と「箸」と「端」のように、音の近い候補が多いほど、そして周りがうるさくて音の情報そのものがぼやけるほど、見当違いの文章が選ばれる確率が上がります。音声アシスタントがうるさい車の中でやけにポンコツになるのは、耳が悪いからではなく、候補選びが難しくなるからです。

文脈は、この確率の戦いの審判です。「傘を持って行こうかな」のあとの「あめ」は、「飴」より「雨」と読むほうがそれらしいです。最近の認識器が昔より良くなったのは、この文脈の活用が深まったおかげが大きいです。

第 3 区間 — 意図を読み、実行し、声で返す #

テキストになったら終わり、ではありません。「明日、傘いるかな？」という文章に対して機械がやるべきことは、天気の照会です。文章から意図（天気の質問）と材料（明日、現在地）を取り出して、実行できる命令に変える段階が必要です。

昔の音声アシスタントは、この段階が弱点でした。あらかじめ登録された命令パターンから外れると「よくわかりません」が返ってくる、チャットボットの記事で見たルールベースに近い構造だったからです。最近の変化は、まさにここです。次の単語を確率でつなぐ LLMがこの場所に入ってきたことで、決まったパターンの外の言葉でも意図を読み取れる幅が、大きく広がりました。

意図がつかめたら実行（天気 API の照会、アラームの登録、メッセージの送信）が行われ、最後に答えの文章を人の声に合成（TTS、Text-to-Speech）して聞かせます。合成音声がどんどん人らしくなっているのも、同じ時期の進歩です。

スマホで処理するのか、サーバーで処理するのか #

リレーの各区間がどこで動くかは、機器と設定によって違います。以前はウェイクワードの検知だけを機器で行い、残りはすべてサーバーに送っていましたが、スマホのチップが良くなるにつれて、音声認識まで機器の中で処理する範囲が広がっています。機器内の処理が増えるほど、良いことは二つあります。インターネットなしでも一部の機能が動くことと、自分の声がスマホの外に出にくくなることです。

プライバシーの観点での実用的なまとめは、こうです。ふだんの小さな耳は何も送らず、呼びかけたあとの発話はサービスによってはサーバーに行くことがあります。気になるなら、設定で音声データの保存・レビューの許可をオフにできますし、ウェイクワードの誤作動が多い環境（会議室など）では、ウェイクワード機能そのものをオフにする選択肢もあります。

まとめ #

「Hey Siri、明日傘いるかな？」のひと言の裏には、四つの区間があります。ウェイクワードだけを待っていた小さな耳が大きな耳を起こし、音声認識が波形をいちばんそれらしい文章に組み立て、意図の読み取りが文章を命令に変え、実行の結果が合成音声で戻ってきます。見当違いの答えの多くは、第 2 区間の確率の戦いで似た音の候補が勝った結果ですし、「常に聞いている」という不安は、小さな耳と大きな耳を分けて考えれば半分に減ります。今度、音声アシスタントがとんちんかんな答えを返してきたら、怒る代わりに、ちょっとうるさくなかったか周りを見回してみてください。