Googleは2026年6月9日、70以上の言語に対応するリアルタイム音声翻訳モデル「Gemini 3.5 Live Translate」を発表した。発話と並行して音声を生成するストリーミング技術により、国際的な対話の質を根本から変える可能性を秘めている。
Googleの公式発表によれば、Gemini 3.5 Live Translateは従来の翻訳システムが抱えていた会話のテンポという課題を解決する。これまでのシステムは、発話者が一区切り終えるのを待ってから処理を行う「ターンバイターン方式」が主流であった。しかし、新モデルは発話内容をストリーミングで処理し、文脈を汲み取りながら即座に翻訳音声を生成する。これにより、発話者の抑揚やリズムを維持しつつ、わずか数秒の遅延で自然な会話を実現している。
Gemini 3.5 Live Translateは、70以上の言語を自動判別し、リアルタイムで音声翻訳を行う。Googleの技術文書では、最新のオーディオモデルを基盤としており、話者のイントネーションやペース、ピッチを保持しながら自然な翻訳音声を生成すると説明されている。さらに、ノイズ耐性が強化されており、静かなオフィス環境だけでなく、雑踏や移動中といった予測不能な環境下での実用性が飛躍的に高まった。これは多様な利用シーンでの安定したパフォーマンスを期待させる要素である。
この技術は、配車サービス「Grab」での実証実験が開始されており、ドライバーと乗客間の多言語コミュニケーションに試験的に導入されている。また、Google Meetへの統合がプライベートプレビューとして始まり、年内には広く展開される予定だ。さらに、モバイルアプリでの「リスニングモード」実装や、開発者向けのGemini Live APIを通じて提供されるため、ビジネスや観光、日常のコミュニケーションにおいて言語の壁を意識しない対話が標準化される可能性が高い。これにより、国際的な協業や移動体験が大きく向上することが期待される。
リアルタイム翻訳の劇的な進歩は、新たな課題も提示している。AIによる生成音声にはSynthIDによる電子透かしが埋め込まれているものの、精巧な翻訳音声が悪用されるリスクは否定できない。また、リアルタイム性が向上するほど、翻訳の文脈解釈の誤りが即座に会話の混乱を招く可能性もある。複雑な文脈や専門用語が飛び交う会議環境で、いかに正確性を担保しつつ流暢さを維持できるか、そして誤りが発生した際にユーザーが修正する手段の提供が普及の鍵となるだろう。