ServiceNowの研究チームが公開した新たな評価指標により、日常的に複数の言語が混在する「コードスイッチング」環境における音声AIの性能差が浮き彫りになった。多言語対応が求められるグローバルな顧客対応現場において、従来の汎用モデルが抱える課題と、次世代モデルに求められる選定基準が明らかになっている。

なぜ「言語の混在」が音声AIの性能を左右するのか?

従来の音声認識(ASR)モデルは単一言語の処理に最適化されており、バイリンガル話者が自然に言語を切り替える環境では誤認識や意図しない翻訳が発生しやすい。ServiceNowの技術ブログによれば、この課題はグローバル企業が顧客サポートで音声AIを導入する際の大きな障壁となっている。同社が公開した新たなベンチマークは、こうした複雑な言語環境下でのモデル能力を厳密に評価する道筋を示している。

主要モデルはどこで明暗を分けたのか?

ServiceNowの検証では、スペイン語やフランス語など4つの言語ペアと英語の組み合わせで性能が測定された。文字起こし精度では、ElevenLabsの技術文書で示されたScribe V2やAssemblyAIのUniversal-3 Proが高い評価を得ている。特にScribe V2は、業界標準ベンチマークで最低の単語誤り率を達成したとされる。一方でGoogleのGemini 3 Flashは、意味の保持を測るSWERや業務遂行能力を問うAERにおいて優れた性能を示しており、単なる文字起こしを超えた文脈理解の重要性が浮き彫りとなった。

Whisper Large V3 Turboが直面した「翻訳の罠」とは?

広く普及しているOpenAIのWhisper Large V3 Turboは、コードスイッチング環境下で言語を英語に翻訳しようとする挙動を示し、性能面で苦戦した。これは、汎用的なモデルが特定の複雑な言語環境において、必ずしも最適解ではないことを示唆している。企業が多言語対応を進める上で、モデル特有の「翻訳の癖」を理解し、自社の顧客層が用いる言語環境に合致するかを見極めることは不可欠なプロセスである。

企業は自社の顧客環境に合わせてどうモデルを選ぶべきか?

音声AI導入を検討する際、単一の単語誤り率(WER)のみに注目するのは危険である。顧客が用いる言語の混在パターンに応じ、意味の保持を測るSWERや、後続のタスク遂行能力を問うAERといった指標を重視すべきだ。実務における誤解を防ぎ、運用負荷を軽減するためには、既存システムとの統合性やデータレジデンシーの要件に加え、こうした実用的な評価指標に基づいたモデル選定が求められる。

音声AIは「聞き取り」から「業務遂行」へどう進化するのか?

今回のベンチマークは、AIが音声をテキストに変換する「聞き取り」から、文脈を解釈して「業務を遂行する」段階へと進化する過程で重要な道標となる。今後の焦点は、今回の検証で示された言語ペアごとの性能差が、アジア圏言語や方言混じりの環境でどの程度再現されるかという点だ。また、実務環境におけるリアルタイム処理時の遅延と精度のトレードオフをどう最適化するかが、社会実装の鍵を握ると考えられる。