生成AIの恩恵は英語をはじめとする主要言語に偏る傾向があるが、AWSの生成AIイノベーションセンターは、アゼルバイジャンの通信大手Azercellと共同で、形態論的に複雑でデータが限られるアゼルバイジャン語への適応に挑んだ。その核心はカスタムトークナイザーの開発にある。英語向けに最適化された既存のトークナイザーでは、アゼルバイジャン語特有の接尾辞が細分化され、文脈窓を無駄に消費する問題があった。AWSチームはByte-Level BPEを用いて独自のトークナイザーを構築し、1単語あたりのトークン数を半減させることに成功した。これによりモデルが一度に処理できる情報量は実質的に2倍となり、推論の精度と効率が向上している。これは多言語対応を目指す企業に対し、言語特性に合わせたトークン化の重要性を示唆する。
学習プロセスの効率化も重要な要素であった。Amazon SageMaker AI上での実装において、Liger KernelsとFSDP(Fully Sharded Data Parallel)が活用された。Liger KernelsはLinkedIn AIが開発したオープンソースのTritonカーネル群であり、GPUメモリ使用量を削減し、マルチGPUトレーニングのスループットを向上させることが報告されている[出典1, 5]。この技術とFSDPの組み合わせにより、学習スループットを23%向上させ、GPUピークメモリ使用量を58%削減した。2025年3月にはPyTorchのtorch.compileとの統合も進められており、LLMのファインチューニング性能最適化に貢献すると見られる[pytorch.org]。これはソフトウェア層での最適化がコスト対効果に直結することを証明している。
本プロジェクトは、特定の地域市場に特化したAIサービスを開発する企業にとって、強力な武器となるアプローチを提示した。従来のAI開発ではモデルの巨大化や高性能なハードウェアへの依存が強かった。しかし、アゼルバイジャン語LLMの開発事例は、言語構造に深く根ざした前処理の最適化や、Liger Kernelsのようなソフトウェアレベルでの効率化が、高価なGPUリソースの増強と同等かそれ以上に重要であることを実証した。これにより、限られたリソース下でも高性能なAI構築が可能となり、低リソース言語のAI開発におけるコスト対効果の転換点となる可能性を秘めている。
本プロジェクトは10億パラメータ規模のモデルでの実証であり、より大規模なモデルへのスケールアップには未知の課題が残る。大規模化に伴う精度維持や計算コストのバランスは、今後の重要な検証項目となる。また、低リソース言語における「ハルシネーション(もっともらしい嘘)」の抑制や、文化的な文脈の理解度をどう評価・担保するかという点についても、さらなる検証が必要である。AWSが提示したこのフレームワークが、今後他の希少言語へどれほど迅速かつ効果的に展開できるかが、真のグローバルAI普及の試金石となると見られる。