「Conformer-2：110 万時間のデータで訓練された最先端音声認識モデル」

Conformer-2 は最新の AI モデルで、自動音声認識において大きな進歩を遂げています。このモデルは 110 万時間の英語音声データで訓練されており、Conformer-1 を拡張しており、固有名詞、アルファベット数字、ノイズに対する堅牢性の向上を実現しています。Conformer-2 はモデルの性能と速度の両方を改善しています。Conformer-1 は最先端の性能を達成し、ノイズに対する強い堅牢性を示していましたが、Conformer-2 はこれをさらに発展させています。Conformer-2 はアルファベット数字において 31.7％の改善、固有名詞エラー率において 6.8％の改善、ノイズに対する堅牢性において 12.0％の改善を達成しています。これらの改善は、訓練データ量を 110 万時間の英語音声データに増やし、モデルの数を増やして疑似ラベルデータを生成することによって実現されました。また、Conformer-1 のリリース以降、エンジニアリングチームは推論パイプラインの待ち時間を最大 53.7％削減することができました。Conformer-2 は WER では Conformer-1 と同等ですが、ユーザー指向のメトリックでは大きな進歩を遂げています。また、Conformer-2 の訓練にはモデルアンサンブルが使用されており、これによってモデルが訓練中に見られていないデータに対してもより堅牢になっています。さらに、Conformer-2 はデータとモデルパラメータのスケーリングにも取り組んでおり、モデルサイズを 4.5 億パラメータに増やし、訓練データ量を 110 万時間に増やしています。また、Conformer-2 はサービングインフラにも投資しており、Conformer-1 より最大 55％速くなっています。これらの改善により、ユーザーはより迅速に結果を得ることができます。

注目のAIツール