Google Cloud Speech-to-Text は強力な音声認識とテキスト変換ツールです。このツールは Google のクッキーを利用してサービスの品質を高め、トラフィックを分析します。Speech-to-Text は簡単に使える API を通じて、音声を文字に変換し、音声認識機能をアプリに統合できます。
このツールの特徴として、Chirp という Google Cloud の音声基礎モデルを利用しており、数百万時間のオーディオデータと数十億のテキスト文を用いて訓練されています。これにより、従来の音声認識技術とは異なり、ユーザーに高い認識と転写能力を提供し、口語やアクセントの理解を向上させます。
また、125 種類以上の言語と言語バリエーションをサポートしており、世界中のユーザーに対応できます。短い音声、長い音声、ストリーミング音声の転写が可能です。さらに、予訓練モデルやカスタマイズ可能なモデルを選択でき、特定の領域の品質要求を満たすことができます。
Speech-to-Text はモデル適応技術を使用して、常用語の精度を高め、転写に使用できる語彙を拡大し、ノイズの多い音声の転写効果を改善します。
また、Speech-to-Text は音声認識のための3つの主要な方法(同期、非同期、ストリーミング)を提供しており、ユーザーは自分のニーズに応じて選択できます。
価格面では、API バージョン、オーディオチャネル、バッチ処理方法、および追加の Google Cloud サービス料金(例えば、ストレージ料金)に応じて価格が設定されています。