Google Cloud Text-to-Speechは、高度な音声合成技術を提供します。このサービスはクッキーを使用してサービスの品質向上とトラフィック分析に役立てています。また、同意すれば広告配信やコンテンツ・広告のパーソナライズにも利用されます。
このサービスの特徴としては、高忠実度の音声が生成できることが挙げられます。DeepMindの音声合成の専門知識をベースにしており、人間に近い品質の音声を提供します。また、幅広いボイス選択肢があり、50以上の言語とバリエーションに対応した380以上のボイスから選択できます。さらに、独自のブランドボイスを作成することも可能です。
キーフィーチャーとしては、Journey voices(プレビュー)があり、最新の自発的会話ボイスを使用して魅力的なエージェントを構築できます。Studio voicesはスタジオ品質の環境で録音された専門的なナレーションコンテンツを提供します。Neural2 voicesは最新の研究に基づいて利用できるボイスです。Custom Voiceは独自のオーディオ録音を使用してカスタムボイスモデルを訓練できます。
また、Text and SSMLサポートにより、ポーズ、数字、日付と時間のフォーマット、その他の発音指示を追加できます。さらに、ピッチチューニング、スピーキングレートチューニング、ボリュームゲインコントロールなどの機能も備えています。
このサービスは様々な用途に活用できます。たとえば、コンタクトセンターのボイスボットで顧客サービスの音声体験を向上させることができます。また、デバイスでの音声生成により、自然なコミュニケーションを実現できます。さらに、アクセシブルなEPG(電子番組ガイド)でテキストを音声に変換し、ユーザー体験を向上させることもできます。
価格設定は、毎月サービスに送信されて音声に合成される文字数に基づいています。WaveNetボイスの最初の100万文字は毎月無料で、Standard(非WaveNet)ボイスの最初の400万文字は毎月無料です。