Speech-to-text APIと音声認識 | Voice AIとASR

Voicegainは、開発者向けプラットフォームとして、ASR（自動音声認識）とLLM（大規模言語モデル）を活用したNLU（自然言語理解）APIを提供しています。これにより、会議やコンタクトセンターの通話、ビデオなどの録音と文字起こしが容易になります。さらに、LLMを活用した要約、感情分析などの機能も提供しています。

VoicegainのASRは、深層学習を基盤としており、精度、価格、柔軟性において他に類を見ない組み合わせを提供します。クラウドサービスとして利用するだけでなく、オンプレミスやVPC（仮想プライベートクラウド）に展開することも可能です。これにより、主要なコンタクトセンター、ビデオ会議、ボットプラットフォームとのシームレスな統合が実現します。

精度に関しては、バッチ処理とストリーミング音声認識の両方で、最高水準の精度を提供します。さらに、自社のデータでモデルをトレーニングすることで、90％以上の精度を達成することも可能です。Voicegainは、30,000時間以上の音声データでトレーニングされており、精度に関するSLA（サービスレベルアグリーメント）も提供しています。

価格面では、主要なクラウド音声認識サービスと比較して50％から75％低い価格設定を実現しています。エッジコンピューティングやオンプレミス展開の価格も競合他社と比較して非常に手頃です。

Voicegainは、マルチテナントクラウド上で利用できるだけでなく、自社のデータセンターやVPCに展開することも可能です。既存のオーディオインフラストラクチャを使用し、選択したプロトコルで統合することができます。Kubernetesクラスター上に展開することも可能で、CPaaSやCCaaSプラットフォームとの統合もサポートしています。

VoicegainのASRは、最新の深層学習技術を基盤としており、エンドツーエンドのトランスフォーマーベースの深層ニューラルネットワークを活用しています。これにより、数万時間に及ぶ多様な音声データセットでトレーニングされています。特定のアプリケーション向けのモデル（オフライン、リアルタイム、ボット）や、アクセント、方言、ドメインに特化した音響モデルのトレーニングも可能です。

Voicegainは、英語、スペイン語、ドイツ語、ポルトガル語、ヒンディー語、韓国語など、複数の言語をサポートしています。トレーニングと推論には、NVIDIA A100やT4などの最新のGPUを活用しています。

Voicegainの開発者向けAPIを使用すると、アプリに文字起こし機能を組み込んだり、テレフォニーを介してアクセス可能な音声ボットを構築したりすることができます。Voicegainを自社のインフラストラクチャ（VPC、データセンター）に展開することも、クラウドサービスとして利用することも可能です。

音声認識APIを使用して、バッチ処理やストリーミングの文字起こしをアプリに組み込むことができます。Voicegainは、英語、スペイン語、ドイツ語をサポートしており、フランス語とポルトガル語のサポートも開発中です。テレフォニーボットAPIを使用すると、SIPセッションにVoicegainを招待することで、チャットボットを音声対応にすることができます。自社のCPaaSを使用し、Webhooks/Callbacksを任意のNLU/ボットフレームワーク（Dialogflow、RASA、Azure Bot）と統合することも可能です。

音声分析APIを使用すると、音声を文字起こしし、感情、固有表現認識（NER）、キーワード、意図を分析することができます。バッチ処理とストリーミングの両方のユースケースをサポートしています。MRCP ASRを使用すると、MRCPベースのプラットフォームとVoicegainを統合することができます。音声文法や大語彙文字起こしを使用してアクセスすることができ、自社のデータセンターやVPCに展開することも可能です。

Voicegain Transcribeを使用すると、AIミーティングアシスタントを利用して、自動的に議事録を作成することができます。誰がいつどこで何を言ったかを常に把握することができます。Zoom、Microsoft Teams、Google Meetなどのビデオ会議プラットフォームと統合することができ、エッジ（オンプレミスまたはVPC）オプションも利用可能です。

Web会議のブラウザタブから音声を共有して文字起こしを依頼したり、事前に録音された音声ファイルをアップロードして文字起こしを確認したりすることができます。Zoomのローカル録音用のWindowsデスクトップアプリも提供しており、ユーザーのコンピュータにインストールして、すべてのZoom会議のローカル録音を自動的に提出することができます。

NLUを使用して、会議のトピックやポジティブ、ネガティブなハイライトを抽出し、文字起こしにハイライト表示することができます。

Voicegainは、企業やVoice SaaS企業向けの主要なエッジ音声AIプラットフォームとして、Sensiba LLPによるシステムおよび組織管理（SOC）2タイプ1監査の成功裏の完了を発表しました。

Voicegainは、開発者が素晴らしい音声対応アプリを構築するために、最も正確で手頃な価格の音声認識プラットフォームを提供しています。

Voicegain

Voicegainは、ASR/音声認識とLLMを活用したNLU APIを提供し、会議やコンタクトセンターの通話、ビデオなどの録音と文字起こしを容易にします。

Voicegainの代替ツール

Voci

Tunk.ai

Conformer

Rev

superwhisper

TurboScribe

Speechlogger

Audiotype

XspaceGPT

Dictate Buddy

GoVoice

Vext

Speechnotes

Whisper Memos

Unvoice Bot

TranscribeMe

Audio2Text

Audio writer

SpeechPulse

Trint

WAAS

注目のAIツール

LipSurf

Transcribear

Wavify

AdutorAI

izwe.ai

SpeechFlow

Gladia

VoiceBase