Conformer-2 là mô hình AI cho nhận dạng giọng nói tự động, được huấn luyện trên 1,1 triệu giờ dữ liệu âm thanh tiếng Anh. Nó mở rộng từ Conformer-1, cải thiện hiệu suất và tốc độ. Conformer-2 duy trì tỷ lệ lỗi từ như Conformer-1 nhưng có cải tiến trong nhiều chỉ số hướng đến người dùng, như cải thiện 31,7% về chữ số, 6,8% về tỷ lệ lỗi danh từ riêng và 12,0% về khả năng chịu nhiễu. Nó được ứng dụng trong xây dựng các ứng dụng AI tạo sinh tận dụng dữ liệu nói. Đồng thời, Conformer-2 nhanh hơn Conformer-1 lên đến 55%. Mặc dù mô hình kết hợp và mở rộng không dẫn đến cải tiến đáng kể về tỷ lệ lỗi từ, nhưng có cải tiến lớn về độ chính xác của chữ số, lỗi danh từ riêng và khả năng chịu nhiễu. Conformer-2 tiến xa hơn và có thể tạo ra mô hình thân thiện với ngành. Với sự ra mắt của nó, có tham số API mới speech_threshold. Conformer-2 có thể truy cập qua API như mô hình mặc định.
Conformer
Conformer-2 là mô hình AI nhận dạng giọng nói tiên tiến, cải thiện độ chính xác và khả năng chịu nhiễu, được huấn luyện trên 1.1 triệu giờ dữ liệu.
Truy cập trang webCác lựa chọn thay thế cho Conformer
Tunk.ai
Tunk.ai: Nền tảng AI chuyển đổi giọng nói thành văn bản chính xác, hỗ trợ đa ngôn ngữ, giúp tăng năng suất và hiệu quả làm việc.
Dictaphone
Dictaphone sử dụng AI để chuyển đổi file âm thanh thành văn bản một cách nhanh chóng và chính xác.
VoiceBase
VoiceBase là công cụ phân tích giọng nói AI giúp doanh nghiệp tối ưu hóa
TORTUS
TORTUS là AI y tế ghi âm và phiên âm, giúp bác sĩ thuận tiện
Ermine.ai
Ermine.ai là công cụ ghi âm và phiên âm audio cục bộ
Google Cloud Speech
Google Cloud Speech-to-Text 是 AI 驱动的语音转文字工具,助力多种应用
openai/whisper
openai/whisper là mô hình nhận dạng giọng nói đa năng giúp người dùng
Wispr Flow
Wispr Flow là công cụ AI giúp người dùng viết nhanh hơn và chính xác hơn bằng giọng nói.
Transcri
Transcri là dịch vụ tạo phiên âm và phụ đề AI giúp người dùng chuyển đổi âm thanh và video thành văn bản và phụ đề.
Aurelian
Aurelian là AI giọng nói tự động hóa các cuộc gọi hành chính và giải quyết nhu cầu người gọi
Rev AI
Rev AI là dịch vụ nhận dạng giọng nói với nhiều tính năng hữu ích
VideoToWords.ai
VideoToWords.ai là công cụ chuyển đổi âm thanh và video thành văn bản bằng AI giúp người dùng tiết kiệm thời gian và công sức.
Letterly
Letterly là ứng dụng di động AI giúp chuyển giọng nói thành văn bản rõ ràng và tiện dụng.
SpeechPulse
SpeechPulse là công cụ hỗ trợ diarization thời gian thực và gõ tiếng bằng giọng nói.
VOMO
VOMO là ứng dụng AI chuyển giọng nói thành văn bản và tương tác với bản ghi.