openai/whisper: Nhận dạng Giọng Nói Đa Năng

openai/whisper - Mô hình nhận dạng giọng nói tiên tiến

openai/whisper là một mô hình nhận dạng giọng nói tổng quát được đào tạo trên một tập dữ liệu lớn và đa dạng về âm thanh. Đây cũng là một mô hình đa nhiệm có thể thực hiện nhận dạng giọng nói đa ngôn ngữ, dịch thuật giọng nói và xác định ngôn ngữ.

Mô hình sử dụng một Transformer sequence-to-sequence được đào tạo trên các nhiệm vụ xử lý giọng nói khác nhau, bao gồm nhận dạng giọng nói đa ngôn ngữ, dịch thuật giọng nói, xác định ngôn ngữ nói và phát hiện hoạt động giọng nói. Những nhiệm vụ này được biểu diễn đồng thời dưới dạng một chuỗi các token được dự đoán bởi bộ giải mã, cho phép một mô hình duy nhất thay thế nhiều giai đoạn của một đường ống xử lý giọng nói truyền thống. Đào tạo đa nhiệm sử dụng một tập hợp các token đặc biệt đóng vai trò là chỉ định nhiệm vụ hoặc mục tiêu phân loại.

Để thiết lập và sử dụng mô hình này, người dùng cần sử dụng Python 3.9.9 và PyTorch 1.10.1 để đào tạo và kiểm tra mô hình, nhưng mã nguồn được kỳ vọng là tương thích với Python 3.8 - 3.11 và các phiên bản PyTorch gần đây. Mã nguồn cũng phụ thuộc vào một vài gói Python, đáng chú ý là tiktoken của OpenAI cho triển khai bộ mã hóa token nhanh của họ. Người dùng có thể cài đặt và cập nhật phiên bản mới nhất của Whisper bằng các lệnh sau:

pip install -U openai-whisper để cài đặt phiên bản phát hành mới nhất.
pip install git+https://github.com/openai/whisper.git để kéo và cài đặt cam kết mới nhất từ kho lưu trữ này cùng với các phụ thuộc Python của nó.

Ngoài ra, người dùng cần cài đặt công cụ dòng lệnh ffmpeg trên hệ thống của mình, có sẵn từ hầu hết các quản lý gói.

Có sáu kích thước mô hình, bốn trong số đó có phiên bản chỉ dành cho tiếng Anh, cung cấp sự cân bằng giữa tốc độ và độ chính xác. Hiệu suất của Whisper thay đổi rộng rãi tùy thuộc vào ngôn ngữ. Người dùng có thể sử dụng lệnh dòng để ghi âm giọng nói trong các tệp âm thanh và có thể thực hiện ghi âm trong Python.

Nhìn chung, openai/whisper là một công cụ quan trọng trong lĩnh vực nhận dạng giọng nói và có tiềm năng ứng dụng rộng rãi trong nhiều lĩnh vực.

Công cụ AI nổi bật